Sebastien Magro

Tag: enceintes connectées

Enceintes connectées : l’IA n’existe pas

Que se passe-t-il quand vous demandez à Siri l’âge de Donald Trump ? Comment Google Home transmet-il à l’ampoule de votre salon l’ordre de s’éteindre ? Qui explique à Alexa où trouver votre morceau favori sur Spotify ? En dépit des fantasmes d’algorithmes tout-puissants, assistants vocaux et enceintes connectées nécessitent, dès leur création, une importante intervention humaine.

Ce samedi après-midi de décembre, avec ma sœur et ses enfants, nous ne sommes pas l’unique famille à venir visiter la galerie de paléontologie du Muséum national d’Histoire naturelle. Il faut bien occuper les 45 minutes passées à faire la queue dans le froid. L’un de mes neveux, 8 ans, demande au smartphone de sa mère : « OK Google, images de tricératops ». Sans attendre, des images de dinosaures à trois cornes s’affichent sur l’écran. Devant la facilité déconcertante avec laquelle son fils utilise ce service, lui qui ne maîtrise pas encore tout à fait le clavier et dont l’orthographe est pour le moins créative, ma sœur me demande, l’œil goguenard : “Dis tonton, comment ça marche un assistant vocal ?” Ça tombe bien, la file avance lentement et un panneau annonce encore 30 minutes d’attente…

Anatomie d’une intelligence artificielle

Google Assistant, Siri ou Cortana sont présents dans nos smartphones et nos ordinateurs. Selon Google, 20 % des requêtes seraient actuellement faites avec la voix. Les assistants vocaux équipent également les enceintes connectés proposées par les GAFAM (Google, Apple, Facebook, Amazon et Microsoft) : Google Home, HomePod ou encore Amazon Echo. En 2018, on trouve leurs courbes sobres ou leurs couleurs high-tech (voir encadré) dans les foyers de plus d’1,7 million de français·e·s.

Une enceinte connectée, c’est un ordinateur sans écran et sans clavier

Les enceintes connectées sont équipées d’une alimentation électrique, d’un microprocesseur (le « cerveau » qui effectue les calculs), d’une connexion internet et d’un microphone : ce sont des ordinateurs. Et, comme les ordinateurs et les smartphones, elles s’appuient sur un système d’exploitation. Si vous utilisez un PC, vous êtes sans doute « sous Windows » ; si vous avec un Mac, vous connaissez Mac OS X ; si vous utilisez un iPhone, c’est iOS et si ce n’est pas le cas, c’est sans doute Android, le système de Google. De même, comme Google Home est équipé de Google Assistant, Apple HomePod s’appuie sur Siri tandis qu’Alexa anime les enceintes Amazon Echo (mais également 200 000 autres produits, pas tous vendus par Amazon). Enfin, Cortana est l’assistant vocal proposé par Microsoft. Ce sont des logiciels propriétaires : leur code est fermé et ne peut être consulté si vous n’êtes pas employé·e ou sous-traitant·e de l’entreprise qui les commercialise.

<span style="display: inline-block; width: 0px; overflow: hidden; line-height: 0;" data-mce-type="bookmark" class="mce_SELRES_start"></span>

Le modèle de Google Assistant, c’est l’ordinateur central qui répond aux capitaines des vaisseaux de « Star Trek », et la firme de Mountain View ne s’en cache pas. “Comme J.A.R.V.I.S., qui accompagne Tony Stark dans son armure d’Iron Man”, précise l’un de mes neveux. Les intelligences artificielles (IA) qui s’activent à la voix ne se limitent d’ailleurs plus à la science-fiction, puisque dans la comédie dramatique « Her » de Spike Jonze, Scarlett Johansson prête sa voix à Samantha.

Les assistants vocaux s’activent à l’aide d’un wake word, littéralement, « un mot qui réveille » : « OK Google », « Dis Siri » ou « Alexa » (ce qui n’est pas sans poser de problème si c’est votre prénom). Pourquoi la voix ? Parce qu’elle est jugée plus rapide : 210 mots à la minute contre 70 à l’écrit. Mais aussi parce qu’elle permet de lancer une tâche lorsque les mains sont déjà occupés à cuisiner, à bricoler ou à faire le ménage.

Les assistant vocaux s’activent à l’aide d’un wake word, littéralement, « un mot qui réveille ».

Une fois l’enceinte activée, les utilisateur·trice·s peuvent exprimer leur demande. Comme pour toute requête dans un moteur de recherche, la connexion internet est indispensable pour transmettre les données aux serveurs de la marque, majoritairement situés aux États-Unis pour les géants du numérique. L’étape suivante est appelée speech to text : l’IA transcrit la commande vocale en une demande écrite, qui va elle-même subir un traitement statistique permettant d’en identifier les mots-clés.

En vidéo | Science-fiction, les IA au cinéma

Par exemple, dans la phrase « Alexa, commande-moi une pizza quatre fromages », l’enceinte envoie un enregistrement sonore aux serveurs d’Amazon. Ces quelques mots sont alors analysés par l’IA, qui identifie commande, pizza et quatre-fromages comme les mots-clés pour rechercher un restaurant susceptible de livrer chez vous, en se basant sur votre géolocalisation. Enfin, Alexa répond avec une proposition (et non des centaines de pages comme le ferait un moteur de recherche sur écran). C’est l’opération inverse, text to speech, qui nécessite que la machine transforme une information écrite en son, à l’aide d’un synthétiseur vocal.

Les chercheur·se·s Kate Crawford et Vladan Joler proposent un schéma très exhaustif détaillant l’anatomie d’une IA, en y intégrant matières premières nécessaires, infrastructures techniques, corps de métier sollicités et niveau de rémunération. Je vous propose ici une version plus légère, qui se concentre sur le chemin parcouru par l’information lors d’une requête auprès d’une enceinte connectée.

Que se passe-t-il lorsque vous posez une question à une enceinte connectée ? / Sébastien Magro, 2019

Des enceintes connectées, mais pas si intelligentes

« Les IA ont besoin d’apprendre et, pour cela, elles s’appuient sur le machine learning, ou apprentissage machine », précise le sociologue Antonio Casilli, enseignant à Telecom ParisTech et chercheur associé à l’EHESS. « Cette technique consiste à proposer à l’ordinateur suffisamment d’exemples, pour voir émerger des patterns. » Il faut notamment que la machine identifie des schémas récurrents, c’est-à-dire qu’elle « comprenne » les différentes tournures de phrases pour une même commande, et qu’elle intègre les variantes de prononciations et d’accents.

Contrairement aux êtres humains, qui apprennent à partir d’exemples peu nombreux, il faut plusieurs milliers de requêtes pour que les intelligences artificielles « apprennent ».

Dans la file d’attente du Muséum, nous dépassons une statue de stégosaure qui joue à cache-cache dans les fougères. À partir d’ici, on nous promet 15 min d’attente. Ma sœur : “Donc, si je comprends bien, les enceintes connectées ne sont pas intelligentes, elles ont besoin qu’on les entraîne, c’est ça ?” En effet, demander à Siri de noter un rendez-vous, rechercher l’adresse d’un musée grâce à Alexa ou commander un Uber avec « OK Google » : tout cela participe à améliorer les IA qui équipent ces services. De même, vérifier les résultats proposés par une enceinte, à partir d’un smartphone ou d’un ordinateur, améliore ses réponses à venir. En somme, c’est un travail que les utilisateur·trice·s fournissent gratuitement aux constructeurs.

[su_box title=”À quoi ces objets doivent-ils ressembler ?”]

Comment dessiner un objet qui obéit à la voix, sans être manipulé ? Deux tendances émergent :

Enceinte connectée Google Home / photo Google

• Google fait le choix de l’objet familier dont les formes évoquent la décoration intérieure, voire le soin. Les courbes et les couleurs neutres, « naturelles », dominent l’ensemble de l’offre. L’enceinte de milieu de gamme, Google Home, n’est pas sans évoquer un diffuseur d’huiles essentielles, tandis qu’à l’entrée de gamme, Google Home Mini est un simple galet, sans angle saillant.
• De leur côté, Apple et Amazon assument la référence à la science-fiction avec des formes plus futuristes. Le vocabulaire est résolument technique : les enceintes HomePod et Amazon Echo sont noires ou blanches, avec des touches lumineuses de couleurs vives, par exemple quand Siri écoute, ou lorsqu’Alexa traite une question.

[/su_box]

Les êtres humains derrière les machines

En l’état actuel des choses, l’intelligence artificielle n’est donc pas autonome : elle repose principalement sur le travail d’êtres humains. Avant la commercialisation de ces services, les algorithmes qui traitent les données sont programmées par des ingénieur·e·s. Puis, pendant leur utilisation, ces programmes sont régulièrement “entraînés” par leurs utilisateur·trice·s. Mais d’autres humain·e·s interviennent : des centaines de milliers de personnes, principalement basées dans les pays émergents, traitent également les données, produites majoritairement par les utilisateur·trice·s des pays riches, le plus souvent pour des salaires dérisoires.

Derrière les assistants vocaux qui équipent les enceintes connectées, des travailleur·se·s du clic.

Les travailleur·se·s du clic ne sont que très rarement employé·e·s par les GAFAM, car ces fonctions sont souvent délocalisées et externalisées à travers des chaînes de sous-traitance. La plupart sont recruté·e·s pour des contrats à durée déterminée ou payé·e·s à la pièce. Parmi les tâches qui leur sont proposées figure la comparaison de deux fichiers : une piste son, de quelques secondes à peine, prononcée par l’utilisateur·trice et le texte “compris” par la machine. Les travailleur·se·s du clic doivent le corriger si nécessaire, et l’annoter avec des mots-clés pour le rendre traitable par l’algorithme.

À écouter | Antonio Casilli, sociologue : « Les intelligences artificielles ont besoin d’être entraînées »

Ces personnes réalisent jusqu’à 180 micro-tâches par heure, soit plusieurs milliers par jour. Elles sont peu payées : quelques centimes d’euros lorsqu’elles vivent en Europe mais encore moins dans les pays asiatiques, africains ou d’Amérique du Sud où l’on parle de centimes de centimes par tâche. Les plus aisé·e·s se connectent depuis leur foyer, car elles et ils disposent des meilleurs équipements informatiques. Mais beaucoup travaillent depuis les cybercafés, à l’université ou à l’école. Les régions les plus concernées sont Madagascar et l’Afrique de l’Ouest pour le traitement des données francophones ; pour les anglophones, c’est l’Asie pacifique, avec notamment l’Inde et les Philippines.

Pour ces personnes, il est impossible de créer les solidarités professionnelles qui émergent lorsqu’on travaille à l’usine ou dans un bureau. La plupart d’entre elles ne savent pas que des milliers de travailleur·se·s assurent les mêmes tâches. Antonio Casilli précise : « S’ils en ont conscience, c’est au niveau local, avec les 4 ou 5 personnes qui les ont initiées au micro-travail. ». L’éclatement géographique joue aussi, car les plateformes de micro-travail suivent le soleil : lorsque la journée se termine dans la Silicon Valley, elle commence à Hyderabad, en Inde, ce qui permet un service continu.

[su_box title=”Dans les coulisses de Cortana : témoignage de Julie, transcriber“]
En mai 2018, La Quadrature du Net, association de lutte pour les libertés en ligne, rapporte le témoignage de Julie, opératrice pour un sous-traitant de Microsoft. En 2017, pendant 8 mois, elle a été transcriber, c’est-à-dire transcriptrice : elle écoutait de courtes séquences enregistrées par Cortana, puis vérifiait leur transcription écrite pour s’assurer que l’intelligence artificielle avait bien compris le sens des phrases.

[/su_box]

L’intervention humaine par micro-tâches se soustrait à l’IA au point que, pour Antonio Casilli, une partie de l’intelligence artificielle est elle-même artificielle : lorsque la machine n’est pas en mesure de comprendre une requête, des personnes prennent le relais et saisissent “à la main” la demande dans la base de données.

À lire aussi | Enceintes connectées et confidentialité des données : entretien avec Nina Gosse, avocate

Pour le moment, le modèle économique des enceintes connectées repose majoritairement sur la récolte et la commercialisation des données des utilisateur·trice·s – surtout pour Google et Amazon, moins pour Apple et Microsoft. Le traitement de ces données permet un profilage précis qui peut être vendu aux marques pour qu’elles diffusent de la publicité ou des partenariats commerciaux sur les enceintes connectées. Si l’on reprend l’exemple de la commande de pizza, Amazon propose déjà cette fonctionnalité pour Alexa, en partenariat avec Domino’s. Les fabricants d’enceintes connectées n’ont donc pas intérêt à ce que l’importance de l’intervention humaine soit connue : ils doivent entretenir l’image de produits innovants pour continuer de séduire une clientèle issue des classes moyennes et supérieures.

L’intelligence artificielle autonome est encore loin

Les enceintes connectées et les assistants vocaux peuvent rendre bien des services, mais ces objets ne sont pas magiques. Comme pour la plupart des outils numériques, les utilisateur·trice·s ignorent souvent que leur usage a un coût économique et humain, ainsi qu’un impact écologique. En prendre conscience amène à faire des choix en conséquence. Quant à une intelligence artificielle parfaitement autonome, même les géants de la Silicon Valley en sont encore loin – n’en déplaise aux plus angoissants scénarios des films de science-fiction.

Nous passons le guichet de la galerie de paléontologie, l’attente se termine. Ma sœur reprend son téléphone : “Vous n’en aurez pas besoin dans le musée, tonton et moi allons vous faire la visite…”.

16 February 2019
Enceintes connectées et confidentialité des données : entretien avec Nina Gosse, avocate

Quels sont les enjeux juridiques qui entourent les enceintes connectées et les assistants vocaux ? En écho à mon enquête sur les humain·e·s derrière les robots, j’ai rencontré l’avocate Nina Gosse, qui intervient principalement en droit de la propriété intellectuelle et les technologies d’information et de communication, au sein du cabinet De Gaulle Fleurance & Associés. Elle travaille notamment sur les problématiques liés à la vie privée et, plus largement, à l’exploitation des données.

Concrètement, quels sont les risques en termes de confidentialité des données pour les utilisateur·trice·s des enceintes connectées ? À quoi s’exposent-ils et elles ?

Les enceintes connectées sont destinées à être pleinement intégrées à nos vies quotidiennes et donc à « connaître » notre intimité. Les points de vigilance concernent la confidentialité des échanges, qu’une enceinte pourrait enregistrer, ainsi qu’une éventuelle utilisation commerciale des données de l’utilisateur, un profilage publicitaire de ce dernier sur la base de ses interactions avec son enceinte. Bien sûr, il ne s’agit là que de « risques » et non d’un constat absolu.

Ce qui est essentiel, en revanche, c’est que les utilisateur·trice·s soient mis en mesure de comprendre l’utilisation qui est faite de leurs données et des paramétrages possibles de leurs enceintes. À cet égard, on observe une prise de conscience progressive au sein du public, qui doit trouver comme réponse une véritable éducation au numérique, tant des pouvoirs publics que des entreprises. La confiance sera toujours source de valeur ajoutée.

Il est essentiel que les utilisateur·trice·s soient en mesure de comprendre l’utilisation qui est faite de leurs données et des paramétrages possibles de leurs enceintes

Apple HomePod / photo Apple

La sécurité est aussi très importante dans la mesure où il est établi que les objets connectés sont en proie aux risques de piratage : dès lors que se connecter à internet devient une fonction intégrante d’objets du quotidien, les concepteurs de ces équipements doivent faire face aux risques de « cyber » attaques. Des spécialistes de la sécurité ont mis en garde contre ce nouveau type d’attaque après avoir recensé plusieurs milliers d’enceintes connectées contrôlables à distance. Dans le pire des cas, cela permettrait par exemple de contrôler des serrures grâce à une commande vocale intégrée…

Un objet connecté peut aussi être une ressource pour un hacker mal intentionné qui pourrait lui faire envoyer d’énormes volumes de données vers des sites officiels, dont les serveurs tomberaient alors sous le poids des requêtes (attaque par déni de service ou DDoS). Il faut donc sécuriser l’internet des objets pour gagner la confiance des utilisateurs. À cet égard, l’Union européenne est en train de créer un nouveau cadre européen de certification de cybersécurité des produits.

Quel cadre juridique protège les données des utilisateur·trice·s des enceintes connectées ? Le RGPD, entré en application en mai 2018 à l’échelle européenne, est-il applicable à ces objets ? Si oui, comment protège-t-il les Européen·ne·s ?

Les règles applicables en matière de protection des données personnelles ont effectivement vocation à s’appliquer. Le traitement des données vocales sera d’autant plus sensible en présence d’un système de reconnaissance de la voix de l’utilisateur·trice (biométrie vocale). En France, ce droit reposait jusqu’ici essentiellement sur la Loi Informatique et Libertés. Comme vous l’indiquez, il faut aussi compter à présent sur le RGPD, directement applicable dans tous les États membres depuis le 25 mai 2018. Ce dernier concerne tout acteur traitant des données personnelles s’il est (i) établi au sein de l’Union européenne ou, (ii) propose ses produits ou services à des personnes situées dans l’Union ou encore, (iii) suit les comportements sur internet de personnes situées dans l’Union.

Les assistants vocaux peuvent apparaître aux yeux des utilisateur·trice·s comme des « boîtes noires ».

Le RGPD renforce les obligations des fabricants d’enceintes connectées ou de concepteurs de logiciels : par exemple, fournir une information précise et intelligible aux utilisateurs, sécuriser toute la chaîne de traitement des données, notifier les éventuelles failles de sécurité… Le RGPD offre également plus de droits aux personnes sur l’utilisation qui est faite de leurs données. Concernant l’obligation d’information, les assistants vocaux peuvent apparaître aux yeux des utilisateurs comme des « boîtes noires », c’est-à-dire que leur fonctionnement parait opaque (comme beaucoup d’autres technologies innovantes). De manière générale, parvenir à expliquer ce genre d’outils aux personnes est un véritable défi.

À lire aussi | Enceintes connectées : l’IA n’existe pas

Toutefois, il est important de souligner que le RGPD, dans son contenu, ne révolutionne pas le droit applicable. Pour autant, en prévoyant notamment une hausse notable des sanctions et en obligeant les organisations à mettre en place de véritables procédures de gestion des données, il implique des efforts et investissements très importants pour beaucoup d’entre elles. D’autres textes sont pertinents, notamment le futur Règlement européen dit « e-privacy » qui vise à protéger les données de communications électroniques et réguler le tracking sur les terminaux des utilisateurs. On peut aussi penser aux règles protectrices des consommateurs ou celles relatives à la cybersécurité.

Google Home Max / photo Google.

Les entreprises qui dominent le marché sont états-uniennes, quels sont les recours juridiques dont les Européen·ne·s bénéficient en cas de contentieux ? Y a-t-il des conflits entre les juridictions ?

Le champ d’application territorial du RGPD fait que celui-ci pourra s’appliquer à des sociétés établies aux États-Unis, soit parce qu’elles ont un établissement au sein de l’Union, soit parce qu’elles s’adressent au marché européen ou encore parce qu’elles « profilent » ses ressortissants. Le RGPD garantit le droit des personnes concernées à un recours au juge et rappelle que ces dernières pourront saisir une juridiction (ou une autorité de contrôle) de l’État Membre dans lequel elles sont établies. Le RGPD introduit, en outre, la possibilité de mener des actions collectives.

Par ailleurs, en droit de la consommation, sont présumées abusives les clauses qui suppriment ou entravent l’exercice d’actions en justice ou des voies de recours par le consommateur. C’est d’ailleurs dans ce sens que s’était prononcée, en 2016, la Cour d’appel de Paris dans l’affaire opposant Facebook à un utilisateur qui avait publié sur son mur une photographie de l’œuvre « L’Origine du monde » de Gustave Courbet. Tout comme le juge en première instance, le 12 février 2016, la Cour d’appel a jugé que la clause attributive de compétence des CGU (conditions générales d’utilisation) de Facebook au juge californien en cas de contentieux était inopposable à ses utilisateurs en France.

On a vu récemment un utilisateur allemand d’Alexa recevoir les informations de connexion d’un autre utilisateur, après avoir réclamé un export des données le concernant. Avez-vous connaissance de cas similaires en France ? Si oui, comment ont-ils été abordés ?

Amazon Echo Dot / photo Amazon

A priori, cet utilisateur a exercé son droit d’accès auprès de la société Amazon pour connaître les données que l’entreprise détenait sur lui (article 15 du RGPD) et Amazon se serait trompée en lui communiquant un fichier d’un autre utilisateur. Il s’agit d’une erreur humaine dont l’écho médiatique démontre à quel point le sujet est devenu sensible et comment, indépendamment de toute sanction, une mauvaise gestion de ces sujets peut entacher l’image d’une marque, a fortiori d’une entreprise innovante.

Je n’ai pas connaissance de cas similaire mais je conseillerais dans un pareil cas de notifier immédiatement la CNIL de cet incident s’il peut entraîner un risque pour la personne concernée voire, auprès de cette dernière, dès lors qu‘il s’agit d’une atteinte à la confidentialité des données (même par négligence) et que cela limitera le bad buzz.

La CNIL est méfiante sur le principe des micros ouverts en permanence, et suggère aux utilisateur·trice·s d’éteindre, voire de débrancher les enceintes lorsqu’elles ne sont pas utilisées. Google, Apple et Amazon précisent que leurs produits sont équipés de boutons permettant d’interrompre manuellement les micros. Qu’en pensez-vous ?

Il est effectivement important de choisir des équipements qui proposent une désactivation. Les enceintes sont programmées pour détecter les mots-clés et enregistrer nos demandes, seule la désactivation permettra d’éviter les enregistrements non souhaités. De manière générale, les fabricants d’objets connectés ont tout intérêt à mettre l’utilisateur en capacité de décider.

16 February 2019
Antonio Casilli, sociologue : « Les intelligences artificielles ont besoin d’être entraînées »

Couverture de l’ouvrage “En attendant les robots” d’Antonio A. Casilli / photo Sébastien Magro

“OK Google”, “Dis Siri”, “Alexa…” Ces quelques mots, vous les avez entendu autour de vous, ou peut-être les prononcez vous-même régulièrement. Les assistants vocaux proposés par les GAFAM – les fameux Google, Apple, Facebook, Amazon et Microsoft – prennent de plus en plus de place dans notre quotidien. Ils équipent nos smartphones mais s’invitent également à la maison, à travers les enceintes connectées que les géants du numérique commercialisent depuis 2014.

Derrière ces intelligences artificielles, il y a souvent des êtres humains, en chair et os, qui traitent nos données et ce, pas toujours dans les meilleures conditions. Pour en parler, je suis allé rencontrer Antonio Casilli, sociologue, enseignant-chercheur à Télécom ParisTech et chercheur associé à l’EHESS, et qui vient de publier l’enquête “En attendant les robots”, aux éditions du Seuil (janvier 2019).

[su_box title=”Entretien avec Antonio Casilli”]

[su_audio url=”http://blog.sebastienmagro.net/wp-content/uploads/2019/02/ITW-AAC-FINAL.mp3″]

[/su_box]

À lire aussi | Enceintes connectées : l’IA n’existe pas

16 February 2019