Comprendre les algorithmes en 10 questions

Colibri, Edgerank, ces algorithmes des GAFA  aux jolis noms doux sont hyper connus. Ils sont
au coeur des débats sur l’intelligence artificielle. Je vous propose de faire une plongée dans le sujet aujourd’hui pour mieux comprendre ce dont il est question.

Mais d’abord c’est quoi un algorithme ?

Un algorithme, c’est tout simplement la description, dans ses moindres détails, de la façon de procéder pour faire quelque chose, c’est une suite d’instructions. Cela permet de rendre une tache exécutable automatiquement, par un ordinateur.

Pourquoi parler autant des algorithmes des GAFA?

Parce que la richesse de Facebook et Google provient en partie de leurs subtils algorithmes. Ces algorithmes sont éduqués avec de grandes quantités de données et, même, avec un peu d’intelligence artificielle.

L’algorithme de Facebook EdgeRank décide en temps réel, à partir de très nombreux critères, quand une publication doit être diffusée auprès d’un utilisateur, et sa position dans le fil d’actualité. Il détermine aussi quels amis nous seront présentés, quelles publicités, et quels services nous seront proposés. Ainsi, quand une marque publie une information sur Facebook, seuls 9% de ses abonnés reçoivent l’information.

Derrière le moteur de recherche de Google, se cachent en réalité plus de 200 algorithmes. Pour apporter une réponse à votre recherche, Google prend en compte plus de 50 paramètres : votre âge, votre sexe, vos dernières recherches, la géolocalisation, et même la résolution de l’écran, ou la fréquence de vos clics, etc. Faites l’expérience avec un ami : il y a des chances qu’en tapant la même requête, vous ayez des résultats différents.

Colibri (ou Hummingbird) est un des plus importants algorithmes de Google. Il permet de comprendre une requête ou une phrase dans son ensemble. Il a intégré depuis 2015 Rankbrain, une intelligence artificielle qui est capable de comprendre le sens de requêtes similaires, formulées différemment. Parmi les autres algorithmes de Google, citons : Panda qui pénalise les sites créés uniquement pour le référencement et le spam, Penguin qui lutte contre les liens factices, Payday qui supprime les résultats pour des requêtes assimilées au spam (sites de jeux en ligne, contenu pour adultes, crédits, contrefaçon…)., Pigeon et Opossum qui favorisent les résultats de recherche locaux, Pirate qui est destiné à supprimer les sites ayant reçu des plaintes pour violation de droits d’auteurs, Mobile-Friendly qui privilégie le référencement des sites web adaptés au mobile….

Netflix utilise également un algorithme pour personnaliser les séries et les films qui vous seront recommandés. Amazon fidélise ses clients grâce à son algorithme permettant d’affiner les recommandations et augmenter le montant de leur panier moyen.

Mais ça marche vraiment?

Internetactu relate que le MIT a demandé à des étudiants de remplir un test de personnalité, le Big Five Inventory, et a ensuite cherché les corrélations entre les résultats de ce test et les données de leurs téléphones.

Le Big Five Inventory inventorie cinq grands facteurs de personnalité auxquels sont corrélés des caractéristiques comme la performance au travail, ou la capacité à prendre des décisions d’achats.

L’étude du MIT a identifié 36 indicateurs permettant de prédire le résultat du test Big Five Inventory de n’importe quel abonné. Ces facteurs sont la localisation, l’usage du téléphone, la régularité, la diversité des contacts, l’activité des utilisateurs, par exemple le temps mis à répondre à un texto…. Le modèle est relativement fiable. Il est capable, à partir des données de mobilité, de prédire votre score d’introversion d’une manière assez fidèle…

Concrètement, cela signifie qu’à partir de données de votre téléphone, on peut en déduire vos caractéristiques psychologiques!! Big Brother est bien là.

Quels sont les limites des algorithmes ?

La principale limite des algorithmes est bien connu par les statisticiens : corrélation ne veut pas dire causalité. Par exemple, une analyse simpliste pourrait vous conduire à dire qu’il ne faut surtout pas aller à l’hôpital quand on est malade, puisque la probabilité de mourir dans un lit d’hôpital est 10 fois plus grande que dans son lit à la maison. Il y a une corrélation entre le fait d’être à l’hôpital et la probabilité de mourir mais cette corrélation n’est pas une causalité.

Si un algorithme vous prédit que les tweets courts sont plus retweetés que les longs, cela ne signifie pas pour autant qu’il faut réduire vos tweets à quelques mots. C’est une prédiction, pas un conseil. Le fait que les algorithmes soient capables de faire des prédictions ne supprime pas la nécessité de creuser les liens de cause à effet d’un phénomène.

Pourquoi des voix s’expriment pour s’inquiéter des risques pour les citoyens ?

Aux Etats-Unis, les entreprises utilisent de plus en plus les tests de personnalité pour recruter. Or, nous ne connaissons pas vraiment les probabilités que calculent les algorithmes au sujet de notre identité.

Nombre d’algorithmes utilisent des approximations douteuses pour trier des données, comme utiliser des codes postaux pour estimer votre niveau de revenu ou votre origine ethnique.

Un système de crédit qui tient compte de votre code postal pourra par exemple décider d’abaisser votre score si vos voisins sont de mauvais payeurs. Cela aura pour conséquence de faire  augmenter votre taux d’intérêt, et donc d’augmenter la probabilité que vous fassiez défaut sur le prêt. Ce qui renforcera le mauvais score lié à votre code postal… La prophétie devient alors auto-réalisatrice. Souvent, les biais se renforcent les uns les autres.

On constate par exemple que les algorithmes de ciblage publicitaire de Google sont plus susceptibles de proposer aux femmes des offres d’emploi moins rémunérées, que les algorithmes de modération de YouTube ont pu avoir tendance à amplifier la circulation virale de contenus choquants, ou encore que les algorithmes de prédiction de la criminalité favorisent une surveillance accrue des quartiers pauvres afro-américains. De fait tous ces algorithmes ne font que reproduire les discriminations déjà présentes dans les données qu’on leur fournit.

Les humains ont des perceptions de la société qu’ils intègrent plus ou moins consciemment dans les logiciels qu’ils développent. Le jugement de valeur d’un algorithme est bien souvent un jugement de valeur porté par ses créateurs. L’algorithme apprend ce qu’on lui demande d’apprendre, et réplique les stéréotypes.

Des algorithmes fonctionnant avec des hypothèses inexactes pourraient donc être nocifs pour ceux qui tentent d’obtenir un emploi, un prêt, une assurance ou une location… C’est d’autant plus inquiétant qu’il risque d’être difficile pour les personnes, voire impossible, de faire modifier ces erreurs.

La mathématicienne Cathy O Neil met en garde sur son blog sur les test de recrutement qui risquent d’être une nouvelle « phrénologie ». Cette pseudoscience a tenté de trouver une association statistique entre le faciès et les moeurs et, dans ses pires dérives, a justifié le racisme et la criminalité. « Opaque, inexplicable et injuste », c’est ainsi que le monde risque de devenir si nous utilisons ces méthodes sans discernement.

Algorithme et Bureaucraties : même combat ?

L’algorithme Admission post Bac, qui jusqu’à l’année dernière permettait de hiérarchiser les choix d’orientation après le bac des étudiants français, a été très critiqué pour son opacité. Ses critères n’ont été rendu publics que sous la pression de l’association Droits des lycéens. La Présidente de la CNIL a du mettre en demeure en 28 septembre 2017 le ministère de l’Enseignement Supérieur, de la Recherche et de l’Innovation de « cesser de prendre des décisions concernant des personnes sur le seul fondement d’un algorithme et de faire preuve de plus de transparence dans son utilisation ».

Google et Facebook justifient de garder le secret sur leurs algorithmes par la nécessité de déjouer les acteurs subversifs.

On peut faire l’analogie avec la bureaucratie, qui dans ses pires excès, tend à exclure le public de ses décisions. Seuls les bureaucrates comprennent alors le fonctionnement de leur système. Cela les rend lointains, et donc encore plus insensible aux critiques. Le système devient incompréhensible et injuste pour ceux qui y sont confrontés.

Le risque est que les ingénieurs soient les seuls à comprendre le code de leurs algorithmes. Heureusement, il n’est pas nécessaire de comprendre tous les détails d’un système pour comprendre où il échoue.

C’est pourquoi de nombreuses voix plaident pour que les algorithmes s’engagent sur la voie de la transparence – avec des règles qui soient  claires, formulées uniformément et accessibles à tous, ce qui aujourd’hui n’est pas le cas. Un « responsables des algorithmes » doit être nommé pour faire l’interface entre le système techniques et ceux qui les utilisent.

Les algorithmes nous enferment ils dans une bulle de filtre ?

La troisième critique est que les algorithmes nous enferment en vase clos, dans le confort de nos propres opinions.

Google, Facebook affichent seulement les informations et nouvelles sélectionnées pour l’utilisateur, et de manière hiérarchisée selon ses prédispositions supposées (y compris idéologiques et politiques).

Si les algorithmes considèrent qu’une information n’est pas pertinente pour un internaute, elle ne lui sera simplement pas présentée. Ils réduisent ainsi notre vision du monde à ce que nous aimons déjà, ce qui peut avoir des conséquences sur la démocratie (les inquiétudes se sont vivement exprimées au moment du Brexit et de la victoire de Donald Trump).

Ceci dit, cette notion de bulle de filtre a été nuancée par les chercheurs qui indiquent que la  bulle de filtre existe avant tout dans la vrai vie: c’est celle de nos amis, de notre milieu social.

Les données sont elles vraiment le nouvel or noir?

Pour finir, certains pensent que cette science algorithmique, des données, c’est beaucoup de bruit pour rien. Quand on regarde un peu le fonctionnement des services en ligne, force est de constater que la personnalisation ressemble aujourd’hui encore à une illusion.

La publicité s’affole parfois sur notre navigateur pour nous montrer des produits qu’on a le plus souvent déjà acheté. Pourtant, tous les business models de demain continuent à reposer sur l’analyse de toujours plus de données.

Si l’on reconnaissait que la personnalisation est un échec et qu’elle ne mène nulle part, nous pourrions enfin nous attaquer à réduire l’hypersurveillance organisée.

Qu’est ce qu’on peut faire en tant que citoyen ?

On doit plaider pour des journalistes, des chercheurs, soient en capacité d’enquêter sur les méthodes et les manières de concevoir les algorithmes. Qui est derrière le programme, avec quelles méthodes a-t-il été conçu, comment a-t-il été testé ? On peut s’intéresser à l’algorithme lui-même, comment il est construit, ce qu’il fait. On peut le mettre à l’épreuve avec du reverse engineering ou bien ouvrir la boîte noire.

Parmi les initiatives vertueuses, on peut citer:

  • l’initiative TransAlgo, pilotée par l’Inria, mesure la transparence, en regardant quelles données sont utilisées, quelles données sont produites, à quel point le code est ouvert…
  • DataIA est un institut de convergence sur les données initié sur le plateau de Saclay pour une durée de 10 ans. Ce programme nterdisciplinaire comprend des recherches sur les algorithmes en intelligence artificielle, leur transparence et les enjeux éthiques.

Pour aller plus loin, je vous conseille la lecture d’un article d’internet actu sur la question de la responsabilité des algorithmes et mon article sur l‘intelligence artificielle en 4 questions.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *