Résoudre les biais n’est pas si simple ! | Hubert Guillaudhttps://hubertguillaud.wordpress.com/2023/11/28/resoudre-les-biais-nest-pas-si-simple/
Résoudre les biais n’est pas si simple !
Pour AlgorithmWatch, le journaliste John Albert (@jaalbrt) a enquêté sur la façon dont Meta vient de proposer de résoudre un de ses biais algorithmique récurrent, à savoir le fait que la publicité ciblée désavantage certaines catégories de publics en ne proposant pas certains produits à certains publics, par exemple, des offres immobilières à certains publics de couleurs selon leur localisation, des offres d’emplois de camionneurs à des femmes… Un biais documenté depuis longtemps et qui a donné lieu à des poursuites des autorités américaines, dès 2019 par le ministère du logement américain, qui avait conduit Facebook a débrancher certaines catégories du ciblage publicitaire, comme l’âge, le genre, le sexe ou les caractéristiques éthniques ou religieuses de certains types de publicités, notamment celles consacrées au logement, à l’emploi et au crédit. En juin 2022, Facebook avait réglé ce différend en acceptant de payer une amende (115 000$) et en s’engageant à développer un système pour débiaiser les publicités immobilières.
Car la disparition des catégories de ciblage de la population ne suffit pas : l’algorithme publicitaire de Facebook est capable de comprendre que les femmes cliquent moins sur les publicités proposant un emploi de camionneur et donc ne pas le leur proposer. Il reproduit et amplifie ainsi les biais existants en désavantageant certains publics déjà marginalisés. Or, cette discrimnation automatisée est illégale puisque le droit interdit la discrimination, notamment sur des critères protégés comme la race, l’âge ou le sexe. La difficulté, bien sûr, c’est que cette discrimination est particulièrement invisible, puisque les gens qui pourraient contester l’inéquité de la diffusion publicitaire n’y ont absolument pas eu accès, puisqu’ils ne voient même pas les pubs qu’ils auraient du voir !
Pour corriger les biais, il faut pouvoir les mesurer !
Suite à ce règlement, Meta a donc créé et déployé un nouvel algorithme, un “système de réduction de la variance” (VRS) pour tenter de limiter les biais de ses algorithmes d’apprentissage automatique dans son système de ciblage et de diffusion publicitaire. “Au lieu d’optimiser les clics, le VRS est conçu pour optimiser la “précision” égale de la diffusion des publicités sur les publics cibles éligibles. Une fois qu’une publicité est vue par suffisamment d’utilisateurs, le VRS mesure l’âge global, le sexe et la “répartition estimée de la race ou de l’origine ethnique” de ceux qui ont déjà vu la publicité et les compare avec le public éligible plus large qui aurait pu potentiellement voir la publicité, puis ajuste ensuite la diffusion des annonces en conséquence”. En gros, Meta corrige ses biais en regardant ses biais de diffusion. Super ! me direz-vous ! Sauf que ce n’est pas si simple car les biais de diffusion dépendent justement de la diffusion et des moyens pour la mesurer et la corriger, et cela varie beaucoup d’une catégorie d’annonce l’autre, d’un territoire où elle est diffusée l’autre.
Un rapport de conformité produit par le cabinet Guidehouse affirme que le VRS de Meta fonctionne comme prévu. Mais les lacunes du rapport rendent ces affirmations difficiles à vérifier, estime John Albert pour AlgorithmWatch. En fait, les publicités discriminatoires continuent de sévir sur Facebook dans des domaines autres que le logement, ainsi que dans d’autres pays que les Etats-Unis comme les pays européens, où il est peu probable que le VRS soit mis en œuvre, notamment parce que le système de correction n’est pas si simple à mettre en oeuvre, on va le voir.
Pour Daniel Kahn Gillmor, défenseur de la vie privée et technologue à l’ACLU, ce rapport très technique montre que Guidehouse n’a pas eu accès aux données de Meta et n’a accompli son travail que depuis des résultats fournis par Meta. Pour le chercheur Muhammad Ali, un des auteurs de l’étude de 2019 qui avait conduit à dénoncer le problème du ciblage publicitaire discriminatoire sur Facebook, il y a un vrai effort derrière le VRS, mais la correction est particulièrement complexe et particulièrement limitée puisqu’elle ne s’appliquera qu’aux annonces de logement. Si Meta a annoncé vouloir l’appliquer aux annonces portant sur l’emploi et le crédit, il est peu probable qu’il s’étende à d’autres catégories et au-delà des Etats-Unis, car le VRS pour appliquer ses corrections sur les annonces immobilières doit mobiliser des données spécifiques, en l’occurrence les données du recensement américain afin de calculer l’origine ethnique des audiences publicitaires selon leur localisation pour les corriger ! Pour chaque correction des publics, il faut pouvoir disposer de correctifs ! Un système de ce type ne pourrait pas fonctionner en Inde par exemple, où il n’y a pas de données géolocalisées sur les castes par exemple, ou en France où l’on ne dispose pas de données ethniques. Corriger les biais nécessite donc de fournir les systèmes en données générales, par exemple des données sur l’origine ethniques des populations qui ne sont pas disponibles partout. Sans compter que ces corrections qui visent à réduire les écarts de performance entre groupes démographiques risquent surtout de produire un “égalitarisme strict par défaut”, qu’une forme d’équité.
Enfin, il y a d’innombrables autres biais dans les catégories de publics que ces systèmes produisent à la volée, par exemple quand une personne est identifiée comme s’intéressant aux jeux d’argent et de paris en ligne et qui va être sur-sollicitée sur ces questions, au risque de renforcer ses dépendances plutôt que de le protéger de ses vulnérabilités (ou d’autres vulnérabilités, comme le montrait The Markup, quand ils analysaient les catégories de la plateforme publicitaire Xandr – j’en parlais là), et l’amplification des biais risque d’être encore plus forte et plus difficile à corriger quand les publics cibles sont particulièrement spécifiques. Sans compter que finalement, c’est le but du ciblage publicitaire de produire des catégorisations et donc de la discrimination : ainsi quand on cherche à montrer une annonce à des cibles ayant tel niveau de revenu, c’est bien à l’exclusion de tous les autres (pour autant que ce ciblage fonctionne, ce qui est bien plus rarement le cas qu’énoncé, comme je l’évoquais en observant les troubles du profilage).
Selon la loi européenne sur les services numériques, les plateformes ne sont plus autorisées à cibler des publicités en utilisant des catégories de données “sensibles”, comme la race, le sexe, la religion ou l’orientation sexuelle et doivent atténuer les risques systémiques découlant de leurs services. Reste que l’approche extrêmement fragmentaire de Meta pour atténuer les biais, tels que le propose le VRS, risque d’être difficile à appliquer partout, faute de données permettant de corriger les biais disponibles. Le débiaisage pose la question de quelles corrections appliquer, comment les rendre visibles et jusqu’où corriger ?
Plutôt que des rapports, protéger les chercheurs !
Cette analyse sur comment Meta peine à débiaiser a d’autres vertus que de nous montrer les limites intrinsèques du débiaisage. Elle permet également de constater que la réponse réglementaire n’agit pas au bon niveau. En effet, si le DSA européen prévoit que les plateformes se soumettent à des audits indépendants – à l’image de ce que vient de produire Guidehouse pour Meta en contrôlant comment les plateformes se conforment à l’obligation d’identifier et d’atténuer les risques et les discriminations -, le risque est fort que ce contrôle produise beaucoup d’audit-washing, les plateformes définissant les normes de leurs contrôles (et pour l’instant chacune le fait différemment), choisissant leurs auditeurs et produisant les données qu’elles souhaitent partager. Pour l’instant, nous sommes confrontés à des mesures d’audit mal définies qui risquent surtout d’être mal exécutées, expliquent dans un rapport sur le sujet pour le German Marshall Fund, les spécialistes Ellen Goodman et Julia Trehu en rappelant les règles de l’audit et en pointant l’exemplarité du cadre d’audit définit par la cour des comptes hollandaise lors de l’inspection de plusieurs algorithmes utilisés par les services publics. Les spécialistes insistent sur la nécessité de fournir un cadre, des normes, des critères de certification établies par un régulateur pour garantir la qualité des audits.
Or, comme l’explique très pertinemment John Albert, les rapports de conformité ne remplacent pas un examen externe. A terme, nous risquons surtout d’être inondés de rapports de conformités tous plus complexes les uns que les autres, à l’image [des rapports sur la transparence des plateformes que vient de recueillir la commission européenne](https://digital-strategy.ec.europa.eu/en/news/very-large-online-platforms-and-search-engines-publish-first-transparency-reports-under-dsa#:~:text=The transparency reports must include,of orders they receive from) qui ne nous apprennent pas grande chose et ne semblent pas un levier pour changer les choses (on a appris seulement le nombre de modérateurs officiels des plateformes, comme l’explique le Monde, ou encore les catégories de modérations… mais, comme le souligne TechPolicyPress, aucun rapport n’évoque d’autres questions inscrites au DSA européen, comme des informations sur comment les plateformes interdisent la publicité aux enfants, comment elles comptent faciliter la possibilité de se désinscrire des systèmes de recommandation, ou quelles solutions de partages de données avec la recherche ou les autorités comptent-elles mettre en place. Aucune non plus n’a mis en place d’audit des risques systémiques). Comme l’explique la journaliste Gaby Miller dans un autre article de TechPolicyPress, la commission européenne devrait envisager d’expliciter les lignes directrices des informations qu’elle attend de ces rapports, afin qu’ils puissent être plus comparables entre eux.
Le caractère très limité des informations fournies par les plateformes ne suffiront pas. “La neutralité supposée des plateformes dépend de notre capacité à les surveiller”, disions-nous. Il faut pouvoir se doter d’audits contradictoires, véritablement indépendants, capables de tester les systèmes algorithmiques des plateformes, de mesurer et de réagir aux problèmes. Pour cela, il faut que ces grandes entreprises permettent aux chercheurs de chercher, de collecter des données, de recruter des utilisateurs pour produire des mesures indépendantes et ce n’est pas ce à quoi nous assistons actuellement, où les plateformes se ferment bien plus à la recherche qu’elles ne s’y ouvrent ! Pour cela, il faudrait que les autorités offrent des protections aux chercheurs, insiste John Albert : “Tant que nous n’aurons pas mis en place des protections légales pour les chercheurs d’intérêt public et que nous n’aurons pas sécurisé les voies d’accès aux données des plateformes, nous serons obligés de nous occuper des auto-évaluations et des rapports d’audit des plateformes. Un flot de ces rapports est en route. Mais ces mesures ne remplacent pas une recherche véritablement indépendante, essentielle pour tenir les plateformes responsables des risques que leurs services font peser sur la société.”
Hubert Guillaud