Plongement lexical: un cas d'étude
From Algolit
Revision as of 13:12, 27 October 2017 by Emma (talk | contribs) (Created page with "{| |- | Type: || Etude de cas |- | Datasets: || Modifications Wikipédia |- | Technique: || Apprentissage automatique supervisé, plongement lexical |- | Développé par:...")
Type: | Etude de cas |
Datasets: | Modifications Wikipédia |
Technique: | Apprentissage automatique supervisé, plongement lexical |
Développé par: | Jigsaw |
Etude de cas: Perspective API
Screenshot du site web Perspective API (Octobre, 2017)
Perspective API est un outil d'apprentissage automatique développé par la société Jigsaw, propriété de Google, qui vise à identifier les messages toxiques dans les sections de commentaires de différentes plateformes. Le projet a été élaboré en collaboration avec Wikipédia, le New York Times, The Guardian et The Economist.
La collaboration entre Perspective API et Wikipédia se déroule sous le nom Detox. Le projet est basé sur une méthode qui combine le crowdsourcing et l'apprentissage automatique pour analyser les attaques personnelles à l'échelle. Deux intentions semblent être en jeu: une recherche sur les harcèlements dans la section Talk de Wikipedia, et la création de la plus grande base de données annotée pour les harcèlements.
Le projet utilise des techniques d'apprentissage automatique supervisé, un algorithme de régression logistique et deux jeux de données WikiHarass:
- 95M de commentaires de pages de discussion Wikipedia anglais faites entre 2001-2015
- 1M d'annotations par 4000 travailleurs foule sur 100.000 commentaires des pages de discussion Wikipedia anglais, où chaque commentaire est annoté 10 fois.
'Résultats de l'article publié par Jigsaw & Wikipedia:'
- Ceci conduit à plusieurs conclusions intéressantes: alors que les commentaires rendus anonymes ont 6 fois plus de chances d'être une attaque, ils contribuent moins de la moitié des attaques. De même, moins de la moitié des attaques proviennent d'utilisateurs avec peu de participation préalable; et peut-être étonnamment, environ 30% des attaques proviennent d'utilisateurs enregistrés avec plus de 100 contributions.
- De plus, les données de crowdsourcing peuvent également entraîner d'autres formes de biais non intentionnels.
Ceci soulève des questions clés pour notre méthode et plus généralement pour les applications de l'apprentissage automatique à l'analyse de commentaires: qui définit la vérité pour la propriété en question? Dans quelle mesure les classificateurs varient-ils en fonction de l'interlocuteur? Quel est l'impact subséquent de l'application d'un modèle avec un biais involontaire pour aider la discussion d'une communauté en ligne?
Le projet Detox comprend une section sur les biais, publiée sous le nom de "Fairness".