Actions

Récits contextualisés autour des Nettoyeurs

From Algolit

Revision as of 18:58, 6 March 2019 by An (talk | contribs)

Projet Gutenberg et Distributed Proofreaders

Le projet Gutenberg est notre grotte d'Ali Baba. Il offre plus de 58 000 livres électroniques gratuits à télécharger ou à lire en ligne. Les œuvres sont acceptées sur Gutenberg lorsque leur droit d'auteur américain a expiré. Des milliers de bénévoles numérisent et relisent des livres pour aider le projet. Une partie essentielle du travail est réalisée dans le cadre du projet Distributed Proofreaders. Il s'agit d'une interface Web pour aider à convertir les livres du domaine public en livres électroniques. Pensez aux fichiers texte, aux e-pubs, aux formats Kindle. En divisant la charge de travail en pages individuelles, de nombreux bénévoles peuvent travailler sur un livre en même temps, ce qui accélère le processus de nettoyage.

Pendant la relecture, les volontaires reçoivent une image numérisée de la page et une version du texte, qui est lue par un algorithme de reconnaissance optique des caractères (OCR) formé pour reconnaître les lettres dans les images. Cela permet de comparer facilement le texte à l'image, de le relire et de le renvoyer sur le site. Un deuxième volontaire se voit ensuite présenter le travail du premier volontaire. Il vérifie et corrige le travail si nécessaire, et le soumet au site. Le livre passe ensuite par un troisième cycle de relecture et deux autres cycles de mise en page à l'aide de la même interface Web. Une fois que toutes les pages ont terminé ces étapes, un post-processeur les assemble soigneusement dans un e-book et les soumet à l'archive du Projet Gutenberg.

Nous avons collaboré avec le Distributed Proofreaders Project pour nettoyer les fichiers numérisés que nous avons reçus de la collection du Mundaneum. De novembre 2018 jusqu'à la première mise en ligne du livre "L'Afrique aux Noirs" en février 2019, An Mertens a échangé environ 50 courriels avec Linda Hamilton, Sharon Joiner et Susan Hanlon, toutes bénévoles du Distributed Proofreaders Project. La conversation complète est publiée dans le catalogue. Cela pourrait vous inspirer à partager des livres non disponibles en ligne.

Une version algolittéraire du Manifeste sur l’entretien

En 1969, un an après la naissance de son premier enfant, l'artiste new-yorkaise Mierle Laderman Ukeles a écrit un Manifeste pour l'entretien. Le Manifeste d'Ukeles appelle à une réévaluation de l'état des travaux d'entretien dans l'espace privé, domestique et public. Ce qui suit est une version modifiée de son texte inspirée par le travail des Nettoyeurs.

IDÉES

A. L'instinct de mort et l'instinct de vie :

L'Instinct de la Mort : séparation ; catégorisation ; Avant-garde par excellence ; suivre le chemin prédit vers la mort - exécuter son propre code ; changement dynamique.

L'Instinct de Vie : l'unification ; le retour éternel ; la perpétuation et l'ENTRETIEN de la matière ; les systèmes et opérations de survie ; l'équilibre.

B. Deux systèmes de base : Développement et entretien. La boule de cristal de chaque révolution : après la révolution, qui va essayer de repérer le biais dans la production ?

Développement : pure création individuelle ; le nouveau ; le changement ; le progrès ; l'avancée ; l'excitation ; la fuite ou la fuite.

Entretien : garder la poussière de la création individuelle pure ; préserver le nouveau ; soutenir le changement ; protéger le progrès ; défendre et prolonger l'avancée ; renouveler l'excitation ; répéter le vol ; montrez votre work-show à nouveau ; gardez le référentiel git groovy ; gardez l'analyse des données révélatrice.

Les systèmes de développement sont des systèmes de rétroaction partielle avec une grande marge de changement.

Les systèmes d'entretien sont des systèmes à rétroaction directe avec peu de possibilités de modification.

C. L'entretien est une corvée, ça prend tout le temps.

L'esprit est éblouissant et s'irrite devant l'ennui.

La culture attribue un statut médiocre aux emplois d'entretien = salaire minimum, les turcs mécaniques d'Amazonie = pratiquement aucun salaire.

nettoyer le set, marquer les données d'entraînement, corriger les fautes de frappe,

modifier les paramètres, terminer le rapport, satisfaire le demandeur,

télécharger la nouvelle version, joindre les mots qui ont été erronés

séparés par l'OCR de nouveau ensemble, accomplir ces tâches d'intelligence humaine,

essayez de deviner la signification du formatage du demandeur,

vous devez accepter le HIT avant de pouvoir soumettre les résultats,

résumer l'image, ajouter la case de délimitation,

quelle est la similitude sémantique de ce texte, vérifiez la qualité de la traduction,

collecter vos micro-paiements, devenir un Turc Mécanique à succès.

Référence: https://www.arnolfini.org.uk/blog/manifesto-for-maintenance-art-1969

Une panique robotique chez Amazon Mechanical Turk

Le Turc Mécanique d'Amazon prend le nom d'un automate d'échecs du 18ème siècle. En fait, le Turc n'était pas du tout une machine. C'était une illusion mécanique qui permettait à un maître d'échecs humain de se cacher à l'intérieur de la boîte et de l'utiliser manuellement.

Pendant près de 84 ans, le Turc a remporté la plupart des matchs joués lors de ses manifestations en Europe et en Amérique. Napoléon Bonaparte se serait lui aussi laissé berner par cette ruse.

Le Turc Mécanique d’Amazon est une plateforme en ligne à destination des humains pour exécuter des tâches que les algorithmes ne parviennent pas à faire. Il peut s'agir, par exemple, d'annoter des phrases comme étant positives ou négatives, de repérer des plaques minéralogiques, de reconnaître des visages. Les postes affichés sur cette plateforme sont souvent rémunérés moins d'un centime par tâche. Les tâches plus complexes ou nécessitant plus de connaissances peuvent être payées jusqu'à plusieurs centimes. Pour gagner leur vie, les turkers doivent accomplir le plus de tâches possible le plus rapidement possible, ce qui entraîne d’inévitables erreurs. Les créateurs d'ensembles de données doivent incorporer des contrôles de qualité lorsqu'ils publient un travail sur la plate-forme. Ils doivent vérifier si le Turker a réellement la capacité d'accomplir la tâche, et ils doivent également vérifier les résultats. De nombreux chercheurs universitaires utilisent le Turc Mécanique pour des tâches qui auraient été exécutées par des étudiants auparavant.

En août de l'année dernière, Max Hui Bai, un étudiant en psychologie de l'Université du Minnesota, a découvert que les enquêtes qu'il a menées avec Mechanical Turk étaient pleines de réponses absurdes aux questions ouvertes. Il a retracé les mauvaises réponses et a découvert qu'elles avaient été soumises par des répondants ayant des coordonnées GPS en double. Cela a suscité des soupçons. Bien qu'Amazon interdise explicitement aux robots d'effectuer des travaux sur Mechanical Turk, l'entreprise ne publie pas les problèmes qu'ils causent sur sa plate-forme. Les forums pour Turkers sont pleins de conversations sur l'automatisation du travail, le partage de pratiques sur la façon de créer des robots pour transgresser les termes d'Amazon. Vous pouvez également trouver des vidéos sur YouTube montrant aux Turkers comment écrire un bot pour remplir des réponses pour vous.

Kristy Milland, une militante de MTurk, dit : "Les travailleurs sur Turk Mécanique ont été très, très mal traités pendant 12 ans et, d'une certaine façon, je vois cela comme un point de résistance. Si nous étions payés équitablement sur la plateforme, personne ne prendrait le risque de perdre son compte de cette façon."

Bai a créé un questionnaire pour les chercheurs en dehors de Mechanical Turk. Il dirige actuellement une recherche parmi les spécialistes des sciences sociales pour déterminer la quantité de données erronées utilisées, l'ampleur du problème et les moyens de l'enrayer. Mais il est impossible à l'heure actuelle d'estimer combien d'ensembles de données sont devenus peu fiables de cette façon.

Références:

https://www.wired.com/story/amazon-mechanical-turk-bot-panic/

https://www.maxhuibai.com/blog/evidence-that-responses-from-repeating-gps-are-random

http://timryan.web.unc.edu/2018/08/12/data-contamination-on-mturk/