Actions

Data Workers FR: Difference between revisions

From Algolit

(Nettoyeurs)
Line 67: Line 67:
  
 
===Nettoyeurs===
 
===Nettoyeurs===
 +
Algolit choisit de travailler avec des textes libres de droits. Cela signifie qu'ils sont publiés sous une licence Creative Commons 4.0 - ce qui est rare -, ou qu'ils sont dans le domaine public parce que l'auteur est mort il y a plus de 70 ans. C'est le cas des publications du Mundaneum. Nous avons reçu 203 documents pour constituer des ensembles de données qui sont maintenant disponibles en ligne. L'inconvénient de ce choix est que nous sommes souvent confrontés à de mauvais formats de texte. Cela signifie que nous sommes souvent obligés de nettoyer des documents. Nous ne sommes pas seuls dans cette situation.
  
'''Works:'''
+
Les livres sont numérisés en haute résolution, page par page. C'est un travail humain intensif et c'est souvent la raison pour laquelle les archives et les bibliothèques transfèrent leurs collections à une société comme Google. Les photos sont converties en texte via OCR (Reconnaissance Optique de Caractères), des Data Workers qui reconnaissent les lettres. Dans l'exécution de cette tâche, les algorithmes font des erreurs, en particulier lorsqu'ils doivent traiter des polices anciennes et des pages froissées. Ici aussi un travail humain intensif est nécessaire pour améliorer les textes. Cela est fait par des freelances via des plateformes de micro-paiement comme Mechanical Turk ; ou par des volontaires, comme la communauté du Distributed Proofreaders Project, qui fournit un travail incroyable. Quoi qu’il en soit, le nettoyage des textes est un travail énorme pour lequel il n'y a pas encore d'automatisation structurelle.
  
 +
===== Oeuvres =====
 +
* [[Nettoyage pour un Poème]]
 +
* [[Distributed Proofreaders]]
 +
 +
* [[Récits contextualisés autour des Nettoyeurs]]
  
 
===Informants===
 
===Informants===

Revision as of 18:53, 6 March 2019


Une exposition visible au Mundaneum à Mons du jeudi 28 mars jusqu'au dimanche 28 avril 2019.

Le vernissage aura lieu le jeudi 28 mars de 18h à 22h. Dans le cadre de l’exposition, nous invitons Allison Parrish, une poétesse algolittéraire de New York. Elle donnera une conférence à Passa Porta le jeudi soir 25 avril et un atelier au Mundaneum le vendredi 26 avril.

Á Propos

Data Workers est une exposition d'œuvres algolittéraires,visible au Mundaneum à Mons du jeudi 28 mars jusqu'au dimanche 28 avril 2019. Elle expose des histoires racontées d'un point de vue 'narratif algorithmique'. L'exposition est une création des membres d'Algolit, un groupe bruxellois impliqué dans la recherche artistique sur les algorithmes et la littérature. Chaque mois, ils se réunissent pour expérimenter avec du code et des textes F/LOSS. Certaines oeuvres sont réalisés par des étudiants de Arts² et des participants externes à l'atelier sur le machine learning et le texte organisé par Algolit en octobre 2018 au Mundaneum.

Les entreprises créent des intelligences artificielles pour servir, divertir, enregistrer et connaître les humains. Le travail de ces entités machiniques est généralement dissimulé derrière des interfaces et des brevets. Dans l'exposition, les conteurs algorithmiques quittent leur monde souterrain invisible pour devenir des interlocuteurs. Les 'data workers' opèrent dans des collectifs différents. Chaque collectif représente une étape dans le processus de conception d'un modèle d'apprentissage automatique : il y a les Écrivains, les Nettoyeurs, les Informateurs, les Lecteurs, les Apprenants et les Oracles. Les robots donnent leurs voix à la littérature expérimentale, les modèles algorithmiques lisent des données, transforment des mots en nombres, calculent des modèles et traitent en boucle de nouveaux textes et ceci à l'infini.

L'exposition met au premier plan les 'data workers' qui ont un impact sur notre vie quotidienne, mais qui sont difficiles à saisir ou à imaginer. Elle établit un lien entre les récits sur les algorithmes dans les médias grand public et les histoires racontées dans les manuels techniques et les articles universitaires. Les robots sont invités à dialoguer avec les visiteurs humains et vice versa. De cette façon, nous pourrions comprendre nos raisonnements respectifs, démystifier nos comportements, rencontrer nos personnalités multiples et valoriser notre travail collectif. C'est aussi un hommage aux nombreuses machines que Paul Otlet et Henri La Fontaine ont imaginées pour leur Mundaneum, en montrant leur potentiel mais aussi leurs limites.


Data Workers est une création de Algolit.

Oeuvres de: Cristina Cochior, Gijs de Heij, Sarah Garcin, An Mertens, Javier Lloret, Louise Dekeuleneer, Florian Van de Weyer, Laetitia Trozzi, Rémi Forte, Guillaume Slizewicz, Michael Murtaugh, Manetta Berends, Mia Melvær.

Une co-production de: Arts², Mundaneum, Constant.

Avec le soutien de: Fédération Wallonie-Bruxelles, Arts Numériques, Passa Porta, Ugent, DHuF - Digital Humanities Flanders and the Distributed Proofreading Project.

Remerciements: Mike Kestemont, Michel Cleempoel, François Zajéga, Raphaèle Cornille, Kris Rutten, Anne-Laure Buisson, David Stampfli.

Au Mundaneum

À la fin du 19ème siècle, deux jeunes juristes belges, Paul Otlet (1868-1944), "père de la documentation", et Henri La Fontaine (1854-1943), homme d'État et prix Nobel de la paix, créent le Mundaneum. Le projet vise à rassembler toute la connaissance du monde et à la classer à l'aide du système de classification décimale universelle (UDC) qu'ils inventent. Au début, il s'agit d'un Bureau des institutions internationales dédié à l'échange international des connaissances. Au XXe siècle, le Mundaneum devient un centre universel de documentation. Ses collections sont constituées de milliers de livres, journaux, revues, documents, affiches, plaques de verre et cartes postales indexés sur des millions de fiches référencées. Les collections sont exposées et conservées dans différents bâtiments à Bruxelles, dont le Palais du Cinquantenaire. Le reste des archives n'est transféré à Mons qu'en 1998.

Sur base du Mundaneum, les deux hommes conçoivent une ville du monde pour laquelle Le Corbusier réalise des maquettes et des plans. L'objectif de la Ville du Monde est de rassembler, au niveau mondial, les institutions du travail intellectuel : bibliothèques, musées et universités. Mais le projet n’est jamais réalisé, souffrant de sa propre utopie. Le Mundaneum est le résultat du rêve visionnaire d’une infrastructure pour l'échange universel des connaissances. Il atteint des dimensions mythiques à l'époque. Lorsqu'on observe les archives qui ont été concrètement développées, cette collection est plutôt éclectique et contextualisée.

Les intelligences artificielles se développent aujourd'hui en apportant leurs propres rêves d'universalité et leurs propres pratiques de la connaissance. En les étudiant, les rêves visionnaires de leurs créateurs sont bien présents dès leur développement dans les années 1950. Aujourd'hui, leurs promesses ont également atteint des dimensions mythiques. Lorsqu'on observe leurs applications concrètes, la collection d'outils est réellement innovante et fascinante, mais tout aussi éclectique et contextualisée. Pour Data Workers, Algolit a combiné certaines de ces applications avec 10 % des publications numérisées du Bureau des Institutions Internationales. Ainsi et de façon poétique, nous espérons ouvrir une discussion à propos des machines, des algorithmes et des infrastructures technologiques.

Zones

Écrivains

Les Data Workers ont besoin de données pour travailler. Dans le contexte d'Algolit, celles-ci prennent la forme du langage écrit. L'apprentissage automatique repose sur de nombreux types d'écriture. Les auteurs humains écrivent sous forme de publications. Celles-ci sont organisées en archives et en cours de numérisation. Mais il existe d'autres types d'écriture. On pourrait dire que chaque être humain avec un accès à Internet devient un écrivain lorsqu'il interagit avec des algorithmes. En ajoutant des commentaires, en écrivant des mails ou des articles Wikipédia, en cliquant et en aimant.

Les algorithmes d'apprentissage automatique ne sont pas critiques : ils prennent tout ce qu'on leur donne, peu importe le style d'écriture, le CV de l'auteur ou ses fautes d'orthographe. D’ailleurs, plus il y a d’erreurs, mieux c’est : la variété leur apprend à anticiper les textes inattendus. Les auteurs humains quant à eux ne sont souvent pas conscients de ce qui advient de leur travail.

La plupart des textes que nous utilisons sont en anglais, certains en français, d'autres en néerlandais. Souvent, nous nous retrouvons à écrire en Python, le langage de programmation que nous utilisons. Les algorithmes peuvent aussi être des écrivains. Certains réseaux neuronaux écrivent leurs propres règles et génèrent leurs propres textes. Et pour les modèles qui luttent encore contre les ambiguïtés du langage naturel, il existe des éditeurs humains pour les aider. Poètes, dramaturges ou romanciers commencent leur nouvelle carrière comme assistants de l'IA.

Oeuvres

Oracles

L'apprentissage automatique est principalement utilisé pour analyser et prédire des situations à partir de cas existants. Dans cette exposition, nous nous concentrons sur les modèles d'apprentissage automatique pour le traitement de texte ou le traitement du ‘langage naturel', ‘nlp’ en bref. Ces modèles ont appris à effectuer une tâche spécifique sur base de textes existants. Les modèles sont utilisés par les moteurs de recherche, les traductions automatiques et les résumés, en repérant les tendances des réseaux de nouveaux médias et des fils d’actualité. Ils influencent ce que l'on voit en tant qu'utilisateur, mais ont aussi leur mot à dire dans le cours des bourses mondiales ou dans la détection de la cybercriminalité et du vandalisme.

Deux tâches principales se présentent dans la compréhension d’une langue. L'extraction de l'information porte sur les concepts et les relations entre les concepts. Elle permet de reconnaître les sujets, les lieux et les personnes d’un texte, de faire un résumé, de poser des questions et d'y répondre. L'autre tâche est la classification du texte. Vous pouvez formuler un oracle pour détecter si un mail est du spam ou non, écrit par un homme ou une femme, plutôt positif ou négatif.

Dans cette zone, vous pouvez voir certains de ces modèles à l'œuvre. Au cours de votre voyage dans l'exposition, vous découvrirez les différentes étapes qu'une machine-humaine doit franchir pour arriver à un modèle final.

Oeuvres

Nettoyeurs

Algolit choisit de travailler avec des textes libres de droits. Cela signifie qu'ils sont publiés sous une licence Creative Commons 4.0 - ce qui est rare -, ou qu'ils sont dans le domaine public parce que l'auteur est mort il y a plus de 70 ans. C'est le cas des publications du Mundaneum. Nous avons reçu 203 documents pour constituer des ensembles de données qui sont maintenant disponibles en ligne. L'inconvénient de ce choix est que nous sommes souvent confrontés à de mauvais formats de texte. Cela signifie que nous sommes souvent obligés de nettoyer des documents. Nous ne sommes pas seuls dans cette situation.

Les livres sont numérisés en haute résolution, page par page. C'est un travail humain intensif et c'est souvent la raison pour laquelle les archives et les bibliothèques transfèrent leurs collections à une société comme Google. Les photos sont converties en texte via OCR (Reconnaissance Optique de Caractères), des Data Workers qui reconnaissent les lettres. Dans l'exécution de cette tâche, les algorithmes font des erreurs, en particulier lorsqu'ils doivent traiter des polices anciennes et des pages froissées. Ici aussi un travail humain intensif est nécessaire pour améliorer les textes. Cela est fait par des freelances via des plateformes de micro-paiement comme Mechanical Turk ; ou par des volontaires, comme la communauté du Distributed Proofreaders Project, qui fournit un travail incroyable. Quoi qu’il en soit, le nettoyage des textes est un travail énorme pour lequel il n'y a pas encore d'automatisation structurelle.

Oeuvres

Informants

Works

Lecteurs

Works:

Apprenants

Works

Poème algorithmique

Sources