Actions

I-could-have-written-that FR

From Algolit

Revision as of 17:00, 30 October 2017 by Emma (talk | contribs)
Type: Travail Algolittéraire
Données sources textuelles personnalisées, modality.py, Twitter API, DuckDuckGo API, Wikipedia API
Technique: apprentissage basé sur des règles, apprentissage supervisé, apprentissage non supervisé, sac-de-mots, similarité_cosinus
Developpé par: Tom De Smedt/Pattern, les équipes de SciKit Learn, Python, Nltk, Jinja2 & Manetta Berends

i-could-have-written-that * est un projet de recherche pratique sur l'apprentissage automatique textuel, qui interroge la nature ludique des techniques et propose de les représenter comme des machines à écrire. Le projet comprend la série d'affiches du mythe (-1.00) au pouvoir (+1.00) et trois systèmes d'écriture: écrire le mythe (-1.00) au pouvoir (+1.00) , Écriture supervisée & Cosine Morphs Similarity. Ceux-ci traduisent les éléments techniques de l'apprentissage automatique en interfaces utilisateur graphiques dans le navigateur.

Les interfaces permettent à leurs utilisateurs d'explorer les techniques et de faire une série de tests eux-mêmes avec une source de données textuelles au choix. Après le traitement de la source textuelle choisie, les systèmes d'écriture offrent la possibilité d'exporter leurs sorties vers un document PDF.

du Mythe (-1.00) au Pouvoir (+1.00)

I-could-have-written-that text-mining-is-power.png I-could-have-written-that text-mining-is-a-myth.png

du mythe (-1.00) au pouvoir (+1.00) est une série d'affiches et un miroir linguistique reflétant le sujet de la certitude dans la fouille de texte.

Les séries de déclarations sont le produit d'un exercice de traduction poétique basé sur un script inclus dans le logiciel de fouille de textes Pattern (Université d'Anvers), appelé modalité.py. Ce script basé sur des règles est écrit pour calculer le degré de certitude d'une phrase, exprimé par une valeur entre -1.00 et +1.00.

Modality.py est un programme basé sur des règles, l'une des plus anciennes techniques de fouille de textes. Les séries de calculs dans un programme basé sur des règles sont déterminées par un ensemble de règles écrites après une période intensive de recherche linguistique sur un sujet spécifique. Un programme basé sur des règles est très précis et efficace, mais aussi très statique et spécifique, ce qui en fait un type coûteux de technique de fouille de textes, en termes de temps, de travail et au regard de la difficulté à réutiliser un programme sur différents types de texte.

Pour surmonter ces dépenses, les programmes basés sur des règles sont actuellement massivement remplacés par des techniques de reconnaissance de formes telles que l'apprentissage supervisé et les réseaux neuronaux, où les règles d'un programme sont basées sur des patrons de grands ensembles de données.

Les sources utilisées pour modality.py sont des articles académiques tirés d'un jeu de données appelé «BioScope» ainsi que des données de formation Wikipedia de la tâche partagée CoNLL2010 12. Une partie de cet ensemble de données est composée de mots «weasel», qui sont annotés comme «vagues» par la communauté Wikipedia. Des exemples de mots weasel sont: certaines personnes disent, beaucoup de chercheurs disent, on croit / on considère, disent les scientifiques, il est souvent dit.

Le script modality.py est livré avec des valeurs prédéfinies. Les mots fait (+1.00), preuve (+0.75) et donnée (paire) (+0.75) indiquent un haut niveau de certitude. Par opposition aux mots comme la fiction (-1.00), et la croyance (-0.25).

Dans le script, le concept de certitude est divisé en 9 catégories:


     -1.00 = NÉGATIF
     -0,75 = NÉGATIF, avec de légers doutes
     -0.50 = NÉGATIF, avec des doutes
     -0.25 = NEUTRE, légèrement négatif
     +0.00 = NEUTRE
     +0.25 = NEUTRE, légèrement positif
     +0.50 = POSITIF, avec des doutes
     +0,75 = POSITIF, avec de légers doutes
     +1.00 = POSITIF


après quoi un ensemble de mots est relié à chaque catégorie, par exemple cet ensemble de noms:


    -1.00: d ("fantaisie", "fiction", "mensonge", "mythe", "non-sens"),
     -0,75: d ("controverse"),
     -0.50: d ("critique", "débat", "doute"),
     -0.25: d ("croyance", "chance", "foi", "chance", "perception", "spéculation"),
     0,00: d ("défi", "deviner", "sentir", "intuition", "opinion", "possibilité", "question"),
     +0.25: d ("hypothèse", "attente", "hypothèse", "notion", "autres", "équipe"),
     +0.50: d ("exemple", "proces", "théorie"),
     +0.75: d ("conclusion", "données", "preuve", "majorité", "preuve", "symptôme", "symptômes"),
     +1.00: d ("fait", "vérité", "pouvoir")


Un exercice de traduction poétique, à partir d'un intérêt pour une perception numérique du langage humain, tout en pliant les catégories strictes.

L’écriture basée sur des règles

Screenshot-rule-based-modality.py result.png

Le système d'écriture écrit du Mythe (-1.00) au Pouvoir (+1.00) est également basé sur le script de détection de certitude modality.py. L'interface est un outil de lecture basé sur des règles, qui met en évidence l'effet des règles écrites par les scientifiques de l'Université d'Anvers. L'interface offre également la possibilité de modifier les règles et de créer un ensemble de règles de lecture personnalisé appliqué à un texte au choix.

L’écriture supervisée

Screenshot-supervised-writing-pdf v2.png

Le système d'écriture L'écriture supervisée est construit avec un ensemble de techniques souvent utilisées dans un projet d'apprentissage automatique supervisé. Par une série d'étapes, l'utilisateur est guidé à travers un système de traitement de la langue pour créer un exercice personnalisé d'écriture de vocabulaire. En chemin, l'utilisateur respecte le principe de comptage en explorant son point de vue numérique sur le langage humain sac-de-mots. Avec la possibilité de travailler avec du matériel texte provenant de trois sources externes, Twitter ou DuckDuckGo ou Wikipédia, ce système d'écriture offre une perspective numérique alternative à des sources bien connues de données textuelles.

Morphes Similarité Cosinus

Screenshot from 2017-10-07 00-53-56.png

Le système d'écriture Morphes Similarité Cosinus fonctionne avec des mesures de similarité non supervisées au niveau de la phrase. La source textuelle de choix est d'abord transformée en un corpus et une matrice vectorielle, après quoi la fonction de similarité cosinus de SciKit Learn est appliquée. La fonction similarité cosinus est souvent utilisée dans des pratiques d'apprentissage automatique non supervisé pour extraire les informations sémantiques «cachées» du texte. Puisque les données textuelles sont montrées à l'ordinateur sans aucune étiquette, cette technique est souvent appelée apprentissage «non supervisé».

L'interface permet à l'utilisateur de sélectionner un ensemble de méthodes de comptage possibles, également appelées caractéristiques, pour créer un spectre des quatre phrases les plus similaires. Tout en créant la multiplicité comme résultat, l'interface comprend des informations numériques sur les calculs de similarité qui ont été faits. L'utilisateur, la fonction de similarité cosinus, l'auteur du texte choisi et le créateur de ce système d'écriture, créent collectivement un quatuor de phrases qui se transforment entre la compréhension linguistique et numérique de la similarité.

Colophon

i-could-have-written-that est un projet de Manetta Berends avec le soutien aimable de CBK Rotterdam. Le code et les documents de sortie sont sous Licence Art Libre.


* Le titre 'i-could-have-written-that' est dérivé d’un article d’ ELIZA--A Computer Program For the Study of Natural Language Communication Between Man and Machine, écrit par Joseph Weizenbaum et publié en 1966.