Actions

I-could-have-written-that FR: Difference between revisions

From Algolit

 
(2 intermediate revisions by 2 users not shown)
Line 10: Line 10:
 
|}
 
|}
  
'''''i-could-have-written-that''''' * est un projet de recherche pratique sur l'apprentissage automatique textuel, qui interroge la nature ludique des techniques et propose de les représenter comme des machines à écrire. Le projet comprend trois systèmes d'écriture: '' Écrire du mythe (-1.00) au pouvoir (+1.00) '', '' Écriture supervisée '' & '' Morphes Similarité Cosinus''. Ceux-ci traduisent les éléments techniques de l'apprentissage automatique en interfaces graphiques dans le navigateur.
+
''i-could-have-written-that''* est un projet de recherche pratique sur l'apprentissage automatique textuel, qui interroge la nature ludique des techniques et propose de les représenter comme des machines à écrire. Le projet comprend trois systèmes d'écriture: '' Écrire du mythe (-1.00) au pouvoir (+1.00)'', ''Écriture supervisée '' & '' Morphes Similarité Cosinus''. Ceux-ci traduisent les éléments techniques de l'apprentissage automatique en interfaces graphiques dans le navigateur.
  
 
Les interfaces permettent à leurs utilisateurs d'explorer les techniques et de faire une série de tests eux-mêmes avec une source de données textuelles au choix. Après le traitement de la source textuelle choisie, les systèmes d'écriture offrent la possibilité d'exporter leurs sorties vers un document PDF.
 
Les interfaces permettent à leurs utilisateurs d'explorer les techniques et de faire une série de tests eux-mêmes avec une source de données textuelles au choix. Après le traitement de la source textuelle choisie, les systèmes d'écriture offrent la possibilité d'exporter leurs sorties vers un document PDF.
  
<br><small>* Le titre 'i-could-have-written-that' est dérivé d’un article d’  [https://www.csee.umbc.edu/courses/331/papers/eliza.html ELIZA--A Computer Program For the Study of Natural Language Communication Between Man and Machine], écrit par Joseph Weizenbaum et publié en 1966. </small>
+
<small>* Le titre ''i-could-have-written-that'' est dérivé d’un article d’  [https://www.csee.umbc.edu/courses/331/papers/eliza.html ELIZA--A Computer Program For the Study of Natural Language Communication Between Man and Machine], écrit par Joseph Weizenbaum et publié en 1966. </small>
  
 
==L’écriture basée sur des règles==
 
==L’écriture basée sur des règles==
 
[[File:Screenshot-rule-based-modality.py result.png|300px]]
 
[[File:Screenshot-rule-based-modality.py result.png|300px]]
  
Le système d'écriture '''''Écrire du Mythe (-1.00) au Pouvoir (+1.00)''''' est sur le script de détection de certitude modality.py, un script inclus dans le logiciel de fouille de textes [https://www.clips.uantwerpen.be/pattern Pattern] (Université d'Anvers), appelé modalité.py. Ce script basé sur des règles est écrit pour calculer le degré de certitude d'une phrase, exprimé par une valeur entre -1.00 et +1.00.  
+
Le système d'écriture ''Écrire du Mythe (-1.00) au Pouvoir (+1.00)'' est basé sur le script de détection de certitude modality.py, un script inclus dans le logiciel de fouille de textes [https://www.clips.uantwerpen.be/pattern Pattern] (Université d'Anvers), appelé modalité.py. Ce script basé sur des règles est écrit pour calculer le degré de certitude d'une phrase, exprimé par une valeur entre -1.00 et +1.00.  
  
 
Un exercice de traduction poétique, à partir d'un intérêt pour une perception numérique du langage humain, tout en pliant les catégories strictes.  
 
Un exercice de traduction poétique, à partir d'un intérêt pour une perception numérique du langage humain, tout en pliant les catégories strictes.  
Line 25: Line 25:
 
L'interface est un outil de lecture basé sur des règles, qui met en évidence l'effet des règles écrites par les scientifiques de l'Université d'Anvers. L'interface offre également la possibilité de modifier les règles et de créer un ensemble de règles de lecture personnalisé appliqué à un texte au choix.
 
L'interface est un outil de lecture basé sur des règles, qui met en évidence l'effet des règles écrites par les scientifiques de l'Université d'Anvers. L'interface offre également la possibilité de modifier les règles et de créer un ensemble de règles de lecture personnalisé appliqué à un texte au choix.
  
Modality.py est un programme basé sur des règles, l'une des plus anciennes techniques de fouille de textes. Les séries de calculs dans un programme basé sur des règles sont déterminées par un ensemble de règles écrites après une période intensive de recherche linguistique sur un sujet spécifique. Un programme basé sur des règles est très précis et efficace, mais aussi très statique et spécifique, ce qui en fait un type coûteux de technique de fouille de textes, en termes de temps, de travail et au regard de la difficulté à réutiliser un programme sur différents types de texte.
+
'''Modality.py''' est un programme basé sur des règles, l'une des plus anciennes techniques de fouille de textes. Les séries de calculs dans un programme basé sur des règles sont déterminées par un ensemble de règles écrites après une période intensive de recherche linguistique sur un sujet spécifique. Un programme basé sur des règles est très précis et efficace, mais aussi très statique et spécifique, ce qui en fait un type coûteux de technique de fouille de textes, en termes de temps, de travail et au regard de la difficulté à réutiliser un programme sur différents types de texte.
  
 
Pour surmonter ces dépenses, les programmes basés sur des règles sont actuellement massivement remplacés par des techniques de reconnaissance de formes telles que l'apprentissage supervisé et les réseaux neuronaux, où les règles d'un programme sont basées sur des motifs de grands ensembles de données.
 
Pour surmonter ces dépenses, les programmes basés sur des règles sont actuellement massivement remplacés par des techniques de reconnaissance de formes telles que l'apprentissage supervisé et les réseaux neuronaux, où les règles d'un programme sont basées sur des motifs de grands ensembles de données.
Line 62: Line 62:
 
[[File:Screenshot-supervised-writing-pdf_v2.png|300px]]
 
[[File:Screenshot-supervised-writing-pdf_v2.png|300px]]
  
Le système d'écriture '''''L'écriture supervisée''''' est construit avec un ensemble de techniques souvent utilisées dans un projet d'apprentissage automatique supervisé. Par une série d'étapes, l'utilisateur est guidé à travers un système de traitement de la langue pour créer un exercice personnalisé d'écriture de vocabulaire. En chemin, l'utilisateur respecte le principe de comptage en explorant son point de vue numérique sur le langage humain ''[[Un sac de mots|sac-de-mots]]''. Avec la possibilité de travailler avec du matériel texte provenant de trois sources externes, Twitter ou DuckDuckGo ou Wikipédia, ce système d'écriture offre une perspective numérique alternative à des sources bien connues de données textuelles.
+
Le système d'écriture ''L'écriture supervisée'' est construit avec un ensemble de techniques souvent utilisées dans un projet d'apprentissage automatique supervisé. Par une série d'étapes, l'utilisateur est guidé à travers un système de traitement de la langue pour créer un exercice personnalisé d'écriture de vocabulaire. En chemin, l'utilisateur respecte le principe de comptage en explorant son point de vue numérique sur le langage humain ''[[Un sac de mots|sac-de-mots]]''. Avec la possibilité de travailler avec du matériel texte provenant de trois sources externes, Twitter ou DuckDuckGo ou Wikipédia, ce système d'écriture offre une perspective numérique alternative à des sources bien connues de données textuelles.
  
 
==Morphes Similarité Cosinus==
 
==Morphes Similarité Cosinus==
 
[[File:Screenshot_from_2017-10-07_00-53-56.png|300px]]
 
[[File:Screenshot_from_2017-10-07_00-53-56.png|300px]]
  
Le système d'écriture '''''Morphes Similarité Cosinus''''' fonctionne avec des mesures de similarité non supervisées au niveau de la phrase. La source textuelle de choix est d'abord transformée en un corpus et une matrice vectorielle, après quoi la fonction de similarité cosinus de SciKit Learn est appliquée. La fonction [https://en.wikipedia.org/wiki/Cosine_similarity similarité cosinus] est souvent utilisée dans des pratiques d'apprentissage automatique non supervisé pour extraire les informations sémantiques «cachées» du texte. Puisque les données textuelles sont montrées à l'ordinateur sans aucune étiquette, cette technique est souvent appelée apprentissage «non supervisé».
+
Le système d'écriture ''Morphes Similarité Cosinus'' fonctionne avec des mesures de similarité non supervisées au niveau de la phrase. La source textuelle de choix est d'abord transformée en un corpus et une matrice vectorielle, après quoi la fonction de similarité cosinus de SciKit Learn est appliquée. La fonction [https://en.wikipedia.org/wiki/Cosine_similarity similarité cosinus] est souvent utilisée dans des pratiques d'apprentissage automatique non supervisé pour extraire les informations sémantiques «cachées» du texte. Puisque les données textuelles sont montrées à l'ordinateur sans aucune étiquette, cette technique est souvent appelée apprentissage «non supervisé».
  
 
L'interface permet à l'utilisateur de sélectionner un ensemble de méthodes de comptage possibles, également appelées caractéristiques, pour créer un spectre des quatre phrases les plus similaires. Tout en créant la multiplicité comme résultat, l'interface comprend des informations numériques sur les calculs de similarité qui ont été faits. L'utilisateur, la fonction de similarité cosinus, l'auteur du texte choisi et le créateur de ce système d'écriture, créent collectivement un quatuor de phrases qui se transforment entre la compréhension linguistique et numérique de la similarité.
 
L'interface permet à l'utilisateur de sélectionner un ensemble de méthodes de comptage possibles, également appelées caractéristiques, pour créer un spectre des quatre phrases les plus similaires. Tout en créant la multiplicité comme résultat, l'interface comprend des informations numériques sur les calculs de similarité qui ont été faits. L'utilisateur, la fonction de similarité cosinus, l'auteur du texte choisi et le créateur de ce système d'écriture, créent collectivement un quatuor de phrases qui se transforment entre la compréhension linguistique et numérique de la similarité.
  
 
[[Category:Rencontres-Algolittéraires]]
 
[[Category:Rencontres-Algolittéraires]]

Latest revision as of 15:12, 2 November 2017

Type: Oeuvre Algolittéraire
Données sources textuelles personnalisées, modality.py, Twitter API, DuckDuckGo API, Wikipedia API
Technique: apprentissage basé sur des règles, apprentissage supervisé, apprentissage non supervisé, sac-de-mots, similarité_cosinus
Developpé par: Tom De Smedt/Pattern, les équipes de SciKit Learn, Python, Nltk, Jinja2 & Manetta Berends, avec le soutien aimable de CBK Rotterdam.

i-could-have-written-that* est un projet de recherche pratique sur l'apprentissage automatique textuel, qui interroge la nature ludique des techniques et propose de les représenter comme des machines à écrire. Le projet comprend trois systèmes d'écriture: Écrire du mythe (-1.00) au pouvoir (+1.00), Écriture supervisée & Morphes Similarité Cosinus. Ceux-ci traduisent les éléments techniques de l'apprentissage automatique en interfaces graphiques dans le navigateur.

Les interfaces permettent à leurs utilisateurs d'explorer les techniques et de faire une série de tests eux-mêmes avec une source de données textuelles au choix. Après le traitement de la source textuelle choisie, les systèmes d'écriture offrent la possibilité d'exporter leurs sorties vers un document PDF.

* Le titre i-could-have-written-that est dérivé d’un article d’ ELIZA--A Computer Program For the Study of Natural Language Communication Between Man and Machine, écrit par Joseph Weizenbaum et publié en 1966.

L’écriture basée sur des règles

Screenshot-rule-based-modality.py result.png

Le système d'écriture Écrire du Mythe (-1.00) au Pouvoir (+1.00) est basé sur le script de détection de certitude modality.py, un script inclus dans le logiciel de fouille de textes Pattern (Université d'Anvers), appelé modalité.py. Ce script basé sur des règles est écrit pour calculer le degré de certitude d'une phrase, exprimé par une valeur entre -1.00 et +1.00.

Un exercice de traduction poétique, à partir d'un intérêt pour une perception numérique du langage humain, tout en pliant les catégories strictes.

L'interface est un outil de lecture basé sur des règles, qui met en évidence l'effet des règles écrites par les scientifiques de l'Université d'Anvers. L'interface offre également la possibilité de modifier les règles et de créer un ensemble de règles de lecture personnalisé appliqué à un texte au choix.

Modality.py est un programme basé sur des règles, l'une des plus anciennes techniques de fouille de textes. Les séries de calculs dans un programme basé sur des règles sont déterminées par un ensemble de règles écrites après une période intensive de recherche linguistique sur un sujet spécifique. Un programme basé sur des règles est très précis et efficace, mais aussi très statique et spécifique, ce qui en fait un type coûteux de technique de fouille de textes, en termes de temps, de travail et au regard de la difficulté à réutiliser un programme sur différents types de texte.

Pour surmonter ces dépenses, les programmes basés sur des règles sont actuellement massivement remplacés par des techniques de reconnaissance de formes telles que l'apprentissage supervisé et les réseaux neuronaux, où les règles d'un programme sont basées sur des motifs de grands ensembles de données.

Les sources utilisées pour modality.py sont des articles académiques tirés d'un jeu de données appelé «BioScope» ainsi que des données de formation Wikipedia de la tâche partagée CoNLL2010 12. Une partie de cet ensemble de données est composée de mots «weasel», qui sont annotés comme «vagues» par la communauté Wikipedia. Des exemples de mots weasel sont: certaines personnes disent, beaucoup de chercheurs disent, on croit / on considère, disent les scientifiques, il est souvent dit.

Dans le script, le concept de certitude est divisé en 9 catégories:

     -1.00 = NÉGATIF
     -0,75 = NÉGATIF, avec de légers doutes
     -0.50 = NÉGATIF, avec des doutes
     -0.25 = NEUTRE, légèrement négatif
     +0.00 = NEUTRE
     +0.25 = NEUTRE, légèrement positif
     +0.50 = POSITIF, avec des doutes
     +0,75 = POSITIF, avec de légers doutes
     +1.00 = POSITIF

après quoi un ensemble de mots est relié à chaque catégorie, par exemple cet ensemble de noms:

    -1.00: d ("fantaisie", "fiction", "mensonge", "mythe", "non-sens"),
     -0,75: d ("controverse"),
     -0.50: d ("critique", "débat", "doute"),
     -0.25: d ("croyance", "chance", "foi", "chance", "perception", "spéculation"),
     0,00: d ("défi", "deviner", "sentir", "intuition", "opinion", "possibilité", "question"),
     +0.25: d ("hypothèse", "attente", "hypothèse", "notion", "autres", "équipe"),
     +0.50: d ("exemple", "proces", "théorie"),
     +0.75: d ("conclusion", "données", "preuve", "majorité", "preuve", "symptôme", "symptômes"),
     +1.00: d ("fait", "vérité", "pouvoir")

L’écriture supervisée

Screenshot-supervised-writing-pdf v2.png

Le système d'écriture L'écriture supervisée est construit avec un ensemble de techniques souvent utilisées dans un projet d'apprentissage automatique supervisé. Par une série d'étapes, l'utilisateur est guidé à travers un système de traitement de la langue pour créer un exercice personnalisé d'écriture de vocabulaire. En chemin, l'utilisateur respecte le principe de comptage en explorant son point de vue numérique sur le langage humain sac-de-mots. Avec la possibilité de travailler avec du matériel texte provenant de trois sources externes, Twitter ou DuckDuckGo ou Wikipédia, ce système d'écriture offre une perspective numérique alternative à des sources bien connues de données textuelles.

Morphes Similarité Cosinus

Screenshot from 2017-10-07 00-53-56.png

Le système d'écriture Morphes Similarité Cosinus fonctionne avec des mesures de similarité non supervisées au niveau de la phrase. La source textuelle de choix est d'abord transformée en un corpus et une matrice vectorielle, après quoi la fonction de similarité cosinus de SciKit Learn est appliquée. La fonction similarité cosinus est souvent utilisée dans des pratiques d'apprentissage automatique non supervisé pour extraire les informations sémantiques «cachées» du texte. Puisque les données textuelles sont montrées à l'ordinateur sans aucune étiquette, cette technique est souvent appelée apprentissage «non supervisé».

L'interface permet à l'utilisateur de sélectionner un ensemble de méthodes de comptage possibles, également appelées caractéristiques, pour créer un spectre des quatre phrases les plus similaires. Tout en créant la multiplicité comme résultat, l'interface comprend des informations numériques sur les calculs de similarité qui ont été faits. L'utilisateur, la fonction de similarité cosinus, l'auteur du texte choisi et le créateur de ce système d'écriture, créent collectivement un quatuor de phrases qui se transforment entre la compréhension linguistique et numérique de la similarité.