Actions

Générateur de texte CHARNN: Difference between revisions

From Algolit

m
Line 15: Line 15:
  
 
L'interface du générateur de texte s'est entraîné sur différents jeux de données qui peuvent être testés.  
 
L'interface du générateur de texte s'est entraîné sur différents jeux de données qui peuvent être testés.  
Le modèle est basé sur un script de Justin Johnson: https://github.com/jcjohnson/torch-rnn
+
Le modèle est basé sur un [[https://github.com/jcjohnson/torch-rnn script de Justin Johnson]]
Ce script est une version améliorée du script original par Andrej Karpathy: https://github.com/karpathy/char-rnn
+
Ce script est une version améliorée du [[https://github.com/karpathy/char-rnn script original par Andrej Karpathy]]
  
 
[[Category:Rencontres-Algolittéraires]]
 
[[Category:Rencontres-Algolittéraires]]

Revision as of 20:02, 1 November 2017

Type: Exploration Algolittéraire
Dataset(s): L'Oeuvre Complète de Shakespeare & Jules Verne, l'Archive de Correspondance Email d'Enron
Technique: Torch, Cuda, Réseau Neuronal Récurrent, LSTM
Développé par: Justin Johnson (version originale: Andrej Karpathy)

Le générateur de text CharRNN produit du texte à partir d'un modèle CharRNN. Ceci est un réseu neuronal récurrent qui lit un texte lettre par lettre. Lors de la phase d'entraînement le modèle analyse quelles lettres se suivent et apprend la probabilité de la lettre suivante sur base de la lettre qui précède. La taille de la mémoire du modèle varie. Pendant le processus d'apprentissage, le modèle peut 'oublier' de l'information puisque le réseau est construit en utilisant des modules de 'Long Short Term Memory'.

Une des premières choses que le modèle apprend est que les mots sont séparés par des espaces et que les phrases se séparent par un point et un espace, suivis d'une majuscule. Même si le modèle donne l'impression d'avoir appris qu'un texte est composé de mots et phrases multiples, en réalité il a appris qu'il est fort probable qu'une certaine quantité de lettres soit suivie d'un espace; et qu'une séries de lettres et espaces font augmenter la probabilité d'un point, suivi d'un espace et d'une majuscule.

L'interface du générateur de texte s'est entraîné sur différents jeux de données qui peuvent être testés. Le modèle est basé sur un [script de Justin Johnson] Ce script est une version améliorée du [script original par Andrej Karpathy]