Générateur de texte CHARNN

Type:	Exploration Algolittéraire
Dataset(s):	L'Oeuvre Complète de Shakespeare & Jules Verne, l'Archive de Correspondance Email d'Enron
Technique:	Torch, Cuda, Réseau Neuronal Récurrent, LSTM
Développé par:	Justin Johnson (version originale: Andrej Karpathy)

Le générateur de text CharRNN produit du texte à partir d'un modèle CharRNN. Ceci est un réseu neuronal récurrent qui lit un texte lettre par lettre. Lors de la phase d'entraînement le modèle analyse quelles lettres se suivent et apprend les chances d'une lettre suivante à base de la lettre qui précède. La taille de la mémoire du modèle varie. Pendant le processus d'apprentissage, le modèle peut 'oublier' de l'information puisuqe le réseau est construit en utilisant des modules de 'Long Short Term Memory'.

Une des premières choses que le modèle apprend, c'est le fait que les mots sont séparés par des espaces et que les phrases se séparent par un point et un espace, suivis d'une majuscule. Même si le modèle donne l'impression d'avoir appris qu'un texte est composé de mots et phrases multiples, en réalité il a appris qu'il est fort probable qu'une certaine quantité de lettres soit suivie d'un espace; et qu'une séries de lettres et espaces font augmenter la probabilité d'un point, suivi d'un espace et d'une majuscule.

L'interface du générateur de texte s'est entraîné de différents jeux de données qui peuvent être testés. Le modèle est basé sur un script de Justin Johnson: https://github.com/jcjohnson/torch-rnn Ce script est une version améliorée du script original par Andrej Karpathy: https://github.com/karpathy/char-rnn

Générateur de texte CHARNN

From Algolit