Générateur de texte CHARNN
From Algolit
Type: | Exploration Algolittéraire |
Dataset(s): | L'Oeuvre Complète de Shakespeare & Jules Verne, l'Archive de Correspondance Email d'Enron |
Technique: | Torch, Cuda, Réseau Neuronal Récurrent, LSTM |
Développé par: | Justin Johnson (version originale: Andrej Karpathy) |
Le générateur de text CharRNN produit du texte à partir d'un modèle CharRNN. Ceci est un réseu neuronal récurrent qui lit un texte lettre par lettre. Lors de la phase d'entraînement le modèle analyse quelles lettres se suivent et apprend la probabilité de la lettre suivante sur base de la lettre qui précède. La taille de la mémoire du modèle varie. Pendant le processus d'apprentissage, le modèle peut 'oublier' de l'information puisque le réseau est construit en utilisant des modules de 'Long Short Term Memory'.
Une des premières choses que le modèle apprend est que les mots sont séparés par des espaces et que les phrases se séparent par un point et un espace, suivis d'une majuscule. Même si le modèle donne l'impression d'avoir appris qu'un texte est composé de mots et phrases multiples, en réalité il a appris qu'il est fort probable qu'une certaine quantité de lettres soit suivie d'un espace; et qu'une séries de lettres et espaces font augmenter la probabilité d'un point, suivi d'un espace et d'une majuscule.
L'interface du générateur de texte s'est entraîné sur différents jeux de données qui peuvent être testés. Le modèle est basé sur un script de Justin Johnson Ce script est une version améliorée du script original par Andrej Karpathy