Générateur de texte CHARNN: Difference between revisions
From Algolit
(4 intermediate revisions by 2 users not shown) | |||
Line 10: | Line 10: | ||
|} | |} | ||
− | Le générateur de | + | ''Le générateur de texte CharRNN'' produit du texte à partir d'un modèle CharRNN. Ceci est un réseu neuronal récurrent qui lit un texte lettre par lettre. Lors de la phase d'entraînement le modèle analyse quelles lettres se suivent et apprend la probabilité de la lettre suivante sur base de la lettre qui précède. La taille de la mémoire du modèle varie. Pendant le processus d'apprentissage, le modèle peut 'oublier' de l'information puisque le réseau est construit en utilisant des modules de 'Long Short Term Memory'. |
Une des premières choses que le modèle apprend est que les mots sont séparés par des espaces et que les phrases se séparent par un point et un espace, suivis d'une majuscule. Même si le modèle donne l'impression d'avoir appris qu'un texte est composé de mots et phrases multiples, en réalité il a appris qu'il est fort probable qu'une certaine quantité de lettres soit suivie d'un espace; et qu'une séries de lettres et espaces font augmenter la probabilité d'un point, suivi d'un espace et d'une majuscule. | Une des premières choses que le modèle apprend est que les mots sont séparés par des espaces et que les phrases se séparent par un point et un espace, suivis d'une majuscule. Même si le modèle donne l'impression d'avoir appris qu'un texte est composé de mots et phrases multiples, en réalité il a appris qu'il est fort probable qu'une certaine quantité de lettres soit suivie d'un espace; et qu'une séries de lettres et espaces font augmenter la probabilité d'un point, suivi d'un espace et d'une majuscule. | ||
− | L'interface du générateur de texte s'est entraîné sur différents jeux de données qui peuvent être | + | L'interface du générateur de texte s'est entraîné sur différents jeux de données qui peuvent être explorés. |
− | Le modèle est basé sur un | + | Le modèle est basé sur un [https://github.com/jcjohnson/torch-rnn script de Justin Johnson] |
− | Ce script est une version améliorée du | + | Ce script est une version améliorée du [https://github.com/karpathy/char-rnn script original par Andrej Karpathy] |
[[Category:Rencontres-Algolittéraires]] | [[Category:Rencontres-Algolittéraires]] |
Latest revision as of 15:14, 2 November 2017
Type: | Exploration Algolittéraire |
Dataset(s): | L'Oeuvre Complète de Shakespeare & Jules Verne, l'Archive de Correspondance Email d'Enron |
Technique: | Torch, Cuda, Réseau Neuronal Récurrent, LSTM |
Développé par: | Justin Johnson (version originale: Andrej Karpathy) |
Le générateur de texte CharRNN produit du texte à partir d'un modèle CharRNN. Ceci est un réseu neuronal récurrent qui lit un texte lettre par lettre. Lors de la phase d'entraînement le modèle analyse quelles lettres se suivent et apprend la probabilité de la lettre suivante sur base de la lettre qui précède. La taille de la mémoire du modèle varie. Pendant le processus d'apprentissage, le modèle peut 'oublier' de l'information puisque le réseau est construit en utilisant des modules de 'Long Short Term Memory'.
Une des premières choses que le modèle apprend est que les mots sont séparés par des espaces et que les phrases se séparent par un point et un espace, suivis d'une majuscule. Même si le modèle donne l'impression d'avoir appris qu'un texte est composé de mots et phrases multiples, en réalité il a appris qu'il est fort probable qu'une certaine quantité de lettres soit suivie d'un espace; et qu'une séries de lettres et espaces font augmenter la probabilité d'un point, suivi d'un espace et d'une majuscule.
L'interface du générateur de texte s'est entraîné sur différents jeux de données qui peuvent être explorés. Le modèle est basé sur un script de Justin Johnson Ce script est une version améliorée du script original par Andrej Karpathy