Actions

Générateur de texte CHARNN: Difference between revisions

From Algolit

(Created page with "{| |- | Type: || Exploration Algolittéraire |- | Dataset(s): || L'Oeuvre Complète de Shakespeare & Jules Verne, l'Archive de Correspondance Email d'Enron |- | Technique: ||...")
 
 
(5 intermediate revisions by 3 users not shown)
Line 10: Line 10:
 
|}
 
|}
  
Le générateur de text CharRNN produit du texte à partir d'un modèle CharRNN. Ceci est un réseu neuronal récurrent qui lit un texte lettre par lettre. Lors de la phase d'entraînement le modèle analyse quelles lettres se suivent et apprend les chances d'une lettre suivante à base de la lettre qui précède. La taille de la mémoire du modèle varie. Pendant le processus d'apprentissage, le modèle peut 'oublier' de l'information puisuqe le réseau est construit en utilisant des modules de 'Long Short Term Memory'.
+
''Le générateur de texte CharRNN'' produit du texte à partir d'un modèle CharRNN. Ceci est un réseu neuronal récurrent qui lit un texte lettre par lettre. Lors de la phase d'entraînement le modèle analyse quelles lettres se suivent et apprend la probabilité de la lettre suivante sur base de la lettre qui précède. La taille de la mémoire du modèle varie. Pendant le processus d'apprentissage, le modèle peut 'oublier' de l'information puisque le réseau est construit en utilisant des modules de 'Long Short Term Memory'.
  
Une des premières choses que le modèle apprend, c'est le fait que les mots sont séparés par des espaces et que les phrases se séparent par un point et un espace, suivis d'une majuscule. Même si le modèle donne l'impression d'avoir appris qu'un texte est composé de mots et phrases multiples, en réalité il a appris qu'il est fort probable qu'une certaine quantité de lettres soit suivie d'un espace; et qu'une séries de lettres et espaces font augmenter la probabilité d'un point, suivi d'un espace et d'une majuscule.  
+
Une des premières choses que le modèle apprend est que les mots sont séparés par des espaces et que les phrases se séparent par un point et un espace, suivis d'une majuscule. Même si le modèle donne l'impression d'avoir appris qu'un texte est composé de mots et phrases multiples, en réalité il a appris qu'il est fort probable qu'une certaine quantité de lettres soit suivie d'un espace; et qu'une séries de lettres et espaces font augmenter la probabilité d'un point, suivi d'un espace et d'une majuscule.  
  
L'interface du générateur de texte s'est entraîné de différents jeux de données qui peuvent être testés.  
+
L'interface du générateur de texte s'est entraîné sur différents jeux de données qui peuvent être explorés.  
Le modèle est basé sur un script de Justin Johnson: https://github.com/jcjohnson/torch-rnn
+
Le modèle est basé sur un [https://github.com/jcjohnson/torch-rnn script de Justin Johnson]
Ce script est une version améliorée du script original par  Andrej Karpathy: https://github.com/karpathy/char-rnn
+
Ce script est une version améliorée du [https://github.com/karpathy/char-rnn script original par Andrej Karpathy]
  
[[Category:Algoliterary-Encounters]]
+
[[Category:Rencontres-Algolittéraires]]

Latest revision as of 15:14, 2 November 2017

Type: Exploration Algolittéraire
Dataset(s): L'Oeuvre Complète de Shakespeare & Jules Verne, l'Archive de Correspondance Email d'Enron
Technique: Torch, Cuda, Réseau Neuronal Récurrent, LSTM
Développé par: Justin Johnson (version originale: Andrej Karpathy)

Le générateur de texte CharRNN produit du texte à partir d'un modèle CharRNN. Ceci est un réseu neuronal récurrent qui lit un texte lettre par lettre. Lors de la phase d'entraînement le modèle analyse quelles lettres se suivent et apprend la probabilité de la lettre suivante sur base de la lettre qui précède. La taille de la mémoire du modèle varie. Pendant le processus d'apprentissage, le modèle peut 'oublier' de l'information puisque le réseau est construit en utilisant des modules de 'Long Short Term Memory'.

Une des premières choses que le modèle apprend est que les mots sont séparés par des espaces et que les phrases se séparent par un point et un espace, suivis d'une majuscule. Même si le modèle donne l'impression d'avoir appris qu'un texte est composé de mots et phrases multiples, en réalité il a appris qu'il est fort probable qu'une certaine quantité de lettres soit suivie d'un espace; et qu'une séries de lettres et espaces font augmenter la probabilité d'un point, suivi d'un espace et d'une majuscule.

L'interface du générateur de texte s'est entraîné sur différents jeux de données qui peuvent être explorés. Le modèle est basé sur un script de Justin Johnson Ce script est une version améliorée du script original par Andrej Karpathy