Exploration de Paysages Multidimensionels: Sur le plongement lexical: Difference between revisions
From Algolit
(Created page with "{| |- | Type: || Exploration algolittéraire |- | Technique: || plongement lexical |- | Développé par: || Algolit |} "''Le sens est cette chose insaisissable que nous...") |
|||
(5 intermediate revisions by 2 users not shown) | |||
Line 3: | Line 3: | ||
| Type: || Exploration algolittéraire | | Type: || Exploration algolittéraire | ||
|- | |- | ||
− | | Technique: || [[plongement lexical]] | + | | Technique: || [[Sur le plongement lexical|plongement lexical]] |
|- | |- | ||
| Développé par: || Algolit | | Développé par: || Algolit | ||
|} | |} | ||
− | + | «''Le sens est cette chose insaisissable que nous essayons de capturer''» (Richard Socher dans [https://www.youtube.com/watch?v=xhHOL3TNyJs&index=2&list=PLcGUo322oqu9n4i0X3cRJgKyVy7OkDdoi CS224D Lecture 2 - 31 Mars 2016 (Youtube)]) | |
<br> | <br> | ||
− | Les plongements de mots sont utilisés pour représenter les mots en tant qu' | + | Les plongements de mots sont utilisés pour représenter les mots en tant qu'entrées pour l'apprentissage automatique. Les mots deviennent des vecteurs dans un espace multidimensionnel, où les vecteurs voisins représentent des significations similaires. Avec le plongement lexical, vous pouvez comparer les mots par (grosso modo) ce qu'ils signifient, pas seulement par les correspondances de lettres. |
− | L'hypothèse commune dans cette approche est que la co-occurrence des mots dans | + | L'hypothèse commune dans cette approche est que la co-occurrence des mots dans leurs voisinages respectifs au sein du texte reflète une relation ou une similarité de sens. Alors que le mot-clé se réfère à la fréquence des mots dans tout le texte, ces approches font un compte de fréquence des mots dans un petit intervalle autour de chaque mot. Plusieurs algorithmes ont été développés pour transformer de tels comptes locaux de co-occurrence en mots-plongements, comme word2vec (un réseau de neurones à couche unique) et GloVe (modèle sémantique distributionnel). |
La formation réussie de vecteurs de mots nécessite de partir de centaines de gigaoctets de textes d'entrée. Heureusement, divers groupes d'apprentissage automatique l’ont déjà fait et ont fourni des plongements de mots pré-formés que l'on peut télécharger. Word2vec est pré-formé sur les données de Google News, et deux jeux de données très connus sur les plongements de mots anglais [http://www.algolit.net/index.php/The_GloVe_Reader GloVe] pré-formés sur les pages web de [http://www.algolit.net/index.php/Common_Crawl Common Crawl]. | La formation réussie de vecteurs de mots nécessite de partir de centaines de gigaoctets de textes d'entrée. Heureusement, divers groupes d'apprentissage automatique l’ont déjà fait et ont fourni des plongements de mots pré-formés que l'on peut télécharger. Word2vec est pré-formé sur les données de Google News, et deux jeux de données très connus sur les plongements de mots anglais [http://www.algolit.net/index.php/The_GloVe_Reader GloVe] pré-formés sur les pages web de [http://www.algolit.net/index.php/Common_Crawl Common Crawl]. | ||
Le terme est récemment entré dans le vocabulaire de l'apprentissage automatique, avec l'expansion de la communauté d'apprentissage profond. En linguistique computationnelle, l'expression «modèle sémantique distributif» est parfois préférée. D'autres termes incluent «représentation distribuée», «espace vectoriel sémantique» ou «espace de mots». | Le terme est récemment entré dans le vocabulaire de l'apprentissage automatique, avec l'expansion de la communauté d'apprentissage profond. En linguistique computationnelle, l'expression «modèle sémantique distributif» est parfois préférée. D'autres termes incluent «représentation distribuée», «espace vectoriel sémantique» ou «espace de mots». |
Latest revision as of 15:25, 2 November 2017
Type: | Exploration algolittéraire |
Technique: | plongement lexical |
Développé par: | Algolit |
«Le sens est cette chose insaisissable que nous essayons de capturer» (Richard Socher dans CS224D Lecture 2 - 31 Mars 2016 (Youtube))
Les plongements de mots sont utilisés pour représenter les mots en tant qu'entrées pour l'apprentissage automatique. Les mots deviennent des vecteurs dans un espace multidimensionnel, où les vecteurs voisins représentent des significations similaires. Avec le plongement lexical, vous pouvez comparer les mots par (grosso modo) ce qu'ils signifient, pas seulement par les correspondances de lettres.
L'hypothèse commune dans cette approche est que la co-occurrence des mots dans leurs voisinages respectifs au sein du texte reflète une relation ou une similarité de sens. Alors que le mot-clé se réfère à la fréquence des mots dans tout le texte, ces approches font un compte de fréquence des mots dans un petit intervalle autour de chaque mot. Plusieurs algorithmes ont été développés pour transformer de tels comptes locaux de co-occurrence en mots-plongements, comme word2vec (un réseau de neurones à couche unique) et GloVe (modèle sémantique distributionnel).
La formation réussie de vecteurs de mots nécessite de partir de centaines de gigaoctets de textes d'entrée. Heureusement, divers groupes d'apprentissage automatique l’ont déjà fait et ont fourni des plongements de mots pré-formés que l'on peut télécharger. Word2vec est pré-formé sur les données de Google News, et deux jeux de données très connus sur les plongements de mots anglais GloVe pré-formés sur les pages web de Common Crawl.
Le terme est récemment entré dans le vocabulaire de l'apprentissage automatique, avec l'expansion de la communauté d'apprentissage profond. En linguistique computationnelle, l'expression «modèle sémantique distributif» est parfois préférée. D'autres termes incluent «représentation distribuée», «espace vectoriel sémantique» ou «espace de mots».