Actions

Mots dans l'Espace

From Algolit

Par Algolit

'Word embeddings' désignent des techniques de modélisation du langage qui, par de multiples opérations mathématiques, tracent des mots dans un espace vectoriel multidimensionnel. Lorsque les mots sont 'embedded' ou intégrés, ils se transforment de symboles distincts en objets mathématiques, qui peuvent être multipliés, divisés, ajoutés ou soustraits.

En distribuant les mots le long des nombreuses lignes diagonales de l'espace vectoriel multidimensionnel, leurs nouveaux placements géométriques deviennent impossibles à percevoir par les humains. Cependant, ce que l'on gagne, ce sont des façons multiples et simultanées d'organisation des mots. Les opérations algébriques rendent les relations entre les vecteurs à nouveau compréhensibles.

Cette installation utilise gensim, une boîte à outils open source pour le language de programmation Python, qui permet de créer des espaces de vecteurs et des modèles thématiques. Elle manipule le texte selon les relations mathématiques qui émergent entre les mots, une fois qu'ils ont été tracés dans l'espace de vecteurs.


Concept & interface: Cristina Cochior

Technique: word embeddings, word2vec

Modèle original: Radim Rehurek et Petr Sojka