Actions

Projecteur de plongement lexical

From Algolit

Revision as of 16:19, 1 November 2017 by Manetta (talk | contribs)
Type: Exploration Algolittéraire
Données: Glove
Technique: plongement lexical
Développé par: Google Tensorflow

Le projecteur du Google Tensorflow-package permet de visualiser un espace multidimensionnel en le projetant dans un espace à 2 ou 3 dimensions. Cela nous permet de jeter un coup d'œil dans l'espace de mots formé par les plongements de mots à partir des jeux de données que nous utilisons (dans cet exemple le jeu de données glove.42B). La projection ne montre pas l'ensemble des données, mais une sélection de 10000 mots (ou moins).

De tels espaces de grande dimension sont impossible à percevoir visuellement pour un humain. Certaines techniques mathématiques existent pour faire des projections spécifiques d'un tel espace dans des espaces de dimension inférieure (par analogie à l'utilisation de la perspective pour visualiser un espace tridimensionnel sur un espace bidimensionnel ou un plan).

Le projecteur Tensorflow utilise l'analyse en composantes principales (PCA) pour créer une projection dans les 2 ou 3 dimensions dans lesquelles la plus grande variance de l'ensemble de données peut être exprimée. PCA ne change pas les plongements de mots mais change seulement le point de vue en faisant tourner les axes dans l'espace pour s'assurer que les premières dimensions montrent la plus grande variance (= les plus grandes différences entre les mots). Ensuite, ces deux ou trois premières dimensions sont affichées à l'écran. Sur le panneau de gauche, il est indiqué quelle part de la variance est exprimée dans cette projection.

Le projecteur Tensorflow fournit également une projection t-SNE. Le plongement voisin stochastique t-distribué (t-SNE) ne montre pas l'espace de mots original, mais montre une distribution de probabilité dans 2 ou 3 dimensions de mots étant similaires ou non. Les mots semblables, ou proches l'un de l'autre dans l'espace d'inclusion des mots, seront montrés les uns près les autres dans la projection, tandis que les mots qui sont dissemblables sont montrés éloignés l'un de l'autre. En d'autres termes, la projection t-SNE essaie de préserver les distances relatives entre les mots dans l'espace d'inclusion de mots à 300 dimensions dans la projection 2 ou 3D.

Les deux projections nous donnent un aperçu de ce que le langage signifie quand il est perçu par l'ordinateur à travers des algorithmes créant des plongées de mots (comme Glove ou word2vec). La (dis)similitude des mots est exprimée par la distance entre les mots. Les associations entre les mots présents dans les textes originaux par co-occurrence se refléteront dans les distances dans l'espace d'inclusion des mots. Ils peuvent être explorés visuellement à travers ces projections, ou mathématiquement en calculant les distances dans l'espace d'inclusion des mots.