Actions

Le Livre de Demain dans un Sac de Mots

From Algolit

Revision as of 18:16, 4 June 2019 by An (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

par Algolit

Sources sur Gitlab

Le modèle du 'sac de mots' est une représentation simplifiée du texte utilisé dans le traitement du langage naturel. Dans ce modèle, un texte est représenté sous forme de collection de mots uniques, sans tenir compte de la grammaire, de la ponctuation et même de l'ordre des mots. Le modèle transforme le texte en une liste de mots et leur occurrence dans le texte, littéralement un sac de mots.

Cette forte réduction de la langue fut un choc au début de nos expériences en apprentissage automatique. Le sac de mots est souvent utilisé comme référent, sur base duquel le nouveau modèle doit s’efforcer d’être plus performant. Il peut comprendre le sujet d'un texte en reconnaissant les mots les plus fréquents ou importants. On mesure souvent les similitudes des textes en comparant leurs sacs de mots.

Pour cet ouvrage, l'article 'Le Livre de Demain' de l'ingénieur G. Vander Haeghen, publié en 1907 dans le Bulletin de l'Institut International de Bibliographie, a été littéralement réduit à un sac de mots. VOus pouvez acheter votre exemplaire à l'accueil du Mundaneum.

---

Concept & réalisation: An Mertens