Actions

Un sac de mots

From Algolit

Type: Exploration algolittéraire
Technique: Compteurs de fréquence
Développé par: Python, nltk, Algolit

Cette installation interactive vous guide à travers les différentes étapes du processus d'un modèle de sac-de-mots.

Le modèle sac-de-mots est un modèle de classification qui lit un texte comme une collection de mots. Lors du traitement d'un texte, le modèle rejette l'ordre des mots, la ponctuation et éventuellement les conjugaisons. Le modèle transforme le texte en une liste unique de mots utilisés dans le texte - littéralement un sac de mots.

Ce modèle est souvent utilisé pour comprendre le sujet d'un texte en reconnaissant les mots les plus fréquents ou importants, ou pour mesurer les similitudes des textes en comparant leurs sacs-de-mots.

Pour comprendre l'importance des mots moins communs mais significatifs, souvent liés au sujet du texte, la fonction TF-IDF (Fréquence Terminale - Fréquence de Document Inversée) peut être utilisée, où la fréquence d'un mot dans un seul texte est divisée par la fréquence moyenne du mot dans la collection.