Actions

Le TF-IDF

From Algolit

Revision as of 18:02, 4 June 2019 by An (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

par Algolit

Sources sur Gitlab

Le TF-IDF (Term Frequency-Inverse Document Frequency) est une méthode de pondération utilisée dans la recherche de textes. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus de documents. Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus. Le TF-IDF est notamment utilisé dans la classification des spams.

Une interface web met en scène cet algorithme à travers des animations permettant de comprendre les différentes étapes de classification d’un texte. Comment un programme basé sur le TF-IDF lit un texte ? Comment transforme-t-il les mots en nombres ?

---

Concept, code, animation : Sarah Garcin