Actions

Le TF-IDF: Difference between revisions

From Algolit

Line 1: Line 1:
 
par Algolit
 
par Algolit
  
Le TF-IDF (Term Frequency-Inverse Document Frequency) est une méthode de pondération utilisée dans la recherche de textes. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus de textes. Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus. Le TF-IDF est notamment utilisé dans la classification des spams.
+
Le TF-IDF (Term Frequency-Inverse Document Frequency) est une méthode de pondération utilisée dans la recherche de textes. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus de documents. Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus. Le TF-IDF est notamment utilisé dans la classification des spams.
  
 
Une interface web met en scène cet algorithme à travers des animations permettant de comprendre les différentes étapes de classification d’un texte. Comment un programme basé sur le TF-IDF lit un texte ? Comment transforme-t-il les mots en nombres ?
 
Une interface web met en scène cet algorithme à travers des animations permettant de comprendre les différentes étapes de classification d’un texte. Comment un programme basé sur le TF-IDF lit un texte ? Comment transforme-t-il les mots en nombres ?
  
 
Concept, code, animation: Sarah Garcin
 
Concept, code, animation: Sarah Garcin

Revision as of 16:37, 13 March 2019

par Algolit

Le TF-IDF (Term Frequency-Inverse Document Frequency) est une méthode de pondération utilisée dans la recherche de textes. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus de documents. Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus. Le TF-IDF est notamment utilisé dans la classification des spams.

Une interface web met en scène cet algorithme à travers des animations permettant de comprendre les différentes étapes de classification d’un texte. Comment un programme basé sur le TF-IDF lit un texte ? Comment transforme-t-il les mots en nombres ?

Concept, code, animation: Sarah Garcin