Actions

Difference between revisions of "Une ethnographie des jeux de données"

From Algolit

Line 1: Line 1:
 
par Algolit
 
par Algolit
  
Nous commençons souvent les réunions mensuelles Algolit en cherchant des ensembles de données ou en essayant de les créer. L'un des moyens les plus simples est d'utiliser des corpus déjà existants, mis à disposition via des kits comme [nltk] ou [scikit-learn]. Nltk contient, entre autres, la Déclaration des droits de l'homme, les discours inauguraux des présidents américains et les critiques de films de l'IMDb. Chaque style d'écriture évoquera des relations différentes entre les mots.
+
Lors des réunions mensuelles Algolit nous cherchons souvent des jeux de données ou essayons de les créer. L'un des moyens les plus simples est d'utiliser des corpus déjà existants, mis à disposition via le Natural Language Toolkit [http://www.nltk.org/ nltk]. Nltk contient, entre autres, la Déclaration des droits de l'homme, les discours inauguraux des présidents américains et les critiques de films de l'IMDb. Chaque style d'écriture évoquera des relations différentes entre les mots.
  
 
Dans le cadre de ce travail, nous examinons les jeux de données les plus couramment utilisés pour l'entraînement des modèles d'apprentissage automatique. De quels matériaux sont-ils constitués ? Qui les a recueillis ? Quand ? Pour quelle raison ?  
 
Dans le cadre de ce travail, nous examinons les jeux de données les plus couramment utilisés pour l'entraînement des modèles d'apprentissage automatique. De quels matériaux sont-ils constitués ? Qui les a recueillis ? Quand ? Pour quelle raison ?  
  
 
Concept, code, réalisation: Cristina Cochior
 
Concept, code, réalisation: Cristina Cochior

Revision as of 12:39, 20 March 2019

par Algolit

Lors des réunions mensuelles Algolit nous cherchons souvent des jeux de données ou essayons de les créer. L'un des moyens les plus simples est d'utiliser des corpus déjà existants, mis à disposition via le Natural Language Toolkit nltk. Nltk contient, entre autres, la Déclaration des droits de l'homme, les discours inauguraux des présidents américains et les critiques de films de l'IMDb. Chaque style d'écriture évoquera des relations différentes entre les mots.

Dans le cadre de ce travail, nous examinons les jeux de données les plus couramment utilisés pour l'entraînement des modèles d'apprentissage automatique. De quels matériaux sont-ils constitués ? Qui les a recueillis ? Quand ? Pour quelle raison ?

Concept, code, réalisation: Cristina Cochior