Actions

Beaucoup, beaucoup de mots

From Algolit

Revision as of 15:49, 27 October 2017 by Emma (talk | contribs) (Created page with "Category:Rencontres-Algolittéraires =Beaucoup, beaucoup de mots= Pour comparer la taille des ensembles de données que nous avons utilisés, nous avons calculé le nombr...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Beaucoup, beaucoup de mots

Pour comparer la taille des ensembles de données que nous avons utilisés, nous avons calculé le nombre de pages de cette bibliothèque. Avec un petit script, tout le catalogue du Biblio de Saint-Gilles a été lu et les pages ont été comptées. Le catalogue contient 43.673 articles, dont 42.759 sont imprimés: Historique des recherches = (Recherche simple : terme * dans Tous les champs pour tous les types de documents) Et Type de document = (texte imprimé) - 42759 résultat(s)

Pour 28163 de ces livres, le nombre de pages était indiqué et pouvait être compté. Notre petit script faisait une lecture nocturne du catalogue de la bibliothèque. Cela a donné un nombre de 6.409.431 pages pour 28.163 livres.

Une page de livre contient généralement entre 200 et 600 mots, avec une moyenne estimée de 450 mots (taille de police Arial 12, interligne simple - source: https://wordcounter.net/words-per-page). Cela donne une estimation de 2.884.243.950 ou approx. 2,9 milliards de mots pour ces 6.409.431 pages ou 28.163 livres. En moyenne, cela donne 102.400 mots ou 227 pages par livre. Extrapolé à l'ensemble des 42.759 livres de cette bibliothèque, cela donne environ 10 millions de pages et 4.4 milliards de mots.

Nous avons principalement utilisé les jeux de données d'incorporation de mots préprogrammés GloVe. Ces intégrations de mots sont basées sur les données de texte Common Crawl. Le grand ensemble a 840B de signes ou de mots utilisés dans les textes lus, ce qui se compare à env. 1,9 milliard de pages. L'ensemble le plus petit a des signes de 42B, ou approx. 90 millions de pages. En d'autres termes, pour apprendre le mot incorporations dans le glove.42B-dataset, l'ordinateur lisait environ 9 fois la quantité de texte dans le Biblio de Saint-Gilles. Pour l'ensemble de données du glove 840B, l'ordinateur a lu 36 fois le Biblio de Saint-Gilles. Les ordinateurs lisent vite mais apprennent lentement.

La formation GloVe a abouti à un vocabulaire de 1,9 million de mots distincts, chacun avec 300 valeurs associées. Le plus grand crawl a abouti à un vocabulaire de 2,2 millions. L'impression d'un mot avec toutes les 300 valeurs sur une page entraînerait 1,9 ou 2,2 millions de pages, soit environ 20% du Biblio de Saint-Gilles. Même si nous optons pour les petits caractères et mettons 2 mots avec leurs valeurs sur une page, il resterait environ un million de pages ou 10% de la bibliothèque. L'impression de tous les 1,9 million de mots, avec chaque mot sur une ligne de 4 mm de hauteur, se traduirait par un rouleau de papier de 7600m.

Nous avons donc gardé l'espace de mots utilisé par l'ordinateur à l'état virtuel et décidé de fournir quelques aperçus alternatifs de cet univers de langage.