http://algolit.net/index.php?title=Beaucoup,_beaucoup_de_mots&feed=atom&action=historyBeaucoup, beaucoup de mots - Revision history2024-03-29T11:17:14ZRevision history for this page on the wikiMediaWiki 1.31.14http://algolit.net/index.php?title=Beaucoup,_beaucoup_de_mots&diff=10477&oldid=prevAn at 15:18, 2 November 20172017-11-02T15:18:26Z<p></p>
<table class="diff diff-contentalign-left" data-mw="interface">
<col class="diff-marker" />
<col class="diff-content" />
<col class="diff-marker" />
<col class="diff-content" />
<tr class="diff-title" lang="en">
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">← Older revision</td>
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">Revision as of 15:18, 2 November 2017</td>
</tr><tr><td colspan="2" class="diff-lineno" id="mw-diff-left-l1" >Line 1:</td>
<td colspan="2" class="diff-lineno">Line 1:</td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>==Beaucoup, beaucoup de mots de la Biblio de St-Gilles==</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>==Beaucoup, beaucoup de mots de la Biblio de St-Gilles==</div></td></tr>
<tr><td class='diff-marker'>−</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Pour comparer la taille des ensembles de données que nous avons utilisés, nous avons calculé le nombre de pages de <del class="diffchange diffchange-inline">cette </del>bibliothèque. Avec un petit script, tout le catalogue du Biblio de Saint-Gilles a été lu et les pages ont été comptées. Le catalogue contient 43.673 articles, dont 42.759 sont imprimés:</div></td><td class='diff-marker'>+</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>Pour comparer la taille des ensembles de données que nous avons utilisés, nous avons calculé le nombre de pages de <ins class="diffchange diffchange-inline">la </ins>bibliothèque <ins class="diffchange diffchange-inline">de St-Gilles</ins>. Avec un petit script, tout le catalogue du Biblio de Saint-Gilles a été lu et les pages ont été comptées. Le catalogue contient 43.673 articles, dont 42.759 sont imprimés:</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>''Historique des recherches = (Recherche simple : terme * dans Tous les champs pour tous les types de documents) Et Type de document = (texte imprimé) - 42759 résultat(s)''</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>''Historique des recherches = (Recherche simple : terme * dans Tous les champs pour tous les types de documents) Et Type de document = (texte imprimé) - 42759 résultat(s)''</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
</table>Anhttp://algolit.net/index.php?title=Beaucoup,_beaucoup_de_mots&diff=10449&oldid=prevAn at 13:52, 2 November 20172017-11-02T13:52:00Z<p></p>
<table class="diff diff-contentalign-left" data-mw="interface">
<col class="diff-marker" />
<col class="diff-content" />
<col class="diff-marker" />
<col class="diff-content" />
<tr class="diff-title" lang="en">
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">← Older revision</td>
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">Revision as of 13:52, 2 November 2017</td>
</tr><tr><td colspan="2" class="diff-lineno" id="mw-diff-left-l1" >Line 1:</td>
<td colspan="2" class="diff-lineno">Line 1:</td></tr>
<tr><td colspan="2"> </td><td class='diff-marker'>+</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div><ins style="font-weight: bold; text-decoration: none;">==Beaucoup, beaucoup de mots de la Biblio de St-Gilles==</ins></div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Pour comparer la taille des ensembles de données que nous avons utilisés, nous avons calculé le nombre de pages de cette bibliothèque. Avec un petit script, tout le catalogue du Biblio de Saint-Gilles a été lu et les pages ont été comptées. Le catalogue contient 43.673 articles, dont 42.759 sont imprimés:</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Pour comparer la taille des ensembles de données que nous avons utilisés, nous avons calculé le nombre de pages de cette bibliothèque. Avec un petit script, tout le catalogue du Biblio de Saint-Gilles a été lu et les pages ont été comptées. Le catalogue contient 43.673 articles, dont 42.759 sont imprimés:</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>''Historique des recherches = (Recherche simple : terme * dans Tous les champs pour tous les types de documents) Et Type de document = (texte imprimé) - 42759 résultat(s)''</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>''Historique des recherches = (Recherche simple : terme * dans Tous les champs pour tous les types de documents) Et Type de document = (texte imprimé) - 42759 résultat(s)''</div></td></tr>
<tr><td colspan="2" class="diff-lineno" id="mw-diff-left-l6" >Line 6:</td>
<td colspan="2" class="diff-lineno">Line 7:</td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Une page de livre contient généralement entre 200 et 600 mots, avec une moyenne estimée à 450 mots (taille de police Arial 12, interligne simple - source: https://wordcounter.net/words-per-page). Cela donne une estimation de 2.884.243.950 ou approx. 2,9 milliards de mots pour ces 6.409.431 pages ou 28.163 livres. En moyenne, cela donne 102.400 mots ou 227 pages par livre. Extrapolé à l'ensemble des 42.759 livres de cette bibliothèque, cela donne environ 10 millions de pages et 4.4 milliards de mots.</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Une page de livre contient généralement entre 200 et 600 mots, avec une moyenne estimée à 450 mots (taille de police Arial 12, interligne simple - source: https://wordcounter.net/words-per-page). Cela donne une estimation de 2.884.243.950 ou approx. 2,9 milliards de mots pour ces 6.409.431 pages ou 28.163 livres. En moyenne, cela donne 102.400 mots ou 227 pages par livre. Extrapolé à l'ensemble des 42.759 livres de cette bibliothèque, cela donne environ 10 millions de pages et 4.4 milliards de mots.</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
<tr><td class='diff-marker'>−</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>==Beaucoup, beaucoup de mots <del class="diffchange diffchange-inline">et </del>GloVe==</div></td><td class='diff-marker'>+</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>==Beaucoup, beaucoup de mots <ins class="diffchange diffchange-inline">de </ins>GloVe==</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Nous avons principalement utilisé les jeux de données de plongement lexical préprogrammés GloVe. Ces plongements de mots sont basées sur les données de texte [http://www.algolit.net/index.php/Common_Crawl Common Crawl]. Le grand ensemble a 840B de symboles ou de mots utilisés dans les textes lus, ce qui se compare à env. 1,9 milliard de pages. L'ensemble le plus petit a des symboles de 42B, ou approx. 90 millions de pages. En d'autres termes, pour apprendre les plongements de mots dans le glove.42B-dataset, l'ordinateur lisait environ 9 fois la quantité de textes du Biblio de Saint-Gilles. Pour l'ensemble de données du glove 840B, l'ordinateur a lu 36 fois le Biblio de Saint-Gilles. Les ordinateurs lisent vite mais apprennent lentement.</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Nous avons principalement utilisé les jeux de données de plongement lexical préprogrammés GloVe. Ces plongements de mots sont basées sur les données de texte [http://www.algolit.net/index.php/Common_Crawl Common Crawl]. Le grand ensemble a 840B de symboles ou de mots utilisés dans les textes lus, ce qui se compare à env. 1,9 milliard de pages. L'ensemble le plus petit a des symboles de 42B, ou approx. 90 millions de pages. En d'autres termes, pour apprendre les plongements de mots dans le glove.42B-dataset, l'ordinateur lisait environ 9 fois la quantité de textes du Biblio de Saint-Gilles. Pour l'ensemble de données du glove 840B, l'ordinateur a lu 36 fois le Biblio de Saint-Gilles. Les ordinateurs lisent vite mais apprennent lentement.</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
</table>Anhttp://algolit.net/index.php?title=Beaucoup,_beaucoup_de_mots&diff=10187&oldid=prevAn at 12:06, 31 October 20172017-10-31T12:06:20Z<p></p>
<table class="diff diff-contentalign-left" data-mw="interface">
<col class="diff-marker" />
<col class="diff-content" />
<col class="diff-marker" />
<col class="diff-content" />
<tr class="diff-title" lang="en">
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">← Older revision</td>
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">Revision as of 12:06, 31 October 2017</td>
</tr><tr><td colspan="2" class="diff-lineno" id="mw-diff-left-l2" >Line 2:</td>
<td colspan="2" class="diff-lineno">Line 2:</td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>''Historique des recherches = (Recherche simple : terme * dans Tous les champs pour tous les types de documents) Et Type de document = (texte imprimé) - 42759 résultat(s)''</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>''Historique des recherches = (Recherche simple : terme * dans Tous les champs pour tous les types de documents) Et Type de document = (texte imprimé) - 42759 résultat(s)''</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
<tr><td class='diff-marker'>−</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Pour <del class="diffchange diffchange-inline">28163 </del>de ces livres, le nombre de pages était indiqué et pouvait être compté. Notre petit script a fait une lecture nocturne du catalogue de la bibliothèque. Cela a donné un nombre de 6.409.431 pages pour 28.163 livres.</div></td><td class='diff-marker'>+</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>Pour <ins class="diffchange diffchange-inline">28.163 </ins>de ces livres, le nombre de pages était indiqué et pouvait être compté. Notre petit script a fait une lecture nocturne du catalogue de la bibliothèque. Cela a donné un nombre de 6.409.431 pages pour 28.163 livres.</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Une page de livre contient généralement entre 200 et 600 mots, avec une moyenne estimée à 450 mots (taille de police Arial 12, interligne simple - source: https://wordcounter.net/words-per-page). Cela donne une estimation de 2.884.243.950 ou approx. 2,9 milliards de mots pour ces 6.409.431 pages ou 28.163 livres. En moyenne, cela donne 102.400 mots ou 227 pages par livre. Extrapolé à l'ensemble des 42.759 livres de cette bibliothèque, cela donne environ 10 millions de pages et 4.4 milliards de mots.</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Une page de livre contient généralement entre 200 et 600 mots, avec une moyenne estimée à 450 mots (taille de police Arial 12, interligne simple - source: https://wordcounter.net/words-per-page). Cela donne une estimation de 2.884.243.950 ou approx. 2,9 milliards de mots pour ces 6.409.431 pages ou 28.163 livres. En moyenne, cela donne 102.400 mots ou 227 pages par livre. Extrapolé à l'ensemble des 42.759 livres de cette bibliothèque, cela donne environ 10 millions de pages et 4.4 milliards de mots.</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>==Beaucoup, beaucoup de mots et GloVe==</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>==Beaucoup, beaucoup de mots et GloVe==</div></td></tr>
<tr><td class='diff-marker'>−</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Nous avons principalement utilisé les jeux de données de plongement lexical préprogrammés GloVe. Ces plongements de mots sont basées sur les données de texte [http://www.algolit.net/index.php/Common_Crawl Common Crawl]. Le grand ensemble a 840B de symboles ou de mots utilisés dans les textes lus, ce qui se compare à env. 1,9 milliard de pages. L'ensemble le plus petit a des symboles de 42B, ou approx. 90 millions de pages. En d'autres termes, pour apprendre les plongements de mots dans le glove.42B-dataset, l'ordinateur lisait environ 9 fois la quantité de <del class="diffchange diffchange-inline">texte dans le </del>Biblio de Saint-Gilles. Pour l'ensemble de données du glove 840B, l'ordinateur a lu 36 fois le Biblio de Saint-Gilles. Les ordinateurs lisent vite mais apprennent lentement.</div></td><td class='diff-marker'>+</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>Nous avons principalement utilisé les jeux de données de plongement lexical préprogrammés GloVe. Ces plongements de mots sont basées sur les données de texte [http://www.algolit.net/index.php/Common_Crawl Common Crawl]. Le grand ensemble a 840B de symboles ou de mots utilisés dans les textes lus, ce qui se compare à env. 1,9 milliard de pages. L'ensemble le plus petit a des symboles de 42B, ou approx. 90 millions de pages. En d'autres termes, pour apprendre les plongements de mots dans le glove.42B-dataset, l'ordinateur lisait environ 9 fois la quantité de <ins class="diffchange diffchange-inline">textes du </ins>Biblio de Saint-Gilles. Pour l'ensemble de données du glove 840B, l'ordinateur a lu 36 fois le Biblio de Saint-Gilles. Les ordinateurs lisent vite mais apprennent lentement.</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>La formation GloVe a abouti à un vocabulaire de 1,9 million de mots distincts, chacun avec 300 valeurs associées. Le plus grand crawl a abouti à un vocabulaire de 2,2 millions de mots. L'impression d'un mot avec toutes les 300 valeurs sur une page entraînerait 1,9 ou 2,2 millions de pages, soit environ 20% du Biblio de Saint-Gilles. Même si nous optons pour des petits caractères et mettons 2 mots avec leurs valeurs sur une page, il resterait environ un million de pages ou 10% de la bibliothèque.</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>La formation GloVe a abouti à un vocabulaire de 1,9 million de mots distincts, chacun avec 300 valeurs associées. Le plus grand crawl a abouti à un vocabulaire de 2,2 millions de mots. L'impression d'un mot avec toutes les 300 valeurs sur une page entraînerait 1,9 ou 2,2 millions de pages, soit environ 20% du Biblio de Saint-Gilles. Même si nous optons pour des petits caractères et mettons 2 mots avec leurs valeurs sur une page, il resterait environ un million de pages ou 10% de la bibliothèque.</div></td></tr>
</table>Anhttp://algolit.net/index.php?title=Beaucoup,_beaucoup_de_mots&diff=10130&oldid=prevManetta at 18:51, 30 October 20172017-10-30T18:51:01Z<p></p>
<table class="diff diff-contentalign-left" data-mw="interface">
<col class="diff-marker" />
<col class="diff-content" />
<col class="diff-marker" />
<col class="diff-content" />
<tr class="diff-title" lang="en">
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">← Older revision</td>
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">Revision as of 18:51, 30 October 2017</td>
</tr><tr><td colspan="2" class="diff-lineno" id="mw-diff-left-l1" >Line 1:</td>
<td colspan="2" class="diff-lineno">Line 1:</td></tr>
<tr><td class='diff-marker'>−</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div><del style="font-weight: bold; text-decoration: none;">[[Category:Rencontres-Algolittéraires]]</del></div></td><td colspan="2"> </td></tr>
<tr><td class='diff-marker'>−</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div><del style="font-weight: bold; text-decoration: none;">=Beaucoup, beaucoup de mots=</del></div></td><td colspan="2"> </td></tr>
<tr><td class='diff-marker'>−</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div><del style="font-weight: bold; text-decoration: none;"></del></div></td><td colspan="2"> </td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Pour comparer la taille des ensembles de données que nous avons utilisés, nous avons calculé le nombre de pages de cette bibliothèque. Avec un petit script, tout le catalogue du Biblio de Saint-Gilles a été lu et les pages ont été comptées. Le catalogue contient 43.673 articles, dont 42.759 sont imprimés:</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Pour comparer la taille des ensembles de données que nous avons utilisés, nous avons calculé le nombre de pages de cette bibliothèque. Avec un petit script, tout le catalogue du Biblio de Saint-Gilles a été lu et les pages ont été comptées. Le catalogue contient 43.673 articles, dont 42.759 sont imprimés:</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>''Historique des recherches = (Recherche simple : terme * dans Tous les champs pour tous les types de documents) Et Type de document = (texte imprimé) - 42759 résultat(s)''</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>''Historique des recherches = (Recherche simple : terme * dans Tous les champs pour tous les types de documents) Et Type de document = (texte imprimé) - 42759 résultat(s)''</div></td></tr>
<tr><td colspan="2" class="diff-lineno" id="mw-diff-left-l16" >Line 16:</td>
<td colspan="2" class="diff-lineno">Line 13:</td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Nous avons donc gardé l'espace de mots utilisé par l'ordinateur à l'état virtuel et décidé de fournir quelques aperçus alternatifs de cet univers de langage.</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Nous avons donc gardé l'espace de mots utilisé par l'ordinateur à l'état virtuel et décidé de fournir quelques aperçus alternatifs de cet univers de langage.</div></td></tr>
<tr><td colspan="2"> </td><td class='diff-marker'>+</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div><ins style="font-weight: bold; text-decoration: none;"></ins></div></td></tr>
<tr><td colspan="2"> </td><td class='diff-marker'>+</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div><ins style="font-weight: bold; text-decoration: none;">[[Category:Rencontres-Algolittéraires]]</ins></div></td></tr>
</table>Manettahttp://algolit.net/index.php?title=Beaucoup,_beaucoup_de_mots&diff=10128&oldid=prevManetta at 18:50, 30 October 20172017-10-30T18:50:33Z<p></p>
<table class="diff diff-contentalign-left" data-mw="interface">
<col class="diff-marker" />
<col class="diff-content" />
<col class="diff-marker" />
<col class="diff-content" />
<tr class="diff-title" lang="en">
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">← Older revision</td>
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">Revision as of 18:50, 30 October 2017</td>
</tr><tr><td colspan="2" class="diff-lineno" id="mw-diff-left-l9" >Line 9:</td>
<td colspan="2" class="diff-lineno">Line 9:</td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Une page de livre contient généralement entre 200 et 600 mots, avec une moyenne estimée à 450 mots (taille de police Arial 12, interligne simple - source: https://wordcounter.net/words-per-page). Cela donne une estimation de 2.884.243.950 ou approx. 2,9 milliards de mots pour ces 6.409.431 pages ou 28.163 livres. En moyenne, cela donne 102.400 mots ou 227 pages par livre. Extrapolé à l'ensemble des 42.759 livres de cette bibliothèque, cela donne environ 10 millions de pages et 4.4 milliards de mots.</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Une page de livre contient généralement entre 200 et 600 mots, avec une moyenne estimée à 450 mots (taille de police Arial 12, interligne simple - source: https://wordcounter.net/words-per-page). Cela donne une estimation de 2.884.243.950 ou approx. 2,9 milliards de mots pour ces 6.409.431 pages ou 28.163 livres. En moyenne, cela donne 102.400 mots ou 227 pages par livre. Extrapolé à l'ensemble des 42.759 livres de cette bibliothèque, cela donne environ 10 millions de pages et 4.4 milliards de mots.</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
<tr><td colspan="2"> </td><td class='diff-marker'>+</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div><ins style="font-weight: bold; text-decoration: none;">==Beaucoup, beaucoup de mots et GloVe==</ins></div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Nous avons principalement utilisé les jeux de données de plongement lexical préprogrammés GloVe. Ces plongements de mots sont basées sur les données de texte [http://www.algolit.net/index.php/Common_Crawl Common Crawl]. Le grand ensemble a 840B de symboles ou de mots utilisés dans les textes lus, ce qui se compare à env. 1,9 milliard de pages. L'ensemble le plus petit a des symboles de 42B, ou approx. 90 millions de pages. En d'autres termes, pour apprendre les plongements de mots dans le glove.42B-dataset, l'ordinateur lisait environ 9 fois la quantité de texte dans le Biblio de Saint-Gilles. Pour l'ensemble de données du glove 840B, l'ordinateur a lu 36 fois le Biblio de Saint-Gilles. Les ordinateurs lisent vite mais apprennent lentement.</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Nous avons principalement utilisé les jeux de données de plongement lexical préprogrammés GloVe. Ces plongements de mots sont basées sur les données de texte [http://www.algolit.net/index.php/Common_Crawl Common Crawl]. Le grand ensemble a 840B de symboles ou de mots utilisés dans les textes lus, ce qui se compare à env. 1,9 milliard de pages. L'ensemble le plus petit a des symboles de 42B, ou approx. 90 millions de pages. En d'autres termes, pour apprendre les plongements de mots dans le glove.42B-dataset, l'ordinateur lisait environ 9 fois la quantité de texte dans le Biblio de Saint-Gilles. Pour l'ensemble de données du glove 840B, l'ordinateur a lu 36 fois le Biblio de Saint-Gilles. Les ordinateurs lisent vite mais apprennent lentement.</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
</table>Manettahttp://algolit.net/index.php?title=Beaucoup,_beaucoup_de_mots&diff=10085&oldid=prevEmma at 12:46, 30 October 20172017-10-30T12:46:34Z<p></p>
<table class="diff diff-contentalign-left" data-mw="interface">
<col class="diff-marker" />
<col class="diff-content" />
<col class="diff-marker" />
<col class="diff-content" />
<tr class="diff-title" lang="en">
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">← Older revision</td>
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">Revision as of 12:46, 30 October 2017</td>
</tr><tr><td colspan="2" class="diff-lineno" id="mw-diff-left-l5" >Line 5:</td>
<td colspan="2" class="diff-lineno">Line 5:</td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>''Historique des recherches = (Recherche simple : terme * dans Tous les champs pour tous les types de documents) Et Type de document = (texte imprimé) - 42759 résultat(s)''</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>''Historique des recherches = (Recherche simple : terme * dans Tous les champs pour tous les types de documents) Et Type de document = (texte imprimé) - 42759 résultat(s)''</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
<tr><td class='diff-marker'>−</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Pour 28163 de ces livres, le nombre de pages était indiqué et pouvait être compté. Notre petit script <del class="diffchange diffchange-inline">faisait </del>une lecture nocturne du catalogue de la bibliothèque. Cela a donné un nombre de 6.409.431 pages pour 28.163 livres.</div></td><td class='diff-marker'>+</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>Pour 28163 de ces livres, le nombre de pages était indiqué et pouvait être compté. Notre petit script <ins class="diffchange diffchange-inline">a fait </ins>une lecture nocturne du catalogue de la bibliothèque. Cela a donné un nombre de 6.409.431 pages pour 28.163 livres.</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
<tr><td class='diff-marker'>−</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Une page de livre contient généralement entre 200 et 600 mots, avec une moyenne estimée <del class="diffchange diffchange-inline">de </del>450 mots (taille de police Arial 12, interligne simple - source: https://wordcounter.net/words-per-page). Cela donne une estimation de 2.884.243.950 ou approx. 2,9 milliards de mots pour ces 6.409.431 pages ou 28.163 livres. En moyenne, cela donne 102.400 mots ou 227 pages par livre. Extrapolé à l'ensemble des 42.759 livres de cette bibliothèque, cela donne environ 10 millions de pages et 4.4 milliards de mots.</div></td><td class='diff-marker'>+</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>Une page de livre contient généralement entre 200 et 600 mots, avec une moyenne estimée <ins class="diffchange diffchange-inline">à </ins>450 mots (taille de police Arial 12, interligne simple - source: https://wordcounter.net/words-per-page). Cela donne une estimation de 2.884.243.950 ou approx. 2,9 milliards de mots pour ces 6.409.431 pages ou 28.163 livres. En moyenne, cela donne 102.400 mots ou 227 pages par livre. Extrapolé à l'ensemble des 42.759 livres de cette bibliothèque, cela donne environ 10 millions de pages et 4.4 milliards de mots.</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
<tr><td class='diff-marker'>−</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Nous avons principalement utilisé les jeux de données <del class="diffchange diffchange-inline">d'incorporation </del>de <del class="diffchange diffchange-inline">mots </del>préprogrammés GloVe. Ces <del class="diffchange diffchange-inline">intégrations </del>de mots sont basées sur les données de texte [http://www.algolit.net/index.php/Common_Crawl Common Crawl]. Le grand ensemble a 840B de <del class="diffchange diffchange-inline">signes </del>ou de mots utilisés dans les textes lus, ce qui se compare à env. 1,9 milliard de pages. L'ensemble le plus petit a des <del class="diffchange diffchange-inline">signes </del>de 42B, ou approx. 90 millions de pages. En d'autres termes, pour apprendre <del class="diffchange diffchange-inline">le mot incorporations </del>dans le glove.42B-dataset, l'ordinateur lisait environ 9 fois la quantité de texte dans le Biblio de Saint-Gilles. Pour l'ensemble de données du glove 840B, l'ordinateur a lu 36 fois le Biblio de Saint-Gilles. Les ordinateurs lisent vite mais apprennent lentement.</div></td><td class='diff-marker'>+</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>Nous avons principalement utilisé les jeux de données de <ins class="diffchange diffchange-inline">plongement lexical </ins>préprogrammés GloVe. Ces <ins class="diffchange diffchange-inline">plongements </ins>de mots sont basées sur les données de texte [http://www.algolit.net/index.php/Common_Crawl Common Crawl]. Le grand ensemble a 840B de <ins class="diffchange diffchange-inline">symboles </ins>ou de mots utilisés dans les textes lus, ce qui se compare à env. 1,9 milliard de pages. L'ensemble le plus petit a des <ins class="diffchange diffchange-inline">symboles </ins>de 42B, ou approx. 90 millions de pages. En d'autres termes, pour apprendre <ins class="diffchange diffchange-inline">les plongements de mots </ins>dans le glove.42B-dataset, l'ordinateur lisait environ 9 fois la quantité de texte dans le Biblio de Saint-Gilles. Pour l'ensemble de données du glove 840B, l'ordinateur a lu 36 fois le Biblio de Saint-Gilles. Les ordinateurs lisent vite mais apprennent lentement.</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
<tr><td class='diff-marker'>−</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>La formation GloVe a abouti à un vocabulaire de 1,9 million de mots distincts, chacun avec 300 valeurs associées. Le plus grand crawl a abouti à un vocabulaire de 2,2 millions. L'impression d'un mot avec toutes les 300 valeurs sur une page entraînerait 1,9 ou 2,2 millions de pages, soit environ 20% du Biblio de Saint-Gilles. Même si nous optons pour <del class="diffchange diffchange-inline">les </del>petits caractères et mettons 2 mots avec leurs valeurs sur une page, il resterait environ un million de pages ou 10% de la bibliothèque.</div></td><td class='diff-marker'>+</td><td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>La formation GloVe a abouti à un vocabulaire de 1,9 million de mots distincts, chacun avec 300 valeurs associées. Le plus grand crawl a abouti à un vocabulaire de 2,2 millions <ins class="diffchange diffchange-inline">de mots</ins>. L'impression d'un mot avec toutes les 300 valeurs sur une page entraînerait 1,9 ou 2,2 millions de pages, soit environ 20% du Biblio de Saint-Gilles. Même si nous optons pour <ins class="diffchange diffchange-inline">des </ins>petits caractères et mettons 2 mots avec leurs valeurs sur une page, il resterait environ un million de pages ou 10% de la bibliothèque.</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>L'impression de tous les 1,9 million de mots, avec chaque mot sur une ligne de 4 mm de hauteur, se traduirait par un rouleau de papier de 7600m.</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>L'impression de tous les 1,9 million de mots, avec chaque mot sur une ligne de 4 mm de hauteur, se traduirait par un rouleau de papier de 7600m.</div></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td></tr>
<tr><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Nous avons donc gardé l'espace de mots utilisé par l'ordinateur à l'état virtuel et décidé de fournir quelques aperçus alternatifs de cet univers de langage.</div></td><td class='diff-marker'> </td><td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Nous avons donc gardé l'espace de mots utilisé par l'ordinateur à l'état virtuel et décidé de fournir quelques aperçus alternatifs de cet univers de langage.</div></td></tr>
</table>Emmahttp://algolit.net/index.php?title=Beaucoup,_beaucoup_de_mots&diff=9995&oldid=prevEmma: Created page with "Category:Rencontres-Algolittéraires =Beaucoup, beaucoup de mots= Pour comparer la taille des ensembles de données que nous avons utilisés, nous avons calculé le nombr..."2017-10-27T13:49:22Z<p>Created page with "<a href="/index.php?title=Category:Rencontres-Algolitt%C3%A9raires" title="Category:Rencontres-Algolittéraires">Category:Rencontres-Algolittéraires</a> =Beaucoup, beaucoup de mots= Pour comparer la taille des ensembles de données que nous avons utilisés, nous avons calculé le nombr..."</p>
<p><b>New page</b></p><div>[[Category:Rencontres-Algolittéraires]]<br />
=Beaucoup, beaucoup de mots=<br />
<br />
Pour comparer la taille des ensembles de données que nous avons utilisés, nous avons calculé le nombre de pages de cette bibliothèque. Avec un petit script, tout le catalogue du Biblio de Saint-Gilles a été lu et les pages ont été comptées. Le catalogue contient 43.673 articles, dont 42.759 sont imprimés:<br />
''Historique des recherches = (Recherche simple : terme * dans Tous les champs pour tous les types de documents) Et Type de document = (texte imprimé) - 42759 résultat(s)''<br />
<br />
Pour 28163 de ces livres, le nombre de pages était indiqué et pouvait être compté. Notre petit script faisait une lecture nocturne du catalogue de la bibliothèque. Cela a donné un nombre de 6.409.431 pages pour 28.163 livres.<br />
<br />
Une page de livre contient généralement entre 200 et 600 mots, avec une moyenne estimée de 450 mots (taille de police Arial 12, interligne simple - source: https://wordcounter.net/words-per-page). Cela donne une estimation de 2.884.243.950 ou approx. 2,9 milliards de mots pour ces 6.409.431 pages ou 28.163 livres. En moyenne, cela donne 102.400 mots ou 227 pages par livre. Extrapolé à l'ensemble des 42.759 livres de cette bibliothèque, cela donne environ 10 millions de pages et 4.4 milliards de mots.<br />
<br />
Nous avons principalement utilisé les jeux de données d'incorporation de mots préprogrammés GloVe. Ces intégrations de mots sont basées sur les données de texte [http://www.algolit.net/index.php/Common_Crawl Common Crawl]. Le grand ensemble a 840B de signes ou de mots utilisés dans les textes lus, ce qui se compare à env. 1,9 milliard de pages. L'ensemble le plus petit a des signes de 42B, ou approx. 90 millions de pages. En d'autres termes, pour apprendre le mot incorporations dans le glove.42B-dataset, l'ordinateur lisait environ 9 fois la quantité de texte dans le Biblio de Saint-Gilles. Pour l'ensemble de données du glove 840B, l'ordinateur a lu 36 fois le Biblio de Saint-Gilles. Les ordinateurs lisent vite mais apprennent lentement.<br />
<br />
La formation GloVe a abouti à un vocabulaire de 1,9 million de mots distincts, chacun avec 300 valeurs associées. Le plus grand crawl a abouti à un vocabulaire de 2,2 millions. L'impression d'un mot avec toutes les 300 valeurs sur une page entraînerait 1,9 ou 2,2 millions de pages, soit environ 20% du Biblio de Saint-Gilles. Même si nous optons pour les petits caractères et mettons 2 mots avec leurs valeurs sur une page, il resterait environ un million de pages ou 10% de la bibliothèque.<br />
L'impression de tous les 1,9 million de mots, avec chaque mot sur une ligne de 4 mm de hauteur, se traduirait par un rouleau de papier de 7600m.<br />
<br />
Nous avons donc gardé l'espace de mots utilisé par l'ordinateur à l'état virtuel et décidé de fournir quelques aperçus alternatifs de cet univers de langage.</div>Emma