Jak používat nástroj Ngram Viewer v Knihách Google

Ngram, který se také běžně nazývá N-gram, je statistická analýza obsahu textu nebo řeči, aby nalezl n (číslo) nějaké položky v textu. Mohlo by to být všechno, jako fonémy, předpony, fráze nebo dopisy. Ačkoli N-gram je poněkud nejasný mimo výzkumníka, je skutečně použit v různých oblastech a má spoustu důsledků pro lidi, kteří dělají počítačové programy, které rozumí a reagují přirozeným mluveným jazykem. Stručně řečeno, zájem společnosti Google o tuto myšlenku bude.

V případě prohlížeče Google Books Ngram Viewer je text, který se má analyzovat, pocházet z obrovského množství knih, které společnost Google naskenovala z veřejných knihoven, aby zaplnila svůj vyhledávač Google Books . V programu Google Books Ngram Viewer odkazují na text, který budete hledat jako "korpus". Dělníci v programu Ngram Viewer jsou rozděleni jazykem, ačkoli můžete samostatně analyzovat britskou a americkou angličtinu nebo je seskupit. Začalo to být velmi zajímavé, kdybyste se přepínali z britských na americké pojmy a uvidíme, jak se grafy mění.

Jak funguje Ngram

  1. Přejděte do prohlížeče Google Books Ngram Viewer na adrese books.google.com/ngrams.
  2. Položky rozlišují velká a malá písmena, na rozdíl od vyhledávání na webu Google, takže se ujistěte, že používáte správná jména.
  3. Zadejte libovolnou frázi nebo fráze, kterou chcete analyzovat. Nezapomeňte každou frázi oddělovat čárkou. Google navrhuje, "Albert Einstein, Sherlock Holmes, Frankenstein", abyste vás začali.
  4. Dále zadejte časové období. Výchozí hodnota je 1800 až 2000, ale existují i ​​novější knihy (v roce 2011 byl v seznamu dokumentů Google uveden poslední, ale to se mohlo změnit.)
  5. Vyberte korpus. Můžete hledat cizojazyčné texty nebo anglicky a vedle standardních možností si můžete všimnout například "Angličtina (2009) nebo Americká angličtina (2009)" v dolní části. Jedná se o starší korpusy, které Google od té doby aktualizoval, ale možná máte nějaký důvod, abyste provedli srovnání se starými datovými sadami. Většina uživatelů je může ignorovat a zaměřit se na nejnovější korpusy.
  6. Nastavte hladinu vyhlazení. Vyhlazování znamená, jak hladký je graf na konci. Nejpřesnější reprezentace by byla vyrovnávací úroveň 0, ale to může být obtížné číst. Výchozí hodnota je nastavena na 3. Ve většině případů toto nastavení nemusíte upravovat.
  1. Stiskněte tlačítko Vyhledat spoustu knih . (Ve vyhledávací výzvě můžete také stisknout klávesu Enter.)

Co je Ngram zobrazeno?

Prohlížeč Google Books Ngram Viewer bude zobrazovat graf, který bude představovat použití určité fráze v knihách v čase. Pokud jste zadali více než jedno slovo nebo frázi, uvidíte barevné čáry pro kontrast různých hledaných výrazů. To je docela podobné službě Google Trends , pouze vyhledávání pokrývá delší časové období.

Zde je příklad z reálného života. Nedávno jsme byli zvědaví na ovoce. Jsou zmíněny v malém domě Laury Ingalls Wilderové v seriálu Prairie , ale o takové věci jsme nikdy neslyšeli. Nejprve jsme použili vyhledávání Google na webu, abychom se dozvěděli více o osteních. Zdá se, že jsou považovány za součást americké jižní kuchyně a opravdu jsou vyrobeny z octa. Poslouchají zpět do doby, kdy všichni neměli přístup k čerstvému ​​produktu po celou dobu roku. Je to celý příběh?

Prohledali jsme službu Google Ngram Viewer a tam jsou některé zmínky o koláči jak v časných, tak v pozdních 1800s, spousta z nich se zmínila ve čtyřicátých letech minulého století a četné zmínky o nich se v poslední době objevovaly (možná nějaká nostalgie). problém s daty na vyhlazovací úrovni 3. Existuje náhorní plošina nad zmínkami v 1800s. Určitě nebyl stejný počet zmínek o jednom konkrétním koláčku každý rok po dobu pěti let? Co se děje, je to, že v té době nejsou publikovány žádné velké knihy a protože naše data jsou nastavena na hladký, narušují obraz. Pravděpodobně tam byla jedna kniha, která zmínila ovoce koláč, a to prostě dostal průměru, aby se zabránilo špičce. Tím, že nastavíme vyhlazení na 0, vidíme, že tomu tak je. Špičatá centra se objevují v roce 1869 a v roce 1897 a 1900 je další hrot.

Nikdo o zbytku času nepromluvil o octách? Pravděpodobně mluvili o těch koláčkách. Na celém místě se pravděpodobně vznášely recepty . Prostě o nich nepopisovali v knihách a to je omezení těchto Ngramů.

Pokročilé vyhledávání Ngram

Pamatujete, jak jsme říkali, že Ngrams by se mohlo skládat z nejrůznějších textových vyhledávání? Google vám dovolí dojít k poměrně malému průzkumu s programem Ngram Viewer. Pokud byste chtěli hledat ryby slovesa namísto rybího podstatného jména, můžete to udělat pomocí značek. V takovém případě byste hledali "fish_VERB"

Společnost Google poskytuje na svých webových stránkách kompletní seznam příkazů, které můžete použít, a další pokročilou dokumentaci.