Hoe u de tool 'Ngram Viewer' gebruikt in Google Boeken

Een Ngram, ook wel een N-gram genoemd, is een statistische analyse van tekst- of spraakinhoud om te vinden n (een nummer) van een bepaald item in de tekst.

Het zoekitem kan van alles zijn, zoals fonemen, voorvoegsels, zinsdelen of letters. Hoewel het N-gram enigszins onbekend is buiten de onderzoeksgemeenschap, wordt het op verschillende gebieden gebruikt en heeft het veel implicaties voor ontwikkelaars die computerprogramma's coderen die de natuurlijke gesproken taal begrijpen en erop reageren.

In het geval van Google Boeken Ngram Viewer is de te analyseren tekst afkomstig van de enorme hoeveelheid boeken die Google heeft gescand uit openbare bibliotheken om hun zoekmachine voor Google Boeken te vullen. Voor Google Boeken Ngram Viewer verwijzen ze naar de tekst die u gaat zoeken als de corpus . De Ngram Viewer verzamelt per taal, hoewel u afzonderlijk Brits en Amerikaans Engels kunt analyseren of ze samen kunt samenvoegen.

Hoe Ngram werkt

Ga naar Google Boeken Ngram Viewer op books.google.com/ngrams.
Typ een zin of zinsdelen die u wilt analyseren. Scheid elke zin met een komma. Google stelt voor: "Albert Einstein, Sherlock Holmes, Frankenstein" om u op weg te helpen. Items zijn hoofdlettergevoelig, in tegenstelling tot Google-zoekopdrachten op het web.
Typ een datumbereik. De standaardinstelling is 1800 tot 2000.
Kies een corpus. U kunt zoeken in teksten in een vreemde taal of in het Engels, en in aanvulling op de standaardkeuzes, merkt u misschien dingen als "Engels (2009) of Amerikaans Engels (2009)" onderaan. Dit zijn oudere corpora die Google sindsdien heeft bijgewerkt, maar je hebt misschien een reden om je vergelijkingen te maken met oude datasets. De meeste gebruikers kunnen ze negeren en zich richten op de meest recente corpora.
Stel je vloeiendheidsniveau in. Afvlakking verwijst naar hoe vloeiend de grafiek aan het eind is. De meest nauwkeurige weergave zou een uitvlakkeniveau van 0 zijn, maar die instelling kan moeilijk te lezen zijn. De standaardinstelling is 3. In de meeste gevallen hoeft u deze niet aan te passen.
druk de Zoek veel boeken knop.

Google biedt u de mogelijkheid om een flink stuk verder te gaan met de Ngram Viewer. Als je wilt zoeken naar vissen, dan kun je het werkwoord gebruiken in plaats van het zelfstandig naamwoord, door tags te gebruiken. In dit geval zou u zoeken naar "fish_VERB"

Google biedt een complete lijst met opdrachten die u kunt gebruiken en andere geavanceerde documentatie op hun website.

Wat is Ngram tonen?

Google Boeken Ngram Viewer geeft een grafiek weer die het gebruik van een bepaalde zin in boeken in de loop van de tijd weergeeft. Als u meer dan één woord of zin hebt ingevoerd, ziet u met een kleurcodering regels om de verschillende zoektermen te contrasteren. Dit is vergelijkbaar met Google Trends, alleen de zoekopdracht heeft betrekking op een langere periode.

Case study

Overweeg de case study van azijn pasteien. Ze worden genoemd in Laura Ingalls Wilder's Kleine huis op de Prairie serie. Onderzoeken met Google's webzoekopdracht om meer te leren over azijngebakjes onthult dat ze worden beschouwd als onderdeel van de Amerikaanse Zuiderse keuken en zijn echt gemaakt van azijn. Ze luisteren terug naar tijden waarin niet iedereen toegang had tot verse producten in alle tijden van het jaar. Maar is dat het hele verhaal?

Zoek Google Ngram Viewer voor azijn taart en je zult enkele vermeldingen van de taart tegenkomen in zowel de vroege als de late jaren 1800, veel vermeldingen in de jaren 40 en een toenemend aantal vermeldingen in recente tijden. Met een afvlakkeniveau van 3 zie je echter een plateau boven de vermeldingen in de jaren 1800. Omdat er in die tijd niet veel boeken zijn gepubliceerd en omdat onze gegevens zijn ingesteld op vloeiend, wordt de afbeelding vervormd. Waarschijnlijk was er een boek dat azijn taart noemde, en het werd gemiddeld om een piek te vermijden. Door de smoothing in te stellen op 0, kunnen we zien dat dit precies het geval is. De piek gaat over 1869 en er is nog een piek in 1897 en 1900.

Het is onwaarschijnlijk dat niemand de rest van de tijd over azijntaart praatte: er waren waarschijnlijk recepten overal rondzweven, maar mensen deden het gewoon niet schrijven over hen in boeken, en dat is een belangrijke beperking van deze Ngram-zoekopdrachten.