Weißt Du, was Google Ngram ist?

Obwohl ich Google fast jeden Tag nutze, habe ich keine Ahnung, was Google Ngram ist. Zum Glück erwähnt der Autor

J. Sutherland: Das Scrum-Praxisbuch

Google Ngram nicht nur, sondern erläutert auch in einem einzigen Satz, was das ist:

„Google Ngram ist eine Suchmaschine, die viele Tausend in den vergangenen Jahrhunderten geschriebene Bücher durchkämmt und ermittelt, wie oft dort ein bestimmtes Wort verwendet wird.“

S.73f.

Unser Autor nutzt einen Screenshot von Google Ngram um zu zeigen, dass der englische Begriff priorities vor dem Jahr 1940 praktisch unbekannt war. Doch irgendwie habe ich das Gefühl, dass Google Ngrams mehr kann. Daher schauen wir uns diese Suchmaschine heute etwas genauer an.

Welche Bücher durchsucht Google Ngrams?

Google Ngrams kann verschiedensprachige Bücher ab dem Jahr 1500 durchsuchen. Bei englischsprachigen Büchern reicht der Datenbestand bis 2019, bei deutschsprachigen lediglich bis 2012.

Die Datenbasis für Google Ngrams ist Google Books. Google Books ist ein Projekt, bei dem Google Bücher digitalisiert hat, um diese durchsuchbar zu machen. In Google Books sind nicht alle Bücher enthalten, die je erschienen sind, sondern nur jene,

Ja, alles klar, meine Bücher dürft ihr scannen.
  • die von Google Books im Rahmen des Library Projekts erfasst wurden,
  • im Rahmen des Partnerprogramms zur Verfügung gestellt wurden und
  • deren Autoren oder Herausgeber dem Einspielen der Daten in die Suchmaschine nicht widersprochen haben.

Ich habe keine Informationen dazu gefunden, ob Google Ngrams auf alle Bücher zugreifen kann, die es in Google Books gibt, oder nur auf einen Teil der Bücher. Sollte es auf alle Bücher zugreifen können, wären dies Millionen von Büchern, was bedeuten würde, dass das Zitat unseres Autors nicht ganz präzise ist, da dieser lediglich von vielen tausend Büchern ausgeht.

Worauf beziehen sich die Prozentangaben an der Diagramm-Achse bei Google Ngrams?

In den letzten Jahren habe ich gelernt, in Sachen Datenvisualisierung vorsichtiger zu sein und diese zu hinterfragen. Wenn wir einen Begriff in Google Ngrams eingeben, erhalten wir ein Diagramm als Ergebnis, auf dessen einer Achse eine Jahreszahl steht und auf dessen anderer Achse eine Prozentzahl steht. Die Sache an der Prozentzahl ist die: Ich habe keine Ahnung wieviel Prozent von was hier angezeigt werden. Ohne groß darüber nachzudenken bin ich davon ausgegangen, dass sich die Prozentzahl auf die Anzahl der durchsuchten Bücher bezieht. Demnach würden 3 Prozent an dieser Achse bedeuten, dass der gesuchte Begriff in 3 Prozent der Bücher in diesem Jahr auftauchte.

Bei der Suche nach einem unbekannten Begriff wie Hydrograf erscheinen mir die Ergebnisse, die Google Ngram präsentiert, plausibel. Anders schaut es bei einem weit verbreiteten Begriff wie „und“ aus. Laut Google Ngram taucht dieser nie in mehr als in 3 Prozent der Bücher auf. Das erscheint mir nicht plausibel. Ich kann mir kaum ein deutschsprachiges Buch ohne dieses Wort vorstellen. Entweder täusche ich mich an dieser Stelle, oder irgendetwas stimmt mit den Daten in Google Ngrams nicht.

Leider konnte ich nicht herausfinden, worauf sich diese Prozentangabe nun genau bezieht. Das ist schade. Hier wäre es schön zu wissen, wie viele Bücher in welchem Jahr durchsucht wurden.

Wie kann ich Google Ngrams im Alltag nutzen?

Wow, so finde ich Bücher mit diesem Begriff aus bestimmten Perioden.

Wie wir gerade gesehen haben, ist Google Ngrams nicht dazu geeignet, Aussagen  zu formulierenwie „1875 tauchte der Begriff in 3 Prozent aller Bücher auf“.

Dennoch ist Ngrams im Alltag nützlich, um Begriffe miteinander zu vergleichen. Denn Ngrams durchsucht für alle Begriffe die gleichen Bücher. Wir können herausfinden, wann Begriff A häufiger benutzt wurde als Begriff B.

Eine weitere nützliche Funktion befindet sich unter dem Diagramm. Hier sind alle gesuchten Begriffe aufgelistet und hinter den Begriffen sind Zeiträume zu sehen. Klicken wir einen dieser Zeiträume an, gelangen wir zu der Ergebnisseite in Google Books, die uns auflistet, in welchen Büchern Google Books den gesuchten Begriff in diesem Zeitraum gefunden hat. Damit ist Google Ngram ein geniales Werkzeug, um Bücher zu einem bestimmten Begriff in einer bestimmten Periode ausfindig zu machen.

Über die normale Suche hinaus bietet Google Ngrams noch zusätzliche Suchfunktionen, die ich nicht alle verstanden habe, die für Datenjunkies aber sicherlich einen Nutzen haben.

Fazit

Obwohl Google Ngrams aufgrund seiner Datenintransparenz in Bezug auf die Prozentzahl seine Schwächen hat, mag ich die Idee hinter dem Tool und kann mir sehr gut vorstellen, dass ich das Tool in Zukunft nutzen werde.

An dieser Stelle bin ich neugierig: Wobei könnte Google Ngrams für Dich im Alltag nützlich sein?

Buchcover zum Beitrag

Buchcover von

Schlagwörter

Datum & Autor

23. Juni 2023
Werbehinweis, der besagt, dass das Buch zu diesem Beitrag von einem Verlag kostenlos zur Verfügung gestellt wurde.Weißt Du, was ein Paradigma ist?
Werbehinweis, der besagt, dass das Buch zu diesem Beitrag von einem Verlag kostenlos zur Verfügung gestellt wurde.Weißt Du, was eine Ordinalzahl ist?

Kommentiere den Beitrag

Was passiert nach Deinem Kommentar?

Nachdem Dein Kommentar durch uns geprüft wurde, wird er freigegeben* und erscheint unter diesem Beitrag zusammen mit dem von Dir angegebenen Namen. Deine E-Mail-Adresse wird nicht veröffentlicht. Sie dient uns an dieser Stelle in erster Linie zum Schutz vor Spam. Wenn Du Deine E-Mail-Adresse nicht hier angeben möchtest, kannst Du den Kommentar auch gern auf einem unserer Social Media Profile posten.

 

*Spam und Kommentare, die nur einen Backlink für die eigene Seite zum Ziel haben, werden einfach gelöscht. Nimm gern Kontakt mit uns auf und lass uns die Möglichkeiten eines Sponsored Post besprechen, wenn Du gern einen thematisch passenden Backlink unter einem bestimmten Beitrag platzieren möchtest.