Verschwendest Du Crawl Budget? Zwei Reports sagen es Dir! [Search Camp 228]

17. Mai 2022 | Von in Podcast "Search Camp", SEO

Das Crawl Budget, das Google Websites spendiert, ist begrenzt. Zwei Reports in der Search Console helfen Dir dabei, das Ausmaß der Verschwendung zu bewerten – und dann natürlich auch Gegenmaßnahmen einzuleiten.

 

Die wichtigsten Podcast-Links:

 

Verschwendest Du Crawl Budget? Zwei Reports sagen es Dir!

Es geht ums Thema Crawl Budget und ich weiß, dass viele sich damit beschäftigen. Ich kriege zumindest viele Fragen dazu in Seminaren, in der SEO-Sprechstunde. Ja, und deswegen habe ich heute eine Folge gemacht zum Thema “Verschwendest du Crawl Budget? – Zwei Reports sagen es dir.” Und zum Schluss gehe ich natürlich auch noch auf die Lösungen ein.

Also wenn du es verschwendest, dann ja, gibt es da durchaus Lösungen für. Vorab muss man sagen, ideal ist das, was ich gleich erzähle, eigentlich nicht, denn ideal wäre es eigentlich, eine Log File-Analyse zu machen. Also wirklich zu gucken, womit genau beschäftigt sich jetzt mein Server, das heißt, welche Anfragen stellt Google Bot. Und ja, eine Log File-Analyse würde das gut aufdecken können. Da gibt es auch entsprechende Tools. Ist manchmal einfach alles ein bisschen sperrig und ehrlich gesagt sind die auch relativ teuer für wahrscheinlich – ja, für einige Unternehmen macht das Sinn, für den Großteil da draußen überhaupt nicht. Und deswegen springe ich da heute mal drüber. Also noch mal: Idealerweise macht man eine Log File-Analyse. Würde ich, wie gesagt, hier bei euch jetzt nicht empfehlen.

 

Was meint „indexierbar“?

Bevor ich dazu komme, welche Reports es gibt, muss ich noch mal einen Begriff erklären und der heißt “indexierbar”. Indexierbar heißt, da ist eine Seite, eine URL, die genau so in den Suchmaschinen erscheinen könnte. Das heißt, sie liefert erst mal einen HTTP Code 200, das heißt, der Server sagt, Jo, und diese URL, respektive die Seite, gibt es. Die Seite ist nicht für Suchmaschinen gesperrt, weder per Noindex noch per Robots.txt. Und entweder hat sie kein Canonical Tag oder einen Canonical Tag auf sich selbst. Das heißt noch mal, diese URL kann genau so in Suchergebnissen erscheinen. Das heißt indexierbar. Das brauchen wir gleich an einigen Stellen, das heißt, wenn du den Begriff noch nicht so richtig inhaliert hast, dann mach es jetzt noch mal!

 

Report #1: Abdeckung (Google Search Console)

Ich habe versprochen, es gibt zwei Reports. Report Nummer eins, der liegt in der Google Search Console und heißt Abdeckung. Und ich kriege das echt immer mit, dass sich viele damit sehr, sehr, sehr, sehr schwertun, was da alles steht.

Um die Frage zu beantworten, gibt es eine Voraussetzung allerdings, und zwar brauchst du XML-Sitemaps. Diese müssen vollständig sein, also alle deine Seiten beinhalten und dürfen auch nur indexierbare URLs beinhalten. Ansonsten ist das, was als Ergebnis rauskommt, Grütze. Also auf jeden Fall darauf achten, dass die Sitemaps tagesaktuell sind und dass sie korrekt erzeugt werden. Die meisten Content Management Systeme, die meisten Shop Systeme können das problemlos.

So. Wenn du in der Search Console bist und im Report “Abdeckung”, dann wirst du sehen, dass oben links so ein Filter ist. Den übersehen viele. Und da gibt es die beiden Filter “eingereichte Seiten” und “bekannte Seiten“.

Wenn du nur mal filterst “eingereichte Seiten“, das sind alle URLs, die du in der XML-Sitemap mitgeliefert hast. Das heißt nochmal, wenn deine XML-Sitemaps vollständig und korrekt sind, dann kriegst du hier genau ein Bild für das, was du eigentlich im Index haben möchtest.

Und dann gibt es den zweiten Filter, der heißt “Bekannte Seiten“. Und das sind eben alle URLs, mit denen Google sich so beschäftigt. Vielleicht, weil sie die auf der Website gefunden haben. Das sind vor allem auch nicht indexierbare Seiten, dazu komme ich noch gleich. Das können auch uralte Seiten sein, die irgendwo von außen noch verlinkt werden. Und ja, Google beschäftigt sich leider mit relativ viel Unsinn.

Wenn du diesen Report noch nie benutzt hast, bitte setz oben alle vier Haken, nämlich „Fehler“, „gültige Seiten mit Warnungen“, „gültig“ und „ausgeschlossen“. Und dann wirst du unten sehen, dass da schön viele Fehlerkategorien erscheinen und daneben jeweils die Anzahl, wie viele Seiten davon betroffen sind. So und jetzt gehst du mal hin und setzt einmal den Filter auf “eingereichte Seiten”. Und angenommen, da steht jetzt, ja, in Summe aller dieser vier Zahlen, die du da siehst, steht da 3500, das heißt, du hast 3500 Seiten über die Sitemap eingereicht und möglichst viele davon sollten gültig sein. Gültig heißt nämlich nichts anderes als „ist im Index gelandet“. Also Beispiel: 3500 Seiten.

Und jetzt änderst du den Filter oben mal auf bekannt. Und dann siehst du halt, womit sich Google so insgesamt beschäftigt. Und Beispiel könnte sein – und ist jetzt nicht so fürchterlich unrealistisch – da steht 50.000. Das heißt, diese Differenz, 46.500, sind eigentlich URLs, mit denen sich der Googlebot beschäftigt, die er herunterlädt, die eigentlich am Ende des Tages zu nichts führen.

Das heißt, wir müssen jetzt mal gucken, wo kommen eigentlich die Differenzen aus diesen beiden Mengen her? Also es gibt die eingereichten noch mal, das ist so mein Nucleus, das, was mir wichtig ist. Und dann gibt es die bekannten. Und wenn man sich die mal anguckt, also man setzt den Filter oben auf bekannte Seiten, dann wird man sehen, da sind viele nicht indexierbare URLs dabei, zum Beispiel Seiten, die auf Noindex stehen. Aber das kann ja durchaus absichtlich sein. Also das muss kein Fehler sein, sondern in der Regel ist das gewollt. Oder es gibt auch viele Meldungen zum Thema Canonical Tag. Bei einigen hält Google sich an das Canonical Tag, bei anderen nicht. Es kann geben Seiten mit Weiterleitungen. Kann zum Beispiel wirklich passieren, wenn ein externer Link auf eine alte URL verweist und du auf deiner Webseite leitest um, dann taucht die auf unter “Seite mit Weiterleitungen”. Und dann gibt es natürlich noch durch Robots.txt blockiert. Das sind eben Seiten, die für den Crawler gesperrt sind. Oder es gibt so Meldungen wie Soft 404 oder noch diverse andere. Das steht alles in dem Hilfetext drin. Also wenn du wirklich sagst, Google Search Console, den Report Abdeckung, den will ich verstehen, dann arbeite bitte einmal diese Hilfeseite durch. Die ist nämlich wirklich gar nicht mal so schlecht.

Und, ja, man sieht natürlich auch – ich bin eben hauptsächlich so auf Fehlermeldungen eingegangen – es gibt da unten dann auch eine Kategorie an URLs, die heißt „gesendet und indexiert“. Und das ist eigentlich genau das, was du haben möchtest. Also gesendet heißt: die waren in der XML-Sitemap. Indexiert heißt: ja, sind im Index gelandet. Prima.

Und dann gibt es eben noch eine zweite Meldung, die heißt „indexiert, nicht in Sitemap gesendet“. Hmm. Und da muss man dann eben genauer hingucken. Also heißt, Google hat eine URL gefunden, fand die irgendwie schön, und indexierungswert, aber in der Sitemap stand die gar nicht drin.

Und da muss man sich ja mal angucken, warum ist denn das so? Es kann zum Beispiel sein, habe ich schon erlebt, eine Website, die hatte 100.000 PDF-Dateien, die indexiert Google, also die stehen dann in indexiert, nicht in Sitemap gesendet. Die fehlen einfach nur in der Sitemap. Oder Filterseiten oder Kontaktformulare, da gibt es so viele Möglichkeiten. Und diese Kategorie würde ich mir auf jeden Fall angucken, denn die Frage ist ja, Was willst du jetzt eigentlich?

Also wenn diese Seiten wirklich indexiert werden sollen, dann müssen sie auch in die Sitemap rein, denn noch mal, die soll vollständig sein. Und wenn diese Seiten nicht indexiert werden sollen, dann muss man sie halt für Suchmaschinen sperren. Dazu komme ich zum Schluss natürlich noch mal. Das war der eine Report. Und Abdeckung, noch mal, tun sich sehr viele sehr schwer mit, weil da stehen viele Fehlermeldungen und wenn man so ein bisschen mit dem ganzen Thema auf Kriegsfuß steht, wird das manchmal ein bisschen schwierig.

 

Report #2: Crawler-Statistiken

Es gibt noch einen zweiten Report und den findet man etwas unglücklich positioniert. Ich weise immer gerne darauf hin. Also auch in der Search Console unter Einstellungen und da gibt es die Crawler-Statistik.

Und da sehe ich halt zum Beispiel die Crawling-Anfragen pro Tag. Also wie viele Sachen lädt Google eigentlich so runter? Also der Google-Bot. Und das kann ich mir zum Beispiel aufschlüsseln lassen nach Dateityp. Da steht dann eben zum Beispiel 60% HTML. Da steht dann aber zum Beispiel auch 20% PDF. Und auch dann kann ich mir das wieder angucken und kann eben sagen, Okay, der Crawler beschäftigt sich in 20% der Fälle mit PDF-Dateien, die will ich aber eigentlich gar nicht im Index haben.

Oder es gibt noch andere Reports, hätte ich fast gesagt, das sind eher so Filter, wenn man so möchte. Es gibt aber noch „Nach Antwort“. Damit ist der HTTP-Code gemeint. Da sollte natürlich der Code 200 dominieren. Das heißt, 200 heißt eben, das was Google haben wollte, wurde auch gefunden. Da könnte aber auch stehen, zum Beispiel 12% 301. Das heißt, der Google-Bot hat sich in zwölf Prozent der Fälle – ist der auf eine Umleitung gestoßen. Ist in der Regel das, was man möchte. Aber auch das kann man sich angucken. Also draufklicken und dann gucken, was wird denn da eigentlich weitergeleitet?

 

Und nun?

Ja. Das sind so die beiden Reports. Und jetzt ist die Frage, also angenommen, du stellst fest, ich verschwende Crawl Budget. Und wenn wir noch mal zu dem Beispiel zurückgehen aus Report Nummer eins: Du hast 3.500 Seiten indexiert und mit 50.000 beschäftigt sich der Google-Bot, dann verschwendest du Crawl Budget, weil eben 46.500 URLs heruntergeladen werden, die eigentlich ja, die man wahrscheinlich – ja, die einfach Crawl Budget verschwenden. Punkt.

Das muss aber nicht schlimm sein. Ich will dich da noch mal auf Search Camp Episode 88 verweisen. Die ist schon ein bisschen, also wenn wir jetzt sehen, wir sind bei 228, dann ist das schon ein bisschen ältere Episode, stimmt aber immer noch genauso alles, was ich da gesagt habe.

Also man muss immer Crawling und Indexierung unterscheiden. Das Crawl Budget ist begrenzt. Das heißt, Google wird pro Tag ungefähr eine bestimmte Menge oder einen bestimmten Korridor an Ressourcen von deiner Website laden. Und das wird sich sehr wahrscheinlich auch nicht ändern. Und was jetzt eben passieren kann, ist, dass der Google-Bot sich mit URLs beschäftigt, die eben nicht indexierbar sind und das ist ja irgendwie unsinnig. Kann total passieren. Und was in der Folge passieren kann ist, dass der Google-Bot, weil eben das Crawl Budget begrenzt ist, relevante neue Seiten später indexiert. Er ist einfach gerade mit anderen Sachen beschäftigt. Das ist so die große Gefahr, ehrlich gesagt.

Insgesamt muss ich sagen, mein Eindruck ist, dass Google recht gut darin geworden ist, irrelevantes Crawling zu begrenzen. Das heißt, so schlimm ist das alles in der Regel nicht unbedingt. Man muss natürlich ein bisschen gucken, das heißt, ein Effekt kann eben sein, dass relevante neue Seiten später in den Index reinrutschen, kann passieren. Was auch natürlich passieren kann, ist, all das geht ja zulasten deiner Server Last. Das heißt, wenn Google da irgendwie an einem Tag 100.000 Seiten unsinnigerweise herunterlädt, dann ist auf deinem Server viel Last passiert, über das Netz wurden 100.000 Seiten transferiert. Das heißt, du hast natürlich in irgendeiner Weise Energie verschwendet, du hast in irgendeiner Weise – vielleicht brauchtest du einen zweiten Server, weil es so viele Anfragen waren. In der Regel eher nicht, aber ja, kann passieren, oder es kann sein, dass du etwas geringere Ladezeiten hast, weil dein Server eben so ausgelastet ist durch die irrelevanten Sachen. In der Regel sehe ich das nicht so, es gibt gutes Caching mittlerweile. Ist jetzt gar nicht so ein großes Thema.

Das heißt nochmal, Crawl-Budget-Verschwendung hat in der Regel bezogen auf den Index keinen negativen Effekt, außer dass eben eventuell es passieren kann, dass neue Seiten später reinrutschen, weil der Crawler eben gerade mit anderen Sachen beschäftigt ist.

 

Index Bloat

Man muss jetzt aber das Ganze von einem Thema abgrenzen und das ist das Thema Index Bloat. Das heißt, das, was der Crawler macht, das ist das eine Thema, der lädt einfach Seiten herunter. So, und dann ist die Frage, was davon landet denn jetzt im Index? Und da muss man eigentlich wirklich aufpassen. Da ist die Crux. Index Bloat heißt: Ich mülle den Index zu mit irrelevanten Seiten.

Das heißt, wenn ich es geschafft habe, indexierbare Seiten, die nicht relevant sind, in den Index zu bekommen, dann kann das negativ sein für meine Website. Also für meine gesamten Rankings, weil natürlich, es kann passieren, dass eben die Gesamtheit aller Seiten betrachtet wird und da ist jetzt viel Müll dabei oder so oder Seiten, die irgendwie immer alle das Gleiche sind und so und dann kann es durchaus passieren, dass deine Website herabgestuft wird, aber nicht, weil du Crawl Budget verschwendest, sondern weil du Index Bloat hast. Das heißt, das muss alles – das sind zwei Themen, die natürlich eine gewisse Überschneidung haben, aber auch nur eine gewisse. Am Ende des Tages ist eigentlich für mich primär wichtig: Was landet im Index?

Und da hast du vor allem die Möglichkeiten, einen noindex zu benutzen, um irrelevante Seiten auszuschließen. Und du hast die Möglichkeit, einen Canonical Tag zu benutzen, um Dubletten, also zum Beispiel so Parameter URLs auf – ja, zusammenzufassen. Das ist das eine Werkzeug, was du hast.

 

Die Lösung gegen Crawl-Budget-Verschwendung: die robots.txt

Aber wenn du jetzt wirklich sagst, ich verschwende Crawl Budget und ich will nicht, dass das passiert. Kann ja sein. Habe ich auch schon gehabt, da hat – ich weiß nicht genau, was die Zahl war – hat der Google Bot sich in, weiß nicht, 25% der Zeit hat er sich an einem Verzeichnis bedient, was es seit Jahren schon nicht mehr gab, hat er Unmengen an URLs gecrawlt, immer kam ein 404 Fehler, komplett unsinnig.

Und dann ist das schärfste Schwert was du hast, die robots.txt, denn nur die robots.txt kann das Crawling beschränken. Das heißt, wenn du zum Beispiel so einen bestimmten Ordner hast, dann kannst du diesen Ordner eben für Suchmaschinen sperren. Angenommen du hattest mal so ein Newsletterverzeichnis und das gibt es schon seit Jahren nicht mehr, aber Google crawlt das immer noch, dann gibt es so eine Zeile wie „Disallow: /Newsletter/“ zum Beispiel. Also: robots.txt ist die schärfste Waffe, die du hast und ehrlich gesagt auch so ziemlich die einzige für Crawl Budget Verschwendung.

Und natürlich, was helfen kann, ist, wenn du XML-Sitemaps hast, quasi als Fokus. Das heißt, du sagst Google, Okay, Google, du kannst dich mit diesen 50.000 Seiten beschäftigen.Aber diese 3.500, die sind mir wichtig und da möchte ich gerne, dass die im Index drin sind. Und da gibt es eine Möglichkeit, da ein Attribut reinzupacken, das heißt „lastmod“. Nämlich wann wurde diese Seite eigentlich das letzte Mal geändert, so dass rein theoretisch, angenommen, du hast 3.500 Seiten und nur zwei haben sich geändert, dann kann Google das erkennen und sehr zielgerichtet sein Crawler losschicken. Also ganz klare Empfehlung, das Attribut „lastmod“ in der XML-Sitemap zu benutzen, wenn dein Content Management oder Shop System das eben kann. Das können nicht alle.

 

Ausblick

Jo, dieses ganze Thema Effizienz von Crawling, glaube ich, wird in 2022 noch ein größeres werden. Also Indexierung ist sowieso schon ein Thema. Es gab ein paar Anzeichen in einem Podcast von Google, wo sie gesagt haben, “Da müssen wir wahrscheinlich noch was machen”, weil dieses ganze Thema Effizienz ist natürlich schon wichtig und vor allem, wenn man sich wirklich mal anguckt in so einer Log File Analyse, mit welchen unsinnigen URLs sich Google alles so beschäftigt, dann schlage ich persönlich oft die Hände über dem Kopf zusammen und denke so, Wo ist eigentlich diese ganze KI, wenn man sie dann mal braucht? Weil da könnte man sie vielleicht gut brauchen.

Und da gibt’s manche Fälle wirklich, wo Google einen Schrott herunterlädt, den es seit Jahren nicht mehr gibt und – naja, aber noch mal, du weißt, was du dagegen tun musst, nämlich robots.txt. Du weißt, wie du Google helfen kannst, nämlich Sitemap mit Last Mod. Und du weißt, welche beiden Reports dir helfen, nämlich einmal natürlich der Report Abdeckung und dann die Crawler Statistiken.

The following two tabs change content below.
Avatar-Foto

Markus Hövener

Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.

Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.

Kommentieren