Muss ich mir um mein Crawl-Budget Sorgen machen? [SEO FAQ #14]

4. September 2018 | Von in SEO

Im Bereich der technischen Suchmaschinenoptimierung (Technical SEO) gibt es viele spannende Konzepte. Ein Thema, mit dem man sich hier beschäftigen kann, ist das Crawl-Budget. Warum sollte man das tun? Und für wen ist das irrelevant?

 

Worum geht es?

Google (und auch andere Suchmaschinen) verfügt über einen Crawler, der zwei Aufgaben hat:

  • Die Seiten, die sich bereits im Index befinden, werden laufend überprüft: Haben sich die Seiten geändert? Gibt es sie überhaupt noch?
  • Falls ein Crawler eine neue Seite findet, die sich noch nicht im Index befindet, wird der Crawler sich darum bemühen, diese Seite möglichst zeitnah herunterzuladen.

In der Regel ist der Crawler also gut beschäftigt. Nun ist es aber so, dass die Anzahl der Objekte (Seiten, Bilder …) oder die Datenmenge (MB pro Tag) begrenzt ist. Welcher Wert hier richtig ist, lernt Google mit der Zeit. Eine Website, die stark verlinkt ist und aus Millionen Seiten besteht, wird natürlich mehr „Aufmerksamkeit“ durch den Crawler bekommen als eine kleine Website mit 100 Seiten, die sich im letzten Jahr nie geändert haben.

Es gibt hier also eine Beschränkung: das sogenannte Crawl-Budget. Wie hoch das Crawl-Budget einer Website ist, kann man nur ungefähr sagen. In der Google Search Console gibt es den Report „Crawling-Statistiken“, der die jeweiligen Crawl-Aktivitäten der letzten Tage und Wochen zeigt. Typischerweise erkennt man hier einen eindeutigen Korridor, in dem sich alles bewegt.

 

Warum ist das relevant?

Wenn der Crawler mit vielen irrelevanten Dateien beschäftigt ist, bleibt evtl. zu wenig Budget für „gute“ und wichtige Seiten übrig. Ein Beispiel: Ein Onlineshop hat 100 000 Produktdetailseiten. Jede Produktdetailseite generiert über einen Link eine PDF-Variante („Merkzettel“) mit mehreren Megabyte Größe.

Der Crawler wird sich also auch über diese PDF-Dateien „hermachen“. Und diese PDF-Dateien werden einen gewissen – evtl. sehr großen – Teil des Crawl-Budgets auffressen. Wenn nun neue Produkte dazukommen, kann das u. U. dazu führen, dass diese neuen Produkte verspätet den Weg in den Index finden. Im schlimmsten Fall crawlt und indexiert Google die Seiten dann vielleicht sogar gar nicht mehr (was aber sehr unwahrscheinlich ist).

Die Ausgangsfrage war ja: Müssen Sie sich um das Crawl-Budget Sorgen machen? Diese Frage ist schwer zu beantworten, da Google sich faktisch nicht meldet, wenn es mit zu viel „Müll“ beschäftigt ist. In jedem Fall sollte man aber dafür sorgen, dass Google & Co. einfach keine irrelevanten Inhalte crawlen müssen, damit solche Engpässe erst gar nicht auftreten können.

 

Wie finde ich die Datenfresser?

Die Suche nach solchen „Datenfressern“ ist recht schwierig, da man davon in der Regel wenig mitbekommt. Einige Lösungen gibt es aber dennoch:

  • Sie können Ihre Website mithilfe von Crawlern (z. B. dem Screaming Frog SEO Spider) prüfen und so Objekte finden, die nicht gecrawlt werden sollen. Um beim obigen Beispiel zu bleiben: Die PDF-Versionen der Produktdetailseiten haben keinen Mehrwert gegenüber den HTML-Produktdetailseiten und sollten auch niemals in den Suchergebnissen auftauchen. Am besten sollte man solche URLs dann sperren – meistens über die robots.txt.
  • Es gibt auch Log-File-Analyzer (z. B. der Screaming Frog Log File Analyzer), über die Sie die Aktivitäten der einzelnen Suchmaschinen-Crawler analysieren können. Mit welchen Verzeichnissen oder Dateitypen beschäftigt sich der Crawler häufig? Müssen diese Inhalte wirklich gecrawlt werden? Oder kann man diese auch sperren?

 

Übrigens …

Das Crawl-Budget ist nicht unbedingt feststehend. Im Falle eines Relaunches passt Google z. B. sehr schnell das Crawl-Budget an, wenn die Algorithmen merken, dass sich gerade sehr viel ändert und dass es wichtig ist, das alles schneller und intensiver zu crawlen. Ein paar Tage/Wochen nach dem Relaunch geht das Crawl-Budget dann aber wieder auf das alte Niveau zurück

The following two tabs change content below.
Avatar-Foto

Markus Hövener

Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.

Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.

Kommentieren