Google-Crawler: Wie steuere ich den richtig? [Search Camp Episode 90]

9. Juli 2019 | Von in Podcast "Search Camp", SEO

In dieser Folge wird eine Zuhörerfrage beantwortet: Wie kann ich den Google-Crawler so steuern, dass er auf jeden Fall die Seiten besucht, die mir wichtig sind? Eine wichtige Frage, denn die besten Inhalte sind nichts wert, wenn Google sie nicht indexiert.

 

 

Die wichtigsten Podcast-Links:

 

Shownotes

Der On Page Training Day am 10. Oktober 2019: Mit dem Coupon-Code OPTD-10 jetzt 10% sparen

 

Transcript

Moin und herzlich willkommen zu Search Camp, dem Online-Marketing-Podcast, Markus Hövener hier. Bei mir geht’s heute um Google Crawler Steuerung. Ich habe eine Frage von euch da draußen bekommen und die möchte ich gerne jetzt in den nächsten Minuten beantworten. Lasst uns aber kurz ein bisschen Musik machen, dann geht’s weiter. Bis gleich.

Schön euch heute wieder dabeizuhaben. Ich habe schon gesagt, ich habe eine Frage heute mitgebracht, bin ja immer sehr dankbar für Feedback. Es kam eine Frage rein, in diesem Fall sogar anonym oder respektive, ich weiß nicht mehr, wer sie gestellt hat. Das heißt, ich konnte in diesem Fall auch gar nicht nachfragen. Ich lese mal die Frage vor:

Wie kann ich den Google Crawler so steuern, dass er auf jeden Fall die Seiten besucht, die mir wichtig sind?

Was für eine gute Frage. Ist ein bisschen so eine Zen-Frage wahrscheinlich. Ich habe mich erstmal gefragt, worüber denkt der eigentlich nach? Das eine, was einem natürlich klar sein muss, erstmal das ist wirklich SEO-Grundlagen Kurs: Crawling ist ungleich Indexierung. Crawling ist immer nur der 1. Schritt. Google lädt eine Seite herunter, danach wird sie in einem zweiten Schritt indexiert. Jetzt fragt er ja in seiner Frage hier, dass er auf jeden Fall die Seiten besucht. Ich vermute mal, dass er mit besucht crawlen meint. Das würde auch Sinn machen. Ich glaube, dass es so ist. Wie gesagt, ich konnte nicht nachfragen. Jetzt noch mal ganz wichtig, Crawling ist ungleich Indexierung oder Indexierung ist nicht eine logische Folge von Crawling.

Also: Nicht alles, was gecrawlt wird, wird auch indexiert. Was kann alles schiefgehen? Muss man erstmal drüber reden. Erstmal kann zum Beispiel schiefgehen, dass die Inhalte schwach sind. Seite wird gecrawlt, wird aber nicht indexiert, weil diesen Inhalt gab es schon tausendmal woanders, weggeschmissen. Was auch passieren kann, ist natürlich, die Seite wird gecrawlt, alles gut, wird auch indexiert, generiert aber überhaupt keinen Traffic. Warum? Nicht auf Suchbegriffe abgestimmt, Search Intent verfehlt, irgendwas. Erlebe ich auch nicht selten. Es kann natürlich auch technische Probleme geben. Die Seite liefert vielleicht einen 503 oder sie steht, hatte ich letztens, aus Versehen auf noindex, wie immer man das mit aus Versehen schafft. Aus Versehen in der robots.txt gesperrt, habe ich auch schon gesehen, klar, keine Frage. Canonical-Tag falsch, all das kann passieren.

Hilfreich um solche Fälle abzudecken, sind für mich in der Google Search Console zwei Funktionen. Erstmal die URL-Prüfung oder das URL Inspection Tool. Das kann ich nutzen, da kann ich eine konkrete URL reinstecken und kann dann herausfinden, alles gut damit, also hast du es gecrawlt, hast du es indexiert oder gab es bei einem von den beiden gab es irgendein Problem. Und wenn hier der Fragende schon fragt, dass er die wichtigen Seiten besucht, dann würde ich einfach mal ein paar wichtige Seiten da reinstecken. Natürlich, wenn ich 1000 wichtige Seiten habe, wird das ein bisschen schwieriges Unterfangen, aber in der Regel sind es ja nicht 1000 verschiedene Seiten, sondern ich kann halt pro Seitentyp ein, zwei URLs reinstecken und erstmal gucken, funktioniert das überhaupt alles. Wie gesagt, es ist nicht sehr wahrscheinlich, dass diese Probleme passieren, aber ich mach’s einfach jetzt schon zu lange und deswegen habe ich natürlich wirklich alles schon gesehen. Gehen wir mal davon aus, dass es diese Probleme nicht gibt. Also Inhalte sind sinnvoll, technisch ist alles gut, Search Intent passt, prima Seite, Ladegeschwindigkeit ist auch kein Problem, also grundsätzlich ist die Seite erstmal oder sind die Seiten, die ihm wichtig sind, sind okay.

Und dann würde ich mir 3 Aspekte angucken.

Aspekt Nummer 1: Kommt der Crawler an diese wichtigen Inhalte überhaupt erst mal heran?

Also das ist die Frage vom sogenannten Discovery, also wie findet ein Crawler eigentlich eine Seite, respektive die URL dieser Seite? Naja gut, bevorzugt über interne Links. Also ist diese Seite intern verlinkt? Alternativ geht’s auch per XML-Sitemap, jo, passt. Fangen wir vielleicht mit der Sitemap an, dann also erstmal braucht man eine und die wichtigen Seiten sollten in die XML-Sitemap rein. Das Lastmod, also das Datum der letzten Veränderung, kann man über die XML-Sitemap ausliefern. Auch hier, damit Google eben sieht, oh, von den 1000 Seiten, die du hast, haben sich nur 3 geändert, also schicke ich bevorzugt den Crawler erstmal auf diese 3 Seiten. Wichtig ist natürlich hierbei, dass man in die XML-Sitemap auch nur relevante Seiten aufnimmt oder in diesem Fall, die Frage war ja nach wichtigen Seiten. Wird oft nicht unbedingt so gemacht, oft haben wir Sitemaps, die fehlerhaft sind, wir haben auch gelegentlich Sitemaps, die veraltet sind, kann alles passieren. Also da bitte einmal reingucken. Und natürlich die Frage, kommt ein Crawler nicht nur über die XML-Sitemap, sondern auch über interne Links auf die Seite drauf? Wie kann man das prüfen? Idealerweise mit dem Screaming Frog, einfach mal einen Crawl der Seite machen und gucken, kommt Google an alle meine wichtigen, oder kommt der Crawler an alle wichtigen Seiten meiner Website heran?

So, Aspekt Nummer 2, den ich mir angucken würde: Sind sie auch gut intern verlinkt?

Also nicht nur irgendwie intern verlinkt, sondern eben auch gut. Und was kann das alles heißen? Also erstmal interne Links helfen definitiv, also Inhalte, die ich zum Beispiel von meiner Startseite aus verlinke, denen wird wahrscheinlich relativ schnell und auch oft gefolgt, Übersichtsseiten natürlich. Grundsätzlich muss man aufpassen, also Optimierung der internen Verlinkung wäre hier ein wichtiges Stichwort. Man muss hier aber allerdings auch wirklich aufpassen, dass man hier auch das Richtige macht. Unter dem Aspekt der internen Optimierung wäre es zum Beispiel hilfreich, wenn die Startseite auf die 10 wichtigsten Blogbeiträge verlinkt. Um sicherzustellen, dass meine neuesten Beiträge verlinkt werden, wäre es allerdings auch wichtig, dass die Startseite auch die 10 neuesten Beiträge verlinkt. Das heißt, bei allem muss man immer ein bisschen gucken, was will man eigentlich. Also ist mir extrem wichtig, dass neue Inhalte wirklich heute sofort in den Index kommen oder kann ich im Worstcase damit leben, dass sie morgen kommen? Denn nochmal, interne Verlinkung ist ein wichtiges Thema, hilft halt Linkjuice auf wichtige Seiten zu projizieren. Und dann muss ich natürlich auch wirklich dafür sorgen, dass eben meine relevanten Seiten wie die Startseite auch auf die relevanten oder auf die zu stärkenden Inhalte verlinken. Noch ein Thema, was ich mir natürlich bei dem Thema gut verlinkt angucken würde, ist die Klicktiefe der Seiten. Klicktiefe kann ich mir auch sehr effizient mit dem Screaming Frog angucken, da gibt’s diesen Site Structure Tab, da kann ich es genau sehen. Unter SEOs gibt’s ein bisschen unterschiedliche Auffassung dafür, was eigentlich so eine maximale Klicktiefe sein sollte. Auch da merke ich so in der Praxis, dass viele ein Problem haben mit dem Konzept der Klicktiefe. Klicktiefe heißt ja wirklich, wie viele Links brauche ich von der Startseite, wie viele Klicks auf Links brauche ich, um von der Startseite auf eine Unterseite zu kommen? Und da ist halt die Frage, was ist, wenn diese Klicktiefe zu hoch ist? Dann kann es eben wirklich passieren, dass der Crawler manche Seiten eben gar nicht mehr abholt, obwohl sie natürlich existieren und Nutzer sehen diese Seiten vielleicht auch, aber sie sind eben zu tief drin. Was jetzt diese kritische Klicktiefe ist, ist glaube ich jetzt kein fester Wert. Ich bin da persönlich immer irgendwo zwischen 5 und 7, was so bei mir so die Demarkationslinie ausmacht, wo ich dann wirklich anfangen würde zu heulen. Ich hatte gerade letztens noch ein Seminar in München, was ich gegeben habe, wo wir auch verschiedene Websites der Teilnehmer gecrawlt hatten und da war es komplett krass, also Klicktiefen von 15, 16, 17 waren da eigentlich vollkommen normal in diesem Teilnehmerfeld, was ich so in der Härte auch lange nicht mehr gesehen habe. Also hier nochmal, wenn man sicherstellen möchte, dass Google die wichtigen Seiten crawlt, dann sollte man auch sicherstellen, dass sie eben erstmal intern verlinkt sind und dann auch noch oft intern verlinkt sind, und natürlich vor allem, dass sie mit einer geringen Klicktiefe verlinkt sind.

Und dann hätte ich noch den Aspekt Nummer 3, nämlich: Lenke ich meinen Crawler mit irrelevanten Seiten (Mist, Müll, Unsinn, Quatsch) ab?

Also ihr habt verstanden, was ich euch damit sagen möchte. Ich habe ja schon letztens eine Folge gemacht zum Thema Crawl-Budget-Optimierung, genau das ist eigentlich damit gemeint. Also es gibt einfach viele Fälle, wo man Sachen macht, die in Bezug auf Indexierung okay sind, die den Crawler aber übermäßig beschäftigen. Also Canonical-Tag ist so ein Beispiel. Ich habe 100 Seiten und alle kanonisieren auf eine Seite. Das heißt, diese 100 Seiten werden zusammengenommen, daraus wird ein Cluster gemacht und die internen Link-Signale werden aufaddiert. Eigentlich eine gute Sache für den Index, aber eine schlechte Sache für das Crawling, denn der Crawler muss halt 100 Seiten herunterladen und das nicht nur einmalig, sondern regelmäßig und das beschäftigt den Crawler natürlich und da man ein Crawl-Budget hat, also es gibt irgendwie eine Obergrenze, ist es natürlich eine relativ schlechte Idee es so zu lösen. Empfehlung ganz klassisch, erstmal wenn diese ganzen Dubletten, um die es da geht, zum Beispiel über URL-Parameter entstehen, dann sollte man die in der Search Console konfigurieren. Zweitens, Canonical Tag zum Beispiel ist immer nur eine Krücke, das heißt, damit kann ich den negativen Effekt von doppeltem Content ausschalten, aber besser wäre es, die Dubletten direkt zu vermeiden. Und die 3. Empfehlung ganz klar ist: Irrelevante Seiten bitte per robots.txt sperren. Zum Beispiel, wenn ich so Vergleichsseiten habe oder Recommend-Seiten, eine Wishlist, Print Funktion oder Filter-Seiten, dann bitte per robots.txt sperren. Auch hier nochmal der Hinweis, bitte eine Logfile-Analyse zu machen, das die einzige Möglichkeit sicher herauszufinden, womit der Crawler sich eigentlich beschäftigt. Ist aufwendig, zum Teil kompliziert, zum Teil auch ein bisschen hakelig, gerade wenn du eine sehr große Website hast, diese Log-Dateien hin und her, naja, ist nicht immer schön. Auch sinnvoll hier, macht einen kompletten Crawl der Website, sucht nach irrelevanten Seiten. Ihr könnt zum Beispiel auch da den Screaming Frog SEO Spider wie immer nutzen, aber bitte immer die Option „Respect Canonical“ und „Respect noindex“ ausschalten, weil nur dann seht ihr, womit der Crawler sich eigentlich alles beschäftigt.

Und vielleicht auch noch ein wichtiger Tipp für euch. Es schimpfen ja viele über die neue Google Search Console. Ich finde die neue eigentlich gut, ich schimpfe eher über den Übergang von der alten auf die neue Google Search Console. Also ich fand, zum Beispiel früher gab es einen Report, der hieß Crawling-Fehler, ich fand den nicht so sonderlich hilfreich oder der war auch nicht so richtig gut implementiert, fand ich. Und jetzt gibt’s dieses Ding Index-Abdeckung, und das ist echt ein geiles Teil einfach. Wichtig ist, dass ihr vorher eine XML-Sitemap eintragt und quasi sagt, das hier sind meine wichtigen Seiten, und dann könnt ihr dort die konkreten Fehler einsehen und es gibt verschiedene Kategorien, wo euch dann angezeigt wird, also was hat dem Crawler jetzt eigentlich alles nicht so gefallen, und deswegen super hilfreich. Solltet ihr euch mit beschäftigen. Es gibt dazu auch eine Hilfeseite, wo diese einzelnen Kategorien ganz genau erklärt werden. Es ist natürlich relativ unrealistisch, dass ihr irgendwann mal auf 100 Prozent kommt, also dass ihr wirklich, also 100 Prozent eurer URLs, die in der XML-Sitemap drin sind, crawlt Google auch und indexiert Google auch. Das passiert relativ selten. Also 100 Prozent habe ich jetzt ehrlich gesagt auch noch nicht gesehen, selbst bei einer kleinen Website, weil irgendwas schmeißt Google immer weg oder irgendwas läuft immer mal nicht. Aber ihr solltet schon deutlich über 90 Prozent erreichen und das halte ich auch für einen realistischen Wert, wenn denn auch die inhaltliche Qualität gegeben ist. Wenn ihr natürlich, sagen wir, ihr habt einen Online-Shop und 1 Million Produkte und textlich sind die alle total schwach, weil es einfach nur, weiß nicht, ein Satz ist, dann wird Google relativ viele Seiten davon wegschmeißen. Das heißt Crawlen ja, Indexieren nein. Und nochmal, in der Google Search Console könnt ihr das ganz genau sehen, wo ihr liegt und dann könnt ihr vor allem, die Eingangsfrage war ja, wie kann ich den Google Crawler so steuern, dass er auf jeden Fall die Seiten besucht, die mir wichtig sind, da könnt ihr es genau noch mal sehen, was in diesem ganzen Prozess eigentlich schiefläuft.

Ich hoffe, ich konnte euch dazu ein paar wichtige Entscheidungshilfen liefern und ich möchte natürlich ehrlichgesagt an dieser Stelle, wenn ihr mir noch eine Minute gebt, möchte ich euch noch den Werbeblock ans Herz legen. 10. Oktober gibt’s von mir den Onpage Training Day, und da werde ich über solche Themen wie hier noch mal sprechen. Könnt ihr euch angucken, den Link packe ich euch in die Shownotes, auch noch einen kleinen Rabattcode, damit ihr natürlich auch davon profitiert, dass ihr euch hier das anhört. Und dann wäre es echt total geil, wenn wir uns da vor Ort sehen und wir den ganzen Tag wirklich reale Fälle durchspielen und gerade über solche Sachen hier noch mal ganz ordentlich nachdenken, wie ist das eigentlich mit Crawling, wie ist das mit Indexierung, Search Intent? All diese ganzen Sachen machen wir dann schön an einem Tag durch, damit ihr alle nach Hause geht und sagt, wow, das war die Druckbetankung, die ich noch mal gebraucht habe. Also erstmal sage ich an dieser Stelle noch mal, wer immer es war, der da draußen diese Frage geliefert hat, vielen Dank, bist ein Schatz. Ich hoffe, ich habe sie dir jetzt hinlänglich und gut beantwortet und ich wünsche euch was und bis bald. Tschö!

The following two tabs change content below.
Avatar-Foto

Markus Hövener

Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.

Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.

Kommentieren