Check mit dem Screaming Frog SEO Spider: Sind alle Seiten intern verlinkt?

11. Januar 2021 | Von in SEO

Google sagt schon länger, dass Seiten, die nicht intern verlinkt sind, in den Rankings Nachteile haben werden. Nicht ohne Grund gilt die interne Verlinkung als insgesamt recht wichtiges Kriterium. Aber ist es nicht normal, dass alle Inhalte verlinkt sind? Kann es da wirklich Probleme geben? Was können Klicktiefe und Noindex damit zu tun haben?

Grundsätzlich muss man sagen: Auch wenn eine Seite innerhalb der Website nicht verlinkt ist, sondern nur in einer XML-Sitemap auftaucht, wird Google diese wahrscheinlich indexieren. Nur: Gute Rankings werden diese nicht unbedingt liefern – siehe z. B. „Orphan Pages: Seiten ohne interne Links haben für Google kaum Gewicht“.

Für die Prüfung, ob alle Inhalte innerhalb der Website verlinkt sind, bietet sich der Abgleich der Website mit der XML-Sitemap an. Dafür kann man gut Tools wie den beliebten Screaming Frog SEO Spider nehmen. Aber dabei gilt es einiges zu beachten …

 

Das Noindex-Problem

Bei der Analyse der internen Verlinkung muss man nämlich die Noindex-Problematik bedenken. Google sagt, dass Noindex-Seiten (nach einiger Zeit) aus dem Index entfernt werden und dass Links von diesen Seiten folgerichtig dann auch nicht mehr gesehen werden (https://twitter.com/JohnMu/status/1172050452562755584).

Ein Beispiel: Seite A steht auf „index“ und verlinkt auf Seite B. Seite B steht aber auf „noindex“ und verlinkt auf Seite C. In diesem Fall wird Google den Link von B auf C nicht mehr erkennen können. Es gibt zwar auf der Website einen Linkpfad, über den man Seite C finden kann – aber Google sieht diesen Pfad leider nicht.

Ist das ein konstruiertes Beispiel, das in der Praxis selten vorkommt? Eher nein, denn gerade Paginierung wird immer noch gerne per Noindex umgesetzt.

Ein konkretes Beispiel aus der Praxis:

  • Die Shop-Kategorie https://www.adac-shop.de/reiseliteratur/reisefuehrer steht auf Index.
  • Die paginierte Seite https://www.adac-shop.de/reiseliteratur/reisefuehrer?p=2 steht auf Noindex.
  • Die paginierte Seite verlinkt auf indexierbare Produktdetailseiten wie https://www.adac-shop.de/reiseliteratur/reisefuehrer/9647/baedeker-reisefuehrer-usa.

Nun muss das nicht zwangsweise schlimm sein. Google wird zwar den Link von B auf C nicht „erkennen“, aber es kann ja andere Links auf C geben, sodass Google die Seite doch noch über interne Links findet.

Kann sein – muss aber nicht. Und genau das sollte man prüfen.

 

Macht „Respect Noindex“, was es soll?

Wer Screaming-Frog-Nutzer ist, kennt vielleicht die Option „Respect Noindex“, die dafür sorgt, dass eine Seite, die auf Noindex steht, aus den Ergebnissen entfernt wird.

Da erscheint es nur sinnvoll, diese Option auch dafür zu nutzen, damit der Screaming Frog SEO Spider sich wie Google verhält. Aber macht diese Option auch genau das, was sie soll? Das ist einen Test wert.

Dafür crawle ich die Sektion https://www.adac-shop.de/reiseliteratur/reisefuehrer, also alle Pfade, die mit /reiseliteratur/reisefuehrer beginnen. Das sind dann sowohl die paginierten Kategorieseiten als auch die Produktdetailseiten.

Erster Test: „Respect Noindex“ = aus

Im Ergebnis liefert der Crawl 637 Seiten (15 paginierte Seiten mit p=1 bis p=15).

Zweiter Test: „Respect Noindex“ = ein

Der Crawl zeigt jetzt nur noch 622 Seiten – also fehlen genau die paginierten Seiten (622 = 637 Seiten – 15 paginierten Seiten, die auf Noindex stehen).

Das Ergebnis: Der Screaming Frog SEO Spider verwirft bei „Respect Noindex“ die Noindex-Seiten, verfolgt aber noch deren ausgehende Links. Hier verhält sich also der Spider anders als Google.

Wenn man nun prüfen möchte, wie sich Google verhält und welchen Einfluss die Noindex-Problematik hat, muss man dafür sorgen, dass die paginierten Seiten gar nicht erst gecrawlt werden – z. B. mit diesem Exclude:

Das Ergebnis ist sehr eindeutig: Der Crawl liefert jetzt nur noch 356 Seiten, weil es eben keinen Linkpfad mehr zu einigen Produktdetailseiten gibt – es fehlen also ca. 42 % der Seiten im Crawl.

Konsequenz:

Wenn man prüfen möchte, ob Google an alle Seiten über interne Links herankommt, muss man vorher alle Noindex-Seiten vom Crawling ausschließen. Das Setzen der Option „Respect Noindex“ genügt nicht.

Um zu prüfen, ob alle Seiten intern verlinkt sind, muss man die Website also doppelt crawlen: Einmal, um die Noindex-Seiten zu identifizieren, und dann, um zu prüfen, ob wirklich alle Seiten über interne Links (ausgenommen die von Noindex-Seiten) erreichbar sind.

 

Der erste Crawl: Noindex-Seiten identifizieren

Für den ersten Crawl sollte man also definitiv die Option „Respect Noindex“ ausschalten und die Website komplett crawlen lassen. Danach kann man im Tab „Directives“ mit dem Filter „Noindex“ alle Noindex-Seiten finden – in diesem Fall die paginierten Kategorieseiten:

Jetzt kann man natürlich alle diese Seiten einzeln per „Exludes“ herausfiltern. Oder man schafft es – wie in diesem Beispiel –, ein Muster zu entdecken und dann einfach alle URLs mit „p=“ zu filtern.

Der Vollständigkeit halber sollte man immer nochmal prüfen, ob es nicht doch indexierbare Seiten gibt, für die diese Filter zu Unrecht greifen würden. Dafür wechselt man im „Directives“-Tab einfach auf „Index“ und sucht dann mit diesem Filter, z. B. so:

Sobald man nun alle URLs, die auf Noindex stehen, per Excludes vom Crawl ausgeschlossen hat, kann man den zweiten Crawl mit dieser Einstellung starten.

 

Der zweite Crawl: Abgleich mit der XML-Sitemap

Dazu muss man aber zunächst die URL der XML-Sitemap(s) identifizieren. Die kann man durch Raten ermitteln – oder man schaut einfach in die robots.txt:

Jetzt muss man dem SEO Spider nur noch beibringen, die XML-Sitemap(s) auch zu crawlen. Das geht ganz einfach über „Configuration > Spider“:

Theoretisch kann man in diesem Fall auch einfach nur den Haken „Auto Discover XML Sitemaps via robots.txt“ setzen. Dann würde der SEO Spider die Sitemap(s) eigenständig aus der robots.txt auslesen.

Wenn man nun den Crawl startet, wird der SEO Spider zwei Sachen machen: Er crawlt die Website „normal“ und erschließt sie sich über interne Links. Parallel wird er aber auch die XML-Sitemap(s) herunterladen und die dort genannten URLs herunterladen.

Sobald der Crawl dann durchgelaufen ist, müssen die beiden Mengen – URLs, die beim Crawl über interne Links gefunden wurden, und URLs, die in der XML-Sitemap vorkommen – miteinander abgeglichen werden. Das geschieht nur dann, wenn man das auch explizit „beauftragt“. Hierzu muss man die „Crawl Analysis“ nutzen, die nach einem Crawl durchgeführt wird:

Sobald die Daten berechnet sind, kann man dann in den Tab „Sitemaps“ wechseln. Für die unterschiedlichen URL-Mengen gibt es die folgenden beiden Filter:

 

Voraussetzung: Eine korrekte XML-Sitemap

Die Analyse ist natürlich nur dann sinnvoll, wenn die XML-Sitemap auch vollständig ist. Wenn dort wichtige URLs fehlen, ist die Aussagekraft der Ergebnisse deutlich herabgesetzt. In der Praxis kann man davon im Normalfall ausgehen – aber es kann immer zu Problemen kommen, weil z. B. bestimmte Seitentypen oder Sprachen/Länder in der Sitemap fehlen.

Wie im Bild oben zu sehen ist, gibt es dafür aber den Filter „URLs not in Sitemap“. Dort findet man beim konkreten Beispiel nur insgesamt drei Seiten, die über interne Links gefunden wurden, aber in der Sitemap fehlen:

Um absolut sauber zu sein, müsste man hier eigentlich entscheiden:

  • Sind die Seiten wichtig? Dann sollten sie in die XML-Sitemap aufgenommen werden.
  • Sind die Seiten unwichtig? Dann sollten sie evtl. auf Noindex gesetzt werden.

Bei der geringen Anzahl an Seiten lohnt es sich aber nicht mal ansatzweise, hier noch Hand anzulegen und die Sitemaps zu verändern.

 

Orphan URLs

Wie gesagt: Spannend ist vor allem die Analyse der „Orphan URLs“, da dort die URLs aufgeführt werden, die intern nicht verlinkt sind – oder z. B. von den gesperrten Noindex-Seiten verlinkt sind. Beim konkreten Fallbeispiel (ADAC-Shop) findet man dort übrigens keine einzige URL. Also: Alle Seiten aus der XML-Sitemap sind auch intern verlinkt. Auch ohne die paginierten Kategorieseiten sind alle Produkte intern verlinkt – über Querverlinkungen der einzelnen Produktdetailseiten.

Wenn man sich eine andere Website als Beispiel heraussucht, liefert dieser Analyse-Schritt durchaus einige Seiten:

Das sind also Seiten, die nur in der XML-Sitemap vorkommen, aber keine internen Links haben.

 

Klicktiefe

Prüfen sollte man natürlich nicht nur, ob alle Seiten irgendwie über interne Links erreichbar sind, sondern wie es sich mit der Klicktiefe verhält. Ein Link von einer Seite mit einer zu hohen Klicktiefe kann nämlich genauso gut ignoriert werden.

Der SEO Spider kann natürlich auch dabei helfen, da er die Klicktiefe zu jeder Seite abspeichert. Wo man bei der Klicktiefe die Grenze zieht, ist etwas umstritten. Eine zweistellige Klicktiefe sollte es aber faktisch niemals sein.

Wie die Klicktiefen verteilt sind und ob es überhaupt Seiten mit einer bestimmten Klicktiefe gibt, sieht man in der „Crawl Depth“-Übersicht:

In diesem konkreten Fall ist die Klicktiefe absolut kein Problem, aber es gibt ja auch durchaus andere Websites – z. B. diese hier:

Um die konkreten Seiten mit zu hoher Klicktiefe zu identifizieren, kann man die Suchfunktion des Tools nutzen – oder man exportiert die Inhalte einfach (Tab „Internal“ > Export) und filtert dann in Excel oder Google Sheets (seit Version 14 kann man direkt in Google Sheets exportieren) anhand der Klicktiefe („Crawl Depth“).

Seit Version 14 kann der SEO Spider übrigens auch anzeigen, in welchen Ordnern sich die Seiten befinden, die zu tief liegen. Manchmal hilft das bei der Diagnose:

 

Zusammenfassung

  • Um eine verlässliche Aussage über die interne Verlinkung zu treffen, sollten auf jeden Fall Noindex-Seiten für den Crawl ausgeschlossen werden (z. B. über Excludes oder eine Custom robots.txt). Diese Noindex-Seiten müssen über einen ersten Crawl ermittelt werden.
  • Danach sollte ein zweiter Crawl durchgeführt werden, um Crawl und XML-Sitemap(s) abzugleichen.
  • URLs, die über interne Links gefunden werden und in der Sitemap vorkommen, sind der Positivfall. Alle anderen URLs müssen geprüft werden: In XML-Sitemap(s) aufnehmen? Oder lieber sperren? Oder intern verlinken?
  • Auch die Klicktiefe muss beachtet werden: Inhalte, die zu tief liegen, können durchaus Probleme hinsichtlich Crawling/Indexierung aufweisen.
The following two tabs change content below.
Avatar-Foto

Markus Hövener

Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.

Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.

Kommentieren