Noindex oder robots.txt: Was nimmt man wann? [Alles auf Start 90]

24. August 2023 | Von in Podcast "Search Camp", SEO

Wer Inhalte für Suchmaschinen sperren möchte, hat dafür zwei Möglichkeiten: noindex oder robots.txt. Aber welchen dieser beiden Wege sollte man bestreiten? In welchen Fällen entscheidet man sich für welche Möglichkeit?

 

Hinweis: Von unserem Podcast "Alles auf Start" werden leider keine neuen Episoden mehr veröffentlicht (letzte Episode: Dezember 2023). Mehr SEO auf die Ohren? Dann können wir Dir natürlich unseren Podcast Search Camp empfehlen!

 

Noindex oder robots.txt: Was nimmt man wann?

Noindex oder robots.txt: Was nimmt man wann?

Es ist eigentlich eine ganz alte Frage, eine, die auch relativ oft kommt, vor allem, wenn man sich so mit technischer SEO beschäftigt: Soll ich Noindex oder Robots.txt benutzen? Falls ihr nicht wisst, was das ist, ich erkläre es euch natürlich. Aber ja, fangen wir mal einfach mal vorne an.

 

Warum sperrt man Inhalte für Suchmaschinen?

Erst mal, bei beiden geht es darum, dass man Inhalte für Suchmaschinen sperrt. Weil grundsätzlich, wenn man nichts macht, wird Google erstmal jede Seite eurer Website crawlen und indexieren. Natürlich sortiert Google noch ein bisschen aus, aber im Großen und Ganzen, wenn man jetzt nichts macht, hat jede Seite erst mal die Chance, in den Index reinzukommen.

Aber das will man gar nicht immer. Es gibt ein paar Fälle, wo man eben jetzt Inhalte konkret sperrt, zum Beispiel, weil sie nicht gefunden werden sollen. Ich habe zum Beispiel ein Intranet oder sowas, und da ist eine Login-Seite drauf. Ja, und vielleicht möchte ich verhindern, dass ein Hacker gezielt nach dieser Seite sucht. Oder ich habe vielleicht ein ganz neues Produkt. Ich will aber noch nicht – also ich habe das schon auf die Website gepackt, aber ich will noch nicht, dass Google da ran geht. Oder gerade in vielen Relaunch-Situationen habe ich einen sogenannten Stage, wo ich meine neue Website vorbereite. Da will ich auch nicht, dass sie so halbfertig von Google indexiert wird, und da irgendein Benutzer drauf landet.

Der zweite Grund ist, dass man Inhalte sperren sollte, die nicht suchrelevant sind. Im Index sollen sich nur Seiten befinden, die suchrelevant sind, das heißt, nach denen auch wirklich gesucht werden kann. Ich habe zum Beispiel eine Seite mit meinen AGB. Aber niemand sucht wirklich nach meinen AGB. Oder wenn, macht das mal einer im Jahr, und dann würde man sagen, okay, das ist ja hier ganz interessant, aber das hat im Index nichts zu suchen. Oder du hast ein Newsletterarchiv mit 20 Jahre alten Newsletter, die liest sowieso keiner mehr, die müssen nicht in den Index rein, die sind nicht suchrelevant.

Und dann gibt es noch Grund Nummer drei: Du willst kein Crawl-Budget verschwenden. Das ist ein bisschen komplexeres Thema, ich werde da heute nicht in der Tiefe darauf eingehen. Aber: Google holt pro Tag von deiner Webseite nur so und so viele Seiten ab. Und na ja, mit je mehr unsinnigen oder irrelevanten Seiten Google sich da beschäftigt, desto länger kann es dauern, bis deine relevanten Seiten entweder indexiert werden oder aktualisiert werden. Google soll sich nur mit deinen echten, wahren Inhalten beschäftigen, damit eben mehr Energie dafür zur Verfügung steht.

 

Zwei Möglichkeiten: Noindex und robots.txt

Und wenn man das machen möchte, aus irgendeinem der vorgenannten Gründe, dann hast du zwei Möglichkeiten, etwas für Suchmaschinen zu sperren. Möglichkeit Nummer eins ist Noindex. Das heißt, typischerweise geht das über einen Robots-Metatag in der Seite. Und da steht wirklich im HTML-Code <Meta Name = “robots” Content = “noindex”>. Und Google guckt sich das Ganze an, und wenn die so eine Seite finden, sagen sie, oh ja, die ist ja auf Noindex.

Wichtig: Noindex ist eine Direktive, das heißt, Google muss sich daran halten. Und dann wird diese Seite nicht in den Index aufgenommen. Das heißt, man kann sie auf gar keinen Fall finden.

Und dann gibt es eine zweite Möglichkeit, nämlich die robots.txt. Das ist eine Textdatei mit Einträgen, und da stehen typischerweise die Zeilen drin. Das heißt, da steht zum Beispiel “Disallow: /Login”. Und das heißt, alle URLs, die mit “/Login” beginnen, die dürfen von Google nicht heruntergeladen werden.

Also, zwei verschiedene Sachen. Das eine, das schreibt man so in die Seite konkret mit rein, beziehungsweise macht das das Content Management System. Und das andere ist eine zentrale Datei, die liegt auf deinem Server rum, und Google holt die regelmäßig ab und guckt dann, was steht da drin, wo hast du Sachen gesperrt?

 

Was davon soll ich benutzen?

Dafür muss man eine Sache immer verstehen, nämlich erst wird gecrawlt, dann wird indexiert. Also: Google lädt erst eine Seite herunter und danach, wenn Google sie mag und so, wird sie in den Index aufgenommen. Das ist eine unumstößliche Reihenfolge. Da kommen wir im Moment noch nicht dran vorbei. Strenggenommen sind davor und dahinter noch Schritte. Aber wenn wir jetzt mal uns darauf konzentrieren, erst wird gecrawlt, dann wird indexiert.

So, und jetzt gucken wir uns die beiden Methoden von eben nochmal an. Da haben wir ja einmal Noindex. Noindex heißt, Google lädt die Seite herunter, denn sonst würden sie das Noindex im HTML-Code ja nicht sehen können. Die Seite wird also gecrawlt, dann guckt Google sich den Code an und sagt, “Ah, nee, schmeiß ich weg. Blöde Seite, kann weg!”

Bei der Robots.txt ist es anders. Die Robots.txt sagt, die Seite darf nicht gecrawlt werden. Das heißt, Schritt eins wird schon nicht ausgeführt. Aber sie kann trotzdem indexiert werden. Jetzt fragt man sich natürlich, wie soll etwas indexiert werden können, wenn Google es nicht herunterladen kann? Und das stimmt natürlich. Kann eigentlich nicht sein. Google kennt dann nur die URL und legt auf Basis dessen einen Leereintrag an. Das steht nicht viel drin. Die Seite wird sehr wahrscheinlich auch für nichts ranken, weil eben Google überhaupt keine Informationen über die Seite hat. Aber sie tun’s trotzdem. An manchen Stellen und Fällen hat das Gründe, will ich jetzt nicht ausführen, das macht schon Sinn.

Übrigens, das ist auch der Grund, warum man Noindex und Robots.txt nie gleichzeitig in einer Seite haben kann. Warum? Wenn eine Seite per robots.txt gesperrt ist, dann wird Google sie nicht herunterladen. Das heißt, wenn in der Seite ein Noindex drinsteht, wird Google das gar nicht sehen können. Sie haben die Seite ja nicht heruntergeladen. Und deswegen gilt immer das Spiel: Robots.txt schlägt Noindex.

Und jetzt ist die Frage der Fragen, was nehmen wir jetzt? Und der SEO sagt, wie immer: “Hängt davon ab”. Hängt davon ab, was du möchtest. Vielleicht, bevor wir jetzt zu den ganzen Regeln kommen, die übrigens ziemlich einfach sind: Wenn du Zweifel hast, nimm immer Noindex. Noindex ist immer die sicherste Wahl, ganz einfach.

 

Noindex oder robots.txt? 5 einfache Regeln

Regel #1: Wenn du willst, dass eine Seite ganz bestimmt nicht gefunden werden kann, dann musst du sie auf Noindex stellen.

Und was machst du zum Beispiel dann, wenn es eine Login-Seite ist oder, ich weiß nicht, irgendwelche geheimen Vertragsabsprachen oder was auch immer. Da willst du auf keinen Fall irgend Anzeichen im Index haben, dann stellst du sie auf Noindex.

Regel #2: Wenn du einzelne Seiten sperren möchtest, nimmst du in der Regel auch Noindex.

Also, du hast vielleicht hundert Blogbeiträge und zwei davon auch da, aus ganz bestimmten Gründen, dürfen nicht in den Google-Index rein, dann wäre es relativ sperrig, das über die Robots.txt zu machen. Nein, die meisten Content Management Systeme haben dann so einen kleinen Haken, und dann kannst du eben sagen, das bitte hier auf Noindex. Also wenn du einzelne Seiten sperren möchtest, dann nimmst du in der Regel Noindex.

Regel #3: Wenn du ganz, ganz, ganz viele Seiten sperren möchtest, dann nimmst du in der Regel die robots.txt.

Deine Website besteht aus 100.000 Seiten, hast einen Riesenshop mit wahnsinnig vielen Produkten. 100.000 Seiten, und jede davon hat eine Exportfunktion, um sich diese Produktdetailseite als PDF-Dokument herunterzuladen. Das heißt, zu deinen 100.000 Seiten kommen jetzt noch mal 100.000 PDF-Dateien hinzu. Und das wäre etwas, womit der Crawler wirklich ziemlich, ziemlich, ziemlich zu tun hätte. Ich hatte so einen Fall mal, deswegen, ich weiß, wovon ich rede. Und deswegen, wenn du ganz, ganz, ganz viele Seiten sperren möchtest, dann nimmst du lieber die Robots.txt. Du kannst diese 100.000 Seiten auch alle einzeln per Noindex sperren, aber wenn du den Crawler entlasten möchtest, dann würdest du in diesem Fall einfach sagen, ich nehme die Robots.txt.

Regel #4: Damit du etwas per Robots.txt sperren kannst, brauchst du ein URL-Merkmal.

Beispiel “/Login”: Alle URLs, die du sperren möchtest, fangen mit “/Login” an. Es gibt aber Fälle, in denen hast du so ein Merkmal nicht. Du kannst – die zu sperren – oder ob etwas zu sperren ist, kannst du nicht anhand der URL entscheiden. Und dann greift die Robots.txt nicht. Dann musst du auch die Noindex-Variante nehmen.

Regel #5: Du hast kein Noindex? Dann nimm die robots.txt!

Und dann gibt es noch den fünften Fall, das habe ich eben schon ein bisschen gesagt, im Zweifel oder auch, wenn du keinen Einfluss hast, weil dein CMS unterstützt vielleicht kein Noindex – auch das kann passieren dieser Tage, nicht mehr so unbedingt häufig, aber auch das habe ich in diesem Jahr schon erlebt – dann bleibt immer noch die Robots.txt, weil das ist eine Textdatei. Die kannst du mit einem simplen Editor aufmachen. Und wenn dein CMS urmelalt ist und das nicht kann, vollkommen egal, du kannst trotzdem etwas für Suchmaschinen sperren.

So. Das sind die fünf Regeln, und wie gesagt: In der Regel kannst du Noindex nehmen. Damit machst du nichts kaputt. Nur, Index frisst immer ein bisschen Crawl-Budget auf. Das ist aber nicht schlimm, denn nur, wenn du ganz, ganz, ganz viele Seiten gleichzeitig sperren möchtest, dann nimmst du bevorzugt den Robots.txt.

The following two tabs change content below.
Avatar-Foto

Markus Hövener

Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.

Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.

Kommentieren