Inhalte für Suchmaschinen sperren: Warum? Was? Wie? [Alles auf Start 34]

15. April 2021 | Von Markus Hövener in Podcast "Search Camp", SEO

Das Sperren von Inhalten für Suchmaschinen bietet sich bei vielen Websites an. Aber warum sollte man Inhalte überhaupt sperren? Welche Methode nimmt man dafür – Noindex oder robots.txt? Und wie kann man Gefahren aus dem Weg gehen?

Hinweis: Von unserem Podcast "Alles auf Start" werden leider keine neuen Episoden mehr veröffentlicht (letzte Episode: Dezember 2023). Mehr SEO auf die Ohren? Dann können wir Dir natürlich unseren Podcast Search Camp empfehlen!

Inhalte für Suchmaschinen sperren: Warum? Was? Wie?

Ich habe heute wieder ein Einsteigerthema mitgebracht, aber eines, das man auch mal detailliert besprechen sollte. Denn auch das ist so ein Thema, was ich sehr häufig merke, dass es da eine gewisse Grundkenntnis gibt, aber vielleicht nicht unbedingt Wissen in der Tiefe. Und deswegen habe ich mir heute überlegt, ich rede über das Sperren von Inhalten für Suchmaschinen.

Warum macht man das und wie macht man das? Erst mal auf den allerersten Blick, wenn man das jemandem erzählt, stellt sich natürlich die Frage: Warum sollte man das eigentlich tun? Also Google schickt seinen Crawler vorbei, der geht auf die Website und folgt allen Links und lädt Seite für Seite für Seite für Seite runter. Warum sollte man da irgendwo einen Stock in die Speichen stecken? Das macht doch gar keinen Sinn. Doch, glaube ich schon. Es gibt nämlich gute Gründe dafür.

Grund #1: Verschwendung von Crawl Budget

Es ist ja so, es gibt ein gewisses Crawl Budget. Das heißt, Google crawlt deine Website, und es ist irgendwie festgelegt algorithmisch, wie viele Seiten pro Tag gecrawlt werden. Also so viele Seiten lädt der Googlebot pro Tag herunter.

Jetzt kann es eben passieren, dass, wenn sich der Googlebot viel mit unsinnigen Inhalten beschäftigt, dass weniger Crawl Budget für die wichtigen Seiten überbleibt. Das passiert relativ selten, muss ich zugeben, aber es kann eben passieren.

Also angenommen, du hast einen Shop und da hast du eine Kategorie-Seite für Jagdhörner. Jetzt hast du oben aber verschiedene Links, auch Funktionen zum Beispiel, um diese Liste von Produkten neu zu sortieren. Du kannst sie nach Preis sortieren, nach Verfügbarkeit, was auch immer. Das ist häufig für Suchmaschinen einfach wieder eine neue Seite. Das heißt, Google lädt eben nicht nur die Kategorie einmal herunter, sondern noch in, wenn es 5 Sortierkriterien gibt, gibt es diese Seite 5-mal. Das sieht man gar nicht so unbedingt, wenn man den Shop benutzt, aber der Crawler folgt eben diesen ganzen Links und der wird sie entdecken können.

Oder du hast zum Beispiel 100.000 PDF-Dateien irgendwo rumliegen. Du hast vielleicht eine Versandapotheke. Und diese ganzen Beipackzettel, die hast du auch noch in jede Produktdetail-Seite reingebaut. Also wird Google auch 100.000 PDF-Dateien herunterladen, wenn du 100.000 Produkte hast. Danach sucht aber keiner. Also Verschwendung von Crawl Budget. Bei kleineren Websites ist das überhaupt kein Thema. Aber wenn du eine größere Website hast, und größer heißt dann immer eben so Anzahl der Seiten sollte schon 6-stellig sein, dann können solche Probleme wirklich auftreten.

Grund #2: Vermeiden von Risiko

Jetzt können ja verschiedene Sachen auftreten. Angenommen, du hast AGB auf deiner Website und Google wird diese AGB-Seite erst mal indexieren. Jetzt steht da aber etwas drin, was vielleicht jetzt neuerdings gegen irgendwas verstößt. Das heißt, ein böser Abmahnanwalt könnte das jetzt entdecken, könnte einfach nur bei Google quasi die falsche Formulierung eingeben und mal gucken, wer hat denn diese Formulierung alles? Dann würden sie deine Seite finden. Oder du hast zum Beispiel Login-Seiten, so dass ein böser Hacker herausfinden könnte, wenn du ein ganz bestimmtes Content-Management-System hast oder so, dann könnte er über spezielle Suchanfragen ermitteln, wo bei dir die Login-Seiten sind oder so etwas. Das kann passieren, und dann ist es natürlich blöd, wenn es solche Seiten im Index gibt. Also wenn man es den bösen Leuten einfach zu leicht macht.

Grund #3: Dünner/doppelter Content

Es könnte nämlich sein, dass du viel dünnen Content hast oder viel doppelten Content. Und das kann dazu führen, dass deine Website insgesamt vielleicht gering bewertet wird. Ich mach mal ein Beispiel. Ist sogar eins, was ich wirklich so mal hatte. Muss ich aber sagen, ich kriege sowas selten auf den Tisch. Also das ist/war eine Website mit Stellenangeboten, ungefähr 1000 Stück waren es wohl. Also würde man denken, wenn man diese Website jetzt crawlt, klar, gibt’s immer so ein paar Seiten links und rechts, aber Google wird wohl ungefähr 1000 Seiten indexieren. Wenn man sich das jetzt mal angeguckt hat, hat man aber festgestellt, Google hat mehr als 1 Million Seiten gefunden, weil eben noch ganz viele Filter-Seiten in den Index gerutscht sind. Oder auch so Such-Seiten. Es gab zum Beispiel eine Seite für alle Stellenangebote in Berlin oder eine für alle Putzkräfte in Berlin, für alle Teilzeitjobs in Berlin, und so weiter und so fort. Und das gab es natürlich nicht nur für Berlin, das wäre noch der schöne Fall, sondern das gab es für alle Städte, und noch in allen Kombinationen. Also auch für alle Teilzeit-Putzkräfte in Berlin. Da gab’s natürlich dann erst mal viele leere Seiten, weil es vielleicht in Emsdetten, im wunderschönen Münsterland, gerade keine offenen Stellen für Teilzeit-Putzkräfte gab, kann sein, und auch die anderen Seiten, wo zumindest ein Stellenangebot drauf war, die waren alle doch sehr, sehr, sehr, sehr ähnlich. Und das nennt man den sogenannten Index Bloat. Also man hat den Index einfach mit Seiten vollgeblasen, ohne dass diese Seiten irgendwie eine relevante Qualität hatten. Und noch mal: Das kann dazu führen, dass deine Website insgesamt als gering bewertet wird. Und das will man vermeiden. Und um das zu tun, muss man dann einfach ganz bestimmte Seiten sperren.

Was sperrt man?

Inhalte zum Sperren #1: Seiten, die keinen SEO-Mehrwert haben

Also Inhalte nach denen nicht gesucht wird oder nicht gesucht werden soll. Das heißt, ich habe das eben schon mal gesagt, die AGB, die müssen nicht im Google-Index sein. Dein Impressum, muss nicht da drin sein. Eine Login-Seite, wer sucht denn nach einer Login-Seite? Es gibt natürlich Spezialfälle, aber im Allgemeinen braucht man die nicht. Oder Druckversionen. Es gibt irgendeine Seite nochmal als Druckversion oder nochmal als PDF-Export. Das muss nicht in den Index rein. Und dann sperrt man die eben. Oder alle Seiten, die sowieso inhaltlich dünn sind, das kann weg.

Inhalte zum Sperren #2: Inhalte, auf die niemand einsteigen sollte

Das zweite, was man sperren kann und sollte, sind Inhalte, auf die niemand einsteigen sollte. Was heißt das denn? Eine Seite, die man indexierbar macht, landet ja im Google-Index und kann in den Suchergebnissen ausgespielt werden.

Jetzt fiktive Website: du hast eine touristische Website und da hast du natürlich verschiedene Reisen drauf. Und jede Reise gibt es also quasi einmal als Webseite, als HTML-Seite, und dann gibt es sie aber noch exportierbar als PDF-Datei. Das heißt, Google hat jede Reise zweimal im Index, einmal als HTML und einmal als PDF. Und jetzt ist die Frage: Welche dieser beiden Dokumente wird denn jetzt, wenn ich nach dieser Reise suche, in den Suchergebnissen ausgespielt? Das ist nicht unbedingt die HTML-Seite, sondern das kann auch die PDF-Seite sein. Das möchte man aber eigentlich nicht, weil eine PDF-Seite rankt zwar ganz gut, ist aber für die Nutzer fürchterlich. Dann würde man sagen, wenn ich schon diesen Fall habe, dass ich das alles doppelt habe, dann sollte ich doch bitte das Ganze so gestalten, dass diese PDF-Dateien eben nicht in den Suchergebnissen ausgespielt werden, damit da auch keiner draufklicken kann. Da soll keiner drauf einsteigen, die sollen auf der Website einsteigen und dann eben sich durch die Angebote durchklicken können. Wer aber auf einer PDF-Datei einsteigt, der kann nicht weiterklicken zum nächsten Angebot, weil so funktionieren PDF-Dateien einfach nicht. Also sperren!

Inhalte zum Sperren #3: Inhalte, die nur ein Aufguss von anderen Seiten sind

Und das Dritte, was man auch sperren sollte, ist: Der Inhalt wir zwar gesucht, ist aber nur ein Aufguss von anderen Seiten. Das hatte ich eben schon mal, zum Beispiel so Filterfunktion, so Sortierfunktionen, all das muss nicht in den Index rein. Das muss auch nicht gecrawlt werden, das brauchen wir einfach idealerweise gar nicht. Wie sperrt man denn jetzt Inhalte?

Möglichkeit #1: robots.txt

Es gibt zwei Möglichkeit, oder streng genommen gibt’s noch ein paar mehr, aber ich fang mal mit der wichtigsten an.

Es gibt die sogenannte robots.txt Datei. Das ist eine Textdatei, die findet ihr unter www.deinewebseite.de/robots.txt (alles klein geschrieben). Da stehen so verschiedene Regeln drin, was bestimmte sogenannte User Agents nicht herunterladen dürfen. Das heißt, da steht zum Beispiel sowas wie:

User-agent: googlebot

Disallow: /login

Das heißt, damit verbieten wir dem Googlebot, alles herunterzuladen, zu crawlen, was mit /login anfängt. Da kann auch ein Sternchen-Operator rein. Also man kann sowas wie „Disallow: /*pdf“ reinschreiben. Und dann wird quasi alles geblockt für Suchmaschinen, wo irgendwo in der URL das Wort PDF vorkommt.

Eine Sache ist vielleicht noch ganz wichtig, die in der Praxis nicht immer so kriegsentscheidend ist, aber die robots.txt verhindert, dass die Seite gecrawlt wird, sie kann trotzdem im Index erscheinen und sie kann auch gefunden werden und sie kann auch angeklickt werden.

Möglichkeit #2: Noindex

Also wenn ich so Sachen sperren möchte für Suchmaschinen, die unauffindbar sein sollen, dann ist die robots.txt definitiv der falsche Weg. Und dann müssen wir die zweite Methode wählen, nämlich die sogenannte noindex. Also noindex heißt: Man hat ein Tag in den HTML-Code eingebaut. Und da steht etwas wie meta name=robots content=noindex. Das muss nicht nur im HTML-Code stehen, das kann man auch über den HTTP-Header ausliefern, aber typischerweise steht’s im HTML-Code.

Wenn das da drinsteht, dann wird Google erst die Seite herunterladen, weil sonst kann es das noindex nicht sehen, sieht dann im HTML-Code, da steht noindex drin, und schmeißt dann die Seite weg. Das heißt, nochmal, sie wird auf jeden Fall heruntergeladen, also sie wird gecrawl und erst dann verworfen. Das heißt: Um Crawl Budget zu sparen, ist das noindex Tag falsch. Das muss einem nur klar sein.

Ich will euch da jetzt nicht verwirren. Also gerade, wenn ihr SEO-Einsteiger seid, gar nicht erst drüber nachdenken. Für die meisten Websites ist das in der Tiefe nicht so wahnsinnig wichtig. Ist auch was, womit manche schon seit ein, zwei Jahren aktive SEOs immer noch gedanklich ihre Probleme haben, das alles so perfekt auseinanderzuhalten.

Zwei wichtige Hinweise

Erstmal robots.txt, also Methode Nummer 1 und noindex, Methode Nummer 2, gehen nicht gleichzeitig. Warum? Naja, wenn ich eine Seite per robots.txt gesperrt habe, wird sie nicht heruntergeladen. Und dann kann der Googlebot auch nicht sehen, dass da ein noindex drinsteht. Also robots.txt schlecht, noindex. Ich kann das zwar einbauen, Google kann es nur einfach nicht erkennen.

Und der zweite Hinweis ist jetzt auch für Spezialisten: noindex und Canonical Tag gehen auch nicht zusammen. Das heißt, wenn eine Seite auf noindex steht, sollte man zur Sicherheit des Canonical Tag immer rauslassen. Das macht aus verschiedenen Gründen Sinn, möchte ich hier nicht in der Tiefe darauf eingehen.

Weitere Methoden

Wie kann man denn noch eigentlich Inhalte sperren? Also das, was ich euch eben gesagt habe, die robots.txt und das noindex sind die beiden Hauptmethoden. Es gibt aber theoretisch noch zwei weitere. Zum einen gibt es in der alten Google Search Console die Möglichkeit, ganz bestimmte URL-Parameter so zu markieren, zu sagen, wenn die in einer URL vorkommen, dann lade bitte, Google, diese Seite nicht herunter. Das kann man zum Beispiel für diese ganzen, was ich eben gesagt habe, so Sortier-Parameter und sowas nutzen. Müssen wir jetzt in der Tiefe nicht drüber reden. Vielleicht in dem Augenblick, wo ihr diesen Podcast hört, gibt es diesen Report schon gar nicht mehr. Es soll angeblich einen Nachfolger-Report geben. Wann immer der kommen mag, ich bin saumäßig gespannt da drauf.

Und es gibt rein theoretisch noch eine 4. Methode, nämlich das sogenannte Canonical Tag. Das ist zwar inhaltlich falsch, aber ich führe es trotzdem mal auf. Denn: Wenn eine URL hat einen Canonical Tag auf eine andere URL, dann wird die eine URL nicht mehr im Index erscheinen. Also A hat einen Canonical Tag auf B, dann erscheint nur noch B im Index. Wird aber trotzdem gecrawlt und so. Also in der Tiefe möchte ich da jetzt gar nicht unbedingt darauf eingehen, aber auch damit kann man theoretisch auch noch Inhalte sperren. Macht man in der Praxis nur nicht. Also das, was man in der Praxis benutzt, sind robots.txt und noindex.

Jetzt wollen wir mal auf die Zielgerade einbiegen. Ich habe euch ja schon gesagt, was man so sperren sollte. Jetzt ist die Frage: Was mache ich denn jetzt eigentlich damit?

Zwei Empfehlungen aus der Praxis

Empfehlung Nummer 1: Wenn du dir unsicher bist, was du da tust, dann lass es einfach sein

Du kannst rein theoretisch dadurch, dass du Sachen für Suchmaschinen sperrst, kannst du mehr kaputtmachen als es dir nützt. Und deswegen nochmal: Wenn du dir nicht exakt sicher bist, was du da tust und für wen du das tust, lass es sein.

Der 2. Tipp: Bevor du etwas sperrst, guck bitte erst mal in der Google Search Console nach, ob auf dem, was du da sperren möchtest, nicht vielleicht doch SEO-Traffic drauf ist.

Also angenommen du sperrst deine Login-Seiten, dann solltest du vorher prüfen, ob nicht doch SEO-Traffic da drauf ist. Und das machst du in der Google Search Console, da gehst du einfach in den Report „Leistung“ und dann kannst du danach filtern, kannst sagen, alle URLs mit „login“. Also wenn du die sperren möchtest. Und dann siehst du, wie viel Traffic diese URLs eigentlich generiert haben. Ich sag das nur vorher, weil ich es auch da schon mal erlebt habe, dass Leute Sachen gesperrt haben, die für sie zumindest anteilig wichtig waren. Und deswegen sollte man sich damit beschäftigen.

Jetzt bleibt noch die Frage: Was nutze ich – robots.txt oder noindex?

Grundsätzlich muss man sagen, es hängt immer auch ein bisschen vom System ab, weil nicht immer kann man alles noindex. Manche Content-Management-Systeme, gerade ältere Content-Management-Systeme, können dieses Tag noch nicht ausliefern. Oder du hast vielleicht keine Möglichkeit, das zu machen. Das mag immer sein. Vielleicht kannst du auch das noindex setzen, kommst aber nicht an die robots.txt dran. Das kann auch passieren. Aber jetzt gehen wir erst mal vom positiven Fall aus, dass du quasi freien Zugriff auf beides hättest.

Und jetzt ist die Frage: Was nutze ich denn jetzt, um etwas zu sperren? Und mein Dogma ist eigentlich immer: Wenn es von etwas tausende von Seiten gibt, dann nutze doch bitte die robots.txt. Also du willst 100.000 PDF-Dateien sperren, nimm bitte die robots.txt. Du willst 100.000 Login-Seiten sperren, die es einfach gibt, dann nimm die robots.txt.

Auf der anderen Seite, wenn etwas garantiert unauffindbar sein soll, dann musst du noindex nehmen. Das heißt, wenn du zum Beispiel wirklich diese AGB oder irgendein Datenschutz-Seite oder sowas, wenn du auf keinen Fall willst, dass es davon irgendeine Spur im Google-Index gibt, dann musst du auf jeden Fall noindex nehmen.

Und ansonsten, wenn es geht, nimm immer noindex, weil das ist eigentlich so, ich sag mal, die sauberste Variante, mit der du verhinderst, dass Inhalte wirklich auch im Index auftauchen.

Finale

Ich hoffe, ich habe ein bisschen klarer gemacht, erstens, warum man das eigentlich macht, Inhalte für Suchmaschinen zu sperren. Und dann eben auch, was genau sperrt man und wie macht man das dann eigentlich. Und nochmal: Ist keine Schande, wenn man das nicht auf den ersten Blick versteht, weil auch relativ viele erfahrene SEOs haben manchmal mit dieser Trennung noch so ihre Probleme. Und deswegen absolut kein Problem.

Mehr zu diesem Thema:

SEO Grundlagen

Bio
Neueste Artikel

Markus Hövener

Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.

Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.

Neueste Artikel von Markus Hövener (alle ansehen)

Welche SEO-Konferenz ist die beste? [Search Camp 317] - 23. April 2024
SEO-Trainee-Programme: Ganz einfach SEOs ausbilden? [Search Camp 316] - 16. April 2024
SEO-Monatsrückblick März 2024: Google Updates, Search Console + mehr [Search Camp 315] - 2. April 2024
Recap zur SMX München: Die wichtigsten Take-Aways [Search Camp 314] - 19. März 2024
Sichtbarkeit und/oder Traffic gehen nach unten: Woran kann’s liegen? [Search Camp 313] - 12. März 2024

Ein Kommentar zu “Inhalte für Suchmaschinen sperren: Warum? Was? Wie? [Alles auf Start 34]”

Anna
Mai 31st, 2021 at 18:13
Super interessante und hilfreiche Podcastfolge! Auch wenn es zunächst vielleicht nicht sinnvoll erscheint Inhalte für Suchmaschinen zu sperren, gibt es einige Gründe die dafür sprechen. Ich denke der Beitrag hilft sehr gut dabei zu entscheiden, welche Inhalte gesperrt werden sollten und wie man das dann in der Praxis umsetzt.