SEO + Noindex: 10 wichtige Fakten! [Alles auf Start 61]

19. Mai 2022 | Von in Agenturleben, Podcast "Search Camp", SEO

Die Noindex-Anweisung ist aus dem modernen SEO gar nicht wegzudenken. Aber wozu braucht man die Anweisung eigentlich genau? Wie passen Noindex und robots.txt zusammen? Kann man damit Duplicate Content verhindern? Fragen über Fragen, die in dieser Episode geklärt werden …

 

Hinweis: Von unserem Podcast "Alles auf Start" werden leider keine neuen Episoden mehr veröffentlicht (letzte Episode: Dezember 2023). Mehr SEO auf die Ohren? Dann können wir Dir natürlich unseren Podcast Search Camp empfehlen!

 

SEO + Noindex: 10 wichtige Fakten!

Heute ein wichtiges Thema für einige Websites, nämlich Noindex. Ja, ich habe euch insgesamt zehn Fakten mitgebracht. Wenn ihr mal auf eine SEO-Party geht, dann könnt ihr halt auch ein bisschen zeigen, was ihr draufhabt. Vieles davon ist, ja, ich finde Hintergrundwissen. Das sollte man draufhaben, wenn man sich ernsthaft mit SEO auseinandersetzt.

 

Was ist Noindex?

Klassisch ist das Bestreben von Google ja, was immer sie im Netz finden an Seiten, in den Index aufzunehmen. Das ist das Standardverhalten. Und dieses Standardverhalten kann man aushebeln, indem man sagt, Hey, ich habe hier vielleicht ein paar Seiten, die will ich gar nicht, dass sie in den Index aufgenommen werden. Das heißt, wenn sie nicht im Index sind, können sie in der Folge auch in der Suche nicht auftauchen. Also angenommen, ich habe eine Seite, da sind super geheime Passwortinformationen drauf – wäre jetzt ziemlich ungeschickt, das Ganze einfach so öffentlich ins Netz zu stellen – angenommen, ich hätte die, dann wäre es nicht total ungeschickt, die auf Noindex zu setzen.

 

Wann braucht man Noindex eigentlich wirklich?

Also, Punkt eins: Seiten, die garantiert nicht gefunden werden sollen. Das könnte zum Beispiel die Login Seite sein für ein Intranet oder so etwas. Das hängt von euren Spezialfällen ab. Ich habe so was immer wieder. Manchmal gibt es auch Seiten, die ja, rechtlich diskutable Inhalte haben oder so, also da gibt es viele Fälle.

Der deutlich häufigere Fall ist der, dass man eine inhaltlich schwache Seite hat, die, wenn Google sie indexieren würde und auch in Massen indexieren würde, die das Gesamtbild einer Website mindern würden. Also wenn man sich vorstellt, dass Google alle Seiten einer Website nebeneinander liegt und ich habe vielleicht so 100 starke Seiten mit richtig guten Inhalten und dann habe ich aber noch 1000, einfach nur wo Blupp draufsteht, dann wäre es besser, die 1000 Blupp-Seiten auf Noindex zu setzen.

 

Die Pipeline

So, jetzt habe ich euch gleich zehn Fakten mitgebracht. Vorher noch eine Sache: Ich weiß, viele von euch wissen das, aber es ist wichtig, sich immer diese Pipeline anzugucken, wie landet etwas eigentlich im Index? Und da gibt es zwei Schritte, die nacheinander passieren. Das ist erstens das Crawling. Das heißt, Google lädt etwas runter, eine HTML-Seite, ein Bild, ein PDF, was auch immer. Irgendwas wird von eurem Server heruntergeladen.

Dann passiert noch ein bisschen Magie und dann, im nächsten Schritt passiert die Indexierung. Also erst Crawling, dann Indexierung.

 

Fakt #1: Es gibt zwei Stellen, wo sich das Noindex-Tag befinden kann

Primär wird man es im HTML-Code finden, dann steht so was wie <meta name=”robots” content=”noindex>”. Da steht im HTML-Code für alle lesbar.

Es gibt Fälle, wo man das nicht dort platzieren kann oder will. Und dann geht es auch noch im sogenannten HTTP Header. Das braucht man zum Beispiel dann, wenn man etwas auf Noindex setzen möchte, was keine HTML-Seite ist. Also angenommen, du möchtest eine PDF-Datei auf Noindex setzen, dann kannst du da ja nicht <meta name=”robots”> reinschreiben, weil das ist ein HTML-Befehl, der hat in einem PDF gar nix zu suchen. Da würde Google sagen, Habe ich gar nicht gesehen, das Ding. Und deswegen kann man es theoretisch auch noch im HTTP-Header platzieren.

Nicht in der robots.txt. Das ging mal so ein bisschen, aber war eigentlich nie Standard. Nicht in der XML-Sitemap. Sondern wirklich nur primär im HTML-Code und dann zweite Möglichkeit im HTTP-Header. Wenn da Noindex nicht drinsteht, dann gilt erstmal, ich sage mal, die Unschuldsvermutung. Nämlich, dann wird standardmäßig indexiert, dann steht die Seite also implizit auf Index. Man könnte das auch explizit reinschreiben, nämlich meta name=”robots” content=”index”. Das muss man aber nicht, weil das ist so das implizite Verhalten.

 

Fakt #2: Noindex ist eine Direktive

Heißt, Google muss sich daran halten. Es gibt ein paar andere Sachen, die sind keine Direktive, sondern ja, so eine Art Empfehlung, ein Hinweis, wo Google sich oft dran hält, aber nicht muss. Noindex ist unterschiedlich. Noindex ist eine Direktive, ähnlich so wie es ein paar andere Direktiven gibt, so wie Noarchive gibt es zum Beispiel. Da muss Google sich einfach dran halten. Das heißt, ihr könnt davon ausgehen, dass wenn ihr alles richtig gemacht habt und nicht gleich Fakt Nummer drei missachtet habt, dann wird die Seite garantiert nicht in den Suchergebnissen erscheinen.

 

Fakt #3: Noindex und robots.txt schließen sich aus

Also, man kann Seiten auf zwei Wegen sperren. Das eine ist Noindex, da haben wir eben drüber gesprochen. Die zweite Möglichkeit ist robots.txt. So eine Datei liegt auf deinem Server und damit kannst du eben auch Sachen sperren. So. Die robots.txt, die begrenzt das Crawling. Noindex begrenzt die Indexierung.

Jetzt habe ich eben gesagt, erst wird gecrawlt, dann wird indexiert. Das heißt, wenn eine Seite per robots.txt gesperrt ist, wird sie nicht heruntergeladen. Und in der Folge könnte Google das Noindex auch nicht sehen. Das heißt, ich kann nicht eine Seite gleichzeitig per robots.txt oder Noindex sperren. Darauf muss man achten, denn wenn ich wirklich möchte, dass eine Seite nicht in den Suchergebnissen erscheint, dann muss Google ja das Noindex sehen können und das können sie nur, wenn ich sie nicht per robots.txt sperre. Ich habe gesagt, mit der robots.txt kann ich Sachen sperren, aber sie können dann trotzdem als so leere Einträge in den Suchergebnissen auftauchen. Das heißt nochmal, wenn ich will, dass etwas garantiert nicht erscheint, nur Noindex.

 

Fakt #4: Index und Noindex in einer Seite ergeben keinen Sinn

Ja, man kann so was reinschreiben. Man kann reinschreiben meta name=”robots” content=”index”, “noindex”. Also so Anweisungen kann man per Komma trennen. Man kann auch zwei Robots-Meta Tags untereinanderschreiben, das geht auch.

Aber wenn ich jetzt wirklich schreibe, diese Seite ist auf Index und Noindex gesetzt, dann ist die Frage, was macht Google eigentlich damit? Und da gibt es eine sehr einfache Antwort drauf: Es zählt immer das Restriktivere, also in Anführungsstrichen, das, was mehr kaputt macht. Das heißt, wenn Google so etwas sieht, dann wird Google immer das Noindex gelten lassen und sich nicht darauf beruhen, dass da ja auch ein Index steht. Die Reihenfolge dessen ist egal. Ihr könnt es auch doppelt und dreifach reinschreiben. Vollkommen egal. Sobald Google ein Noindex sieht, gilt Noindex. Und alles andere wird überschrieben.

 

Fakt #5: Noindex und Canonical Tags sind keine guten Freunde

Also, was heißt das? Es gibt ja Canonical Tags und Canonical Tags sorgen dafür, dass die Effekte, die negativen Effekte von Duplicate Content behoben werden. Also angenommen, ich habe drei verschiedene Seiten auf meiner Website und die haben alle das exakt gleiche Canonical Tag, dann werden intern im Index aus diesen drei Seiten wird eine Seite gemacht. Das heißt, Google clustert das Ganze, zieht diese Seiten zusammen, macht daraus eine.

So. Jetzt kann der Fall auftreten und da muss man gar nicht so lange nach suchen, nach so einem Fall. Ich habe eine Seite, die steht auf Noindex und hat einen Canonical Tag, was auf eine andere Seite zeigt. Die steht aber auf Index. Für alle, die in diesen Gedankenspielen nicht so drin sind und das tagtäglich machen, mag das jetzt ein bisschen verwirrend sein. Also noch mal: Ich habe zwei Seiten, eine steht auf Noindex, eine steht auf Index und beide haben das gleiche Canonical Tag. So, das heißt, Google zieht jetzt diese beiden Seiten zusammen. Ja, und dann stehen sie so ein bisschen vor so einem relativ blöden Problem. Nämlich jetzt ist die Frage: Was mache ich denn daraus? Also: Da ist ein Cluster an Seiten und eine Seite steht auf Index, eine steht auf Noindex. Was mache ich denn jetzt damit?

Und dann kann es durchaus passieren – ich habe es in der Praxis ehrlich gesagt noch nicht erlebt, aber Google sagt, dass das passieren kann – dass Google sich dann entscheidet, das Cluster auf Noindex zu setzen. Das heißt, obwohl ich eine Seite da drin habe, die auf Index steht, schmeißt Google dann das komplette Cluster weg. Damit das nicht passiert, gilt eigentlich immer die Regel, eine Seite, die auf Noindex steht, sollte keinen Canonical Tag haben, damit solche blöden Effekte einfach nie passieren können.

 

Fakt #6: Noindex gleich Nofollow

Ich fürchte, das muss ich erklären. So. Also, es gibt theoretisch noch zwei Meta Tags oder zwei Robots Meta Tags, die heißen Follow und Nofollow. So. Was heißt das jetzt?

Wenn eine Seite – oder ich habe eine Seite und die hat dieses Meta Robots Tag Nofollow, dann wird Google Links, die er auf dieser Seite findet, nicht followen. Das heißt, sie werden quasi dem Crawling nicht zugeführt. Ansonsten ist Google ja immer so, dass sie sagen, Hey, wenn ich irgendwo neue Links finde, dann folge ich denen auch. Dann geht der Crawler da als nächstes oder morgen oder so mal drauf. Okay, so weit, so gut. Und wenn ich eben eine Seite auf Nofollow setze, dann passiert eben genau das nicht. So, jetzt hat Google Folgendes gesagt: Noindex, das heißt eigentlich für uns, dass wir die Seite, ja, wegschmeißen. Also sehr platt ausgedrückt. Und in der Folge werden wir Links, die auf diesen Seiten sind, auch nicht sehen können.

Das heißt, eine Seite, die auf Noindex steht, ist quasi immer so eine Dead End Street. Das ist immer implizit auf Nofollow. Ist das relevant? Es ist leider an einigen Stellen relevant, denn manchmal gibt es Fälle, da sind Seiten auf Noindex, zum Beispiel paginierte Seiten. Das ist ein ganz typisches Problem. Ich habe so eine Kategorieseite. Und dann gibt es, weil ich mehr Produkte habe, als ich auf einer Seite darstellen kann, gibt es so Unterseiten, P=2, P=3, P=4, kennen wir alle. Da ist unten so eine Navigation, 1, 2, 3, 4, 5. Und die Seiten 2, 3, 4, 5, bis zum Ende, die stehen alle auf Noindex, weil man nicht möchte, dass diese ganzen paginierten Seiten, von denen es durchaus einige geben kann, dass die auch alle in den Index kommen. Hat man mal so gemacht, bin ich nicht unbedingt ein Freund dieser Denke, aber ist auch egal. So.

Was passiert jetzt? Die P=2-, P=3-Seiten, die verlinken ja vielleicht auf spannende Produkte und Google erschließt sich eine Website ja primär über Links. Wenn diese Seiten aber auf Noindex stehen, wird Google die Links auf diesen Seiten nicht mehr sehen können. Und dann kann es eben passieren, dass weil ich solche paginierten Seiten auf Noindex gesetzt habe, kann es passieren, dass Google dann eben andere Seiten, die darüber verlinkt sind, gar nicht mehr findet und eben auch nicht crawlt und auch nicht indexiert. Ist ein kompliziertes Thema. Ich hoffe, ich habe euch da jetzt nicht abgehängt an diesem Punkt. Aber grundsätzlich mit diesem Noindex muss man eben immer auch ein bisschen vorsichtig sein.

 

Fakt #7: Noindex frisst Crawl Budget

Ja, über das Thema Crawl Budget haben wir sicherlich schon ein paar Mal gesprochen, sowohl in diesem Podcast als auch bei Search Camp. Und ja, was heißt denn das? Also Crawl Budget heißt ja, Google crawlt natürlich meine Website, lädt Seiten davon runter. Aber es gibt ein gewisses Limit. Das heißt, Google wird nicht einfach 1 Million Mal am Tag vorbeikommen, sondern Google weist mir ein gewisses Budget zu pro Tag, pro Zeiteinheit. Und da möchte man natürlich – oder ja, in der Praxis ist das für viele Websites nicht wirklich ein Problem, aber das Problem ist, diese Noindex Seiten, die müssen trotzdem heruntergeladen werden, denn ich habe ja gesagt, erst Crawling, dann Indexierung. Also: Damit Google das Noindex sehen kann, muss die Seite erst mal heruntergeladen werden und frisst Crawl Budget.

Jetzt könnte man ja sagen, Ja, ist doch egal. Dann lädt Google die Seite einmal runter, sieht, Oh, die steht auf Noindex und wird sie nie wieder herunterladen. So funktioniert es aber leider nicht, weil Google regelmäßig – irgendwann hört das dann auf – aber relativ lange noch diese Seiten trotzdem crawlt und deswegen fressen sie natürlich schon Crawl Budget auf.

Das heißt, wenn ich zum Beispiel ganz, ganz, ganz, ganz, ganz viele Filter-Seiten habe und Millionen davon, die stehen alle auf Noindex. Also wir sind safe, das landet alles nicht im Index, das wollen wir ja vielleicht auch gar nicht, aber es frisst alles enorme Mengen Crawl Budget auf und es erzeugt natürlich auch Serverlast, weil Google natürlich diese ganzen Seiten auch herunterlädt und mein Server dadurch natürlich auch ausgelastet ist.

Das Thema Crawl Budget möchte ich sonst an dieser Stelle einfach ein bisschen links liegen lassen, auch weil ich es an anderer Stelle hier schon gemacht habe. Aber grundsätzlich muss man wissen, Noindex, gerade wenn ich es auf einer sehr, sehr großen Skala einsetze, wird dazu führen, dass Google diese Noindex-Seiten relativ lange und sehr massiv eben auch crawlen wird, gerade wenn ich so viele davon habe.

 

Fakt #8: Noindex ist nichts für Duplicate Content

Duplicate Content, da gibt es ja durchaus Fälle, wo ich – weiß nicht, ich habe zum Beispiel ein Produkt, ist bei mir in fünf Kategorien einsortiert im Shop. Und weil die Kategorie in der URL drin vorkommt, gibt es für dieses Produkt einfach dann fünf verschiedene URLs. Jetzt ist die Frage, wie geht man damit eigentlich um?

Da könnte ich doch vier davon auf Noindex setzen. Und genau das ist es eben eigentlich nicht. Die Grundregel: Für Duplicate Content nehme ich ein Canonical Tag. Für alles andere nehme ich das Noindex.

Warum ist das so? Ich habe eben schon ein bisschen über Canonical Tag gesprochen. Canonical Tag heißt, die Signale werden addiert. Das heißt, ich habe zum Beispiel diese fünf Produkte und die – oder diese fünf Produktseiten und die kriegen ja Signale. Also jemand verlinkt zum Beispiel von extern auf so ein Produkt. Wenn ich das auf Noindex setze, dann ist dieses Signal, dieser Link, der wird einfach – den sieht Google nicht mehr, weil die Seite steht ja auf Noindex. Und dann habe ich eventuell sogar einen Link verballert. Und viel besser wäre es eben deswegen, immer Canonical Tags zu nutzen.

Ich sage das nur, weil manche Leute kommen immer auf komische Ideen. Viel davon landet auch bei mir hier auf dem Tisch, zum Beispiel in der SEO-Sprechstunde. Deswegen, ich weise immer darauf hin, also die Grundregel ist, für Duplicate Content nimmt man einen Canonical Tag. Für das Sperren von Inhalten, die nicht im Index auftauchen sollen, weil sie zum Beispiel nicht gefunden werden sollen oder minderwertig sind, nimmt man Noindex.

 

Fakt #9: Noindex betrifft immer eine ganze Seite

Es kommt manchmal die Frage, ob man Noindex auch nur für Teile einer Seite machen kann. Also angenommen, ich habe eine Seite und in der oberen Hälfte ist ein individueller Anteil, weiß nicht, eine Produkt-Detail-Seite zum Beispiel, und im unteren Teil habe ich einen ganz langen Text, der auf allen Seiten vorkommt. Da haben halt viele Angst, Hey, das ist ja Duplicate Content und so, wäre doch schön, wenn ich diesen Textblock quasi “Noindexen” könnte, dass ich sagen könnte, der soll bitte nicht im Index erscheinen. Das funktioniert leider wirklich nicht. Das ist schade.

Es gibt zwar so eine Nosnippet Anweisung, damit kann ich Textblöcke quasi ausblenden, damit sie nicht in Snippets erscheinen. Das hat aber nichts mit dem Index zu tun. Das heißt, wenn ich so etwas habe, muss ich ganz andere Lösungen finden. Oder ich lebe eben einfach damit. Aber ich kann nicht nur Teile einer Seite auf Noindex setzen. Das ist schade. Ich glaube, es gab ganz früher mal, als es noch mehr Suchmaschinen gab, da hat Yahoo mal so einen Tag gebaut, mit dem man das konnte. Ich fände es auch praktisch, das zu haben. Ich fände es aus vielen Gründen praktisch, das zu haben. Aber Google macht das eben nicht und dann geht das eben auch nicht.

 

Fakt #10: Noindex ist immer seitenweise

Manchmal kommt die Frage auf, kann ich eigentlich eine komplette Domain auf Noindex setzen? Ja, kann ich machen, aber das kann ich nur dadurch machen, dass ich jede Seite einzeln auf Noindex setze. Es gibt zum Beispiel bei WordPress gibt es so einen schönen Haken, den kann ich einfach setzen und dann macht WordPress das einfach automatisch in alle Seiten rein. Aber noch mal: Es ist eigentlich immer etwas, was trotzdem in allen Seiten drinsteht.

Und ich kann nicht irgendwie der Domain beibringen, so alles, was hier auf der Website drauf ist, alles das, setze bitte auf Noindex. Das geht nicht. Wie gesagt, das muss immer pro URL sein. Ich habe immer oft über Seiten gesprochen. Das stimmt natürlich nur sehr begrenzt, weil nochmal, PDF-Dateien, da kann man es genauso reinpacken. Dann aber eben in den HTTP-Header.

 

Finale

Gut, das waren eigentlich zehn Fakten und wie gesagt, das war alles ein bisschen technisch. Das sind aber leider alles Themen, mit denen sich Leute beschäftigen den ganzen Tag. Und ja, wenn ich ein paar Leute davon abhalten kann, auch in manche dieser Abenteuer wahnsinnig viel Energie reinzustecken, dann ist sicherlich schon einiges gewonnen.

Noch mal: Noindex ist ein wichtiges Werkzeug, um die Indexierung zu modellieren. Ich will im Index wirklich nur das haben, was so relevant ist, das, was wertvoll ist, das, was starker Content ist. Den Rest auf Noindex. Das heißt, wenn ich zum Beispiel 10.000 PDF-Anleitungen habe und ich weiß, Boah, das interessiert sowieso keinen oder dafür will ich gar nicht gefunden werden, also dann setze ich die auf Noindex. Oder ich habe 1.000 Kontaktformulare bei mir auf der Website, was man durchaus mal finden kann da draußen, dann ist das kein wertvoller Content. Dann setze ich das auf Noindex. Wenn ich Login-Seiten habe auf meiner Website, setze ich das auf Noindex.

The following two tabs change content below.
Avatar-Foto

Markus Hövener

Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.

Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.

Kommentieren