SEO: Warum PDF-Content nicht King ist! [Alles auf Start 23]

29. Oktober 2020 | Von Markus Hövener in Podcast "Search Camp", SEO

Content is King – aber nicht unbedingt, wenn sich dieser in PDF-Dateien verbirgt. Gerade in Bezug auf SEO gibt es gute Gründe gegen und viele Probleme mit PDF-Content. Aber was ist daran so schlimm? Wie prüft man, ob man betroffen ist? Und was macht man dagegen?

Hinweis: Von unserem Podcast "Alles auf Start" werden leider keine neuen Episoden mehr veröffentlicht (letzte Episode: Dezember 2023). Mehr SEO auf die Ohren? Dann können wir Dir natürlich unseren Podcast Search Camp empfehlen!

Transcript

Moin! Herzlich willkommen bei „Alles auf Start“, heute zum Thema Nicht-HTML-Content. Es ist wahrscheinlich nicht für alle von euch ein Thema, aber bei vielen SEO Audits, die ich für Kunden mache, merke ich einfach, doch, dass es das Thema gibt, mal mehr mal weniger schlimm. Und ich möchte euch heute erst mal für das Thema sensibilisieren und dann natürlich euch auch sagen, wie findet ihr raus, ob ihr dieses „Problem“, in Anführungsstrichen, habt. Und dann natürlich auch: Wie löst ihr das Problem eigentlich?

Fangen wir mal ganz vorne an, erstens zu erklären: Was soll das mit Nicht-HTML-Content? Erstmal: HTML, glaube ich, viele haben es schon gehört, steht für Hypertext Markup Language und das ist einfach die Sprache, wenn man so möchte, in der Websites beschrieben werden. Das heißt, wenn ihr irgendwo auf eine Website geht, dann ist irgendwo dieser Quellcode hinterlegt und das ist eben HTML. Das heißt, das Ganze World Wide Web, wie wir es so kennen, basiert auf HTML. Jetzt gibt’s aber auch andere Dokumentenformate und natürlich kennen wir die alle, das ist ein PDF zum Beispiel, das ist Word, das ist auch PowerPoint. Und wen wundert’s? Oder ist vielleicht gar nicht so jedem klar, aber Google indexiert auch das.

Also wenn du eine PDF-Datei ablegst auf deinem Server und du verlinkst zum Beispiel von einer HTML-Seite auf eine PDF-Datei, dann wird Google die in der Regel auch crawlen und dann indexieren. Und sie wird eben nicht nur indexiert, sondern in der Folge taucht sie natürlich auch in Suchergebnissen auf und Nutzer können da auch draufklicken. Ich habe euch in die Shownotes noch einen Link reingepackt, das ist eine Hilfedatei von Google, wo noch mal steht, was die eigentlich alles so indexieren, und das ist ehrlich gesagt eine ganze Menge. Das ist jetzt alles nicht so wahnsinnig relevant, ich meine, das Größte in meinen Augen ist sicherlich PDF, deswegen reduziere ich das Problem Nicht-HTML-Content auch immer gerne auf PDF-Dateien. Aber natürlich nochmal: Es können Word-Dateien sein, PowerPoint und diverse andere absurde Formate, alles wird brav indexiert und alles taucht eben auch in der Suche auf. Warum ist das schlecht oder wo könnte ein Problem liegen? Und ich habe euch insgesamt 5 Problemfelder mitgebracht.

Problemfeld #1: Nutzererfahrung auf Mobilgeräten

Es ist ja so, wir sind im Mobile First Index und alle da draußen rennen mit Smartphones rum und wer immer schon mal eine A4 PDF in 9 Punkt Font-Größe auf so einem 4 Zoll Screen gelesen hat, weiß natürlich, das ist echt nicht sexy. Ich meine, wir sind in der Zeit von Responsive und die Website passt sich einfach an das Endgerät an, super Sache. Eine PDF-Datei tut das nicht, eine Word-Datei tut das auch nicht. Und deswegen ist es erstmal eine relativ schlechte Nutzererfahrung, die da entsteht.

Problemfeld #2: Das Crawl-Budget

Kann ein Problem sein, sage ich nur. Also: Google crawlt ja erst mal alles, also HTML-Dateien, auch Bilder und all das Zeug, aber eben auch PDF-Dateien. Und wenn du jetzt 100.000 PDF-Dateien auf deinem Server liegen hast, wird Google die wahrscheinlich auch crawlen und indexieren. Das heißt, das frisst allein, weil die Dateien so groß sind, wahrscheinlich auch relativ viel von deinem Crawl-Budget auf, ohne dass du vielleicht immer den positiven Effekt davon spürst. Das ist jetzt eher ein Problem, wenn du sehr viele hast. Und ich kenne zum Beispiel manche Versandapotheken, die haben zum Beispiel für jedes Produkt noch den Beipackzettel onlinegestellt, natürlich als PDF. Und der Crawler, der da drüber rennt, muss dann halt, ich weiß nicht, wie viele Medikamente es gibt in Deutschland, aber er muss halt 100.000 PDF-Dateien crawlen. Das ist natürlich jetzt in der Regel einfach eine Verschwendung.

Problemfeld #3: Messbarkeit

Also ich habe ja eben schon gesagt, so Nicht-HTML-Content, der rankt auch noch gut. Gerade PDF-Dateien, die findet man eigentlich schon in den Suchergebnissen, da ist so ein kleines Label dran, das heißt PDF. Und gehe doch mal in Google Analytics rein, wenn du das hast, und guck mal nach, wie viele Besucher du für deine PDF-Dateien hast, und du wirst feststellen, zumindest standardmäßig, null.

Warum ist das so? Google Analytics funktioniert ja so, dass in deinem HTML-Code, da ist ein JavaScript-Code drin und der wird aufgerufen, wenn jemand auf deine Website geht, und der schickt so ein Ping Richtung Google Analytics und sagt, oh, da hat jetzt grad jemand eine Seite aufgerufen.

In PDF-Dateien passiert das nicht, da kann man keinen JavaScript-Code reinpacken, der dieses Skript aufruft, das geht einfach nicht. Das Gleiche mit Word-Dateien und PowerPoint und was auch immer. Das heißt, du kannst 100.000 Besucher haben zusätzlich, die nur auf deinen ganzen PDF-Dateien einsteigen oder die lesen, und du siehst diesen Traffic nicht mal.

Die einzige Fußnote, die man dranschreiben muss, ist, in der Google Search Console im Bereich „Leistung“, da siehst du die. Da siehst du sowieso quasi alles, was aus dem Suchergebnis auf deine Website führt. Kommen wir gleich nochmal dazu, das ist dann eben auch der Ort, den man für die Analyse gut nutzen kann. Denn nochmal: Google Analytics oder welches Webanalyse-Tool du auch immer nutzt, standardmäßig können die keine Nicht-HTML-Seiten tracken.

Problemfeld #4: Weniger Conversions

Ich glaube, das macht auch Sinn. Du kommst aus dem Suchergebnis auf eine HTML-Seite bei dir. Vielleicht steige ich bei dir in einem Shop ein und ich sehe das Produkt, ich find‘s geil, ich lege es mir in den Warenkorb, kauf das Ding, gut ist. Oder ich komme zu dir auf deine B2B-Website und sehe, wow, tolle Maschine, die du da hast, schick mir doch mal bitte mehr Informationen. Oh, da unten ist ein Kontaktformular, das fülle ich gleich mal aus und zapp ist irgendwo eine Conversion passiert.

PDF-Dateien sind in der Regel nicht so strukturiert, das sind halt Textdateien. Da kann mal ein Link drin sein, okay, aber da ist jetzt eben kein Rahmen drumherum, ist kein Menü drumherum, da ist keine rechte, linke Navigation, kein Footer, einfach, die funktionieren einfach anders. Und da hast du dann eben einfach den Effekt, wo man sagen muss, Conversions passieren einfach selten in PDF-Dateien.

Natürlich, wenn einer grenzenlos begeistert ist von deinem Produkt und dann auf die Website geht und dann kauft, kann alles passieren, aber wenn man den gleichen HTML-Traffic hat und den gleichen PDF-Traffic, wird der HTML-Traffic immer besser konvertieren.

Problemfeld #5: Aufteilung von Dokumenten

Und Punkt Nummer 5, das ist eher so ein Praxisproblem, was ich oft sehe, gerade bei B2B-Firmen. Die teilen ihre Dokumente auf. Die haben zum Beispiel eine HTML-Seite über ihr Produkt, da steht relativ wenig drauf, was weiß ich, 150 Wörter, und dann ist unten der Link „Hey, wenn du die vollständige Beschreibung brauchst, kannst du dir hier ganz bequem als PDF-Datei herunterladen.“. Da muss man sagen, das ist natürlich für den Nutzer vielleicht auch noch okay oder vielleicht sogar noch sinnvoll, wie auch immer, aber für eine Suchmaschine sind das zwei getrennte Dokumente, die haben nichts miteinander zu tun, eine HTML-Seite, eine PDF-Datei. Und ideal wäre es, wenn beides in einer Seite wäre, in einer HTML-Datei.

Dann kriegst du das mit den Conversions hin, du hast mehr Content auf der Seite, du kannst es in einer Webanalyse messen und, und, und. Und auf Mobilgeräten funktioniert das auch gut. Also trotzdem nochmal der wichtige 5. Punkt war eben, dass man durch PDF-Dateien Dokumente unnötig aufteilt.

Habe ich ein Problem mit Nicht-HTML-Content?

Das sind erst mal 5 Probleme, die man damit hat. Jetzt ist natürlich erst mal deine Frage: Habe ich denn damit ein Problem? Wenn du dir jetzt gerade keiner Schuld bewusst bist oder du weißt, ich weiß gar nicht, wie viele PDF-Dateien wir eigentlich haben. Du hast zwei Möglichkeiten dich dem Ganzen zu nähern.

Die eine Möglichkeit ist, über eine Suchanfrage an Google das Ganze herauszufinden. Und zwar kannst du die Anfrage stellen „filetype:pdf site:www.deinewebsite.de“. Das sind sogenannte Operatoren. Dieses „filetype:“ ist ein Operator und das kannst du mit anderen Sachen kombinieren und so kannst du eben herausfinden, wie viele PDF-Dateien habe ich eigentlich im Index? Vielleicht kommt dabei null raus, dann kannst du sagen, okay, war eine schöne Folge, Markus, aber nicht mein Thema. Wenn da jetzt 100.000 steht, würde ich sagen, ist vielleicht doch ein Thema für dich. Und auch bei 50 kann das ein Problem sein, da kommen wir aber gleich nochmal dazu. Also das ist erst mal die Bestandsaufnahme: Wie viele PDF-Dateien hat Google eigentlich von meiner Website indexiert?

Und das zweite, was du jetzt machen kannst, ist, du gehst in die Google Search Console in den Bereich „Leistung“ und kannst oben einen Filter setzen, sagst einfach, ich möchte gerne alle Seiten nur haben, in denen die Zeichenkette „pdf“ vorkommt, kleingeschrieben. Und dann siehst du halt unten, wieviel Traffic du über PDF-Dateien kriegst. Analog kannst du das natürlich immer mit allen anderen Endungen machen, aber wir gehen jetzt mal kurz davon aus, dass du nur PDF hast.

Und dann kannst du erst mal sehen: Wie viel Traffic kriegst du darüber? Du kannst eben sehen auch, welche Suchanfragen generieren PDF-Traffic. Und vor allem auch, welche PDF-Dateien kriegen eigentlich wirklich Traffic ab. Und da kriegst du erst mal vor allem so eine Hausnummer. Das heißt, du kannst da natürlich erst mal deinen gesamten organischen Traffic abrufen in der Search Console, aber du kannst eben auch gucken, wie viel kommt über PDF-Dateien und hast einfach einen Prozentsatz. Und wenn das jetzt 0,5 ist, würde ich sagen, interessiert jetzt vielleicht nicht wirklich. Wenn es jetzt 5 % ist, würde ich schon anfangen drüber nachzudenken. Denn nochmal: Es ist einfach Verschwendung von Energie, es kostet dich Conversions.

Wie löse ich ein Problem mit PDF-Content?

Angenommen du hast jetzt festgestellt, du hast da ein Problem, was solltest du machen? Es ist schwer zu sagen.

Also erstmal ist es ja eigentlich eine schöne Sache, die da passiert, nämlich du hast PDF-Dateien und Nutzer klicken da drauf. Das heißt, du hast erst mal Rankings, du hast auch Traffic, der wird nicht so besonders gut ausgenutzt. Also die eine Sache, die du sagen kannst, ist, Markus, ich habe verstanden, was du mir sagen möchtest, aber es interessiert mich nicht. Es ist vielleicht so marginal, es ist vielleicht, lass es 5 % Traffic sein, der darüber kommt, hey, interessiert mich nicht. Das ist vollkommen legitim das zu sagen.

Zweiter Gedanke ist: Du kannst natürlich immer Dateien für Suchmaschinen sperren. Und das kannst du eben auch mit PDF-Dateien machen. Das geht dann über die robots.txt Datei, da kannst du eben sagen, okay, sperre bitte alles, was eine PDF-Datei ist, oder alles, wo die URL auf „pdf“ endet. Das ist ganz einfach und schnell gemacht. Das sollte man nur dann machen, wenn du PDF-Dateien hast, die keinen Mehrwert bieten. Also angenommen, du hast Produkte und du hast Produktseiten in HTML und jede Produktseite kannst du nochmal als PDF exportieren, und Google kommt da auch dran an diese Exporte. Dann muss man sagen, die HTML-Seite und die PDF-Datei sind exakt deckungsgleich. Die sehen halt leicht anders aus, klar, weil sie anders formatiert sind, aber inhaltlich ist es exakt das gleiche. Dann ist es eben so, die PDF-Datei bietet keinen Mehrwert und dann ist es auch sinnvoll sie per robots.txt zu sperren.

Und der dritte Gedanke ist, dass du in die Search Console gehst, ich habe ja schon eben gesagt, da siehst du den realen Traffic, den du hast auf PDF-Dateien, und da guckst du dir das einfach mal an. Also warum rankt denn dafür jetzt eine PDF-Datei? Und dann gehst du auf deine Website und guckst nach, ja nochmal: Warum? Also habe ich dafür HTML-Content und der ist vielleicht nicht gut? Und in der Regel ist es so, ich habe dafür einfach keine HTML-Seite und dann ist die richtige Konsequenz oder könnte eine richtige Konsequenz sein, um die Conversion zu verbessern, dass man sagt, ich habe das jetzt verstanden, hier suchen Leute nach etwas, was für mich relevant ist, kommen auf PDF-Dateien, ich baue parallel dazu HTML-Content auf für diese Suchanfragen und dann erst sperre ich die PDF-Datei.

Denn nochmal: Ich möchte, dass die Nutzer natürlich auf eine HTML-Datei einsteigen und nicht auf eine PDF-Datei. Es mag immer Spezialfälle geben, da gehe ich jetzt gar nicht so genau darauf ein, aber im Allgemeinen willst du nicht, dass ein Nutzer auf eine PDF-Datei einsteigt.

Mehr zu diesem Thema:

SEO + PDF

Bio
Neueste Artikel

Markus Hövener

Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.

Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.

Neueste Artikel von Markus Hövener (alle ansehen)

SEO-Trainee-Programme: Ganz einfach SEOs ausbilden? [Search Camp 316] - 16. April 2024
SEO-Monatsrückblick März 2024: Google Updates, Search Console + mehr [Search Camp 315] - 2. April 2024
Recap zur SMX München: Die wichtigsten Take-Aways [Search Camp 314] - 19. März 2024
Sichtbarkeit und/oder Traffic gehen nach unten: Woran kann’s liegen? [Search Camp 313] - 12. März 2024
Wie wichtig ist es, allen SEO-News zu folgen? [Search Camp 312] - 5. März 2024

5 Kommentare zu “SEO: Warum PDF-Content nicht King ist! [Alles auf Start 23]”

Jan Krömer
Oktober 30th, 2020 at 21:51
Zum Sperren per Robots.txt: wenn man das bei schon indexierten PDFs macht, bleiben die doch für immer im Index? Man verbietet Google ja damit nur das Crawling, aber nicht die Indexierung. Dafür bräuchte man dann schon ein ‘noindex’ (bei PDFs dann über den HTTP Header). Oder nicht?
Markus Hövener
November 2nd, 2020 at 09:44
Es kann passieren, dass die PDFs danach noch als Leereinträge im Index bleiben, aber das ist in meinen Augen nicht weiter relevant.

Wenn Du absolut auf Nummer sicher gehen möchtest, müsstest Du die PDFs per Noindex sperren. Meiner Meinung nach ist das aber schon ein bisschen Overkill – und frisst auch Crawl Budget.
Heike
Oktober 30th, 2020 at 23:02
Vielen Dank für den hilfreichen Artikel! Ich betreue eine Website, auf der einige PDF verlinkt waren, die auch indexiert wurden. Nun wurde die Website relauncht und die PDF sind weg, weil sie keinen Mehrwert zu den html-Seiten boten. Das ergibt jetzt 404er. Macht es Sinn, die alten URL zu den PDF per 301 auf die entsprechende html-Seite umzuleiten?
Markus Hövener
November 1st, 2020 at 14:39
Moin,

das ist eigentlich nur dann sinnvoll, wenn es externe Links für die PDF-Dateien gibt (recht unwahrscheinlich). Ansonsten ist der 404 vollkommen OK…

Grüße,

Markus
Heike
November 2nd, 2020 at 09:10
Alles klar und vielen Dank!