SEO und PDF-Dateien: Ein großes Problem? [Alles auf Start 47]

14. Oktober 2021 | Von Markus Hövener in Podcast "Search Camp", SEO

PDF-Dateien werden von Google indexiert und auch gerne in den Suchergebnissen ausgespielt. Man kann damit also durchaus gute Rankings erreichen. Aber wo liegt dann das Problem mit solchen Dateien? Und wie geht man an die Analyse heran?

Hinweis: Von unserem Podcast "Alles auf Start" werden leider keine neuen Episoden mehr veröffentlicht (letzte Episode: Dezember 2023). Mehr SEO auf die Ohren? Dann können wir Dir natürlich unseren Podcast Search Camp empfehlen!

SEO und PDF-Dateien: Ein großes Problem?

Moin! Herzlich willkommen zu „Alles auf Start“, heute wieder mit einem SEO-Thema. Und vor allem ein Einsteiger-SEO-Thema, was ich häufig mit Unternehmen diskutiere und wo es auch oft kleine Fragezeichen über den Köpflein gibt. Deswegen habe ich gedacht, ich mach mal eine Episode daraus.

Worum geht’s? PDF-Dateien. Erstmal grundsätzlich ist es so, das World Wide Web funktioniert eigentlich mit HTML-Seiten. Früher hießen die alle noch hinten mit der URL .html. Das macht man heute nicht mehr, das braucht es auch nicht mehr. Aber trotzdem alles, was da, oder vieles, was da gerade so im Internet passiert, ist HTML. Und Google lädt diese Seiten herunter, indexiert sie, spielt sie in den Suchergebnissen aus.

Es gibt aber auch die Fälle, dass das eben nicht HTML-Dokumente sind, sondern Google indexiert zum Beispiel auch PDF-Dateien. Übrigens nicht nur die, sondern auch Word und Postscript und was es nicht noch alles an crazy Dokumentenformaten gibt. Aber primär wird das Problem eigentlich immer auf PDF reduziert und das in meinen Augen auch zu Recht, weil das ist der häufigste Fall. Gleichwohl nochmal, es kann auch was anderes sein, aber das ist es typischerweise.

Ich weiß nicht, ihr habt das vielleicht schon mal auch gesehen in den Suchergebnissen, man kann nämlich an einem Suchergebnis erkennen, ob es ein PDF-Ergebnis ist oder nicht. Nämlich wenn ihr mal in die erste Suchergebnis-Zeile guckt, da steht immer so https://www.website.de, also die URL. Jetzt wird heutzutage nicht mehr ganz die URL ausgegeben, sondern eher die Struktur, also mit so „>“-Zeichen. Und dann ist es in der Regel so, dass nach dieser URL in der ersten Zeile kommt ein Pfeil nach unten, um den Cache aufzurufen. Und daneben steht dann das Wort PDF in einem grauen Kasten. Daran kann ich eben am Suchergebnis selber erkennen, ob da eine PDF-Datei dahintersteckt oder nicht. Ansonsten kann ich es erstmal auf den ersten Blick nicht sehen, weil auch für eine PDF-Datei wird ein normaler Titel ausgegeben und wird auch ein Textausschnitt ausgegeben. Die stammen jetzt natürlich nicht wie bei einer HTML-Seite aus dem Seitentitel und der Meta Description, aber auch ein PDF hat eben solche Elemente. Und der Textausschnitt ist in der Regel genau das, nämlich ein Textausschnitt aus dem Text der Seite.

Problem #1: Nutzerfreundlichkeit

Wenn ihr ein Mobilgerät habt, was weiß ich, 6 Zoll Display und ihr ladet euch ein A4-PDF herunter mit kleinster Schrift, dann ist das PDF nicht responsiv und es wird einfach nur eine schlechte Nutzererfahrung sein.

Natürlich kann es manchmal sein, dass das genau das ist, was du haben wolltest als Dokument. Klar, kann passieren. Man kann auch nicht aus allem eine HTML-Seite machen. Du hast irgendeine Explosionszeichnung von einem Produkt, da ist PDF natürlich ein Superformat. Aber im Allgemeinen würde ich das eben so nicht sehen. Also die Nutzerfreundlichkeit ist schlecht, wollte ich damit sagen.

Problem #2: Messbarkeit

Du wirst typischerweise, wenn du ein Webanalyse-System wie Google Analytics siehst, wirst du dort den Traffic nicht sehen, der auf PDF-Dateien landet. Und das hat einen ganz einfachen Grund, nämlich den: In einer HTML-Seite befindet sich so ein Trackingcode, und das ist JavaScript-Code, der wird ausgeführt und schickt quasi eine Botschaft nach Hause: Nutzer X hat jetzt die und jene Seite heruntergeladen. Supersache. In einer PDF-Datei kann man aber keinen JavaScript-Code einbauen, respektive, wenn man ihn einbauen könnte, würde er gar nicht ausgeführt werden.

Das heißt: In Google Analytics wirst du in der Standardeinstellung deinen ganzen PDF-Traffic gar nicht sehen können. Das heißt, du hast vielleicht 10.000 oder 100.000 Besucher, die auf PDF-Dateien einsteigen über die Suchergebnisse, aber du siehst sie gar nicht. Natürlich gibt’s da Möglichkeiten drum herum, das ist aber immer ein bisschen Programmierung, das ist ein bisschen Aufwand. Also in der Standardversion ist es nicht messbar.

Problem #3: Conversions

Und dann gibt es noch Grund Nummer 3: mangelnde Conversions. Nämlich jemand landet jetzt auf deinem PDF, auf deiner Anleitung, auf deinem Beitrag, was auch immer es sein kann, und typischerweise willst du mit dieser Person ja Geld verdienen. Also wäre zumindest schön.

Und wie kann man das machen? Naja, zum Beispiel auf einer Webseite gibt’s unten ein Kontaktformular, auf einer Website gibt’s vielleicht einen Ansprechpartner, der mir unten angezeigt wird und, und, und. Es gibt einen Newsletter, für den ich mich anmelden kann. Ist doch schön. Auch das kann ich dann wieder alles messen und so. In PDF-Dateien ist es in der Regel nicht so. Manchmal ist so eine Footer-Zeile unten drunter, irgendwie Firmenadresse.

Aber eine Website ist halt doch viel Conversion-freundlicher als so eine PDF-Datei. Und vor allem natürlich auch wieder die Messbarkeit und so. Also jemand lädt sich ein PDF runter, ruft eine Rufnummer an, und was willst du da messen? Also selbst, wenn das passiert, wirst du es in der Regel einfach nicht messen können. Natürlich gibt’s auch da Wege drumherum, überhaupt keine Frage, aber in der Praxis passiert das eben einfach nicht. Weil das PDF, was da irgendwie ausgelegt wird auf der Website, das ist eben das digitale Gegenstück zu einem Flyer, der irgendwo auf einer Messe ausgelegt wird. Und da hat einfach keiner drüber nachgedacht, dass man da unten natürlich auch Conversion-Elemente reinpacken sollte.

SEO für PDF-Dateien: Und die Lösung?

Das wären die 3 Hauptgründe, warum man PDF-Dateien und SEO ein bisschen kritisch sehen sollte. Wie geht man jetzt ran an das ganze Thema?

Habe ich das Problem?

Erstmal sollte man gucken, ob man das Problem überhaupt hat, respektive, ob das Problem groß ist. Jetzt habe ich eben gesagt, man kann das gar nicht messen. Das stimmt für Google Analytics, es stimmt nicht für die Google Search Console. Denn in der Google Search Console, weil sie an die Suche anflanscht und quasi in der Suche alles mit misst, wirst du eben auch PDF-Traffic sehen.

Das heißt, du gehst in die Search Console in den Report „Leistung“ und dann kannst du oben zum Beispiel einen Filter setzen und kannst sagen: Ich möchte mal sehen, die URL enthält das Wort „PDF“ oder „.PDF“. Und dann siehst du halt, hast du 0 PDF-Besucher oder hast du 100.000 davon? In der Regel ist es eher gegen 0. Aber ich habe auch schon Fälle erlebt, wo ich Verlage beraten habe, die einfach wahnsinnig viel PDF-Content hatten. Da musst du erstmal gucken, wo auf dieser Skala du so unterwegs bist.

Und natürlich, nochmal, wenn du jetzt siehst, hey, PDF-Traffic ist für mich gar kein Thema, okay, dann war es schön mit dir, dann musst du dir den Rest jetzt nicht mehr anhören.

Falls es nicht so ist, falls du Besucher hast, die auf PDF-Dateien einsteigen, gehen wir jetzt zum nächsten Schritt.

Was machen wir jetzt dagegen?

Das, was ich machen würde, wäre in der Search Console im Report „Leistung“. Du hast den Filter immer noch gesetzt, würde ich jetzt gucken: Sind das wichtige Suchanfragen?

Manchmal ist es eben so, dass das Suchanfragen sind, die einfach vielleicht auch nicht Conversion-relevant sind. Also irgendjemand hat vielleicht ein Produkt gekauft und sucht jetzt noch eine Aufbauanleitung dafür. Und du sagst, dann soll er doch das PDF runterladen. Die Entscheidung würde ich sogar so noch mittragen.

Und manchmal findest du aber Suchanfragen, wo du sagst: Das ist aber blöd, weil der Nutzer steigt jetzt auf einer PDF-Datei ein, obwohl er eigentlich, also das ist schon ein wichtiger Suchbegriff. Und das ist auch jemand, der noch vor einer Conversion steht und vielleicht möchte ich den unbedingt haben auf meiner Website, nicht in meiner PDF-Datei.

Also guck dir an: Hast du wichtige Suchanfragen dabei? Und dann eben die Frage: Warum wählt Google eigentlich hier eine PDF-Datei aus, obwohl Google eigentlich eher auf der HTML-Seite unterwegs ist?

Und die Antwort ist in der Regel sehr banal und eigentlich schon in dieser Frage versteckt, nämlich: Ich habe in der Regel dann keinen HTML-Content, der dazu passt. Und dann ist natürlich auch die Lösung schon relativ nahe, nämlich dann muss ich hingehen und für wichtige Suchanfragen, die ich identifiziert habe, korrespondierende HTML-Seiten aufbauen.

Also angenommen, ich bin ein Hersteller von Klicklaminat und ich merke, viele Leute suchen sowas wie „Klicklaminat verlegen“ und die landen aber bei mir auf einer PDF-Datei auf einer Seite, die eigentlich auch noch unpassend ist, weil sie schon zehn Jahre alt ist und ich eigentlich mittlerweile vielleicht anderes Klicklaminat anbiete oder wie auch immer, also auf jeden Fall sei das die Suchanfrage. Dann könnte man hingehen und sagen: Für das Verlegen von Klicklaminat werde ich jetzt eine HTML-Seite aufbauen, einen Blogbeitrag, eine FAQ, was auch immer, Magazin, Ratgeber, suche es dir aus. Und du baust eine richtig schöne HTML-Seite auf mit viel Text, schönen Bildern, Schritt-für-Schritt-Anleitung, also schöne Zwischenüberschriften und so weiter und so fort.

Wenn du das gemacht hast, könnte es passieren, dass Google immer noch die PDF-Datei ausspielt, vielleicht weil Google einfach da manchmal auch ein bisschen träge ist und ein bisschen sticky ist. Das heißt, Google hat jetzt über zehn Jahre lang gelernt, die Leute auf diese Seite zu schicken. Jetzt hast du eine schönere Seite gebaut, aber Google könnte sich immer noch dafür entscheiden, die PDF-Datei auszuspielen.

Deswegen ist es dann eine gute Idee zu sagen: Dann sperre ich aber diese PDF-Dateien oder Datei, Singular oder Plural, über meine robots.txt Datei. Es gibt auch noch eine andere Möglichkeit, ich kann auch ein sogenanntes Canonical Tag setzen. Das ist allerdings technisch relativ aufwendig und für viele vielleicht nicht unbedingt sonderlich selbsterklärend. Also der einfachere Weg ist: Ich sperre die PDF-Datei per robots.txt und bastle mir idealerweise vorher schon eine korrespondierende HTML-Seite.

Aber nochmal: Nur für Suchbegriffe, die mir wichtig sind. Und da muss man schon manchmal ein bisschen aussortieren, und vor allem muss man sich manchmal wirklich auch den Umfang des Ganzen angucken. Wenn du 20 Leute im Monat auf diese PDF-Dateien verlierst, meine Güte, dann ist es halt so. Aber wenn es 2000 sind, würde ich schon eher darüber nachdenken.

Und auch natürlich immer gucken, auf welchen PDF-Dateien landen die denn eigentlich? Das habe ich eben auch schon erlebt, dass sie auf gänzlich falschen Dateien landen, weil es eben auch so wahnsinnig viele gibt und man dann wie bei dem „Klicklaminat verlegen“ mal eine zentrale Seite aufbauen muss, damit die Nutzer auch auf der richtigen Information landen.

Wie häufig ist eigentlich dieses ganze Problem?

Das hängt wirklich ein bisschen davon ab, in welcher Branche du unterwegs bist. Ich habe es eben schon ein bisschen gesagt. Wenn du ein Verlag bist, hast du dieses Problem relativ wahrscheinlich. Wenn du Mittelständler bist, zum Beispiel Maschinenbau, und du hast für jedes Produkt, was du hast, noch drei PDF-Dateien, irgendeine Anleitung oder sowas und noch ein Produktprospekt, dann ist es auch sehr wahrscheinlich, dass du dieses Problem hast.

Aber nochmal: Du solltest immer nachgucken, wie groß ist das Problem bei mir? Und nur dann, wenn es auch ein relevant großes Thema ist, dann würde ich es angehen. Denn das Ganze zu beheben kostet natürlich eben auch wieder, das kostet Zeit und das kostet Geld. Du musst Content aufbauen, du kannst ihn vielleicht nicht einfach rauskopieren aus der PDF-Datei, musst noch vielleicht Bildmaterial raussuchen, eine Meta Description, einen Seitentitel vergeben. Das alles kostet Zeit.

Und wenn man wirtschaftlich denkt, dann muss man eben auch gucken: Lohnt sich diese Zeit denn eigentlich, die ich da reinstecke? Und nochmal: Für 2000 Besucher im Monat würde ich das definitiv machen, für 2 im Monat, naja, dann ist es halt mal so.

Man kriegt‘s nicht immer perfekt hin. Hauptsache ist erstmal, dass man darüber nachdenkt, dass man guckt, habe ich das Problem, und dass man dann eben ran an den Feind geht.

Mehr zu diesem Thema:

SEO + PDF

Bio
Neueste Artikel

Markus Hövener

Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.

Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.

Neueste Artikel von Markus Hövener (alle ansehen)

SEO-Trainee-Programme: Ganz einfach SEOs ausbilden? [Search Camp 316] - 16. April 2024
SEO-Monatsrückblick März 2024: Google Updates, Search Console + mehr [Search Camp 315] - 2. April 2024
Recap zur SMX München: Die wichtigsten Take-Aways [Search Camp 314] - 19. März 2024
Sichtbarkeit und/oder Traffic gehen nach unten: Woran kann’s liegen? [Search Camp 313] - 12. März 2024
Wie wichtig ist es, allen SEO-News zu folgen? [Search Camp 312] - 5. März 2024