Google kämpft gegen Spam – und gegen Content-Farmen: Aber wie?

2. Februar 2011 | Von in SEO

Google hat den Kampf gegen Spam wieder aufgenommen. Zumindest steht es so im Blog-Post vom 21. Januar:

[…] webspam is junk you see in search results when websites try to cheat their way into higher positions in search results or otherwise violate search engine quality guidelines. […]

As we’ve increased both our size and freshness in recent months, we’ve naturally indexed a lot of good content and some spam as well. […]

To respond to that challenge, we recently launched a redesigned document-level classifier that makes it harder for spammy on-page content to rank highly. []…

Bei diesen Sachen geht es Google primär um:

  • “Hacked Sites”
  • Automatisiert erstellte Inhalte (Keyword Stuffing, …)

Die erste Änderung

Google hat jetzt auch schon eine erste Algorithmus-Anpassung vorgenommen. Matt Cutts von Google hat dazu am 28. Januar geschrieben:

This was a pretty targeted launch: slightly over 2% of queries change in some way, but less than half a percent of search results change enough that someone might really notice. The net effect is that searchers are more likely to see the sites that wrote the original content rather than a site that scraped or copied the original site’s content.

Es geht hier also um den Kampf gegen Scraping. Heißt: Wenn jemand eine Site oder Teile davon kopiert, bemüht Google sich in Zukunft mehr, das Original anzuzeigen.

Leider treffen derartige algorithmische Änderungen auch Unschuldige, also solche, die kein Scraping betreiben. Siehe dazu auch ein Beitrag vom 28. Januar beim Search Engine Roundtable:

A WebmasterWorld thread has a bunch of SEOs and Webmasters complaining about a recent and significant drop in traffic from Google. These reports all come from webmasters who have had stable rankings in Google and stable traffic from Google for years.

Aber so ist das leider. Algorithmische Anpassungen treffen leider immer Unschuldige (auch wenn man im Einzelnen prüfen müsste, wie “unschuldig” jemand ist und was Google an der Site “falsch verstanden” hat).

Der Kampf gegen Content-Farmen

Matt Cutts zielt in seinem Blog-Post aber auf noch etwas ganz anderes ab:

As “pure webspam” has decreased over time, attention has shifted instead to “content farms,” which are sites with shallow or low-quality content.

Content-Farms sind natürlich ein heißes Thema, vor allem weil Demand Media immer noch über einen Börsengang nachdenkt. Plattformen wie EHow.com werden von Demand Media betrieben und die Inhalte treffen wohl oft auf das Wort “shallow”.

Mal davon abgesehen, dass ich beim IPO von Demand Media wohl nicht dabei sein werde – wenn es denn überhaupt soweit kommt und Google nicht vorher den Hahn abdreht – stelle ich mir natürlich die Frage, wie hier eine algorithmische Antwort Googles aussehen könnte.

Man könnte natürlich auch fragen, was Google denn eigentlich gegen Content-Farmen hat. Ich bin jetzt auch kein Freund von EHow.com, aber viele der Beiträge beantworten die jeweilige Frage und sind inhaltlich auch nicht immer besser/schlechter als ein Forenbeitrag oder ein Frageportal.

Content-Farmen gibt es auch in Deutschland einige. Das mögen die Betreiber dieser Plattformen natürlich anders sehen und im Einzelfall mag das auch so sein, aber schlussendlich ist nicht wichtig, wie das Ding heißt, sondern wie Google das Ding sieht. Wenn Google meint, dass eine Website mit tausenden von Artikeln eine Content-Farm ist, dann ist das eben so.

Mein Interesse kommt aus zwei Richtungen:

  1. Wir beraten ein Unternehmen, das potenziell als Content-Farm gelten könnte. Ich sehe es nicht so, dass dieses Unternehmen eine Content-Farm betreibt, aber wie gesagt: Wichtig ist hier wohl primär, wie Google das sieht und wo Google die Grenze ziehen möchte.
  2. Eine Algorithmusänderung, die “shallow content” in den Suchergebnissen nach hinten durchreicht, könnte natürlich auch wieder Unschuldige treffen.

Ansätze

Ansätze gibt es natürlich unglaublich viele – meiner Meinung nach vor allem die folgenden:

(1) Textliche Aspekte:
Es gibt da natürlich banale Ansätze (Mindestzahl an Wörtern, etc.) und auch komplexere Ansätze (Bewertungen der textlichen Qualität über Wortrelationen). Der zweite Ansatz ist wohl vielversprechender und wird ja eigentlich auch schon umgesetzt. Das Potenzial hier ist also begrenzt.

(2) Cluster-Erkennung:
Hier wäre die Frage, ob ein einzelner Artikel in einem konsistenten Umfeld stehen muss. Heißt: Wenn es eine Seite über Golfurlaub gibt, die auf einer Plattform mit Millionen Artikeln zu allen erdenklichen Themen (von Fahrradreifen bis Mondspaziergang) steht, könnte das negativ gewertet werden. Es würde also nicht reichen, einfach nur eine Seite zu schreiben, die alle On-Page-Kriterien erfüllt. Diese müsste halt auch im richtigen Umfeld stehen (=andere Seiten zum Thema Golfurlaub). Auch dieser Ansatz wird zum Teil meiner Meinung nach schon von Google umgesetzt. Und bei vielen Demand-Media-Sites würde das auch nicht gelten, weil diese ja oft thematisch gegliedert sind und es viele Cluster von Artikeln gibt.

(3) Monothematik:
Angrenzend an die Cluster wäre die Frage, ob eine Website, die monothematisch ist, nicht eine höhere Chance auf Rankings hätte als eine Content-Farmen mit ganz vielen Artikeln oder Clustern. Mal davon abgesehen, dass auch das eigentlich schon bei Google teilweise umgesetzt ist, wäre die Frage, ob das fair wäre.

(4) Manuell:
Google könnte ein Tool schreiben, das anhand verschiedener Heuristiken Kandidaten für Content-Farmen ermittelt. Und dann muss das eben jemand durchgucken. Ganz ehrlich: So wahnsinnig viele Sites sind’s ja nun auch nicht. Danach muss Google die Plattformen eben manuell abwerten.

Meine Meinung

Ganz ehrlich: Ich habe keine Ahnung, wie Google das lösen will. Die Ansätze (2) und (3) werden meiner Meinung nach schon verfolgt bzw. sind Effekte eines thematischen Linkaufbaus. (Eine monothematische Website ist auch hinsichtlich der eingehenden Links monothematisch verlinkt)

Ansatz (1) ist da schon eher praktikabel, aber ich will einfach nicht glauben, dass die Trennschärfe zwischen einem “Billig-Artikel” und einem “redaktionellen, guten Artikel” zielsicher existiert. Sicherlich kann man über eine Bewertung der Textqualität über Wortrelationen einiges erreichen, aber der Betreiber einer Content-Farm sollte auch in der Lage sein, hier Gegenmaßnahmen zu ergreifen.

Ansatz (4) wäre halt sehr pragmatisch. Google wird diesen Weg aber wohl nicht gehen, weil es einfach eine Vorliebe für algorithmische Lösungen gibt.

Also: Abwarten und Tee trinken. Und in der Zwischenzeit auf jeden Fall schon mal dafür sorgen, dass der Content hinsichtlich der Qualität besser wird.

Wenn jemand hier ein paar gute Ideen hat, freue ich mich über Input…

The following two tabs change content below.
Avatar-Foto

Markus Hövener

Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.

Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.

5 Kommentare zu “Google kämpft gegen Spam – und gegen Content-Farmen: Aber wie?”

  1. Avatar-Foto Igor

    Die Trennung von “Billig-Artikel” und einem “redaktionellen, guten Artikel” kann aus meiner Sicht allein mit einem Algorithmus kaum fehlerfrei stattfinden.

    Google wird es sich nicht leisten können, dass guter Content plötzlich nach hinten rutscht. Folge: Schlechtere Suchergebnisse. Also müssen da schon (mehr oder weniger) sowas wie manuelle Kontrollen her. Was wäre also im Verhältnis die beste Lösung? Ich denke, dass Google dazu gezwungen sein wird, vermehrt auf die Reaktionen der User bei Facebook & Co. zu setzen.

    Sicherlich wäre auch das manipulierbar, aber dennoch wären viele “Billig-Artikel” weg vom Fenster, zumindest wenn man auf Backlinks und vor allem auf die Empfehlungen der Social Media User setzt. Irgendwo wird man sicherlich einen Durchschnittswert ermitteln können, wie oft ein guter Artikel verlinkt wird und wie oft dieser z.B. bei Facebook (ge)like(d) bzw. (ge)share(d) wird. Somit würde man sich die manuellen Kontrollen seitens Google-Mitarbeiter sparen und hätte trotzdem relativ gute Resultate. Oder was meint ihr?

  2. Avatar-Foto Markus

    Social Media als Wertungsfaktor ist natürlich gut, aber es greift halt nicht immer. Es gibt Millionen von Artikeln & da kann jetzt nicht jeder was zu twittern. Mal davon abgesehen, dass auch EHow-Artikel getwittert + geshared werden…

  3. Avatar-Foto Dietmar

    … was mich dazu interessieren würde, ist, ob ne Wikimedia-Seite von Google weniger als Contentfarm betrachtet wird – ist ja nun die klassische Lexikonseite und damit eben fast zwangsläufig polythematisch.
    Könnte nen Ansatz für Anbieter sein.

  4. Avatar-Foto Markus

    Ja, aber die Wiki-Seiten fallen wohl kaum unter “Shallow Content”.

  5. Avatar-Foto Dietmar

    … ich denke, das ist genau die Lösung: Wikiseiten können auch “shallow” sein. Wir haben bei Spielwiki.de auch die meisten Seiten selbst eingestellt. Dass andere Leute die Seiten bearbeiten, ist eher ein Bonus. Will heißen: prinzipiell könnten Wikis besser bei Google ankommen, auch wenn sie den gleichen Content bringen!

Kommentieren