Für SEOs

SEO-Effizienz – Antwort zum Blog-Beitrag von Hanns Kronenberg

21. Mai 2009

Der Blog-Artikel SEO-Effizienz - die optimale Anzahl indexierter Seiten des SEO-Strategen Hanns Kronenberg vom 09.04.2009 beruht auf einem mathematischen Artefakt. Die statistische Auswertung ist ohne Relevanz. Diese Seite versucht den Gedankenfehler aufzuklären.

Teil 1: Zusammenfassung / Methodische Analyse

Definition SEO-Effizienz

Im Artikel wird SEO-Effizienz als neue Maßzahl eingeführt und wie folgt definiert:

SEO-Effizienz   = Suchmaschinen-Sichtbarkeit   (Nutzen)
Anzahl der indexierten Seiten   (Aufwand)

Die Effizienz einer SEO ist somit hoch, wenn mit relativ wenig Seiten eine gute Sichtbarkeit erreicht wird. Und umgekehrt niedrig, wenn für einen vergleichbaren Nutzen deutlich mehr Unterseiten erstellt werden müssen.


Daraus ergeben sich nun folgende Fragen:

Oder anders formuliert:  Gibt es einen klar erkennbaren Zusammenhang zwischen der SEO-Effizienz einer Website und der Anzahl indexierter Seiten?

Website-Auswahl (statistische Datenbasis)

Dieser Zusammenhang wurde nun anhand folgender statistischen Daten überprüft:

Konkret waren das folgende Daten:

Platz S n
1 5.834 13.600.000
2 1.248 26.000.000
3 766 1.620.000
4 756 68.700.000
5 686 952.000
6 583 2.900.000
7 467 467.000.000
8 502 3.280.000
9 518 518.000.000
10 450 1.250.000
Platz S n
11 447 6.990.000
12 398 809.000
13 396 952.000
14 371 2.730.000
15 370 1.980.000
16 333 11.900.000
17 320 1.720.000
18 304 3.540.000
19 303 635.000
20 299 9.630.000
Platz S n
21 277 5.330.000
22 261 501.000
23 251 1.300.000
24 244 4.430.000
25 234 31.400
26 216 5.840.000
27 211 26.400.000
28 196 380.000
29 190 1.340.000
30 186 400.000

Erläuterungen:

Die Auswertung

Zur statistischen Auswertung dieser Daten wurde nun die Anzahl der Unterseiten (n) auf die X-Achse sowie die SEO-Effizienz (S/n) auf die Y-Achse aufgetragen. Bei doppelt-logarithmischer Darstellung ergibt sich näherungsweise eine Gerade, bei linearer Skalierung eine Hyperbel.

Auf den scheinbar vorhandenen Zusammenhang zwischen der SEO-Effizienz und der Anzahl indexierter Seiten folgen weitere Gedanken und Überlegungen zur optimalen Website-Größe sowie über 30 Kommentare mit weiteren Diskussionsbeiträgen.



Teil 2: Fehleranalyse

Der Artikel ist schön aufbereitet und erscheint sehr schlüssig – aber er basiert auf einem mathematischen Artefakt, das statistisch ohne Relevanz ist!

Wo liegt der Fehler?

Das Problem liegt in der einseitigen Auswahl der betrachteten Websites! Diese 30 Websites sind die erfolgreichsten überhaupt, d.h. sie stehen an der Spitze einer (virtuellen) Ranking-Liste von Millionen von Websites.
In einfacher Näherung betrachtet sind diese 30 Websites alle ähnlich erfolgreich!

Was bedeutet das mathematisch?

Die den Grafiken zugrunde liegende Formel lautet:
SEO-Effektivität   =  S 
 n 
bzw. in mathematischer
Schreibweise:
f(x) =  S 
 x 

Davon ausgehend, dass alle betrachteten Websites ähnlich erfolgreich sind, ist S ~ konstant!
Die Formel vereinfacht sich somit zu:

f(x) =  1 
 x 

Diese Funktion (in die nur noch die Website-Größe einfließt) ergibt grafisch dargestellt eine Gerade (logarithmische Skala) bzw. eine Hyperbel (lineare Skala)! D.h. genau diejenige Kurve, auf die die statistische Auswertung hinausläuft.

(Die Eins im Zähler ist eine weitere Vereinfachung, dort könnte auch der Mittelwert aller S-Werte stehen (~ 200). Dann wäre die Kurve bei gleicher Form nach oben verschoben.)

Hanns Kronenberg fragt sich übrigens an einer Stelle: "Trotzdem ist es erstaunlich, wie gering die Abweichungen sind und welche große Bedeutung offensichtlich die Anzahl indexierter Seiten für die SEO-Effizienz hat."
Der Grund wurde soeben erklärt: Diese Kurve ergibt sich immer und ganz automatisch, wenn man ähnlich erfolgreiche Sites untersucht!

Betrachtung einer Auswahl weniger erfolgreicher Websites

Wir schreiben die obige Top-30-Liste nach unten fort bzw. dehnen sie fiktiv auf z.B. eine Million Websites aus. Dann nehmen wir aus dieser Liste z.B. die Plätze 1000 bis 1030. Die Tabelle könnte an dieser Stelle vielleicht ungefähr so aussehen:

Platz S n
1001 33,1 ?
1002 33,0 ?
1003 32,9 ?
1004 32,9 ?
1005 32,8 ?
... ... ...
1026 32,1 ?
1027 32,0 ?
1028 32,0 ?
1029 31,9 ?
1030 31,8 ?

Wenn man nun diese Werte in eine Grafik einträgt, ergibt das wieder eine Gerade bzw. Hyperbel !
Das ist auch völlig logisch:

• Wenn man einen Datensatz von z.B. einer Million Websites hat,
• deren Sichtbarkeitswerte zwischen Null und z.B. 1000 streuen,
• und man alle Datensätze nach diesem Kriterium sortiert,
• und jetzt gezielt 30 benachbarte Listenplätze selektiert,
• dann haben diese immer einen ähnlichen Sichtbarkeitswert!

D.h. ob man Platz 1-30 oder Platz 1000-1030 oder Platz 200.000 bis 200.030 in eine Kurve einträgt, macht mathematisch keinen Unterschied. Es kommt immer die gleiche Kurve heraus!
(Wobei zu den hinteren Plätzen hin 1. die Streuung immer geringer wird, und 2. die Kurve immer weiter nach unten verschoben ist.)

Die Anzahl der indizierten Seiten ist übrigens völlig irrelevant! Bei kleineren Werten beginnt/endet die Kurve weiter links, bei größeren weiter rechts, aber die Form bleibt unverändert! Und mathematisch gesehen ist die Kurve sowieso in beide Richtungen unendlich!

Hanns Kronenberg war in einem Kommentar selbst auf dieser Spur:
"Wenn meine Vermutung stimmt, funktioniert die Kurve oben immer mit einem Set von Websites, die einen ähnlich hohen Sichtbarkeitsindex (Output) haben (z.B. eben die Top-30, wobei Wikipedia und Amazon da schon Ausreißer sind, die ihr eigenes Niveau haben)."

Streuung

In der Grafik des Blog-Artikels hat es den Anschein, als ob die aufgetragenen Werte um die Kurve streuen, d.h. etwas vom eigentlichen Wert der Funktion abweichen. Das macht einen guten Eindruck und unterstreicht die Plausibilität.

Doch was passiert hier wirklich? Die Werte streuen nämlich deshalb, weil die ausgewählten 30 Websites nicht genau gleich erfolgreich sind, sondern nur ähnlich erfolgreich! Wären sie identisch erfolgreich, ergäbe sich eine perfekte Kurve!

D.h. wenn man umgekehrt annimmt, dass der postulierte Zusammenhang in Form einer Gerade (bzw. Hyperbel) besteht, würde das bedeuten, dass in der Betrachtung der idealen Kurve alle Websites gleich erfolgreich wären!

Die beiden "Ausreißer"

In der Diskussion wird oft auf "zwei interessante Ausreißer" (Wikipedia und Amazon) Bezug genommen, und mit unterschiedlichsten Theorien versucht, deren signifikantes Abweichen von der Kurve zu erklären.

In der Grafik mit den Effektivitätswerten sind diese beiden Websites auch unauffällig im Mittelfeld verteilt, daher überrascht die starke Abweichung umso mehr.

Die Erklärung ist aber ganz trivial: dazu muss man sich nur auf dieser Seite oben die Tabelle mit den tatsächlichen Sichtbarkeitswerten anschauen:
Diese beiden Websites sind (im wahrsten Sinne des Wortes) mit Abstand die erfolgreichsten, sie sind mit 5.834 bzw. 1.248 Punkten sozusagen dem Feld davongelaufen. Sie sind somit als einzige nicht ähnlich erfolgreich wie die übrigen Websites!

Ähnlich große Abweichungen würde man sehen, wenn man auch einige weniger erfolgreiche Websites in die Grafik eingetragen würde.

Zusammenhang zwischen SEO-Effektivität und Anzahl der indizierten Seiten?

Was sagt die Statistik also tatsächlich aus?

Bei ähnlich erfolgreichen Websites nimmt die SEO-Effektivität mit der Anzahl der Seiten ab!

Dies ist die einzige (triviale) Aussage, die gemacht werden kann. Sie steht sogar an einer Stelle im Text:

"Offenbar gibt es also zumindest bei diesen Websites einen deutlichen direkten Zusammenhang zwischen SEO-Effizienz und Anzahl indexierter Seiten."

Dabei handelt es sich jedoch wie gesagt um eine Punktbetrachtung, um ein mathematisches Artefakt ohne Aussagewert.

Für eine statistisch relevante Aussage bräuchte man Sichtbarkeitsdaten von sehr vielen, unterschiedlich erfolgreichen Webseiten – also auch von weniger erfolgreichen bis hin zu erfolglosen. Doch diese Daten gibt es nicht!
Und selbst wenn sie zur Verfügung stünden, ist nach meinem mathematischen Verständnis nur eine wolkenartige Punkteverteilung zu erwarten, aus der nichts Signifikantes herausgelesen werden kann.

Ausblick

Ungeachtet dessen ist die Frage "Gibt es für eine Website eine optimale Anzahl indexierter Seiten?" hochinteressant!

Nach meiner Einschätzung führt aber der Aspekt der SEO-Effizienz (Nutzen geteilt durch Aufwand) bei der Beantwortung dieser Frage nicht weiter. Der Aufwand ist eine zu individuelle (bzw. unberechenbare) Größe, um in eine Formel einfließen zu können.

Meiner Meinung nach sollte die Suchmaschinen-Sichtbarkeit selbst sowie deren Maximierung im Focus der Betrachtung stehen. Eigene ausführliche Überlegungen zu diesem Thema sind in Arbeit und werden demnächst an dieser Stelle veröffentlicht werden!

Freiburg, 21. Mai 2009