Bei MAITHINK X haben wir eine Folge über biodynamischen Landbau. Darin erklären wir, dass die “biodynamischen Präparate” auf realitätsfernen Vorstellungen gebündelter “kosmischer Kräfte” beruhen. Es gibt eine Reihe von Studien zu diesen Präparaten, die diverse Wirkungen auf Pflanzen und Acker gefunden haben wollen. Wie in der Sendung ausgeführt, sehen die ziemlich durchweg nach HARKing aus. Das funktioniert z.B. so, dass man sehr viele Faktoren testet (z.B. Größe der behandelten Pflanzen, Ertrag, Farbe der Blätter, usw). Selbst wenn biodynamische Präparate (wie anzunehmen) keine Wirkung haben, hat jeder dieser Faktoren eine 5 %-ige Wahrscheinlichkeit, als “statistisch signifikant” zu erscheinen. Das liegt einfach an den Regeln der Statistik, auf der solche Tests beruhen. Wenn man sowas dann als großes Ergebnis verkauft und so tut, als hätte man genau diesen Effekt schon vermutet, ist das HARKing (die Schokoladenstudie hier ist ein anschauliches Beispiel). Dass es keine echten Effekte sind, sondern eben nur Rauschen, erkennt man daran, dass sie nicht reproduzierbar sind. Wie bei zufälligem Rauschen zu erwarten, sind es in jeder dieser Studien dann auch andere Faktoren, die von den biodynamischen Präparaten “statistisch signifikant” beeinflusst werden sollen.
Es gibt aber ein Ergebnis, das tatsächlich wiederholt auftaucht. Das hat es leider nicht in die Sendung geschafft, weil es sich eher um einen Nebenaspekt der “Präparateforschung” handelt. Für solche Liebhaberdetails ist im linearen Fernsehen halt keine Zeit. Daher gibt’s das jetzt hier als Bonusmaterial für alle, die ihre Nerdiness im Herzen tragen und Bock haben, sich einen langen Bonustext zu einem kleinen Teilaspekt reinzuziehen. #teamNerds <3
Bei diesem scheinbar reproduzierbaren Ergebnis handelt es sich um eine “harmonisierende” oder “normalisierende” Wirkung der Präparate. Angeblich wirken die Präparate nur dann wachstumsfördernd, wenn es den Pflanzen schlecht geht. Haben die Pflanzen alles, was sie brauchen, wirken die Präparate nicht nur nicht wachstumsfördernd – sie hemmen das Wachstum sogar. Nur zu ihrem eigenen Besten, versteht sich. Beziehungsweise zum Besten des “Organismus Bauernhof”. Vielleicht weil zu hoher Ertrag den Boden auslaugen würde oder so? So genau wird das nicht ausgeführt. Jedenfalls sei zu viel Ertrag “nicht gesund”. Na, zum Glück greifen da die Präparate ein und bremsen die ungestümen Pflanzen.
Dieses Konzept wird u.a. auf der Website des anthroposophischen Forschungsring e.V. so illustriert:
Wenn das wirklich so in mehreren voneinander unabhängigen Studien rausgekommen ist, dann wird das doch kein HARKing sein, oder? Ist das jetzt der Beweis, dass an den biodynamischen Präparaten doch was dran ist? Ist die ganze Kritik in unserer MAITHINK X Folge damit widerlegt?
Schauen wir uns einmal die Studien an, um die es hier geht.
Raupp und König berichteten von diesem harmonisierenden Effekt 1995 in einem wissenschaftlichen Journal, das sich mit Bioanbau-Forschung beschäftigt. Meines Wissens ist dies der einzige Bericht über diesen “Effekt”, der es in ein Journal mit Peer-Review geschafft hat.
Die Autoren warfen die Ergebnisse von 29 unterschiedlichen Experimenten aus zwei Doktorarbeiten zusammen. In diesen Experimenten war mit verschiedenen Pflanzen und Versuchsansätzen untersucht worden, ob biodynamische Präparate zu einem besseren Ertrag, also höherer Ernte führen. Konkret untersuchten sie die Wirkung der beiden “Feldspritzpräparate”, also Kuhmist und Quarzmehl, die jeweils für ein paar Monate in ein Kuhorn gefüllt und vergraben, dann in Wasser verrührt und hauchdünn übers Feld gesprenkelt werden. Für Menschen, die nicht daran glauben, dass Kuhhörner Antennen für kosmische Kräfte sind, mit denen man Kacke oder Sand aufladen kann (ja, genau das soll passieren), mag wenig überraschend erscheinen, dass in diesen Experimenten kein klarer Effekt der Präparate auf die Erträge gefunden wurde. Wenn eine zu testende Behandlung – z.B. die Weitergabe kosmischer Kräfte aus einem Hauch Kuhmist – keine Wirkung hat, wird der gemessene Parameter – z.B. der Ertrag – mit Behandlung mal ein bisschen höher und mal ein bisschen niedriger sein als ohne Behandlung. Man sieht die ganz normalen zufälligen Schwankungen, die man auch sehen würde, wenn man beide Felder einfach ganz in Ruhe gelassen hätte. Tja, und was soll ich sagen. In den 29 Experimenten war der Ertrag der Felder mit Präparaten im Vergleich zu den Feldern ohne Präparate mal ein bisschen höher, mal ein bisschen niedriger.
Von so einem unanthroposophischen Ergebnis ließen sich Raupp und König aber nicht entmutigen. Sie trugen in einem Diagramm auf der X-Achse alle Erträge der Kontrollfelder auf, also die ohne Präparate. Auf der Y-Achse trugen sie die zugehörigen Erträge der Präparat-behandelten Felder auf. Und zwar als Unterschied in Prozent, also z.B. “10 % mehr als beim Kontrollfeld”. Und plötzlich konnte man ein auffälliges Muster erkennen!
Je niedriger der Ertrag auf dem Kontrollfeld war, desto höher waren die Erträge auf den zugehörigen Präparatefeldern. Umgekehrt waren bei besonders hohen Erträgen auf den Kontrollfeldern die Erträge der Präparatefelder im Vergleich auffällig niedrig.
Ganz so, als würden biodynamische Präparate niedrige Erträge erhöhen und hohe Erträge drosseln. Die geheimnisvolle, harmonisierende Wirkung! Da ist sie! Das einzige Problem ist, dass die Auswertung von Raupp und König so eine Wirkung gar nicht zeigt. Sie ist lediglich eine ungewöhnliche Art, sich zufälliges Rauschen anzugucken. Die beiden Präparateforscher haben sich anscheinend selbst hereingelegt.
Um das zu verdeutlichen, habe ich ein eigenes Experiment gemacht. Ich habe gewürfelt. Nach jedem Kontrollwurf habe ich laut und deutlich das geheimnisvolle, harmonisierende Wort “Kackhörnchen” gesprochen und nocheinmal gewürfelt. Insgesamt 50 mal, also 100 Würfe.
Dann habe ich ausgerechnet, wie hoch der Kackhörnchenwurf im Vergleich zum jeweiligen Kontrollwurf war. Hier die Ergebnisse.
Das sieht ja fast so aus, als würde das Wort “Kackhörnchen” niedrige Würfe erhöhen und hohe Würfe verringern! DAS KANN DOCH KEIN ZUFALL MEHR SEIN! 😱
Haltet eurer Heureka im Zaum, Freunde der Würfelanthroposophie! Mein kleiner Holzwürfel ist ein 1A-Zufallsgenerator, der sich weder durch gesprochene Wörter, noch durch kosmische Kräfte aus dem Gleichgewicht bringen lässt. Der “harmonisierte” Anschein der Kackhörnchen-Würfe liegt einzig und allein daran, dass ich sie als Unterschied zu den Kontrollwürfen angebe. Die Augenzahlen der Kontrollwürfe waren natürlich völlig zufällig zwischen 1 und 6 verteilt. Aber in so einer Graphik werden sie sortiert: Die kleinsten nach links, die größten nach rechts. Die Augenzahlen der zugehörigen Kackhörnchenwürfe sind ebenfalls zufällig zwischen 1 und 6 verteilt. Aber diese zufälligen Zahlen gebe ich auf der linken Seite als Unterschied zu einer kleinen Zahl und auf der rechten Seite als Unterschied zu einer großen Zahl an. Nur daran liegt es, dass sie links größer sind als rechts.
An der Angabe als % Unterschied zum Kontrollwurf (anstatt Angabe als einfache Differenz) liegt, dass die Trendlinie etwas asymmetrisch aussieht, also die Zahlen links viel weiter ins Positive gehen als rechts ins Negative. Würfele ich erst eine 1 (Kontrolle) und dann eine 6 (Kackhorn), gebe ich die 5 Punkte Differenz als Prozent von 1 an, also +500 %. Ist hingegen der Kontrollwurf eine 6 und der Hörnchenwurf eine 1, gebe ich die Differenz als Prozent der viel höheren Zahl 6 an, also -83,3 %.
Oder in den Worten von Raupp und König: “Die von den Präparaten ausgelösten Erntesteigerungen unter schlechten Bedingungen waren größer als die Erntereduktion unter guten Ertragsbedingungen”. Naja.
Hätte er von dieser Studie erfahren, wäre dem alten Galton vermutlich vor Schreck die Hundepfeife aus dem Mund gefallen. Er hat nämlich nicht nur die erfunden, sondern auch als erster das statistische Phänomen beschrieben, um das es sich hier handelt: Regression zur Mitte.
Der Mittelwert von Würfelwürfen ist 3,5. Wenn man eine unterdurchschnittliche 1, 2 oder 3 würfelt, ist im Durchschnitt die nächste Zahl höher. Bei einer überdurchschnittlichen 4, 5 oder 6 ist der nächste Wurf im Durchschnitt niedriger. Regression zur Mitte ist unter anderem eine häufige Ursache dafür, dass Anwender völlig überzeugt von der Wirkung wirkungsloser Arzneimittel sind. Wenn es einem außergewöhnlich schlecht geht, probiert man verzweifelt etwas Neues aus. Die Chance ist sehr hoch, dass es einem bald danach wieder “gewöhnlich schlecht” geht, auch ohne die “experimentelle Arznei” (an dieser Stelle gute Besserung an Alle, auf die das zutrifft <3). Verständlich, dass man da den Eindruck hat, das hätte gewirkt. Oder dafür, dass besonders große Eltern meistens Kinder haben, die kleiner sind als sie. Obwohl Körpergröße doch zu einem großen Teil erblich ist. Es kommt halt noch zufällige Streuung oben drauf, und dadurch gibt’s Regression zur Mitte.
Die scheinbar “harmonisierende Wirkung” nach Raupp und König kann man mit jedem beliebigen Satz zufällig schwankender Zahlenpaare herbeianalysieren, solange er groß genug ist. Kein Wunder, dass sie nicht nur für Erträge gefunden wurde, sondern auch für die Länge von Halmen, Größe von Blättern oder den Mineralstoffgehalt von Weizenkörnern. Auf einmal klingt die “Reproduzierbarkeit” dieses Effekts gar nicht mehr so beeindruckend, oder?
Die Art, wie eine “harmonisierende Wirkung” biodynamischer Präparate bisher gezeigt wurde, ist also kein bisschen aussagekräftig. Das ändert sich auch nicht dadurch, dass es mehrmals gemacht wurde. Replikation hilft gegen Scheinergebnisse, wie sie z.B durch HARKing zustande kommen. Aber hier ist das Problem nicht HARKing, sondern eine unzulässige Art der Auswertung, mit der völlig normale zufällige Schwankungen wie ein überraschendes Ergebnis aussehen. Replikation ist hier als Gegenmittel wirkungslos, solange man einfach diesen Auswertungsfehler wiederholt.
Wie kann es sein, dass so etwas in der wissenschaftlichen Literatur landet? Naja, genau genommen ist nur eine Version davon in der wissenschaftlichen Literatur gelandet, nämlich das Paper von Raupp und König 1995. Die anderen Beispiele tauchen lediglich an so Stellen wie dem Jahresbericht des Forschungsring e.V. oder in der Demeterzeitschrift Lebendige Erde auf. Aber schlimm genug.
Es gibt mehrere Korrekturmechanismen im Wissenschaftsbetrieb, die so etwas verhindern sollen. Wenn jemand sich z.B. so eine Auswertung für seine Abschlussarbeit ausdenkt, steckt ihm normalerweise seine Betreuerin, dass das so nicht geht. Wenn die das selbst nicht merkt, fliegt es auf, sobald die Daten auf einer wissenschaftlichen Konferenz vorgestellt werden. Da sind die Ergebnisse unzähliger solcher Arbeiten auf Postern zu sehen und Kolleg:innen aus dem Fachgebiet diskutieren darüber. Spätestens wenn jemand mit einem soliden Statistikhintergrund vorbeikommt, wird sie einem – hoffentlich taktvoll – erklären, dass es mit der vorgestellten Analyse Probleme gibt. Passiert auch das nicht, werden die Daten evtl. zur Veröffentlichung in einem wissenschaftlichen Journal eingereicht. Spätestens da sollte den begutachtenden Kolleg:innen im Peer-Review Prozess auffallen, dass hier zufälliges Rauschen als Ergebnis verkauft wird. Wenn nicht einmal das funktioniert, werden andere Kolleg:innen aus der Fachrichtung die Veröffentlichung lesen, die Hände über dem Kopf zusammenschlagen und in einer eigenen Veröffentlichung höflich darlegen, warum sie der Interpretation der werten Autor:innen widersprechen müssen.
Anscheinend ist nichts davon mit der “harmonisierenden Wirkung biodynamischer Präparate” geschehen. Mein Verdacht ist, dass es daran liegt, dass die “wissenschaftlichen Konferenzen” im Feld der Präparateforschung eher so aussehen, dass überzeugte Anthroposoph:innen über “die Beziehung zwischen Erde und Kosmos” referieren. Dass da eine Kollegin mit Statistikhintergrund vorbeikommt und konstruktiv die Auswertung von Forschungsergebnissen kritisiert, scheint mir eher nicht so wahrscheinlich. So eine Kollegin scheint auch nicht unter den ehrenamtlichen Gutachter:innen für das Bioanbau-Journal gewesen zu sein, das 1995 die Arbeit von Raupp und König veröffentlicht hat. Der Peer-Review hat eben seine Schwächen. Und dem gesamten Feld der Präparateforschung scheinen die Probleme dieser Arbeit beim Lesen auch nicht aufgefallen zu sein, so dass jemand in einer eigenen Arbeit eine Einordnung vorgenommen hätte. In 26 Jahren. Ich sach mal so. Das alles wirft kein gutes Bild auf dieses Forschungsfeld.
Nichtsdestotrotz scheint die “harmonisierende Wirkung” unter Anhängern der biodynamischen Landwirtschaft als feststehende Tatsache zu gelten. Demeter e.V. behaupten in einer Broschüre über biodynamische Präparate: “Bei zu viel Nährstoffangebot senken sie die Erntemenge, bei suboptimalen Bedingungen steigern sie Qualität und Ertrag” und auf der Demeter-Website “In erster Linie wirken die Präparate ausgleichend und harmonisierend auf den Pflanzenwuchs.” Auf der vom Forschungsring e.V. betriebenen Website biodynamic-research.net wird die “harmonisierende Wirkung” als “Erklärungsmodell für Präparate-Effekte” beschrieben. Die Uni Kassel leistete sich für sechs Jahre eine Stiftungsprofessur für biodynamische Landwirtschaft in ihrer Außenstelle in Witzenhausen. Kein Witz. Der besagte Professor berichtete in der Demeterzeitschrift “Lebendige Erde”, dass das Konzept der “harmonisierenden Präparatewirkung” für seine Studierenden Lehrinhalt sei. Nicht verwunderlich, dass auch dieser biodynamische Landwirt im Interview voll Überzeugung erklärt, dass die Präparate eine tolle “ausgleichende Wirkung” auf das Pflanzenwachstum hätten.
Es ist eins dieser typischen, aus formalen Gründen schlecht widerlegbaren Konzepte, die man zuhauf in der Pseudowissenschaft findet. Berichtet jemand, dass eine Ernte mit Präparaten besser war? Spitze, Beweis, dass sie wirken! Findet jemand keinen Unterschied? Kein Wunder, seine Wachstumsbedingungen waren anscheinend einfach schon gut genug. Berichtet jemand eine Verschlechterung mit Präparaten? Na klar, seine Bedingungen waren einfach ZU gut! Egal was rauskommt, alles kann mit einer “harmonisierenden Wirkung” wegerklärt werden. Sehr praktisch für Leute, für die vorher schon feststeht, was sie glauben wollen. Eine Alarmglocke für Leute, die wirklich daran interessiert sind, was funktioniert, und was nicht.
Vielen Dank an Juli Tkotz, die lange mit mir über die “harmonisierende Wirkung” in diesem Artikel nachgedacht und diskutiert hat. Sie hat auch dieses super Video zum Phänomen Regression zur Mitte gemacht.