42 - Ist wissenschaftliche Evidenz das Nonplusultra?/Is Scientific Evidence All That Counts? Beyond Training Webcast Episode 6! präsentiert Katharina Schüller/STAT-UP

Hintergrund

Der Gesundheits- und Fitnessmarkt ist dicht gespickt mit Methoden, Programmen, Behandlungen, Protokollen - was wundervoll ist, denn es gibt jedem von uns die Chance, diagnostisch, therapeutisch und bewegend einen sehr individuellen und für sich passenden Weg zu beschreiten. Aber kann man sich wirklich sicher sein, dass diese Wege funktionieren? Dass sie die Ergebnisse bewirken, die sie versprechen? Und vor allem: Wie kann man es herausfinden?

Als Nonplusutra, als "Beweis" wird am Ende meist eine gut gemeinte Objektivierung herangezogen: Die wissenschaftliche Evidenz.

Und so hat sich in der öffentlichen Wahrnehmung, in Diskussionen auf sozialen Medien eine Art Mantra herausgebildet: Eine Trainings- oder Behandlungsmethode ist dann gut/ernstzunehmen/begütesiegelt, wenn sie wissenschaftlich überprüft ist und dabei ein positives Ergebnis herausgekommen ist. Alles was nicht erforscht ist, hängt dagegen nahe an der Scharlatanerie.

Ich habe bereits letztes Jahr darüber geschrieben, warum diese Vereinfachung problematisch ist. Wie schwierig es ist, in den Gesundheits- und Trainingwissenschaften Studien zu designen, die den akzeptierten Qualitätskriterien entsprechen. Wie durchgehend Studien zu widersprüchlichen Ergebnissen kommen, weil die Effekte sehr klein sind. Wie nicht-trivial der Schluss von Studie zu Einzelfall ist.

Das Thema liegt mir weiterhin im Herzen - weil ich die Wissenschaft als große Bereicherung schätze, und gleichzeitig mich immer wieder schüttele, wenn ich sehe, wie ihre Aussagekraft missverständlich herangezogen wird. Wie wissenschaftliche Ergebnisse aufgebauscht werden, wenn sie einem gerade in den Kram passen; und wie vieles, was (noch) nicht in den Fokus der Wissenschaft gerückt ist, oder finanziell nicht lukrativ genug ist, pauschal übersehen wird, obwohl es möglicherweise etablierten Methoden überlegen ist.

Ich finde es wichtig, sich immer wieder klar zu machen, was Wissenschaft kann und was sie nicht kann. Auch wenn man selbst wissenschaftlich ausgebildet ist oder in der Wissenschaft arbeitet. Als Physikerin habe ich ein sehr rigoroses Training im wissenschaftlichen Denken bekommen - und trotzdem profitiere auch ich immer wieder davon, diese Möglichkeiten und Grenzen zu reflektieren.

Und diesmal habe ich mir die passendste Gesprächspartnerin ausgesucht, die ich mir für dieses Thema vorstellen kann. Katharina Schüller ist Geschäftsführerin von STAT-UP, einem Unternehmen, dass nichts anderes macht als Daten auszuwerten und mit Hilfe statistischer Modelle herauszufinden, ob eine Hypothese sich bestätigen lässt oder nicht doch alles nur Zufall ist. Katharina und mich verbindet eine Ausbildung an der Bayerischen Eliteakademie, in deren Alumniverein sie sich nach wie vor engagiert. Die 38-jährige vierfache Mutter hat STAT-UP 2003 gegründet und ist mittlerweile an mehreren Standorten in Europa vertreten. Sie hält diverse Lehraufträge und ist Statistikerin des Hauses bei DRadio Wissen.

Vorhang auf - hier ist Katharina (für Video, Zusammenfassung und Links bitte nach unten scrollen):

Background

The health and fitness industry is packed with methods, programs, treatments, protocols - which is great, as it gives everyone of us the chance to find their unique therapeutic, diagnostic and movement path in a way that suits our individual needs. But how can we be sure that all these treatment and training methods really work? Will they really give me the expected results? And how can I find out?

Often, the last resort for these question, the ultimate "proof" and irrevocable objectivity is assumed to be - Scientific Evidence.

So when you look at public perception, or discussions in social media, there seems to be an underlying mantra: That a training or treatment method is only to be taken serious if scientific evidence for its effectiveness exists; and if there is none, then the implication is that the method must be close to purely bogus.

I've already explained how this reduction is quite problematic. How difficult it is to design health and training intervention studies that comply with accepted quality standards. How results for one and the same topic can be contradictive and ambigous due to the small magnitude of effects. Why there is a difference between looking at study results and a method's effects on an individual person.

This whole topic continues to stir me - I deeply appreciate the scientific method as an important tool on the path to growing cognition, while i cringe when I see its explanatory power misapplied to misleading conclusions. When scientific results are reframed and overstated - just to impress. Or when the lack of evidence is inapproprately deployed to discredit a method/intervention that is actually superior to established ones.

I think it is important to occasionally revisit what science can do for us - and where it has its limitations. Even though, as a physicist, I am rigorously scientifically trained I feel that I still benefit from this recurrent clarification process.

And this time, I have found myself THE perfect discussion partner for this topic. Katharina Schüller is owner and CEO of STAT-UP, a company that does nothing else than trying to confirm or reject scientific hypotheses by statistically evaluating a given set of data. Katharina and I originally met many years ago at the alumni association of the Bavarian Elite Academy where she continues to contribute as a Board member. The 38-year-old mother of four founded STAT-UP in 2003 and has expanded the company's presence to several other locations in Europe. She teaches at different colleges and universties in Germany and is the go-to-statistician for German radio station DRadio Wissen.

Please give a warm welcome to Katharina (scroll down for an English summary and links below):

Zusammenfassung

Katharina und ich sind beide wissenschaftlich ausgebildet; bei mir war es Physik - ich habe mich aber im Grunde immer um die Statistik herumdrücken können, weil ich in die Theoretische Physik gegangen bin, und muss zugeben, dass das immer ein Thema war, was mir nicht ganz einfach gefallen ist. Deswegen bin ich immer froh, dass es Leute wie sie gibt, die an dieser Stelle erst aufblühen. Ich frage Katharina, wie sie zu diesem Thema gekommen ist.

Das kam im Psychologiestudium, als sie es zum ersten Mal so richtig brauchte - und irgendwann fand sie es wahnsinnig spannend. Wir besprechen, dass Statistik - als Anwendung der Mathematik - ein eigenständiges Fach ist, das man studieren und mit Diplom bzw Master abschließen kann.

Einstieg ins Thema: Ich erwähne meine berufliche Laufbahn durch den Leistungssport (Training/Diagnostik), später den alternative Gesundheitsbereich; dass diese Bereiche voll sind mit Trainingsweisen, Tests, Behandlungsmethoden - dass es letztlich immer darum geht, ob/wie gut etwas funktioniert. Und dass dafür gerne wissenschaftliche Evidenz als das Nonplusultra herangezogen wird. Ich frage Katharina, ob sie das als berechtigt sieht.

Ja, klar - ABER: Soll keine Spaltung sein zwischen wissenschaftlich = gut und nicht wissenschaftlich = schlecht. Was bedeutet überhaupt wissenschaftlich? Es geht um Beobachtungen, Muster; man bemerkt etwas, was einem außergewöhnlich vorkommt und formuliert eine Hypothese. Diese Hypothese wird dann überprüft - dadurch, dass man Daten erhebt, auswertet und schaut, ob man die Hypothese damit bestätigen kann. Dann kann man die Hypothese beibehalten oder verwerfen. Je öfter ich sie bestätigen kann, desto gesicherter ist meine Erkenntnis. Daher macht ein wissenschaftliches Vorgehen immer Sinn - es ist nichts anderes als ein Erkenntnisprozess. Der große Knackpunkt: Was ist wirklich systematischer Zusammenhang und was davon ist Zufall - da fangen die Probleme und Herausforderungen an.

Wieviel Formalismus braucht denn Wissenschaft? Also braucht es Universitäten, Doppelblindversuche - oder kann ich als Anwender auch selbst Daten sammeln?

Katharina beschreibt ihr Grundverständnis von Wissenschaft: Die Einstellung zu den Daten, die man sammelt - insbesondere die Unvoreingenommenheit bzgl der Auswertungsergebnisse. Sie verweist auf die Arbeit von Karl Popper - man versucht also immer wieder, die eigenen Hypothesen zu widerlegen. Wenn sie sich als stabil genug erweisen, dann kann man sie irgendwann akzeptieren. Was aber häufig passiert, ist dass man von vornerein gewisse Überzeugungen/Annahmen hat und damit die Datensammlung verzerrt. Das ist keine Wissenschaft - es fehlt das neutrale Herangehen an die Überprüfung. Ich muss immer wieder fragen, könnte es nicht auch anders sein, gibt es nicht vielleicht auch eine andere Erklärung?

Wie oft muss ich denn abklopfen?

Strenggenommen ein Mal...es gibt im Grunde keine Faustregel; denn es hängt davon ab, wie groß/bedeutsam ein Effekt ist. Beispiel: Die Wirkung von Apfelkonsum auf die Wahrscheinlichkeit, an Krebs zu erkranken. D.h. wenn man jeden Tag einen Apfel ist, dann ist die Wahrscheinlichkeit an Krebs zu erkranken, um 1% verringert. Wenn man nun Stichprobengrößen von ca 30-50 Personen untersucht, dann findet man bei 10.000 Untersuchungen 520, die die positive Wirkung bestätigen; bei 480 dagegen könnte der Effekt genau andersherum sein. Und das heißt dann immer noch nicht, dass der Zusammenhang siginifikant ist, sondern nur, dass er in die richtige Richtung zeigt. Und das sieht man tatsächlich - im Grunde kann man für jedes Lebensmittel etwa gleich viele Studien finden, die aussagen, dass es vor Krebs schützt wie dass es das nicht tut.

Was soll man dann daraus schließen?

Katharina schlägt folgende Interpretation vor: Selbst wenn ein Zusammenhang da ist, ist er so klein, dass er für mich, v.a. im Einzelfall, keine Rolle spielt.

Auf welche Qualitätskriterien sollte man beim Lesen von Studien-Veröffentlichungen schauen, damit man sie überhaupt ernst nehmen kann?

Prospektiv [Anmerkung Patricia: heißt, dass Daten mit Beginn der Studie erhoben werden; retrospektiv wäre, wenn bereits vorhandene Daten nachträglich untersucht werden.], Kontrollgruppe [Anmerkung Patricia: Das ist die Vergleichsgruppe, die keine Intervention (sondern ein Placebo) bekommt.], verblindet (idealerweise doppel-verblindet). Probleme: 1) Doppelblind [Anmerkung Patricia: "Doppelblind" bedeutet, dass weder der Proband noch der Studienleiter bei der Durchführung der Behandlung/Intervention wissen, wer die eigentliche Anwendung und wer ein Placebo bekommt. Damit will man ausschließen, dass das Wissen/Glaube um die Behandlung eine Rolle spielt.] ist in therapeutischen und trainingswissenschaftlichen Zusammenhängen schwierig, da man ja merkt, was man macht oder wie man behandelt wird. 2) Häufig hat man retrospektive Studien - die schwierig auszuwerten sind, da Effekte mit anderen Hintergründen vermischt sein können (Beispiel: Ein Glas Wein pro Tag). 3) Sind die Gruppen (Interventions-/Kontrollgruppe) wirklich vergleichbar? (Beispiel: Barfußlaufen)
Man muss aber auch einräumen, dass solche "nicht perfekten" Studien explorativ sein können, d.h. dabei helfen können, überhaupt eine Hypothese zu formulieren.

Kann man als Laie heutzutage in Papers beschriebene statistische Modelle überhaupt noch nachvollziehen?

Schwierig, da ja auch die Statistik eine Wissenschaft ist, die sich kontinuierlich weiterentwickelt. Aber - Katharina findet, dass nicht die Modelle das Problem sind, sondern eher die Datenerhebung an sich schon problematisch sein kann. Dass sie z.B. die zu untersuchende Population nicht ausreichend repräsentiert.

Wie kann ich das erkennen?

Klassisches Beispiel: "Wurde untersucht an einer Gruppe von Studenten der Universität X" - dann ist es nicht unbedingt verallgemeinerbar.

Nochmal zurück zu eigenen Explorationen: Wie ist es, wenn ich als Therapeut/Praktizierender/Coach selbst Daten sammeln will, um z.B eine erste explorative Studie zu erstellen. Brauche ich dafür akademische Partner, kann ich das selber machen, was muss ich beachten?

Sich selbst fragen - bin ich in der Lage, neutrale Daten zu sammeln? Z.B. kann schon die Überzeugung von Klienten, dass die Methode ihnen helfen kann, verzerren. Oder man muss beachten, dass nicht die Methode an sich den Effekt hat, sondern einfach die Beziehung zwischen Therapeuten und Klienten, oder die Zeit, die sich der Therapeut nimmt, oder eine Berührung an sich schon Effekte auslösen kann. Was ja nicht schlecht ist - am Ende könnte man sagen "wer heilt hat recht" - daher ist die Frage, ob man solche Effekte unbedingt stabil wissenschaftlich belegen muss (außer, wenn man aus formalen Gründen, z.B. Kassenzulassung, solch einen Nachweis braucht). Die Frage ist dann auch - ist der (sehr große) Aufwand es wirklich wert? Wichtig: Nur weil eine Methode nicht wissenschaftlich untersucht ist, kann sie trotzdem sehr wohl wirksam sein. Außerdem spielen andere Faktoren auch eine Rolle, z.B Qualifikation des Therapeuten, und schließlich erlaubt ein wissenschaftliches Ergebnis auch nur bedingt einen Schluss auf den Einzelfall.

Wie sind Studien einzuschätzen, die von Berufs-/Interessenverbänden (z.B. Rofling-Verband, Osteopathie-Verband etc) angestoßen werden?

Ja, das Risiko eines Interessenskonfltiktes ist natürlich schon da - gerade hochrangige Journals wollen daher immer auch eine genaue Offenlegung potentieller Interessenskonflikte. Außerdem besteht auch hier wieder das Risiko, dass das die Probanden der Intervention von vornerein zugewandt/überzeugt sind, und damit das Ergebnis nicht repräsentativ für die eigentliche Population ist.

Aber lässt sich dieser Glaube so einfach bestimmen?

Man kann zumindest versuchen, das Interesse und die Beziehung zur Methode abzufragen und als erklärende Variable ins statistische Modell mit hineinzunehmen - d.h. es am Ende als zum Behandlungsergbnis beitragend herausrechnen.

Wie ist es für Katharina persönlich - spielt wissenschaftliche Evidenz eine Rolle, wenn sie sich Trainings- oder Behandlungsmethoden aussucht?

Liest Ergebnisse interessiert - ABER, hier ist noch ein Punkt: Was wird eigentlich überhaupt publiziert? Die veröffentlichten Studien reflektieren nämlich NICHT die Realität der Studien, die gemacht werden. Denn es werden deutlich mehr Studien eingereicht und publiziert, die auf einen positiven Zusammenhang kommen als solche, die solch einen Zusammenhang nicht finden ("Publication Bias"). Beschreibung p-Wert/Irrtumswahrscheinlichkeit. D.h. selbst wenn es statistisch gesehen keinen Effekt gibt, kann trotzdem eine Studie mit einer gewissen (Irrtums-)Wahrscheinlichkeit einen Effekt finden - und nur diese Studie wird dann publiziert, alle anderen nicht.

Wenn sie sich für eine sportliche oder Ernährungsmethode entscheidet, dann ist das entscheidende Kriterium daher: Fühlt es sich für meinen Körper gut an.
D.h. die Ergebnisse mehr als Inspiration/eine zusätzliche Informationsquelle denn als alleiniges Entscheidungskriterium.
Was für Katharina vor allem auch interessant ist: Gibt es eine Erklärung für das Warum eines Effektes? D.h von der Korrelation auf die Kausalität kommen. Auf der anderen Seite: "Schlagzeilen"-Nachrichten über sensationelle wissenschaftliche Erkenntnisse sollten von vornerein skeptisch machen.

Wie wertvoll sind Einzelfallanalysen und anekdotische Evidenz?

Katharina sieht in ihnen wissenschaftliche Anstoße, Impulse. Außerdem gibt es Situationen, z.B. sehr seltene Krankheiten, die gar keine ausreichend großen Gruppen hergeben, und die nur am Einzelfall erforscht werden können. Außerdem sind Einzelfälle immer der Beginn größerer Erkenntnisse. "Der große Fortschritt kommt immer aus Einzelfällen." (Diskutierte Beispiele: Helen Keller, Fälle aus der Gehirnforschung)

Warum ist dieser Ruf nach wissenschaftlichen Belegen eigentlich so stark?

Es hat vielleicht damit zu tun, dass Menschen Ungewissheit schlecht aushalten. Und dass die mittlerweile sehr umfangreichen statistischen Werkzeuge ein Gefühl von Berechenbarkeit geben, dass man also alles einfach ausrechnen kann und entscheiden kann was richtig und falsch ist. Aber das ist einfach nicht so. Eine gewisse Unsicherheit bleibt, und man muss trotzdem, z.B. als Arzt, oder Unternehmer, eine Entscheidung treffen. Es ist nicht einfach, sich diese Unsicherheiten einzugestehen.
D.h. ein Versuch, Halt zu finden, Sicherheit zu suchen....

Konkret, wenn also ein Arzt eine therapeutische Empfehlung geben sollte, dann sollte wissenschaftliche Evidenz nur ein Kriterium sein - seine Erfahrung und das Bauchgefühl im konkreten Einzelfall genauso viel ausmachen.

Ja, das macht für Katharina einen guten Arzt aus. Wobei viele Ärzte sich einfach absichern wollen - und dabei dann leicht sich auf den wissenschaftlichen Standpunkt zurückziehen.

Wie sehr kann man eigentlich generell Studien und Daten vertrauen - bei immer wieder bekannt gewordenen Manipulationsvorwürfen etc - gibt es eine Art Gradmesser dafür, wie weitreichend ein nachlässiger oder bewusst täuschender Umgang mit Daten ist?

Nein - das weiß man nicht. Abhilfe könnte vielleicht zukünftige Offenlegung aller Daten schaffen, was bestimmte Kommunen bereits beginnen. Bisher war der Ruf danach noch nicht wirklich laut. Die Frage ist nur, wie gewissenhaft ist dann die Auswertung, oder sind dann die Daten-generierenden Stellen nur noch mit Richtigstellungen beschäftigt. Bleibt abzuwarten, was die Zukunft bringt.

Ich wünsche Katharina weiterhin viel Erfolg für ihre zukunftsweisende Arbeit und bedanke mich für das Gespräch.

Summary

Katharina and I are both originally trained as scientists; but while I managed to get around statistics as much as I could by turning to theoretical physics during my university years and always struggled with it - Katharina is the kind of person to get excited about it. I ask her how she originally got involved in this area.

It actually started while she was a graduate student in psychology. She realized how much she depended on statistical evaluations, and at some point she got really hooked. We discuss that statistics is in fact an area and a degree seperate from general mathematics.

On topic: I start by refering to my background in high performance sports (training/diagnostics) and then later the complementary health industry. All these fields have their huge bowls of training methods, assessments, treatments - and the big question is, how well do they work? Often, scientific evidence is seen as the ultimate answer to this question. I ask Katharina whether this is justified.

Of course, BUT: She does not want to imply a dividing line between "scientific = good" and "no scientific evidence = bad" here. She starts by reminding of the actual scientific essence: You start by observing, noticing something unusual, and forming a hypothesis. You then proceed to test the hypothesis by measurements, evaluating the measured data and checking whether it confirms your hypothesis or not. The more often it is confirmed, the better you're off. So therefore, a scientific approach to anything makes total sense, as it is basically a structured cognition process. The crux of the matter: How do you ensure that you really found a systematic pattern - and not just a chance observation? That's where the scientific challenge beginns.

So where does science actually start? Do you need universities, complex double-blind studies - or can anyone just start gathering data?

Katharina explains her basic understanding of this: It has a lot to do how you relate to your data - you have to be unbiased towards it. She refers to Karl Popper - basically it's always about trying to reject your hypothesis. If it "survives" often enough, then at some point you have a good enough basis for accepting it. But what often happens in reality is that people have their preconcpetions that skew the collection and evaluation of data. That's not the scientific way - you need to remain neutral and unfettered from expectations. You need to keep asking: Could there be a different explanation to what I am investigating?

How often do I need to test until I can be sufficiently confident that my hypothesis is valid?

Essentially, just once....but it depends on the magnitude of the effect, and there is no rule of thumb for that. Let's take the consumption of apples and its effect on cancer prevention. The magnitude of the effect is around 1% - i.e. if you eat an apple per day, your likelihood of getting cancer is reduced by 1%. So if you work with sample sizes of 30-50 people - in about 10.000 studies you may get 520 where the effect is confirmed, while in 480 it looks more like the opposite. And then all you know that it points in the right direction, not whether it is truly significant. And that is the reason behind the fact that for any kind of food, you can find an equal number of studies suggesting that it prevents cancer - and that it does not.

So what do you learn from that?

Katharina suggest the following interpretation: Even if there is evidence for a positive effect - the effect is so small that you don't have to be concerned with it - it won't make a noticable difference for you.

How can you see from a paper if a study is of good quality and has relevance for the respective field?

It should be prospective [Comment Patricia: means that data is collecte at the on-set of the study vs retrospective, where previously gathered data is investigated], there needs to be a control group [comment Patricia: that's the group that you're comparing to, which does not get the intervention (instead a placebo if possible)], blinded (ideally double-blind). Problems: 1) Double-blind [Comment Patricia: "Double-blind" refers to a study design where neither study participant nor study administerer know who gets the intervention and who the placebo. This is done to avoid effects that stem from participants' attitudes/interest towards the intervention.] is quite impossible in the field of therapeutic and exercise science, as people see/feel what they get. 2) There is an abundance of retrospective studies - where you evaluate data that has been collected for other purposes in the past - and where unknown parameters can mix into your results (example: benefits of drinking red wine). 3) Intervention and control group cannot be matched properly (example: barefoot running).
But that does not mean that lower-quality studies are useless - they can serve an explorative purpose in order to come up with a useful hypthesis to start from.

When reading scientific papers - can a layperson actually sufficiently comprehend today's statistical models that are employed for data evalutation?

It's difficult, as statistics is in itself a field of science that is continously evolving. But Katharina thinks that the models are not really the problem - it's assessing whether the data was collected properly in the first place. Often it does not represent the targeted population sufficiently.

How can I see that?

Classic example: "was collected from University X graduate students" - there is no chance that you can generalize findings from such a study.

Back to DIY-explorations: If I, as a practitioner, coach etc plan on collecting data from my clients in order to explore a specific relationship of my work - do I need to team up with universities or some kind of academic institutions? If I do it by myself, what do I need to conisder?

You need to ask yourself - am I able to collect neutral data? E.g.: Your clients are most likely in favor of your work - so their general attitudes may be enough to skew the data. Or you need to consider that it's not your method that accounts for the effect - but rather your relationship with your clients, your attention, your touch (in manual methods). Which is not wrong - whatever works, works! - but then the question is, does it really make sense to go through the huge effort of a thorough scientific investigation. Just because a method, protocol, treatment is not scientifically evaluated does not make it worse or any less effective. Plus there are other factors that might contribute to a large extent, like the practitioner's education and experience. Last, even if scientific evidence DOES exist - it may not "transfer" to an individual.

How about research efforts that are initiated by interest groups and/or complementary method training associations (e.g. Rolfing Association, Osteopathy schools etc)?

There is a definite risk of a conflict of interest - therefore, high-ranked peer-reviewed journals always require the disclosure of potential conflicts of interest that may influence the study's results. Again there is a good chance that study participants are favorable towards certain outcomes and may thus not be representative of a larger population.

How can you assess this kind of attitude/expectations of outcomes?

You can at least try to assess it through a questionnaire and then include it in your statistical model. This way you can subtract it as an influencing factor on intervention outcomes.

What is Katharina's personal approach to choosing what she does/tries in the field of athletics and health - does she consider scientific evidence?

She does read them with a certain interest and curiosity - BUT, here is another big limitation to this which we haven't talked about yet: What exactly is being published? By far not everything: Studies that confirm a positive effect on something are more likely to be submitted and published than those which did not find one ("publication bias"). Katharina explains p-value/level of significance. From which follows: Even if something does NOT have an effect, there is a certain probability that one study does find an effect due to statistical error. And then this one study gets published, while all the others do not. So publications can be a source of inspiration and information, but in the end the question is - how does my body respond to something, how does it feel. One other thing, when she reads about research findings: Do the authors try to come up with an explanation for the effect? So crossing from correlation to causality is where things get really interesting. On the other side: Big head-lines about ground-breaking research should always make you skeptical.

How valuable are case studies and anecdotal evidence?

Katharina qualifies them as scientific triggers for further research, first ideas. Plus there are always very rare health/body occurrences that do not allow for a large enough data gathering. Often, single case studies and trials are the start for bigger insights and learnings. "Large progress always emerges from single cases." (Examples: Helen Keller, case studies from neural research)

Why is there such a loud call for scientific "proof"?

She speculates that it may have to do with people's inability to deal with uncertainty. And because of all the progress, it looks like everything can be determined and computed. But the truth is it can't. There will always be an element of not knowing, and people have to make decisions despite it. It's hard to acknowledge and accept this last bit of indetermination. So it probably has a lot to do with finding orientation and holding on to what can be measured and evaluated.

So if a physician is trying to decide on a treatment plan, then scientific evidence should be just one factor - his experience and his intuition in each case should be worth just as much.

Exactly, that's what a good doctor is to her. We discuss how many doctors prefer to play it safe, though - and retreat to the scientific evidence as a way of objectifying/deferring their responsibility.

How reliable are studies and data in general? There have been cases of data manipulation in the past - is there any kind of indicator for how much we can actually trust what we get/read?

Not really. This may change if all/raw data has to be made publicly available in the future, which some municipalities in Germany have already begung. There is increasing lobby for that. But then the question is how scrutinity is ensured when others are using the data so that the data providers are not continously dealing with revisions and corrections. Only the future will tell.

I give Katharina my best wishes for her important work and thank her for our conversation.

Links

Katharinas Unternehmen STAT-UP online: http://stat-up.de/

Informationen zum Falsifikationismus von Karl Popper auf Wikipedia: https://de.wikipedia.org/wiki/Falsifikationismus (English: https://en.wikipedia.org/wiki/Falsifiability)

Katharinas im Dezember erscheinendes Buch "Statistik und Intuition: Alltagsbeispiele kritisch hinterfragt": http://www.amazon.de/Statistik-Intuition-Alltagsbeispiele-kritisch-hinterfragt/dp/3662478471/

Informationen samt Bibliografie von Helen Keller auf Wikipedia: https://de.wikipedia.org/wiki/Helen_Keller (English: https://en.wikipedia.org/wiki/Helen_Keller)

Einzelfälle, anekdotische Evidenz und Forschungsübersicht zur Neuroplasitzität (Veränderbarkeit des Gehirns) finden sich in brillianter Weise in Norman Doidges Bücher "The Brain That Changes Itself" (gibt es auch auf Deutsch) und "The Brain's Way of Healing"