Naukowcy nie rozumieją poziomu istotności i wartości p, prawdopodobieństwa testowego.

Naukowcy nie rozumieją poziomu istotności i wartości p, prawdopodobieństwa testowego.

Opublikowane w ostatnich dniach teksty Polscy myśliwi, kłusujący wilki do potęgi 100.000 powtórzeń!  oraz Naukowcy spod znaku Wilka nie próżnują – giną kolejne wilki. wywołały kilka komentarzy, bardziej lub mniej przyjemnych, m.in. tych o ignorancji autora tych tekstów, dotyczącej setek zabijanych w Polsce, corocznie, wilków. 

Temat Wiarygodność prac naukowych opartych na metodach statystycznych, w tym przypadku pracy na temat mnie interesujący, został mi poniekąd podsunięty serią artykułów w Svenska Dagbladet, z której ostatni, wczorajszy artykuł, tłumaczę poniżej. Autorem jest Henrik Ennart. Artykuł jest wywiadem z profesorem statystyki medycznej, Jonasem Ranstamem, uznanym kilka lat temu za najlepszego recenzenta na świecie przez serwis naukowo-badawczy Publons.

„Jonas Ranstam przejrzał w roku 2016 ponad 6.000 artykułów naukowych i jest to swego rodzaju rekord nie pobity do dzisiaj. On sam nie uważa, że ​​takie tempo przejrzenia (tzw. Peer-review) jest czymś dziwnym. Chce wnieść swój wkład w akademicki system rozwoju nauki i postrzega pracę jako sposób na bycie na bieżąco z najnowszymi osiągnięciami w zakresie rozwoju metod.

Jednym z najczęstszych błędów, jakie napotyka jest fakt że wielu badaczy używa terminów poziomu istotności i wartości p, prawdopodobieństwa testowego, nie rozumiejąc ich znaczenia.

https://pl.wikipedia.org/wiki/Poziom_istotności

(https://pl.wikipedia.org/wiki/Wartość_p)

Jakie są więc najczęstsze błędy, które znajduje? I dlaczego Jonas Ranstam był jednym z 800 statystyków, którzy w apelu opublikowanym w czasopiśmie Nature ostrzegali że powszechne niezrozumienie kluczowych pojęć statystycznych, m.in. poziomu istotności i wartości p, stały się zagrożeniem dla rozwoju nauki? https://www.nature.com/articles/d41586-019-00857-9

Większość ludzi prawdopodobnie rozpoznaje sposób przedstawiania nowych wyników badań. Mówi się wtedy często iże wynik jest statystycznie pewny lub nie.  Statystyki mówią o znaczących lub nieistotnych wynikach i mierzone są one tzw. wartością p, gdzie p oznacza „probability” czyli prawdopodobieństwo. Im niższa jest wartość p, tym większe jest prawdopodobieństwo testowe.

Co o wartości p, prawdopodobieństwie testowym, pisze Amerykańskie Stowarzyszenie Statystyczne (ASA)?

-Wartość P nie wskazuje prawdopodobieństwa zgodności testowanej hipotezy z rzeczywistością. Jest to miara tego, jak dobrze zebrane dane odpowiadają wyjaśniającemu modelowi, który wybrali badacze i który opiera się na ich założeniach. Nie wyklucza to wcale, że mogą istnieć inne modele wyjaśniające.

-Często stosowana jest praktyczna reguła, w której wartość p niższa niż 0,05 zapewnia efekt. Ale wniosek nie staje się nagle prawdziwy lub fałszywy, w zależności od tego, po której stronie fikcyjnej granicy się znajduje.

-Wartość P nie mówi nic o tym, jak silny jest efekt i czy jest on ważny czy nieistotny. Duży efekt może nadal mieć małe znaczenie, jeśli zebrane dane są małe. I odwrotnie, bardzo słaby efekt może być znaczący, jeśli badania są wystarczająco duże.

-Niektórzy badacze przekopują się przez dużą ilość danych w poszukiwaniu korzystnych wartości p, które mogły powstać przez czysty przypadek. Prowadzi to do zalewu fałszywie znaczących wyników w literaturze naukowej.

Równie często dyskutuje się, czy zmiana mieści się w marginesie błędu, np. w sondażach sympatii partyjnych. Margines błędu oznacza tutaj niepewność co do wartości prawdziwej w całej populacji, charakteryzowanej przez  szacunek dokonany na podstawie próby. Niepewność może być większa lub mniejsza w zależności od wielkości badanej próby.

Innymi słowy: nawet wyniki, które mają niskie wartości p, a więc o dobrym prawdopodobieństwie testowym, mogą mieścić się w granicach błędu.

-Poziom istotności jest miarą niepewności.  Sygnalizuje, że jest mało prawdopodobne, aby konkretną obserwację można było wyjaśnić przypadkowymi zbiegami okoliczności, ale nie mówi nic o praktycznym znaczeniu lub biologicznym efekcie obserwacji. Nie oznacza również że ​​niska wartość p (odpowiadająca wysokiemu znaczeniu) ma znaczenie kliniczne, mówi Jonas Ranstam.

(Jest on statystykiem medycznym, stąd określenie „znaczenie kliniczne”, TC)

Statystyczny poziom istotności odnosi się zatem do pytania które brzmi: czy próba badacza może odpowiadać większej populacji, o której chce wiedzieć i powiedzieć więcej. Różne próbki z jednej i tej samej populacji mają często różne cechy. Aby uniknąć nieporozumień dotyczących populacji, z której pobrano próbki, należy uwzględnić te różnice.

Powszechną i praktyczną zasadą jest ta, że wartość p poniżej 0,05 oznacza właściwy statystyczny poziom istotności i oznacza, że ​​wynik ma duże znaczenie, ponieważ nie jest uważany za przypadkowy. Oznacza to w zasadzie, że jeśli eksperyment zostanie powtórzony dokładnie w ten sam sposób, ryzyko fałszywie pozytywnego wyniku jest mniejsze niż w pięciu przypadkach na 100.

Ale istnieją komplikacje.

Przytłaczająca większość lekarzy zajmujących się badaniami nie rozumie takich pojęć, jak statystyczny poziom istotności i związana z tym wartość p.

Hipotetycznym przykładem są badania nad nową szczepionką.  Czy wyniki są wtedy ważne tylko dla konkretnych osób, na których testowano szczepionkę, czy też można wyciągnąć wnioski, które odnoszą się również do wszystkich innych osób, które otrzymają tą szczepionkę?

Według Jonasa Ranstama powszechne są dwa błędy w myśleniu.

-Po pierwsze, poziom istotności miesza się z efektem. Niski efekt może mieć duży poziom istotności a efekt, który może być znaczący, może mieć mały poziom istotności. Zamiast więc prowadzić dalsze badania nad czymś, co może być ważne, ten drugi rodzaj wyników jest często odrzucany jako nie mający żadnego wpływu.  Może to również dotyczyć na przykład przypadków, w których można oczekiwać, że stosunkowo silny efekt zostanie powtórzony w 60 próbach na 100 zamiast w 95 na 100.

– Drugim błędem jest traktowanie braku poziomu istotności jako dowód podobieństwa, jako „brak różnicy”.  Granica 0,05 jest tutaj użyta do opisu wyników w nieodpowiedni sposób. Wręcz przeciwnie, wartość P, która jest narzędziem do interpretacji niepewności, przyczynia się do rozpowszechnienia zamieszania na temat efektów.

Zgodnie z wezwaniem opublikowanym w Nature 2019, które podpisał Jonas Ranstam, błędne przekonania dotyczące poziomu istotności są tak powszechne i poważne, że zakłócają rozwój wiedzy i wprowadzają w błąd decydentów. Eksperci statystyczni z 50 krajów, w liczbie 800 naukowców, którzy podpisali artykuł w Nature, zwracają uwagę, że wielu badaczy w coraz większym stopniu polega na zaawansowanych programach statystycznych, w których różne miary o znaczeniu statystycznym, głównie wartość p, stały się rutynowo używanym miernikiem i wskaźnikiem jakości.

-Od dawna szkolę studentów medycyny i lekarzy w kształceniu podyplomowym z metodologii badań. W praktyce było to często w sumie kilka tygodni szkolenia, co jest zupełnie niewystarczające. Przytłaczająca większość lekarzy zajmujących się badaniami również nie rozumie takich pojęć poziom istotności i jego miary w postaci wartości p, prawdopodobieństwa testowego.

-Zamiast dążyć do jasności i przejrzystości w raportowaniu wyników, opracowano ciężko zrozumiały zawodowy żargon, przykrywający brak substancji treściowej jak liście figowe i oparty na źle rozumianej terminologii statystycznej. Pogląd, że istotność kliniczną można obiektywnie i łatwo określić za pomocą obliczeń statystycznych, może wydawać się atrakcyjny, ale rozumowanie jest zasadniczo błędne.  Postęp naukowy wymaga znacznie więcej niż licencji i umiejętności obsługiwania programów statystycznych, mówi prof. Jonas Ranstam. 

Jednym z powodów, dla których tak wiele uwagi poświęcono poziomowi istotności jest fakt że ​​dość łatwo jest użyć komputera do obliczenia wartości p. To jest prostsza i krótsza droga niż metodyczne postępowanie w tradycyjny sposób badawczy.

– Wartości P i statystyczny poziom istotności zaczęły zatem odgrywać coraz większą rolę w sytuacjach,  przy których obserwacje są uważane za ważne. Jednocześnie brak wartości zaczął być postrzegany jako dowód podobieństwa, brak efektu. Na przykład bardzo często zdarza się, że potencjalnie ważne, ale statystycznie nieistotne różnice są zgłaszane jako „nie ma różnicy”.

Według niego podobny rozwój napędzany jest tym, że badacze odczuwają nieustanną presję publikowania. Wtedy łatwym pójściem na skróty może być odkurzenie materiału w poszukiwaniu powiązań, które są statystycznie istotne, a następnie przygotowanie wyjaśnienia obserwacji.

Takie oszustwa noszą nazwę HARKing, co oznacza Hipotezowanie po znaniu wyników, Hypothesizing After the Results are Known https://pl.wikipedia.org/wiki/HARKing

-Publikacje naukowe to droga do sukcesu, sławy i kariery. Można więc przypuszczać, że autorzy będą mieli tendencję do niedoceniania niepewności swoich ustaleń i przeceniania ich znaczenia. Ale o wiele większym problemem są ogólne nieporozumienia metodologiczne, które z biegiem czasu nie tylko się pojawiły, ale także zostały zinstytucjonalizowane, uważa Jonas Ranstam.”

To był artykuł ze Svenska Dagbladet, który, podobnie jak i kilka innych przestudiowałem w celu przynajmniej lekkiego złagodzenia mej naukowej ignorancji.
Powracając do omówień kontrowersyjnej według mnie pracy naukowej,
to zdecydowanie przychylam się słów Jonasa Ranstama i chciałbym aby autorzy tej i podobnych prac opierali swoje naukowe wnioski na tradycyjnej metodyce badań, np. przedstawienia dowodów w postaci próbek z DNA skłusowanych wilków a nie na umiejętności stosowania programów statystycznych.

Bo oskarżenie tysięcy ludzi o przestępstwo musi być oparte na twardych dowodach a nie na statystycznym poziomie istotności.

Źródło: https://www.svd.se/toppgranskare-forskare-forstar-inte-signifikans

Zdjęcie: dreamstimes

Jedna myśl na temat “Naukowcy nie rozumieją poziomu istotności i wartości p, prawdopodobieństwa testowego.

  1. Na życzenie jednego z naukowców wymienionych w sportowej tabeli wysiłku aktywistów naukowych na polu wilczym, zamieszczam korektę mego tekstu:
    „Bo oskarżenie tysięcy ludzi o przestępstwo musi być oparte na twardych dowodach a nie na kryterium wyboru pomiędzy modelami statystycznymi o różnej liczbie predyktorów zaproponowane przez Hirotugu Akaikego.”

Dodaj komentarz