Czy można otrzymać sprzeczne wyniki używając tych samych danych?

CZY MOŻNA OTRZYMAĆ SPRZECZNE WYNIKI UŻYWAJĄC TYCH SAMYCH DANYCH?

Słowa kluczowe: błędy poznawcze, statystyka, metodologia, percepcja społeczna, crowdsourcing.

ABSTRAKT

W eksperymencie przeprowadzonym przez Silberzahn i współpracowników (2018), dwadzieścia dziewięć grup badawczych na podstawie jednakowej bazy danych miało za zadanie odpowiedzieć na jedno pytanie: „Czy sędziowie piłkarscy są skłonni częściej dawać czerwone kartki ciemnoskórym graczom niż jasnoskórym”? Okazało się, że analizy naukowców prowadziły do różnych wniosków, a niektóre z nich przeczyły sobie nawzajem.

PONAD POŁOWA BADAŃ DO KOSZA

Czy zauważyliście, że wyniki badań dotyczących tego samego zjawiska mogą się od siebie różnić? Najbardziej wyrazistym przykładem jest „Reproducibility Project”, którego autorzy obrali za cel replikację stu badań psychologicznych (Nosek i in., 2015). Okazało się, że jedynie w przypadku 36% z nich udało się uzyskać wyniki zbliżone do oryginału. Z czego to wynika? Jednym z powodów może być efekt Rosenthala, czyli zjawisko polegające na tym, że wyniki przeprowadzonych badań często bywają zgodne z pierwotnymi oczekiwaniami eksperymentatora (Martin, McIntyre, 1994). Teoretycznie nie ma w tym nic dziwnego, ponieważ stawiając hipotezy opieramy się z reguły na poprzednich badaniach i teoriach, jednak w praktyce możemy wpaść w pułapkę błędu konfirmacji, czyli tendencji do preferowania informacji potwierdzających wcześniejsze założenia (Plous, 1993). Za rozbieżności w badaniach mogą odpowiadać także zróżnicowane metody oraz narzędzia wykorzystywane przez badaczy, czy też niejednakowy dobór próby. Jednak co najważniejsze, dysproporcje dotyczące wyników powstają także wtedy, gdy naukowcy analizują identyczne dane! I właśnie temu zjawisku przyjrzymy się dzisiaj bliżej.

NAUKOWCY W ROLI KRÓLIKÓW DOŚWIADCZALNYCH

W badaniu przeprowadzonym przez Silberzahn i współpracowników (2018) wzięło udział 29 grup badawczych składających się z 61 naukowców z 13 różnych krajów, reprezentujących różne dziedziny nauki oraz tytuły naukowe. Ich zadaniem było udzielenie odpowiedzi na pytanie: „Czy sędziowie piłkarscy są skłonni częściej dawać czerwone kartki ciemnoskórym graczom niż jasnoskórym”? W tym celu naukowcy musieli przeprowadzić rzetelną analizę statystyczną. Każdy zespół badawczy otrzymał identyczne dane dotyczące piłkarzy z ligi angielskiej, niemieckiej, francuskiej oraz hiszpańskiej z sezonu 2012/2013. Informacje o zawodnikach dotyczyły danych demograficznych, koloru skóry, liczby żółtych kartek otrzymanych na przestrzeni całej kariery oraz liczby interakcji z sędziami.

W opisywanym eksperymencie występowało wiele czynników mogących wpłynąć bezpośrednio lub pośrednio na wyniki badania, takich jak staż pracy sędziów, pozycja zawodników na boisku, relacja sędziego z różnymi zawodnikami czy też zróżnicowana częstotliwość rozdawania kartek zależna od samej osoby sędziego oraz ligi piłkarskiej. Ponadto, percepcja społeczna naukowców mogła obudzić w nich przypuszczenia, że gracze o ciemniejszej karnacji otrzymali więcej czerwonych kartek (Hugenberg, Bodenhausen, 2003). Przykładem ilustrującym opisane zjawisko mogą być społeczności, w których osoby białoskóre są kojarzone z pięknem oraz wysokim statusem (Maddox, Chase, 2004; Sidanius, Pena, Sawyer, 2001), nie wspominając już o rasizmie, mogącym oddziaływać na częstotliwość pokazywanych kartek wobec dyskryminowanej grupy (Kim, King, 2014; Price, Wolfers, 2010). Czy wszystkie zespoły badawcze wzięły pod uwagę jednakowe czynniki? Odpowiedź raczej nasuwa się sama.

KTÓRY ZESPÓŁ WYKONAŁ ANALIZĘ NIEPOPRAWNIE?

Chcąc uniknąć skomplikowanej terminologii oraz trudnych w interpretacji wartości statystycznych zdecydowałem, że pominę szczegółową analizę wyników. Pasjonaci mogą się z nią zapoznać w artykule źródłowym, natomiast tutaj postaram się opisać wykazane zależności i ogólne wnioski.

Praca naukowców rozpoczęła się od wewnętrznych decyzji związanych z wyborem odpowiednich metod statystycznych oraz zmiennych mogących istotnie wpływać na poprawność dokonywanej analizy. Następnie, każda z grup badawczych miała za zadanie zapoznać się z metodami wykorzystanymi przez inne zespoły, nie widząc jednak żadnych wyników oraz dodatkowych informacji. Dzięki temu każdy z zespołów, w przypadku pominięcia niektórych czynników, mógł poprawić swoją strategię analityczną.

UWAGA: przypominam, że badacze korzystali z identycznej bazy danych! Mimo to zdarzyła się sytuacja, w której otrzymane wyniki okazały się być ze sobą sprzeczne.

Na podstawie jednej z analiz wykazano, że piłkarze z ciemną karnacją rzadziej niż osoby o jasnej karnacji otrzymywali czerwone kartki. Były to niewielkie, aczkolwiek zauważalne różnice. Wyniki innej ujawniły natomiast odwrotną zależność: zawodnicy z ciemną karnacją czerwony kartonik oglądali częściej, niż osoby o jasnej karnacji. W tym przypadku różnice między grupami były umiarkowane.

Co więcej, 20 zespołów badawczych wykazało istotną różnicę pomiędzy liczbą kartek rozdawanych ciemnoskórym oraz jasnoskórym zawodnikom (ciemnoskórzy otrzymali więcej czerwonych kartoników), natomiast pozostałe 9 zespołów nie wykazało istotności statystycznej (różnice między dwoma grupami nie były wystarczająco duże). Zobrazujmy to wykorzystując procenty: jeśli pojedynczy, wybrany losowo zespół przeprowadziłby analizę przy pomocy tego samego zestawu danych, to istniałoby 69-procentowe prawdopodobieństwo, że różnica byłaby istotna i 31-procentowe prawdopodobieństwo, że byłaby nieistotna. Na potrzeby artykułu bardzo uprościłem pojęcie istotności, jednak jeśli chcielibyście poznać je dokładniej, zapraszam do przeczytania obszernego artykułu na stronie Pogotowia Statystycznego.

CROWDSOURCING PRZYSZŁOŚCIĄ BADAŃ

Opisana powyżej strategia, polegająca na rekrutacji licznych zespołów w celu udzielenia odpowiedzi na jednakowe pytanie badawcze, nazywana jest crowdsourcingiem. Na papierze wygląda to świetnie, ponieważ analiza danych, którą z pozoru rządzą niezmienne prawa i reguły, składa się z wielu subiektywnych decyzji naukowców. Co więcej, autorzy mogą używać określonej strategii analizy danych z uwagi na jej dobrą znajomość, a niekoniecznie z uwagi na racjonalne przesłanki.

Zauważmy również, że w porównaniu do dziedziny psychologii, neurobiologii czy ekonomii, pytanie badawcze dotyczące karnacji piłkarzy i decyzji sędziów było z pozoru jasne i łatwe do zbadania, prawda? A jednak przełożenie go na modele statystyczne doprowadziło do sytuacji, w której zespoły badawcze otrzymały zróżnicowane wyniki. Crowdsourcing mógłby zatem być narzędziem, za pomocą którego można wykorzystać różnorodne umiejętności, perspektywy oraz podejścia do analizy danych, co jest wręcz niemożliwe do osiągnięcia w niewielkim zespole badawczym. Należy jednak zaznaczyć, że opisywana metoda może mieć także wady, takie jak obniżenie efektywności i wydajności z tytułu próżniactwa społecznego, a także generować problemy natury logistycznej związane między innymi z czasem wykonania zadania.

PODSUMOWANIE

Podsumowując, crowdsourcing w nauce może być szczególnie istotny w przypadku analiz, w których występuje wiele zmiennych i naukowcy są zmuszeni do podjęcia subiektywnych wyborów mogących wpłynąć na końcowe wyniki. Z całą pewnością byłby to również dobry sposób na rozwiązywanie kontrowersyjnych problemów badawczych charakteryzujących się wieloma konkurującymi ze sobą przewidywaniami teoretycznymi. Wydaje mi się, że główną zaletą tej formy analizy danych byłaby możliwość wspólnego omówienia otrzymanych wyników badań. Pamiętajcie, że naukowiec nie jest saperem! Może on pomylić się wiele razy, a wskazówki i merytoryczna pomoc innych naukowców z reguły przyniosłyby pozytywne efekty i zapobiegły dalszym błędom.

ŹRÓDŁA:

Silberzahn, R. (2018). Many Analysts, One Data Set: Making Transparent How Variations in Analytic Choices Affect Results. Advances in Methods and Practices in Psychological Science, 1(3), 337-356.
Nosek, B. A. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), 943-955.
Martin, M., McIntyre, L. C. (1994). Readings in the philosophy of social science. Cambridge: The MIT Press.
Plous, S. (1993). The Psychology of Judgment and Decision Making. New York: McGraw-Hill.
Hugenberg, K., Bodenhausen, G. V. (2003). Facing prejudice: implicit prejudice and the perception of facial threat. Psychological science, 14(6), 640-643.
Maddox, K. B., Chase, S. G. (2004). Manipulating subcategory salience: Exploring the link between skin tone and social perception of Blacks. European Journal of Social Psychology, 34(5), 533-546.
Sidanius, J., Pena, Y., Sawyer, M. (2001). Inclusionary discrimination: Pigmentocracy and patriotism in the Dominican Republic. Political Psychology, 22(4), 827-851.
Kim, J. W., King, B. G. (2014). Seeing stars: Matthew effects and status bias in major league baseball umpiring. Management Science, 60(11), 2619-2644.
Price, J., Wolfers, J. (2010). Racial Discrimination Among NBA Referees. The Quarterly Journal of Economics, 125(4), 1859–1887.

O AUTORZE

Piotr Piotrowski

Student psychologii na Uniwersytecie Gdańskim. Interesuje się psychologią społeczną oraz międzykulturową. Stawia pierwsze kroki w pisaniu artykułów naukowych oraz kontynuuje swoją przygodę z artykułami popularnonaukowymi. Czynny i bierny uczestnik konferencji związanych z różnymi dziedzinami psychologii. Członek „Koła Badań Psychologicznych Experior” oraz grupy badawczej psychologii stosunków międzygrupowych i zmiany społecznej „ProtestLab”. Swoją przyszłość wiąże z karierą naukową.