Dowód probabilistyczny

Do napisania tego postu zmusiła mnie refleksja po ostatnim wyjeździe z przyjaciółmi, że nawet wśród moich inteligentnych i zdolnych przyjaciół, z tytułami inżynierów, magistrów a czasem doktorów, ciężko jest mi znaleźć zrozumienie gdy mówię, że coś udowodniono eksperymentalnie.
Konkretnym przykładem jaki nas poróżnił było hipotetyczne badanie leku na dwóch grupach po 1000 osób: jedna grupa przyjmowała lek i 800 osobom się polepszyło, druga nie przyjmowała i polepszyło się 500 osobom. Badani nie wiedzieli do której grupy należą.
Moja teza była taka, że takie badanie dowodzi skuteczności leku.


Myślę, że żyłem do tej pory w dość hermetycznym środowisku studentów II UWr i przez to miałem spaczone pojęcie na temat tego co dla innych osób jest oczywiste a co nie. Gdzieś tam podświadomie czułem, że przeciętna osoba może nie znać nierówności Chernoffa, ale miałem zawsze przekonanie, że każdy intuicyjnie ją czuje.
Teraz wiem już, że nawet kwiat polskiej inteligencji ma z tym problemy, więc czuję się w moralnym obowiązku wyjaśnić najprościej jak umiem pewne podstawy.
Dla części z Was to co tu napisze może być oczywiste - jeśli tak, to gorąco proszę abyście pomogli mi w tej prostej misji wyjaśnienia jeszcze lepiej wytykając mi błędy i sugerując usprawnienia w tym artykule.

Aby zrozumieć czemu wyniki takiego eksperyment uważam za przekonujące, będę musiał wyjaśnić parę rzeczy.
Najlepszym znany mi sposobem wyjaśniania czegoś trudnego jest rozbijanie na kawałki i pokazywanie na pewnych uproszczonych modelach.
Po ostatnich przygodach zdaję sobie sprawę, że u pewnych osób już samo to budzi opór i podejrzenia.
Np. Czy rozbijając coś skomplikowanego na proste elementy nie gubię czasem pewnej części złożoności problemu? Wszak sam twierdzę, że robię to aby coś uprościć, zatem niejako przyznaję, że coś gubię?
Obiecuję, że po rozłożeniu na kawałki poskładam je grzecznie z powrotem.
Obiecuję też, że pokaże uczciwie jak się one ze sobą łączą (bądź właśnie są od siebie niezależne).
Inna obawa jest taka: czy snucie analogii i przypowieści nie jest przypadkiem formą "dowodu anegdotycznego"?
Postaram się aby moje dowody były przekonywujące na gruncie logiki a nie wiarygodności fabuły.

Zacznijmy od czegoś pozornie niezwiązanego: trójkąta Pascala.
Trójkąt ten buduje się dość prosto, wiersz po wierszu, na skrajach stawiając jedynki, a środek wiersza wypełniając wg zasady: zsumuj dwie liczby powyżej:
    1
   1 1
  1 2 1
 1 3 3 1
1 4 6 4 1
...itd...

Jeśli wyobrazimy sobie kuleczkę która startuje na czubku tego trójkąta i ocierając się o każdą z liczb może spaść niżej albo na lewo albo na prawo od niej (czyli spada zygzakiem jak w maszynie do gry z japońskiego kasyna) to okaże się, że kuleczka ta może dotrzeć do danej liczby dokładnie na tyle różnych sposobów jaką wartość ma ta liczba.
Np. do liczby 4 stojącej na dole po lewej, można dotrzeć albo LEWO,LEWO,LEWO,PRAWO, albo LEWO,LEWO,PRAWO,LEWO, albo LEWO,PRAWO,LEWO,LEWO albo PRAWO,LEWO,LEWO,LEWO, czyli na 4 sposoby.
Dowód tego faktu jest następujący: jeśli liczba znajduje się na lewym skraju to można do niej dotrzeć tylko w jeden sposób (LEWO,LEWO,..itd). Jeśli na prawym skraju to także tylko jedna droga do niej prowadzi - trzeba iść zawsze w prawo.
Jeśli zaś liczba nie jest na skraju, to można do niej dojść albo z lewej, albo z prawej. Jeśli wiemy już, że reguła sprawdziłą się w poprzednim rzędzie, to mamy tyle sposobów przyjścia z lewej i tyle przyjścia z prawej ile wynoszą liczby stojące powyżej.
Jeśli je dodamy do siebie to otrzymamy liczbę wszystkich możliwości.
Jak widać, sposób liczenia zygzaków i sposób generowania trójkąta Pascala (jedynki na brzegach, sumy liczb po środku) są identyczne.

Trójkąt Pascala ma związek z odpowiedzią na pytanie: jeśli 1300 razy rzucę monetą, to jaka jest szansa, że 800 razy wypadnie orzeł? Podobnie jak kulka spadająca w dół robi zygzak (np. LEWO,PRAWO,PRAWO,LEWO,...), tak rzucanie monetą tworzy ciąg orłów i reszek. Jeśli umówimy się, że orzeł to lewo, a reszka to prawo, to zygzak o długości 1300 zakrętów z czego 800 było w lewo, odpowiada sytuacji o której mowa.
Pytanie: ile jest takich sytuacji i ile jest wszystkich możliwych sytuacji - stosunek jednego do drugiego to prawdopodobieństwo.
Wszystkich możliwych rezultatów rzucenia 1300 razy monetą jest 2*2*2*2....*2 = 2 do potęgi 1300.
Wszystkich zygzaków o długości 1300 które mają dokładnie 800 skrętów w lewo (i 500 w prawo) jest ... zanim odpowiemy na to pytanie,
to zauważmy, że wszystkie zygzaki kończą się w tym samym miejscu. Muszą się kończyć dokładnie w 1301-szym wierszu w 801-szej kolumnie : każdy zakręt w prawo przesuwa nas bowiem dokładnie o jedną kolumnę w prawo.
Czyli odpowiedź na to ile jest takich zygzaków byłaby prosta, gdybyśmy wiedzieli jaka liczba stoi jako 801-sza w 1301-szym wierszu trójkąta Pascala.
Tak się składa, że wiemy 335836736978877198485578673244714452227303646321132573212029857450420207191403237383196755080032421270515667095660117640339301410560157300788505144434482241530503660660648147028313434492912005833787064987852506827991990057595120632156334559280084027873865665521715006420421769093456707898403054985105736655779201151279218931366108764353369841580430961156962125253611369209760, ale nie to jest ważne.

Ważne jest to, żebyśmy mieli dobrą intuicję co do tego jak wielkie są w stosunku do siebie nawzajem liczby w jednym wierszu trójkąta Pascala.
W tym celu pozwolę sobie wypisać kilka kolejnych wierszy:
   1   4   6   4  1
  1  5   10  10  5  1
 1  6  15  20  15  6  1
1  7 21  35  35  21  7  1
po bokach ciągle dochodzą jedynki, ale w środku pojawiają się co raz większe liczby.
Dysproporcje stają się co raz bardziej wyraźne.
Tak tak: ta kosmicznie duża liczba, którą przed chwilą pokazałem jest w wierszu, który zaczyna się niewinnie od 1, 1300, itd.
Jeśli widziałeś kiedyś "krzywą dzwonową", rozkład Gaussa, rozkład normalny, a nie zastanawiało Cię nigdy skąd on się bierze, oto odpowiedź.
Bardzo wiele rzeczy jakie spotyka się w przyrodzie jest sumą wielu losowych zdarzeń (tak jak liczba wyrzuconych orłów jest sumą pojedynczych eksperymentów) - jest więc bardzo wiele sposobów na to by ta suma wyszła "po środku" a mało, by była skrajna. Przykładowo Twój wzrost jest sumą przyrostów w kolejnych latach. Czasem rośniesz więcej czasem mniej. Jest wiele różnych (i prawdopodobnych) sposobów na jakie można urosnąć do 170cm w ciągu 18lat. Ale żeby w 18lat urosnąć aż 210cm musisz mieć nieprzerwaną passę bardzo nieprawdopodobnych sukcesów.
To, że te liczby po środku są baardzo duże w porównaniu do tych po bokach da się udowodnić. (Jeśli pamiętasz z liceum coś o funkcji silnia, dwumianach newtona itd, to jak się uprzesz możesz to zrobić samodzielnie).

Może Ci się błędnie wydawać, że "losowy" znaczy tyle co "wszystko może się zdarzyć".
Możesz być jedną z tych osób, która słysząc, że rzucamy 1300 razy monetą myśli sobie: acha, czyli może się zdarzyć 0 orłów, 1300 orłów, 112 orłów, albo 800.
Jeśli jesteś jedną z tych osób, to będę zaszczycony jeśli po przeczytaniu tego posta przestaniesz dopuszczać możliwość by za Twojego życia kiedykolwiek wypadło 112 orłów.
Szansa na to wynosi bardzo bardzo bardzo baaaaardzo mało.
A konkretnie? 0.000.....01% gdzie tych zer jest około 220 (nie wchodźmy w szczegóły). Atomów we wszechświecie jest pewnie koło 1080. Nie starczy Ci tlenu by doczekać takiego wyniku.

800 orłów jest też niemożliwe (w praktycznym tego słowa znaczeniu): szansa jest jak jeden na 64992936789037665 - więcej niż wszyscy razem mamy czasu na eksperymenty.

Proszę - śmiało, nawet kilka razy. Za każdym razem, gdy klikasz, Twój komputer zasymuluje 1300 rzutów monetą i powie Ci ile było orłów.

Może być też tak, że jesteś jedną z tych osób, która wierzy, że zdarzy się dokładnie 650 orłów (czyli idealnie pół na pół).
Owszem, jest to najprawdopodobniejszy wynik, ale szansa na niego to tylko jeden do 45. Jest tak, bo inne wyniki (te blisko środka trójkąta Pascala) takie jak 651,649,652, itp też są całkiem popularne.
Zwracam uwagę: mówimy tu o szansach jak 1 do 45 (czyli porównywalnych do tych w ruletce) a nie jak poprzednio o jakichś ponad-astronomicznych liczbach. To się może przytrafić Tobie czy mnie.

Dokładne liczby da się (jak widać dzięki powyższym linkom) wyliczać, a także estymować dzięki nierównościom Chernoffa czy Hoeffdinga.
Nie ma obowiązku ich znania, ale warto rozumieć z grubsza, że jest coś takiego jak standardowe odchylenie i że z reguły jest ono rzędu pierwiastka z liczby losowań: jeśli rzucam monetą 1300 razy, to można się spodziewać pierwiastka z 1300 czyli około 32 orłów bądź reszek za dużo/za mało. Ale odchylenie o 150, czyli o "kilka standardowych odchyleń" jest już nieprawdopodobne.

Możliwe, że myślisz sobie: ciekawe do czego on zmierza - czyżby chciał powiedzieć, że leczenie ludzi to rzucanie monetą?
Że coś tak skomplikowanego jak człowiek, choroby, chemia, biologia itd da się modelować prostą monetą?

Otóż nie: jedyne co chcę modelować monetą to.. moneta.
Nie będę wnikał w sam proces leczenia czy podawania leku. Proszę tylko o jedno: pozwólmy by to czy pacjent trafi do grupy dostającej leki czy do tej dostającej placebo zależało od rzutu monetą.
(Technicznym problemem pozostaje jak zrobić by wtedy obie grupy miały identyczny rozmiar: jak już wiemy szanse są na to marne [1 do 45], ale wierzcie mi - przy odpowiedniej dozie cierpliwości i biegłości w obsłudze trójkąta Pascala da się to zrobić - chociażby powtarzając losowanie kilkadziesiąt razy aż do skutku, choć są lepsze sposoby).

Czyli ja nie twierdzę, że leczenie jest losowe - przydział do grup ma być losowy.
Oczywiście ma być też tajny dla pacjenta i dla lekarzy na czas trwania badania tak by wykluczyć efekt placebo czy nieuczciwość lekarzy - czyli tzw. "double blind".
Eksperymenty w których badany wie co jest grane są z gruntu bez sensu (ludzie mają pełno skomplikowanych mechanizmów psychologicznych, które zaczynają wtedy wpływać na wyniki).
Mogę chyba śmiało założyć, że wszyscy wiemy co to jest efekt placebo.
Dlatego właśnie potrzebujemy mieć grupę kontrolną która dostaje właśnie placebo ale o tym nie wie (tj. nie wie czy dostaje placebo czy leki).
W testach double blind wyszło np. że ludzie deklarujący że wolą Coca-Colę w praktyce (80%!) wolą Pepsi gdy mają zasłonięty kubek.
(Oczywiście można się zacząć zastanawiać, czy w takim razie kubek, kolor, marka itd nie składają się na istotną część expirenceu [vide: Starbucks] i czy w związku z tym, nie powinniśmy jednak nadal pić Coca Coli?)
Ale ważne jest też to, by przeprowadzający eksperyment nie wiedzieli kto jest, w której grupie. Zdarza się bowiem, że naukowiec usilnie wierzący w jakąś hipotezę potrafi niechcący (lub chcący: vide eksperymenty z klasą podzieloną na więźniów i strażników) zasugerować co badani powinni zrobić, a badani z kolei mają dziwny zwyczaj robić przyjemność badającemu (mój ulubiony przykład to eksperyment w którym badany miał rozwiązać quiz z wiedzy ogólnej na komputerze który mu podpowiadał - miał potem ocenić w ankiecie jak bardzo komputer mu pomógł - okazało się, że jeśli ankieta była wypełniana na innym komputerze niż quiz to ocena zadowolenia z podpowiedzi była niższa -- ludzie nie chcieli skrzywdzić uczuć maszyny!).
Ważne jest też, by te 2000 osób do eksperymentu wziąć nie z ulicy ("- przepraszam, czy ma pan czas wypełnić ankietę o zarobkach? - jasne, że mam bo jestem bezrobotny") czy od znajomych ("- koleżanka z socjologi potrzebuje na zaliczenie wypełnić 100 ankiet, pomożecie?") albo z najtańszego źródła ("dziwne, ale aż 80% badanych osób było rasy żółtej i mieszkało w bangladeszu..").
Te 2000 osób powinno być wylosowanych spośród tych samych osób do których adresowany jest lek.
Dobry przykład podał tu Mierzu: raz już wynaleziono lek na AIDS, ale okazło się, że działa tylko na Wietnamczyków, bo akurat stamtąd pochodzili ludzie do eksperymentów.

Dobra, no to po tym wstępie, załóżmy, że mamy 2000 dobrze wybranych ludzi i podzieliliśmy ich losowo na dwie grupy po 1000 osób tak by nikt nie wiedział kto jest gdzie (oprócz jakiegoś trzymanego w sejfie protokołu z losowania).
Znamy już finał historii: w grupie dostającej lek 800 osób wyzdrowiało, a w grupie dostającej placebo tylko 500.

Rozważmy teraz dwie zupełnie różne możliwości:

Możliwość A: Lek nijak nie przyczynia się do zdrowienia. Czyli tych 800+500=1300 spośród 2000 osób wyzdrowiało z innego powodu.
Możliwość B: Lek jednak przyczynia do zdrowienia

Dlaczego wątpię w możliwość A?
Dlatego, że oznacza to, że 1300 osób które koniec końców wyzdrowiało, w dniu dzielenia ich na grupy podzieliło się nierówno: dla każdej z tych 1300 osób rzucaliśmy monetą by przydzielić ją do grupy i 800 razy wypadł orzeł a tylko 500 reszka.
Jak już wiemy jest to niemożliwe...

...no chyba, że "moneta wiedziała jak ma upaść" - "umiała przewidzieć czy ktoś wyzdrowieje". To brzmi absurdalnie, ale taka mogłaby być czyjaś konkluzja: rzuty monetą skorelowały się z wyzdrowieniami.
Jak być może wiemy korelacje między dwoma faktami (np. przynależnością do grupy biorącej lek i wyzdrowieniem) można różnie sobie tłumaczyć:
a) może branie leku zwiększa szansę na wyzdrowienie?
b) może wyzdrowienie zwiększa szansę na branie leku wcześniej?
c) może jest jakaś praprzyczyna obu tych rzeczy ?
d) może po prostu tak opowiedziano nam historię i przedstawiono dane by widać było korelację?

Nasze umiłowanie do chronologii każe nam wykluczać wyjaśnienia typu "b" w których skutek poprzedza przyczynę - nasz świat zdaje się tak nie działać.
Ciekawym i zawsze wartym rozważenia jest jednak punkt "d".
Być może widzieliście stronę poświęconą dziwacznym korelacjom np. liczby utonięć w danym roku a liczbą filmów w których zagrał Nicolas Cage.
Początkowo uznałem, że strona robi świetną robotę w uświadamianiu ludziom, że korelacja nie oznacza koniecznie związku-przyczynowo skutkowego.
Po ostatnim wyjeździe uważam, że ta strona robi więcej złego niż dobrego jeśli chodzi o edukacje, bo wpaja ludziom błędny obraz nauki sugerując, że korelacje w ogóle nie są nic warte i nic z nich nie wynika.

Warto zrozumieć jak działa ta strona: jej twórcy mają dostęp do milionów wykresów i spośród nich wybierają dwa które do siebie pasują.
Posłużę się tu analogią: jeśli przy stole siedzi 7 osób i każda rzuci kostką, to w ciemno mogę powiedzieć, że będą wśród nich takie dwie które wyrzucą to samo.
Nie ma w tym żadnej magii czy korelacji: po prostu przy tak dużej ilości losowych danych i tak małej ilości możliwych rezultatów to się musi zdarzyć (kostka ma tylko 6 ścian, ludzi jest 7).
Podobnie, kształtów wykresów które uważamy za "różne" jest mało, więc jak się weźmie milion wykresów to znajdziemy podobne do siebie.

Podobnie: jeśli rzucę 1000 razy monetą, to bez trudu wśród tych 1000 rzutów znajdę takich 500 że wypadło w nich to samo.
Gdybym to wszystko sfilmował, a potem wyciął "nieudane" rzuty zostawiając tylko tych 500 rzutów, mógłbym próbować nabrać kogoś, że film przedstawia 500 prawdziwych rzutów monetą i za każdym razem wypada mi to samo!

Warto zatem przeanalizować sytuację z tymi badaniami: czy nie jest czasem tak, że niczym magik próbuję odwrócić uwagę od nieudanych przypadków by lepiej udawać, że jest korelacja między podawaniem leku a wyleczeniem?
Nic podobnego. Owszem ograniczyłem rozważania do osób które wyzdrowiały. Ale możemy też popatrzeć na tych 700 które niewyzdrowiały! Tylko 200 z nich trafiło do grupy biorącej leki (co jest o kilka odchyleń standardowych "na lewo" od spodziewanych 350).

Bardziej realnym zagrożeniem z kategorii "d" jest "cenzurowanie wyników". Powiedzmy, że badań analogicznych do tego tutaj opisanego, przeprowadzono nie jedno, ale kilkadziesiąt, ale celowo nieopublikowano wyników pozostałych z nich bo były niekorzystne dla firmy farmaceutycznej. Trochę tak jakby ktoś wyciął nieudane próby z filmu. Jak byłem w liceum to był taki popularny filmik jak kolesie na deskorolkach wrzucają piłkę do kosza na setki nieprawdopodobnych sposobów. Film ten na stałe zasiał we mnie sceptycyzm do wyników z kategorii "d". Sam z resztą nakręciłem z Zuzą taki o minigolfie.
Owszem, może tak być jeśli prawdopodobieństwo "sukcesu" eksperymentu jest dostatecznie duże (powiedzmy: 1 do 50). Wtedy przeprowadzenie go kilkadziesiąt razy może nam coś dać.
Ale jeśli szansa wynosi 1 kontra 1021 to powtórzenie go nawet milion razy, niewiele da oszustom.
Dlatego nie lubię eksperymentów przeprowadzanych na 30 osobach (jakże częste np. w psychologii, widocznie przeprowadzają je na klasach w czasie zajęć).

Jest jeszcze pewnie wiele innych argumentów jakie można wysunąć przeciwko dowodom probabilistycznym.
Przykładowo taki, że przecież liczba 800 też jest nieprawdopodobna - w zasadzie każdy wynik jest nieprawdopodobny, bo przecież jest 2^2000 możliwych wyników i każdy jest nieskończenie mało prawdopodobny.
Całe więc to rozumowanie opiera się o jakiś arbitralny podział wyników na jakieś koncepty - np. koncept "800" czy ">799" czy "dużo".
By lepiej zrozumieć ten argument, przytoczę sytuację, którą ostatnio przeżyliśmy z przyjaciółmi: przez całą grę w Osadników z Catanu (czyli kilkadziesiąt rzutów dwiema kostkami) ani razu nie wypadło 9.
Szansa, że w jednym rzucie dwiema kośćmi wypadnie 9 to 4/36 czyli akurat 1/9.
Szansa, że nie wypadnie to zatem 8/9.
Że nie wypadanie 65 razy z rzędu to już 1 do 2500.
Niesamowite?

Problem z takimi niesamowitościami jest taki, że często próbując ocenić ich niesamowitość gubimy to co w zasadzie świadczy o tej niesamowitości. Czy gdyby w tej historii chodziło nie o liczbę 9 ale o liczbę 5, to czy byłaby mniej niesamowita?
Pewnie nie, bo na to szansa też wynosi 1 do 2500.
Ale czy w takim razie szansa, że będziemy mieć co opowiadać nie wynosi raczej 2 do 2500 bo każda z tych dwóch sytuacji prowadzi nas do podobnych przeżyć?
A co gdyby nie wypadła 10? Na to jest nawet większa szansa!
Czy w ogóle pamiętałbym o tej grze tego konkretnego wieczoru gdyby nie to wydarzenie? Ile razy grałem w życiu w Osadników? Kilkanaście. Może zatem tak naprawdę powinienem popatrzeć na to "jaka jest szansa, że w ciągu kilkunastu gier zdarzy się chociaż raz tak, że nie wypadnie ani razu jakaś liczba". Na to szansa jest już dość spora. Poza tym jest wiele gier i wiele innych wyjątkowych cech (np.: "wypadały tylko parzyste liczby").
Wiele tzw. "praw Murphyiego" to tak naprawdę zabawa z tym jaka jest nasza percepcja dziwności (np. może właśnie dlatego prawdziwe jest prawo "zawsze jak wyprzedasz to akurat musi jechać ktoś z naprzeciwka". Czy w ogóle zapamiętałbyś wyprzedzanie innego auta gdy nie jechało akurat nic z naprzeciwka?)

Mój numer pesel ma 11 cyfr. Szansa, że jest akurat taki jaki jest jest bardzo mała. Ale jest taki właśnie jaki jest.

Dobra, trochę zbaczamy. Takich "argumentów" można wytaczać wiele i warto może się z nimi zmierzyć, ale najpierw wypadałoby znacznie więcej niż ja wiedzieć o teorii prawdopodobieństwa, Bayesowskich modelach prawdopodobieństwa itp.
Wydaje mi się nieco niefair gdy ktoś takowe wytacza sam ich do końca nie rozumiejąc i oczekuje, że jeśli ja się przed nimi nie obronie to znaczy, że nauka przegrała z medycyną ludową.

Mam jednak jeden argument empiryczny za dowodami probabilistycznymi: one działają.
Sporo programów komputerowych i algorytmów się o nie opiera. Wiele decyzji podejmowanych na podstawie małych grup idealnie się skaluje na duże grupy. Np. jak robimy w nk.pl testy A/B klikalności w zielony kontra czerwony przycisk, to mimo tego, że ludzie są skomplikowani, internet jest skomplikowany, interakcje z komputerem są skomplikowane itd, to z wyników testów na 1000 osobach da się bardzo precyzyjnie przewidzieć który przycisk ludzie chętniej klikają i jak często będą go klikać gdy udostępnimy go wszystkim kilkunastu milionom.
Ba! Wiele naszych programów do raportowania i rysowania wykresów działa w oparciu o losowe próbki raptem 64k osób i ma błędy rzędu paru procent. I robimy tak oczywiście nie tylko my, ale wszyscy w tym biznesie.

Popularne posty z tego bloga

Szczęście jako problem inżynieryjny

Kilka rzeczy, o których żałuję, że nie powiedziano mi, gdy byłem młody

Produkt: Ojciec*