Produkt: Ojciec*

Należę do rodziców, którzy traktują wychowanie dziecka jako projekt. Czy może raczej, z racji braku klarownego deadlineu - jako produkt.
A to dlatego, że nie ma co ukrywać, że zajmuje to masę zasobów, wymaga nauki, koordynacji, komunikacji, planowania krótko- i długofalowego. Wszystko to można zrobić lepiej, albo gorzej. Moim zdaniem lepiej, jeśli nie ucieka się przed nazywaniem rzeczy po imieniu.

Należę też do ludzi, którzy są przerażeni, gdy widzą rodzica próbującego spełnić swoje ambicje poprzez dziecko. Jedna obawa, to, że dziecko może zwyczajnie cierpieć będąc przymuszane do gry na pianinie. Inna, to, że dziecko, które oryginalnie lubiło konie, znienawidzi je po godzinach jazdy konnej na siłe. Sądzę, że odpowiednio "profesjonalny" rodzic, jest w stanie dobierając techniki zaszczepić miłość do pianina, nie zniszczyć miłości do koni i jeszcze wcisnąć gdzieś łacinę (choć to pewnie rzadkość) jednak nawet wtedy jest ryzyko, że dziecko znienawidzi samego rodzica i gdy tylko będzie miało okazję żyć po swojemu to zrobi to aż w przerysowany i niestabilny sposób. Przede wszystkim jednak, uzależnianie swojego poczucia sukcesu od poczynań innej osoby to przepis na nieszczęście, zawód, obarczanie winą, pretensje i smuty.

Ten post będzie próbą pogodzenia tych dwóch poglądów, poprzez zaproponowania nieco innej perspektywy.
Co by było gdyby uznać, że produktem jest nie dziecko, a ja, czyli ojciec? Co jeśli popatrzeć na to jako okazję do samorozwoju, do stania się lepszym człowiekiem?
(Chciałbym z tego miejsca podziękować Miłoszowi, który zaszczepił we mnie tę myśl jakiś czas temu i odtąd zaczęła kiełkować i wrastać korzeniami w inne obszary myślenia o świecie).
Przeniesienie ciężaru z dziecka na siebie samego, to na pewno krok w dobrą stronę - w tym poście chciałbym jednak pójść z tym znacznie dalej, do granicy.
Ale najpierw trochę tła.

1. AlphaZero

Nie będę udawał, że rozumiem dokładnie jak działa program, który pokonał nie tylko arcymistrzów świata, ale przede wszystkim znacznie lepsze od nich rozwijane przez lata programy, ucząc się gry w GO i szachy grając samemu ze sobą raptem przez parę godzin. Rozumiem jednak co się stało w zgrubnym zarysie i to jest dla mnie ważne, więc się podzielę.
Jak wielu z nas, AlphaZero miał na początku pewną naiwną intuicję na temat tego jaki ruch wykonać przy danej sytuacji na planszy. Ot taki prawie że "odruch": widzę pionki w takich miejscach, to robię ruch tym pionkiem stąd siam. Nazwijmy to myślenie na jeden krok w przód, "jednokrokową intuicją".
Jak wielu z nas, AlphaZero starał się wyobrazić sobie co jego przeciwnik zrobi w następnym ruchu i - podobnie jak my, nie mogąc wyobrazić sobie co zrobiłby ktoś inteligentniejszy od niego samego - wcielał się w rolę przeciwnika i używał tej samej "jednokrokowej intuicji" by wykonać ruch za niego. Następnie, znów używając tej samej jednokrokowej intuicji wykonywał ruch "za siebie", itd. na przemian, aż do końca gry.
Cała ta fantazja opierała się na naiwnym założeniu, że "jednokrokowa intuicja" jest najlepszym znanym mu sposobem gry.
Założeniu, które da się zweryfikować gdy gra dobiega końca: zwłaszcza jeśli chodzi o ostatni ruch, łatwo ocenić, czy faktycznie był najlepszym z możliwych. Jeśli nie był, to znak, że jednokorokowa intuicja jednak była zła i trzeba ją lekko poprawić. Używając nieco bardziej skomplikowanej matematyki, można przeprowadzić "propagację wsteczną" i skorygować także swoje intuicje dotyczące poprzednich kroków. Przy czym co bardzo ważne: jest tylko jedna wielka jednokrokowa intuicja, a nie po jednej na każdy krok.
Zwracam uwagę na to, że cały ten proces ma w sobie swego rodzaju brak wiary we własne umiejętności: AlphaZero myśli, że "jednokrokowa intuicja" to najlepsze na co go stać, jednak jednocześnie ten sam AlphaZero umie sobie wyobrazić lepszą wersję samego siebie i koniec końców wywnioskować lepszy ruch! Jest tu więc pewna schizofrenia, pewien dysonans między tym co "jednokrokowa intuicja" mu podpowiada, a tym co sam w pewnym głębszym sensie wie.
Takie "gry na niby" można powtórzyć w głowie miliardy razy, korygując i dopieszczając swoją intuicję.
Aż w końcu proces zaczyna zbiegać, czyli kolejne partie niczego nowego już nas nie uczą.
Nie brzmi to jakoś super fascynująco, o ile nie podkreśli się jednej ważnej rzeczy:
końcowym produktem tego procesu, jest jedna "jednokrokowa intuicja", która ma tę własność, że jest spójna z "wielokrokową intuicją" - dokładnie te same sugestie co do następnego ruchu płyną z tej "jednokrokowej intuicji" co z przeanalizowania całego drzewa gry aż do końca (no dobra, nie całego, są tu jakieś monte-carlo chains, sampling itd.).
W pewnym sensie, AlphaZero czuje co by zrobił, gdyby mógł się zastanowić dłużej i jest pewien, że doszedłby do tych samych wniosków co zastanawiając się krócej.
Jest gotowy do gry z arcymistrzami, gdy wie, że nie ma już sensu dłużej dumać bo nic więcej nie wyduma.

Podkreślmy też, że to nie jest tak, że potrzebna jest zupełnie osobna intuicja dla białego gracza a inna dla czarnego (poza paroma asymetriami wynikającymi z zasad danej gry) - obaj grają w tę samą grę i byłoby dziwne gdyby AlphZero w co drugim kroku używało zupełnie innego sposobu myślenia o tym co się opłaca zrobić, a co jest głupie.

2. Ewolucja

Jak wielu z nas wie, instynkt samozachowawczy jest przejawem presji sił ewolucji. Nieco mniej ludzi rozumie, że ewolucji tak naprawdę nie zależy na tym, żebyś przeżył, tylko na tym byś miał potomstwo. Jeszcze mniej ludzi rozumie, że tak naprawdę nie chodzi nawet o dzieci - strategia posiadania 25 dzieci do wyżywienia może się skończyć głodem i smrodem. Lepszym przybliżeniem jest powiedzieć, że ewolucji chodzi o to by mieć dużo wnucząt. Po prawdzie chodzi po prostu o wielkość całego poddrzewa genealogicznego, które z Ciebie wyrośnie. Tak, pewne stosowane przez nią triki wyglądają jakby optymalizowała tylko jeden krok ("instynkt samozachowawczy"), ale to nie zmienia faktu, że robi to głównie po to, by zoptymalizować długofalową sumę zysków po wszystkich pokoleniach. (Hence: menopauza, nieodrastające zęby, starość, śmierć).

3. Konflikt pokoleń

Jest czasem tak, że dzieci osiągają dorosłość i ani razu nie przyjdzie im do głowy buntować się przeciw rodzicom. Czasem tak nie jest. Na pewno zbytnie przegięcie w jedną stronę może spowodować przegięcie w drugą, choć sądzę, że z zupełnie naturalnych powodów jesteśmy ślepi na to ile jest podobieństw - podobieństwa nie rzucają się w oczy.

Wiem, że czerpanie wiedzy z fikcyjnych historii - a już na pewno z hip-hopu - nie jest mądre, jednak swego rodzaju objawieniem dla mnie był dawno temu tekst piosenki W Wyjątkowych Okolicznościach, który przedstawia historię dwojga osób - jednego wychowanego w ubogiej rodzinie, w której liczy się każda złotówka, przez co wyrasta na chciwego kapitalistę, a drugiej, która dorasta w komforcie i bogactwie i w efekcie staje się łaknącej towarzystwa za wszelką cenę, choćby upokorzenia. Jakoś do momentu wysłuchania tej historii, mój mentalny model był taki jakiś "chrześcijański", że miłość do bliźniego to raczej coś co spotkasz wśród ubogich, a faryzeusze i celnicy...sami wiecie.

4. Epoki

W szkole nas uczono, że kolejne epoki alternowały jak sinusoida: od rozumu do emocji; od nauki do religii. Dziś widzę, że to trochę bardziej tautologia niż odkrycie: po czym innym poznałbyś koniec epoki?
Myślę, że ostatnią epokę poznamy po tym, że sinusoida w końcu się wypłaszczy.

5. Alignment

Jest w branży sztucznej inteligencji bardzo ważny problem zwany "Alignmentem". Przedstawię go poprzez analogię. Firma chciała zwiększyć produktywność pracowników, więc wprowadziła nagrody za każdy znaleziony i naprawiony błąd. Co zrobili pracownicy? Programiści zmówili się z testerami, że będą celowo umieszczać błędy i dawać o nich znać, dzieląc się kasą z nagrody. Co poszło nie tak? Cele firmy (lepszy stosunek jakości do ceny? większy zysk długofalowy?) nie były idealnie zalignowane z celami pracowników (wysokość wynagrodzenia?). Jeśli stawiasz cele komuś inteligentnemu, to musisz być bardzo ostrożny, bo niemal z definicji (jeśli ktoś zna algorytm simplex to wie o co chodzi) znalezione rozwiązania będą jechaniem po bandzie. (Hence: omijanie prawa podatkowego, umowy śmieciowe, jazda 59 km/h). Powód dla którego martwią się tym ludzie od AI jest taki, że dostatecznie zaawansowana technologia jest nieodróżnialna od magii, a jak się kończy wygłaszanie niezbyt przemyślanych życzeń w stronę bardzo sprytnego Dżina uczą bajki, żarty, i fajne gry. Kto nie grał w Universal Paperclips, a ma parę godzin, to polecam, bo ładnie pokazuje jak niewinne życzenie ("chcemy produkować więcej spinaczy") może być brzemienne skutki, gdy ktoś weźmie je sobie za głęboko do serca.
Tu mamy rozdźwięk (brak alignmentu) między naszymi celami a celami AI. Jeden krok wystarczy by się posypało.
Gdy dżin jest w stanie samodzielnie powoływać do życia kolejne dżiny, problem zaczyna przypominać ten w bajce o Myszce Miki gdzie cel napełnienia wodą kociołka zaczyna żyć własnym życiem. Samomodyfikujące się AI to problem, w którym trzeba zagwarantować stabilność na wiele, być może nieskończenie wiele ruchów do przodu.


6. Coherent Extrapolatated Volition

"Daj mi to czego potrzebuje a nie to o co proszę!:)"
"Gdybym tylko wiedział wcześniej jak to się skończy, to zrobiłbym inaczej :("
"Pożyjemy, zobaczymy"
Czasem jest tak, że głupi ja z wczoraj podejmuje decyzje w imieniu mądrego ja z przyszłości i ten ostatni patrząc wstecz nie może się nadziwić swojej głupocie.
Coherent Extrapolatated Volition to taka próba sformalizowania tego, co by to miało znaczyć, że człowiek czegoś chce.
Czasem mówią, że czegoś chcą, ale jakby byli mądrzejsi, wiedzieli więcej o tym jakie naprawdę byłyby konsekwencje akcji, które mają do wyboru, to wybraliby inną akcję niż im się teraz wydaje.
Podkreślam, że nie chodzi o gmeranie im w mózgu celem zmienienia ich preferencji co do tego, która przyszłość wydaje im się lepsza - nadal szach mat, to szach mat, zasady oceny końca gry zostają bez zmian. Zmienia się tylko jednokrokowa intuicja co do tego, który ruch dzisiaj, prowadzi do szczęśliwej przyszłości.

7. Produkt: Ojciec*

Jeśli chce się osiągnąć sukces, to naturalnym pytaniem jest: a co dokładnie optymalizujemy?
Jestem przekonany, że "dziecko umie grać na pianinie, jeździć konno i mówić po łacinie" to fatalna definicja sukcesu. To proszenie się o problem z alignmentem. To jednokrokowa intuicja, która nie wytrzymuje próby postawienia się w roli gracza w następnej rundzie (czy moje dziecko też chciałoby tego dla wnuków?). To proszenie się o wychowanie kogoś, komu zupełnie nie zależy na tym co ważne dla mnie. To Memetyczne samobójstwo: mój mem, będzie miał być może sporo dzieci, ale zero wnuków.

A co jeśli postawić sobie taki oto stałopunktowy cel: chciałbym wychować dziecko tak, żeby jak będzie już w podobnym momencie własnego życia co ja i popatrzy wstecz na to co spotkało je w dzieciństwie, to powie: tak, to jest coś, co chciałobym powtórzyć - może nie co do joty, bo koni już nie ma, ale przynajmniej na jakimś meta-poziomie, to co próbowali zrobić moi rodzice, ich wysokopoziomowe cele - tak, to było dobre, to wymaga tylko minimalnej korekty i ukonkretnienia w oparciu o dzisiejsze realia, ale na pewno nie wymaga buntu, początku nowej epoki.

Tu chciałbym podziękować Zuzie, bo powyższa idea wykrystalizowała się dzięki poniższemu dialogowi:
- A co jeśli zamiast celu "fajne dziecko" czy nawet "szczęśliwe dziecko", postawić cel "dobry ojciec"?
- Chodzi Ci o to, żeby Hugo wyrósł na dobrego ojca?
- Nie, chodziło mi o mnie, żebym ja stał się lepszy...w sensie... w sumie... tak, chcę żeby Hugo był dobrym ojcem. I żeby jego syn był dobrym ojcem. I moje prawnuki też. Tak.






Popularne posty z tego bloga

Szczęście jako problem inżynieryjny

Kilka rzeczy, o których żałuję, że nie powiedziano mi, gdy byłem młody