Zaczęło sie od tego, że na blogu Wojtka Walczaka przeczytałem wpis ,,Facebook love stories (unromantic version)”, w którym opisane są wstępne wyniki analiz zmian deklaracji dotyczących bycia w związku na Facebooku (na facebooku można zadeklarować, że jest się z kimś w związku ,married’, ,in relationship’ itp).
Temat bardzo mi się spodobał, napisałem do autora zapytanie o udostępnienie danych, dane dostałem (są teraz dostępne publicznie tutaj) i zabrałem się do analiz.
Jakich analiz? Na podstawie zmiany deklaracji o bycia w związku, chciałem zbudować graf, prezentujący jak wygląda graf przejścia pomiędzy różnymi stanami ,,bycia w związku”.
Dlaczego to jest bardzo ciekawe? Niby proste zadanie, jak zrobienie grafu połączeń, kryje wiele interesujących detali, pozwalających modelarzowi się ,,wyżyć”. Przykładowo, w stanie ,married’ część osób pozostaje długo, ale przecież nie wiemy jak długo bo nie zaobserwowaliśmy przejścia do innego stanu. Jak więc oszacować średni czas pozostawania w tym stanie? Tu mamy cały zestaw technik do analizy danych cenzorowanych o których możemy poopowiadać. Inny przykład. Nie obserwujemy wszystkich przejść, pomiędzy stanami, ponieważ część zmian statusu jest prywata i ich nie widzimy. Jeżeli ktoś z 'single’ przeszedł na ,in relation’ a po roku ponownie przeszedł z 'single’ na 'in relation’ to po drodze musiał jakoś z pierwszej 'in relation’ przejść do 'single’. To czyni estymacje czasów pobytu w węźle jeszcze ciekawszą. Kolejny problem to adekwatność opisu zmian stanu przez macierz zmiany stanu (co zakłada jakąś formę stacjonarności). Wiele interesujących pytań!
No dobrze, zobaczmy co wyszło.
W sumie wyszedł poniższy rysunek. Jeżeli się udał to jest on samokomentujący się. Liczby przy nazwach stanu to szacunki połowicznego czasu półtrwania w danym stanie (czyli 50% osób w tym stanie pozostaje krócej niż dana liczba). Wyjściowy graf był bardzo gęsty, więc przedstawiłem tylko krawędzie, odpowiadające większemu niż 10% prawdopodobieństwu przejścia (dlatego wychodzące krawędzie sumują się do mniej niż 100%). Kilka ciekawostek: Najbardziej ,,pochłaniającym” stanem jest ,married”. A jednak 😉 Ze stanu ,engaged’ częściej przechodzi się do ,single’ niż do ,married’. W stanie ,it’s complicated’ ,,trwa” się najkrócej. Jak widać nie lubimy komplikacji.
Bardzo ciekawe i fajnie przedstawione. Czy dobrze rozumiem, że czas „połowicznego” rozpadu małżeństw użytkowników facebook’a szacujemy na około 1.5 roku? Swoją drogą podobno oczekiwany czas do rozwodu skraca się wraz z liczbą już „zakończonych” wcześniejszych związków małżonków, czyli model niekoniecznie powinien być Markowowski 🙂
Szacunki półtrwania w ,married’ mogą być zaburzone przez relatywnie niedługi czas od kiedy Facebook jest popularny. Pewnie więc mając dłuższą historię i większą próbę można te czasy dokładniej szacować i te ,,długie” czasy zmienią się najbardziej.
Stan ,,związania” najprawdopodobniej nie ma właściwości ,,braku pamięci” (choć może jestem starej daty), ale czymże jest modelowanie jeżeli pomijaniem szczegółów nieistotnych, lub niedających się kontrolować przy zadanej liczebności próby 😉
Zaraz, jak to? Do skomplikowanych i otwartych związków nikt nie wchodzi, tylko je opuszcza?
@anuszka: tak jest chyba lepiej ;-), a na serio, to krawędzie wchodzące do tego węzła maja mniejszy udział niż 10% w swoich źródłach (czyli mniej niż 10% singli trafia bezpośrednio do it’s complicated itp.), dlatego te strzałki nie są rysowane. Niestety graf z wszystkimi krawędziami jest mało czytelny, ale w wersji 2.0 coś z tym postaram się zrobić (np podświetlanie krawędzie dla wybranego węzła).
Poniżej jest (prawie) cały graf, niestety z automatu jest mało czytelny

Wiadomo coś w jaki sposób zostały wybrane osoby do tego badania? Można to jakoś uogólnić czy jest to przykład tego co można z facebooka wyciągnąć? 🙂 Opis ze bloga, additional notes i sam post za dużo na ten temat nie mówi.
@Maciej: niedługo dodam na blogu (tj. na facemining.tumblr.com) informacje o próbie. Z całą pewnością nie należy traktować tych wyników jako reprezentatywne. W ~80% w próbie są osoby z Polski, w ~80% z roczniów 1984+, a wszyscy to znajomi osób, które studiowały w Toruniu, Poznaniu lub Wrocławiu.
@WW: czekam z niecierpliwością. Czyli próba oparta na kuli śniegowej?
@Maciej: tak, póki co z aplikacji korzystają moi znajomi, więc w próbie są oni i ich znajomi. Kiedy się z nimi uporam, upublicznię aplikację do zabawy. W zamian za udostępnienie danych generuję raport, coś w stylu http://www.wolframalpha.com/facebook/ z tym, że u mnie wygląda to tak: http://fejsometr.pl/site_media/raport.html.
What program was used to make the graph?
The qgraph library (see http://www.jstatsoft.org/v48/i04/paper), which is a library for R (see http://cran.r-project.org/).
Jako naturalny analityk (mocny introwertyk) twierdze tak – te dane to bzdura. Próbujecie uporządkować informacje śmieciowe. W ten sposób nie zrobi się tego poprawnie. Metoda jest błędna.
Nie wiem co oznacza ,,naturalny analityk”, ale zalecam więcej luzu 😉