Zaczęło sie od tego, że na blogu Wojtka Walczaka przeczytałem wpis ,,Facebook love stories (unromantic version)”, w którym opisane są wstępne wyniki analiz zmian deklaracji dotyczących bycia w związku na Facebooku (na facebooku można zadeklarować, że jest się z kimś w związku ,married’, ,in relationship’ itp).
Temat bardzo mi się spodobał, napisałem do autora zapytanie o udostępnienie danych, dane dostałem (są teraz dostępne publicznie tutaj) i zabrałem się do analiz.
Jakich analiz? Na podstawie zmiany deklaracji o bycia w związku, chciałem zbudować graf, prezentujący jak wygląda graf przejścia pomiędzy różnymi stanami ,,bycia w związku”.
Dlaczego to jest bardzo ciekawe? Niby proste zadanie, jak zrobienie grafu połączeń, kryje wiele interesujących detali, pozwalających modelarzowi się ,,wyżyć”. Przykładowo, w stanie ,married’ część osób pozostaje długo, ale przecież nie wiemy jak długo bo nie zaobserwowaliśmy przejścia do innego stanu. Jak więc oszacować średni czas pozostawania w tym stanie? Tu mamy cały zestaw technik do analizy danych cenzorowanych o których możemy poopowiadać. Inny przykład. Nie obserwujemy wszystkich przejść, pomiędzy stanami, ponieważ część zmian statusu jest prywata i ich nie widzimy. Jeżeli ktoś z 'single’ przeszedł na ,in relation’ a po roku ponownie przeszedł z 'single’ na 'in relation’ to po drodze musiał jakoś z pierwszej 'in relation’ przejść do 'single’. To czyni estymacje czasów pobytu w węźle jeszcze ciekawszą. Kolejny problem to adekwatność opisu zmian stanu przez macierz zmiany stanu (co zakłada jakąś formę stacjonarności). Wiele interesujących pytań!
No dobrze, zobaczmy co wyszło.