Po publikacji wczorajszego wpisu Wizualizacja 6000 głosowań otrzymałem kilka pytań, które sprowadzają się do:
Dlaczego pokazujesz koło i mówisz na nie drzewo?
Czy jest to nawiązanie do jednego z dowcipów o matematykach?
(kilka dobrych dowcipów o matematykach znajdziecie tutaj).
Świetne pytanie! Już wyjaśniam!
A ponieważ obchodzimy dzisiaj Światowy Dzień Statystyki (tak, tak, dzisiaj każda średnia jest bardziej!) więc napiszę też trochę o warsztacie. Zapnijcie pasy, włączcie RStudio i zaczynamy.
Drzewa filogenetyczne bazują na podobieństwach pomiędzy obiektami, które są przedstawiane. Tutaj podobieństwach pomiędzy głosami posłów. Zobaczmy jak to podobieństwo jest liczone. Weźmy na warsztat szóstkę posłów i kilkanaście głosowań (akurat tutaj 14 głosowań dotyczących ustawy o leczeniu niepłodności). Każdy poseł miał do wyboru głosować Za, Przeciw, Wstrzymać się (co jest ,,lekkim” przeciw) lub nie być na głosowaniu. Zakodujmy te możliwości liczbami, odpowiednio +2, -2, -1 i 0 lub kolorami: niebieski, czerwony, żółty, błękitny. Poniższa grafika przedstawia dla tej szóstki posłów informacje jak który poseł głosował w każdym analizowanym głosowaniu. Po lewej stronie zaznaczono podobieństwo głosowań. W tych głosowaniach J. Palikot i L. Miller głosowali tak samo, podobnie do nich głosowała E. Kopacz, mniej podobny ale wciąż dosyć podobny był sposób głosowania J. Piechocińskiego. Inaczej niż ta czwórka, ale podobnie do siebie głosowali B. Szydło i J. Gowin. Odległość wzdłuż krawędzi na drzewie odpowiada podobieństwu profili głosowania.
Rozszerzamy teraz liczbę głosowań z 14 do 6000. Wektor z głosami jest dłuższy, ale podobieństwo liczymy w ten sam sposób.
Wszystkich 6000 głosowań nie byłoby widać, więc ich nie rysujemy, pozostawimy nazwiska posłów. Aby ułatwić orientacje, obok nazwiska zaznaczamy wszystkie kluby, do których poseł należał w VII kadencji sejmu. Kolorem przedstawiono barwy klubu, w którym poseł spędził najwięcej czasu w VII kadencji. Fragment drzewa przedstawiamy poniżej. Widać na nim, że sposób głosowania J. Żalka i J. Gowina był dosyć podobny do siebie. Możemy też odczytać, że obaj oddali najwięcej głosów w barwach PO, ale też obaj należeli do ZP i KPSP. Posłowie PSL i PO głosowali zazwyczaj dosyć podobnie, są we wspólnym poddrzewie.
Możemy pokazać całe drzewo, choć te ma wiele liści. Wliczając posłów którzy odeszli z sejmu i dołączyli do sejmu w sumie mamy ponad 500 nazwisk. Jak widzimy posłowie PO w większości głosowali podobnie do siebie. Razem z PSL tworzą własne poddrzewo. PiS z częścią prawicy tworzy swoje poddrzewo. Kolejne dwa poddrzewa to SLD i Twój Ruch/Ruch Palikota.
To samo drzewo można przedstawiać na różne sposoby, n. taki bardziej upakowany.
Lub w sposób, który pojawił się we wczorajszym wpisie (tzw. wiatraczek).
Klikając w dowolny wykres, można zobaczyć powiększenie.
Informatycy czasem żartują, że ich drzewa rosną z góry na dół, w przeciwieństwie zwykłych drzew.
Jak widać drzewa badaczy danych mogą rosnąć w każdym kierunku. A nawet we wszystkich jednocześnie!