Kto w Sejmie … ciąg dalszy

Kilka tygodni temu pisałem o indeksie czytelności FOG (patrz: ,,Kto w Sejmie mówi w sposób prosty, a kto w złożony”). W komentarzach pod wpisem pojawiły się sugestie, by porównać złożoność języka używanego w Sejmie pomiędzy posłami różnych partii.

Zobaczmy co z tego wyjdzie.

Czytaj dalej Kto w Sejmie … ciąg dalszy

Kto w Sejmie mówi w sposób prosty, a kto w złożony

Jakiś czas temu natrafiłem na opis indeksu czytelności Flescha. To współczynnik przyjmujący wartości od 0 do 100 opisujący stopień złożoności angielskiego tekstu. Im czytelniejszy tekst tym wyższa wartość tego indeksu. Współczynnik użyteczny, jeżeli chce się pisać prostym, czytelnym językiem. Pozwala na proste mierzenie czytelności własnych tekstów.
Indeks Flescha wyznacza się w dosyć prosty sposób, na podstawie liczby sylab, słów i zdań. Ponieważ temat badania złożoności (wszystkiego) języka mnie interesuje, poszperałem dalej. Okazuje się, że indeksów badających czytelność jest znacznie więcej, choć większość z tych na które trafiłem jest skalibrowana dla języka angielskiego.
Dla języka polskiego znalazłem indeks czytelności fog, który jest adaptacją indeksu fog zaproponowanego przez Roberta Gunninga dla języka angielskiego.

FOG = 0.4*[liczba.słów / liczba.zdań + 100*(liczba.trudnych.słów / liczba.słów)]

Za trudne słowo w języku polskim uznawane są słowa czterosylabowe i dłuższe, tak przynajmniej twierdzi Wikipedia.
Indeks FOG przyjmuje wartości powyżej 0, nie ma górnej granicy.
Dla większość tekstów ten indeks przyjmuje wartości od 6 do 18 i czasem przypisuje mu się następującą interpretację.
Tekst o indeksie FOG równym X jest zrozumiały dla osoby o przynajmniej X latach edukacji.
[Złośliwi w tym miejscu pytają, czy jeżeli ktoś przez 3 lata robił szóstą klasę to czy liczyć to jako trzy lata edukacji czy jeden rok]
Jest to oczywiście bardzo zgrubne przybliżenie, ale niewątpliwie długie zdania najeżone trudnymi słowami są trudniejsze do zrozumienia i ten indeks taką złożoność wyłapuje.

Zgodnie z Wikipedią, gazeta Fakt ma indeks czytelności FOG na poziomie 7, tygodnik Newsweek około 12, zaś teksty prawne mają FOG na poziomie 20.
Sprawdziłem moje książki (obie mają FOG w okolicach 15.5, czyli więcej niżbym chciał) i blogi (różnie, ale w okolicach 12).
Ten wpis ma indeks FOG 9.5.

Co by tu jeszcze sprawdzić? (tak, tak, masz młotek i wszystko wygląda jak gwóźdź).
Akurat, jakiś czas temu interesowały mnie stenogramy z posiedzeń sejmowych…

Na tej stronie dostępne są stenogramy z posiedzeń Sejmu, można z nich wyciągnąć wypowiedzi posłów na posiedzeniach Sejmu tej kadencji [Technicznie są to przetranskrybowane stenogramy czyli po prostu wypowiedzi posłów]. Ściągnąłem je, posklejałem, wyczyściłem i dla każdego posła, który miał przynajmniej jedno długie wystąpienie, wyznaczyłem liczbę wypowiedzianych słów i indeks FOG złożoności wypowiedzi danego posła.

Zobaczmy na wykresie jak wyglądają te dwie cechy. Na wykres naniesiono również nazwiska posłów, którzy załapali się do grupy: 15 osób najmniej mówiących, 15 osób najwięcej mówiących, 15 osób mówiących najprostszym językiem (tzn. o najniższym FOG) i 15 osób mówiących najbardziej złożonym językiem (o najwyższym FOG). Jeżeli jakiś poseł nic nie powiedział w Sejmie to nie będzie go w tym zestawieniu.

Wersja wektorowa tej grafiki dostępna jest tutaj.

A poniżej tabela z liczbami dla każdego z posłów, posortowana po indeksie FOG.

 

Poseł Indeks FOG Liczba słów
Jan Tomaszewski 7,2 199
Grzegorz Matusiak 7,6 210
Cezary Grabarczyk 8,0 100
Jerzy Borowczak 8,0 461
Agnieszka Kozlowska-rajewicz 8,2 231
Malgorzata Marcinkiewicz 8,3 524
Michal Wojtkiewicz 8,3 4701
Arkady Fiedler 8,4 118
Kosma Zlotowski 8,4 3716
Marek Matuszewski 8,7 12467
Bozena Slawiak 8,8 951
Robert Telus 8,8 9665
Elzbieta Radziszewska 8,9 1824
Marek Kuchcinski 9,1 106
Mieczyslaw Golba 9,1 2968
Wojciech Jasinski 9,1 3106
Roman Jacek Kosecki 9,3 1457
Artur Dunin 9,4 6922
Cezary Tomczyk 9,4 3814
Marek Latas 9,4 1538
John Abraham Godson 9,5 1742
Marcin Mastalerek 9,5 674
Kazimierz Moskal 9,6 13310
Joanna Kluzik-Rostkowska 9,7 3440
Lech Kolakowski 9,7 573
Marek Poznanski 9,7 5125
Mariusz Orion Jedrysek 9,7 21289
Romuald Ajchler 9,7 57093
Armand Kamil Ryfinski 10,0 20102
Cezary Olejniczak 10,0 28186
Zbigniew Dolata 10,0 7289
Andrzej Rozenek 10,1 10148
Grzegorz Napieralski 10,1 3449
Konstanty Oswiecimski 10,1 3509
Leszek Jastrzebski 10,1 289
Malgorzata Adamczak 10,1 141
Boleslaw Grzegorz Piecha 10,2 13696
Czeslaw Czechyra 10,2 474
Jakub Rutnicki 10,2 2772
Joanna Fabisiak 10,2 5877
Zbigniew Babalski 10,2 9154
Grzegorz Raniewicz 10,3 1416
Roman Kotlinski 10,3 6204
Damian Raczkowski 10,4 259
Pawel Papke 10,4 458
Zbigniew Girzynski 10,4 3192
Jerzy Fedorowicz 10,5 1209
Stefan Niesiolowski 10,5 3356
Tomasz Tomczykiewicz 10,5 46
Andrzej Adamczyk 10,6 12530
Jacek Bogucki 10,6 30686
Jaroslaw Kaczynski 10,6 7523
Adam Kepinski 10,7 4188
Andrzej Piatak 10,7 74
Boguslaw Wontor 10,7 3240
Iwona Guzowska 10,7 976
Jozef Rojek 10,7 48500
Patryk Jaki 10,7 12754
Wojciech Saluga 10,7 1099
Adam Abramowicz 10,8 6429
Jan Bury 10,8 11924
Jerzy Materna 10,8 7007
Katarzyna Matusik-lipiec 10,8 641
Maciej Malecki 10,8 6578
Marzena Machalek 10,8 8108
Marzena Okla-drewnowicz 10,8 2783
Zbigniew Kuzmiuk 10,8 48871
Andrzej Duda 10,9 17901
Dorota Arciszewska-mielewczyk 10,9 3977
Franciszek Jerzy Stefaniuk 10,9 18173
Jadwiga Wisniewska 10,9 12279
Jan Dziedziczak 10,9 5802
Leszek Dobrzynski 10,9 4987
Ligia Krajewska 10,9 2584
Piotr Szeliga 10,9 52456
Slawomir Nowak 10,9 958
Adam Lipinski 11,0 704
Anna Elzbieta Sobecka 11,0 9374
Czeslaw Gluza 11,0 1145
Marek Wojtkowski 11,0 1332
Piotr Pawel Bauc 11,0 17779
Stanislaw Lamczyk 11,0 4409
Tomasz Kaminski 11,0 15017
Andrzej Dera 11,1 25570
Andrzej Halicki 11,1 6657
Dariusz Jonski 11,1 32823
Henryk Kowalczyk 11,1 18944
Jozef Lassota 11,1 16594
Kazimierz Golojuch 11,1 7163
Slawomir Klosowski 11,1 24268
Stanislaw Ozog 11,1 6628
Stanislaw Pieta 11,1 6849
Urszula Augustyn 11,1 7669
Andrzej Romanek 11,2 57645
Artur Debski 11,2 12147
Beata Mazurek 11,2 8123
Elzbieta Witek 11,2 5963
Grzegorz Schreiber 11,2 12928
Jan Ziobro 11,2 20165
Malgorzata Kidawa-blonska 11,2 1240
Mariusz Antoni Kaminski 11,2 4958
Michal Kabacinski 11,2 24670
Piotr Chmielowski 11,2 55066
Piotr Pyzik 11,2 21308
Tomasz Kaczmarek 11,2 743
Adam Kwiatkowski 11,3 3971
Antoni Macierewicz 11,3 9826
Izabela Leszczyna 11,3 12858
Jerzy Zyzynski 11,3 17751
Lech Sprawka 11,3 5588
Leszek Miller 11,3 13253
Maciej Zielinski 11,3 170
Marek Domaracki 11,3 9948
Maria Nowak 11,3 27780
Maria Zuba 11,3 18793
Piotr Polak 11,3 26062
Stanislaw Kalemba 11,3 8913
Stanislaw Zelichowski 11,3 9473
Waldemar Andzel 11,3 31833
Wlodzimierz Bernacki 11,3 3235
Adam Rogacki 11,4 5985
Anna Bankowska 11,4 25929
Bartosz Kownacki 11,4 8958
Elzbieta Rafalska 11,4 22580
Janusz Sniadek 11,4 7219
Leszek Aleksandrzak 11,4 12489
Ludwik Dorn 11,4 24653
Marek Suski 11,4 5717
Michal Jach 11,4 5847
Stanislaw Wziatek 11,4 7297
Tomasz Latos 11,4 11933
Wincenty Elsner 11,4 42647
Zbigniew Konwinski 11,4 3632
Bartlomiej Bodio 11,5 18423
Eugeniusz Klopotek 11,5 3268
Izabela Kloc 11,5 7416
Jan Cedzynski 11,5 5088
Krystyna Lybacka 11,5 19177
Mariusz Blaszczak 11,5 4313
Przemyslaw Wipler 11,5 17354
Slawomir Kopycinski 11,5 18078
Wanda Nowicka 11,5 199
Zbigniew Chmielowiec 11,5 10414
Arkadiusz Czartoryski 11,6 3737
Jan Kazmierczak 11,6 3486
Janusz Palikot 11,6 14578
Marek Balt 11,6 15228
Slawomir Neumann 11,6 6005
Andrzej Orzechowski 11,7 15488
Dariusz Bak 11,7 7645
Dariusz Piontkowski 11,7 10101
Iwona Sledzinska-katarasinska 11,7 9551
Jan Szyszko 11,7 14166
Krzysztof Szczerski 11,7 28528
Leszek Korzeniowski 11,7 3212
Pawel Arndt 11,7 7390
Piotr Walkowski 11,7 24731
Robert Biedron 11,7 24706
Robert Kropiwnicki 11,7 6085
Ryszard Kalisz 11,7 18407
Andrzej Dabrowski 11,8 14327
Beata Kempa 11,8 36761
Danuta Pietraszewska 11,8 2793
Janusz Cichon 11,8 15598
Joachim Brudzinski 11,8 3151
Jozefa Hrynkiewicz 11,8 13581
Katarzyna Hall 11,8 2846
Krzysztof Borkowski 11,8 11708
Maciej Lopinski 11,8 1825
Marek Opiola 11,8 799
Pawel Sajak 11,8 3738
Piotr Naimski 11,8 6287
Stanislaw Huskowski 11,8 3784
Tadeusz Iwinski 11,8 27360
Wieslaw Suchowiejko 11,8 8748
Zbigniew Pacelt 11,8 416
Zbyszek Zaborowski 11,8 15805
Artur Gorczynski 11,9 10983
Barbara Bartus 11,9 11660
Bogdan Rzonca 11,9 27311
Dariusz Cezar Dziadzio 11,9 20631
Henryk Kmiecik 11,9 5730
Jaroslaw Katulski 11,9 5514
Jaroslaw Rusiecki 11,9 1594
Malgorzata Sadurska 11,9 6493
Marzena Dorota Wrobel 11,9 26265
Piotr Van Der Coghen 11,9 5059
Ryszard Galla 11,9 2224
Waldy Dzikowski 11,9 3030
Andrzej Lewandowski 12,0 3968
Arkadiusz Mularczyk 12,0 18855
Czeslaw Hoc 12,0 15617
Jadwiga Zakrzewska 12,0 1464
Jaroslaw Zielinski 12,0 24783
Jerzy Borkowski 12,0 34550
Jerzy Budnik 12,0 3652
Jerzy Szmit 12,0 21781
Krzysztof Gadowski 12,0 12783
Miroslaw Kozlakiewicz 12,0 450
Szymon Gizynski 12,0 6731
Waldemar Slugocki 12,0 10422
Andrzej Jaworski 12,1 4434
Andrzej Szlachta 12,1 33733
Jacek Kwiatkowski 12,1 5138
Jacek Swiat 12,1 4059
Jolanta Szczypinska 12,1 5768
Marcin Witko 12,1 9421
Marek Rzasa 12,1 8372
Mieczyslaw Kasprzak 12,1 133
Miroslawa Nykiel 12,1 3681
Stanislaw Szwed 12,1 27608
Teresa Hoppe 12,1 7251
Bozenna Bukiewicz 12,2 2532
Domicela Kopaczewska 12,2 3996
Henryk Smolarz 12,2 11123
Jozef Zych 12,2 23709
Mieczyslaw Marcin Luczak 12,2 4894
Renata Butryn 12,2 6385
Tomasz Garbowski 12,2 4923
Tomasz Lenz 12,2 4298
Witold Czarnecki 12,2 2521
Andrzej Sztorc 12,3 4510
Anna Paluch 12,3 27306
Anna Zalewska 12,3 8292
Artur Gorski 12,3 18335
Artur Ostrowski 12,3 14155
Dariusz Seliga 12,3 1782
Elzbieta Gapinska 12,3 4535
Jan Warzecha 12,3 44940
Krystyna Pawlowicz 12,3 15132
Malgorzata Pepek 12,3 4537
Piotr Tomanski 12,3 5291
Bozena Szydlowska 12,4 4071
Cezary Kucharski 12,4 1203
Elzbieta Apolonia Pierzchala 12,4 896
Maciej Orzechowski 12,4 10174
Marek Ast 12,4 9866
Miroslaw Pawlak 12,4 5944
Stanislaw Zmijan 12,4 5655
Wojciech Ziemniak 12,4 1249
Zofia Popiolek 12,4 6311
Andrzej Bula 12,5 314
Gabriela Maslowska 12,5 17091
Jacek Najder 12,5 5740
Jerzy Wenderlich 12,5 2194
Krzysztof Popiolek 12,5 6967
Lidia Gadek 12,5 9594
Slawomir Kowalski 12,5 524
Anna Grodzka 12,6 5710
Artur Bramora 12,6 6304
Barbara Bubula 12,6 7374
Grzegorz Adam Wozniak 12,6 10981
Grzegorz Tobiszowski 12,6 4019
Krzysztof Tchorzewski 12,6 7523
Lucjan Marek Pietrzczyk 12,6 5658
Renata Zaremba 12,6 5587
Ryszard Zbrzyzny 12,6 61590
Anna Nems 12,7 22410
Henryk Siedlaczek 12,7 20995
Magdalena Kochan 12,7 14890
Marek Wojcik 12,7 4364
Mariusz Kaminski 12,7 1916
Ryszard Zawadzki 12,7 8928
Tomasz Piotr Nowak 12,7 12921
Wojciech Szarama 12,7 3196
Adam Szejnfeld 12,8 10509
Beata Szydlo 12,8 21046
Ewa Malik 12,8 7949
Ireneusz Ras 12,8 6870
Iwona Ewa Arent 12,8 3684
Jagna Marczulajtis-walczak 12,8 2193
Maciej Banaszak 12,8 8824
Maciej Mroczek 12,8 5730
Magdalena Gasior-marek 12,8 5739
Marek Krzakala 12,8 5965
Andrzej Czerwinski 12,9 11033
Halina Szymiec-raczynska 12,9 3140
Jerzy Rebek 12,9 18937
Krystyna Poslednia 12,9 3197
Miroslaw Pluta 12,9 3227
Stefan Strzalkowski 12,9 1662
Tadeusz Wozniak 12,9 22616
Zbigniew Sosnowski 12,9 7553
Ewa Kolodziej 13,0 7501
Ewa Zmuda-trzebiatowska 13,0 1520
Jaroslaw Pieta 13,0 7178
Jerzy Kozdron 13,0 17398
Jerzy Zietek 13,0 10170
Krystyna Klosin 13,0 5690
Krystyna Skowronska 13,0 33173
Krzysztof Brejza 13,0 1296
Marek Stolarski 13,0 2560
Stanislaw Piotrowicz 13,0 10770
Tomasz Makowski 13,0 19682
Zbigniew Rynasiewicz 13,0 4460
Beata Malecka-libera 13,1 5591
Edward Siarka 13,1 16621
Jacek Falfus 13,1 3283
Jan Krzysztof Ardanowski 13,1 18153
Kazimierz Ziobro 13,1 11544
Krzysztof Jurgiel 13,1 15652
Lukasz Gibala 13,1 25038
Lukasz Krupa 13,1 5677
Tomasz Kulesza 13,1 4344
Alicja Olechowska 13,2 4391
Andrzej Kania 13,2 6392
Anna Fotyga 13,2 7287
Grzegorz Schetyna 13,2 4190
Krzysztof Lipiec 13,2 8857
Lidia Staron 13,2 13866
Marek Hok 13,2 2430
Marian Cycon 13,2 14507
Tadeusz Arkit 13,2 13920
Tadeusz Tomaszewski 13,2 37752
Tomasz Gorski 13,2 5137
Andrzej Gut-mostowy 13,3 1104
Elzbieta Gelert 13,3 2147
Eugeniusz Czykwin 13,3 7716
Jacek Sasin 13,3 7127
Marcin Kierwinski 13,3 3017
Marek Polak 13,3 7209
Pawel Olszewski 13,3 158
Pawel Szalamacha 13,3 11835
Tadeusz Dziuba 13,3 4525
Wieslaw Stanislaw Janczyk 13,3 10160
Wojciech Zubowski 13,3 5424
Aleksandra Trybus 13,4 4661
Artur Gierada 13,4 6457
Dariusz Rosati 13,4 32420
Jacek Osuch 13,4 2483
Krzysztof Michalkiewicz 13,4 1394
Marcin Swiecicki 13,4 16849
Miron Sycz 13,4 3561
Pawel Suski 13,4 2544
Robert Kolakowski 13,4 396
Ryszard Terlecki 13,4 4168
Waldemar Pawlak 13,4 1884
Antoni Mezydlo 13,5 8717
Jacek Czerniak 13,5 8175
Jakub Szulc 13,5 7947
Kazimierz Michal Ujazdowski 13,5 7026
Killion Munyama 13,5 7158
Krystyna Ozga 13,5 10550
Marek Gos 13,5 27937
Mariusz Witczak 13,5 2945
Agnieszka Hanajczyk 13,6 3038
Borys Budka 13,6 4262
Dawid Jackiewicz 13,6 5175
Jan Lopata 13,6 26563
Jaroslaw Sellin 13,6 4593
Grzegorz Sztolcman 13,7 1101
Janusz Dzieciol 13,7 3812
Jaroslaw Zaczek 13,7 35643
Jerzy Polaczek 13,7 6478
Marek Biernacki 13,7 6676
Slawomir Zawislak 13,7 1178
Tadeusz Aziewicz 13,7 3633
Witold Waszczykowski 13,7 7535
Wojciech Penkalski 13,7 19009
Zenon Durka 13,7 1011
Adam Rybakowicz 13,8 8516
Alicja Dabrowska 13,8 1111
Elzbieta Kruk 13,8 1592
Halina Rozpondek 13,8 6798
Jacek Tomczak 13,8 3624
Jozef Racki 13,8 12336
Michal Jaros 13,8 3504
Rajmund Miller 13,8 2719
Teresa Piotrowska 13,8 5956
Tomasz Glogowski 13,8 2603
Bozena Kaminska 13,9 4811
Krzysztof Klosowski 13,9 10240
Lukasz Borowiak 13,9 7596
Rafal Grupinski 13,9 7518
Witold Klepacz 14,0 18201
Zofia Czernow 14,0 5259
Eugeniusz Tomasz Grzeszczak 14,1 830
Ewa Wolak 14,1 8381
Janina Okragly 14,1 5379
Slawomir Jan Piechota 14,1 12469
Agnieszka Kolacz-leszczynska 14,2 1342
Agnieszka Pomaska 14,2 11650
Andrzej Biernat 14,2 958
Beata Bublewicz 14,2 3262
Dorota Rutkowska 14,2 2845
Iwona Kozlowska 14,2 4283
Janusz Piechocinski 14,2 21384
Joanna Bobowska 14,2 5954
Mariusz Grad 14,2 156
Piotr Zgorzelski 14,2 9871
Zbigniew Wlodkowski 14,2 6279
Andrzej Betkowski 14,3 5573
Izabela Katarzyna Mrzyglocka 14,3 10842
Julia Pitera 14,3 900
Krystyna Sibinska 14,3 5593
Piotr Babinetz 14,3 9088
Malgorzata Niemczyk 14,4 576
Malgorzata Sekula-szmajdzinska 14,4 14897
Marek Sawicki 14,4 4946
Robert Wardzala 14,4 1510
Leonard Krasulski 14,5 498
Maks Kraczkowski 14,5 2017
Malgorzata Gosiewska 14,5 3487
Zofia Lawrynowicz 14,5 4075
Miroslaw Maliszewski 14,6 8169
Radoslaw Witkowski 14,6 3108
Andrzej Galazewski 14,7 7468
Barbara Czaplicka 14,7 636
Jaroslaw Gorczynski 14,8 14419
Lukasz Zbonikowski 14,8 10907
Marek Lapinski 14,8 4486
Michal Tomasz Pacholski 14,8 6956
Arkadiusz Litwinski 14,9 3986
Edward Czesak 14,9 4631
Maciej Wydrzynski 14,9 11240
Monika Wielichowska 14,9 6918
Piotr Cieslinski 14,9 1241
Zbigniew Matuszczak 15,0 12636
Michal Szczerba 15,2 11909
Stanislawa Przadka 15,3 6585
Tomasz Smolarz 15,3 2876
Tomasz Szymanski 15,4 8380
Genowefa Tokarska 15,5 16006
Robert Tyszkiewicz 15,5 3655
Dorota Niedziela 15,6 5121
Adam Zylinski 15,7 3194
Jaroslaw Tomasz Jagiello 15,7 2169
Leszek Blanik 15,7 1801
Ewa Drozd 15,9 2212
Elzbieta Achinger 16,0 1900
Jacek Brzezinka 16,1 3830
Witold Pahl 16,1 7274
Jaroslaw Charlampowicz 16,2 935
Konstanty Miodowicz 16,3 755
Marek Plura 16,5 4254
Roman Kaczor 16,6 2093
Maria Malgorzata Janyska 16,7 3831
Brygida Kolenda-labus 17,2 2349
Krzysztof Kwiatkowski 17,2 6012
Edmund Borawski 17,3 2905
Jacek Kozaczynski 18,0 1680

Kobiety kochają matematykę

W poprzednim tygodniu w środę odbyły się Flaszki, o których pisałem między innymi w tym wpisie (lokalne wydarzenie w stylu TED talks). Dwa wystąpienia poświęcone były nierównościom w szansach na dobrą pracę w IT dla kobiet. Drugie z wystąpień prowadzone było przez Kamilę Sidor, współzałożycielkę założycielkę serwisu Geek Girls Carrots. Pytanie, będące szkieletem prezentacji, brzmiało ,,Dlaczego jest tak mało kobiet w IT?”. Padły liczby: wśród najlepszych uczniów z matematyki w szkole średniej 50% to kobiety, a w branży IT kobiet jest 10% [Alek J podesłał ten link z dyskusją nt. tego wystąpienia]. Hmmm, w mojej głowie zaszczepiło się pytanie.

W gronie kobiet które znam są zarówno takie, które spełniają się pracując w domu przy dzieciach, jak i takie, które są prezesami, dyrektorkami, czy naukowcami. To jednak może nie jest najbardziej reprezentatywna grupa, spójrzmy więc na szanse kobiet szerzej. W najbliższy czwartek będzie 8 marca, święto kobiet. Może jest to dobry czas by spojrzeć z boku na liczby dotyczące różnic w traktowaniu kobiet. Nie szukając w nich dowodów na poparcie lub odrzucenie jakiejś tezy.

Dzisiaj przyjrzę się liczbie kobiet w gronie finalistek olimpiady matematycznej, liczbie kobiet studiujących na Wydziale Matematyki i Informatyki Uniwersytetu Warszawskiego, kobietom w polityce i kobietom w nauce. Temat kobiet planowany jest tez na wpisy środowy i piątkowy, więc jeżeli znacie ciekawe statystyki/opracowania dotyczące tego tematu to podzielcie się nimi w komentarzach.

Kobiety w gronie finalistek Olimpiady Matematycznej

W różnych pozycjach książkowych przeczytać można o większych umiejętnościach matematycznych wśród chłopców. Czy jest to jednak wynikiem wyłącznie propagandy? Nie mamy żadnych możliwości oddzielenia wpływu umiejętności matematycznych związanych z płcią a wpływu z różnic w traktowaniu młodych chłopców i młodych dziewczynek. Pozostaje tylko zobaczyć jaki jest stan obecny i jaki trend obserwuje się w ostatnich latach. Najchętniej przyjrzałbym się wynikom z matur, ale nie mam do nich dostępu. Zobaczmy więc jak wyglądają sukcesy kobiet w finałach Olimpiady Matematycznej.

Na stronach Olimpiady Matematycznej, można znaleźć listy finalistów z kolejnych lat wraz z informacją jaką szkołę finaliści reprezentują. Te dane zostały przetworzone, w wyniku czego dodałem nowy zbiór danych oraz wykonałem poniższą wizualizację.

[Rysunek 1. Podsumowanie obecności kobiet wśród finalistek Olimpiady Matematycznej. Górny wykres przedstawia udział kobiet w gronie finalistek z różnych województw. Procent kobiet wśród finalistek waha się od 1.4% do 17.8% czyli dosyć znacząco, ale trudno znaleźć wyraźny wzorzec przestrzenny, tłumaczący te różnice w udziale finalistek. Lewy dolny obrazek przedstawia zależność pomiędzy wielkością miasta a procentem kobiet wśród finalistów z tego miasta. Wielkość mierzona jest liczbą finalistów. Zauważyć można tendencję, że im większe miasto tym większy procent finalistów to kobiety. Niewielu jednak miastom udaje się przekroczyć 10% udziału kobiet. Ostatni wykres pokazuje procent kobiet w gronie finalistek jako funkcję roku w którym olimpiada miała miejsce. Zaznaczono trend liniowy jak i zastosowano lokalne wygładzanie.]

Patrząc na te wyniki zauważyć można dwie rzeczy. Po pierwsze zdecydowana większość finalistów to mężczyźni, kobiet wśród finalistów jest obecnie około 6-8%. Po drugie z czasem procent kobiet wzrasta, podobnie procent kobiet wśród finalistów wzrasta wraz z wielkością miasta, które reprezentują. Co sugeruje uwalnianie się potencjału kobiet tam gdzie indoktrynacja jest prawdopodobnie mniejsza. Do jakiej wartości można ,,dojść” mam nadzieję że się okaże.

Kobiety w gronie studentów Wydziału Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego

Zobaczmy teraz ile kobiet spotkamy wśród studentów na wydziale MIM UW. Dobry wydział na dobrej uczelni, dwa kierunki: matematyka i informatyka.

[Rysunek 2. Procent studentek wśród wszystkich studiujących na wydziale MIMUW, jako funkcja roku urodzenia. Dorysowano krzywą regresji liniowej aby podkreślić trend.]

Procent kobiet wśród studentów rośnie z czasem. Kryteria przyjęcia są takie same dla obu płci, więc zmieniające się proporcje świadczą o rosnącym zainteresowaniu kobiet studiowaniem matematyki i informatyki na solidnym poziomie.

Oczywiście procent kobiet wśród studentów różni się pomiędzy tymi dwom kierunkami. Ponieważ program studiów na wydziale MIMUW jest bardzo elastyczny, trudno jest jednoznacznie policzyć udział kobiet wśród studentów matematyki i informatyki osobno (są studia jednoczesne, ludzie się przepisują itp). Z grubsza na informatyce udział kobiet to małe kilkanaście procent a na matematyce jest to ponad 30%. Ale jak pisałem dokładne liczby trudno przytoczyć bez bezpośredniego dostępu do USOSa.

Kobiety wśród posłów VI kadencji Sejmu RP

Można zapytać, czy 25% kobiet w ostatnich rekrutacjach na wydział MIMWU to dużo czy mało. Porównajmy ją z udziałem kobiet w Sejmie VI kadencji.

Tutaj pozwolę sobie na mały komentarz. Określenie płci jest proste na podstawie imienia. Zazwyczaj wystarczy sprawdzić czy ostatnia litera imienia to 'a’. Popularnie wymieniane wyjątki to Bonawentura i Maria, tak więc w przypadku posłanek należy do tej reguły dopisać jeszcze jeden wyjątek, mianowicie Nelli.

W sejmie mamy więc 95 kobiet i 355 mężczyzn co daje 21% udziału kobiet w sejmie. Przypomnijmy, że wprowadzony półtora roku temu parytet wymagał by na listach wyborczych znajdowało się przynajmniej 35% kobiet.

Tak więc pomimo parytetu, w sejmie jest procentowo mniej kobiet niż wśród studentek matematyki i informatyki! 

Kobiety wśród ekspertów NCN

Jakiś czas temu przedstawialiśmy analizę listy ekspertów oceniających wnioski w konkursach na granty dla naukowców. Eksperci powinni być przedstawicielami najlepszych naukowców z różnych dziedzin. Wśród ekspertów NCN z roku 2011 kobiet było 109 a mężczyzn 406. Co daje 21% udziału kobiet wśród reprezentantów najlepszych naukowców.

Kobiety wśród moich dyplomantów

Od kilku lat prowadzę Pracownią Analiz Statystycznych i Konsultingu (PASIK, link tutaj) w ramach której studenci piszą u mnie pracę dyplomowe. Jaki procent z dyplomantów to kobiety?
Okazuje się, że 72%.  I jest to wynik najbliższy 50% ze wszystkich liczb przedstawionych w tym wpisie.

 

Aktywność polityków na Twitterze

Zacznę od krótkiego wyjaśnienia skąd pomysł na ten wpis. W komentarzach do piątkowego wpisu użytkownik @Maciej podał odnośnik do przykładowej analizy danych z Twittera z popularnego agregatu blogów o R, czyli R-bloggers. W odpowiedzi na ten komentarz użytkownik @mw zrobił mini profilowanie Martina, użytkownika, którego wpisy przedstawiono w tej przykładowej analizie. Hmmmm, może z takiej analizy aktywności da się coś odczytać.

Od jakiegoś czasu przymierzam się do analizy wypowiedzi polityków, czy to w sejmie, czy poza sejmem. Szukając rożnych materiałów w tym temacie znalazłem blog Michała Buchty z ruchu Autonomii Śląska, który zebrał tutaj nazwy użytkowników Twittera wybranych polityków.

Wykorzystując pakiet twitteR, o którym pisałem np. tutaj pobrałem wiadomości tych użytkowników stosując dwa filtry: interesują mnie wiadomości po 1 stycznia roku 2010 i z przyczyn technicznych nie więcej niż 1500 na jedną osobę (tylko kilku użytkowników miało więcej). Zebrane wiadomości w plikach tekstowych znajdują się w tym katalogu.

Dla każdego użytkownika z listy Michała Buchty zrobiłem rysunek przedstawiający jego aktywność na Twitterze. Każdy użytkownik przedstawiony jest na dwóch rysunkach, podsumowujących jego aktywność z dnia na dzień oraz informację w jakie dni i jakie godziny dana osoba pisze wiadomości.

Jak wygląda aktywność naszych polityków? W jakich godzinach piszą wiadomości? Czy ograniczają aktywność do 8 godzin przez 5 dni w tygodniu czy pracują dłużej? Czy mobilizują się do aktywności miesiąc przed wyborami czy też używają twittera na co dzień? O której wstają i o której kładą się spać. To wszystko można odczytać z poniższych wykresów (ok, trochę przesadzam, wiadomości z jednego konta wciąż mogą pochodzić od kilku różnych osób). Jeżeli ktoś zna aktualniejszą listę polityków lub chciałby wykonać aktualny przydział do partii to pomoc mile widziana. Zapraszam do umieszczania komentarzy co ciekawego można wyciągnąć z wiadomości z Twittera.

Przeglądając poniższe obrazki można zaobserwować kilka ciekawych profili pisania na Twitterze. Przez cały tydzień o każdej godzinie, po pracy, późno w nocy, tylko w środy, tylko w okresie wyborczym itp.

Linki

Kliknięcie na dowolną nazwę użytkownika otworzy rysunek o aktywności danego użytkownika. Kliknięcie rysunku rastrowego otworzy jego wersję wektorową. Na rysunkach przedstawiono dla każdego użytkownika liczbę wiadomości napisanych przez tego użytkownika w jednym dniu (lewy obrazek, każdy obrazek ma inną skalę kolorów przedstawioną po jego prawej stronie). Oraz informację w jakich godzinach w różnych dniach tygodnia dany użytkownik pisze wiadomości.

Kolejność i przyporządkowanie do partii zgodne z listą Michała Buchty. Przyporządkowanie do partii nie jest aktualne (np. Janusz Palikot nie jest w PO).

Platforma Obywatelska

@adamwarzecha, @aowczarczak, @ArekGodlewski, @arturgierada, @BarbaraKudrycka, @beatabublewicz, @CTomczyk, @DarekDolczewski, @EwaKopacz, @GKZorbas, @gornig, @HannaZdanowska, @janusz_sepiol, @JaroslawPieta, @JerzyBuzek, @joannabrodka, @johngodson, @jskrzydlewska, @komorowski, @ktyszkiewicz, @MaciejSonik, @MarekLapinski, @MichalSzczerba, @MichOwczarczak, @Mlynarczyk, @mmarcinkiewicz, @m_wieczorek, @orzechowski_m_b, @Palikot_Janusz, @Platforma_org, @PO_Gliwice, @pomaska, @PremierRP, @radwitkowski, @RafalBruski, @RenataZaremba, @SidoniaJ, @sikorskiradek, @SlawomirNitras, @SlawomirNowak, @StanislawKracik, @TomaszKacprzak, @TomaszSiemoniak

Prawo i Sprawiedliwość

@AdamHofman, @AndrzejDuda, @DawidJackiewicz, @girzynski, @jerzymaterna, @jkaczynski_info, @kaminskimichal, @KBienkowski, @kozakzbigniew, @kppis, @kpogorzelski, @LukasOprawski, @maciejowski_waw, @MarciniukTomasz, @MarekSuski, @mariuszkaminski, @mhorala, @mkraczkowski, @PatrykJaki, @pawelkowalpl, @PawelPoncyljusz, @PilchJacek, @r_czarnecki, @rafalrudnicki, @TomaszZdzikot

Polskie Stronnictwo Ludowe

@LudowcyPSL, @pawlakwaldemar

Prawica Rzeczypospolitej

@marekjurek

Socjaldemokracja Polska

@Filemonowicz

Sojusz Lewicy Demokratycznej

@Arlukowicz, @jszmajdzinski, @Joanna_Senyszyn, @gnapieralski, @mareksiwiec, @naczas, @rydlinski, @wolejniczak1

Stronnictwo Demokratyczne

@stronnictwo

Wolność i Praworządność

@korwinmikke

komitety niepartyjne

@katarzyna_munio, @KDombrowicz, @K_Morawiecki, @KonarskiLukasz, @krzprz1, @MarcinOciepa, @MarekLucyk, @MichalBuchta, @TomaszTutak

Grafiki

Kliknięcie na dowolny obrazek otworzy jego wersję wektorową. Znacznie czytelniejszą.

Na rysunkach przedstawiono dla każdego użytkownika liczbę wiadomości napisanych przez tego użytkownika w jednym dniu (lewy obrazek, każdy obrazek ma inną skalę kolorów przedstawioną po jego prawej stronie). Oraz informację w jakich godzinach w różnych dniach tygodnia dany użytkownik pisze wiadomości.

@adamwarzecha, Adam Warzecha, radny miasta Katowice


@aowczarczak, Agnieszka Owczarczyk, radna miasta Gdańsk


@ArekGodlewski, Arkadiusz Godlewski, kandydat na prezydenta miasta Katowice


@arturgierada, Artur Gierada, poseł z okręgu Kielce


@BarbaraKudrycka, Barbara Kudrycka, minister nauki i szkolnictwa wyższego


@beatabublewicz, Beata Bublewicz, posłanka z okręgu Olsztyn


@CTomczyk, Cezary Tomczyk, poseł z okręgu Sieradz


@DarekDolczewski, Dariusz Dolczewski, radny dzielnicy Białołęka (Warszawa)


@EwaKopacz, Ewa Kopacz, minister zdrowia


@GKZorbas, Grzegorz Kostrzewa Zorbas, radny sejmiku woj. mazowieckiego z okręgu nr 7, kandydat do Parlamentu Europejskiego z okręgu Warszawa I


@gornig, Kajetan Gornig, radny miasta Gliwice


@HannaZdanowska, Hanna Zdanowska, posłanka z okręgu Łódź


@janusz_sepiol, Janusz Sepioł, senator z okręgu Kraków


@JaroslawPieta, Jarosław Pięta, poseł z okręgu Sosnowiec


@JerzyBuzek, Jerzy Buzek, eurodeputowany z okręgu Katowice, przewodniczący Parlamentu Europejskiego


@joannabrodka, Joanna Bródka, kandydata na radną miasta Szczecin


@johngodson, John Godson, radny miasta Łódź


@jskrzydlewska, Joanna Skrzydlewska, eurodeputowana z okręgu Łódź


@komorowski, Bronisław Komorowski, prezydent RP


@ktyszkiewicz, Krzysztof Tyszkiewicz, poseł z okręgu Warszawa I


@MaciejSonik, Maciej Sonik, radny powiatu krapkowickiego


@MarekLapinski, Marek Łapiński, marszałek województwa dolnośląskiego, radny sejmiku z okręgu nr 2


@MichalSzczerba, Michał Szczerba, poseł z okręgu Warszawa I


@MichOwczarczak, Michał Owczarczak, wicewojewoda pomorski


@Mlynarczyk, Dariusz Młynarczyk, radny miasta Turek


@mmarcinkiewicz, Michał Marcinkiewicz, poseł z okręgu Szczecin


@m_wieczorek, Magdalena Wieczorek, radna miasta Katowice


@orzechowski_m_b, Maciej Orzechowski, poseł z okręgu Kalisz


@Palikot_Janusz, Janusz Palikot, poseł z okręgu Lublin


@Platforma_org, partia Platforma Obywatelska RP


@PO_Gliwice, PO Gliwice


@pomaska, Agnieszka Pomaska, posłanka z okręgu Gdańsk


@PremierRP, Kancelaria Premiera


@radwitkowski, Radosław Witkowski, poseł z okręgu Radom


@RafalBruski, Rafał Bruski, wojewoda kujawsko-pomorski, kandydat na prezydenta miasta Bydgoszcz


@RenataZaremba, Renata Zaremba, posłanka z okręgu Szczecin


@SidoniaJ, Sidonia Jędrzejewska, eurodeputowana z okręgu Poznań


@sikorskiradek, Radosław Sikorski, poseł z okręgu Bydgoszcz, minister spraw zagranicznych


@SlawomirNitras, Sławomir Nitras, eurodeputowany z okręgu Gorzów Wielkopolski


@SlawomirNowak, Sławomir Nowak, poseł z okręgu Gdańsk


@StanislawKracik, Stanisław Kracik, wojewoda małopolski, kandydat na prezydenta miasta Kraków


@TomaszKacprzak, Tomasz Kacprzak, radny miasta Łódź (przewodniczący rady)


@TomaszSiemoniak, Tomasz Siemoniak, wiceminister spraw wewnętrznych i administracji


@AdamHofman, Adam Hofman, poseł z okręgu Konin


@AndrzejDuda, Andrzej Duda, kandydat na prezydenta miasta Kraków


@DawidJackiewicz, Dawid Jackiewicz, poseł z okręgu Wrocław


@girzynski, Zbigniew Girzyński, poseł z okręgu Toruń


@jerzymaterna, Jerzy Materna, poseł z okręgu Zielona Góra


@jkaczynski_info, Jarosław Kaczyński, prezes partii, poseł z okręgu Warszawa I


@kaminskimichal, Michał Kamiński, eurodeputowany z okręgu Warszawa I


@KBienkowski, Krzysztof Bieńkowski, radny powiatu przasnyskiego (przewodniczący rady)


@kozakzbigniew,


@kppis, Klub Parlamentarny PiS


@kpogorzelski, Krzysztof Pogorzelski, kandydat do rady miasta Białystok


@LukasOprawski, Łukasz Oprawski, radny dzielnicy Żoliborz (Warszawa)


@maciejowski_waw, Maciej Maciejowski, radny miasta Warszawa


@MarciniukTomasz, Tomasz Marciniuk, radny powiatu siedleckiego


@MarekSuski, MarekSuski, poseł z okręgu Radom


@mariuszkaminski, Mariusz Kamiński, poseł z okręgu Białystok


@mhorala, Marcin Horała, radny miasta Gdynia


@mkraczkowski, Maks Kraczkowski, poseł z okręgu Piła


@PatrykJaki, Patryk Jaki, radny miasta Opole


@pawelkowalpl, Paweł Kowal, eurodeputowany z okręgu Kraków


@PawelPoncyljusz, Paweł Poncyljusz, poseł z okręgu Warszawa I


@PilchJacek, Jacek Pilch, poseł z okręgu Tarnów


@r_czarnecki, Ryszard Czarnecki, eurodeputowany z okręgu Bydgoszcz


@rafalrudnicki, Rafał Rudnicki, radny miasta Białystok


@TomaszZdzikot, Tomasz Zdzikot, radny miasta Warszawa


@LudowcyPSL, partia Polskie Stronnictwo Ludowe


@pawlakwaldemar, Waldemar Pawlak, wicepremier, minister gospodarki, poseł z okręgu Płock


@marekjurek, Marek Jurek, przewodniczący partii, kandydat na prezydenta (2010)


@Filemonowicz, Wojciech Filemonowicz, przewodniczący partii


@Arlukowicz, Bartosz Arłukowicz, poseł z okręgu Szczecin


@jszmajdzinski, Jerzy Szmajdziński, poseł z okręgu Legnica, kandydat na prezydenta


@Joanna_Senyszyn, Joanna Senyszyn, eurodeputowana z okręgu Kraków


@gnapieralski, Grzegorz Napieralski, poseł z okręgu Szczecin, przewodniczący partii


@mareksiwiec, Marek Siwiec, eurodeputowany z okręgu Poznań


@naczas, Łukasz Naczas, kandydat do Parlamentu Europejskiego z okręgu Poznań (2009), radny miasta Gniezno


@rydlinski, Bartosz Rydliński, kandydat do Parlamentu Europejskiego z okręgu Poznań (2009)


@wolejniczak1, Wojciech Olejniczak, eurodeputowany z okręgu Warszawa I


@stronnictwo, profil nieoficjalny


@korwinmikke, Janusz Korwin-Mikke, prezes partii, kandydat na prezydenta miasta Warszawa


@katarzyna_munio, Katarzyna Munio, kandydatka na prezydenta Warszawy


@KDombrowicz, Konstanty Dombrowicz, prezydent Bydgoszczy


@K_Morawiecki, Kornel Morawiecki, kandydat na prezydenta (2o10)


@KonarskiLukasz, Łukasz Konarski, radny Zawiercia, komitet wyborców „Porozumienie Samorządowe Jesteśmy Razem”


@krzprz1, Krzysztof Przybylak, radny miasta Wojkowice, komitet wyborców „Dla Wojkowic”


@MarcinOciepa, Marcin Ociepa, kandydat na prezydenta Opola


@MarekLucyk, Marek Łucyk, radny miasta Gdynia, komitet wyborców Wojciecha Szczurka


@MichalBuchta, Michał Buchta, kandydat na radnego sejmiku województwa śląskiego, Ruch Autonomii Śląska


@TomaszTutak, Tomasz Tutak, radny powiatu lęborskiego (okręg Łeba i Wicko), komitet wyborców „Ziemia Lęborska”

O czym się mówi w Sejmie i Senacie

Kontynuując wpis sprzed dwóch dni, dziś będzie o Sejmie i Senacie. Interesującym portalem nawiązującym do tematu smart voting jest Sejmometr (http://sejmometr.pl/). Umożliwia on obserwowanie prac Sejmu i Senatu. Niebawem dostępne będzie API pozwalające na automatyczny dostęp do zbieranych w ramach tego projektu danych. W bardzo estetyczny i łatwy w nawigacji sposób przedstawione są informacje o posłach i senatorach, ich wypowiedzi, wyniki głosowań itp. Bardzo ciekawy portal dla osób chcących być naprawdę na bieżąco.

Rzecz której mi brakuje to spojrzenie na prace sejmu ,,z lotu ptaka’’. Agregaty pozwalające na orientację co się działo przez ostatnie pół roku/dwa lata. Rozwiązania w stylu chmura tagów, z informacjami jakie tematy są najczęściej poruszane albo analiza częstości słów byłoby mile widziane. Tagi mogłyby być generowane automatycznie lub jeszcze lepiej, użytkownicy portalu mogliby otagowywać wystąpienia posłów. Poczekajmy więc na API i zobaczymy co w tym temacie można zrobić.

A w międzyczasie pokażę przykład analizy danych pochodzących ze stenogramów, z lotu bardzo wysoko latającego ptaka. Punktem wyjścia są dane z Korpusu Języka Polskiego (http://korpus.pl/), projektu rozwijanego przez IPIPAN. Wiele tekstów zostało poddanych analizie w ramach tego korpusu, między innymi stenogramy z posiedzeń Sejmu i Senatu. Dla każdego z posiedzeń, dla każdego (ok., dla większości) wypowiedzianego słowa przypisano odpowiedni fleksem, czyli jedną z ponad dwudziestu klas gramatycznych. Więcej informacji o fleksemach znaleźć można np. tutaj. Mamy więc zbiór danych dla 65 milionów słów wypowiedzianych przez 4 kadencje Sejmu i 4 kadencje Senatu z informacją do której klasy fleksyjnej (których klas) należy to słowo. Możemy teraz z takiego zbioru danych policzyć tablice rozdzielczą (krzyżową, kontyngencji, zwał jak zwał) z informacją w której kadencji Sejmu i Senatu padło ile słów z odpowiedniej klasy fleksyjnej (opisującej formę i znaczenie słowa). Tę tablicę liczb (27 x 8) umieściłem w pakiecie PBImisc programu R w zbiorze danych SejmSenat. Jak znaleźć wzorce w takiej tablicy 217 liczb? Użyjemy do tego celu analizy odpowiedniości / analizy korespondencji. Analiza ta pozwala na określenie, które wiersz (fleksemy) i kolumny (kadencje Sejmu i Senatu) mają podobne profile używalności słów a również które wiersze / kolumny współwystępują częściej niż wskazywałaby na to częstość występowania w języku. Trochę więcej o stronie technicznej później, a na razie zobaczmy wyniki analizy korespondencji na zbiorze danych o używalności klas fleksyjnych w stenogramach  Sejmu i Senatu.

[Rys. 1. Czerwone strzałki odpowiadają profilom stenogramów z posiedzeń Sejmu Senatu, niebieskie punkty odpowiadają profilom używalności fleksemów. Im bliższe zwroty tym większa zależność pomiędzy profilami. W analizie usunięto fleksem interp, ponieważ bardzo odstawał od pozostałych. Wersja png znajduje się tutaj. Warto ten wykres powiększyć by zobaczyć gdzie są jakie fleksemy, na szczęście jest to grafika wektorowa.]

Osie pozioma i pionowa odpowiadają dwóm automatycznie znalezionym komponentom. Tak się jednak składa, że te komponenty mają naturalną interpretację, którą łatwo odczytać z wykresu. Pierwszy komponent (oś pozioma) odpowiada za zmiany w używalności fleksemów pomiędzy Sejmem a Senatem. Im wyższa wartość pierwszej składowej, tym profil używalności bardziej charakterystyczny dla stenogramów z Senatu. Drugi komponent odpowiada za zmianę w używalności fleksemów z czasem, im wyższa wartość drugiej składowej tym profil bardziej charakterystyczny dla starszych  posiedzeń.

Pięknie. Skoro osie mają taką naturalną interpretację, to zobaczmy jakie fleksemy są częściej używane w Sejmie, a które w Senacie, które były częściej używane kiedyś a które obecnie.

Na osi poziomej dwa interesujące fleksemy to np. num i depr. Num to skrót od ,liczebnik główny’ a depr to skrót od rzeczownik deprecjatywny (najczęściej używany do oceny negatywnej).  To co można więc z wykresu łatwo odczytać (i sprawdzić ręcznie w tablicy kontyngencji) to, że w stenogramach z Senatu częściej występują liczebniki niż w stenogramach z Sejmu, widać więcej mówi się o liczbach, konkretach. W stenogramach z Sejmu częściej występują rzeczowniki w znaczeniu deprecjatywnym, widać atmosfera jest gorętsza.

Na osi pionowej interesujące fleksemy to np. winien i będzie. Skrót ‘winien’ odpowiada słowom typu ,winien’, ‘powinien’ itp., skrót ‘bedzie’ odpowiada przyszłej formie czasownika być. Kiedyś jak widać częściej w Sejmie i Senacie mówiło się o tym jak być powinno, tendencja jest tak aby częściej mówić o tym jak będzie.

Podsumowując. Można z danych o stenogramach szukać trendów widocznych w większej skali czasowej. Potrzebujemy tylko dostępu do przetworzonych stenogramów i pomysłu na to czego w tych stenogramach szukać.

W programie R jest kilka pakietów do analizy korespondencji, np., pakiet ca i anacor, można o nich przeczytać np. tutaj (pakiet anacor, pakiet ca). W tych artykułach przedstawione są zarówno  podstawy matematyczne jak i przykłady zastosowań. Technicznie, podobnie jak dla PCA, bazuje się na dekompozycji SVD, ale oczywiście ważne jest co chcemy dekomponować.

Kod R wraz z dokładniejszymi wynikami analizy korespondencji znajduje się tutaj.

 

 

Przyjąć czy odrzucić?

Dzieci śpią, czas przyjrzeć się jeszcze raz danym o głosowaniu posłów. Pewnie ostatni raz  przed ciszą wyborczą.

Dwa tematy są na taśmie, pierwszy to frekwencja posłów na głosowaniach a drugi to badanie koalicji i sojuszy w sejmie.

Zacznijmy od frekwencji. Na podstawie zbioru danych poslowieMeta zobaczmy na jakim procencie głosowań dany poseł był nieobecny. Wyniki przedstawimy w rozbiciu na ostatnią deklarowaną przez posła partię. Nazwiska i imiona posłów których nie było na ponad 42% głosowań wpiszemy na rysunku.

Nie jest tak źle, z niewielkimi wyjątkami posłowie uczestniczą w głosowaniach często. Najsumienniejsi są posłowie PO, którzy jak widać nie biorą w tym temacie przykładu z premiera.

Druga wizualizacja wymaga większego opisu, zacznijmy jednak od jej wklejenia.

Na powyższym wykresie są dwie panele, zacznijmy od omówienia górnego. Z 6583 głosowań większość dotyczyła przyjęcia lub odrzucenia jakiejś ustawy, poprawki, wniosku. Dokładnie rzecz biorąc 36.8% głosowań dotyczyło odrzucenia czegoś, 61.7% dotyczyło przyjęcia czegoś. Zobaczmy jak w czasie zmieniała się liczba głosowań za przyjęciem lub za odrzuceniem czegoś. Tak więc na osi OX mamy czas w którym odbyło się głosowanie. Osobno analizujemy głosowania za przyjęciem osobno za odrzuceniem. Znak x oznacza że danego dnia głosowano na dany temat a wielkość tego krzyżyka oznacza ile było głosowań tego dnia. Rekord padł 5 grudnia 2008 roku gdy to głosowano za przyjęciem 379 rzeczy i odrzuceniem 44 rzeczy. Grudzień poprzedniego roku był również pracowity 20 grudnia 2007 głosowano za przyjęciem 206 rzeczy. Legenda opisująca jak wielkość krzyżyka przełożyć na liczbę głosowań jest na górze. Szarymi krzywymi oznaczono estymatory jądrowe gęstości przedstawiające okresy szczególnie aktywne pod względem głosowań. Czerwona przerywana linia pokazuje których głosowań jest więcej, czy za przyjęciem czy za odrzuceniem.

Na dole tego wykresu pokazano koalicje. Koalicje wyznaczono następująco. Dla każdego miesiąca sprawdzono w których głosowaniach nie było zgodności pomiędzy posłami, czyli w których głosowaniach przynajmniej 10% posłów zagłosowało inaczej niż reszta. Bazując tylko na tych głosowaniach sprawdzono dla każdego głosowania i każdej partii czy posłowie tej partii głosowali podobnie. Dalej analizowane są tylko partie, które głosowały spójnie w głosowaniach gdzie pojawiała się różnica głosów. W ramach wybranego miesiąca liczona jest korelacja Pearsonowska pomiędzy głosami partii. Na bazie tej korelacji wyznaczany jest dendrogram który jest wykorzystywany do podziału partii na dwie grupy. I to sa grupy które są przedstawione na dolnym panelu.

Podsumowując. Dla każdego miesiąca wyznaczono partie i głosowania takie, że w ramach partii głosy były podobne, ale pomiędzy partiami się różniły. Następnie wykonano hierarchiczną analizę skupisk by określić które partie podobnie głosowały w danym roku. Uff. Zaskakujące jest, że jeżeli była duża różnica głosów w skali miesiąca to PiS i PO głosowali najczęściej różnie. To jest tym dziwniejsze, że programy tych partii nie różnią się aż tak diametralnie.

 

Team orders, czyli czy my potrzebujemy tylu posłów

Jak wygląda wybór posłów do sejmu wszyscy wiemy, możemy zakreślać dowolne nazwiska na liście ale w przecież nie wybieramy ludzi tylko kluby. Wybrani posłowie nie mają więc powodu do bycia wiernymi wyborcom ale władzom klubu. Co jakiś czas różne partie przebąkują o okręgach jednomandatowych w sejmie ale już chyba nikt nie wierzy w te deklaracje.

Zobaczmy jak samodzielnie głosują posłowie klubów. Dla każdego głosowania i każdego klubu biorącego udział w głosowaniu policzyłem jaki procent posłów zagłosowało tak samo jak większość posłów tego klubu. Oczywiście nawet jeżeli wszyscy posłowie klubu zagłosują tak samo to wcale nie znaczy, że są jakieś ,,rozkazy” klubowe, nie mniej samodzielnie myślące osoby muszą mieć czasami różne opinie. Zobaczmy więc jak to jest z tą samodzielnością.

Pierwsza rzecz, którą sprawdzimy to dla każdego klubu ile było takich głosowań, że wszyscy posłowie danego klubu głosowali tak samo.

(Należy zaznaczyć, że klub DKP nie istniał przez całą VI kadencję sejmu, licząc procent głosowań ograniczamy się tylko do głosowań podczas których posłowie tego klubu głosowali, podobnie dla pozostałych klubów).

I może jeszcze dla porównania zobaczmy ile było takich głosowań, że 90% posłów klubu głosowało tak samo

Jak widzimy, dla większości klubów w ponad 90% głosowań ponad 90% posłów głosowało tak samo. Czy my naprawdę potrzebujemy 460 posłów?

Zaskoczyć może też obserwacja, że PO głosuje bardziej jednorodnie niż PiS. Wydawać mogłoby się, że PiS głosuje tak jak chce prezes a PO to partia w której ceni się dyskusje i różnice głosów. Jak widać jednak gdy przychodzi do głosowań w Sejmie to żadna duża partia nie pozostawia wiele miejsca na demokrację.

Oczywiście 90% dla małego klubu i 90% dla dużego klubu to dwie różne wartości. Zobaczmy więc jak spójność głosowań ma się do wielkości klubu

Utrzymanie 100% zgodności dla dużego klubu jest prawie niemożliwe (przynajmniej w teorii, w praktyce to , więc około 70% głosowań), dlatego ciekawsze wyniki są dla 90% zgodności w klubie.

Można by przypuszczać że tak wysoka zgodność wynika z tego, że temat do głosowania jest oczywisty dla posłów i nie powinno zaskakiwać, że głosują tak samo. Weźmy więc dwa największe kluby i zobaczmy jak ich głosy sa zgodne.

Zaczniemy od obrazka, każdy punkt to głosowanie, na osi OX zaznaczono jaki procent posłów z PiS głosował za na tym głosowaniu, na osi OY jako procent posłów z PO głosował za.

Widać że zazwyczaj kluby głosują za lub przeciw. Opiszmy więc ten obrazek za pomocą 9 liczb. Podzielmy głosowania na 3 kategorie dla każdego z klubów, oznaczające czy nie więcej niż 10% posłów z klubu było za, czy od 10 do 90% było za i czy powyżej 90% było za.

Otrzymamy taką tabelkę

Czytaj dalej Team orders, czyli czy my potrzebujemy tylu posłów

(Klubowe) wędrówki posłów

Wczoraj dodałem zbiór danych o głosowaniach w VI kadencji Sejmu. Przy okazji w tym zbiorze znajdują się również informacje o afiliacji posłów podczas głosowań. Część posłów zmieniała swoje barwy klubowe, niektóry nawet kilka razy. Poniżej tabelka z liczbą posłów która w trakcie VI kadencji należała do x różnych partii.

Zbiór danych opisujący głosowania posłów VI kadencji

Dziś bardzo smakowity zbiór danych. Wybory za kilka dni więc mam nadzieje, że uda się przed wyborami przygotować jeszcze jakąś wizualizacje.

Ale od początku. Kilka dni temu znalazłem blog  Januarego Weinera na którym autor umieścił interesująca analizę danych o głosowaniach posłów VI kadencji. Link do tego wpisu jest tutaj: http://biokompost.wordpress.com/2011/10/01/statystyczna-mapa-sejmu/. Znajdziecie na tym blogu kilka interesujących wizualizacji, głównie badających na ile podobnie głosowali rożni posłowie. Jest też filmik pokazujący zmiany w czasie, wszystko z użyciem podstawowych technik redukcji wymiaru więc warto przeczytać.

Zapytałem Januarego o te dane i wczoraj je dostałem. Mamy więc pierwszy zbiór danych, którego sam nie zebrałem, mam nadzieje że to pierwszy z wielu. Dane są jak już wspomniałem super ciekawe, zostały wyciągnięte ze strony orka.sejm.gov.pl a następnie wyczyszczone. Skrypt R wczytujący te dane znajdziecie tutaj. Katalog z danymi w postaci tekstowej znajdziecie tutaj. Wizualizacje dotyczące tego zbioru pojawią się wkrótce.

Btw: w rozwiniętych demokracjach rząd udostępnia dane dotyczące głosowań w postaci łatwo dostępnej (czyli nie kolekcja pdf’ów), dotyczące prac nad ustawami it. Dane udostępnia i wykonuje jakieś wstępne analizy, np: http://www.govtrack.us/congress/repstats.xpd.