Jakiś czas temu natrafiłem na opis indeksu czytelności Flescha. To współczynnik przyjmujący wartości od 0 do 100 opisujący stopień złożoności angielskiego tekstu. Im czytelniejszy tekst tym wyższa wartość tego indeksu. Współczynnik użyteczny, jeżeli chce się pisać prostym, czytelnym językiem. Pozwala na proste mierzenie czytelności własnych tekstów.
Indeks Flescha wyznacza się w dosyć prosty sposób, na podstawie liczby sylab, słów i zdań. Ponieważ temat badania złożoności (wszystkiego) języka mnie interesuje, poszperałem dalej. Okazuje się, że indeksów badających czytelność jest znacznie więcej, choć większość z tych na które trafiłem jest skalibrowana dla języka angielskiego.
Dla języka polskiego znalazłem indeks czytelności fog, który jest adaptacją indeksu fog zaproponowanego przez Roberta Gunninga dla języka angielskiego.
Za trudne słowo w języku polskim uznawane są słowa czterosylabowe i dłuższe, tak przynajmniej twierdzi Wikipedia.
Indeks FOG przyjmuje wartości powyżej 0, nie ma górnej granicy.
Dla większość tekstów ten indeks przyjmuje wartości od 6 do 18 i czasem przypisuje mu się następującą interpretację.
Tekst o indeksie FOG równym X jest zrozumiały dla osoby o przynajmniej X latach edukacji.
[Złośliwi w tym miejscu pytają, czy jeżeli ktoś przez 3 lata robił szóstą klasę to czy liczyć to jako trzy lata edukacji czy jeden rok]
Jest to oczywiście bardzo zgrubne przybliżenie, ale niewątpliwie długie zdania najeżone trudnymi słowami są trudniejsze do zrozumienia i ten indeks taką złożoność wyłapuje.
Zgodnie z Wikipedią, gazeta Fakt ma indeks czytelności FOG na poziomie 7, tygodnik Newsweek około 12, zaś teksty prawne mają FOG na poziomie 20.
Sprawdziłem moje książki (obie mają FOG w okolicach 15.5, czyli więcej niżbym chciał) i blogi (różnie, ale w okolicach 12).
Ten wpis ma indeks FOG 9.5.
Co by tu jeszcze sprawdzić? (tak, tak, masz młotek i wszystko wygląda jak gwóźdź).
Akurat, jakiś czas temu interesowały mnie stenogramy z posiedzeń sejmowych…
Na tej stronie dostępne są stenogramy z posiedzeń Sejmu, można z nich wyciągnąć wypowiedzi posłów na posiedzeniach Sejmu tej kadencji [Technicznie są to przetranskrybowane stenogramy czyli po prostu wypowiedzi posłów]. Ściągnąłem je, posklejałem, wyczyściłem i dla każdego posła, który miał przynajmniej jedno długie wystąpienie, wyznaczyłem liczbę wypowiedzianych słów i indeks FOG złożoności wypowiedzi danego posła.
Zobaczmy na wykresie jak wyglądają te dwie cechy. Na wykres naniesiono również nazwiska posłów, którzy załapali się do grupy: 15 osób najmniej mówiących, 15 osób najwięcej mówiących, 15 osób mówiących najprostszym językiem (tzn. o najniższym FOG) i 15 osób mówiących najbardziej złożonym językiem (o najwyższym FOG). Jeżeli jakiś poseł nic nie powiedział w Sejmie to nie będzie go w tym zestawieniu.
Wersja wektorowa tej grafiki dostępna jest tutaj.
A poniżej tabela z liczbami dla każdego z posłów, posortowana po indeksie FOG.
Poseł | Indeks FOG | Liczba słów |
Jan Tomaszewski | 7,2 | 199 |
Grzegorz Matusiak | 7,6 | 210 |
Cezary Grabarczyk | 8,0 | 100 |
Jerzy Borowczak | 8,0 | 461 |
Agnieszka Kozlowska-rajewicz | 8,2 | 231 |
Malgorzata Marcinkiewicz | 8,3 | 524 |
Michal Wojtkiewicz | 8,3 | 4701 |
Arkady Fiedler | 8,4 | 118 |
Kosma Zlotowski | 8,4 | 3716 |
Marek Matuszewski | 8,7 | 12467 |
Bozena Slawiak | 8,8 | 951 |
Robert Telus | 8,8 | 9665 |
Elzbieta Radziszewska | 8,9 | 1824 |
Marek Kuchcinski | 9,1 | 106 |
Mieczyslaw Golba | 9,1 | 2968 |
Wojciech Jasinski | 9,1 | 3106 |
Roman Jacek Kosecki | 9,3 | 1457 |
Artur Dunin | 9,4 | 6922 |
Cezary Tomczyk | 9,4 | 3814 |
Marek Latas | 9,4 | 1538 |
John Abraham Godson | 9,5 | 1742 |
Marcin Mastalerek | 9,5 | 674 |
Kazimierz Moskal | 9,6 | 13310 |
Joanna Kluzik-Rostkowska | 9,7 | 3440 |
Lech Kolakowski | 9,7 | 573 |
Marek Poznanski | 9,7 | 5125 |
Mariusz Orion Jedrysek | 9,7 | 21289 |
Romuald Ajchler | 9,7 | 57093 |
Armand Kamil Ryfinski | 10,0 | 20102 |
Cezary Olejniczak | 10,0 | 28186 |
Zbigniew Dolata | 10,0 | 7289 |
Andrzej Rozenek | 10,1 | 10148 |
Grzegorz Napieralski | 10,1 | 3449 |
Konstanty Oswiecimski | 10,1 | 3509 |
Leszek Jastrzebski | 10,1 | 289 |
Malgorzata Adamczak | 10,1 | 141 |
Boleslaw Grzegorz Piecha | 10,2 | 13696 |
Czeslaw Czechyra | 10,2 | 474 |
Jakub Rutnicki | 10,2 | 2772 |
Joanna Fabisiak | 10,2 | 5877 |
Zbigniew Babalski | 10,2 | 9154 |
Grzegorz Raniewicz | 10,3 | 1416 |
Roman Kotlinski | 10,3 | 6204 |
Damian Raczkowski | 10,4 | 259 |
Pawel Papke | 10,4 | 458 |
Zbigniew Girzynski | 10,4 | 3192 |
Jerzy Fedorowicz | 10,5 | 1209 |
Stefan Niesiolowski | 10,5 | 3356 |
Tomasz Tomczykiewicz | 10,5 | 46 |
Andrzej Adamczyk | 10,6 | 12530 |
Jacek Bogucki | 10,6 | 30686 |
Jaroslaw Kaczynski | 10,6 | 7523 |
Adam Kepinski | 10,7 | 4188 |
Andrzej Piatak | 10,7 | 74 |
Boguslaw Wontor | 10,7 | 3240 |
Iwona Guzowska | 10,7 | 976 |
Jozef Rojek | 10,7 | 48500 |
Patryk Jaki | 10,7 | 12754 |
Wojciech Saluga | 10,7 | 1099 |
Adam Abramowicz | 10,8 | 6429 |
Jan Bury | 10,8 | 11924 |
Jerzy Materna | 10,8 | 7007 |
Katarzyna Matusik-lipiec | 10,8 | 641 |
Maciej Malecki | 10,8 | 6578 |
Marzena Machalek | 10,8 | 8108 |
Marzena Okla-drewnowicz | 10,8 | 2783 |
Zbigniew Kuzmiuk | 10,8 | 48871 |
Andrzej Duda | 10,9 | 17901 |
Dorota Arciszewska-mielewczyk | 10,9 | 3977 |
Franciszek Jerzy Stefaniuk | 10,9 | 18173 |
Jadwiga Wisniewska | 10,9 | 12279 |
Jan Dziedziczak | 10,9 | 5802 |
Leszek Dobrzynski | 10,9 | 4987 |
Ligia Krajewska | 10,9 | 2584 |
Piotr Szeliga | 10,9 | 52456 |
Slawomir Nowak | 10,9 | 958 |
Adam Lipinski | 11,0 | 704 |
Anna Elzbieta Sobecka | 11,0 | 9374 |
Czeslaw Gluza | 11,0 | 1145 |
Marek Wojtkowski | 11,0 | 1332 |
Piotr Pawel Bauc | 11,0 | 17779 |
Stanislaw Lamczyk | 11,0 | 4409 |
Tomasz Kaminski | 11,0 | 15017 |
Andrzej Dera | 11,1 | 25570 |
Andrzej Halicki | 11,1 | 6657 |
Dariusz Jonski | 11,1 | 32823 |
Henryk Kowalczyk | 11,1 | 18944 |
Jozef Lassota | 11,1 | 16594 |
Kazimierz Golojuch | 11,1 | 7163 |
Slawomir Klosowski | 11,1 | 24268 |
Stanislaw Ozog | 11,1 | 6628 |
Stanislaw Pieta | 11,1 | 6849 |
Urszula Augustyn | 11,1 | 7669 |
Andrzej Romanek | 11,2 | 57645 |
Artur Debski | 11,2 | 12147 |
Beata Mazurek | 11,2 | 8123 |
Elzbieta Witek | 11,2 | 5963 |
Grzegorz Schreiber | 11,2 | 12928 |
Jan Ziobro | 11,2 | 20165 |
Malgorzata Kidawa-blonska | 11,2 | 1240 |
Mariusz Antoni Kaminski | 11,2 | 4958 |
Michal Kabacinski | 11,2 | 24670 |
Piotr Chmielowski | 11,2 | 55066 |
Piotr Pyzik | 11,2 | 21308 |
Tomasz Kaczmarek | 11,2 | 743 |
Adam Kwiatkowski | 11,3 | 3971 |
Antoni Macierewicz | 11,3 | 9826 |
Izabela Leszczyna | 11,3 | 12858 |
Jerzy Zyzynski | 11,3 | 17751 |
Lech Sprawka | 11,3 | 5588 |
Leszek Miller | 11,3 | 13253 |
Maciej Zielinski | 11,3 | 170 |
Marek Domaracki | 11,3 | 9948 |
Maria Nowak | 11,3 | 27780 |
Maria Zuba | 11,3 | 18793 |
Piotr Polak | 11,3 | 26062 |
Stanislaw Kalemba | 11,3 | 8913 |
Stanislaw Zelichowski | 11,3 | 9473 |
Waldemar Andzel | 11,3 | 31833 |
Wlodzimierz Bernacki | 11,3 | 3235 |
Adam Rogacki | 11,4 | 5985 |
Anna Bankowska | 11,4 | 25929 |
Bartosz Kownacki | 11,4 | 8958 |
Elzbieta Rafalska | 11,4 | 22580 |
Janusz Sniadek | 11,4 | 7219 |
Leszek Aleksandrzak | 11,4 | 12489 |
Ludwik Dorn | 11,4 | 24653 |
Marek Suski | 11,4 | 5717 |
Michal Jach | 11,4 | 5847 |
Stanislaw Wziatek | 11,4 | 7297 |
Tomasz Latos | 11,4 | 11933 |
Wincenty Elsner | 11,4 | 42647 |
Zbigniew Konwinski | 11,4 | 3632 |
Bartlomiej Bodio | 11,5 | 18423 |
Eugeniusz Klopotek | 11,5 | 3268 |
Izabela Kloc | 11,5 | 7416 |
Jan Cedzynski | 11,5 | 5088 |
Krystyna Lybacka | 11,5 | 19177 |
Mariusz Blaszczak | 11,5 | 4313 |
Przemyslaw Wipler | 11,5 | 17354 |
Slawomir Kopycinski | 11,5 | 18078 |
Wanda Nowicka | 11,5 | 199 |
Zbigniew Chmielowiec | 11,5 | 10414 |
Arkadiusz Czartoryski | 11,6 | 3737 |
Jan Kazmierczak | 11,6 | 3486 |
Janusz Palikot | 11,6 | 14578 |
Marek Balt | 11,6 | 15228 |
Slawomir Neumann | 11,6 | 6005 |
Andrzej Orzechowski | 11,7 | 15488 |
Dariusz Bak | 11,7 | 7645 |
Dariusz Piontkowski | 11,7 | 10101 |
Iwona Sledzinska-katarasinska | 11,7 | 9551 |
Jan Szyszko | 11,7 | 14166 |
Krzysztof Szczerski | 11,7 | 28528 |
Leszek Korzeniowski | 11,7 | 3212 |
Pawel Arndt | 11,7 | 7390 |
Piotr Walkowski | 11,7 | 24731 |
Robert Biedron | 11,7 | 24706 |
Robert Kropiwnicki | 11,7 | 6085 |
Ryszard Kalisz | 11,7 | 18407 |
Andrzej Dabrowski | 11,8 | 14327 |
Beata Kempa | 11,8 | 36761 |
Danuta Pietraszewska | 11,8 | 2793 |
Janusz Cichon | 11,8 | 15598 |
Joachim Brudzinski | 11,8 | 3151 |
Jozefa Hrynkiewicz | 11,8 | 13581 |
Katarzyna Hall | 11,8 | 2846 |
Krzysztof Borkowski | 11,8 | 11708 |
Maciej Lopinski | 11,8 | 1825 |
Marek Opiola | 11,8 | 799 |
Pawel Sajak | 11,8 | 3738 |
Piotr Naimski | 11,8 | 6287 |
Stanislaw Huskowski | 11,8 | 3784 |
Tadeusz Iwinski | 11,8 | 27360 |
Wieslaw Suchowiejko | 11,8 | 8748 |
Zbigniew Pacelt | 11,8 | 416 |
Zbyszek Zaborowski | 11,8 | 15805 |
Artur Gorczynski | 11,9 | 10983 |
Barbara Bartus | 11,9 | 11660 |
Bogdan Rzonca | 11,9 | 27311 |
Dariusz Cezar Dziadzio | 11,9 | 20631 |
Henryk Kmiecik | 11,9 | 5730 |
Jaroslaw Katulski | 11,9 | 5514 |
Jaroslaw Rusiecki | 11,9 | 1594 |
Malgorzata Sadurska | 11,9 | 6493 |
Marzena Dorota Wrobel | 11,9 | 26265 |
Piotr Van Der Coghen | 11,9 | 5059 |
Ryszard Galla | 11,9 | 2224 |
Waldy Dzikowski | 11,9 | 3030 |
Andrzej Lewandowski | 12,0 | 3968 |
Arkadiusz Mularczyk | 12,0 | 18855 |
Czeslaw Hoc | 12,0 | 15617 |
Jadwiga Zakrzewska | 12,0 | 1464 |
Jaroslaw Zielinski | 12,0 | 24783 |
Jerzy Borkowski | 12,0 | 34550 |
Jerzy Budnik | 12,0 | 3652 |
Jerzy Szmit | 12,0 | 21781 |
Krzysztof Gadowski | 12,0 | 12783 |
Miroslaw Kozlakiewicz | 12,0 | 450 |
Szymon Gizynski | 12,0 | 6731 |
Waldemar Slugocki | 12,0 | 10422 |
Andrzej Jaworski | 12,1 | 4434 |
Andrzej Szlachta | 12,1 | 33733 |
Jacek Kwiatkowski | 12,1 | 5138 |
Jacek Swiat | 12,1 | 4059 |
Jolanta Szczypinska | 12,1 | 5768 |
Marcin Witko | 12,1 | 9421 |
Marek Rzasa | 12,1 | 8372 |
Mieczyslaw Kasprzak | 12,1 | 133 |
Miroslawa Nykiel | 12,1 | 3681 |
Stanislaw Szwed | 12,1 | 27608 |
Teresa Hoppe | 12,1 | 7251 |
Bozenna Bukiewicz | 12,2 | 2532 |
Domicela Kopaczewska | 12,2 | 3996 |
Henryk Smolarz | 12,2 | 11123 |
Jozef Zych | 12,2 | 23709 |
Mieczyslaw Marcin Luczak | 12,2 | 4894 |
Renata Butryn | 12,2 | 6385 |
Tomasz Garbowski | 12,2 | 4923 |
Tomasz Lenz | 12,2 | 4298 |
Witold Czarnecki | 12,2 | 2521 |
Andrzej Sztorc | 12,3 | 4510 |
Anna Paluch | 12,3 | 27306 |
Anna Zalewska | 12,3 | 8292 |
Artur Gorski | 12,3 | 18335 |
Artur Ostrowski | 12,3 | 14155 |
Dariusz Seliga | 12,3 | 1782 |
Elzbieta Gapinska | 12,3 | 4535 |
Jan Warzecha | 12,3 | 44940 |
Krystyna Pawlowicz | 12,3 | 15132 |
Malgorzata Pepek | 12,3 | 4537 |
Piotr Tomanski | 12,3 | 5291 |
Bozena Szydlowska | 12,4 | 4071 |
Cezary Kucharski | 12,4 | 1203 |
Elzbieta Apolonia Pierzchala | 12,4 | 896 |
Maciej Orzechowski | 12,4 | 10174 |
Marek Ast | 12,4 | 9866 |
Miroslaw Pawlak | 12,4 | 5944 |
Stanislaw Zmijan | 12,4 | 5655 |
Wojciech Ziemniak | 12,4 | 1249 |
Zofia Popiolek | 12,4 | 6311 |
Andrzej Bula | 12,5 | 314 |
Gabriela Maslowska | 12,5 | 17091 |
Jacek Najder | 12,5 | 5740 |
Jerzy Wenderlich | 12,5 | 2194 |
Krzysztof Popiolek | 12,5 | 6967 |
Lidia Gadek | 12,5 | 9594 |
Slawomir Kowalski | 12,5 | 524 |
Anna Grodzka | 12,6 | 5710 |
Artur Bramora | 12,6 | 6304 |
Barbara Bubula | 12,6 | 7374 |
Grzegorz Adam Wozniak | 12,6 | 10981 |
Grzegorz Tobiszowski | 12,6 | 4019 |
Krzysztof Tchorzewski | 12,6 | 7523 |
Lucjan Marek Pietrzczyk | 12,6 | 5658 |
Renata Zaremba | 12,6 | 5587 |
Ryszard Zbrzyzny | 12,6 | 61590 |
Anna Nems | 12,7 | 22410 |
Henryk Siedlaczek | 12,7 | 20995 |
Magdalena Kochan | 12,7 | 14890 |
Marek Wojcik | 12,7 | 4364 |
Mariusz Kaminski | 12,7 | 1916 |
Ryszard Zawadzki | 12,7 | 8928 |
Tomasz Piotr Nowak | 12,7 | 12921 |
Wojciech Szarama | 12,7 | 3196 |
Adam Szejnfeld | 12,8 | 10509 |
Beata Szydlo | 12,8 | 21046 |
Ewa Malik | 12,8 | 7949 |
Ireneusz Ras | 12,8 | 6870 |
Iwona Ewa Arent | 12,8 | 3684 |
Jagna Marczulajtis-walczak | 12,8 | 2193 |
Maciej Banaszak | 12,8 | 8824 |
Maciej Mroczek | 12,8 | 5730 |
Magdalena Gasior-marek | 12,8 | 5739 |
Marek Krzakala | 12,8 | 5965 |
Andrzej Czerwinski | 12,9 | 11033 |
Halina Szymiec-raczynska | 12,9 | 3140 |
Jerzy Rebek | 12,9 | 18937 |
Krystyna Poslednia | 12,9 | 3197 |
Miroslaw Pluta | 12,9 | 3227 |
Stefan Strzalkowski | 12,9 | 1662 |
Tadeusz Wozniak | 12,9 | 22616 |
Zbigniew Sosnowski | 12,9 | 7553 |
Ewa Kolodziej | 13,0 | 7501 |
Ewa Zmuda-trzebiatowska | 13,0 | 1520 |
Jaroslaw Pieta | 13,0 | 7178 |
Jerzy Kozdron | 13,0 | 17398 |
Jerzy Zietek | 13,0 | 10170 |
Krystyna Klosin | 13,0 | 5690 |
Krystyna Skowronska | 13,0 | 33173 |
Krzysztof Brejza | 13,0 | 1296 |
Marek Stolarski | 13,0 | 2560 |
Stanislaw Piotrowicz | 13,0 | 10770 |
Tomasz Makowski | 13,0 | 19682 |
Zbigniew Rynasiewicz | 13,0 | 4460 |
Beata Malecka-libera | 13,1 | 5591 |
Edward Siarka | 13,1 | 16621 |
Jacek Falfus | 13,1 | 3283 |
Jan Krzysztof Ardanowski | 13,1 | 18153 |
Kazimierz Ziobro | 13,1 | 11544 |
Krzysztof Jurgiel | 13,1 | 15652 |
Lukasz Gibala | 13,1 | 25038 |
Lukasz Krupa | 13,1 | 5677 |
Tomasz Kulesza | 13,1 | 4344 |
Alicja Olechowska | 13,2 | 4391 |
Andrzej Kania | 13,2 | 6392 |
Anna Fotyga | 13,2 | 7287 |
Grzegorz Schetyna | 13,2 | 4190 |
Krzysztof Lipiec | 13,2 | 8857 |
Lidia Staron | 13,2 | 13866 |
Marek Hok | 13,2 | 2430 |
Marian Cycon | 13,2 | 14507 |
Tadeusz Arkit | 13,2 | 13920 |
Tadeusz Tomaszewski | 13,2 | 37752 |
Tomasz Gorski | 13,2 | 5137 |
Andrzej Gut-mostowy | 13,3 | 1104 |
Elzbieta Gelert | 13,3 | 2147 |
Eugeniusz Czykwin | 13,3 | 7716 |
Jacek Sasin | 13,3 | 7127 |
Marcin Kierwinski | 13,3 | 3017 |
Marek Polak | 13,3 | 7209 |
Pawel Olszewski | 13,3 | 158 |
Pawel Szalamacha | 13,3 | 11835 |
Tadeusz Dziuba | 13,3 | 4525 |
Wieslaw Stanislaw Janczyk | 13,3 | 10160 |
Wojciech Zubowski | 13,3 | 5424 |
Aleksandra Trybus | 13,4 | 4661 |
Artur Gierada | 13,4 | 6457 |
Dariusz Rosati | 13,4 | 32420 |
Jacek Osuch | 13,4 | 2483 |
Krzysztof Michalkiewicz | 13,4 | 1394 |
Marcin Swiecicki | 13,4 | 16849 |
Miron Sycz | 13,4 | 3561 |
Pawel Suski | 13,4 | 2544 |
Robert Kolakowski | 13,4 | 396 |
Ryszard Terlecki | 13,4 | 4168 |
Waldemar Pawlak | 13,4 | 1884 |
Antoni Mezydlo | 13,5 | 8717 |
Jacek Czerniak | 13,5 | 8175 |
Jakub Szulc | 13,5 | 7947 |
Kazimierz Michal Ujazdowski | 13,5 | 7026 |
Killion Munyama | 13,5 | 7158 |
Krystyna Ozga | 13,5 | 10550 |
Marek Gos | 13,5 | 27937 |
Mariusz Witczak | 13,5 | 2945 |
Agnieszka Hanajczyk | 13,6 | 3038 |
Borys Budka | 13,6 | 4262 |
Dawid Jackiewicz | 13,6 | 5175 |
Jan Lopata | 13,6 | 26563 |
Jaroslaw Sellin | 13,6 | 4593 |
Grzegorz Sztolcman | 13,7 | 1101 |
Janusz Dzieciol | 13,7 | 3812 |
Jaroslaw Zaczek | 13,7 | 35643 |
Jerzy Polaczek | 13,7 | 6478 |
Marek Biernacki | 13,7 | 6676 |
Slawomir Zawislak | 13,7 | 1178 |
Tadeusz Aziewicz | 13,7 | 3633 |
Witold Waszczykowski | 13,7 | 7535 |
Wojciech Penkalski | 13,7 | 19009 |
Zenon Durka | 13,7 | 1011 |
Adam Rybakowicz | 13,8 | 8516 |
Alicja Dabrowska | 13,8 | 1111 |
Elzbieta Kruk | 13,8 | 1592 |
Halina Rozpondek | 13,8 | 6798 |
Jacek Tomczak | 13,8 | 3624 |
Jozef Racki | 13,8 | 12336 |
Michal Jaros | 13,8 | 3504 |
Rajmund Miller | 13,8 | 2719 |
Teresa Piotrowska | 13,8 | 5956 |
Tomasz Glogowski | 13,8 | 2603 |
Bozena Kaminska | 13,9 | 4811 |
Krzysztof Klosowski | 13,9 | 10240 |
Lukasz Borowiak | 13,9 | 7596 |
Rafal Grupinski | 13,9 | 7518 |
Witold Klepacz | 14,0 | 18201 |
Zofia Czernow | 14,0 | 5259 |
Eugeniusz Tomasz Grzeszczak | 14,1 | 830 |
Ewa Wolak | 14,1 | 8381 |
Janina Okragly | 14,1 | 5379 |
Slawomir Jan Piechota | 14,1 | 12469 |
Agnieszka Kolacz-leszczynska | 14,2 | 1342 |
Agnieszka Pomaska | 14,2 | 11650 |
Andrzej Biernat | 14,2 | 958 |
Beata Bublewicz | 14,2 | 3262 |
Dorota Rutkowska | 14,2 | 2845 |
Iwona Kozlowska | 14,2 | 4283 |
Janusz Piechocinski | 14,2 | 21384 |
Joanna Bobowska | 14,2 | 5954 |
Mariusz Grad | 14,2 | 156 |
Piotr Zgorzelski | 14,2 | 9871 |
Zbigniew Wlodkowski | 14,2 | 6279 |
Andrzej Betkowski | 14,3 | 5573 |
Izabela Katarzyna Mrzyglocka | 14,3 | 10842 |
Julia Pitera | 14,3 | 900 |
Krystyna Sibinska | 14,3 | 5593 |
Piotr Babinetz | 14,3 | 9088 |
Malgorzata Niemczyk | 14,4 | 576 |
Malgorzata Sekula-szmajdzinska | 14,4 | 14897 |
Marek Sawicki | 14,4 | 4946 |
Robert Wardzala | 14,4 | 1510 |
Leonard Krasulski | 14,5 | 498 |
Maks Kraczkowski | 14,5 | 2017 |
Malgorzata Gosiewska | 14,5 | 3487 |
Zofia Lawrynowicz | 14,5 | 4075 |
Miroslaw Maliszewski | 14,6 | 8169 |
Radoslaw Witkowski | 14,6 | 3108 |
Andrzej Galazewski | 14,7 | 7468 |
Barbara Czaplicka | 14,7 | 636 |
Jaroslaw Gorczynski | 14,8 | 14419 |
Lukasz Zbonikowski | 14,8 | 10907 |
Marek Lapinski | 14,8 | 4486 |
Michal Tomasz Pacholski | 14,8 | 6956 |
Arkadiusz Litwinski | 14,9 | 3986 |
Edward Czesak | 14,9 | 4631 |
Maciej Wydrzynski | 14,9 | 11240 |
Monika Wielichowska | 14,9 | 6918 |
Piotr Cieslinski | 14,9 | 1241 |
Zbigniew Matuszczak | 15,0 | 12636 |
Michal Szczerba | 15,2 | 11909 |
Stanislawa Przadka | 15,3 | 6585 |
Tomasz Smolarz | 15,3 | 2876 |
Tomasz Szymanski | 15,4 | 8380 |
Genowefa Tokarska | 15,5 | 16006 |
Robert Tyszkiewicz | 15,5 | 3655 |
Dorota Niedziela | 15,6 | 5121 |
Adam Zylinski | 15,7 | 3194 |
Jaroslaw Tomasz Jagiello | 15,7 | 2169 |
Leszek Blanik | 15,7 | 1801 |
Ewa Drozd | 15,9 | 2212 |
Elzbieta Achinger | 16,0 | 1900 |
Jacek Brzezinka | 16,1 | 3830 |
Witold Pahl | 16,1 | 7274 |
Jaroslaw Charlampowicz | 16,2 | 935 |
Konstanty Miodowicz | 16,3 | 755 |
Marek Plura | 16,5 | 4254 |
Roman Kaczor | 16,6 | 2093 |
Maria Malgorzata Janyska | 16,7 | 3831 |
Brygida Kolenda-labus | 17,2 | 2349 |
Krzysztof Kwiatkowski | 17,2 | 6012 |
Edmund Borawski | 17,3 | 2905 |
Jacek Kozaczynski | 18,0 | 1680 |
Świetny pomysł!
PS W jaki sposób jest możliwe stworzenie wykresu z nazwami tylko części punktów? Poza tym, czy ułożenie tych etykiet było tworzone automatycznie czy poprawiane później poza R?
Kod w R do rysowania wykresu jest poniżej. Każdą ,,porcję” etykietek rysuje osobna funkcja text.
Wcześniej musza być wyznaczone wektory nslow i fogi.
Etykietki niestety nakładają się czasem na siebie, można to poprawić automatycznie, ale ponieważ nie pamiętałem jak się nazywa pakiet, który to robi, więc końcową wersje poprawiłem w Inkscape (z R zapisuję do svg).
Fajne. Czy inspiracją była ta analiza orędzi amerykańskich prezydentów?
http://www.guardian.co.uk/world/interactive/2013/feb/12/state-of-the-union-reading-level
Czy po oznaczeniu kolorami wg partii pojawia się coś ciekawego?
To była jedna z inspiracji, inną byla wizualizacja którą widziałem ponad rok temu ale teraz nie potrafię jej wyśledzić, można było wybrać dwóch senatorów z USA i porównać ich wypowiedzi.
Co do kolorowania, bawię się API sejmometru, jak coś z tej zabawy wyjdzie to bedę miał przynależność partyjną posła i będzie można kolorować.
Z ciekawości wygrzebałem jakiś swój dłuższy tekst (niedokończone opowiadanie) i policzyłem indeks FOG dla dwóch akapitów. 168 słów w 14 zdaniach, 15 trudnych, indeks wedle wzoru 8,6, znacznie zaniżony przez stylistyczne powtórzenia. Podobnej długości post na forum dyskusyjnym (148 słów w 11 zdaniach) FOG wyniósł 8. Coś mi ten indeks mało pasuje.
Znalazłem aplikację liczącą FOG, ale nie podaje go w liczbie tylko w ilości lat wykształcenia. Wyszły mi w niej całkiem inne liczby:
http://www.fog.uni.wroc.pl/
Jest pewna dowolność w tym indeksie, dotycząca tego co jest zdaniem (czy zdanie złożone to jedno zdanie, czy równoważnik zdania liczyć jako zdanie), które słowa są słowami trudnymi (kryterium czterech sylab jest umowne) czy nawet ile sylab ma określone słowo (w jakiej formie liczyć liczbę sylab). Więc do dokładnej wartości indeksu bym się nie przywiązywał. Interesujące może być porównanie indeksów pomiędzy autorami lub (w moim przypadku) pomiędzy tekstami sprzed roku i teraz. Różnicę/ranking łatwiej zinterpretować niż wartość bezwzględną.
A czy w stenogramach poprawiane są w locie żenujące błędy językowe posłów?
Ciekawe pytanie. A czy znasz listę/bazę popularnych błędów językowych? Można sprawdzić czy występują w wypowiedziach.
Gdyby teksty z mojego bloga okazały się prostsze (a taka jest moja misja!) niż zwykłe teksty prawne, to byłby świetny sposób żeby zachęcić ludzi do czytania 🙂 Moim zdaniem sztuką jest właśnie tłumaczenie trudnych spraw w sposób prosty.
Niestety trudno jest (mnie) samodzielnie odkryć, co we własnych tekstach jest trudne do zrozumienia. Moja metoda na upraszczanie, to dręczenie znajomych prośbami o sugestie, co jest łatwe, a co jest trudne do zrozumienia.
Stenogram, to stenogram. Wszystko jest w nim zapisywane dokładnie tak jak zostało powiedziane. Można tam znaleźć nawet słowa niecenzuralne. http://sejm.gov.pl/Sejm7.nsf/wypowiedz.xsp?posiedzenie=24&dzien=2&wyp=215&view=S
A czy można prosić o taki wykres z jakimś zaznaczeniem partii, do których należą? Ciekawi mnie czy jest jakaś zależność.
Popieram prośbę Joanny, fajnie byłoby zrobić to w podziale na partie, a może też dodać wykształcenie (tytuły) poszczególnych posłów. Może też zrobić analizę przestrzenną.
Bardzo dobry wpis, myślę, że dużo osób będzie mogło z niego skorzystać.
OK, mam dla każdego posła informacje o jego aktualnej przynależności partyjnej, zadeklarowanym zawodzie i wieku.
Dodałem wpis przedstawiający zależność (lub jej brak) pomiędzy tymi cechami a indeksem FOG. Jest już w kolejce zaplanowany na wczesny marzec.
Nie jestem za to przekonany, czy to jakkolwiek użyteczna informacja. O ile bowiem komunikatywność/czytelność języka to cecha, którą można przypisać człowiekowi, to nie wiem do jakich wniosków może prowadzić porównywanie partii.
Ale zobaczymy, może ktoś jakąś ciekawą interpretacje znajdzie.
Nie podoba mi się, że waga ilorazu słów trudnych do ogółu słów jest 100 razy większa niż waga ilorazu ilości słów do zdań. To raczej powinno być wielokrotnością średniej ilości słów w zdaniu, ale 100 zupełnie mi tam nie pasuje. Zbyt mało ważna jest długość zdań.
Zaciekawili mnie posłowie z końca listy – sprawdziłem na YouTubie coż to za elokwentne osoby 🙂 i okazało się, że np.: Borawski i Kozaczyński czytają głownie na mównicy oficjalne stanowiska swoich partii.
Jest to zatem język raczej pisany niż mówiony. Skrajnie wysoki indeks FOG wskazuje tutaj na pewną funkcję przypisaną do danego posła (rzecznika, sprawozdawcy, itp.)
Wydawać by się mogło, że spisane przemówienie powinno być bardziej przemyślane, czytelne i zrozumiałe.
Niestety w wielu miejscach pokutuje przekonanie, że im bardziej mglisto mówię, tym na mądrzejszego wyglądam,
ewentualnie tym więcej zostawiam miejsca na ewentualne wyjaśniania, że zostałem źle zrozumiałym.
Po drugiej stronie barykady stoją takie miejsca jak np. instytut INPRIS, czy blog PrawoWAlgorytmach.
Starają się procedury prawnicze przedstawić w postaci czytelnych infografik.
Można trudne rzeczy przedstawić w czytelny sposób, trzeba tylko chcieć.
To nie jest stenogram, ale SPRAWOZDANIE STENOGRAFICZNE, które jak sama nazwa wskazuje, ma na celu zredagowane stylistycznie sprawozdanie treści przebiegu posiedzenia, a nie przytoczenie wypowiedzi słowo w słowo. Transkrypcja w wersji surowej nie jest udostępniana – wszystkie wypowiedzi są archiwizowane jako pliki wideo i tylko w takiej wersji można do nich dotrzeć.
Dlatego też wyniki, nawet abstrahując od niedoskonałości samego narzędzia, absolutnie nie są wiarygodne.
Odsyłam do art. 176 regulaminu Sejmu (http://www.sejm.gov.pl/prawo/regulamin/kon7.htm)
Dziękuję za ten komentarz. Wygładzanie stylistyczne, jakkolwiek ono nie wygląda, z pewnością ma wpływ na wyniki.
Ciekawe ile osób dokonuje takiego wygładzania. Jeżeli byłaby to jedna osoba to można by spodziewać się ,,systematycznych” efektów, które da się kontrolować.
Każde posiedzenie Sejmu redaguje kilkanaście osób, pracując na pociętych w sposób automatyczny, kilkuminutowych kawałkach. A zatem jedną dłuższą wypowiedź może redagować fragmentami nawet kilka osób.
Z ciekawości chciałem sprawdzić na swoich tekstach indeks FOG. Jedyny problem to oznaczenie słów jako „trudne”. W jaki sposób oznaczyłeś słowa jako trudne? Czy mogę prosić o podanie algorytmu, sposobu, a najlepiej fragmentu kodu w R?
Za Wikipedią przyjąłem że trudne słowa to te z czterema lub większą liczbą sylab (tak jak jest napisane w drugim akapicie).
Liczbę sylab liczyłem w przybliżeniu, liczba grup samogłosek rozdzielonych spółgłoskami.
W pierwszym odruchu chciałem identycznie, ale zacząłem też szukać rozwiązania, bo przecież jest podział np. w LaTeksie.