Środki transportu w świetle danych z Eurostatu, czyli gdzie jeździ się pociągami, gdzie jest najwięcej ofiar wypadków drogowych, a gdzie sieć autostrad jest najgęstsza?

Michał B. na stronie Fundacji w serwisie Facebook zasugerował ciekawy temat do analiz, mianowicie jak wygląda struktura transportu w Polsce na tle innych krajów Europy, bazując na danych z Eurostatu.

Temat związany z drogami i transportem jest bardzo interesujący i bardzo obszerny ale długość jednego wpisu jest ograniczona. Poniżej przedstawię więc jedynie kilka ciekawych wyników, między innymi: w którym kraju największą popularnością cieszy się podróżowanie samochodem, autobusem lub pociągiem; jak zmieniła się liczba śmiertelnych ofiar wypadków drogowych na przestrzeni ostatnich 20 lat; jak zmienia się współczynnik motoryzacji w Polsce i w okolicach w ostatnich 20 latach; oraz jak gęsta jest sieć autostrad i torów kolejowych w Polsce i innych krajach.

Czytaj dalej Środki transportu w świetle danych z Eurostatu, czyli gdzie jeździ się pociągami, gdzie jest najwięcej ofiar wypadków drogowych, a gdzie sieć autostrad jest najgęstsza?

,,Szkoła to strata czasu”. Czy tak o szkole myślą 15-letni Polacy?

Tak, ten tytuł bardziej przypomina tytuł z Faktu czy portalów (dez)informacyjnych, niż wyważony tytuł bloga informacyjnego ;-). Ale przynajmniej pasuje do treści prezentowanej poniżej.

W poprzednim wpisie pisałem o badaniu PISA w ramach którego w roku 2009 przepytano ponad 500 tyś 15-latków z całego świata z czego prawie 5 tyś z Polski. Pytano o bardzo wiele rzeczy, między innymi o nastawienie do szkoły. Angielskojęzyczną wersję ankiety z oryginalnymi pytaniami znaleźć można tutaj. Dwa pytania zainteresowały mnie szczególnie: Q33A i Q33B, czyli (w wolnym tłumaczeniu) ,,Szkoła uczy mnie rzeczy, które mogą być przydatne w przyszłej pracy” i ,,Szkoła to strata czasu”. Przy obu zdaniach student mógł zaznaczyć ,,bardzo się nie zgadzam”, ,,nie zgadzam się”, ,,zgadzam się”, ,,bardzo się zgadzam”. Ponieważ najczęściej ankietowani zgadzali się z pierwszym zdaniem a nie zgadzali z drugim, więc aby łatwiej przedstawić te wyniki graficznie zamieniłem obie zmienne na binarne, w pierwszym przypadku licząc jaki procent uczniów ,,bardzo się zgadza” z tym, że szkoła przygotowuje do pracy, a w drugim przypadku jaki procent uczniów ,,bardzo się zgadza”, ,,zgadza się” lub ,,nie zgadza się” z tym zdaniem (czyli wszystko poza ,,bardzo się nie zgadzam”). Inny podział poziomów na zmienne binarne nie zmieniał znacząco kolejności państw ale mniej je różnicował, dlatego nie zastosowałem binaryzacji metodą dwa za vs. dwa przeciw.

Poniżej graficzna prezentacja jak te dwa wskaźniki wyglądają dla europejskich państw.

 

Tak, to państwo w prawym dolnym rogu to Polska.

Tak, to źle wróży skoro uczniowie tak myślą o szkole.

Tak, ze zbioru kilkuset współczynników można wybrać takie w których wypadamy znacznie lepiej na tle europejskich krajów.

Tak, ten wpis miał na celu sprowokowanie Was do poklikania w te interaktywne wykresy przedstawiające inne charakterystyki uczniów.

Tak, do badania PISA jeszcze wrócimy i przedstawimy te dane bez tej sztucznej binaryzacji (jak tylko wymyślę jak to zrobić czytelnie, a może Wy macie na to jakiś pomysł?).

W ankiecie dla ucznia jest znacznie więcej pytań. Może któreś z nich szczególnie Was interesuje?

 

Badanie PISA a interaktywna grafika

 

Poniżej przedstawię podsumowanie kilku zmiennych opisujących 15-latków z 74 różnych krajów. Przedstawione poniżej dane zebrano w ramach badania PISA w roku 2009. Są to bardzo ciekawe dane i będziemy do nich jeszcze niejednokrotnie wracać. W tym wpisie jednak zamiast skupiać się na danych lub historii, którą te dane opisują, moim celem będzie przedstawienia interesującego narzędzia do tworzenia interaktywnych wykresów, czyli portalu tableausoftware. Do bardziej szczegółowego omówienia danych z badania PISA wrócimy w przyszłości.

PISA to skrót nazwy Programu Międzynarodowej Oceny Umiejętności Uczniów (Programme for International Student Assessment). Jego celem jest uzyskanie porównywalnych danych o umiejętnościach uczniów z różnych krajów, którzy ukończyli 15 rok życia. PISA bada umiejętności i wiedzę ważną z perspektywy wyzwań, przed jakimi 15-latkowie staną w swym dorosłym życiu (więcej informacji o PISA). Z tej strony można pobrać bazę danych z surowymi danymi oraz skrypty pozwalające na wczytanie tych danych do programów SAS i SPSS (w sumie ponad 1GB danych). Format danych jest dosyć nieprzyjemny do wczytania z poziomu R. Przygotowuję odpowiedni skrypt i pewnie niedługo napiszę o tym jak wczytać całe dane prosto i wygodnie do R. Na razie niewielki wycinek z tych danych, 20 zmiennych, można pobrać w formacie binarnym Rdata z tej strony. Ponieważ moim zdaniem edukacja młodych ludzi jest bardzo, bardzo, bardzo ważna, dlatego też ten zbiór danych stanowi bardzo interesujący kąsek do dalszej analizy i mam nadzieję będziemy wiele razy do niego wracać. Jutro opiszę trochę dokładniej jak były konstruowane zmienne w wycinku danych, który tutaj pokazuję.

Dzisiaj jednak chciałbym napisać nie o danych ale o narzędziu tableausoftware. Podczas ,,10 lunchów” poznałem Daniela O., który podesłał mi namiary na to narzędzie do przygotowywania i udostępniania wizualizacji danych. W tym narzędziu można np. opracować zbiór interaktywnych wykresów a następnie prosto upublicznić te wykresy w postaci strony www. Idealne narzędzie dla dziennikarzy pracujących z danymi (btw: nic nie mam z tego, że tak słodzę. Trial jest za darmo do używania). Pobawiwszy się nim na prostych tabelkach tylko czekałem na okazję by jakieś interesujące dane przedstawić za jego pomocą. I okazja się nadarzyła.

Poniższy rysunek jest linkiem do strony z czterema interaktywnymi wykresami i filtrem w postaci pola wielokrotnego wyboru (checkbox). W jutrzejszym wpisie dokładniej opiszę jak liczone były zmienne, które są tu prezentowane, na razie chodzi mi wyłącznie o pokazanie narzędzia. To tylko drobny pokaz możliwości wspomnianego narzędzia. Interaktywność pozwala na przefiltrowanie punktów lub sprawdzenie jak wybrane państwa przedstawione na jednym wykresie są położone na innych wykresach. Mam też nadzieję, że nawet taka podstawowa interakcja ułatwi zrozumienie i przyciągnie uwagę do tych danych.

Czy tak jest? Czy kusiło Was pobawić się tymi wykresami? Czy mieliście czas by sprawdzić jak wypada Polska na tle innych państw jeżeli listę tych innych Państw ograniczymy np tylko do Europy? Chętnie usłyszę Wasze opinie i wrażenia. Czy warto umieszczać taką interaktywną grafikę, czy lepiej pozostać przy statycznych wykresach (bo RSS czyta się offline, bo nie ma czasu na klikanie)? A może temat wciągnął Was na tyle, że pobraliście komplet wykresów i dane i stworzyliście własną kombinację ciekawych wykresów (można to zrobić, link do pobrania środowiska na dole wizualizacji)?

 

 

 

Jak często udaje się rzucić palenie?

Kilka dni temu pisałem o wynikach dotyczących odsetka osób palących przynajmniej rok w różnych grupach wiekowych. Poniżej postaram się odpowiedzieć na inne interesujące pytanie: jak często ludzie, który palili przez przynajmniej rok rzucają palenie? W tym przypadku rzucenie palenia oznaczać będzie, że ankietowany nie palił przez przynajmniej miesiąc przed dniem w którym był pytany.

Na poniższym wykresie przedstawiono odsetek osób, które w ostatnim miesiącu paliły i też paliły przynajmniej rok zaczynając od X lat temu. Przez dopełnienie można wyznaczyć odsetek osób które nie paliły w ostatnim miesiącu, a więc prawdopodobnie rzuciły palenie. Wyniki przedstawiono osobno dla kobiet i mężczyzn. Szarym kolorem zaznaczono punktowe przedziały ufności. Ciągłymi liniami przedstawiłem lokalnie wygładzone wartości, aby łatwiej było zauważyć trend.

 

Zauważmy interesujące różnice pomiędzy płciami. Pośród osób które palą od kilku lat rzadko rzuca się palenie i rzucają to palenie nieznacznie częściej kobiety. Wśród osób, które zaczęły palenie 30 lat temu to mężczyźni częściej przestawali palić.

Inna, niewesoła obserwacja z tego wykresu jest taka, że niewiele osób przestaje palić jeżeli paliło wcześniej przez przynajmniej rok. Jak widać jeżeli nie chce się palić do końca życia to najlepiej w ogóle nie zaczynać.

* A Wy jak spędziliście weekend?

Trendy wśród młodzieży w odpowiedzi na pytanie: palenie albo zdrowie

 

Dzisiejszy wpis poświęcony będzie próbie odpowiedzenia na pytanie, czy palenie jest coraz bardziej czy coraz mniej popularne. Zacznę od krótkiej dygresji dotyczącej pułapek zastawionych na beztroskich analityków, a następnie przedstawię swoje wyniki. Pokażę wyniki, wspierające tezę, że stopniowo coraz mniej osób zaczyna palić, ale (niestety) zaczynają one palić coraz wcześniej. Następnie przyjrzymy się, jak te trendy wyglądają dla różnych płci. Okaże się, że wyglądają różnie.

Być może część z czytelników pamięta wpis ,,Nauka spod znaku cargo”, w którym krytykowałem liczenie średniej z roku rozpoczęcia palenia. Proponując podejście oparte o kwantyle zauważyłem, że większość z osób które palą (ponad 80%) zaczyna palenie pomiędzy 15. a 23. rokiem życia.

Odpowiedź na pytanie, kiedy palacze zaczynają palenie, to jedna sprawa, ale pytanie, ile osób pali i jak odsetek palących zmienia się w kolejnych latach, to sprawa zupełnie inna.
Badanie przeprowadzimy bazując na ankietach zebranych trzy lata temu od kilku tysięcy osób wybranych losowo z populacji Polaków pomiędzy 20 a 60 rokiem życia. Ankietowanych pytano między innymi: czy paliłeś przez przynajmniej rok, kiedy zacząłeś palić, czy paliłeś w ostatnim miesiącu. Policzenie proporcji osób, które odpowiedziały że paliły przynajmniej rok, wiele nam nie powie jeżeli nie będziemy wiedzieć w jakim wieku są ankietowani. Część z nich może nie paliła jeszcze roku w chwili przeprowadzania ankiety ale zacznie palić później. Przedstawienie proporcji palaczy jako funkcji roku urodzenia, też nie jest najlepszym pomysłem, ponieważ osoby starsze miały więcej czasu aby zacząć palić. Nie można porównać procentu osób, które przez przynajmniej rok w życiu paliły i mają 40 lat, i osób, które przez przynajmniej rok w życiu paliły, a mają lat 20. Spodziewamy się, że procent palaczy w drugiej grupie będzie niższy, dlatego że część z tych dwudziestolatków, którzy jeszcze nie palą, zacznie palić przed 40 rokiem życia. Nie ma co porównywać gruszek i jabłek.

Kilka dni temu, kiedy przedzierałem się przez tłumy na ,,Pikniku Naukowym Polskiego Radia i Centrum Nauki Kopernik” (w skrócie PNPRiCNK 😉 ) przyszła mi do głowy pewna myśl. Gdy się dłużej zastanowić jak porównywać jabłka z jabłkami, staje się to oczywiste. Nie mogę porównać procentu palących wśród osób urodzonych w 1965 z procentem osób palących urodzonych w 1985, ponieważ ci pierwsi żyją dłużej i mieli ,,więcej okazji” by zacząć palić. Ale mogę porównać procent osób, które zaczęły palić przed 25 rokiem życia, urodzonych w 1965, z procentem osób, które zaczęły palić przed 25 rokiem życia, urodzonych w 1985. Każda z tych grup miała 25 lat, by zacząć palić. Mając informacje z ankiety, o której wcześniej pisałem, dosyć łatwo takie procenty policzyć. Policzyłem je więc dla różnych ,,punktów odcięcia”. Najciekawsze jest porównanie odsetków dla 17-latków i 25-latków.

Poniższy wykres przedstawia procent osób, które mając 17 (czerwona) lub 25 (czarna linia) lat życia paliły przez przynajmniej jeden rok, jako funkcję roku urodzenia. Wokół krzywych przedstawiono punktowe przedziały ufności dla oceny tych proporcji na poziomie 95%.

Wyniki są ciekawe. Spójrzmy na czarną krzywą, odpowiada ona odsetkowi osób, które paliły przynajmniej rok przed ukończeniem dwudziestu-pięciu lat. Trend jest malejący, czyli dwudziestopięciolatków, którzy palili przez przynajmniej rok, jest coraz mniej. Przesuwając się o 23 lata w prawo na osi OX odsetek osób palących przez przynajmniej rok spadł o ponad 1/3 z 58% do 40%. Nie dziwi mnie to tak bardzo. Koniec końców kampania przeciwko paleniu jakoś działa. Kilkadziesiąt lat temu palacze byli wszędzie, w telewizji, w teatrze itp. Dziś w filmach palący nie są już tak eksponowani.

Z drugiej strony, jeżeli spojrzymy na odsetek 17 latków, którzy palili przez przynajmniej jeden rok życia, zauważymy, że tutaj trend jest przeciwny. Pośród osób urodzonych w latach 1960-1965 17 latków, którzy palili przez przynajmniej rok było poniżej 20%, a po 23 latach ten odsetek wzrósł do prawie 30%.
Zobaczmy teraz jak te trendy wyglądają dla mężczyzn a jak dla kobiet.
Na poniższym rysunku trójkąty oznaczają proporcje w grupie mężczyzn, a kropki proporcje w grupie kobiet. Symbole puste w środku odpowiadają sytuacji w grupie 17-latków, a symbole wypełnione odpowiadają sytuacji w grupie 25-latków.

Dodatkowo, by trendy były łatwiejsze do zauważenia, dodałem krzywą trendu powstałą z wygładzenia proporcji w poszczególnych grupach wiekowych.

W grupie 25-letnich mężczyzn widać spadającą proporcję palaczy. W grupie siedemnastolaktów odsetek osób palących przez przynajmniej rok utrzymuje się na stałym poziomie 30%.
Dla 25-letnich kobiet odsetek osób palących przez przynajmniej rok jest niższa niż w grupie mężczyzn. Patrząc na trend w czasie zauważymy, że spada ona wolniej niż dla mężczyzn i być może niedługo się one zrównają. Za to wśród siedemnastolatek odsetek osób palących przez przynajmniej rok palaczek bardzo szybko przyrasta, ,,doganiając” 30% obserwowane dla siedemnastolatków.

Z czym powiązać inny trend dla różnych płci? Być może koncerny tytoniowe zaczęły adresować reklamy papierosów też dla kobiet? A może macie inne pomysły na wyjaśnienie tych różnic?

 

PS: Łatwo zauważyć, że w tym wpisie jest znacznie więcej przecinków niż w poprzednich wpisach, również zdania są bardziej gładkie. Jest to zasługa pani Magdaleny Ł., która podjęła się eksperymentalnie funkcji pierwszego czytającego. Serdecznie dziękuję.

Statystyk w Białowieży

 

W poprzednim tygodniu odwiedziłem instytut PAN w Białowieży współprowadząc warsztaty z programu R (tak jak przystało na misjonarza R). Blisko instytutu znajduje się cerkiew prawosławna. W cerkwii tej kupić można broszurę przedstawiającą ważniejsze wydarzenia z historii Białowieży i cerkwi. W tej broszurce natknąłem się na tabelę przedstawiającą liczbę chrztów, ślubów i pogrzebów udzielonych w parafii prawosławnej św. Mikołaja Cudotwórcy w Białowieży w latach 1878-2004.

Jeżeli Wy też odczuwacie dreszcz emocji na widok tabelki z liczbami, to zrozumiecie dlaczego zrobiłem to co zrobiłem. Jeżeli nie odczuwacie, to prawdopodobnie reszta wpisu będzie dla Was jedynie przykładem na kolejny wykres punktowy.

Po powrocie do domu dzielnie przepisałem dane z broszurki. Dane można pobrać z pliku csv, link do tego pliku znajduje się tutaj.

Emocje związane z oglądaniem 508 liczb są niczym w porównaniu z emocjami związanymi z oglądaniem wizualizacji danych, która przedstawia jakąś historię. Postanowiłem zrobić taką wizualizację. Kod w programie R potrzebny by ją wykonać znajduje się tutaj. Po kliknięciu na rysunek poniżej otworzy się jego wersja w wyższej rozdzielczości.


 Zastanówmy się chwilę, co też ciekawego widać na tym wykresie.

  • Obserwacja: dane są niepełne, najdłuższa przerwa dotyczy lat 1914-1917. Historia: od 28 lipca 1914 do 11 listopada 1918 roku trwała I wojna światowa, front działań wojennych przebiegał w pobliżu Białowieży. Okazuje się że w okresie I wojny światowej prawosławna ludność Białowieży była ewakuowana w głąb Rosji. Wywieziono też większość wyposażenia cerkwi.
  • Obserwacja: liczba zgonów i chrztów spada znacząco po roku 1941. Historia: W latach 1939-1941 przeprowadzane są masowe  wysiedlenia na Syberię ludności Białowieży.
  • Obserwacja: Po II wojnie światowej liczba chrztów sukcesywnie spada z roku na rok. Historia: Liczba mieszkańców Białowieży maleje, w tamtym rejonie jest coraz mniej prawosławnych.
  • Obserwacja: bilans chrztów do pogrzebów jest największy w roku 1978. Po tym roku średniorocznie pogrzeby w parafii odbywają się częściej niż chrzty.
  • Obserwacja: w dziesięcioleciu 1922 do 1932 liczba porodów jest wysoka, w okolicach 150 na rok. Historia: Okres międzywojenny, względny spokój, sprzyjające warunki do planowania rodziny. W 1924 w Białowieży umieszczono Dyrekcję Okręgową Lasów Państwowych, więc region nabiera znaczenia.
  • Obserwacja: przed I wojną światową liczba chrztów z roku na rok wzrasta. W 1891 liczba chrztów przekroczyła 100 na rok. Historia: w 1895 wyświęcono nową murowaną cerkiew, która uchodziła za najpiękniejsza w okolicy.
  • Obserwacja: Wyjątkowo duża liczba zgonów zanotowano w latach 1894 i 1900. Historia: jeszcze nie wiem jak to można wyjaśnić.
Btw: Powyżej piszę zgony, choć raczej chodzi o pogrzeby (zgonów było z pewnością więcej). Pozostawiłem jednak oryginalne nazewnictwo ze wspomnianej broszury.

Różnorodność ćwierkań polityków na Twitterze

Czas na zakończenie tematu analizy tekstów z twittera i powrót do raportów. Na koniec przyjrzymy się jeszcze dwóm tematom. Jak zróżnicowane słownictwo znaleźć można we wpisach rożnych polityków, oraz jak często politycy piszą o swoich i nie swoich partiach.

Ale najpierw krótkie wprowadzenie. Wczoraj obchodziliśmy Międzynarodowy Dzień Języka Ojczystego (btw: nie należy mylić tego święta z Dniem Dobrej Polszczyzny, który jest w grudniu). Zbiegło się to święto w czasie z mailem, który dostałem od żony polecającym artykuł ,,Mie, mi i naszemu kraju, czyli polszczyzna polityczna” z Dużego Formatu (dostępny też w postaci elektronicznej tutaj). W tym artykule językoznawca z UJ, dr Artur Czesak, charakteryzuje polszczyznę polityków, opowiada co go razi, co drażni, a co mu się podoba.

Poza analizą błędów językowych i regionalizmów znajduje się też ciekawy komentarz dotyczący zasobu słów polityków.
Hmmm, będąc na świeżo z przeglądaniem wiadomości z Twittera zastanowiło mnie, czy w wiadomościach z Twittera mógłbym zobaczyć coś ciekawego nt. bogactwa słownictwa polityków?
Kanał komunikacji dosyć specyficzny, tylko formy krótkie, sporo odnośników i sporo kopii wiadomości od innych użytkowników, ale zobaczmy co wyjdzie.

Punktem wyjściowym jest korpus ćwierków (czy twittów?) zebranych dla podzbioru polskich polityków w tym wpisie. Każde słowo poddano też procesowi hasłowania, by wyodrębnić dla niego rdzeń (używając programu morfologik). Następnie dla każdego polityka policzono:

  • sumaryczną liczbę wyrazów we wszystkich ćwierkach,
  • liczbę różnych wyrazów we wszystkich ćwierkach,
  • sumaryczną liczbę wyrazów rozpoznanych przez program morfologik (a więc poprawnie odmienionych polskich słów),
  • liczbę różnych wyrazów rozpoznanych przez program morfologik (a więc poprawnie odmienionych polskich słów),
  • liczbę różnych rdzeni rozpoznanych przez program morfologik.

Oczywiście średnio im więcej wyrazów tym więcej rożnych wyrazów i więcej różnych rdzeni. Oczywiście ta zależność nie jest liniowa. Ale zobaczmy jak ona wygląda dla rożnych polityków.

[Rysunek 1. Każda kropka to jeden polityk. Na kolejnych osiach przedstawione są statystyki liczby słów lub różnych słów, słów rozpoznanych przez program morfologik we wpisach. Jest wyraźna zależność. Ale zaobserwować można też interesujące przypadki odstające od dominującego trendu. ]

Celem jest zbadanie jak bogate jest słownictwo posłów. Nie ma jednak sensu badać bogactwa tego słownictwa w grupie samych posłów, potrzebny jest punkt odniesienia. Najlepiej dziennikarz, który język polski zna. Pierwszy wybór padł na Adama Małeckiego z radia Trójka. Dużo pisze na Twitterze @TROJKAdaMalecki więc mógł być dobrym punktem odniesienia. Niestety znacznie częściej niż część politycy miał wpisy w języku angielskim, co zaburzało statystyki. Więc za drugi punkt odniesienia wybrałem osobę o nazwie użytkownika @Dziennikarz, który nie wiem czy jest dziennikarzem, ale dużo pisze na Twitterze i zdecydowana większość wpisów jest w języku polskim. Osoby, które mało piszą nie będą interesujące.

 

[Rysunek 2. Liczba wyrazów vs. liczba różnych wyrazów w wiadomościach z Twittera. Kolorowymi liniami oznaczono wyniki dwóch dziennikarzy (są to linie nie punkty ponieważ liczyłem obie charakterystyki przyrostowo, dzięki temu można znaleźć punkt odniesienia dla każdej liczby wyrazów). ]

W większości przypadków politycy używają różnych wyrazów, można więc pokusić się o stwierdzenie, że różnorodność ich słownictwa nie jest ograniczona. Najbardziej odstający przypadek, czyli Jerzy Buzek łatwo wytłumaczyć, mianowicie jako poseł parlamentu europejskiego, a aktualnie przewodniczący Jerzy Buzek pisze wpisy w języku angielskim, który to ma zdecydowanie uboższą fleksję niż nasz język ojczysty.

Aby uniezależnić się od zaburzenia statystyk językiem w którym polityk publikuje odsiejmy wszystkie słowa których nie można znaleźć w słowniku programu morfologik.

[Rysunek 3. Liczba rozpoznanych polskich wyrazów vs. liczba różnych rdzeni polskich wyrazów w wiadomościach z Twittera. Kolorowymi liniami oznaczono wyniki dwóch dziennikarzy. ,,Odstający” wynik użytkownika PremierRP wytłumaczyć można np. tym, że w praktycznie każdym wpisie znajdują się słowa 'Premier’ i 'Rząd’.]

Interpretację pozostawiam czytelnikom.

Wiadomości z Twittera nie są najbardziej reprezentatywną próbka wypowiedzi polityka, ale jak analizy takiego typu są w stanie badać bogactwo słownictwa w sposób obiektywny. Tak więc na listę do zrobienia wpisujemy analizę stenogramów z sejmu i senatu pod kątem bogactwa słownictwa.

 

 

Druga część dotyczy częstości z jaką politycy w swoich ćwierkach używali wyrazów PO lub PiS. Bez analizy kontekstu w jakim znaczeniu padały te nazwy partii, bez analizy form deprecjatywnych, jedynie liczba wystąpień literek PO lub PiS z uwzględnieniem wielkości liter.

[Rysunek 4. Każda kropka to jeden polityk. Kolorem niebieskim zaznaczeni są politycy, którzy na liście Michała Buchty byli w barwach Platformy Obywatelskiej, kolorem pomarańczowym zaznaczeni są politycy, którzy byli w barwach Prawa i Sprawiedliwości (przynależność sprzed roku), na szaro pozostali. Współrzędna OX punktu opisuje jaka frakcja wpisów danego polityka zawierała wyraz PO, współrzędna OY punktu opisuje jaka frakcja wpisów danego polityka zawierała wyraz PiS. Ukośna linia odpowiada równej zawartości wpisów dot obu partii.]

Jak widzimy politycy najczęściej piszą o swoich partiach, choć można znaleźć też takich którzy częściej piszą o ,,tej drugiej”. Sikorski Radek nie jest najlepszym przykładem, ponieważ był i tu i tu, ale Darek Dolczewski czy Marek Suski (za zdrobnienia imion przepraszam, ale to w celu łatwiejszej identyfikacji nazwy użytkownika na Twitterze).

 

Zobaczmy jeszcze, którzy politycy (z listy z poprzedniego wpisu) ćwierkali o acta.

Czy dwie zmienne mogą jednocześnie być dodatnio i ujemnie skorelowane?

Dzisiejszy wpis wynika z dyskusji ze studentami z seminarium licencjackiego, ciekawej dyskusji, mam też nadzieję że będzie ciekawa dla szerszego grona.

Zastanowimy się dzisiaj czy potwierdzone klinicznie problemy z nieżytem nosa są skorelowane z zanieczyszczeniem powietrza. Nawet bez żadnych twardych danych spodziewamy się, że jakaś dodatnia zależność może być, i raczej im bardziej zanieczyszczone powietrze tym gorzej a więc i więcej problemów z nieżytem nosa.

Jeżeli jednak przed zobaczeniem danych wiemy jakiego wyniku oczekujemy to lepiej byśmy tych analiz nie robili. I tak trudno będzie nam utrzymać obiektywizm i raczej będziemy szukać metody, która potwierdzi nasze oczekiwania.

Na podstawie badania ECAP, największego w Polsce badania dotyczącego alergii, postaramy się odpowiedzieć na postawione powyżej badanie dotyczące zależności pomiędzy wymienionymi zmiennymi. Wyniki takiego badania sa przedstawione w periodyku ,,Kształcenie podyplomowe’’.

Spójrzmy na artykuł ,,Stan środowiska przyrodniczego a choroby alergiczne’’ strona 30, a w szczególności na wyniki ze strony 33-34.

W tabeli 2 użyto testu niezależności by zbadać czy jest zależność pomiędzy zanieczyszczeniem powietrza a potwierdzonym klinicznie nieżytem nosa. Zanieczyszczenie było badane w subiektywnej 11 stopniowej skali (0-10). Następnie testami sprawdza się czy osoby mieszkające w miejscach bez zanieczyszczenia powietrza (zanieczyszczenie=0) mają mniej potwierdzonych nieżytów nosa niż osoby mieszkające w miejscach słabo zanieczyszczonych (zanieczyszczenie=1-3) średnio zanieczyszczonych (zanieczyszczenie =4-7) czy bardzo zanieczyszczonych (zanieczyszczenie=8-10). W dwóch na trzy porównania otrzymuje się istotnie statystycznie więcej zachorowań w miejscach o większym zanieczyszczeniu. Wydaje się więc, że jest zależność dodatnia, tam gdzie jest zanieczyszczenie jest więcej nieżytów nosa.

Problem pojawia się jedynie jeżeli spojrzymy na rycinę 2

Pokazuje ona jaki był procent osób z nieżytem nosa dla każdej z 11 grup zanieczyszczeń powietrza. Wykres ten nie jest czytelny, ale jeżeli informację o procencie osób z nieżytem przedstawić na wykresie punktowym to otrzymamy następujący (moim zdaniem czytelniejszy) wykres

 

Zielona przerywana linia to regresja liniowa. Jak by nie liczyć korelacji pomiędzy procentem nieżytów  a poziomem zanieczyszczenia (czy współczynnikiem Perasona, czy Spearmana czy Kendalla, za każdym razem korelacja jest ujemna) to otrzymujemy ujemną zależność. Czyli wręcz im bardziej zanieczyszczone powietrze, tym średnio mniej osób z nieżytem nosa.

 

Ok, te same dane, to samo pytanie, dwie różne odpowiedzi. Różnica jest taka, że za pierwszym razem pogrupowano zanieczyszczenie do 4 grup i za referencyjną wybrano brak zanieczyszczenia, czyli zanieczyszczenie =0. W drugim przypadku nie było agregacji ale zignorowano liczbę osób w każdej z 11 grup zanieczyszczenia powietrza.

Statystyka daje jednoznaczne odpowiedzi, przy czym często ta odpowiedź brzmi ,,o co Ci tak naprawdę chodzi, co chcesz sprawdzić?”.

 

Kim są eksperci z Narodowego Centrum Nauki? Część 4

Ostatnie dwa wpisy pokazywały dorobek ekspertów oceniających wnioski w NCN w rozbiciu na dziedziny. Rozbicie było potrzebne, ponieważ w różnych dziedzinach spodziewać się można różnej liczby publikacji i pochodnych współczynników.

Dzisiaj krótko scharakteryzuję same dziedziny. Dla każdej z dziedzin liczyliśmy medianę liczby cytowań/publikacji/h-indeksu/liczby autorów na pracę. Pokażemy teraz te współczynniki na wspólnym wykresie.
Oglądając poniższe wykresy proszę pamiętać że dziedziny są reprezentowane najczęściej przez jedynie kilka osób – ekspertów NCN.

[Update: poniższe wykresy są w formacie png, po kliknięciu otworzy się wersja wektorowa]


Dla mnie dużym zaskoczeniem jest pozycja matematyki. Słyszałem dotąd, że matematycy mniej publikują, są rzadziej cytowani niż przedstawiciele nauk stosowanych np. biologii (tak, wiem jak to brzmi). Tymczasem na tym wykresie jest inaczej. Przyglądając się bliżej matematykom okazuje się, że dwóch o największym dorobku pracują w dziedzinie matematyka (zgodnie z klasyfikacją KBN) ale najpopularniejsze prace dotyczą raczej informatyki. niemniej jak widać nic nie stoi na przeszkodzie by matematyk robiący coś ciekawego dużo publikował i był cytowany.

Innych zaskoczeń nie było, proszę tylko zwrócić uwagę, że pierwszy wykres ma osie w skali logarytmicznej.

Kim są eksperci z Narodowego Centrum Nauki? Część 3

Wczoraj przedstawiłem rozkłady liczby cytowań i liczby publikacji dla ekspertów NCN z różnych dziedzin. Aplikacja ,,Publish or Perish” liczy wiele różnych interesujących współczynników. Dziś pokażę rozkłady dwóch popularnych współczynników, czyli h-indeks oraz średniej liczby autorów na publikację dla ekspertów.

 
Lista dziedzin w porządku określonym przez liczbę ekspertów (linki do poniższych wykresów):
biologia, nauki chemiczne, fizyka, medycyna, informatyka, ekonomia, nauki weterynaryjne, nauki historyczne, automatyka i robotyka, nauki prawne, nauki filologiczne, mechanika, matematyka, biologia medyczna, nauki medyczne, geografia, geologia, nauki filozoficzne, nauki farmaceutyczne, socjologia, inzynieria materialowa, technologia chemiczna, nauki o sztukach pieknych, zootechnika, psychologia, pedagogika, naukiopolityce, inzynieria i ochrona srodowiska, budowa i eksploatacja maszyn, organizacja i zarzadzanie, agronomia, telekomunikacja, technologia zywnosci i zywienia, astronomia, nauki teologiczne.