Nauka w Polsce 2013, czyli słów kilka o nowym raporcie ministerstwa

W poprzednim tygodniu ukazał się raport ,,Nauka w Polsce 2013” [znajdziesz go tutaj]. Jest on prawdopodobnie opracowany przez ministerstwo [,,prawdopodobnie” ponieważ w raporcie brakuje informacji kto jest autorem]. Jest w nim wiele wykresów, z których część można by było zrobić lepiej. I o tym co można zrobić lepiej będzie dzisiejszy wpis.

,,Nowoczesna” forma

Raport ma bardzo ,,nowoczesną” formę, składa się głównie z wykresów. Brak w nim komentarzy czy wniosków dotyczących prezentowanych wyników, jedynie gdzieniegdzie można znaleźć objaśnienia jak pewne współczynniki były liczone.
Przez co w pierwszej chwili można odnieść wrażenie, że to jedynie slajdy z prezentacji/streszczenia [sprawdzałem nawet w słowniku języka polskiego czy taki zbiór wykresów można nazywać raportem].

Do większości wykresów brakuje informacji o źródle danych, które są przedstawiane. Utrudnia to weryfikację prezentowanych liczb. Niestety do standardów raportów OECD jest jeszcze daleko, tam przy poważnych raportach do każdego wykresu dodane są odnośniki do źródeł danych.

Sytuacja z tym raportem jest kuriozalna. Mamy zbiór wykresów, w części nie najlepiej przygotowanych, nie ma odnośników do danych źródłowych, nie ma tabel z liczbami, na postawie których te wykresy powstały. Brakuje też wniosków czy podsumowania, które można by zweryfikować.
Rodzi to wręcz obawy, że z tego raportu każdy odczyta sobie wnioski jakie będą mu pasować, a nieuporządkowana formuła raportu nie pozwoli na ich weryfikację.

Wiele interesujących tematów

W raporcie poruszanych jest wiele tematów. Można zobaczyć wykresy traktujące o finansowaniu nauki w Polsce (chciałem napisać przeczytać, ale akurat przeczytać się nie da).
Począwszy od wysokości nakładów na naukę, informacji co w jakiej wysokości jest finansowane, jest o tym, ile jest uczeni i pracowników naukowych w różnych województwach (choć nie jest jasne jak liczeni są ci, co pracują w rożnych województwach), ile jest jednostek badawczych, jakiego typu i jak bardzo aktywnych. I wiele innych informacji.

Zachęcam do przejrzenia tego raportu.
Aktualna wersja ma podtytuł ,Edycja 1′, może kolejne edycje będą miały już liczby i wnioski dzięki czemu będzie to ciekawe źródło informacji.

Co można by w raporcie poprawić?

Zaczniemy od retorycznego pytania: czy jeżeli w raporcie nie ma spisanych wniosków i nie ma podanych źródeł to trudno się czegoś przyczepić?
Wybierzmy kilka rodzynków. Powiedzmy, że w ramach działalności typu ,,watchdog”.
Dwie pierwsze to oczywiste grube błędy, kolejne to sugestie.

Czytaj dalej Nauka w Polsce 2013, czyli słów kilka o nowym raporcie ministerstwa

Infografiki z lotniska w Zurychu

Większość dni z poprzedniego tygodnia spędziłem w Zurychu. Moja pierwsza wizyta w Szwajcarii, a już ten kraj awansował do pierwszej trójki miejsc do których chcę kiedyś wrócić (obok Kioto i Lanzarote). Duże wrażenie zrobiła na mnie rzemieślnicza sumienność i obywatelska odpowiedzialność bijąca z każdej strony.

Świadomość wpływu na otoczenie i odpowiedzialność za ten wpływ musi być powiązana z byciem poinformowanym. A bycie poinformowanym z infografikami. Nie zdziwiło mnie więc gdy wyjeżdżając, na lotnisku, znalazłem interesujące infografiki. Kilka z nich przedstawię poniżej.

Czytaj dalej Infografiki z lotniska w Zurychu

Różnorodność ćwierkań polityków na Twitterze

Czas na zakończenie tematu analizy tekstów z twittera i powrót do raportów. Na koniec przyjrzymy się jeszcze dwóm tematom. Jak zróżnicowane słownictwo znaleźć można we wpisach rożnych polityków, oraz jak często politycy piszą o swoich i nie swoich partiach.

Ale najpierw krótkie wprowadzenie. Wczoraj obchodziliśmy Międzynarodowy Dzień Języka Ojczystego (btw: nie należy mylić tego święta z Dniem Dobrej Polszczyzny, który jest w grudniu). Zbiegło się to święto w czasie z mailem, który dostałem od żony polecającym artykuł ,,Mie, mi i naszemu kraju, czyli polszczyzna polityczna” z Dużego Formatu (dostępny też w postaci elektronicznej tutaj). W tym artykule językoznawca z UJ, dr Artur Czesak, charakteryzuje polszczyznę polityków, opowiada co go razi, co drażni, a co mu się podoba.

Poza analizą błędów językowych i regionalizmów znajduje się też ciekawy komentarz dotyczący zasobu słów polityków.
Hmmm, będąc na świeżo z przeglądaniem wiadomości z Twittera zastanowiło mnie, czy w wiadomościach z Twittera mógłbym zobaczyć coś ciekawego nt. bogactwa słownictwa polityków?
Kanał komunikacji dosyć specyficzny, tylko formy krótkie, sporo odnośników i sporo kopii wiadomości od innych użytkowników, ale zobaczmy co wyjdzie.

Punktem wyjściowym jest korpus ćwierków (czy twittów?) zebranych dla podzbioru polskich polityków w tym wpisie. Każde słowo poddano też procesowi hasłowania, by wyodrębnić dla niego rdzeń (używając programu morfologik). Następnie dla każdego polityka policzono:

  • sumaryczną liczbę wyrazów we wszystkich ćwierkach,
  • liczbę różnych wyrazów we wszystkich ćwierkach,
  • sumaryczną liczbę wyrazów rozpoznanych przez program morfologik (a więc poprawnie odmienionych polskich słów),
  • liczbę różnych wyrazów rozpoznanych przez program morfologik (a więc poprawnie odmienionych polskich słów),
  • liczbę różnych rdzeni rozpoznanych przez program morfologik.

Oczywiście średnio im więcej wyrazów tym więcej rożnych wyrazów i więcej różnych rdzeni. Oczywiście ta zależność nie jest liniowa. Ale zobaczmy jak ona wygląda dla rożnych polityków.

[Rysunek 1. Każda kropka to jeden polityk. Na kolejnych osiach przedstawione są statystyki liczby słów lub różnych słów, słów rozpoznanych przez program morfologik we wpisach. Jest wyraźna zależność. Ale zaobserwować można też interesujące przypadki odstające od dominującego trendu. ]

Celem jest zbadanie jak bogate jest słownictwo posłów. Nie ma jednak sensu badać bogactwa tego słownictwa w grupie samych posłów, potrzebny jest punkt odniesienia. Najlepiej dziennikarz, który język polski zna. Pierwszy wybór padł na Adama Małeckiego z radia Trójka. Dużo pisze na Twitterze @TROJKAdaMalecki więc mógł być dobrym punktem odniesienia. Niestety znacznie częściej niż część politycy miał wpisy w języku angielskim, co zaburzało statystyki. Więc za drugi punkt odniesienia wybrałem osobę o nazwie użytkownika @Dziennikarz, który nie wiem czy jest dziennikarzem, ale dużo pisze na Twitterze i zdecydowana większość wpisów jest w języku polskim. Osoby, które mało piszą nie będą interesujące.

 

[Rysunek 2. Liczba wyrazów vs. liczba różnych wyrazów w wiadomościach z Twittera. Kolorowymi liniami oznaczono wyniki dwóch dziennikarzy (są to linie nie punkty ponieważ liczyłem obie charakterystyki przyrostowo, dzięki temu można znaleźć punkt odniesienia dla każdej liczby wyrazów). ]

W większości przypadków politycy używają różnych wyrazów, można więc pokusić się o stwierdzenie, że różnorodność ich słownictwa nie jest ograniczona. Najbardziej odstający przypadek, czyli Jerzy Buzek łatwo wytłumaczyć, mianowicie jako poseł parlamentu europejskiego, a aktualnie przewodniczący Jerzy Buzek pisze wpisy w języku angielskim, który to ma zdecydowanie uboższą fleksję niż nasz język ojczysty.

Aby uniezależnić się od zaburzenia statystyk językiem w którym polityk publikuje odsiejmy wszystkie słowa których nie można znaleźć w słowniku programu morfologik.

[Rysunek 3. Liczba rozpoznanych polskich wyrazów vs. liczba różnych rdzeni polskich wyrazów w wiadomościach z Twittera. Kolorowymi liniami oznaczono wyniki dwóch dziennikarzy. ,,Odstający” wynik użytkownika PremierRP wytłumaczyć można np. tym, że w praktycznie każdym wpisie znajdują się słowa 'Premier’ i 'Rząd’.]

Interpretację pozostawiam czytelnikom.

Wiadomości z Twittera nie są najbardziej reprezentatywną próbka wypowiedzi polityka, ale jak analizy takiego typu są w stanie badać bogactwo słownictwa w sposób obiektywny. Tak więc na listę do zrobienia wpisujemy analizę stenogramów z sejmu i senatu pod kątem bogactwa słownictwa.

 

 

Druga część dotyczy częstości z jaką politycy w swoich ćwierkach używali wyrazów PO lub PiS. Bez analizy kontekstu w jakim znaczeniu padały te nazwy partii, bez analizy form deprecjatywnych, jedynie liczba wystąpień literek PO lub PiS z uwzględnieniem wielkości liter.

[Rysunek 4. Każda kropka to jeden polityk. Kolorem niebieskim zaznaczeni są politycy, którzy na liście Michała Buchty byli w barwach Platformy Obywatelskiej, kolorem pomarańczowym zaznaczeni są politycy, którzy byli w barwach Prawa i Sprawiedliwości (przynależność sprzed roku), na szaro pozostali. Współrzędna OX punktu opisuje jaka frakcja wpisów danego polityka zawierała wyraz PO, współrzędna OY punktu opisuje jaka frakcja wpisów danego polityka zawierała wyraz PiS. Ukośna linia odpowiada równej zawartości wpisów dot obu partii.]

Jak widzimy politycy najczęściej piszą o swoich partiach, choć można znaleźć też takich którzy częściej piszą o ,,tej drugiej”. Sikorski Radek nie jest najlepszym przykładem, ponieważ był i tu i tu, ale Darek Dolczewski czy Marek Suski (za zdrobnienia imion przepraszam, ale to w celu łatwiejszej identyfikacji nazwy użytkownika na Twitterze).

 

Zobaczmy jeszcze, którzy politycy (z listy z poprzedniego wpisu) ćwierkali o acta.

Kim są eksperci Narodowego Centrum Nauki?

Pieniędzy na naukę w Polsce jest mało (jeżeli porównać z zachodnimi sąsiadami), dlatego dzielenie tych pieniędzy budzi zazwyczaj emocje i burzliwe dyskusje. W przypadku pierwszego konkursu grantowego organizowanego przez NCN (Narodowe Centrum Nauki) tych emocji było sporo, krytykowano miedzy innymi wybór recenzentów i ekspertów. Tak się złożyło, że NCN nie ujawniło listy recenzentów ale ,,prawie” ujawniło listę ekspertów. Piszę ,,prawie” ponieważ lista ekspertów przedstawiona na tej stronie jest bez podziału na panele, przez co mało użyteczna. W prasie znaleźć można pojedyncze głosy (jak np ten) przekonujące czytelnika, że eksperci mają znaczący dorobek, ale te informacje dotyczą jednego panelu i bez nazwisk trudno je zweryfikować.

Więc plan na ten tydzień to przyjrzenie się bliżej ekspertom NCN. Nie mam zamiaru oceniać osób, ponieważ w wielu przypadkach ich dorobek jest o rząd lub rzędy wielkości większy niż mój, chciałbym jedynie pokazać jak wygląda dorobek ekspertów z rożnych dziedzinach. Ponieważ dane zbierane były automatycznie więc podczas zbierania zdarzyć się mogło, że komuś niedoszacowano albo przeszacowano. Dlatego nie ma sensu oceniać jednostek, ale można przyjrzeć się całej populacji. Mam nadzieję, że informacje o dorobku ekspertów będą użyteczne nie tylko w kontekście konkursów NCN, ale też młodym ludziom dadzą wyobrażenie jak wyglądają dorobki osób w kraju uznanych. Koniec końców, do wykonania tych wizualizacji użyłem danych z trzech źródeł, z których każde starało się dostęp do danych ograniczyć, więc samo wyciąganie danych było dobrą zabawą.

Skąd są dane ?

Informacje o imionach i nazwiskach ekspertów wyciągnięte są z tego dokumentu.

Aby nie analizować ekspertów z różnych dziedzin w jednym worku z bazy danych Ludzie Nauki OPI wyciągnąłem informację o dziedzinie w której pracują eksperci (około 4% osób nie udało mi się jednoznacznie zidentyfikować ponieważ kilka osób ma identyczne imię, nazwisko i tytuł). Należy podkreślić, że dziedzina wskazana w bazie OPI nie musi mieć nic wspólnego z panelem w którym ekspert zasiadał. Dzięki podziałowi na dziedziny unikniemy mieszania humanistów ze ścisłowcami.

Mała modyfikacja programu Publish or Perish (zobacz tutaj) pozwoliła na ściągnięcie informacji o g-liczbie cytowań, g-liczbie publikacji i g-h-indeksie oszacowanych na bazie Google Scholar. Piszę g-* ponieważ ta wyszukiwarka ma tendencje do zawyżania wskaźników. Jest jednak łatwym do weryfikacji punktem odniesienia.

Co w danych piszczy?

Dzisiejszy wpis to rozgrzewka opisująca jakie dane są zebrane. Dzisiaj będzie mnie interesowało to jaki stopień naukowy i jakie dziedziny znajdziemy wśród ekspertów. Przyszłe analizy liczby cytowań i h-indeksu będziemy przeprowadzać osobno dla każdej z dziedzin.

Rozkład stopni naukowych wśród ekspertów jest następujący:
prof. dr hab. (298), dr hab. (87), prof. dr hab. inz. (76), dr hab. inz. (26), dr (13), ks. dr hab. (3), dr inz. (3), prof. (2), ks. prof. dr hab. (2), przew. kwal. II (1), prof. przew. kwal. II (1), prof. dr inz. (1), prof. dr hab. przew. kwal. I (1), o. prof. dr hab. 1.
Zobaczmy jak te liczby wyglądają w rozbiciu na dziedziny.

[Update: Przedstawiona jest poniżej wersja rastrowa, po kliknięciu na wykres otworzy się wersja wektorowa, skalowalna, znacznie lepiej wyglądająca.]

Rysunek 1. Dziedziny w których pracują eksperci NCN. W kolejnych wierszach przedstawiono dziedziny KBN w których pracują eksperci. Ponieważ są eksperci pracujący w kilku dziedzinach, więc suma wszystkich liczb w nawiasach jest większa niż liczba ekspertów. Najczęściej współwystępujące pary dziedzin połączone są linią po prawej stronie. Po lewej stronie kolorami oznaczono skład tytułów i stopni ekspertów z danej dziedziny. Jaśniejsze kolory odpowiadają osobom bez inżyniera, ciemniejsze osobom z inżynierem. Osoby ,,tylko” z habilitacją są zaznaczane na zielono, profesorowie na niebiesko.

Wszystkich dziedzin jest sporo, ale dla części jest niewielu reprezentantów, przez co w dalszych analizach skoncentrujemy się na najliczniejszych dziedzinach do socjologi włącznie.

Dziś pokażę jeszcze rozkład płci ekspertów w każdej z dyscyplin.

Rysunek 2. Rozkład płci ekspertów NCN w rozbiciu na dziedziny.

 

Konkursy z roku 2011

Zagadka na dziś.

W jakiej kategorii poniższy wykres może zostać uznany za ..Naj 2011”?

 

Według tego bloga wykres ten zwyciężył w kategorii najgłupszy wykres roku. Pod wskazanym linkiem jest też kilka argumentów za, ale pierwszy rzut oka dostarcza takich argumentów wiele. Faktycznie wykres ma potencjał, nawet bez dodatków pseudo 3D i perspektywy.

Ciekawe jaki byłby wynik takiego konkursu gdyby ograniczyć się do grafik produkowanych przez rodzime media? Może widzieliście ostatnio jakąś szczególnie nietrafioną wizualizację? Jeżeli zbierze się kilka propozycji to możemy zorganizować własny konkurs.

Podział obowiązków w rodzinie

Dzisiaj ponownie bazujemy na danych z Diagnozy Społecznej (więcej informacji o tym zbiorze danych tutaj). W ankiecie z roku 2009 znalazło się pytanie, jaki powinien być twoim zdaniem podział obowiązków w rodzinie, w zależności od tego czy są w rodzinie dzieci i w jakim wieku (pytanie 107 kolumna ep107.1-ep107.4).

Pytanie dotyczyło w gruncie rzeczy tego, kto powinien pracować a kto nie. Z podtekstem że osoba niepracująca będzie zajmowała się domem i dziećmi.

Wyniki obrazuje poniższa tabelka, a przez resztę wpisu będziemy zastanawiać na jakim wykresie taką tabelę należy przedstawić.

W każdej kolumnie procenty grzecznie sumują się do 100%.

                                                                  dzieci do 3 lat dzieci od 3 do 6 lat dzieci od 6 do 12 lat nie ma dzieci do 12 lat
OBOJE PRACUJĄ W PEŁNYM WYMIARZE                                              5.00                11.92                 40.78                   83.76
ON PRACUJE W NIEPEŁNYM, ONA W PEŁNYM WYMIARZE                                0.29                 0.91                  1.34                    0.31
ON PRACUJE W PEŁNYM, ONA W NIEPEŁNYM WYMIARZE                               18.63                42.06                 41.68                   10.10
ON PRACUJE W PEŁNYM WYMIARZE, A ONA PRZERYWA PRACĘ NA PEWIEN CZAS           49.13                30.79                  9.32                    2.61
ON PRZERYWA PRACĘ, ONA PRACUJE W PEŁNYM WYMIARZE                             0.20                 0.40                  0.73                    0.15
ON PRACUJE W PEŁNYM WYMIARZE, ONA REZYGNUJE Z PRACY                         26.75                13.92                  6.15                    3.06

 

W oczy rzuca się brak symetrii, przy założeniu że ktoś powinien zrezygnować z pracy najczęściej pada na kobietę (uwaga 1: zobaczymy później jak to wygląda w rozbiciu na płeć, uwaga 2: to wyniki ankiet a nie moje opinie, feministki, proszę nie rysujcie mi lakieru na moim rowerze). Niewiele jest osób, które przy dzieciach do 6 lat model oboje rodzice pracują jest najlepszy.

Przejdźmy do wykresów. Powyżej różnych modeli podziałów obowiązków jest 6, ale w sumie interesować będą nas trzy główne: oboje rodzice na pełny etat, jeden z rodziców na część etatu, jeden z rodziców nie pracuje. Na pierwszym wykresie będziemy pokazywać zakumulowane procenty (kody w R poniżej)

 

Takie wykresy są często krytykowane ponieważ udział procentowy zielonej i fioletowej grupy ciężko porównać z uwagi na przesunięty punkt 0. Drugi częsty powód krytyki to łączenie odcinkami procentów, które sugeruje że jest jakiś trend (liniowy) w wynikach pomiędzy kategoriami.

Tak więc nawet jeżeli graficznie ten wykres mi się najbardziej podoba wypada zobaczyć jeszcze kilka innych wariantów.

Wykres paskowy, bez sugestii co do liniowości trendu.

I jeszcze jeden paskowy, ale bez skumulowania procentów

I jeszcze wykres punktowy. W teorii wykres punktowy łatwiej czytać niż powyższy, ponieważ oś OY nie jest tak szeroka.

Cztery wykresy. Podejrzewam że każdy znajdzie swojego amatora. A wracając do treści pokazywanej na tych wykresach to następnym razem wrócimy do tematu jak te proporcje zmieniają się w grupach wiekowych i płciach.