Tabela 1 a pakiet Gmisc

Tworząc raporty często początkowe tabele są do siebie podobne – przedstawiają statystyki opisowe zmiennych. Bardziej złożone statystyki są zazwyczaj później.

W przypadku prac bio-medycznych używa się sformułowania Tabela 1 – czyli pierwsza tabela w artykule, zazwyczaj przedstawiająca statystyki opisowe porównywanych grup (np terapia A/B/C).

Ostatnio odkryłem pakiet Gmisc – fantastyczne wsparcie do szybkiego tworzenia (dobrze wyglądających) tabel prosto z poziomu knitra. Poniższy przykład dotyczy tabeli z podsumowaniem, ale możliwości tego pakietu są znacznie większe.

Przykładowo, taki krótki kawałek kodu (nazwy ważnych zmiennych usunąłem ze zrozumiałych powodów)

Czytaj dalej Tabela 1 a pakiet Gmisc

Uniwersytet Potworny a raport ,,Konkurencyjna Polska”

Ponoć dzięki ,,Big data” będziemy mieć łatwiejszy dostęp do spersonalizowanej informacji. Wyobraźcie sobie moje zaskoczenie, gdy ja (urlopowany ale zawsze), pracownik Uniwersytetu Warszawskiego, kilka dni przed rozpoczęciem roku akademickiego wpisując do google frazę ,,Uniwersytet ” otrzymuję jako pierwszą podpowiedź wskazanie na film Pixara.

A mówią, że polskie uczelnie słabo stoją w rankingach.

To dziwne doświadczenie sprowokowało mnie do odkopania materiałów zwiazanych z wyższą edukacją. Dziś będzie więc słów kilka o raporcie ,,Konkurencyjna Polska – Jak awansować w światowej lidze gospodarczej?”. Raport pod redakcją byłego ministra pracy Jerzego Hausnera, cytując z okładki ,,Raport został opracowany przez zespół niezależnych ekspertów. Powstał z inspiracji Prezydenta RP”.

Objętościowo jest to duży dokument (ponad 160 stron), mnie poniżej interesować będą dwa krótkie rozdziały, 2.4 poświęcony konkurencyjności naszego szkolnictwa wyższego i 2.6 poświęcony demografii.

Zanim przejdziemy dalej dwie zagadki:

1. Które państwo zgodnie z ,,The Global Competitiveness Report 2012/2013” ma najbardziej konkurencyjne szkolnictwo wyższe?

2. O ile udział populacji mieszkańców Polski, liczony jako procent populacji światowej, skurczy się pomiędzy latami 1970 – 2050?

Czytaj dalej Uniwersytet Potworny a raport ,,Konkurencyjna Polska”

Raport ,,Dziewczyny na politechniki 2012”

Od czego zacząć…

Dziś napiszę o raporcie ,,Dziewczyny na politechniki 2012” [raport pdf], który jest dostępny na stronach projektu ,,Dziewczyny na politechnikach” [btw: jest też inicjatywa ,,Dziewczyny do ścisłych”].

Napiszę o tym raporcie z uwagi na kilka ostatnich wydarzeń [kolejność bardzo subiektywna].
– młoda, nomen omen córka inżynierów, pomogła złożyć niszczyciel z klocków,

– Komisja europejska opublikowała raport ,,She figures 2012”, a czasopismo Nature poświęciło część numeru na ,,Women in science” [złośliwi powiedzą, że taki tytuł powinien pojawić się raczej w czasopiśmie Science],

– W piątek, 19 kwietnia, o 17 na kampusie głównym UW odbędzie się debata ,,Nauka jest kobietą”.

Punktem wspólnym tych wydarzeń jest walka ze stereotypem, że nauki ścisłe i politechniki nie są dla kobiet.

Czytaj dalej Raport ,,Dziewczyny na politechniki 2012”

Informatyzacja w wydaniu urzędów administracji publicznej

Wracam do tematu raportów. Dziś przyjrzę się wynikom z raportu ,,Badanie wpływu informatyzacji na działanie urzędów administracji publicznej w Polsce w 2011 roku” udostępnionego na stronach Ministerstwa Administracji i Cyfryzacji (zobacz tutaj). Krzysiek T. wysłał mi kiedyś link do tego raportu z komentarzem ,,też ciekawy raport”. Zobaczymy.

 

Moje pierwsze wrażenie jest takie, że raport, opublikowany w formie prezentacji jest nudny jak flaki z olejem. Ponad 180 stron z podobnymi do siebie tabelkami w których każde pytanie do ankietowanych pracowników administracji jest rozbijane na te same zmienne a tabelki czasami tylko opatrzone są krótkim komentarzem.

Pierwszą rzeczą, która mnie rozbawiła było hasło na ostatniej stronie ,,Badania nas inspirują”. Ech. Mam nadzieje, że ten raport był prezentowany przez jakiegoś wyjątkowo charyzmatycznego człowieka.

Niemniej na tych 189 stronach znaleźć można sporo interesujących informacji.

Poniżej pokażę rodzynki.

 

Jednym z pytań było jakie zmiany zaobserwowano po zastosowaniu technologii teleinformatycznych. Najbardziej zauważalna rzecz to wzrost obciążenia pracą.

Paradoksalne prawda? Jakie to technologie instalują w tych urzędach skoro zamiast pomagać zwiększają ilość pracy?

Kolejny interesujący element to ,,wzrost innowacyjności pracowników”. Strach myśleć co oznacza większa innowacyjność urzędników a tym bardziej jak może ją stymulować system teleinformatyczny.

Co ciekawe (nieznacznie) więcej osób uważa, że wdrożony system zwiększył a nie zmniejszył koszt obsługi klienta i zwiększył a nie zmniejszył liczbę dokumentów w postaci papierowej. Brzmi nieprawdopodobnie.

 

Kolejne pytanie dotyczyło planów w zakresie obsługi informatycznej. Zdecydowana większość ankietowanych nie miała sprecyzowanych planów. Z wyjątkiem może ankietowanych z  urzędów marszałkowskich, którzy planowali często zatrudnić nowe osoby i/lub zlecić część prac podmiotom zewnętrznym.

 

 

Bardzo zastanawiające są też odpowiedzi na pytanie o podwójny obieg dokumentów.

W 90% przypadkach podwójny obieg dokumentów występuje bardzo często lub często. Po co jest ten wdrożony system teleinformatyczny? Ok, być może jest to wymóg aktualnego prawa. Ale czy to ma sens?

 

 

Na stronie 126 zaprezentowano jakie usługi można wykonać z użyciem systemu teleinformatycznego. Dwie dominujące odpowiedzi to: usługa nie jest świadczona drogą elektroniczną, lub istnieje możliwość pobrania formularza wyłącznie do utworzenia dokumentu papierowego.

 

Ostatni rodzynek dotyczy obserwacji, które można wysnuć z przedstawionych wyników, pomimo iż te zagadnienia nie były celem zainteresowania badaczy. Tak więc badanie było anonimowe, rozesłano formularze z prośbą o wypełnienie i zwrot. ,,Poziom zwrotności” (zabawne sformułowanie) określa jaki procent urzędów odpowiedziało. Co interesujące najrzadziej odpowiadały ministerstwa i urzędy podległe ministerstwom. Odpowiadano ponad dwukrotnie rzadziej niż z urzędów wojewódzkich czy miast na prawach powiatu (czyli duże miasta).

Dlaczego zaangażowanie w ministerstwach było najniższe? Pozostawiam to pytanie na piątkowe dyskusje.

 

Po co używać wykresów kołowych, czyli raporty znanej fundacji a ,,lie factor”

Zacznę od tego, że FNP stara się czytelnie prezentować wyniki swoich konkursów. Z ostatniego konkursu START dla przejrzystości upubliczniono wnioski laureatów, a więc jest tutaj duża przejrzystość. NCN mógłby się dużo nauczyć (sposób ich publikacji wyników pierwszego konkursu pozostawia wiele pytań). Pisząc kolokwialnie, FNP robi świetną robotę (tzn. ludzie pracujący w tej fundacji).
Niemniej FNP też zdarzają się wpadki.

Na tej stronie przedstawiono raport z rekrutacji różnych programów prowadzonych przez Fundację.

Z jakiegoś powodu uznano, że trójwymiarowe wykresy kołowe nadadzą się do czegokolwiek. Tymczasem dwie pierwsze reguły wizualizacji danych to: nie uzywaj pseudo-trójwymiarowych wykresów jeżeli nie trzeba i nie uzywaj wykresów kołowych. Nie jest tylko jasne która z tych reguł jest pierwsza a która drugą. Pseudo-trzeci wymiar na wykresach oszukuje percepcję i nie pozwala na poprawną ocenę długości/szerokości itp. Wykresy kołowe sa niedobre ponieważ nie potrafimy dobrze porównywać kątów.

Zobaczmy przykładowy wykres prezentowany ww raporcie na stronie 2.

Co jest dziwnego w tym wykresie? Są dwa kawałki, które opisują po 5% i dwa opisujące po 11%, ale coś jest z nimi nie tak. Zmierzmy długości odpowiednich cięciw.

Długości tych cięciw w pixelach to odpowiednio 116, 211, 126, 46 pixeli.

Edward Tufte zdefiniował kiedyś współczynnik ,,lie-factor”, który liczony jest jako iloraz efektu widocznego na wykresie do efektu w danych.

Stosunek długości cięciw A:D to 116/46 = 2.6 podczas gdy z danych wynika, że powinny być to tej samej długości cięciwy.

Stosunek długości cięciw B:C to 211/126 = 1.7 podczas gdy z danych wynika, że powinny być to tej samej długości cięciwy.

Czy trzeba więcej argumentów przeciwko wykresom kołowym 3D?

W ogóle ilość danych przedstawionych w powyższym raporcie do jego objętości jest dosyć mizerna. Całą stronę 2 mozna by przedstawić za pomocą jednego wykresu na którym jest więcej informacji. Kod do wygenerowania tego wykresu znajduje się tutaj. A wykres poniżej (trochę lepiej wygląda dla innych progrmów gdzie było więcej lauretów)

Krytykując wykresy 3D spójrzmy jeszcze na poniższy z tego samego raportu. Pierwszy słupek ma wysokość 15% ale jest znacznie poniżej linii siatki oznaczającej 15%. Pewnie da się to jakoś wytłumaczyć, ale i tak dosyć dziwnie to wygląda.