Magda zaproponowała ciekawy projekt. Chodzi o znalezienie cech/charakterystyk w których Polska jest ,,naj” w Europie. Ale nie chodzi o napuszone statystyki typu najzdolniejsi informatycy, najwięcej studentów czy największy wzrost PKB, tylko o bardziej neutralne a jednak ciekawe charakterystyki typu liczba kotów czy spożycie mleka.
Dzisiaj więc poszukamy cech w których jesteśmy ,,naj” szperając w Eurostacie w tabelach dotyczących produkcji rolnej różnych państw Unii Europejskiej w roku 2011.
Okazuje się, że w Europie Polska jest niekwestionowanym liderem w zbiorach/produkcji porzeczek czy buraków, jest też największym producentem w Unii pszenżyta, żyta i jabłek.
W czerwcu zaproszono mnie na wrześniowy TEDxKraków 2012 ,,Secret Lives”. Rozsądna osoba o moim głosie unikałaby takich wystąpień. Ale gdybym był rozsądną osobą to nie prowadziłbym tego bloga ani nie zakładałbym fundacji. Jest moim zdaniem idea, którą powinno się głośno i często powtarzać.
Chodzi o promowanie krytycznego myślenia, myślenia opartego o twarde i rzetelne dane. O naukę czytania danych ze zrozumieniem i kwestionowania nierzetelnych danych lub nierzetelnych analiz.
Zbyt mało moim zdaniem jest chętnych by coś z tym robić, cóż więc pozostaje, trzeba powtarzać tę ideę głosikiem jaki się ma.
Uwielbiam wiele filmów z serii TED i TEDx. Wiele z nich pchnęło mnie do zrobienia rzeczy, których inaczej bym nie zrobił a dziś nie żałuję. Atmosfera na żywo, podczas imprezy w Krakowie, przebiła jednak wszystko co widziałem na filmach. Organizacja była fantastyczna, impreza była fantastyczna, powietrze było fantastyczne. Poziom dopracowania szczegółów — NIEWIARYGODNY. Wielkie podziękowanie dla organizatorów za świetną organizację i za możliwość wypowiedzenia kilku słów na scenie.
Poniżej można zobaczyć moje wystąpienie. A na stronie http://tedxkrakow.com jest już wiele innych filmów z tego spotkania [Moim zdaniem najlepsze wystąpienie miał zespół Camero Cat, ale jeszcze ich nie ma na www].
Przy okazji TEDxKraków usłyszałem anegdotkę, co prawda z długą brodą, ale ja jednak nie słyszałem go wcześniej a bardzo mi się spodobał. Więc poniżej jeszcze podzielę się tym dowcipem.
Dzisiaj mija 14 miesięcy od pierwszego wpisu na blogu i dokładnie rok odkąd blog zamienił się w fundację. To dobry powód by zatrzymać się na chwilę i zrobić małe podsumowanie tego co udało się zrobić i zastanowić się co dalej.
Napiszę więc skąd się wziął pomysł na bloga, podzielę się kilkoma doświadczeniami, podsumuję ubiegły rok (a jakżeby inaczej) w liczbach i zastanowię się co i jak dalej.
W ostatni czwartek pisałem o tym, że wyniki sondaży obarczone są dużą niepewnością pomiaru i nie można zbyt dosłownie traktować nagłych ,,skoków poparcia”. A tu w piątek w mediach ,,news”: poparcie dla jednej z dużych partii podskoczyło w ciągu miesiąca o 7 punktów procentowych (cytat z gazety z 27% na 34%). Ale 7% osób mogących głosować to ponad 1.5 mln osób, czy tak duża jest prawdopodobna? Zaraz zobaczymy.
Zebrałem dane o wynikach sondaży poparcia partii politycznych przeprowadzanych w ostatnim roku. Sprawdzałem wyniki czterech ośrodków badania opinii publicznej CBOS, Homo Homini, SMG KRC, TNS Polska. Chciałem zobaczyć na ile zgodne są wyniki różnych ośrodków.
Co wyszło? Kilka niespodzianek. Np. wygląda na to, że niektóre ośrodki dla niektórych partii mają ,,systematyczny błąd” w porównaniu ze średnią z wszystkich sondaży. Np. ciekawie wygląda porównanie CBOS z Homo Homini. Zresztą zobaczcie sami.
Programy informacyjne są czasami zakłócane komentarzami sondaży poparcia partii politycznych. Zdarza się, że panel osób próbuje wytłumaczyć nowe wyniki sondaży pokazujące zmianę o 2% poparcia dla jakiejś partii. Co więcej, w tłumaczeniach osoby komentujące wydają się wierzyć, że to możliwe by w ciągu tygodnia 400 000 osób zaczęło/przestało popierać partię X.
Zastanówmy się jaki jest błąd pomiaru poparcia w przeciętnym sondażu. Wiele sondaży przeprowadzanych jest na próbach około 1000 osobowych, z tej próby zazwyczaj mniej niż połowa deklaruje chęć głosowania w wyborach. Upraszczając sytuację, zakładając, że poparcie dla partii X można modelować próbą losową z rozkładu dwumianowego o nieznanym parametrze p, dokładność pomiaru poparcia jest czasem rzędu +-5%. Jak szeroki jest dokładnie przedział ufności dla oceny poparcia partii X zależy od wielu czynników, zazwyczaj jednak jest znacznie szerszy niż te 2%, które budzą dyskusje w mediach.
Nate Silver pokazał, że odpowiednio agregując wyniki rożnych sondaży można wyznaczyć znacznie dokładniejsze szacunki niż każdy z sondaży pokazuje osobno.
A ja dzisiaj chciałbym pokazać, że odpowiednio uśredniając wyniki poparcia w czasie można lepiej zobaczyć i globalny trend i lokalną zmienność wyników sondaży.
W komentarzach do wczorajszego wpisu Michał B. zadał pytanie: jaka część kończących studia zostaje na doktoracie i jak ten współczynnik zmienia się w czasie?
Taki współczynnik trudno ocenić, niektórzy robią sobie roczną przerwę, niektórzy po roku studiów doktoranckich rezygnują, dlatego niżej pokażę wyniki dla zbliżonego współczynnik, który łatwo policzyć, mianowicie iloraz liczby doktorantów do liczby studentów pierwszego lub drugiego stopnia (ISCED6 / ISCED5).
Mnie, wyniki zaskoczyły.
AFAIK ObywateleNauki.pl planują w najbliższym czasie debatę nt. statusu doktoranta. Pomyślałem sobie, że pomocne przy tej debacie może być zobaczenie ilu tych doktorantów w Polsce jest, czy szybko ich przybywa, w jakich dziedzinach pracują i jak wyglądamy pod względem liczby i struktury doktorantów na tle innych krajów.
We wtorek Magda Małczyńska-Umeda, pokazała swoją wersję infografiki o nadwadze w różnych grupach wiekowych w Polsce.
Czego ja się nauczyłem z tego wpisu? Czasami mniejsza rozdzielczość danych (dane pokazane są z dokładnością do 5%) idzie w parze z większą czytelnością. Dwadzieścia okazuje się wystarczającą liczbą ludzików by pokazać rosnący problem nadwagi z wiekiem. Mniej nie pokazałoby różnic, więcej byłoby nieczytelne. W tym przypadku dwadzieścia to jest TA liczba.
Dzisiaj wykorzystam wizualizację Magdy by pokazać jeszcze dwa wymiary z danych: kraj i rok w którym przeprowadzono badanie.
Acha, i wykorzystam do tego bibliotekę D3 do tworzenia interaktywnych wykresów.
Dwa tygodnie temu w tym wpisie pojawił się opis eksperymentu polegającego na zderzeniu podejścia grafika (w tej roli Magda Małczyńska-Umeda) i statystyka (w tej roli Przemysław Biecek) do prezentacji danych o nadwadze i otyłości w Polsce. Pierwsze komentarze statystyka przedstawione zostały w wymienionym wyżej wpisie. Dziś mamy gościnny wpis Magdy.
Wedle zapowiedzi przyszedł czas na ,,odpowiedź grafika” 🙂