Pięć raportów od wielkanocnego zająca

Tak naprawdę to nie od zająca, ale od Krzyśka Trajkowskiego.
Ale zacznijmy od początku.

Jakiś czas temu [to już cztery lata?] pracowałem nad zbiorem ,,luźnych” notatek w okolicy eksploracji danych, czego wynikiem był dokument ,,Na przełaj przez Data Mining”. Do prac nad tym dokumentem dołączył Krzysiek i w aktualnej [jeszcze nie ukończonej] wersji, połowa rozdziałów jest jego autorstwa.

Poza tą pozycją wspomniany już autor przygotował pięć interesujących dokumentów, które być może zaciekawią czytelników tego bloga.
Poniżej lista dokumentów wraz z odnośnikami do plików pdf.
Miłej lektury.

  1. ,,Przegląd pakietów do optymalizacji liniowej”, Krzysztof Trajkowski (2011).
    Można przeczytać o funkcjach solveLP(linprog), lp(lpSolve), lp.transport(lpSolve), lp.assign(lpSolve).
  2. ,,Przegląd pakietów do optymalizacji nieliniowej”, Krzysztof Trajkowski (2012).
    Można przeczytać o funkcjach optim(stats) i fminsearch(pracma) oraz solve.QP(quadprog), constrOptim(stats), constrOptim.nl(alabama), solnp(Rsolnp) i nloptr(nloptr).
  3. ,,Przegląd pakietów do analizy zmiennych niezależnych”, Krzysztof Trajkowski (2012).
    Można przeczytać o testach parametrycznych i nieparametrycznych dla dwóch lub większej liczby grup.
  4. ,,Przegląd pakietów do analizy zmiennych zależnych”, Krzysztof Trajkowski (2012).
    Można przeczytać o testach parametrycznych i nieparametrycznych dla danych sparowanych/związanych.
  5. ,,Analiza i wizualizacja danych naukowych”, Krzysztof Trajkowski (2013).
    Można przeczytać o pakietach ggplot2 i shape.

Słowa uznania dla autora tych dokumentów można zostawiać w komentarzach.

Agregator sondaży poparcia dla partii politycznych

Dziś będzie wpis jednocześnie o trzech bardzo ciekawych rzeczach.
Po pierwsze przedstawię prototyp aplikacji, pozwalającej na interaktywne przeglądanie i porównywanie wyników z sondaży poparcia dla partii politycznych.
Po drugie, opowiem jak budować interaktywne serwisy internetowe z logiką opisaną w R, z użyciem Shiny – rewolucyjnej [to nie jest nadużycie, to naprawdę jest rewolucja] implementacji paradygmatu ,,reactive programming” [tutaj opis].
Po trzecie, zobaczymy co ciekawego można znaleźć porównując wyniki różnych partii i różnych ośrodków badania opinii. Wyniki których ośrodków są ,,obciążone” i jak bardzo mylące jest sugerowanie się zmianami poparcia przedstawianymi w mediach.

Czytaj dalej Agregator sondaży poparcia dla partii politycznych

W jakiej kolejności podchodzić do przedmiotów, czyli USOS a sieci (samo)wspierania

Dziś kolejny gościnny wpis, tym razem Teresy Ponikowskiej, mojej byłej magistrantki, obecnie już Pani Magister.

Temat wpisu i pracy dyplomowej dotyczy analizy danych z bazy/systemu USOS (USOS to system obsługi studenta, działała na większości uniwersytetów). Mając dane o różnych aspektach ,,procesu dydaktycznego”, można do wielu ciekawych rzeczy się dokopać. Wokół tego tematu powstały jak dotąd cztery prace magisterskie, zaczęło się od pracy ‘Oceanarium’, Filipa Grotkowskiego w 2011 roku, w roku 2012 powstały trzy prace, miedzy innymi Teresy Ponikowskiej, eksperymentujące z różnymi możliwymi analizami danych z USOSa. Wyniki tych prac nie zostały wdrożone w USOS, ponieważ pewnych rzeczy nie da się zrobić w ramach pracy magisterskiej, a niestety dwie główne rodzime instytucje grantowe odmówiły finansowania tego projektu [ni to badania podstawowe, ni przemysłowe zastosowania].
Nie ma wdrożenia, ale są ciekawe prototypy, jeden z nich dziś będzie opisany. Zobaczymy, jak można wykorzystać oceny z USOSa do zarekomendowania studentom kursów pomocniczych, które zrobione wcześniej pozwalają na lepsze zdanie (w domyśle lepsze zrozumienie/przygotowanie do) innego przedmiotu. W sytuacji gdy student wybierać może ze zbioru wielu kursów, również jeżeli chodzi o kolejność ich realizacji, takie rekomendacje mogą być użyteczne.

Będzie technicznie, ale mam nadzieje ciekawie. Poniższy przykład to szkic pomysłu, szczegółowy opis znaleźć można w pracy magisterskiej.

Czytaj dalej W jakiej kolejności podchodzić do przedmiotów, czyli USOS a sieci (samo)wspierania

Nauka w Polsce 2013, czyli słów kilka o nowym raporcie ministerstwa

W poprzednim tygodniu ukazał się raport ,,Nauka w Polsce 2013” [znajdziesz go tutaj]. Jest on prawdopodobnie opracowany przez ministerstwo [,,prawdopodobnie” ponieważ w raporcie brakuje informacji kto jest autorem]. Jest w nim wiele wykresów, z których część można by było zrobić lepiej. I o tym co można zrobić lepiej będzie dzisiejszy wpis.

,,Nowoczesna” forma

Raport ma bardzo ,,nowoczesną” formę, składa się głównie z wykresów. Brak w nim komentarzy czy wniosków dotyczących prezentowanych wyników, jedynie gdzieniegdzie można znaleźć objaśnienia jak pewne współczynniki były liczone.
Przez co w pierwszej chwili można odnieść wrażenie, że to jedynie slajdy z prezentacji/streszczenia [sprawdzałem nawet w słowniku języka polskiego czy taki zbiór wykresów można nazywać raportem].

Do większości wykresów brakuje informacji o źródle danych, które są przedstawiane. Utrudnia to weryfikację prezentowanych liczb. Niestety do standardów raportów OECD jest jeszcze daleko, tam przy poważnych raportach do każdego wykresu dodane są odnośniki do źródeł danych.

Sytuacja z tym raportem jest kuriozalna. Mamy zbiór wykresów, w części nie najlepiej przygotowanych, nie ma odnośników do danych źródłowych, nie ma tabel z liczbami, na postawie których te wykresy powstały. Brakuje też wniosków czy podsumowania, które można by zweryfikować.
Rodzi to wręcz obawy, że z tego raportu każdy odczyta sobie wnioski jakie będą mu pasować, a nieuporządkowana formuła raportu nie pozwoli na ich weryfikację.

Wiele interesujących tematów

W raporcie poruszanych jest wiele tematów. Można zobaczyć wykresy traktujące o finansowaniu nauki w Polsce (chciałem napisać przeczytać, ale akurat przeczytać się nie da).
Począwszy od wysokości nakładów na naukę, informacji co w jakiej wysokości jest finansowane, jest o tym, ile jest uczeni i pracowników naukowych w różnych województwach (choć nie jest jasne jak liczeni są ci, co pracują w rożnych województwach), ile jest jednostek badawczych, jakiego typu i jak bardzo aktywnych. I wiele innych informacji.

Zachęcam do przejrzenia tego raportu.
Aktualna wersja ma podtytuł ,Edycja 1′, może kolejne edycje będą miały już liczby i wnioski dzięki czemu będzie to ciekawe źródło informacji.

Co można by w raporcie poprawić?

Zaczniemy od retorycznego pytania: czy jeżeli w raporcie nie ma spisanych wniosków i nie ma podanych źródeł to trudno się czegoś przyczepić?
Wybierzmy kilka rodzynków. Powiedzmy, że w ramach działalności typu ,,watchdog”.
Dwie pierwsze to oczywiste grube błędy, kolejne to sugestie.

Czytaj dalej Nauka w Polsce 2013, czyli słów kilka o nowym raporcie ministerstwa

Czy poloniści są mniej obiektywni a matematyki jest za mało w liceum?

Update:
Nowsze wyniki matur dostępne są tutaj
http://smarterpoland.pl/index.php/2015/09/wyniki-z-matur-z-2015/

Dzisiaj przyjrzymy się wynikom z matur z lat 2010-2012. Z wykresów opisujących wyniki z polskiego i matematyki powyciągamy kilka smaczków. Na temat zwrócił mi uwagę Marek K., za co bardzo dziękuję!

Czytaj dalej Czy poloniści są mniej obiektywni a matematyki jest za mało w liceum?

Pięć rzeczy, których nie wiedzieliście o papieżach

Jakiś czas temu trafiłem na blog aktuariusza Arthura Charpentiera, który pokazywał jak w programie R pobrać bezpośrednio z Internetu informację o latach sprawowania urzędu przez papieży [blog tutaj]. A następnie badał jak długo papieże sprawowali swój urząd na przestrzeni ostatnich 2000 lat.
Na wspomnianym blogu można np. zobaczyć czy czas sprawowania urzędu papieża zmienia się z wydłużającą się średnią życia w populacji (choć trudno o jednoznaczne wnioski, ponieważ nie mamy informacji o datach urodzenia papieży).
Po przeczytaniu tego bloga miałem wrażenie, że z pobranych danych można wyciągnąć znacznie więcej informacji, a same dane można ciekawiej pokazać.
Dziś pokażę jak wyglądała moja zabawa z tymi danymi.

Czytaj dalej Pięć rzeczy, których nie wiedzieliście o papieżach

Matematyka, PISA, zajęcia z modeli liniowych i mieszanych

Dziś mamy kolejny gościnny wpis. Tym razem poświęcony analizie danych PISA pod kątem cech korelujących z wynikami testu z matematyki. Dane PISA to źródło wielu ciekawych informacji, pracowaliśmy z nimi podczas poprzednich wakacji z wolontariuszami i będziemy jeszcze nie raz z nimi pracować.

Zanim przejdę do gościnnego wpisu streszczę historię jego powstania. Wiem, że wśród czytelników są osoby zaangażowane/uwikłane w dydaktykę przedmiotów związanych z analizą danych. Mam nadzieję, że dla nich ten rys historyczny będzie ciekawy.

W semestrze zimowym prowadziłem przedmiot dotyczący modelowania z użyciem modeli liniowych i mieszanych. Zaliczenie można było uzyskać na podstawie pięciu projektów. Wszystkie projekty dotyczyły analizy tego samego zbioru danych PISA 2009. Najlepsze wyniki z pierwszego projektu były przedstawiane publicznie, by każdy mógł z nich skorzystać i zrobić coś lepszego na drugim projekcie. Później najlepsze wyniki z drugiego projektu były przedstawiane publicznie tak by każdy mógł z nich skorzystać i zrobić coś lepszego na trzecim projekcie, i tak dalej.
Mamy więc pięć projektów dotyczących tego samego zbioru danych. Celem każdego z projektów jest opisanie, co wpływa na wyniki uczniów z egzaminu z matematyki. Zapisanych było około 20 studentów i wszyscy oni pięciokrotnie podchodzili do tego problemu. W miarę jak na wykładzie pojawiały się coraz bardziej zaawansowane techniki, widać było co nowego dzięki nim możemy odkryć/pokazać w zbiorze danych PISA.
Ostatni projekt polegał na przygotowaniu i przedstawieniu w postaci plakatu struktury zależności pomiędzy zmiennymi.
Mòj plan był prosty. Przez cztery projekty studenci szukali interesujących zależności, a w ostatnim projekcie najciekawsze rzeczy należało podsumować na jednej kartce/plakacie. Idealnie by było, gdyby taki plakat mógł zastąpić kilkudziesięciostronicowy raport z setką wykresów.

Poniżej mam przyjemność przedstawić jeden z lepszych wyników tego eksperymentu. Projekt wykonany przez Barbarę Rubikowską, Jana Gąskę, Krzysztofa Opalskiego i Marcina Wnuka. Prezentacja plakatów była ustna, ale na potrzebę tego bloga autorzy przygotowali krótki opis wyników.

Czytaj dalej Matematyka, PISA, zajęcia z modeli liniowych i mieszanych

Piramida wieku w Polsce a projekt kubek

I dziś ponownie wrócimy do projektu kubek, czyli jak mieć pod ręką różne charakterystyki związane z Polską (więcej informacji tutaj). Dzisiaj napiszę o tym jak powstawał wykres przedstawiający strukturę wieku w Polsce.

Będzie technicznie, będzie kod w R, będzie o kolorach, będzie ciekawie!

Czytaj dalej Piramida wieku w Polsce a projekt kubek