Ustawa 2.0


Ministerstwo Nauki i Szkolnictwa Wyższego wyłoniło trzy zespoły, które pracowały nad założeniami do nowej ustawy o szkolnictwie wyższym, tzw. Ustawie 2.0. Wyniki prac tych zespołów można znaleźć tutaj http://www.nauka.gov.pl/ustawa20/.

Nie jest to prosta lektura. Ale… Dzisiaj Obywatele Nauki opublikowali opinię na temat tych założeń. W tej opinii znajduje się porównanie propozycji prac każdego z trzech zespołów w zestawienie z propozycją ON i w podziale na istotne grupy tematyczne.
To już da się czytać a nawet warto przeczytać. pdf tutaj.

Jednym z wątków, który mnie szczególnie interesował jest temat popularyzacji nauki. Niestety w trzech zgłoszonych propozycjach ten wątek jeżeli się pojawia to skrótowo. Postulaty ON idą w kierunku znacznie poważniejszego potraktowania roli popularyzacji nauki (rozdział VIII). Innym ciekawym wątkiem jest model kariery naukowej, w tym dyskusja czy zostawić habilitacje, czy zostawić profesurę, jakie mogą być doktoraty itp (rozdział III).

123…

Jerzy_Neyman2
Dzisiaj mamy rocznicę 123 urodzin Jerzego Neymana. Jerzy Spława-Neyman to jeden z twórców częstościowego podejścia do testowania, prawdopodobnie najbardziej znany ze sformułowania procesu testowania hipotez jako problem optymalizacji funkcji mocy testu. Współautor lematu Neymana-Pearsona.

Jerzy Neyman doktorat zrobił na Uniwersytecie Warszawskim, jego egzaminatorami byli Wacław Sierpiński i Stefan Mazurkiewicz. Plotka głosi, że ci wybitni matematycy widzieli w Neymanie talent, ale to czym się zajmował nie pasowało do ich definicji matematyki (odwieczny problem na linii matematyka-statystyka). Wysłali go więc do Wielkiej Brytanii aby się sprawdził wśród innych statystyków. Sprawdził się, został np. ForMemRS.

W życiorysie Jerzego Neymana jest wiele polskich akcentów, np. ten, że stworzył w Instytucie Nenckiego laboratorium Biometrii (tak, Nencki to ten Instytut PAN po drugiej stronie ulicy Pasteura). Koniec końców Neyman został jednak profesorem na Berkeley. Zapraszał tam wielu polskich matematyków i statystyków, np. Witolda Kloneckiego, który później opowiadał nam rozmaite anegdotki.

Więcej o Neymanie można przeczytać na stronach AMS lub Wikipedii.

Przyjdź, posłuchaj, porozmawiaj – 13.IV Wrocław, 8.V Kraków, 26.V Warszawa

W najbliższych dniach prowadzę kilka wykładów i warsztatów.

Czwartek 13.IV – UWr Wrocław
godzina 14-15 Wykład o biostatystyce i dużych danych.
godzina 15-17 Warsztaty z wizualizacji danych.

Więcej informacji: http://www.blog.math.uni.wroc.pl/node/171.

Poniedziałek 08.V – PKr Kraków
godzina 15-17 Warsztaty z wizualizacji danych.
godzina 17-18 Wykład statystyka obliczeniowa, duże dane i genetyka.

Więcej informacji: https://www.meetup.com/Cracow-R-Users-Group/events/239021538/.

Piątek 26.V – PW Warszawa
Wykład o biostatystyce i dużych danych.

Te spotkania to fragment serii wyjazdów poświęconych (1) zastosowaniom statystyki obliczeniowej w analizie dużych danych onkologicznych oraz (2) nowym narzędziom do wizualizacji danych/wizualizacji modeli statystycznych.
Między innymi prowadzę te spotkania z nadzieją na znalezienie współpracowników (doktorantów/post-doków) zainteresowanych którymś z ww. tematów.
Ciekawych projektów do realizacji jest sporo. Zainteresowanych zapraszam więc do pogadanek przed/po spotkaniu.

Poprzednie spotkania z tej serii

Czwartek 09.III – MiNI PW Warszawa
godzina 18-19 Historia R.

Czwartek 16.IIIUniejów
godzina 13-14 Wykład wizualizacja danych.

Czwartek 23.III – CO/UEP Poznań
godzina 13-14 Wykład o biostatystyce i dużych danych.
godzina 18-19 Historia R.

Czwartek 06.IV – MIM UW Warszawa
godzina 14-15 Wykład o biostatystyce i dużych danych.

Coś jest w tych czwartkach.

Big Data – bigger opportunities 24-25 kwietnia 2017


Już trzeci rok z rzędu, mam przyjemność poinformować, że nasza Fundacja objęła honorowym patronatem konferencję Big Data – bigger opportunities, organizowaną przez SKN Statystyki SGH.

Poniżej notatka od organizatorów.

Big Data – bigger opportunities, czyli jak Big Data napędza biznes

Moda na Big Data wciąż nie mija. Co więcej, trend ma się rozwijać. Jak prognozuje firma analityczna IDG, w ciągu najbliższych 3 lat wartość rynku zaawansowanej analityki danych wzrośnie ze 130 mld dol. do ponad 203 mld dol. Jednak pomimo tego, że o Big Data mówi się wiele, termin ten nadal pozostaje nieco owiany tajemnicą – ładnie brzmiący, intrygujący, lecz enigmatyczny i niejasny dla przeciętnego Kowalskiego. O co chodzi w tym całym Big Data? Co ma wspólnego z efektywnie prowadzonym biznesem? Odpowiedzi na te pytania szukają między innymi studenci Szkoły Głównej Handlowej, organizując konferencję „Big Data – bigger opportunities”.

Konferencja, organizowana w tym roku już po raz trzeci przez Studenckie Koło Naukowe Statystyki, jest jedyną w Polsce tak dużą konferencją poświęconą tematyce Big Data i jej zastosowaniu w biznesie tworzoną wyłącznie przez studentów. Nie umniejsza to jednak jej poziomu merytorycznego. Tegoroczna edycja projektu odbędzie się 24 i 25 kwietnia w SGH i skupi na przedstawieniu tematyki Big Data z perspektywy realnych problemów biznesowych, rozwiązanych dzięki narzędziom zaawansowanej analityki. Program pierwszego dnia obejmuje 3 warsztaty poświęcone zastosowaniu narzędzi Big Data w praktyce. Agenda drugiego dnia przewiduje natomiast cykl 7 prelekcji, skierowanych do większej liczby uczestników. O wykorzystaniu Big Data w różnorodnych branżach – marketingowej, konsultingowej, bankowej – opowiedzą eksperci z firm takich jak Bank Millennium, Dentsu Aegis Network Polska, Zenith, Cloud Technologies, Deloitte i PwC.

Udział w konferencji jest bezpłatny, lecz na poszczególne prelekcje oraz warsztaty będą obowiązywać zapisy. Link do zapisów pojawi się na stronie Organizatora: www.sknstatystyki.pl. Informacje o wydarzeniu będą również na bieżąco publikowane na profilu SKN Statystyki na Facebooku. Ponadto 10 kwietnia w SGH odbędzie się dzień promocyjny konferencji z licznymi atrakcjami: poczęstunkiem, konkursami, stoiskami partnerów merytorycznych wydarzenia.

Jakich metod statystycznej analizy danych uczyć się?


The New England Journal of Medicine (dla bibliometroholików: 50 pkt MNiSW, impact factor ponad 50, pierwsza liga) opublikował dwa tygodnie temu krótki, ale bardzo ciekawy komentarz Statistical Methods. Przebadano 238 prac z roku 2015 pod kątem używanych technik statystycznych oraz zestawiono te wyniki z artykułami z poprzednich lat (od 1978, łącznie ~1000 artykułów).

Całość streszcza wykres po prawej (to link do oryginalnego artykułu). W dobrych czasopismach medycznych wykorzystywane są coraz bardziej zaawansowane metody statystyczne. Metody nieparametryczne i regresja wielokrotna w ponad 1/3 prac. Analiza przeżycia i analiza mocy testów, każde w ponad połowie artykułów (bardzo duży wzrost w ostatnich latach). Wielokrotne testowanie w co piątym artykule. Tylko co dwudziesty artykuł nie ma ,,statystyki”.

Z pamiętnika nauczyciela akademickiego: Turkusowa Edukacja

Zaczyna się nowy semestr a z nim idą nowe pomysły na zmiany związane z dydaktyką. Co planujecie zmienić w swoich zajęciach? Dla mnie kolorem na semestr letni jest turkus.

Ale o co chodzi?

Chodzi oczywiście o nawiązanie do turkusowych organizacji. W Polsce twarzą turkusowej samoorganizacji jest prof. Andrzej Blikle. Pisze na ten temat blogi, książki (Doktryna Jakości, dostępna też jako bezpłatny pdf) czy prowadzi warsztaty (90 min w mp4).

W olbrzymim skrócie, w turkusowych organizacjach ważne jest zaangażowanie wszystkich uczestników organizacji we wspólne działanie, poczucie (faktyczne) sprawczości, podmiotowość w relacjach oraz rozwój własny członków organizacji, który przekłada się na rozwój organizacji.

Takie podejście do wspólnego działania powoduje, że uczestnicy organizacji mogą zaspokoić wyższe potrzeby, np. potrzebę poczucia dumy z siebie i swoich działań. Oczywiście można zapytać się czy taka utopia ma prawo funkcjonować, po przykłady i dyskusje odsyłam do powyższych pozycji lub do tego krótkiego wywiadu.

Jak to się ma do edukacji?

Gdyby szukać różnic pomiędzy organizacją a studiami na uczelni wyższej, to różnic można znaleźć wiele. Organizacje buduje się by rosła i trwała latami, a studia z perspektywy studenta mają określony zakres czasowy; przyjęcie do organizacji poprzedzone jest rekrutacją nad którą mamy dużą kontrolę, a na zajęcia przychodzą różne osoby, czasem przypadkowe.

Ale można też się skupić na podobieństwach. Zarówno w organizacjach jak i na zajęciach uczestnicy liczą na własny rozwój; tak w organizacjach jak i na uczelni większa efektywność jest możliwa przy współpracy i zaufaniu. Podobieństw można szukać dalej, dają one nadzieję, że pewne zasady dotyczące turkusowych organizacji można przenieść do klasy.

Nie jest to proste. Typowy schemat prowadzenia zajęć związany jest z najczęstszym pytaniem studentów na pierwszych zajęciach, czyli: jakie są zasady oceniania i czy obecność jest obowiązkowa. A jak przeczytamy tutaj, czwartym punktem dekalogu turkusowych organizacji jest nie oceniaj, bo to niszczy – doceniaj, bo to wzmacnia.
Czy można nie oceniać? Co prawda mógłbym studentom powiedzieć na początku semestru ‘pracujcie a będzie dobrze’, ale Polska Komisja Akredytacyjna ocenia (oceniając kierunek) też jasność kryteriów oceniania przedmiotów opisanych w karcie przedmiotu, zupełnej samowoli tutaj nie ma.

Czy trzeba oceniać by wystawić ocenę?

Wątków związanych z turkusem jest wiele, poniżej rozwinę ten związany z ocenianiem.

Kiedyś próbowałem w ocenianie wciągnąć samych studentów dając im część punktów do rozdzielenia. Ale to był bardzo zły pomysł. Ocenianie kolegi/koleżanki nadwyręża społeczne więzy pomiędzy studentami, które dla wielu z nich są ważniejsze niż sama ocena (nic dziwnego).

Inne podejście polegało na uzupełnianiu oceny za projekt szerszą informacją dotyczącą wad i zalet oraz kierunków poprawy zgłoszonego rozwiązania. Bogu świeczka (=studentom feedback), diabłu ogarek (ocena oparta na punktach dla PAKA)? Niestety odnoszę wrażenie, że jeżeli feedback stoi obok oceny punktowej, to i tak dla większości studentów liczy się ocena punktowa a nie proza i szkoda godzin spędzonych nad redakcją tych opisów. Feedback jest użyteczny, ale jego odbiór bywa zdominowany przez punkty.

Jeszcze inna próba dotyczyła oceniania zespołu jako całości, a nie studentów indywidualnie. To podejście bardziej wspiera współpracę w zespole, ale wciąż mamy ocenianie tyle, że dwóch-trzech osób zamiast jednej.

A więc jak będzie wyglądała ocena bez oceniania tego lata?

Prowadzę zajęcia projektowe. Główny pomysł polega na tym, by wybrać projekty, które chciałbym by zostały zrealizowane, z których mógłbym się czegoś ciekawego nowego dowiedzieć.
Projekty podzielone będą na zadania, tak by uzyskanie oceny X było związane z wykonaniem konkretnego zdefiniowanego zadania.
Zadania, którego wykonanie będzie wymagało określonej wiedzy i umiejętności a z drugiej strony, zadania którego wykonanie będą mogli zweryfikować sami studenci. Nie będzie więc elementu zaskoczenia ‘ocenił mnie lepiej/gorzej niż się spodziewałem’, ale będzie wiadomo co trzeba wykonać na ocenę X. Aby uzyskać ocenę X+1 trzeba zrobić wszystkie zadania na ocenę X i dodatkowo to na ocenę X+1.
Przy odpowiednim zdefiniowaniu zadań, ocena jest (prawie automatyczną) konsekwencją aktywności studenta, a prowadzący zamienia się w potencjalnego współpracownika, który może doradzić co opanować by dane zadanie rozwiązać. Co więcej, który sam jest zainteresowany poznaniem odpowiedzi.

Jak się sprawdzi to podejście? Zobaczymy w czerwcu.
Jeżeli macie ciekawe pomysły/propozycje, chętnie usłyszę.

histoRia R w Polsce @ tRzecie uRodziny SERa

histoRia
Najbliższe Spotkanie Entuzjastów R (9 marca 2017) będzie wyjątkowe. Świętujemy trzecie urodziny SERów i z tej okazji będzie kilka niespodzianek. Zamiast pizzy będą bąbelki i coś słodkiego, zamiast przerwy zrobimy sesje tematycznych okrągłych stolików aby spokojnie porozmawiać z innymi entuzjastami R, a zamiast referatu o tym co aktualnie dzieje się w R będzie referat o przeszłości, o tym jak wyglądały początki R w Polsce.

Mam poprowadzić ten referat, ale przecież nie znam całej historii R.
Mam więc wielką prośbę do Was!
Pomóżcie mi uzupełnić informacje o tym jak wyglądały początki R w Polsce. Kiedy jakie przedmioty pojawiły się na których uczelniach, kiedy w firmach pojawiły się duże i ciekawe rozwiązania/wdrożenia oparte o R, kiedy miały miejsca ciekawe spotkania związane z R. Kiedy działy się ciekawe rzeczy związane z R, co to były za rzeczy i kto je organizował.

Założyłem na GitHubie stronę do której można dodawać interesujące ciekawostki związane z historią R (https://github.com/mi2-warsaw/SER/blob/master/histoRia/README.md).
Jeżeli wiecie o aktywności, która powinna się w tym zestawieniu znaleźć, proszę dopiszcie, albo przez nowe issue, albo nowy pull request albo przez wysłanie mi emaila na adres przemyslaw.biecek na serwerze gmail.
Mogą to być wydarzenia z już wymienionych typów a mogą to być całkowicie nowe rzeczy.

Dziękuję i do zobaczenia na SERze!

Hans Rosling 27 VII 1948 – 7 II 2017

Screen Shot 2017-02-07 at 23.48.29

Dzisiaj umarł Hans Rosling, ikona wizualizacji danych, założyciel fundacji Gapminder i prawdopodobnie najbardziej rozpoznawalny i wpływowy statystyk XXI wieku (jeden ze 100 najbardziej wpływowych ludzi świata według Times 2012).

Znany między innymi dzięki swoim wystąpieniom na TED i TEDx. Najbardziej znane wystąpienia można zobaczyć tutaj.

Z pamiętnika nauczyciela akademickiego: Kaggle in Class


W tym semestrze na przedmiocie Statystyka II wykorzystywałem Kaggle in Class. Co to jest i co z tego wyszło? O tym poniżej.

Kaggle (https://www.kaggle.com/) to platforma hostowania konkursów opartych o dane. Firma, instytucja badawcza lub inny zainteresowany ogłasza na tej platformie konkurs, polegający zazwyczaj na wykonaniu predykcji w oparciu o jakieś dane. Wykryć raka na bazie rezonansu, przewidzieć zapotrzebowanie na prąd w szkole na podstawie historii, przewidzieć zajętość łóżek szpitalnych? To typowe problemy z tej platformy. Zgłaszający określa nagrodę, termin zakończenia konkursu, kryterium oceny zgłoszeń itp. Tematy konkursów są bardzo różne, dane są różnych kształtów, struktur i wielkości.

Kaggle in Class (https://inclass.kaggle.com/) to część platformy Kaggle, przygotowana do wykorzystania w ramach zajęć. Pozwala na tworzenie własnych konkursów wykorzystując istniejącą infrastrukturę do zgłaszania rozwiązań, oceny automatycznej, dzielenia rankingów na publiczny i prywatny itp. Trzeba wskazać zbiór danych, dokładnie opisać zadanie do wykonania, określić format przesyłania odpowiedzi, dokładnie opisać kryterium oceny rozwiązania. Rejestracja nowego zadania jak i przesyłanie odpowiedzi jest bezpłatne. Kaggle in Class jest bezpłatna i dla prowadzącego i dla studentów.

Statystyka II to kurs, na którym przez pół semestru omawiamy klasyczne techniki predykcji, takie jak bagging, boosting, stacking, lasy losowe, regresja itp. Akurat do ćwiczenia algorytmów predykcyjnych Kaggle pasowało bardzo.

Kilka luźnych wrażeń dotyczących użycia tej platformy.

* Korzystanie z Kaggle pozwala studentom na uzyskanie praktycznie natychmiast oceny zgłoszonego rozwiązania. Natychmiastowy feedback to bardzo przydatna rzecz, studenci nie muszą czekać aż ja ocenię zadanie, (prawie) natychmiast widzą jakie są wyniki, przez co nie tracą ,,momentum” w pracy nad modelem.

* Korzystanie z Kaggle In Class ma tę przewagę nad zwykłymi konkursami Kaggle, że prowadzący może całkowicie dowolnie dobrać sobie problem (omawiam predykcje wieloetykietową to wstawiam dane do predykcji wieloetykietowej), dobrać termin oddania projektu, określić maksymalną liczbą zgłoszeń dziennie itp.

* Kolejną zaletą Kaggle in Class nad Kaggle jest to, że prowadzący zna dane które są modelowane, jeżeli je symulował to zna prawdziwy model, jeżeli to prawdziwe dane z którymi wcześniej pracował to też dużo o nich wie. Dzięki temu w końcowej ocenie może ocenić zarówno podejście do modelowania jak i wybrany model a nie tylko wyznaczone predykcje.

* Kaggle umożliwia ustalenie maksymalnej liczby rozwiązań zgłoszonych dziennie. Ustawienie takiego ograniczenia na dwa dziennie premiuje zespoły, które do problemu podejdą wcześnie. Zgłaszanie rozwiązania ostatniego dnia to ryzyko, że dwa oddane strzały będą daleko od dobrych predykcji. Atakując problem odpowiednio wcześniej mamy większe pole manewru.

* Przygotowanie własnego konkursu niesie ze sobą też ryzyka. Jedno jest takie, że studentom uda się wygenerować idealną predykcję. Mnie to się nawet zdarzyło. Na rzeczywistych (!!!) danych w problemie binarnej klasyfikacji udało się po kilku dniach uzyskać skuteczność 100%. Z punktu widzenia predykcji to świetnie, ale aspekt dydaktyczny leży. Mamy rozwiązanie i już nikt nie opracuje lepszego, my też nie mamy czego poprawiać. Tak więc moje doświadczenie jest takie, że lepiej zamiast rzeczywistych danych wygenerować sztuczne dane o strukturze zgodnej z rzeczywistą, ale kontrolowanym zakłóceniem (np. zachować X, ale wygenerować y na bazie jakiegoś modelu). Jak to możliwe, że ktoś otrzymał 100% skuteczności na zbiorze testowym?

* Wyznaczenie jednego konkretnego współczynnika do optymalizacji bardzo zwiększa zaangażowanie studentów w realizacje projektu. Zamienia projekt w grę na optymalizację. Niektóre zespoły zgłaszały po 20 rozwiązań próbując poprawić nawet naprawdę dobre rozwiązania. To oczywiście miecz obosieczny, ponieważ w rzeczywistości określenie miary do optymalizacji to często zadanie samo w sobie, ale z punktu widzenia zaangażowania to przydatna cecha.

* Ocena nie może być oparta całkowicie o wyniki z Kaggle (jeżeli jest dużo dobrych rozwiązań, to to które jest najlepsze, zależy czasem od przypadku) a z drugiej strony jakoś z tymi wynikami musi być związana (inaczej po co się starać). W przypadku moich zajęć wyniki z Kaggla to była 1/3 punktów z jednego projektu, wydaje mi się to dobrą proporcją.

* Teoretycznie Kaggle In Class jest bezpłatne, ale nie ma się ludzkiego supportu gdyby coś poszło nie tak. W praktyce, gdy takiej pomocy potrzebowałem (musiałem anulować rozwiązania i podmienić dane gdy okazało się że można mieć 100% skuteczność), napisałem maila i człowiek (albo naprawdę sprytne AI) szybko odpisał poprawiając to co trzeba by wszystko działało.

1024 bity (i Bety)

c20

Miesiąc temu pisałem o akcji prowadzenia warsztatów ,,Jak zważyć psa linijką”.
Dzięki grantowi mPotęga planowaliśmy dotrzeć z warsztatami statystycznymi do 5 klas z różnych szkół.
Zainteresowanie okazało się jednak znacznie większe!
Do dziś udało się dotrzeć z warsztatami do ponad 30 nauczycieli i ponad 1000 (słownie: tysiąca!) dzieciaków.

Statystyka i programowanie w podstawówce? Za moich czasów tego nie było!

Czytaj dalej 1024 bity (i Bety)