Lie factor czy pułapka percepcji?

wybory 2015 prezydent

Ponad miesiąc temu, Andrzej, statystyk z Wrocławia pracujący z wizualizacją danych, podsunął mi okładkę tygodnika Polityka sprzed wyborów. Pozwala ona na przeprowadzenie ciekawego eksperymentu na rodzinie i znajomych.

Na końcu tego wpisu znajdują się dwie grafiki, dwa rózne sposoby prezentacji danych o szacowanym poparciu dla trzech kandydatów BK, AD i PK.
Przeprowadzając eksperyment należy rodzinie/znajomym pokazać najpierw okładkę Polityki i zapytać ile razy PK i AD jest mniejszy od BK. Następnie można pokazać wykres słupkowy/paskowy i powtórzyć eksperyment.

Czy to będą te same wartości?

Czytaj dalej Lie factor czy pułapka percepcji?

Przedpremiera: Niesamowite przygody Bety i Bita

Wczoraj zakończył się rok szkolny, więc i dzisiejszy wpis jest związany z edukacją.

Pracuję (z Magdą Chudzian) nad zbiorem opowiadań dla szeroko rozumianej młodzieży (gimnazjum+liceum). Opowiadania te w fabularnym stylu przedstawią rozmaite koncepcje związane z wnioskowaniem opartym o dane czy analizą danych. Te umiejętności warto ćwiczyć, przydają się i w życiu i na maturze. A jak pokazują różne badania, w naszych szkołach mogłoby być z nimi lepiej. W zamierzeniu i opowiadania i towarzysząca im gra edukacyjna ma te umiejętności rozwijać.

Premiera pierwszego opowiadania planowana jest na 1 września 2015. Gra i pozostałe opowiadania będą miały premierę najprawdopodobniej w 2016 roku. Szukam teraz testowych czytelników, czyli gimnazjalistów/licealistów, którzy lubią czytać i podzielą się wrażeniami z przedpremierowego dostępu do pierwszego z opowiadań.

Znacie takie ciekawe dusze?
Dajcie im znać, że wysyłając maila o tytule ‚Beta czytelnik’ na adres [Przemyslaw.Biecek na serwerze gmail.com] otrzymają bezpłatny i przedpremierowy dostęp do opowiadania ,,Jaskinia Pietraszki’’ (w formie www i ebook).

Czytaj dalej Przedpremiera: Niesamowite przygody Bety i Bita

Przygoda, pieniądze czy potrzeba?

Co jest wyższe: średnia pensja badacza danych w USA czy pensja brutto Prezydenta Polski?

Zanim odpowiem na to pytanie, małe wprowadzenie. Tydzień temu miało miejsce uroczyste wręczenie nagród Polskiej Edycji Międzynarodowego Konkursu Umiejętności Statystycznych (dla szkół gimnazjalnych i ponad gimnazjalnych).

Podczas gali zaprezentowano nagrodzone projekty uczniów. Niektóre robiły niesamowite wrażenie. Jednym z projektów była weryfikacja zależność pomiędzy frekwencją a wynikami w nauce. Nad warsztatem analitycznym można by jeszcze popracować (analizy robili gimnazjaliści), ale podejście do analiz… Prezentacja zaczęła się od nagrania wywiadu z dyrektorką szkoły. ,,Czy Pani zdaniem jest zależność pomiędzy obecnością a wynikami w nauce?” Następnie wywiad z nauczycielką, a później ,,sprawdźmy czy taka zależność jest widoczna w danych archiwalnych naszego gimnazjum”. Prawdziwie data-driven.

Czytaj dalej Przygoda, pieniądze czy potrzeba?

Oferty pracy i praktyk dla badaczy danych, entuzjastów R i analityków

W związku z tym, że zgłaszają się do nas pracodawcy z ofertami pracy, gdzie głównym narzędziem pracy jest R, postanowiliśmy uruchomić listę mailingową dla Entuzjastów R, gdzie oferty będą przesyłane.

Do bazy można dołączyć wypełniając poniższy formularz lub otwierając stronę http://eepurl.com/bqfuML. Projektem opiekuje się Olga Mierzwa (z którą też można się kontaktować w sprawie wysyłania ofert). Poniższy formularz, to ten sam o którym pisaliśmy na stronie SERowej meetup.

Dane kontaktowe z formularza nie będą udostępniane osobom trzecim. Z listy można wypisać się w każdym momencie. Baza jest obsługiwana przez serwis MailChimp, kliknięcie przycisku ‚subscribe’ otworzy stronę z potwierdzeniem adresu email.

Dołącz do bazy zainteresowanych ofertami pracy/stażów analitycznych


Jaki typ ofert Cię interesuje

* pole wymagane

Shiny, sondaże przedwyborcze i interaktywny ggplot2


Tydzień temu przedstawialiśmy wyniki sondaży przedwyborczych. Tak się, złożyło, że wczoraj pojawiła się nowa wersja shiny, umożliwiająca tworzenie interaktywnych wykresów ggplot2. Wypróbujemy tą możliwość, pokazując na wykresie oszacowanie dla określonego dnia poparcia dla każdego z kandydatów.

Poniższa aplikacja reaguje na ruchy kursorem myszy. Jeżeli nie otwiera się poniżej (może to trwać kilka sekund), to warto sprawdzić wersję pod tym linkiem. Możemy teraz dokładnie odczytać ile (zgodnie z sondażami) wynosiła różnica poparcia na 6 miesięcy przed pierwszą turą wyborów (różnica 50%) a ile zgodnie z sondażami na dzień przed wyborami (10%). To ciekawa historia, po pierwsze zmiana poparcia o 40% w ciągu 6 miesięcy a po drugie błąd rzędu 10 punktów procentowych w ocenie różnicy poparcia w sondażach na dzień przed wyborami.

Czytaj dalej Shiny, sondaże przedwyborcze i interaktywny ggplot2

Czy to możliwe, że za kilkadziesiąt lat połowa Polaków będzie w wieku powyżej 65 lat?

Centrum Wittgensteina opracowało świetną aplikację pozwalającą na porównanie stanu obecnego i prognoz demograficznych /edukacyjnych dla różnych krajów. Aplikacja wykonana w R i Shiny jest dostępna tutaj a interesujący wpis o technicznych aspektach tej aplikacji tutaj.

Aplikacja pozwala na porównanie różnych scenariuszów rozwoju kraju/krajów. Domyślnie jest to scenariusz umiarkowanego rozwoju, ale można zestawić go ze scenariuszem ‚optymistycznym’ lub innymi. Jak pewnie domyślacie się po tytule dzisiejszego postu, dla Polski nie ma zbyt optymistycznych prognoz. Nawet przy założeniu znacznego rozwoju trzeba przygotować się na duże zmiany jeżeli chodzi o strukturę wiekową (*).

Czytaj dalej Czy to możliwe, że za kilkadziesiąt lat połowa Polaków będzie w wieku powyżej 65 lat?

Jaki film chciałbyś/chciałabyś obejrzeć?

W ramach przedmiotu R i Duże Dane, który prowadzę na MiNI PW, studenci mieli do wykonania dwa projekty. Pierwszym była analiza tego co i kiedy mówi się o kandydatach na prezydenta. Drugim było zbudowanie systemu sugerującego jaki film warto obejrzeć (w zależności od tego jakie filmy się lubi).

Studenci budowali od zera system, rekomendujący filmy podobne do jednego-kilku wybranych. Począwszy od zeskrobywania z IMDB, wikipedii czy innych źródeł informacji o filmach, przez wybór miary oceny podobieństwa pomiędzy filmami, walkę z problemami obliczeniowymi (mając 5 – 10 tys filmów, każdy opisany przez dziesiątki cech konstrukcja podobieństwa nie jest taka prosta), redukcję wymiaru, aż po budowę aplikacji, która pozwoli na rekomendację filmu. Bardzo duży projekt jak na pół semestru, ale ‚Big’ było w nazwie.

Wspólnie zdecydowaliśmy się też na dodatkowy eksperyment. Mianowicie część składową oceny (od 0 do 10 punktów) oddajemy w ręce internautów.

Czytaj dalej Jaki film chciałbyś/chciałabyś obejrzeć?

Wizualizacja danych a kultura zarządzania informacją w firmie

Wczoraj prowadziłem referat ,,Wizualizacja danych a kultura zarządzania informacją w firmie’’, którego rdzeniem były dwa przykłady opisane poniżej. W skrócie pointa sprowadza się do stwierdzenia: Nie wystarczy dane pokazywać graficznie, trzeba je pokazać tak, by pokreślić to co w nich istotne. Ale aby określić co w danych jest istotne trzeba znać kontekst. Gdy jest się analitykiem ,,z zewnątrz”, to potrzebna jest dobra komunikacja pomiędzy analitykiem a osobą która zna problem (czy biznesowy czy naukowy czy inny).

Za pierwszy przykład posłużymy się katastrofą promu Challenger, która miała miejsce w 1986 roku. Bezpośrednią przyczyną katastrofy była niska sprężystość pierścieni uszczelniających spowodowana niską temperaturą. W skrócie w dniu startu było zbyt zimno by uszczelki poprawnie funkcjonowały.

Przed katastrofą wykonywano testy badające uszkodzenia uszczelek. Dane przedstawiono w sposób graficzny za pomocą poniższego diagramu. Na obrysach rakiet są widoczne temperatury w których przeprowadzano testy oraz informacje czy i jakie były uszkodzenia pierścienie uszczelniających.

image1

Czytaj dalej Wizualizacja danych a kultura zarządzania informacją w firmie

Warsztato-konferencja CodePot.pl

Wczoraj pisaliśmy o wakacyjnych warsztatach analizy danych organizowanych w Krakowie. Okazuje się, że ciekawych inicjatyw w stylu learning by doing w te wakacje będzie więcej. W sierpniu Codepot.pl organizuje warsztato-konferencję dla deweloperów. Wiele różnorodnych warsztatów zorientowanych na rozwój umiejętności tak technicznych jak i miękkich.

Jesteśmy partnerami codepot.pl. Zapraszamy Was do składania propozycji warsztatów. Jak tylko ruszy rejestracja otrzymamy kody zniżkowe, dzięki czemu będzie można kupić bilet w cenie 79zł. Poniżej kilka słów od organizatorów.

Czytaj dalej Warsztato-konferencja CodePot.pl