MI2 @ Data Science Summit (x5) – już za tydzień


Już za tydzień na wydziale MiNI Politechniki Warszawskiej odbędzie się konferencja Data Science Summit.

Aż trudno uwierzyć, że to dopiero trzecia edycja. Z roku na rok rośnie w zawrotnym tempie ściągając ciekawych prelegentów i uczestników z Polski i zagranicy. Dziś jest to jedna z największych konferencji Data Science w regionie.

Rada programowa DSS miała nie lada zadanie by wybrać z ponad 160 zgłoszeń te, które porwą uczestników konferencji (a ma ich być rekordowo wielu). Zgłoszone tematy są bardzo ciekawe i różnorodne (pełny program). Mnie szczególnie cieszy szeroka reprezentacja współpracowników z MI2 DataLab na tej konferencji.
Znajdziecie nas na tych prezentacjach:

W bloku NLP w godzinach 11:00 – 11:30 Barbara Rychalska i Anna Wróblewska opowiedzą o frameworku WildNLP to analizy wrażliwości modeli NLP na celowe ataki lub losowe zakłócenia (więcej o projekcie na tym repo).

W bloku Computer Vision w godzinach 11:40 – 12:10 Anna Wróblewska i studenci z Projektu Zespołowego opowiedzą o fantastycznym projekcie ChaTa – (Charts and Tables), który wspiera automatyczną ekstrakcję i analizę wykresów i tabel w raportach.

Na Main Stage w godzinach 14:30 – 15:00 Przemyslaw Biecek (czyli ja 😉 ) będzie opowiadał o wyjaśnialnym uczeniu maszynowym. To super gorący temat w świecie AI/ML. Nie zabraknie oczywiście naszego flagowego projektu DrWhy.AI, ale będzie też sporo ciekawostek ze świata IML/XAI.

W bloku Future of Data Science: Healthcare w godzinach 15:50 – 16:20 Adam Dobrakowski opowie o wynikach z prowadzonego projektu dotyczącego segmentacji wizyt lekarskich. Jak AI może wspierać naszą służbę zdrowia? Przyjdźcie, zobaczcie!

W bloku Customer Analytics w godzinach 14:30 – 15:00 o segmentacji z użyciem NMF będzie opowiadał Marcin Kosiński (nasz alumni, obecnie Gradient).

W przerwie pomiędzy referatami możecie znaleźć nasz DataLab w pokoju 44 w budynku MiNI (tam gdzie będą referaty). Wpadnijcie porozmawiać o wspomnianych wyżej i innych toczących się projektach (XAI, AutoML, AutoEDA, IML, NLP, AI w medycynie i inne). Jeżeli nie wiecie jak do nas zagadać, to zawsze możecie zacząć od ,,Słyszałem, że macie świetną kawę…”. Nie odmówimy!

Btw, szukamy doktoranta do zespołu, więc może akurat…

Dlaczego boimy się sztucznej inteligencji, dlaczego to przerażające i co możemy z tym zrobić?

W ostatnich miesiącach brałem udział w kilku panelach poświęconych SI, między innymi w Dysputach Pitagorejskich na PW. Przyznam, że przebieg dyskusji był często dla mnie zaskakujący, a może nawet przerażający. Dlaczego? O tym poniżej.

Mówi się sporo o gospodarce opartej o dane, rewolucji informacyjnej, przemyśle 4.0 itp. Spodziewałem się więc, że panele poświęcone Sztucznej Inteligencji będą krążyły wokół tego tematu. Co zrobić, by nasza gospodarka wykorzystała tę zmianę zyskując na konkurencyjności? Jak wykorzystać nowe technologie w jak największej części gospodarki? Jednak z jakiegoś powodu, dyskusja z publicznością zbiega na wątki typu ,,czy roboty zabiorą nam pracę’’ lub ,,czy sztuczna inteligencja się zbuntuje’’. Miała być nadzieja na lepsze jutro, a jest głównie strach i obawy.

Cóż, pewnie po prostu lubimy się bać, tym bardziej, że ten strach podsycają niektóre media czy filmy. Baliśmy się kosmitów, baliśmy się zmutowanych pomidorów, możemy się bać i SI. Obecny stan SI jest tak daleki od jakiejkolwiek samoświadomości, że strach przed SI jest równie irracjonalny jak strach przed tym, że lokomotywy parowe przerażą krowy tak, że przestaną dawać mleko a kury jajka (takich rzeczy obawiano się kiedyś).

Niestety strach przed SI, jest barierą rozwoju dla polskich firm, obawą przed wdrażaniem rozwiązań opartych o uczenie maszynowe. Mamy w Polsce sporo osób tworzących rozwiązania w obszarze uczenia maszynowego czy sztucznej inteligencji, ale zazwyczaj jest to outsourcing dla zachodnich firm, bardziej zaawansowanych technologicznie. Firmy szukające klientów na rodzimym rynku często borykają się z bardzo niskim zrozumieniem możliwości, ograniczeń i potencjału jaki daje uczenie maszynowe.

Sprawa jest poważna. Trafiłem ostatnio na raport ,,SZANSE I WYZWANIA POLSKIEGO PRZEMYSŁU 4.0” opracowany przez ARP, który pokazuje jak mizernie wygląda zaawansowanie robotyzacji i automatyzacji w Polsce. Dwa przykładowe wykresy z tego raportu poniżej.

Stwierdzenie z raportu: ,,Obok niskich kosztów pracy, to brak wiedzy i gotowości polskiej kadry kierowniczej do zmian jest główną barierą w rozwoju Przemysłu 4.0 w Polsce’’. Dodałbym jeszcze do tego zdania ukryty strach przed SI, które z jakiegoś powodu kojarzone jest częściej z robotami wyglądającymi jak człowiek zamiast z rozwiązaniami typu system rekomendacyjny Amazona czy wyszukiwarka Googla.

Co możemy zrobić by nie przegapić kolejnej rewolucji? Potrzebna jest szeroko zakrojona edukacja przedsiębiorców/społeczeństwa dot możliwości jakie daje analiza danych. Nie tylko edukacja kadr (programy studiów, też doktoranckich, to zwiększy podaż umiejętności) ale również edukacja przedsiębiorców (aby zwiększyć podaż). Zamiast straszyć w gazetach robotami, można pokazać mniejsze i większe sukcesy AI (i nie chodzi mi o granie w Go).

Microsoft w tym roku zorganizował ciekawe warsztaty/burzę mózgów na ten temat. Grupa z którą miałem przyjemność pracować zaproponowała opracowanie programu edukacyjnego/popularyzacyjnego pod hasłem ,,Zrozum syntetyczny rozum’’. Program (może prelekcje, może youtube, może artykuły w mediach lub TV), w ramach którego można by skupić się na popularyzacji użytecznych zastosowań SI i ML w gospodarce. Zarówno przez pokazywanie gdzie ML podniósł konkurencyjność firmy jak i przez zwalczanie absurdów w stylu samoświadome komputery walczące z ludzkością.

Łatwiej opracować takie materiały mając szerszą perspektywę wielu par oczu.
Jeżeli byłbyś zainteresowany/zainteresowana pomocą w opracowaniu takich materiałów (czy to przez wkład merytoryczny, techniczny czy jakikolwiek inny) to zobowiązany będę za kontakt. Jeżeli się zbierze kilka osób to z pewnością też znajdzie się sposób na realizacje tej inicjatywy.

PS: Ciekawy artykuł o trendach w postrzeganiu SI.

PS2: Z rozwojem SI są oczywiście związane różne zagrożenia (patrz moja ulubiona XAI), ale nie powinny być one stosowane jako wymówka do nie używania SI.

Polish Scientific Networks: Science and Business – Wrocław 30 czerwca – 2 lipca

Polish Scientific Networks to konferencja kierowana przede wszystkim do naukowców zainteresowanych zastosowaniem badań naukowych w praktyce, oraz do firm chcących rozwinąć swoją innowacyjność poprzez współpracę z naukowcami. Głównym celem konferencji jest dyskusja nad sposobami komercjalizacji wyników badań, oraz pomoc w nawiązaniu współpracy między środowiskiem naukowym a firmami i organizacjami zainteresowanymi tworzeniem i wdrażaniem innowacyjnych technologii.

Nasza Fundacja jest instytucją wspierającą PSN. Konferencja organizowana jest przez Ministerstwo Nauki i Szkolnictwa Wyższego, Akademię Młodych Uczonych PAN i Klub Stypendystów Fundacji na rzecz Nauki Polskiej, we współpracy m.in. z Wrocławskim Centrum Badań EIT+ i ruchem Obywatele Nauki. Rejestracja jest otwarta do 29 kwietnia 2016 r.

Czytaj dalej Polish Scientific Networks: Science and Business – Wrocław 30 czerwca – 2 lipca

Oferty pracy i praktyk dla badaczy danych, entuzjastów R i analityków

W związku z tym, że zgłaszają się do nas pracodawcy z ofertami pracy, gdzie głównym narzędziem pracy jest R, postanowiliśmy uruchomić listę mailingową dla Entuzjastów R, gdzie oferty będą przesyłane.

Do bazy można dołączyć wypełniając poniższy formularz lub otwierając stronę http://eepurl.com/bqfuML. Projektem opiekuje się Olga Mierzwa (z którą też można się kontaktować w sprawie wysyłania ofert). Poniższy formularz, to ten sam o którym pisaliśmy na stronie SERowej meetup.

Dane kontaktowe z formularza nie będą udostępniane osobom trzecim. Z listy można wypisać się w każdym momencie. Baza jest obsługiwana przez serwis MailChimp, kliknięcie przycisku ‚subscribe’ otworzy stronę z potwierdzeniem adresu email.

Dołącz do bazy zainteresowanych ofertami pracy/stażów analitycznych


Jaki typ ofert Cię interesuje

* pole wymagane

Wydatki na badania i rozwój w Polsce

Wczoraj eurostat opublikował notkę nt. wydatków na badania i rozwój. Cała notatka tutaj.

Tabela z drugiej strony przedstawia wydatki w roku 2003 i 2013 i w milionach euro i jako % PKB.

Poniższy rysunek pokazuje nakłady na badania i rozwój w Polsce vs. inne kraje EU28 i nie tylko jako procent PKB w roku 2013. Do liderów daleko, oj daleko.

W ramach UE28 awansowaliśmy z 21 (w 2004) miejsca na 20 (w 2013). Głównie za sprawą dużego spadku Chowacji.

RD

Dostęp do Banku Danych Lokalnych GUS z poziomu R a trendy w zatrudnianiu

bdl

Ostatnio w komentarzach, Paweł K. napisał, że dane z GUSowskiego Banku Danych Lokalnych mają wreszcie API. API wykonane i utrzymywane przez fundację mojepanstwo.pl. API ma przyzwoitą dokumentacje przygotowaną w swagger. Link do dokumentacji jest tutaj.

Zrobiłem interface do tego API dostępny z poziomu R. Dostęp do danych możliwy jest poprzez funkcje getBDLsearch{SmarterPoland} i getBDLseries{SmarterPoland} (dla wersji pakietu z GitHuba).

Jak używać tych funkcji?
Zobaczmy na przykładzie trendów w zatrudnieniu. Do pobrania danych wystarczą dwie linijki. Kolejne dwie i już mamy wykres.

Czytaj dalej Dostęp do Banku Danych Lokalnych GUS z poziomu R a trendy w zatrudnianiu

Aaaaa… dam pracę

Czasem trafiają do mnie zapytania w stylu ,,szukam statystyka/analityka/informatyka do projektu naukowego”. Stwierdziłem, że będę te ciekawsze umieszczał tutaj na blogu z tagiem ‚praca’. Dziś oferta z Instytutu Badań Edukacyjnych.

  • Oferta z IBE ,,Specjalista ds. modelowania statystycznego”

    Wymagania: Biegłe posługiwanie się pakietem R w zakresie przekształcania danych i analiz regresji liniowej. Znajomość SQL i relacyjnego modelu danych.
    Więcej informacji na tej stronie

Zmiany w OFE a wykresy Ministerstwa Pracy i Polityki Społecznej

Kilka dni temu portal money.pl przytoczył wypowiedź premiera, której część podaję poniżej:

Premier nie ma wątpliwości, że reklama OFE powinna być zakazana w czasie, kiedy obywatele będą podejmowali decyzje o tym, czy pozostać w OFE, czy nie. >> Chcemy, żeby obywatel podejmował decyzje na podstawie informacji, a nie propagandy. Ale trwa jeszcze dyskusja. Niedawno też o tym długo dyskutowaliśmy, na ile pozwolić funduszom w przyszłości na rzetelną reklamę <<

Dostęp do rzetelnej informacji to hasło przewodnie także naszej działalności. Przyjrzyjmy się jak wyglądają materiały rządowe dotyczące OFE:

Pod koniec czerwca Ministerstwo Pracy i Polityki Społecznej przygotowało pokaźną paczkę wykresów na temat zmian w OFE. Poniżej przedstawione wykresy zostały opublikowane przez Ministerstwo na tej stronie, a następnie przedstawiane w różnych mediach, między innymi w serwisie Gazety Wyborczej.

Przykład pierwszy: poziome wykresy paskowe

Patrząc na wykres paskowy mamy tendencje do porównywania długości pasków/pudełek. Dlatego aby umożliwić poprawne porównania przedstawianych wartości, odpowiadające im pudełka powinny zaczynać się od zera.

Tymczasem, patrząc na długości pasków dla OFE i ZUS II na poniższym wykresie, stosunek długości odczytamy jako 100:168. Przedstawiane dane wskazują na stosunek 100:129. Lie-factor tego wykresu to około 1.3 („Lie Factor”to współczynnik zdefiniowany przez Edwarda Tuftego, mierzący jak bardzo wykres przekłamuje relacje obecne w danych).

Czytaj dalej Zmiany w OFE a wykresy Ministerstwa Pracy i Polityki Społecznej