Pogromcy Danych – największa w Polsce klasa przetwarzania i analizy danych w R

Przed chwilą ruszył pierwszy kurs z serii Pogromcy Danych.

Dostęp przez stronę http://pogromcydanych.icm.edu.pl/, można logować się kontem na gmailu, facebooku lub na moodlu.

Przed chwilą mieliśmy 1730 osób zgłoszonych uczestników. Liczba ta ciągle rośnie, ale już teraz jest to olbrzymia, mam nadzieję że uda się udźwignąć to zainteresowanie. Około południa zaczniemy rozsyłać maila z przypomnieniami o starcie kursu z oficjalnego emaila pogromcydanych@icm.edu.pl.

pogRomcy danych-plakat-WWW2

59 thoughts on “Pogromcy Danych – największa w Polsce klasa przetwarzania i analizy danych w R”

    1. @Maciej, wielkie dzięki, ale świętować będziemy jak uda się cały kurs przetrwać bez większych usterek 😉

  1. Czy można gdzieś zgłaszać bugi w zadaniach? np. zadanie 11: – mamy wybrać ze zbioru samochody marki Toyota, a w podanym zbiorze nie ma samochodów tej marki 😉

    1. @Nika, najlepiej wysyłać informacje o problemach na pogromcydanych@icm.edu.pl. Powinno trafić do odpowiedniej osoby.
      Ale akurat w przypadku zadania 11 to u mnie aut w modelu Corolla jest sporo.

      auta2012 %>% filter(Marka == "Toyota", Model == "Corolla") %>% dim()
      ## [1] 1191 21

  2. @smarterpoland
    Dzięki!
    Teraz widzę, że problem wynikał z niedopatrzenia – korzystałam ze zbioru auta2012mini do którego linki są prezentowane w odcinku 5. W pełnym zbiorze danych faktycznie wszystko gra 🙂

  3. Rozwiązałem zadanie nr 7, ale nie pokazuje mi się komunikat „rozwiązałeś już to zadanie” jak w przypadku pozostałych.
    Dosyć prosty ten kurs więc utrudniłem sobie zadanie i póki co rozwiązuję bez zaglądania w materiały i helpa w R 😀

    1. @Konrad, może źle rozwiązałeś to zadanie? (sprawdź w zakładce ‚konto’, tam są informacje czy były błędy czy nie)
      Materiały przydadzą Ci się jeżeli chciałbyś zbudować systematyczny ogląd szkieletu pracy z programem R (na poziomie podstawowym/średniozaawansowanym), ale aby rozwiązać zadania wystarczy cross validated.

    1. Gratulacje! Do sprawdzania zadan uzywamy takiej autorskiej platformy CCH. Ale bewnie bedziemy szkac rozwiazan ktore beda pozwalaly na szerszy feedback rozwojowy dla uczestnikow.

  4. Ktoś jest mi w stanie powiedzieć jaka jest poprawna odpowiedź do zadania 18? W zależności od tego czy jako średnią cenę przyjmuję średnią dla zmiennej Cena, czy Cena.w.PLN otrzymuję wynik że „Rover”, bądź „Porshe”… I wydaje mi się to poprawne, ale sprawdzanie zwraca tylko monit, że „To nie jest poprawna odpowiedź” 🙂

  5. No tak, miałam na myśli oczywiście „” 😉 Co nie zmienia faktu, że w skrypcie literówki nie ma bo nazwę pobieram ze zbioru, a odpowiedź i tak nie jest uznawana.

    Dokładniej kod wygląda tak:

    [usunięte]

    1. @Gamga,
      usunąłem rozwiązanie,
      każdy powinien mieć możliwość sam się z nim zmierzyć

      zwróć uwagę, że jak uruchomisz ten kod w R to w zmiennej wynik będzie wartość „75” a powinna być nazwa marki

  6. @smarterpoland
    Ok, przepraszam – faktycznie wklejanie kodu tutaj może być spoilerowaniem 🙂

    Co do uruchomienia – nie wiem z czego to wynika, ale u mnie po wrzuceniu na konsolę zwraca to dokładnie samą nazwę marki (zmienna typu character). Bez „owinięcia” tego w as.character() dostaję też odpowiedź, ale w zmiennej typu factor – i o dziwo, taka odpowiedź już jest akceptowalna 🙂

    W każdym razie dzięki,
    no i udało się 20/20 🙂

  7. @Gamga, dlaczego tak jest omawiamy w odcinku 14
    Gratulacje świetnego wyniku!
    Jesteś 8. osobą, która rozwiązała wszystkie zadania (licząc ze mną ;-)).

    Najtrudniejszymi zadaniami jak na razie okazują się: 11, 15, 18 i 20.

    1. @Konrad, oczywiście 😉
      Zresztą kusi mnie by analiza anonimowych danych o uczestnictwie i zgłaszaniu rozwiązań w kursie pierwszym
      była zadaniem w kursie drugim (tzn elementem challenge).

  8. 11, 15, 18 niekoniecznie najtrudniejsze, możliwe, że obniżona statystyka wynika z wyboru nie tej ceny 🙂
    Co planujecie z kursem zrobić po kwietniu? Będzie nadal dostępny?
    Gratulacje dla całego zespołu! Kosztowało to Was zapewne ogrom pracy …

  9. @Joanna, dzięki
    co do ceny to racja, dwie kolumny z nazwą cena mogą generować problemy,
    będziemy później analizować odpowiedzi, to powinno pokazać jak lepiej konstruować materiały/układać zadania.
    A co się stanie z kursem – zobaczymy.

    1. jak rozumiem teraz (niestety kwecień był zajęty więc, ruszyłem z kursem w maju, dzięki za przedłużenie) spora część pytań jest poprawiona? (bo Cena.w.PLN w pytaniach bywa mocno narzucana).

  10. Na przyszłość mam propozycję, by na stronie kursu możliwość zgłaszania pytań i uwag obejmowała nie tylko poszczególne partie materiału lecz także rozwiązywane zadania. W przeciwnym wypadku zapytaniami dotyczącymi zadań będzie bombardowana – jak już widać – strona smarterpoland. A to dopiero początek.
    Propozycję można zrealizować np poprzez utworzenie osobnej podstrony będącej po prostu forum dyskusyjnym kursu, gdzie poszczególne zapytania zgłaszane są na bieżąco, bez kategoryzowania ich. Takie rozwiązanie jest na kursach organizowanych przez edX (https://www.edx.org/) oraz Stanford (https://lagunita.stanford.edu/). Posty musiałyby podlegać weryfikacji pod kątem nieujawniania odpowiedzi.

    1. @Jacek, dzięki za propozycje, celowo nie dodawaliśmy czatu do zadań, aby sam kurs mógł żyć przy minimalnym nadzorze, a z drugiej strony by nikt nie wklejał gotowych rozwiązań.
      Jak widać jednak trzeba lepiej opisać zadania by nie było wątpliwości jak je rozwiązywać.
      Cóż, jest to eksperyment.

    1. @statystycy, dzięki za feedback, pod koniec kursu zrobimy dokładniejszą analizę postępów, może zrobimy ankietę.
      Patrząc na razie na to co sprawia problemy, części ,,odczyt i zapis danych” oraz ,,pętle i warunki” przeniósłbym na później, łatwiejsze i chyba ciekawsze są części ,,podstawowe typy” i ,,przetwarzanie potokowe”.

  11. Cześć,

    mam problem z zadaniem 6. Zrobiłam tabelę, ale jak mogę jednocześnie pytać czy jest klimatyzacja i jej nie ma? Sprawdziłam w Rstudio i wychodzi mi true i false. No więc czemu otrzymuję komentarz: To nie jest poprawna odpowiedź, poprawna table ma dwie wartości z liczbą aut bez i z klimatyzacją.

    ?

  12. Trochę słabo jest opisane jak ma wyglądać dokładnie wynik; na razie wiszę jeszcze z 2 pytaniami co do których jestem w miarę pewien że mam dobrą odpowiedź +- jakieś przeformatowanie i nie wiem co zrobić, bo zwrotna informacja nic do kwestii nie wnosi:
    „To nie jest poprawna odpowiedź, sprawdź czy wynikowa tabela ma trzy kolumny o dobrych nazwach. ”
    Naturalnie mam 3 kolumny wynikowe, nazwy są dodane metodą kopiuj wklej z opisu i generalnie nie wiadomo o co chodzi.

  13. 6 jakoś zrobiłam, ale utknęłam na 7. Wydawało mi się, że muszę wykorzystać najpierw funkcję filter, aby wybrać samochody marki Volkswagen, a potem korzystając z summarise przypisać zmiennym średnią cenę i przebieg. Sprawdzałam w domu – wychodzi i wynikCena i wynikPrzebieg, a po wysłaniu rozwiązania – zła, odpowiedź – brak zmiennej wynikCena 🙁

  14. Swoją drogą ciekawi mnie – po poszczególnych lekcjach kursu jest mnóstwo zadań z przykładami odpowiedzi, obejmują znacznie szerszy zakres umiejętności niż oceniana „dwudziestka”. Czemu zadania oceniane są praktycznie z kilku tylko partii materiału, a nie obejmują szerszego spektrum jak te zadania „polekcyjne”?
    Jasne, że jak ktoś chce się uczyć to to jest fajne rozwiązanie (możesz się pomęczyć, a w razie totalnego braku weny uczyć na dobrych przykładach – u mnie początki jakiegokolwiek kodowania tak wyglądały ;)) – ale z drugiej strony wiadomo, że nic tak nie motywuje jak wymagania rozwiązania do zakończenia kursu 😉

  15. @Gamga, zgadzam się. Zadania z challenge nie są tak rozbudowane jak te z końców lekcji, ponieważ dodatkowo dołożyliśmy konieczność automatycznego oceniania.
    W miarę prosto znaleźć ciekawe zadanie, ale dużo trudniej ciekawe zadanie które można automatycznie ocenić.
    W każdym razie pomysły na ciekawe automatycznie ocenialne zadania – mile widziane.

  16. Zadanie nr 8 w końcu rozwiązałem poprawnie ale uważam, że jednak nie powinno się obliczać średniej ceny dla tych 21 przypadków, w których marka nie została określona. Należało w treści zadania przynajmniej dać podpowiedź ile powinno być rekordów wynikowych.

  17. Można wywalić pogromców danych logując się przy pomocy facebooka – wystarczy odznaczyć opcję podzielenia się adresem email.
    W ogóle jest więcej sposobów na wywalenie – celowe lub nie – pogromców i widzi się raczej bogatą informację do debugu, której uzytkownik widzieć nie powinien.

    1. @Paweł, jeżeli znajdziesz jakieś elementy które nie działają poprawnie lub się wysypują, to napisz proszę na priv.
      Nie mamy co prawda bug bounty ale za to postaramy się buga usunąć.

      Jeżeli chodzi o kolejność kolumn to jest ona wymieniona w treści zadania.

  18. Wreszcie w zadaniu 20 warto dodać, że kolejność kolumn jest kluczowa dla poprawności rozwiązania. Nie wiem czemu, ale najwyraźniej tak jest.

  19. OK będę wysyłał na priv.

    Jasne, że są wymienione w jakiejś konkretnej kolejności – nie jest jednak napisane wyraźnie, że to jest istotne co jest moim zdaniem mocno nieintuicyjne – zapewne ta intuicja wynika z tego co się na co dzień robi. W każdym razie kiedy wyskoczył błąd najpierw myślałem, że źle przetworzyłem, potem, że źle sformatowałem, potem, że dane zwróciłem w złym typie danych etc. a dopiero na końcu zacząłem doprowadzać do wyniku metodą wzorowaną w przykładach ze slajdów i niejako przypadkiem wyprodukowałem wynik, który miał inną kolejność. Nie wiem naturalnie jak konkretnie wygląda kod sprawdzający, ale wydaje mi się, że wytknięcie tego jako błąd jest dość problematyczne, zwłaszcza z takim a nie innym komunikatem błędu.
    Nie chcę też jakoś przeciągać dyskusji na ten temat, bo poza tym i zadaniem które uściśliłeś nie miałem większych problemów, a kurs jako całość mi się podoba – dzięki.

    1. @Paweł, dzięki za feedback
      popracujemy nad zadaniami, wydaje się, że mogą być głębiej zorientowane z resztą materiałów i może ich też być więcej.

  20. Mam problem z zadaniem 15. Robię je na kilka sposobów i żaden nie przechodzi. Otrzymuję komunikat, że poprawną odpowiedzią są dwie zmienne.

  21. @Dominika, dziękuję za ten komentarz, kierując się poprzednimi komentarzami zmieniłem treść tego zadania, ale zmieniłem ją źle. Teraz już jest poprawiona. Komentarze z informacją co jest złe też już są więcej mówiące.
    Proszę zgłosić jeszcze raz swoje rozwiązanie.

  22. Udało mi się właśnie rozwiązać piętnaste zadanie, więc teraz mogę już spokojnie (bez stresu, że nie zdążę przed 29.04) robić pozostałe.

    Czy jako, że kurs jest sponsorowany przez Unię to dyplomy będą wysyłane w formie papierowej, czy do pobrania?
    Czy jeżeli ktoś nie będzie mógł uczestniczyć w II części kursu w maju to będzie mógł otrzymać dyplom tylko za pierwszą część?

    Kurs bardzo fajnie zrobiony, a poziom – moim zdaniem dobrany idealnie. Przydałby się stały dostęp do kursu po jego zakończeniu, ponieważ stanowi cenne źródło wiedzy.

  23. @Rafał, cieszę się i że udało się z zadaniem 15 i że kurs przypadł do gustu.

    O ile wiem (ja się tym nie zajmuję) dyplomy będą rozsyłane w formacie pdf na maila.

    Każdy z kursów zalicza się osobno (tj. ktoś kto nie zrobi drugiego kursu ale zrobi pierwszy otrzyma tylko jeden dyplom).

  24. @Piotr, używamy nazwy Data CruncheRs,
    na moodlu są nawet dostępne materiały w języku angielskim, ale potrzebują one jeszcze wyczyszczenia.

  25. W związku z zapytaniami, termin dostępności pierwszego kursu w ramach Pogromców wydłużyliśmy do 27 V.
    Jest więc jeszcze ponad 30 dni na zdobycie dyplomu Pogromcy.

    1. Dzisiaj przyszło powiadomienie, że pierwszy kurs został przedłużony ale tylko do 5 maja. Pewnie wielu osobom bardziej odpowiadał… 27.V. 🙂

      1. Pojawiły się jakieś niejasności licencyjne. Gdy tylko uda się je wyjaśnić to mam nadzieję, że kurs będzie dostępny dłużej.

          1. Wciąż nie wiadomo. Z pewnością będą wysyłane maile w przypadku dodatkowych terminów.

  26. @Maciej, ponieważ wszystkie odcinki są stronami html, najlepiej zapisać je sobie jako strony html na dysku. Na pdf raczej nie będziemy ich przerabiać, często na slajdach są osadzone linki do youtube (szczególnie w drugim sezonie) więc w pdf’ie źle to by wyglądało. Slajdy różnią się też długością, więc trudno automatycznie zrobić dobre pdf’y.
    Chodzi mi po głowie jakiś mobilny format (mobi, epub), który miałby najwięcej sensu, ale zobaczymy. Jak nie w tym to z pewnością w kolejnym projekcie.

  27. Bardzo fajny kurs. Kiedyś używałem więcej eRa ale ostatnimi laty w pracy nie miałem okazji i sporo się pozapominało. Dzięki wam udało mi się przypomnieć podstawy i mam teraz nadzieję trochę przemycić i poużywać eRa zawodowo. Czekam z niecierpliwością na kolejną część kursu.

  28. Gratuluję pomysłu i realizacji całości. Autorzy jako Mega Pogromcy Danych (MePoDy) po analizie będą doskonale wiedzieli czy i co ewentualnie zmieniać 😉
    W zasadzie brakuje mi wspominanej już książeczki w pdfie lub/i epub/mobi – w pierwszym sezonie nie macie praktycznie wideo – może byście skompilowali takie małe cudo? Sympatycznie było by mieć taki dokument i sobie dorzucać własne notatki…

    Pozdrowienia dla Zespołu 🙂

  29. Świetny kurs, ale pytania 11 i 15 nie dają mi spokoju 🙁 W 1. biorę pole Cena.w.PLN i używam (chyba) odpowiedniej funkcji na „s” (nie chcę zdradzać więcej 🙂 ), ale mam komunikat, że Q1 i Q3 są nieprawidłowe 🙁
    A w 15. pisze, że „frakcja” ma złą wartość – rozumiem, że ma ona zawierać wartość procentową tanich Passatów z rocznika 2006?

    1. Ja przed kilkoma minutami otrzymałem dyplom z pierwszej części kursu 🙂 . Z punktacją, opisem poruszanych zagadnień, logotypami organizatorów oraz podpisem — w pełni profesjonalnie.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *