Co nowego w ,,Przewodnik po pakiecie R – wydanie 4.0”?

Przewodnik1234okladka
Czwarte wydanie ,,Przewodnika po pakiecie R” trafiło do księgarń w połowie grudnia. Pierwszy nakład był mały i szybko się skończył, ale od połowy stycznia Przewodnik jest ponownie dostępny.
A ja mam trochę czasu by napisać co nowego można znaleźć w czwartym wydaniu.

Zmian jest wiele. Kierunki zmian są dwa. Po pierwsze, obniżyć próg wejścia dla osób, które dopiero zaczynają przygodę z analizą danych. Łagodnym wprowadzeniem w temat są pierwsze dwa rozdziały. W upraszczaniu tej części przydały się doświadczenia z Pogromców Danych (2000+ osób) i z różnych szkoleń dla nie-programistów.
Drugi kierunek zmian to szersze wprowadzenie do pakietów z grupy tidyverse oraz ułatwień, które oferuje RStudio. Weterani R mają różne ulubione edytory i rozwiązania codziennych problemów, ale dla osób rozpoczynających przygodę z pewnością najefektywniejszą drogą wejścia jest połączenie RStudio i pakietów z tidyverse. Również osoby pracujące z R od lat mogą z zaskoczeniem odkryć, że praca z datami jest bardzo prosta dzięki pakietowi lubridate (ok, lubridate ma już kilka lat na karku) lub że praca z czynnikami jest prosta dzięki pakietowi forcats.

Wzorem poprzednich wydań, pierwsze 3 rozdziały (150 stron) są dostępne bezpłatnie jako pdf online tutaj.

Rozdział 1 – Wprowadzenie
W pierwszym rozdziale znajduje się krótki opis narzędzia jakim jest język R i edytor RStudio.
Zaczynam od pytania ,,Dlaczego warto poznać R?”,
Czytelnik może zapoznać się z przykładowymi fragmentami kodu R do pobierania danych z internetu (z nadzieją na reakcję czytelnika ,,WoW, to się da zrobić w 5 linijkach! Ja też tak chcę!!!”), wizualizacji pobranych danych oraz prostego modelowania statystycznego. Wszystko w zaledwie kilku linijkach kodu, możliwe dzięki dużej ekspresji języka.
Jeżeli ktoś jeszcze nie wie, czy praca z R jest dla niego, ten rozdział pomoże podjąć decyzję.
Jest tutaj też krótka historia rozwoju R, od początków S po lawinowy rozwój R w ostatnich latach/miesiącach.

Rozdział 2 – Podstawy pracy z R
W tym rozdziale omawiam cechy pracy z R, które pozwolą na podstawową pracę z danymi. Zaczynam od tego jak wczytać dane, następnie omawiam podstawowe typy danych (liczby, napisy, ramki, macierze), wymieniam podstawowe statystyki liczbowe podsumowujące te zmienne oraz podstawowe wykresy, które charakteryzują zmienne i zależności pomiędzy nimi (słupki, pudełka, histogram, wykres kropkowy, mozaikowy itp).
W tym rozdziale omawiam też dwa narzędzia które w R są dostępne w miarę od niedawna, ale niewiarygodnie ułatwiają one pracę.
Chodzi oczywiście o przetwarzanie danych z pakietem dplyr (potoki plus podstawowe czasowniki) oraz raportowanie z pakietem knitr (i też Sweave, choć o knitr jest więcej).

Po lekturze drugiego rozdziału czytelnik powinien bez obaw pracować z danymi i rozumieć ogólną logikę pracy z R.

Rozdział 3 – Niezbędnik programisty
Rozdział 3 jest dla osób, którym programowanie nie jest obce i chciałyby skorzystać z olbrzymich możliwości jakie R daje programistom (nawet tym początkującym).
Zaczynamy od omówienia funkcji (a funkcje w R są bardzo specyficzne), pętli i instrukcji warunkowych.
Następnie pokazujemy jak pracować z bazami danych i tymi dużymi i tymi małymi (SQLite).
Dwa silne podrozdziały poświęcone są tworzeniu pakietów (jakie to proste z pakietem devtools) i aplikacji Shiny (to temat rzeka, więc omawiane są tylko podstawy).
Następnie omawiamy podstawy Gita (niezastąpione narzędzie przy większych projektach).
Rozdział kończy się omówieniem narzędzie do debugowania i profilowania kodu. Ostatecznie dobry kod powinien być i efektywny i poprawny.

Rozdział 4 – Niezbędnik statystyka
Ten rozdział w porównaniu do wydania 3 zmienił się najmniej. Przedstawiam podstawy czyszczenia danych, pracy z obserwacjami brakującymi, identyfikacji obserwacji skrajnych jest sporo o testowaniu, modelowaniu i symulacjach.

Rozdział 5 – Graficzna prezentacja danych
Wizualizacja danych to temat, który mnie ostatnio bardzo pochłania. więc i rozdział o wizualizacji w przewodniku przeszedł gruntowne zmiany.
Omawiam trzy wiodące podejścia do tworzenia grafiki w R.
Na początek wprowadzany jest pakiet lattice. Genialne narzędzie dla statystyków, ostatnio mocno wypierane przez ggplot2, ale wciąż warto o nim wiedzieć.
Następnie omawiany jest pakiet ggplot2. To juz nie jest wyłącznie narzędzie do rysowania, to narzędzie do myślenia o zależnościach pomiędzy danymi, starałem się więc ten pakiet przedstawić zarówno od strony technicznej jak i od strony filozofii tworzenia grafiki, która stoi za tym pakietem.
Trzeci podrozdział to grafika podstawowa, chciałoby się powiedzieć ,,sprzed ggplot2”. Przy okazji omawiane są różne parametry graficzne, skale kolorów, kształty punktów i typy lini, więc warto być na czasie też z tym rozdziałem.
Ostatni podrozdział to grafika interaktywna dostępna przez pakiet rCharts.

Ciekawostka, Przewodnik doczekał się kolorowej wkładki pokazującej kolory (wkładka poniżej), dzięki niej łatwiej będzie dobrać kolory do wykresów korzystając z ich nazw/skal z RColorBrewer. W poprzednich wydaniach tabela z kolorami też była, tyle że drukowana B&W (kolorowa wersja dostępna była w Internecie).

Screen Shot 2017-01-15 at 18.38.43

Skład
W stosunku do 3 wydania zmienił się skład. Zrezygnowałem z poszerzonego zewnętrznego marginesu, zwiększyłem wielkość pisma, zamiast Minion Pro zastosowałem Palatino (dyskusyjna zmiana), zmieniłem wielkość i formatowanie podpisów rysunków i tabel. Wszystko to po to, by nowe wydanie było przyjemniejsze w czytaniu.

Ale gdzie są ćwiczenia?
Najbardziej ryzykowną decyzją związaną z czwartym wydaniem, było usunięcie z każdego rozdziału zadań do samodzielnego wykonania.
Po co usuwać zadania? Moim celem było zachęcenie czytelnika do skorzystania z zadań dostępnych w ramach kursu online Pogromcy Danych. Dla Pogromców przygotowałem 2×20 zadań, które można online wpisywać i od razu sprawdzić czy rozwiązanie jest poprawne. Dla nauki języka programowania jest to moim zdaniem skuteczniejsze narzędzie niż zadania wydrukowane w książce.

Jak to było możliwe?
Nową okładkę zaprojektował Jakub Rakusa-Suszczewski. Redakcje i korektę języka przeprowadziła Katarzyna Wróbel. Wiele cennych uwag dostałem od beta czytelników, w szczególności Bartosza Jabłońskiego, Bartosza Sękiewicza, Katarzyny Pękały, Małgorzaty Szatkowskiej-Żak i Krzysztofa Trajkowskiego. Im oraz autorom wszystkich drobniejszych zmian i korekt gorąco dziękuję! Osobne olbrzymie podziękowania składam żonie, bez jej wsparcia nie byłoby niczego ;-).

I na koniec anegdotka. Gdy przyniosłem do domu pierwsze wydrukowane egzemplarze, jeden zabrała mi moja najmłodsza córka aby sobie ,,poczytać”. Co prawda jeszcze czytać płynnie nie potrafi, ale przynajmniej okładka ją zainteresowała. Jest dobrze.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *