Matematyka i wizualizacja danych, czyli plany wydawnicze na koniec 2018

Na końcówkę roku szykujemy dwie bardzo ciekawe pozycje. Póki co zapowiedzi. Napiszę gdy już ukażą się w sprzedaży lub przedsprzedaży.


Pierwsza z nich to ,,W pogoni za Nieskończonością”. To 32 stronicowy komiks o przygodach Bety i Bita.

Tym razem rodzeństwo zmierzy się z Nieskończonością. A że to nie mały problem, więc i publikowany zeszyt jest początkiem (oby) dłuższej serii.

Patrząc na okładkę część z Was pewnie widzi kreskę znanego biologia i popularyzatora przyrody Tomasza Samojlika (autor między innymi książek o Żubrze Pompiku). Drugim rysownikiem jest Sebastian Szpakowski. Treścią matematyczną współopiekował się Łukasz Maciejewski.

Nie dajcie się zwieść. To nie jest komiks dla dzieci! Poruszamy w nim poważne tematy. Zresztą, już niedługo zobaczycie sami.


Druga zapowiedź dotyczy zeszytu ćwiczeń ,,Wykresy unplugged”.

Tym razem 28 osiem stron informacji o wykresach oraz miejsca na samodzielne praktykowanie sztuki wizualizacji danych.

Zeszyt wyposażony jest w 8 kompletów danych i ćwiczeń do samodzielnego wyrysowania. Wyrysowania ołówkiem i kredkami, nie ma co ograniczać się do możliwości nawet najlepszego programu graficznego. Jedynym ograniczeniem niech będzie wyobraźnia!

Obok ćwiczeń jest też kilka wkładek tematycznych o technikach wizualizacji. I w tym wypadku nie dajcie się zwieść kredkom. To zeszyt ćwiczeń dla każdej kreatywnej osoby, nawet zabieganego dyrektora działu Data Science.

Stroną graficzną opiekowała się Magda Małczyńska-Umeda i zespół StoryVisio (autorka między innymi Infostory), merytoryczną opiekowałem się razem z Ewą Baranowską, przy wsparciu Piotra Sobczyka z Szychta w danych.


Czekając na te pozycje można zawsze sięgnąć do pozycji już obecnych na rynku. Np. do Zbioru Esejów o sztuce prezentowania danych. Do zamówienia ze strony Wydawnictw Uniwersytetu Warszawskiego.

Break Down: model explanations with interactions and DALEX in the BayArea

The breakDown package explains predictions from black-box models, such as random forest, xgboost, svm or neural networks (it works for lm and glm as well). As a result you gets decomposition of model prediction that can be attributed to particular variables.

The version 0.3 has a new function `break_down`. It identifies pairwise interactions of variables. So if the model is not additive, then instead of seeing effects of single variables you will see effects for interactions.
It’s easy to use this function. See an example below.
HR is an artificial dataset. The `break_down` function correctly identifies interaction between gender and age. Find more examples in the documentation.

#
# Create a model for classification
library("DALEX")
library("randomForest")
model <- randomForest(status ~ . , data = HR)

#
# Create a DALEX explainer
explainer_rf_fired <- explain(model,
                 data = HR,  y = HR$status == "fired",
                 predict_function = function(m,x) predict(m,x, type = "prob")[,1])

#
# Calculate variable attributions
new_observation <- HRTest[1,]
library("breakDown")
bd_rf <- break_down(explainer_rf_fired,
                 new_observation,
                 keep_distributions = TRUE)

bd_rf
#>                        contribution
#> (Intercept)                   0.386
#> * hours = 42                  0.231
#> * salary = 2                 -0.216
#> * age:gender = 58:male        0.397
#> * evaluation = 2             -0.019
#> final_prognosis               0.778
#> baseline:  0 

plot(bd_rf)

Figure below shows that a single prediction was decomposed into 4 parts. One of them is related to the interaction between age and gender.

BreakDown is a part of DALEXverse – collection of tools for visualisation, exploration and explanation of complex machine learning models.

Till the end of September I am visiting UC Davis and UC Berkeley. Happy to talk about DALEX explainers, XAI and related stuff.
So, if you want to talk about interpretability of complex ML models, just let me know.

Yes, it’s part of the DALEX invasion 😉
Thanks to the H2020 project RENOIR.