Pakiet multidplyr, wrażenia

Screen Shot 2015-11-13 at 10.54.15

Dwa dni temu Hadley Wickham na twitterze podlinkował wprowadzenie do pakietu multidplyr. Przyjrzyjmy się temu backendowi.

Czym jest multidplyr?

Zgodnie z opisem na githubie, jest to biblioteka pozwalająca na przetwarzanie danych z użyciem dplyrowych czasowników z użyciem wielu rdzeni. Idea podobna do sparka. Podobne backendy istnieją od lat (dla hardkorowców RMPI, dla mniejszych distributeR czy paralel i wiele innych z listy https://cran.r-project.org/web/views/HighPerformanceComputing.html). Problem z istniejącymi rozwiązaniami jest ich hakerskość. W 9 przypadkach na 10, przy próbie robienia bardziej złożonych rzeczy wszystko wybucha, a traceback ma przynajmniej 20 pozycji.
Rozwiązania Hadleya, podobnie jak Appla, mają zazwyczaj przyjemniejszy design, wybuchają rzadziej, a kosztem ograniczonej funkcjonalności otrzymujemy jakąś frajdę z korzystania.

Czytaj dalej Pakiet multidplyr, wrażenia