Dwa dni temu Hadley Wickham na twitterze podlinkował wprowadzenie do pakietu multidplyr. Przyjrzyjmy się temu backendowi.
Czym jest multidplyr?
Zgodnie z opisem na githubie, jest to biblioteka pozwalająca na przetwarzanie danych z użyciem dplyrowych czasowników z użyciem wielu rdzeni. Idea podobna do sparka. Podobne backendy istnieją od lat (dla hardkorowców RMPI, dla mniejszych distributeR czy paralel i wiele innych z listy https://cran.r-project.org/web/views/HighPerformanceComputing.html). Problem z istniejącymi rozwiązaniami jest ich hakerskość. W 9 przypadkach na 10, przy próbie robienia bardziej złożonych rzeczy wszystko wybucha, a traceback ma przynajmniej 20 pozycji.
Rozwiązania Hadleya, podobnie jak Appla, mają zazwyczaj przyjemniejszy design, wybuchają rzadziej, a kosztem ograniczonej funkcjonalności otrzymujemy jakąś frajdę z korzystania.