Wizualizacja danych a kultura zarządzania informacją w firmie

Wczoraj prowadziłem referat ,,Wizualizacja danych a kultura zarządzania informacją w firmie’’, którego rdzeniem były dwa przykłady opisane poniżej. W skrócie pointa sprowadza się do stwierdzenia: Nie wystarczy dane pokazywać graficznie, trzeba je pokazać tak, by pokreślić to co w nich istotne. Ale aby określić co w danych jest istotne trzeba znać kontekst. Gdy jest się analitykiem ,,z zewnątrz”, to potrzebna jest dobra komunikacja pomiędzy analitykiem a osobą która zna problem (czy biznesowy czy naukowy czy inny).

Za pierwszy przykład posłużymy się katastrofą promu Challenger, która miała miejsce w 1986 roku. Bezpośrednią przyczyną katastrofy była niska sprężystość pierścieni uszczelniających spowodowana niską temperaturą. W skrócie w dniu startu było zbyt zimno by uszczelki poprawnie funkcjonowały.

Przed katastrofą wykonywano testy badające uszkodzenia uszczelek. Dane przedstawiono w sposób graficzny za pomocą poniższego diagramu. Na obrysach rakiet są widoczne temperatury w których przeprowadzano testy oraz informacje czy i jakie były uszkodzenia pierścienie uszczelniających.

image1

Wizualizacja danych może być uznana za estetyczną i ciekawą, ale ma jeden defekt. Nie pokazuje tego co istotne.

Edward Tufte w swojej książce pokazał te same dane w inny sposób zaznaczając uszkodzenia jako funkcje temperatury. Z poniższego wykresu natychmiast wynika, że im niższa temperatura tym więcej uszkodzeń. A w dniu startu temperatura była o kilkanaście stopni niższa niż w warunkach testowych (30F czyli poniżej 0C). Poniższy wykres nie ma tak ładnych sylwetek rakiet jak powyższy, ale za to dobitnie pokazuje że nie należało przeprowadzać startu promu przy tak niskiej temperaturze.

image2

(źródło: Representing Industry Information Using Graphs)

Te same dane, dwa zupełnie inne komunikaty.

Nie chodzi o ty by dane pokazać, ale by pokazać to co w danych istotne. Aby wiedzieć co warto pokazać trzeba dane zinterpretować.

Przyjrzyjmy się teraz innemu przykładowi. Na ruszt weźmiemy dane z sondażów wyborczych przed wyborami prezydenckimi w 2015 roku.
Dane w postaci tabeli wyglądają tak (dane są dostępne tutaj):

image3

Co można z tej tabeli odczytać? Większość normalnych osób na taki gąszcz cyferek reaguje bólem głowy. Pozostali patrząc na tę tabelę zauważą, że dla Bronisława Komorowskiego poparcie w sondażach spada a dla Andrzeja Dudy rośnie. Ale czy widać tempo albo charakter zmian? Czy był jakiś punkt przełomowy czy zmiany są systematyczne? Tego nie sposób odczytać.

Pokażmy te dane. O ile tabela jest obiektywna nie narzuca interpretacji to tworząc wykres zaczniemy torować komunikat. Na początek wybierzemy tylko dane dla dwóch kandydatów i pokażemy poparcie jako funkcje czasu.

image4

Ok, wciąż widzimy chmurę punktów. Widzimy, że niebieskie punkty są coraz wyżej, pomarańczowe coraz niżej. Jest jakaś tendencje ale niezbyt widoczna.

Dodajmy trend. Dodajmy do osobno dla okresu przed i po pierwszej turze wyborów. To jaki trend dodajemy jest naszym subiektywnym wyborem, w tym przypadku pokazujemy funkcję liniową.

image5

Możemy odczytać coraz więcej. Tempo spadku poparcia dla BK jest większe niż tempo wzrostu poparcia dla AD. Jak wiemy na tej różnicy skorzystał Paweł Kukiz. Dodając trend można zauważyć, że poszczególne pomiary układają się w miarę równomiernie wokół linii trendu. Zauważyć można też że nawet ekstrapolując wyniki sondaży nie udałoby się przewidzieć wyniku pierwszej tury wyborów. Na dzień przed pierwszą turą wyborów sondaże wskazywały na 10% przewagę BK. I to nie jeden przypadkowy sondaż ale wiele sondaży jednocześnie.

Odpowiedzi rodzą najczęściej kolejne pytania. W tym przypadku tych wyników można zapytać jak te trendy wyglądałyby gdyby ograniczyć się do kilku ośrodków badania opinii publicznej?
Może pozostałe ośrodki coś źle zmierzyły?
W tym przypadku przydać się może interaktywna aplikacja pozwalająca nie tylko na zapoznanie się z wynikami ale też eksploracje tych wyników.
Ale jakie opcje dodać? To kolejny subiektywny wybór.

W ten sposób od tabeli z liczbami przeszliśmy do interaktywnej aplikacji.
Po drodze jednak musieliśmy podjąć kilka decyzji które narzuciły określoną interpretację wykresu. Można założyć, że dobra wizualizacja danych zawsze jest interpretacją liczb a nie automatycznie wygenerowanym obrazkiem.

Wracając do komunikacji w firmach. Najczęściej osoba która chce podjąć decyzję w oparciu o dane (opiekun produktu, dyrektor, zarząd) zleca wydobycie danych lub wykonanie wizualizacji innej osobie (analitykowi, statystykowi, programiście itp). Im lepiej przekaże po co i co chce z nich wydobyć tym większa szansa, że prezentacje wyników odkryje to co ważne a nie utknie na jakimś szumie lub świecidełkach.

Za tydzień pokażemy jak w R wykonać powyższe wykresy.


Wpisy z kategorii Duże i złożone powstają przy współpracy z firmą CodiLime.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Możesz użyć następujących tagów oraz atrybutów HTML-a: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">