Panama Papers to największy wyciek danych w historii. Ponad 11 milionów dokumentów składa się na 2.6TB. Jak ogarnąć taką ilość danych? Przecież żaden człowiek tego nie przejrzy dokument po dokumencie. Śledztwo prowadzone przez Międzynarodowego Konsorcjum Dziennikarzy Śledczych (ICIJ – The International Consortium of Investigative Journalists) bazowało na algorytmach analizy dużych zbiorów danych.
Na stronie https://panamapapers.icij.org/graphs/ jest kilka wizualizacji kluczowych zestawień z zebranych dokumentów. W jaki sposób analizowano dane o rozmaitych zależnościach pomiędzy rozmaitymi podmiotami na taką skalę?
Do analizy wykorzystano między innymi bazę danych neo4j dedykowaną analizie danych grafowych. Jak pracuje się z takimi bazami danych? Np. korzystając z języka cypher – deklaratywny jezyk inspirowany SQLem, ale zaprojektowany do pracy na grafach.
Na stronie http://neo4j.com/blog/analyzing-panama-papers-neo4j/ znajduje się ciekawa prezentacja jak budowano w tym języku zapytania do analizy danych z Kwitów z Panamy. Świetna lektura i wiele interesujących linków.