Jak pokazać czytelnie 5 liczb, czyli sondaże poparcia partii politycznych a gazety

Ponieważ zdarzyło mi się w przeszłości (tu uśmieszek) pokazywać przykłady negatywne: jak nie pokazywać słupków poparcia dla partii politycznych, dlatego (dla równowagi) stwierdziłem, że poszukam przykładów pozytywnych. Przecież takie muszą gdzieś być.

I tak się szczęśliwie złożyło, że dosyć szybko taki przykład znalazłem i poniżej się nim podzielę. Ponieważ łatwiej zauważyć element wykonany źle niż element wykonany dobrze (ten drugi mniej się rzuca w oczy) to nie zabraknie również złych wykresów, których zadaniem jest pokazanie jak dobry jest ten dobry.

Spodobał mi się więc wykres z portalu wiadomości.gazeta.pl przedstawiony poniżej.

Prosty czytelny, kolory można wybaczyć, są linie pomocnicze, jest oś OY nie ma żadnych wątpliwości czy wysokości słupków są poprawne. Pięknie, pięknie, pięknie.

Gdyby ktoś się dziwił skąd ten zachwyt pięcioma słupkami, gdyby wątpił czy pięć liczb można przedstawić nieczytelnie to niech spojrzy na przykłady czy to z portalu tvn.pl (po co oś OX, po co linie pomocnicze)  z portalu gazetaprawna.pl (o zgrozo, dodanie strzałek optycznie wydłużających lub skracających słupki w XXI wieku? przecież to aż w oczy kole). Oba wykresy poniżej.


Czyżby więc udało się znaleźć artykuł idealny, w sposób czytelny i bezdyskusyjny przedstawiający pięć liczb? Tak że sposób ich przedstawienia nie budzi wątpliwości?
(przepraszam za ten styl, ale w głowie wciąż słyszę książkę Tomasza Jachimka ,,Handlarze czasem” czytaną, a jakżeby inaczej, przez Tomasza Jachimka, i trudno mi pisać inaczej)

Niestety nie. I pierwszy z prezentowanych wykresów budzi wątpliwości. Uważne oko zauważy, że liczby na nim sumują się do 75%. Co z resztą? Czyżby głosowali za inną partią czy też wstrzymali się od głosu? Jeżeli to drugie to w liczeniu poparcia należałoby te procenty unormować. I po takim normowaniu okaże się, że 4% PSL zamieni się w 5.3%. Ale czy to ma znaczenie? Tylko takie, że w towarzyszącym wykresowi artykule napisano, że PSL ma notowania powyżej progu wyborczego, no a tutaj 5.3% czy 4% to już robi różnicę.

Sondaże poparcia dla partii, czyli I liga błędów i manipulacji

W poniedziałkowym wpisie (link tutaj) przedstawiłem zasady wciąż trwającego konkursu na wyśledzenie złych/błędnych/zmanipulowanych grafik. Wygrać można wiele ciekawych gadżetów i wciąż zapraszam do wzięcia w nim udziału.

Dziś przedstawię znalezisko, które zgarnęło kilka gadżetów, ponieważ aż trudno było mi uwierzyć ile błędów można znaleźć na jednym wykresie przedstawiającym 5 liczb.

Ale zanim pokażę ten wykres zacznę od krótkiego komentarza. Prezentując podczas rożnych okazji źle wykonane wykresy staram się (może niesłusznie) tłumaczyć ich autorów. Że temat porównywania średnich cen mieszkań jest trudny i być może autor przedstawił wyniki błędnie nieumyślnie. Że porównywanie rozkładów ocen to trudny temat i być może autor przedstawił te wyniki tak nieumyślnie. Że … itp. Gdy do czynienia ma się ze złożonymi danymi, np. ekonomicznymi czy medycznymi to o pomyłkę czy przeoczenie jest dosyć łatwo, ponieważ zmiennych jest dużo, zależą one od siebie w często złożony sposób itp. Łatwo więc zrzucić odpowiedzialność za błędy w takich analizach na pośpiech, brak doświadczenia czy brak ,,drugiego czytania”.

Inaczej ma się rzecz z wynikami poparcia dla partii politycznych. Tutaj struktura danych jest prosta jak drut. Zapytano o zdanie 1000 osób z czego X odpowiedziało tak, Y inaczej itp. Mój sąsiad czterolatek potrafi liczyć do 1000, więc chodząc do przedszkola jest w stanie przeprowadzić podstawową analizę takich danych. Tymczasem ,,analitycy” mają przy takich analizach zaskakujące wnioski. (Ok poparcie liczy się ciut bardziej skomplikowanie ponieważ stosuje się jeszcze wagi w zależności od reprezentatywności, ale nie jest to duża komplikacja).

Tym razem chodzi o artykuł z ,,portalu informacyjnego” tvn24.pl ,,Platformie ciągle spada”. Przedstawiono w tym artykule taki oto wykres:

W którym wyniki poparcia mierzone w lutym 2012 są porównywane z wynikami poparcia ze stycznia 2012. Na tej samej stronie jest nawet odnośnik do artykułu ze stycznia o wdzięcznym tytule ,,PO i PiS mocniejsze. Spada Palikotowi” w którym umieszczono taki wykres (w styczniu przeprowadzono wiele różnych badań, ale skoro to akurat jest linkowane więc można by je uznać za referencyjne).

KOREKTA START
@Karol zwrócił mi uwagę, że powinienem odnosić się do tego styczniowego artykułu.  W tym przypadku różnica procentów się zgadza. W tekście pod śródtytułem jest odnośnik to innego artykułu niż w ramce po prawej stronie śródtytułu.
KOREKTA STOP

Słów brakuje … spróbujmy jednak nazwać trzy główne grzechy (porównując artykuły z 13 stycznia i 13 lutego procenty się zgadzają i poniższe trzy punkty są nieaktualne)

  1. Tytuł ,,PO ciągle spada” ma się nijak do obserwacji, że miesiąc wcześniej PO poparcie wzrastało (przynajmniej według prezentowanego sondażu),
  2. spadek poparcia dla PO z 37% do 33% to nijak nie jest spadek o 7%,
  3. w przypadku PIS było w styczniu 22% jest w lutym 19% i dodany jest komentarz, że jest to wzrost o 1%.
Ale najzabawniejsze w tych błędach jest to, że artykuł ,,PO ciągle spada” został podesłany mi jako ,,zmanipulowany” z zupełnie innego powodu. Mianowicie pierwsza wersja wykresu przedstawiającego poparcie miała wysokości słupków niespecjalnie związane z prezentowanymi danymi. Oto porównanie, które otrzymałem, pokazujące wykres zmian poparcia w wersji oryginalnej i poprawionej po kilku godzinach.

Kilka dodatkowych kliknięć doprowadziło mnie do dwóch innych wyników dot. poparcia prezentowanego w serwisie tvn24.pl w lutym i styczniu. Poniżej przedstawiam chronologicznie artykuły, ich tytuły, informację o poparciu oraz jego zmianie dla trzech pierwszych partii.

Ja rozumiem, że wyniki sondażowe obarczone są dużą zmiennością, ale czekam na czasy kiedy dotrze to też do dziennikarzy i skończą się komentarze typu ,,na reprezentatywnej próbie 1000 polaków …”. oraz ,,ostro w dół i ostro w górę”