Czy ,,Friends” są istotnie lepsi niż ,,Breaking Bad”? Test dwóch grup na przykładzie IMDB

Tydzień temu pokazywałem aplikację pozwalającą na analizę trendu w ocenach seriali telewizyjnych. Aplikacja powstała by z jej pomocą omawiać regresję liniową.

Dzisiaj kontynuujemy temat. Poniżej można pobawić się aplikacją pozwalającą na porównanie średnich ocen dwóch różnych seriali. Czy Friends są wyżej oceniani niż Breaking Bad? I czy ta różnica jest istotna statystycznie?

Aby odpowiedzieć na to drugie pytanie możemy przedyskutować przy okazji o co chodzi z tą istotnością statystyczną.

Kolorami oznaczone są seriale, czarna linia to średnia dla serialu. Odcinki są prezentowane z zachowaniem kolejności. Apka jest przygotowana po to by opowiadać licealistom w ramach Matematyki dla Ciekawych Świata o co chodzi z testowaniem średnich.

Gdyby powyższa aplikacja się nie otwierała (może to potrwać kilka sekund) to można ją znaleźć pod adresem https://smarterpoland.shinyapps.io/serialeIMDB_dwieGrupy.

Jakie jeszcze algorytmy analizy danych można pokazać z użyciem danych o serialach telewizyjnych?

13 thoughts on “Czy ,,Friends” są istotnie lepsi niż ,,Breaking Bad”? Test dwóch grup na przykładzie IMDB”

  1. Ciekawe jest w ocenianiu, że ludzie bardzo chętnie dają minimalną ocenę lub maksymalną. Na IMDb jak się człowiek przyjrzy histogramom, to zwykle jest gausik + więcej dla 1 (nienawidzą / obrażeni lub „ten film nie zasługuje na tę ocenę”) i dla 10 (zakochani, zhype’owani czy też „ten film zasługuje na znacznie wyższą ocenę”). W porywach jest aż taka patologia: http://www.imdb.com/title/tt2322441/ratings?ref_=tt_ov_rt

    I np. na Amazonie czytam recenzje ludzi dających 2-4 (ze skali 1-5).

    Sądzę, że w kultowych serialach 10 będą częste. Zastanawiam się na ile względne wyniki by się zmieniły odrzucając 1 i 10.

    1. Ale po co odrzucać opinię 10? To osoby, którym serial się zdecydowanie podoba i wiadomo co ta ocena znaczy, w przeciwieństwie do subiektywnej i niewiele mówiącej np. 7.

      Nie rozumiem też tego doszukiwania się rozkładu gaussa w ocenach. Dostałem kiedyś komentarz od dziekana że rozkład moich ocen jest zły bo albo 4-5 albo ndst, a gauss ponoć miałby najwięcej trójek.
      Imho Żyjemy w czasach w których dostatecznie dobry oznacza to samo co zły.

  2. Moja uwaga jest taka, że 10 mogą mieć inne znaczenie semantyczne. A uśrednianie rzeczy o różnym znaczeniu semantycznym niekoniecznie jest usprawiedliwione.

    Zresztą, o czym może wspominałem, na swoim wprowadzeniu do analizy w Pythonie na podstawie IMDb, właśnie takie rzeczy chcę wałkować. Choćby by zobaczyć jak bardzo różnią się rankinki w zależności od kryteriów, pobawić się w PCA. Najfajniej to by oczuwiście zrobić IRT (i tu ukłony w stronę R, bo w Pythonie nie znam porządnego), ale do tego potrzeba by głosy poszczególnych osób (chyba, że bawiąc się http://grouplens.org/datasets/movielens/).

    Nie mówię, że rzeczy muszą się układać w gaussa. Mówię jaką mam obserwację oglądając wiele takowych histogramów. A przy mieszaninie gaussa i rokładu bimodalnego średnia może być zwodnicza.

    1. Co właściwie powoduje, że uważasz że odpowiedzi dla Pingwinów z Madagaskaru układają się w krzywą Gaussa?
      Jednomodalność, symetria? Miary koncentracji nie da się prosto ocenić.
      Jak dla mnie rozkładu ocen są określone na 10 punktach i siłą rzeczy ich podobieństwo do rozkładu o ciągłym nośniku jest sporym uproszczeniem.
      A gdyby już doszukiwać się ciągłego rozkładu to pewnie prędzej szukałbym w rodzinie rozkładów beta (we mieszaniny tych rozkładów).

      Odpowiedź 10 z pewnością ma inne znacznie niż pozostałe odpowiedzi, ponieważ jest to najwyższa odpowiedź na ograniczonym nośniku i gdyby przyjąć że pod spodem są gaussowskie zmienne ukryte to ocena 10 brała by efekt całego brzegu.

      To oczywiście rodzi inne bardzo ciekawe pytanie, co takiego opisuje średnia ocena.
      I czy lepiej oglądać filmy które wszyscy oceniają na 7 czy też takie które dzielą ludzi na 10 i 0 (nie to żebym chciał oglądać 255 odcieni szarości, ale też nie chciałbym oglądać czegoś co każdy ocenia jako przeciętny film i nikt się nim nie zachwycił).

      Może procent osób wpadających w zachwyt danym filmem byłby dobrym wskaźnikiem oceny filmu?

  3. Generalnie zgadzam się z Piotrem, że przy ocenach filmów należałoby oczekiwać rozkładu, może nie normalnego, ale przynajmniej jednomodalnego (koncentracja ocen przy wartościach nieskrajnych i stopniowe „opadanie w dół” po obu stronach). Trzeba jednak pamiętać, że to tylko oceny z portalu internetowego – ani nie są reprezentatywne, ani nawet nie oddają rzeczywistych preferencji. Tutaj górę często biorą emocje. Wydaje mi się, że jako dobry przykład tej tezy posłużyć mogą oceny tegorocznych filmów nominowanych do Oscara. Dwa z nich mogą być odbierane nieco bardziej emocjonalnie przez niektóre, hmm, środowiska i w rozkładach ocen to widać.

    Podobnie jest ze wszystkimi głośnymi tytułami, które w jakiś sposób, delikatnie mówiąc, wzbudzają kontrowersje co do swojej jakości. Przykład z Greyem jest ekstremalny, ale to świeżynka. Podejrzewam że za jakiś czas rozkład ocen będzie podobny jak w przypadku Zmierzchu (http://www.imdb.com/title/tt1099212/ratings?ref_=tt_ov_rt). Odstępstwo od spodziewanego rozkładu widać też np. w Harrym Potterze czy Hunger Games. Można by więc założyć, że znaczenie ma popularność filmu (mierzona np. liczbą ocen). Sprawdziłem z ciekawości film Heaven is for real, o którym w swoim czasie było dosyć głośno. Ocen stosunkowo mało, rozkład „zmierzchowy”. Czyli skucha.

    Ale odrzucanie ocen skrajnych to nie jest rozwiązanie. Wystarczy popatrzeć na oceny filmów Nolana. Co usprawiedliwiłoby wywalanie dziesiątek, skoro większość osób uważa wszystkie jego filmy od czasu Mrocznego Rycerza za absolutne arcydzieła? 😉

    Wg mnie najlepszą miarą tego, czy film mi się spodoba, byłaby mediana. Z braku laku zostaje średnia. Ale to chyba nie jest zła miara – system (właśnie ze względu na te „emocjonalne” oceny) reguluje się sam.

  4. Ten Zmierzch to ciekawy przypadek.
    Jak dla mnie jest to argument, że pod spodem mamy do czynienia z mieszaniną rozkładów i najlepiej szacować parametry tych mieszanin. W przypadku Zmierzchu wygląda na to że są trzy składowe mieszaniny.

    Mediana i średnia to dobre miary dla klasycznych rozkładów.
    Gdybyśmy mieli 49% zer i 51% dziesiątek to mediana będzie w 10, ale już przy parametrach 51% i 49% mediana wpadnie w zero.

    Może lepiej identyfikować dla filmów trzy grupy fanów – gorący zwolennicy, przeciwnicy, neutralni.
    I prezentować je wykresami trójkątnymi:
    http://smarterpoland.pl/index.php/2012/09/srodki-transportu-w-swietle-danych-z-eurostatu-czyli-gdzie-jezdzi-sie-pociagami-gdzie-jest-najwiecej-ofiar-wypadkow-drogowych-a-gdzie-siec-autostrad-jest-najgestsza/

  5. @tomek – super przkład ze Zmierzchem, wręcz „obrazkowe” proporcje.

    Wiadomo, że dane z grupy „ludzie z głosujący na portalu IMDb”. Zresztę, zastanawiam się czy liczna 1 nie koreluje jakoś z liczbą odwiedzić – większość „syfiatych” (lub zwyczajnie nie podchodzących pod czyjeś gusta) filmów się nigdy nie widzi, ani nawet – nie wie o ich istnieniu. A ktoś zostanie zaciągnięty (przez dziewczynę, plakat, znajomych…) na coś co się niepodoba, to może (strzelam) dać 1.

    @smarterpoland

    Świetne filmy (np. http://www.imdb.com/title/tt0050976/ratings?ref_=tt_ov_rt) mają taki rozkład, że obcięcie 10 da średnią też b. wysoką.

    Co do pomysłu sprowadzenia 2-9 do „neutralnego” – pierwsza moja myśl była, że to wypatrzenie sytuacji (wszak średnia może być ok 8.5 jak z Siódmej Pieczęći lub 6 jak ze Zierzchu). Jednak… może taka abstrakcja da ciekawe wyniki. Albo np. dodatkowo nanieść śrenią „neutralnych” jako kolor?

  6. Z ciekawości sprawdziłem jak te trójkątne wykresy będą wyglądały dla tegorocznych filmów oskarowych. Pierwszy raz korzystałem z pakietu ggtern, dlatego wykres nie jest idealny, ale coś widać:

    https://dl.dropboxusercontent.com/u/132808/tp1.png

    (fanatics – % dziesiątek, haters – % jedynek, neutrals – % pozostałych ocen)

    Tutaj to samo z rozmiarem punktu odpowiadającym średniej ocen:

    https://dl.dropboxusercontent.com/u/132808/tp2.png (wg mnie wygląda lepiej)

    A tu dla porównania rozkłady ocen poszczególnych filmów z zaznaczoną medianą (ciemniejszy słupek) i średnią (czerwona linia):

    https://dl.dropboxusercontent.com/u/132808/p1.png

    I dalej jestem zdania, że w przypadku próby przewidzenia, czy dany film będzie mi się podobał, mediana – interpretowana jako taka wartość X, że przynajmniej połowa oceniających wystawiła filmowi ocenę X lub wyższą – jest najlepszą miarą. Oczywiście wymienione przez smarterpoland przykłady są możliwe, ale raczej się nie zdarzają 😉

    1. Super,
      Moim zdaniem te trójkątne wykresy są super i są czytelniejsze niż same histogramy (lepsze data-ink ratio).

      Mediana ok, ale dobrze mieć drugą oś typu ,,kontrowersyjność” / wariancja / IQR.

  7. @Piotr
    Nie jestem pewien, czy dobrze zrozumiałem o co pytasz. Wybrałem kilkanaście, chyba dość zróżnicowanych filmów:

    https://dl.dropboxusercontent.com/u/132808/p1.2.png (znalezienie „przeciętnych” filmów wcale nie jest takie łatwe 😉 ).

    A tutaj wykres trójkątny:

    https://dl.dropboxusercontent.com/u/132808/tp2.2.png (Kevin i The Conjuring są w podobnym miejscu).

    Ze względu na inną skalę, filmy oskarowe z tego roku są mniej więcej między Avengersami a grupką „przeciętniaków”.

    @smarterpoland
    A gdyby jako miarę „kontrowersyjności” przyjąć stosunek „hejterów” do „fanatyków”? Im dalej od zera tym bardziej ryzykowny byłby dany film:

    https://dl.dropboxusercontent.com/u/132808/sp1.2.png

    (obciąłem OX do 2, bo ta Bitwa o Ziemię jest bardzo, bardzo na prawo).

  8. Świetnie,
    już wiem co będziemy robić ze studentami na zajęciach z web-scrapingu,
    (tj. szukać filmów o największych różnicach pomiędzy grupami wiekowymi czy też płcią)

    Stosunek dwóch proporcji jest ok, przy czym zazwyczaj takie ilorazy przedstawia się w skali ilorazowej, dzięki czemu łatwiej zobaczyć różnice pomiędzy 0.01 i 0.1 oraz pomiędzy 10 a 100.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *