Składamy grupę MI^2, studentów i absolwentów MIM UW i MiNI PW zainteresowanych analizą ciekawych i różnorodnych danych. Dzisiaj o jednym z takich ciekawych projektów (btw: rekrutujemy na wakacyjne staże i praktyki związane ze statystyczną analizą danych bio-medycznych).
Z igrzysk na igrzyska olimpijskie sportowcy biegają coraz szybciej, biją nowe rekordy. Zarówno w biegu na 100m jak i na 42km. Ale czy istnieje kres możliwości sportowców lekkoatletycznych? Hmmm, a gdyby sprawność ,,na igrzyska” można opisać modelem regresyjnym, a następnie śledzić jak współczynniki tego modelu zmieniają się z igrzysk na igrzyska…
Temu zagadnieniu poświęcona była praca licencjacka Witolda Chodora. Cała praca jest dostępna tutaj. Poniżej prezentujemy jej streszczenie w postaci html, wersję pdf można pobrać z tej strony.
—
Prognozowanie możliwości sportowców w lekkoatletycznych dyscyplinach biegowych – streszczenie pracy
Witold Chodor
Wiele osób zadaje sobie pytanie jakie są granice możliwości sportowców oraz jak długo będą oni jeszcze w stanie bić kolejne rekordy. Ja również bardzo często stawiałem sobie podobne pytanie. Dlatego też, kiedy natrafiłem na artykuł D.C. Blesta ”lower bounds for athletic performance” z 1996 roku postanowiłem zbadać bardziej szczegółowo ten temat w oparciu o obszerniejsze dane.
W mojej pracy starałem się znaleźć predykcje granic możliwości lekkoatletów biegających na 8 dystansach: 100m, 200m, 400m, 800m, 1500m, 5000m, 10000m i 42195m (tzw. maraton). Jako obserwacje przyjąłem rekordowe czasy na wymienionych dystansach w latach olimpijskich, począwszy od 1912 roku, a skończywszy na 2012 roku.

Modelowanie występów lekkoatletów
Niech i-ty wiersz tabeli 1 oznacza dany rok olimpijski (i ∈{1,…,n}, n – liczba olimpiad). Z kolei j-ta kolumna (pomijając pierwszą) dotyczy kolejnych dystansów (j ∈{1,…,m}, m – liczba dystansów).
Wstępna analiza danych nasunęła mi pomysł opisania obserwacji przy pomocy następującego modelu potęgowego dla i-tego roku olimpijskiego
tij = eαi djβi ηij, | (1) |
gdzie:
tij | – rekordowy czas uzyskany w i-tym roku olimpijskim podczas biegu na j-tym dystansie, |
dj | – j-ty dystans, |
αi,βi | – współczyniki modelu potęgowego dla i-tego roku olimpijskiego, |
ηij | – składnik losowy o rozkładzie ηij ∽ lnN(0,σ2), dla ustalonego i ηij są niezależne, |
W tym momencie podstawowym zadaniem stało się znalezienie ocen współczynników αi oraz βi. Okazało się to dużo łatwiejsze po zlogarytmowaniu stronami równania (1). W efekcie, dla każdego i -tego roku olimpijskiego otrzymałem model liniowy
Tij = αi + βiDj + ξij, | (2) |
gdzie:
Tij := ln(tij),Dj := ln(dj),ln(ηij) := ξij. |
Przy pomocy oprogramowania statystycznego R udało mi się znaleźć oceny parametrów α oraz β. Na rysunkach (1a) oraz (1b) widzimy jak zmieniają się wartosci ocen tych współczynników w kolejnych latach olimpijskich.
Przypomnę, że zależało mi na znalezieniu wartości granicznych T∞,j dla każdego z 8 dystansów. Byłoby to łatwiejsze gdybym miał ocenić wartość tylko jednego ze współczynników modelu. Przyjąłem zatem, że dla każdego i ∈{1,…,n}

Wówczas model (2) przyjął następującą alternatywną postać
Tij = A + γiDj + ξij. | (3) |
Z formalnego punktu widzenia model (3) jest modelem zagnieżdżonym w modelu (2). Test ilorazu wiarogodności dla tych dwóch modeli pozwolił mi stwierdzić, że model alternatywny nie jest istotnie gorszy od modelu (2). Dlatego też w dalszej analizie wykorzystałem model alternatywny.
Podobnie jak wcześniej użyłem programu R do znalezienia ocen parametru γ. Na rysunku 2 widać wyraźnie, że kolejne wartość parametru γ tworzą ciąg ściśle malejący. Oczywiście muszą one również być większe od zera albowiem Tij oraz Dj są dodatnie (nawet od jeden – trudno bowiem spodziewać się, żeby sportowcy zaczęli biegać dłuższe dystanse ze średnią prędkością większą niż na krótkich dystansach). Te dwie informacje pozwalają nam stwierdzić, że musi istnieć granica γ∞.
Predykcja granic możliwości lekkoatletów
W tej części pracy podstawowym zadaniem było znalezienie krzywej nieliniowej jak najdokładniej opisującej wartości ocen parametru γ. Mając taką krzywą byłem w stanie wyznaczyć wartość graniczną γ∞. Wprowadziłem następujące oznaczenia:
xi | – zmienna objaśniająca, czyli numer i-tej olimpiady, xi są niezależne, |
yi | – zmienna objaśniana, czyli wartość oceny parametru γi dla i-tej olimpiady, |
φ | – wektor nieznanych parametrów φ = (φ1,…,φp), |
f | – funkcja nieliniowa ze względu na co najmniej jedej parametr φi, |
εi | – składnik losowy o rozkładzie εi ∽N(0,σ2), εi są niezależne. |
Wówczas otrzymałem model nieliniowy nastepującej postaci
yi = f(xi,φ) + εi. |
Wziąłem pod uwagę 7 różnych modeli nieliniowch, z których, jak się okazało, najdokładniej obserwacje γi opisuje model wykładniczy antysymetryczny (3).
Po uwzględnieniu korekty (równanie 4) możemy przedstawić granice możliwośći lekkoatletów na badanych 8 dystansach. Diagnostyka, najlepiej (według malejącej wartości RSS) opisującego oceny parametru γ, modelu wykładniczego antysymetrycznego wykazała, że nie spełnia on wszystkich wymaganych założeń. Dlatego też uznałem, że warto pokazać pewien przedział granic możliwości lekoatletów. Stąd też w tabeli 2 umieściłem również predykcje uzyskane przy pomocy dwóch innych modeli, zajmujących odpowiednio drugie i trzecie miejsce (według malejącej wartości RSS).
Gratulacje dla autora!
Bardzo ciekawe, mam nadzieję, że będą kolejne takie wpisy.
Przyznam, że poziom zaprezentowany w licencjacie p. Witolda przewyższa poziom niektórych artykułów ukazujących się w polskich czasopismach. 🙂
Brawo, ciekawa praca. Pokazuje ścisły związek nauki z praktyką. Zachęcam do kontynuacji obranego kierunku, który ma dobre perspektywy i życzę sukcesów w przyszłości.