Datová analýza v první linii boje proti tuku

Přichází jaro a chlapci i děvčata se hrnou do posiloven s cílem anihilovat tukové faldíky získané při zimním vysedávání ve vyhřátých restauračních zařízeních. Zajímalo nás, jak úspěšné takové záchvaty hubnutí a sportovní aktivity jsou, a proto jsme se domluvili s nedalekou posilovnou, která své návštěvníky pravidelně proměřuje pomocí přístrojové techniky.

24. března 2015

Autor: Mgr. Jaroslav Vážný Rubrika: Blog

Analýza dat odhadu tělesné kompozice přístrojem inBody230

Ve spolupráci s Spinning&Fitness se nám podařilo získat anonymizovaná data z měření na přístroji inBody230 pro odhad tělesné kompozice. Námi studovaný vzorek obsahuje 1754 měření v průběhu let 2010 — 2015. Samotná problematika odhadu tělesné kompozice pomocí bioelektrické impedance je netriviální problém. Vzhledem k faktu, že data pochází z jednoho přístroje a měření probíhá, díky zkušenému personálu, za relativně kontrolovaných podmínek, lze naměřená data považovat za relevantní a konzistentní. Pochopitelně je třeba si uvědomit, že skladba měřených je pravděpodobně odlišná od běžné populace. Naše závěry tak budou relevantní právě pro tuto skupinu a jim podobných.

Celkové vlastnosti vzorku dat

První graf zobrazuje počty měření v jednotlivých měsících v průběhu let. Lze, vidět že počty měření obsahují periodicitu v rámci roku. To je dáno probíhající soutěží Do Formy se SPINNING&FITNESS.

Datová analýza v první linii boje proti tuku (počty měření) - Gauss Algorithmic

Další série grafů ukazuje podrobnější strukturu námi studovaného vzorku. Z prvního grafu vyplývá, že nejčastěji lidé absolvují pouze jedno měření. Graf na prvním řádku vpravo zobrazuje počty měření za měsíc nezávisle na roce měření. Počty měření mužů a žen jsou ve vzorku zastoupeny relativně homogeně (959/794), stejně tak i počty měření lidí mladších a straších 30 let (893/860).

Datová analýza v první linii boje proti tuku (muži vs. ženy) - Gauss Algorithmic

Charakteristiky lidí ve vzorku

Následující histogramy zobrazují frekvence výskytu hodnot některých parametrů v rámci našeho vzorku. Červená barva označuje ženy, zelená muže. Čárkovou čarou je vyznačena průměrná hodnota pro danou skupinu. Je zajímavé, že vzorek je velmi konzistentní, co se týče věku. Ostatní parametry jsou již pochopitelně závislé na pohlaví. Na tomto grafu také vidíme první chybu v našich datech, věk 120 let, který je v grafu, bude s pravděpodobností hraničící s jistou, omyl.

Datová analýza v první linii boje proti tuku (charakteristika) - Gauss Algorithmic

Korelace

Korelační analýza je velice zajímavá (a záludná) forma pohledu na vztahy mezi jednotlivými parametry. Vyšší číslo (a teplejší barva) znamená vyšší kladnou korelaci, záporná čísla (a studenější barvy) pak korelaci zápornou. I zde jsou pozorovatelné rozdíly mezi pohlavím. Nejvýrazněji pak v souvislosti mezi hmotností a množství kosterního svalstva, která je u mužů 0.85 zatímco u žen 0.71. I toto pozorování se zdá být logické, ale také může jít o artefakt našeho vzorku. V běžné populaci tato souvislost nebude pravděpodobně tak silná.

Datová analýza v první linii boje proti tuku (korelace) - Gauss Algorithmic

Průměrní a prostřední lidé

Aplikací funkcí deskriptivní statistiky ukážeme, jak vypadají extrémní a průměrní lidé našeho vzorku. Následující tabulka ukazuje prostřední (medián), průměrné, maximální a minimální hodnoty parametrů rozdělených podle pohlaví (a hodnoty bez rozdílu pohlaví). Pokud tedy závítáme do SPINNING&FITNESS, nejpravděpodobněji narazíme na ženu mladou 28 let, vysokou 169cm, vážící 67 kg s 29 % tuku v těle. Potkáme-li, muže bude mít 91kg, 32 let, 181cm, 41kg svalů a 21 % tuku.

 

 

Hmotnost [kg]

Věk [roky]

Výška [cm]

Množství kosterního svalstva [kg]

Procento tuku v těle [%]

Index tělesné hmotnosti

Pohlaví

Funkce

 

 

 

 

 

 

Muži

Prostřední

91.20

32.00

181.00

41.60

20.70

27.50

Průměr

94.13

32.64

181.47

41.78

21.42

28.43

Minimální

17.80

6.00

110.00

6.70

3.80

13.10

Odchylka

20.94

10.20

8.84

6.80

8.26

5.47

Maximální

189.70

118.00

202.00

73.80

47.20

52.90

Ženy

Prostřední

67.30

28.00

169.00

26.60

28.95

23.40

Průměr

69.83

32.43

168.87

26.94

29.13

24.51

Minimální

38.90

8.00

140.00

13.90

3.00

15.00

Odchylka

13.79

11.68

6.50

3.82

8.93

4.77

Maximální

152.70

77.00

193.00

45.50

55.50

53.50

Všichni

Prostřední

80.40

30.00

176.00

34.80

24.00

25.80

Průměr

83.13

32.54

175.76

35.06

24.91

26.65

Minimální

17.80

6.00

110.00

6.70

3.00

13.10

Odchylka

21.74

10.89

10.06

9.30

9.39

5.52

Maximální

189.70

118.00

202.00

73.80

55.50

53.50

Tak jde čas

Zajímavé je sledovat vývoj námi sledovaných parametrů v jednotlivých měsích v roce. Vídíme, že se chrakteristiky mění a změny jsou odlišné pro obě pohlaví. Výrazně zasahuje také soutěž, o které jsme psali v úvodu.

Datová analýza v první linii boje proti tuku (vývoj) - Gauss Algorithmic

Odhad algoritmu pro výpočet parametrů

Přístroj funguje tak, že změří impedance různých částí těla při rozdílných frekvencích a za předpokladu, že tuk a svaly mají rozdílné elektrické vlastnosti, dokáže pomocí nám neznámeho algoritmu vypočítat odhad tělesné kompozice. Pomocí strojového učení se můžeme, na základě známých impedancí a výsledků odhadů, pokusit pomocí strojového učení tento algoritmus rekonstruovat. Nedostaneme sice odpověď ve formě analytického vzorce, stále to pro nás bude "black box", ale naučený algoritmus můžeme použít na nová data a pokud bychom měly k dispozici přístroj, který změří impedancanční charakteristiky, jsme schopni parametry získat i bez použítí přístroje inBody230. Jako vstupní parametry použijeme impedance, hmotnost výšku, pohlaví a věk, na základě těchto veličin se pokusíme rekonstruovat procento tuku v těle měřené osoby.

Vzorek dat byl rozdělen na učící a testovací množinu, učení proběhlo pomocí algoritmu Gradient Boosting regression. Na grafu je vidět důležitost parametrů tak, jak je algoritmus použil k předpovědi výstupní hodnoty.

Datová analýza v první linii boje proti tuku (důležitost parametru) - Gauss Algorithmic

Přesnost odhadu procenta tuku v těle pro ženy je 91.65 % a pro muže 95.36 %

Vzhledem k dosažené přesnosti lze konstatovat, že výsledek lze rekonstruovat i bez znalosti skutečného algoritmu, který používá přístroj inBody230.

Sdílejte s přáteli
Anglicky