Big data, malé chyby, velký problém

Termín Big data se během několika posledních let dostal snad i mezi amazonské indiány a pro mnohé firmy, média a vědce se stal příslibem nové doby, ve které budou teorie a výpočty nahrazeny pravdou vydestilovanou z oceánu dat. Takové poblouznění však vede k přehlížení častých selhání snah o využití Velkých dat k hledání smysluplných a pravdivých odpovědí.

22. října 2014

Autor: Jan Janča, CEO Gauss Algorithmic Rubrika: Blog

Proč se úžasný příběh o velkých datech lidem tak dobře poslouchá, není těžké pochopit. Představa, že místo úmorného a intelektuálně náročného hledání souvislostí a ověřování teorií pouze vezmeme dostatečně velký soubor dat, která nám po prohnání mašinou samy prozradí svůj smysl, je totiž nesmírně lákavá. Důvěryhodnost příběhu navíc zvyšují i velké firmy, jako je Google, Amazon či IBM, které stály u jeho zrodu.

Když Data promluví

Byl to právě Google, který v roce 2008 zveřejnil svoji předpověď šíření epidemie chřipky založenou na frekvenci hledání výrazů spojených s jejími příznaky a radami jak ji „léčit“. Rychlostí i přesností s jakou Google zachytil nástup a předpověděl rozsah chřipkové epidemie, významně předčil standardní statistické metody založené na zpětném sběru diagnóz stanovených lékaři. Tento úžasný výsledek přitom nebyl výsledkem systematické vědecké práce na teorii šíření infekčních chorob, ale pouhým pohledem statistického stroje na miliony vyhledávaných výrazů. Data promluvila, svět poslouchal.

Pro další příklady úspěšného dolování informací z Velkých dat nemusíme chodit daleko. Amazon dokáže z dat o nákupním chování uživatelů vytáhnout veškeré souvislosti, takže lze jen s velmi malou nadsázkou říci, že ví o přání svých zákazníků dříve, než jim přijdou na mysl. Sklady Amazonu se tak plní v předstihu zbožím, o které bude dle jeho předpovědi v dané lokalitě největší zájem během následujících týdnů, čímž se ušetří miliony dolarů na logistice.

VISA, Mastercard a jiné finanční společnosti zase úspěšně využívají analýzu dat k rozpoznání podvodů s platebními kartami, Facebook i další servery s pomocí dat o chování jeho uživatelů zase cílí reklamu. Efektivitu získávání odpovědí z Velkých dat si nakonec můžete vyzkoušet i sami.

Podívejme se, jak můžeme využít veřejně dostupná data o vyhledávání na Google k zjištění délky oběžné doby Měsíce okolo Země. Zapomeňme na chvíli na znalosti ze základní školy i na to, že si můžeme najít heslo Měsíc ve Wikipedii a soustřeďme se čistě na vyhledávaná slova. Otevřeme si službu Google Trends, vyhledejme frekvenci hledání klíčové fráze „Full moon“, anglicky „úplněk“, a změňme si časové období na posledních 90 dní.

Vrcholy frekvence vyhledávání klíčové fráze jsou od sebe vzdáleny v průměru 30 dní, což je logické, protože vyhledávání souvisí s pozorováním okolních jevů. Bez jediného pohledu na oblohu a znalostí nebeské mechaniky jsme tak zjistili střední délku oběžné doby Měsíce okolo Země.

Pokud máte zájem a vládnete-li angličtinou, můžete si tento a řadu dalších příkladů prohlédnout v úžasné přednášce Petera Norviga „The Unreasonable Effectiveness of Data“, která je dostupná na YouTube.

Když nerozumíme tomu, co data říkají

Popsané úspěchy a zdánlivá jednoduchost s jakou se dají z Velkých dat dostat užitečné informace, vedly datové optimisty k prohlášením, ve kterých oznamovali konec „doby teorií“ a významu klasického „vědeckého myšlení“ při řešení problémů. Nejen, že se hluboce mýlili, ale navíc udělali medvědí službu tomu, čemu se mezi tím začalo z marketingových důvodů říkat místo statistiky „datová věda“.

„Pojmy data a informace jsou, nejen v médiích, často zaměňovány nebo jsou dokonce považovány za synonyma. Ve skutečnosti je však jejich význam velice rozdílný. Data, to jsou nuly a jedničky, které nám samy o sobě neposkytují popis okolního světa. Na základě dat nemůžeme přijímat rozhodnutí, nijak totiž nesnižují naši nejistotu. Oproti tomu informace představují konkrétní popis vlastnosti nebo chování, snižují naši nejistotu při popisu okolního světa, a můžeme na základě nich činit racionální rozhodnutí. Zjednodušeně řečeno, data jsou železná ruda, informace jsou ocel.“

Samotná data nelžou a díky počítačům je dokážeme přimět i mluvit. Porozumět tomu co říkají je však úplně jiná disciplína. Chyby známé statistikům, kteří po staletí zkoumali data malá, totiž nadělají stejnou nebo úměrně větší paseku i při analýze dat velkých. Ze všech nástrah, které na nás při zkoumání dat čekají, se blíže podívejme na tu vůbec nejčastější, záměnu kauzality a korelace.

Kauzalita versus Korelace

Opakování je matka moudrosti, a proto si nejprve řekněme, co oba pojmy znamenají. Kauzalita znamená, že „A“ vede k „B“, tedy v podstatě, že nějaké příčina má jasný následek. Naproti tomu korelace znamená, že „A“ a „B“ se často vyskytuje pohromadě, tedy, že se nějaké jevy či hodnoty vyskytují často spolu. To, že při analýze jakéhokoliv množství dat korelují (objevují se často spolu) nějaké hodnoty ovšem neznamená, že spolu souvisí.

Příkladem jednoduché záměny korelace za kauzalitu je skutečně pozorovaná, a novináři zveřejněná, „závislost“ spotřeby zmrzliny a počtu násilných trestných činů. Tvrzení, že zakoupením zmrzliny způsobujete zvýšení pravděpodobnosti, že vás nebo vaše blízké někdo zavraždí, je však chybné.

Oba jevy, tedy jak spotřeba zmrzliny, tak počet násilných trestných činů jsou závislé na počasí. Pokud svítí slunce a je teplo, prodeje zmrzliny letí vzhůru a zároveň se zvyšuje počet sociálních interakcí mezi lidmi. Pokud je určité procento těchto interakcí násilné, pak se zvýšeným počtem interakcí vzroste i absolutní počet násilných trestných činů.

Jak Tallin vyhodil do vzduchu 12 milionů EUR

Záměny korelace a kauzality však nemusí skončit úsměvně a mohou stát v lepším případě miliony dolarů, v horším případě lidské životy. Zvlášť pokud korelaci používáme k potvrzení našich dopředu vyslovených domněnek. Experty na takové chyby jsou celosvětově politici a ekologové.

Příkladem budiž Tallin, ve kterém se pár chytrých hlav rozhodlo vyřešit problém husté dopravy a kvality ovzduší populárním i papírově efektivním způsobem. Veřejnou dopravou zdarma. Opírali se o korelaci mezi slevou a objemem prodejů, která je skutečně v mnoha případech zároveň kauzalitou.

A jak to dopadlo? Při 23 % růstu nákladů zažila veřejná doprava „ohromující“ 3 % meziroční nárůst přepravených osob, přičemž více než polovinu růstu mělo na svědomí rozšíření linek na dříve neobsluhovaná místa. Snížení hustoty dopravy nebylo pozorováno, znečištění ovzduší nekleslo, naopak mírně vzrostlo. Proč?

V případě osobní dopravy, tedy jízdou autem, platí jiná kauzalita. S růstem životní úrovně a disponibilního příjmu si prostě lidé, ať se to politikům a ekologům líbí nebo ne, kupují více automobilů a preferují je před veřejnou dopravou. Chcete-li snížit počet lidí přepravujících se v osobních automobilech, musíte zdražit jejich používaní, například mýtným pro vjezd do centra města.

Dobře se zeptat je stejně těžké, jako správně odpovědět

Pokud se domníváte, že podobné chyby jsou doménou „hloupých“ novinářů a politiků, pak vás zklamu. Podle výzkumu provedeného na Severovýchodní a Harvardově univerzitě se v posledním roce podobně fatálně mýlil i Google ve své výše popsané předpovědi šíření chřipky. Minimálně v USA se jeho dříve přesná předpověď mýlila ve 100 ze 108 sledovaných týdnů, přičemž v únoru 2013 nadhodnotil skutečný počet případů chřipky hned dvojnásobně.

Ne, Velká data nepřestala fungovat, ale lidé z Google se zapomněli správně ptát. Od roku 2008 se totiž změnilo nejen rozhraní vyhledavače, ale i chování jeho uživatelů a schopnost původního algoritmu úspěšně předpovídat chřipkovou epidemii se vytratila.

Ukazuje se, že tím, jak Google přidal některé klíčové fráze související s předpovědí do našeptavače, a tím, jak změnil způsob, jakým indexuje a vypisuje stránky s informacemi o zdraví, změnil i zvyky uživatelů. Korelace mezi vyhledáváním vytipovaných frází a skutečnou nemocností tak přestala platit. Bude tedy potřeba klasického vědeckého přístupu a zkušených statistiků, aby našli nové, signifikantní korelace a spojili je se skutečným výskytem choroby.

Velká data tedy rozhodně nepřinesla konec teorií a vědeckého myšlení, ale právě naopak. Firmy i státní instituce, které chtějí z dat o zákaznících, výrobě nebo občanech získat smysluplné informace, potřebují více než kdy jindy zkušené statistiky, matematiky a fyziky, kteří je provedou nástrahami, které sebou přináší snaha o porozumění tajemstvím skrytých ve Velkých datech.


Napsáno pro časopis Connect 10/2014.

Sdílejte s přáteli
Anglicky