Co je to štěstí? Odpověď hledejte s prediktivní analytikou

Obchodní úspěch vždy byl, a do značné míry stále je, dílem štěstí a náhody. Tím se netají ani mnohé podnikatelské celebrity, které se nebojí přiznat, že na počátku jejich úspěchu stála šťastná shoda okolností. Strojové učení a prediktivní analytika ale nabízí něco lepšího než čekání na příležitost, která půjde náhodou kolem. Umožní vám aktivně a úspěšně vyhledávat „vzorec štěstí“ ve vašich datech.

31. března 2015

Autor: Jan Janča Rubrika: Blog

Dříve než se pustíme do popisu prediktivní analytiky a možností jejího využití v businessu, zastavme se na chvíli u otázky z nadpisu tohoto článku. Nebojte se, filozofickou debatu o štěstí rád přenechám jiným, ale myslím, že stojí za to ujasnit si, co to znamená „mít štěstí“ v obchodě.

K úspěchu na trhu teoreticky „stačí“ správně zodpovědět pár elementárních otázek. Komu, kdy, kde, co, za kolik a jak prodat? Štěstí je, pokud se náhodou ocitnete takříkajíc v pravý čas na pravém místě a v ruce držíte něco, o čem si lidé myslí, že to nutně potřebují a jsou za to ochotni pořádně zaplatit. Jinými slovy, „konfigurace“ okolního světa odpovídá vaší aktuální nabídce. Jakýkoliv obchod, bez ohledu na to jak sofistikovaně vypadá, je ve své podstatě právě o schopnosti tuto konfiguraci předvídat a připravit pro ni vhodnou nabídku.

Zapomeňte na jistotu, zvykněte si na pravděpodobnost

Výše uvedené elementární otázky mají jednu zásadní nevýhodu. Jsou vzájemně závislé v čase i prostoru, odpovědi se tak neustále mění a jejich nalezení je proto prakticky neřešitelnou úlohou. Celá věc je navíc o to komplikovanější, že odpovědi potřebujeme předvídat s určitým předstihem, abychom stihli odpovídajícím způsobem upravit nabídku.

Hned na začátku se si tedy musíme přiznat, že přesné řešení takové úlohy nedokážeme nalézt a zaměřit se na metody, s jejichž pomocí získáme alespoň odpovědi nejpravděpodobnější, tedy takové, které nejvíce omezí, ale zcela neodstraní, naši nejistotu a riziko při rozhodování o tom, jak má vypadat naše „zítřejší“ nabídka. Právě takovou metodou je prediktivní analytika, která spojuje výhody staré dobré statistiky a nové poznatky v oblasti strojového učení k nahlížení do budoucnosti.

Jak hledat „štěstí v datech“ a předpovídat budoucnost?

Těžko. Musíte vědět, na co se ptáte, což je mnohem komplikovanější než se na první pohled může zdát, musíte mít data, jež kýžené odpovědi skutečně obsahují, což není samozřejmostí, a v neposlední řadě potřebujete odpovídající technologie a znalosti.

Ze všech potřebných věcí jsou nejsnadněji dostupná data, která se poflakují po firemních serverech, ale i na internetu nebo na serverech dodavatelů. V typické firmě, tedy s největší pravděpodobností i u vás, jsou běžně dostupná data o návštěvnosti webu, prodeji zboží a služeb, skladovém hospodářství a platební morálce a chování zákazníků. A právě na takových datech si také ukážeme postup přípravy prediktivního modelu, který bude schopen „předvídat“ množství prodaného určitého typu zboží v čase při měnící se ceně.

Vezměme tedy za hotovou věc, že víme, na co se ptáme, máme k dispozici data vhodná pro vytvoření prediktivního modelu, a že jsem expert, (kolegové z našeho výzkumného oddělení právě padají ze židle), který za vás obstará potřebné technologie a odbornou práci.

Deskriptivní analýza, zjišťování „obsahu štěstí“ v datech

Dříve než se pustíme do vytváření samotného modelu, musíme zjistit, zdali data vůbec nějaké smysluplné informace obsahují. K tomu nám poslouží něco vizualizací, statistika a schopnost počítačů zpracovávat velké množství dat, odhalovat v nich opakující se vzory chování, vzájemné podobnosti (segmenty) a souvislosti mezi jednotlivými proměnnými.

Naše vzorová data obsahují informace o každé obchodní transakci, a s trochou snahy z nich tedy můžeme získat množství prodaných typů zboží za den a jejich cenu, společně s informacemi o zákaznicích a to za tři roky. Z takových dat zjistíme například, které typy zboží se prodávají společně (navzájem se doplňují jako boty a tkaničky) nebo jak se množství prodaných kusů mění v čase a v prostoru.

Graf č. 1 – Korelace prodejů různých typů zboží
Prediktivní analytika (korelace prodejů různých typů zboží) - Gauss Algorithmic

Čím vyšší kladné číslo, tím více se zboží prodává společně, čím vyšší záporné, tím méně.

Graf č. 2 – závislost počtu prodaných kusů na ceně a čase
Prediktivní analytika (závislost počtu prodaných kusů na ceně a čase) - Gauss Algorithmic

Závislost mezi cenou a počtem prodaných kusů není konstantní, v průběhu roku se mění podle poptávky (například plavky v květnu prodáte snáze i za vyšší cenu než v září, kdy už má většina zákazníků nakoupíno i vyčvachtáno).

Často může být užitečné obohatit vlastní data o „půjčené“ externí databáze, jež jsou dostupné třeba na internetu. Můžeme tak zkoumat jak obchod ovlivňují změny okolních podmínek. V našem případě použijeme databáze záznamů o počasí v ČR (třeba se nějaké zboží prodává spíše, když mrzne nebo je teplo) a disponibilních příjmů v krajích (zajímá nás nejen geografická distribuce prodejů, ale jak velkou část ze svých volných prostředků u nás zákazníci zanechají).

Graf č. 3 – závislost prodejů zboží na počasí a místě bydliště
Prediktivní analytika (závislost prodejů zboží na počasí a místě bydliště) - Gauss Algorithmic

Stejně tak bychom mohli sledovat i údaje o cenách konkurence, marketingových investicích a tak dále, ale to už by byl jiný, mnohem složitější příklad.

Hledání nejméně špatného modelu

Z vybraných grafů a jejich popisu je patrné, že naše data nějaké to „štěstí“ v podobě různých v čase se měnících závislostí a opakujících se vzorů obsahuje. Předhoďme je tedy počítači, aby v nich našel a naučil se hledat vzorce chování, umožňující odhadnout budoucí vývoj. Data rozdělíme na dvě části. První použijeme k učení a vytváření prediktivního modelu a druhou pak ke kontrole jeho přesnosti.

V našem vzorovém příkladu data představují spojitou tříletou řadu obchodních transakcí, a proto necháme počítač učit na prvních dvou letech a k testování použijeme rok třetí. Po počítači chceme, aby se naučil předpovídat počet prodaných kusů určitého typu zboží v určitý den v případě, že zná cenu. Výsledný model tedy bude fungovat jako jednoduchý automat, do kterého vložíme datum a cenu zboží a on nám vrátí pravděpodobný počet prodaných kusů.

Prediktivní analytika - Gauss Algorithmic

Nejlepší z modelů dosáhl na testovacích datech 80% úspěšnosti, což znamená, že se mýlil jen ve 20 % případů. V 8 z 10 případů jsme tedy schopni dopředu nastavit cenu zboží tak, abychom maximalizovali zisk, tržby nebo počet prodaných kusů, podle toho, kterou z těchto strategií budeme sledovat.

Podstatnou vlastností takto konstruovaného prediktivního modelu je jeho automatická aktualizace na základě nově příchozích dat. I když to není univerzální pravidlo, významnost dat pro předpověď většinou klesá s jejich stářím. Je tedy na místě model aktualizovat o nejnovější data tak, aby předpověď na zítřek vycházela již ze včerejších dat.

Paretovo pravidlo v datové analytice

Stejně jako v ekonomii platí i v datové analytice pravidlo, že 80 % důležitých výsledků, které mají potenciál vydělat vám peníze, vychází z 20 % analýz. Podstatné tedy není kolik grafů a tabulek připravíte, ale jaké analýzy provedete a zdali jste schopni správně formulovat otázky. Dnešní popularita nástrojů umožňujících snadné generování vizualizací a rychle zastarávajících statických modelů, u lidí, kteří nemají základní průpravu ve statistice a zpracování dat, bohužel vede ke špatným koncům a diskreditaci celého oboru. Datovou vědu totiž nahrazují omalovánky „datové vědičky“.

„Pozor na homeopatickou statistiku. Množství informace uložené v určitém množství dat je konečné, někdy dokonce zcela nepatrné, a nijak nesouvisí s množstvím z nich vygenerovaných grafů a tabulek. Právě naopak, podstatné informace v nich mohou být tak naředěny, že je jejich nalezení stejně pravděpodobné jako předávkování homeopatickými prášky na spaní. Dejte si proto pozor na systémy, umožňující bezmyšlenkovité generování univerzálních předpřipravených reportů a nejprve se poraďte s někým, kdo se alespoň trošku vyzná ve statistice.“

Pokora a opatrnost vždy až na prvním místě

Výše uvedený postup je samozřejmě velkým, a místy i stěží přípustným, zjednodušením postupů prediktivní analytiky. Zamlčel jsem, že tak 80 % času strávíte přípravou a úpravou dat do použitelného tvaru, že vás čeká řada hořkých zklamání i radosti nad falešně pozitivními výsledky a mnoho dalších problémů. Nechtěl jsem vás strašit, chtěl jsem vás nadchnout pro možnost využít strojového učení k zlepšení výkonosti vaší firmy.

Na druhou stranu bych vás chtěl závěrem varovat před přílišným sebevědomím, které přijde s prvními úspěchy. Přestat kriticky myslet, být zaslepen jedním naučeným postupem a slepě ho aplikovat bez ohledu na to, zdali je vhodný či ne, vás spolehlivě dovede do problémů. Jak říká kolega: „Nebezpečí spočívá v tom, že se naučíte ovládat kladivo a naráz se pro vás všechny předměty v okolí promění v hřebík.“.

Sdílejte s přáteli
Anglicky