Zdroje dat
Napojení zdrojů dat na analytických nástroje musí splňovat dvě základní kritéria:
- Zajištění stabilního přenosu dat z místa jejich vzniku - rozhraní, které se dokáže spojit s různými informačními systémy a webovými službami (zde je někdy nutné data extrahovat z webových stránek), rozpoznat základní strukturu dat a uložit ji.
- Zpracování dat a jejich příprava do formátu vhodného pro další analýzu - rozpoznání typu dat, formátu, kódování dalších parametrů jednotlivých položek a jejich zpracování do strojově zpracovatelné podoby použitelné pro analýzu a strojové učení.
Naše rozhraní se dokáže napojit na běžná interní i externí zdroje dat a obsahuje konfigurovatelné moduly, které umožňují scrapování (extrahování dat) ze zdrojů dat zapsaných v různých značkovacích jazycích.
- Interní zdroje - informační systémy (CRM, skladový systém, účetní software, systémy pro pro řízení projektů, DMS), logy ze serverů, obsah komunikace (e-maily, SMS), docházka a podobně.
- Externí zdroje - statistiky návštěvnosti (Google Analytics), reklamní systémy (Google Adwords, Sklik, atd.), veřejné databáze (databáze firem), webové stránky.
Typy získávaných dat
- Strukturovaná data jsou data, která jsou uložena v přesně definovaných a popsaných datových polích. Když lidé mluví o databázích, mají většinou na mysli právě strukturovaná data. Typickým příkladem je databáze zákazníků, ve které každý záznam tvoří jméno, adresu, číslo účtu a tak dále. Strukturovaná data mají jasný model a popis, a proto je lze dobře ukládat, zpracovávat a analyzovat.
- Nestrukturovaná data naopak přesně definovanou strukturu nemají. Do této kategorie patří všechna data, která nemají stálou pevně definovanou strukturu, například obrázky, videa, webové stránky nebo obsah e-mailové a či jiné komunikace. Nestrukturovaná data tvoří absolutní většinu generovaný dat a pojem "Velká data" se vztahuje především k nim.
- Semistrukturovaná data jsou průnikem dvou výše uvedených typů. Jedná se o typ strukturovaných dat bez přesného modelu. Příkladem může být celý e-mail, který se skládá z nestrukturovaných dat - textového obsahu a příloh, a strukturovaného obsahu - hlavičky mailu s přesně definovanou strukturou a poli (odesilatel, adresát, datum a čas odeslání).