Sběr dat

Spolehlivé napojení na interní i externí zdroje dat je základním předpokladem pro jejich úspěšnou analýzu a získání v nich ukrytých informací. Naše datové můstky zajistí plynulý tok dat z různých zdrojů do analytických nástrojů.

Zdroje dat

Napojení zdrojů dat na analytických nástroje musí splňovat dvě základní kritéria:

  1. Zajištění stabilního přenosu dat z místa jejich vzniku - rozhraní, které se dokáže spojit s různými informačními systémy a webovými službami (zde je někdy nutné data extrahovat z webových stránek), rozpoznat základní strukturu dat a uložit ji.
  2. Zpracování dat a jejich příprava do formátu vhodného pro další analýzu - rozpoznání typu dat, formátu, kódování dalších parametrů jednotlivých položek a jejich zpracování do strojově zpracovatelné podoby použitelné pro analýzu a strojové učení.

Naše rozhraní se dokáže napojit na běžná interní i externí zdroje dat a obsahuje konfigurovatelné moduly, které umožňují scrapování (extrahování dat) ze zdrojů dat zapsaných v různých značkovacích jazycích.

  • Interní zdroje - informační systémy (CRM, skladový systém, účetní software, systémy pro pro řízení projektů, DMS), logy ze serverů, obsah komunikace (e-maily, SMS), docházka a podobně.
  • Externí zdroje - statistiky návštěvnosti (Google Analytics), reklamní systémy (Google Adwords, Sklik, atd.), veřejné databáze (databáze firem), webové stránky.

Typy získávaných dat

  • Strukturovaná data jsou data, která jsou uložena v přesně definovaných a popsaných datových polích. Když lidé mluví o databázích, mají většinou na mysli právě strukturovaná data. Typickým příkladem je databáze zákazníků, ve které každý záznam tvoří jméno, adresu, číslo účtu a tak dále. Strukturovaná data mají jasný model a popis, a proto je lze dobře ukládat, zpracovávat a analyzovat.
  • Nestrukturovaná data naopak přesně definovanou strukturu nemají. Do této kategorie patří všechna data, která nemají stálou pevně definovanou strukturu, například obrázky, videa, webové stránky nebo obsah e-mailové a či jiné komunikace. Nestrukturovaná data tvoří absolutní většinu generovaný dat a pojem "Velká data" se vztahuje především k nim.
  • Semistrukturovaná data jsou průnikem dvou výše uvedených typů. Jedná se o typ strukturovaných dat bez přesného modelu. Příkladem může být celý e-mail, který se skládá z nestrukturovaných dat -  textového obsahu a příloh, a strukturovaného obsahu - hlavičky mailu s přesně definovanou strukturou a poli (odesilatel, adresát, datum a čas odeslání).

Zašlete nám poptávku

Kontaktní formulář
*
*
*
Ověřovací kód
Ověřovací kód
*
Anglicky