Data Science: Od dat k predikci a rozhodování

Data Science: Od dat k predikci a rozhodování
IT Strategie a Řízení – odborný článek redakce Informatika.cz.

Abstrakt: Data science se za poslední dekádu transformovala z výzkumné disciplíny do operativní funkce, na níž závisí klíčová obchodní rozhodnutí. Článek mapuje životní cyklus datového projektu podle metodiky CRISP-DM, popisuje běžné chyby od nevhodného zadání přes data leakage až po zanedbanou validaci férovosti modelů a shrnuje současný technologický stack. Cílem je poskytnout CIO, vedoucím datových týmů a technickým specialistům přehled, který pomáhá rozlišit, kdy data science přináší hodnotu a kdy se mění v nákladný experiment.

1. Úvod: očekávání versus realita

Označení data scientisty za nejatraktivnější profesi 21. století od Harvard Business Review (2012) vyvolalo vlnu náboru, která přetrvává dodnes. Praktická zkušenost ukazuje, že běžně 80 % času zabere příprava a čištění dat, dalších 15 % komunikace výsledků a pouze 5 % vlastní modelování. Hodnota oboru přitom nespočívá v komplikovaných algoritmech, ale ve schopnosti převést data na obchodní rozhodnutí, jejichž dopad lze měřit v penězích, kvalitě služeb nebo regulatorní compliance.

2. CRISP-DM jako základní rámec

Metodika CRISP-DM (Cross-Industry Standard Process for Data Mining) z roku 1996 zůstává funkčním standardem napříč obory. Šest fází (business understanding, data understanding, data preparation, modeling, evaluation, deployment) tvoří iterativní cyklus, nikoli lineární proces.

2.1 Business understanding (10–20 % času)

Nejčastější chybou začínajících týmů je předčasný přechod k modelování. Než lze definovat technické řešení, je nezbytné odpovědět na sadu otázek: Jaký obchodní problém řešíme? Jak je řešen dnes? Jaké jsou metriky úspěchu? Jaká jsou omezení (čas, rozpočet, regulace)? Jak bude výstup použit v praxi a kdo jej bude používat?

Příklad z telekomunikačního sektoru: zadání „snížit churn“ se po analýze ukáže jako problém B2B segmentu, kde ztráta jednoho zákazníka odpovídá řádově stovce zákazníků v B2C. Klíčový není predikční model, ale pochopení důvodů odchodu.

2.2 Data understanding (15–25 % času)

Explorační analýza (EDA) zahrnuje kontrolu rozměrů a paměťové stopy datasetu, distribucí numerických proměnných, korelační analýzu a v případě časových řad i sezónní dekompozici. Standardní stack představují knihovny pandas, numpy, matplotlib, seaborn a statsmodels.

2.3 Data preparation (30–40 % času)

Příprava dat zahrnuje ošetření chybějících hodnot, detekci a řešení outlierů a feature engineering. Každé rozhodnutí o náhradě chybějících hodnot (medián, průměr, interpolace, zachování příznaku missingness) má důsledky pro výsledný model. V praxi přináší největší zlepšení modelů poměrové, historické a behaviorální features – typicky debt-to-income ratio, klouzavé statistiky plateb nebo skóre využití produktu.

2.4 Modeling (10–15 % času)

Doporučený postup je začínat jednoduchým baseline modelem (logistická regrese, většinová třída, doménové pravidlo) a postupně přecházet k ensemble metodám. Pro tabulková data dominují gradient boosting frameworky (LightGBM, XGBoost), deep learning má smysl primárně u textu, obrazu a zvuku.

2.5 Evaluation (10–15 % času)

Samotná hodnota AUC nestačí. Komplexní vyhodnocení zahrnuje business metriky (ROI retenční kampaně, návratnost investice), kontrolu férovosti (disparate impact v pásmu 0,8–1,2 dle EEOC) a stabilitu modelu v čase. Disparitní dopad pod 0,8 indikuje diskriminační efekt, který může vést k regulatorním sankcím.

2.6 Deployment (5–10 % času)

Před produkčním nasazením je nutné ověřit velikost modelu, latenci predikce, paměťovou stopu při zátěži a robustnost vůči nevalidním vstupům. Standardním řešením pro serving je REST API postavené na FastAPI, doplněné o monitoring driftu a verzování modelu.

3. Nejčastější chyby a antipatterny

Data leakage. Použití features, které v okamžiku predikce nejsou dostupné (např. příznak vyšetřování fraudu, který vzniká až po podezření). Vede k uměle vysoké přesnosti v testu a katastrofálnímu výkonu v produkci. Prevencí je důsledné kreslení časové osy dat.

Overfitting na malých datech. Hluboké stromy bez regularizace na stovkách vzorků produkují modely, které nezobecňují. Řešením je omezit hloubku, vynutit minimální velikost listů a snížit počet uvažovaných features (max_features='sqrt').

Ignorování provozních omezení. Model doporučující kontaktovat 10 % zákazníků je nepoužitelný, pokud kontaktní centrum zvládne pouze 2 %. Threshold a kapacita musí být součástí zadání.

Špatná komunikace. Manažerské shrnutí vyžaduje obchodní metriky (počet zachráněných zákazníků, ROI, finanční dopad), nikoli AUC.

4. Technologický stack

Současné prostředí dominuje Python 3.11 s knihovnami pandas, polars (pro střední objemy), scikit-learn a LightGBM. Pro velká data se používají Spark a Dask, pro embedded SQL DuckDB. Tracking experimentů zajišťuje MLflow nebo Weights & Biases. Pro deployment se prosazují FastAPI, BentoML a Seldon Core, monitoring driftu řeší Evidently AI. V cloudu jsou standardem AWS SageMaker, Google Vertex AI a Azure ML Studio.

5. Etika a odpovědnost

Modely zasahující do života lidí (úvěrové scoring, výběr studentů, personální rozhodnutí) musí splňovat tři principy: testování férovosti napříč chráněnými skupinami, transparentnost prostřednictvím vysvětlitelnosti (SHAP, LIME) a zachování lidského dohledu. Připravovaný EU AI Act tyto požadavky převádí do legislativní podoby a u rizikových aplikací je činí povinnými.

6. Trendy 2025–2030

Mezi nejvýraznější očekávané změny patří širší nasazení AutoML pro běžné úlohy, povinná vysvětlitelnost u rizikových modelů, posun od dávkového ke streamovému zpracování a federated learning umožňující trénink bez přesunu dat. Role data scientisty se posouvá od optimalizace algoritmů k formulaci obchodních problémů a jejich převodu do měřitelných výstupů.

Závěr

Data science není o nejlepších algoritmech, ale o schopnosti dodávat měřitelnou hodnotu. Úspěšné týmy rozumí obchodním problémům, komunikují srozumitelně, dodržují metodologickou disciplínu a investují do kvality dat více než do exotických modelů. Pro CIO a vedoucí datových týmů z toho plyne praktické doporučení: investovat primárně do datové infrastruktury, governance a procesů, teprve sekundárně do nejnovějších modelovacích technik.

Zdroje

  • Provost, F., Fawcett, T. (2013): Data Science for Business. O'Reilly.
  • Hastie, T., Tibshirani, R., Friedman, J. (2009): The Elements of Statistical Learning.
  • Géron, A. (2023): Hands-On Machine Learning, 3. vydání. O'Reilly.
  • O'Neil, C. (2016): Weapons of Math Destruction.
  • DORA: State of DevOps Reports.
  • EU AI Act, 2024.

Další z tématu IT Strategie a Řízení

Zobrazit vše