Abstrakt: Data science se za poslední dekádu transformovala z výzkumné disciplíny do operativní funkce, na níž závisí klíčová obchodní rozhodnutí. Článek mapuje životní cyklus datového projektu podle metodiky CRISP-DM, popisuje běžné chyby od nevhodného zadání přes data leakage až po zanedbanou validaci férovosti modelů a shrnuje současný technologický stack. Cílem je poskytnout CIO, vedoucím datových týmů a technickým specialistům přehled, který pomáhá rozlišit, kdy data science přináší hodnotu a kdy se mění v nákladný experiment.
1. Úvod: očekávání versus realita
Označení data scientisty za nejatraktivnější profesi 21. století od Harvard Business Review (2012) vyvolalo vlnu náboru, která přetrvává dodnes. Praktická zkušenost ukazuje, že běžně 80 % času zabere příprava a čištění dat, dalších 15 % komunikace výsledků a pouze 5 % vlastní modelování. Hodnota oboru přitom nespočívá v komplikovaných algoritmech, ale ve schopnosti převést data na obchodní rozhodnutí, jejichž dopad lze měřit v penězích, kvalitě služeb nebo regulatorní compliance.
2. CRISP-DM jako základní rámec
Metodika CRISP-DM (Cross-Industry Standard Process for Data Mining) z roku 1996 zůstává funkčním standardem napříč obory. Šest fází (business understanding, data understanding, data preparation, modeling, evaluation, deployment) tvoří iterativní cyklus, nikoli lineární proces.
2.1 Business understanding (10–20 % času)
Nejčastější chybou začínajících týmů je předčasný přechod k modelování. Než lze definovat technické řešení, je nezbytné odpovědět na sadu otázek: Jaký obchodní problém řešíme? Jak je řešen dnes? Jaké jsou metriky úspěchu? Jaká jsou omezení (čas, rozpočet, regulace)? Jak bude výstup použit v praxi a kdo jej bude používat?
Příklad z telekomunikačního sektoru: zadání „snížit churn“ se po analýze ukáže jako problém B2B segmentu, kde ztráta jednoho zákazníka odpovídá řádově stovce zákazníků v B2C. Klíčový není predikční model, ale pochopení důvodů odchodu.
2.2 Data understanding (15–25 % času)
Explorační analýza (EDA) zahrnuje kontrolu rozměrů a paměťové stopy datasetu, distribucí numerických proměnných, korelační analýzu a v případě časových řad i sezónní dekompozici. Standardní stack představují knihovny pandas, numpy, matplotlib, seaborn a statsmodels.
2.3 Data preparation (30–40 % času)
Příprava dat zahrnuje ošetření chybějících hodnot, detekci a řešení outlierů a feature engineering. Každé rozhodnutí o náhradě chybějících hodnot (medián, průměr, interpolace, zachování příznaku missingness) má důsledky pro výsledný model. V praxi přináší největší zlepšení modelů poměrové, historické a behaviorální features – typicky debt-to-income ratio, klouzavé statistiky plateb nebo skóre využití produktu.
2.4 Modeling (10–15 % času)
Doporučený postup je začínat jednoduchým baseline modelem (logistická regrese, většinová třída, doménové pravidlo) a postupně přecházet k ensemble metodám. Pro tabulková data dominují gradient boosting frameworky (LightGBM, XGBoost), deep learning má smysl primárně u textu, obrazu a zvuku.
2.5 Evaluation (10–15 % času)
Samotná hodnota AUC nestačí. Komplexní vyhodnocení zahrnuje business metriky (ROI retenční kampaně, návratnost investice), kontrolu férovosti (disparate impact v pásmu 0,8–1,2 dle EEOC) a stabilitu modelu v čase. Disparitní dopad pod 0,8 indikuje diskriminační efekt, který může vést k regulatorním sankcím.
2.6 Deployment (5–10 % času)
Před produkčním nasazením je nutné ověřit velikost modelu, latenci predikce, paměťovou stopu při zátěži a robustnost vůči nevalidním vstupům. Standardním řešením pro serving je REST API postavené na FastAPI, doplněné o monitoring driftu a verzování modelu.
3. Nejčastější chyby a antipatterny
Data leakage. Použití features, které v okamžiku predikce nejsou dostupné (např. příznak vyšetřování fraudu, který vzniká až po podezření). Vede k uměle vysoké přesnosti v testu a katastrofálnímu výkonu v produkci. Prevencí je důsledné kreslení časové osy dat.
Overfitting na malých datech. Hluboké stromy bez regularizace na stovkách vzorků produkují modely, které nezobecňují. Řešením je omezit hloubku, vynutit minimální velikost listů a snížit počet uvažovaných features (max_features='sqrt').
Ignorování provozních omezení. Model doporučující kontaktovat 10 % zákazníků je nepoužitelný, pokud kontaktní centrum zvládne pouze 2 %. Threshold a kapacita musí být součástí zadání.
Špatná komunikace. Manažerské shrnutí vyžaduje obchodní metriky (počet zachráněných zákazníků, ROI, finanční dopad), nikoli AUC.
4. Technologický stack
Současné prostředí dominuje Python 3.11 s knihovnami pandas, polars (pro střední objemy), scikit-learn a LightGBM. Pro velká data se používají Spark a Dask, pro embedded SQL DuckDB. Tracking experimentů zajišťuje MLflow nebo Weights & Biases. Pro deployment se prosazují FastAPI, BentoML a Seldon Core, monitoring driftu řeší Evidently AI. V cloudu jsou standardem AWS SageMaker, Google Vertex AI a Azure ML Studio.
5. Etika a odpovědnost
Modely zasahující do života lidí (úvěrové scoring, výběr studentů, personální rozhodnutí) musí splňovat tři principy: testování férovosti napříč chráněnými skupinami, transparentnost prostřednictvím vysvětlitelnosti (SHAP, LIME) a zachování lidského dohledu. Připravovaný EU AI Act tyto požadavky převádí do legislativní podoby a u rizikových aplikací je činí povinnými.
6. Trendy 2025–2030
Mezi nejvýraznější očekávané změny patří širší nasazení AutoML pro běžné úlohy, povinná vysvětlitelnost u rizikových modelů, posun od dávkového ke streamovému zpracování a federated learning umožňující trénink bez přesunu dat. Role data scientisty se posouvá od optimalizace algoritmů k formulaci obchodních problémů a jejich převodu do měřitelných výstupů.
Závěr
Data science není o nejlepších algoritmech, ale o schopnosti dodávat měřitelnou hodnotu. Úspěšné týmy rozumí obchodním problémům, komunikují srozumitelně, dodržují metodologickou disciplínu a investují do kvality dat více než do exotických modelů. Pro CIO a vedoucí datových týmů z toho plyne praktické doporučení: investovat primárně do datové infrastruktury, governance a procesů, teprve sekundárně do nejnovějších modelovacích technik.
Zdroje
- Provost, F., Fawcett, T. (2013): Data Science for Business. O'Reilly.
- Hastie, T., Tibshirani, R., Friedman, J. (2009): The Elements of Statistical Learning.
- Géron, A. (2023): Hands-On Machine Learning, 3. vydání. O'Reilly.
- O'Neil, C. (2016): Weapons of Math Destruction.
- DORA: State of DevOps Reports.
- EU AI Act, 2024.