Obsah:
Video: Crucial MX500 - Dobrý budget 2025
Jedním z nejčastějších a nejkomplikovanějších problémů s daty je chybějící data. Soubory mohou být neúplné, protože záznamy byly odstraněny nebo ukládací zařízení vyplněno. Nebo některá datová pole nemusí obsahovat žádná data pro některé záznamy. První z těchto problémů lze diagnostikovat jednoduchým ověřením počtu záznamů pro soubory. Druhý problém je obtížnější vyřešit.
Jednoduše řečeno, když zjistíte pole obsahující chybějící hodnoty, máte dvě možnosti:
-
Ignorujte to.
-
Nalepte něco v poli.
Ignorování problému
V některých případech můžete jednoduše najít jedno pole s velkým počtem chybějících hodnot. Pokud tomu tak je, nejjednodušší věc je pouze ignorovat pole. Nezahrnujte ji do analýzy.
Dalším způsobem ignorování problému je ignorovat záznam. Jednoduše odstraňte záznam obsahující chybějící data. To může mít smysl, jestliže existuje jen několik záznamů podvodníků. Pokud však existuje více datových polí obsahujících značný počet chybějících hodnot, tento přístup může snížit počet vašich záznamů na nepřijatelnou úroveň.
Další věc, na kterou je třeba se starat předtím, než jednoduše odstraníte záznamy, je nějaký znak vzorku. Předpokládejme například, že analyzujete soubor dat týkajících se zůstatků kreditních karet v celostátním měřítku. Můžete najít celou řadu záznamů, které ukazují $ 0. 00 (asi polovina záznamů). To samo o sobě není známkou chybějících údajů. Nicméně, jestliže všechny záznamy od, řekněme, Kalifornie ukazují $ 0. 00, což indikuje potenciální chybějící hodnoty. A není to jedno, které by bylo užitečné vyřešit odstraněním všech záznamů z největšího státu v zemi. V tomto případě je to pravděpodobně systémový problém a naznačuje, že by měl být vytvořen nový soubor.
Odstranění záznamů je obecně snadné, ale ne ideální řešení problémů s chybějící hodnotou. Pokud je problém poměrně malý a neexistuje žádný rozpoznatelný vzorec opomenutí, pak může být v pořádku, jettison útočných záznamů a pokračovat dál. Často je však zapotřebí většího přístupu.
Vyplnění chybějících dat
Vyplnění chybějících dat znamená, že jste získali vědecký odhad o tom, co by v této oblasti bylo. Existují dobré a špatné způsoby, jak to udělat. Jedním jednoduchým (ale špatným) přístupem je nahradit chybějící hodnoty průměrem těch, které nejsou chybějící. V nečíselných polích můžete být pokoušeni zaplnit chybějící záznamy s nejběžnější hodnotou v ostatních záznamech (režim).
Tyto přístupy jsou bohužel stále často používány v některých obchodních aplikacích.Ale jsou statistici považováni za špatné nápady. Za prvé, celá otázka statistické analýzy je najít data, která odlišují jeden výsledek od druhého. Nahradením všech chybějících záznamů se stejnou hodnotou jste nic nerozlišovali.
Cílem vyššího přístupu je zkusit najít způsob, jak předpovědět smysluplně jakou hodnotu by měla být vyplněna na každém záznamu, který chybí hodnotu. To znamená, že se podíváme na kompletní záznamy a snažíme se nalézt stopy o tom, jaké chybějící hodnoty by mohly být.
Předpokládejme, že analyzujete demografický soubor, který předpovídá pravděpodobné kupce jednoho z vašich produktů. V tomto souboru máte mimo jiné informace o rodinném stavu, počtu dětí a počtu automobilů. Z nějakého důvodu počet polí autos chybí v jedné třetině záznamů.
Analýzou dalších dvou políček - rodinného stavu a počtu dětí - můžete objevit některé vzory. Jediní lidé mají tendenci mít jedno auto. Manželé bez dětí mají tendenci mít dvě auta. Manželé s více než jedním dítětem pravděpodobně budou mít tři auta. Tímto způsobem můžete odhadnout chybějící hodnoty způsobem, který skutečně odlišuje záznamy. Více o tomto příchodu.
Existuje obecný termín ve statistice a zpracování dat, který odkazuje na sporné údaje. Termín hlučný se používá k popisu dat, které jsou nespolehlivé, zkorumpované nebo jinak méně než původní. Chybějící údaje jsou pouze jedním příkladem. Podrobný popis technik pro čištění hlučných dat obecně je mimo rozsah této knihy. Ve skutečnosti jde o aktivní oblast výzkumu v oblasti statistické teorie. Skutečnost, že veškerý hluk není tak snadné, jako chybějící hodnoty, je obtížné řešit.
