Domov Osobní finance Chybějící hodnoty ve vašich datech - figuríny

Chybějící hodnoty ve vašich datech - figuríny

Obsah:

Video: Crucial MX500 - Dobrý budget 2025

Video: Crucial MX500 - Dobrý budget 2025
Anonim

Jedním z nejčastějších a nejkomplikovanějších problémů s daty je chybějící data. Soubory mohou být neúplné, protože záznamy byly odstraněny nebo ukládací zařízení vyplněno. Nebo některá datová pole nemusí obsahovat žádná data pro některé záznamy. První z těchto problémů lze diagnostikovat jednoduchým ověřením počtu záznamů pro soubory. Druhý problém je obtížnější vyřešit.

Jednoduše řečeno, když zjistíte pole obsahující chybějící hodnoty, máte dvě možnosti:

  • Ignorujte to.

  • Nalepte něco v poli.

Ignorování problému

V některých případech můžete jednoduše najít jedno pole s velkým počtem chybějících hodnot. Pokud tomu tak je, nejjednodušší věc je pouze ignorovat pole. Nezahrnujte ji do analýzy.

Dalším způsobem ignorování problému je ignorovat záznam. Jednoduše odstraňte záznam obsahující chybějící data. To může mít smysl, jestliže existuje jen několik záznamů podvodníků. Pokud však existuje více datových polí obsahujících značný počet chybějících hodnot, tento přístup může snížit počet vašich záznamů na nepřijatelnou úroveň.

Další věc, na kterou je třeba se starat předtím, než jednoduše odstraníte záznamy, je nějaký znak vzorku. Předpokládejme například, že analyzujete soubor dat týkajících se zůstatků kreditních karet v celostátním měřítku. Můžete najít celou řadu záznamů, které ukazují $ 0. 00 (asi polovina záznamů). To samo o sobě není známkou chybějících údajů. Nicméně, jestliže všechny záznamy od, řekněme, Kalifornie ukazují $ 0. 00, což indikuje potenciální chybějící hodnoty. A není to jedno, které by bylo užitečné vyřešit odstraněním všech záznamů z největšího státu v zemi. V tomto případě je to pravděpodobně systémový problém a naznačuje, že by měl být vytvořen nový soubor.

Odstranění záznamů je obecně snadné, ale ne ideální řešení problémů s chybějící hodnotou. Pokud je problém poměrně malý a neexistuje žádný rozpoznatelný vzorec opomenutí, pak může být v pořádku, jettison útočných záznamů a pokračovat dál. Často je však zapotřebí většího přístupu.

Vyplnění chybějících dat

Vyplnění chybějících dat znamená, že jste získali vědecký odhad o tom, co by v této oblasti bylo. Existují dobré a špatné způsoby, jak to udělat. Jedním jednoduchým (ale špatným) přístupem je nahradit chybějící hodnoty průměrem těch, které nejsou chybějící. V nečíselných polích můžete být pokoušeni zaplnit chybějící záznamy s nejběžnější hodnotou v ostatních záznamech (režim).

Tyto přístupy jsou bohužel stále často používány v některých obchodních aplikacích.Ale jsou statistici považováni za špatné nápady. Za prvé, celá otázka statistické analýzy je najít data, která odlišují jeden výsledek od druhého. Nahradením všech chybějících záznamů se stejnou hodnotou jste nic nerozlišovali.

Cílem vyššího přístupu je zkusit najít způsob, jak předpovědět smysluplně jakou hodnotu by měla být vyplněna na každém záznamu, který chybí hodnotu. To znamená, že se podíváme na kompletní záznamy a snažíme se nalézt stopy o tom, jaké chybějící hodnoty by mohly být.

Předpokládejme, že analyzujete demografický soubor, který předpovídá pravděpodobné kupce jednoho z vašich produktů. V tomto souboru máte mimo jiné informace o rodinném stavu, počtu dětí a počtu automobilů. Z nějakého důvodu počet polí autos chybí v jedné třetině záznamů.

Analýzou dalších dvou políček - rodinného stavu a počtu dětí - můžete objevit některé vzory. Jediní lidé mají tendenci mít jedno auto. Manželé bez dětí mají tendenci mít dvě auta. Manželé s více než jedním dítětem pravděpodobně budou mít tři auta. Tímto způsobem můžete odhadnout chybějící hodnoty způsobem, který skutečně odlišuje záznamy. Více o tomto příchodu.

Existuje obecný termín ve statistice a zpracování dat, který odkazuje na sporné údaje. Termín hlučný se používá k popisu dat, které jsou nespolehlivé, zkorumpované nebo jinak méně než původní. Chybějící údaje jsou pouze jedním příkladem. Podrobný popis technik pro čištění hlučných dat obecně je mimo rozsah této knihy. Ve skutečnosti jde o aktivní oblast výzkumu v oblasti statistické teorie. Skutečnost, že veškerý hluk není tak snadné, jako chybějící hodnoty, je obtížné řešit.

Chybějící hodnoty ve vašich datech - figuríny

Výběr redakce

Jak přidat vlastní kód jQuery do Adobe Edge Animate CC-dummies

Jak přidat vlastní kód jQuery do Adobe Edge Animate CC-dummies

S jQuery, můžete to udělat v Edge Animate. Využijte plnohodnotných kódovacích panelů, rozhraní API a fóra Adobe pro přidání vlastního kódu do aplikace Edge Animate, aby se vaše projekty dostaly na další úroveň. Můžete přidat Mapy Google, formuláře a umožnit publiku kliknout a přetáhnout obrázky. ...

Podrobnosti o okraji Animace časové osy a ovládacích prvků scény - figuríny

Podrobnosti o okraji Animace časové osy a ovládacích prvků scény - figuríny

Okraj Animate nabízí mnoho způsobů konfigurace Časová osa a fáze; můžete je přizpůsobit podle svých představ. To zahrnuje snadný způsob, jak vystředit plochu, zvětšit plochu, prvky filtru a zapnout nebo vypnout přerušení časové osy. Jemnější ovládací prvky pro scénu a časovou osu zahrnují tyto: Centrování scény: Pokud ...

Přidání spouštěčů na Edge Animate Stage - figuríny

Přidání spouštěčů na Edge Animate Stage - figuríny

Adobe Edge Animate CC umožňuje přidat Stage trigger - v podstatě příkazy, které řídí, jak se animace přehrává. Chcete-li přidat spouštěče Stage, musíte provést řadu kroků v určitém pořadí. Následující postup ukazuje, jak přidávat smyčku do vaší animace prostřednictvím spouštěče Stage.

Výběr redakce

Vyřešení emočního konfliktu ve vašem vztahu - dummy

Vyřešení emočního konfliktu ve vašem vztahu - dummy

Konflikty a argumenty jsou nevyhnutelné ve vztazích; nebudete se vždy s vaším partnerem dohodnout na všechno. Učení, jak pozitivně vyřešit konflikt, nejenže podporuje komunikaci, pomáhá také budování důvěry, štěstí a bezpečnosti ve vztahu. Zde jsou některé způsoby, jak můžete využít emoční inteligenci, aby vám pomohl a ...

Schizofrenie a léky k léčbě duševních chorob

Schizofrenie a léky k léčbě duševních chorob

Schizofrenie je jedna z nejvíce oslabujících a znemožnění všech duševních poruch. Ačkoli pouze 1 procenta Američanů trpí touto chorobou, extrémní myšlenky a chování schizofreniků často vážně ovlivňují i ​​život rodiny a přátele. Příčina schizofrenie není známa, ale většina schizofreniků, kteří podstoupí léčbu, je pomohl ...

Udělejte sebevědomí za svou celistvost - figuríny

Udělejte sebevědomí za svou celistvost - figuríny

Pokud se soudíte pouze svým tělem, Zaměřte se pouze na stranu formuláře a zcela ignorujte látku v této podobě. A co ostatní části vaší osobnosti? Nemají tak záležet? Skvělá krása je definována tím, kdo jste uvnitř - vaše vzrušení pro život, ...

Výběr redakce

ÚSpěšná mamka Blogger Gina Luker - figuríny

ÚSpěšná mamka Blogger Gina Luker - figuríny

Od roku 2007, , rozhodla se více zaměřit na spisovatele. Učte si radu profesorky - píše o tom, co víte - začala se Shabby Chic Cottage na začátku roku 2009. Začala jako digitální zápisník, aby se držel krok s ...

ÚSpěšná matka Blogger Heather Armstrong - figuríny

ÚSpěšná matka Blogger Heather Armstrong - figuríny

Vřesu Armstrong byl jmenován královnou bloggerů maminky Lisou Belkin blog New York Times Motherlode. Málokdy, pokud nějaké, maminky dosáhly takového úspěchu, který Heather udělal s Doocem. Její blog byl první, který si vzal osobní deník a přeměnil ho na ziskové podnikání s blogy. Ale být ...

Technické dovednosti a komunikační dovednosti pro komunitní manažery - figuríny

Technické dovednosti a komunikační dovednosti pro komunitní manažery - figuríny

Lidé, všechny role správce komunit online jsou překvapeni, když zjistili, že komunitní manažeři dělají mnohem víc, než na celém dni. Online technické znalosti komunity manažerů Nemusíte znát těžké kódování, ale pomáhá vám být trochu technicky zdatný, většinou nezávislý ...