Video: Execute Jars and Python scripts on Azure Databricks using Data Factory | Azure Friday 2025
Naučte se počítat objekty v proudu vám pomůže nalézt nejčastější předměty nebo klasifikovat obvyklé a neobvyklé události. Tento algoritmus využívá funkce hash a přibližné náčrty. Dělá to po filtrování duplicitních objektů a počítání různých prvků, které se objevily v datovém toku.
Tuto techniku používáte k vyřešení problémů, jako je nalezení nejčastějších dotazů ve vyhledávači, nejprodávanější položky od online prodejce, vysoce oblíbené stránky na webu nebo nejvíce volatilní akcie (počítáním času, kdy je zásoba prodané a koupené).
Řešení tohoto problému použijete, Count-Min Sketch, do datového toku. Vyžaduje pouze jeden průchod dat a uchovává co nejméně informací. Tento algoritmus se používá v mnoha situacích v reálném světě (například analýza síťového provozu nebo řízení distribuovaných datových toků). Recept vyžaduje použití spousty hashových funkcí, každá spojená s bitovým vektorem, způsobem, který se podobá filmu Bloom, jak je znázorněno na obrázku:
- Inicializujte všechny bitové vektory na nuly ve všech pozicích.
- Při přijímání objektu z proudu použijte funkci hash pro každý bitový vektor. Použijte výslednou číselnou adresu pro zvýšení hodnoty v této pozici.
- Aplikujte funkci hash na objekt a načtěte hodnotu na přidružené pozici při požadavku na odhad frekvence objektu. Ze všech hodnot přijatých od bitových vektorů se nejčastěji používáte jako frekvenci proudu.
Protože srážky jsou vždy možné při použití hashové funkce, zvláště pokud přidružený bitový vektor má málo slotů, má několik bitových vektorů po ruce, ujišťuje vás, že alespoň jeden z nich udržuje správnou hodnotu. Hodnota volby by měla být nejmenší, protože není spojena s falešnými pozitivními počty kvůli kolizím.
