Video: Impala Hadoop Tutorial | Cloudera Impala Hands On | Hadoop Impala Architecture | COSO IT 2024
Cloudera je přední poskytovatel softwaru a služeb Apache Hadoop na velkém datovém trhu. Stejně jako aplikace Apache Drill se technologie Impala společnosti Cloudera snaží zlepšit dobu odezvy interaktivního dotazu pro uživatele Hadoop. Apache Hive poskytl známému a výkonnému dotazovacímu mechanismu pro uživatele Hadoopu, ale časy odpovědi na dotaz jsou často nepřijatelné kvůli spoléhání se na MapReduce. Clouderova odpověď na tento problém je Impala.
Cloudera vyvinula dotazovací stroj MPP, napsaný v jazyce C ++, který nahradil vrstvu MapReduce pákovou aplikací Apache Hive. Na rozdíl od Dremel a Drill se Cloudera rozhodla, že nativní C ++ MPP engine - namísto Java engine - je odpovědí na rychlé, interaktivní dotazy Hadoop.
Uvědomte si, že Impala používá programovací rozhraní HiveQL a motory Impala Query Exec se nacházejí společně s daty uzlu HDFS v souladu s přístupem Hadoop co-locating data s úlohami zpracování. Impala může také používat HBase jako úložiště dat. V tomto smyslu je Impala rozšířením Apache Hadoop, který poskytuje velmi výkonnou alternativu k modelu Hive-on-top-of-MapReduce.
Cloudera a Twitter vedly vývoj nového formátu souborů Hadoop, který lze použít s Impala a je dostupný jako open source na GitHubu. Formát souboru Parquet poskytuje robustní sloupcové médium pro ukládání dat v Hadoopu. Podporuje vysoce efektivní kompresi a kódování a je účinný pro ukládání vnořených datových struktur.
Můžete nalézt technologii společnosti Impala Cloudera, která byla také inspirována vynálezem firmy Dremel společnosti Google.