Video: How to Install Hadoop on Windows 2025
HDFS je jednou ze dvou hlavních součástí rámce Hadoop; druhá je výpočetní paradigma známá jako MapReduce. distribuovaný souborový systém je souborový systém, který spravuje ukládání v síťovém clusteru počítačů.
HDFS ukládá data do bloků , jejichž výchozí velikost je 64 MB. Soubory, které chcete uložit do formátu HDFS, je třeba rozdělit na bloky velikosti bloků, které jsou pak uloženy nezávisle na celém clusteru. Pomocí příkazu řádku fsck můžete seznam bloků, které tvoří každý soubor v HDFS, takto:
% hadoop fsck / -files -bloky
Protože Hadoop je napsán v jazyce Java, všechny interakce s HDFS jsou spravovány pomocí Java API. Mějte však na paměti, že nemusíte být Java guru pracující se soubory v HDFS. Několik rozhraní Hadoop postavených na rozhraní Java API se nyní běžně používá (a skrývá Java), ale nejjednodušší je rozhraní příkazového řádku; použijte příkazový řádek k interakci s HDFS v uvedených příkladech.
Přístup k shellu souborového systému Hadoop spuštěním jedné formy příkazu hadoop. Všechny příkazy hadoop jsou vyvolány skriptem bin / hadoop. (Chcete-li získat popis všech příkazů hadoop, spusťte hadoopový skript bez zadání argumentů.) Příkaz hadoop má syntaxi
hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]
config confdir přepíše výchozí konfigurační adresář ($ HADOOP_HOME / conf), takže můžete snadno přizpůsobit konfiguraci prostředí Hadoop. Obecné možnosti a možnosti příkazu jsou společnou sadou možností, které jsou podporovány několika příkazy.
Příkazy shellu souborového systému Hadoop (pro rozhraní příkazového řádku) považují za argumenty jednotné identifikátory zdrojů (URI). URI je řetězec znaků, který se používá k identifikaci jména nebo webového zdroje.
Řetězec může obsahovat název schématu - kvalifikátor povahy zdroje dat. U HDFS je název schématu hdfs a pro místní souborový systém je název schématu. Pokud nezadáte název schématu, výchozí je název schématu, který je uveden v konfiguračním souboru. Soubor nebo adresář v HDFS lze zadat plně kvalifikovaným způsobem, například v tomto příkladu:
hdfs: // namenodehost / parent / child
Nebo může být jednoduše / rodič / dítě, do hdfs: // namenodehost.
Příkazy shellu souborového systému Hadoop, které jsou podobné příkazům souborového systému Linux, mají následující obecnou syntaxi:
hadoop hdfs dfs - file_cmd
Čtenáři s některou předchozí zkušeností Hadoop by se mohli zeptat: "Ale co o příkazu hadoop fs?"Příkaz fs je zastaralý ve verzi vydání Hadoop 0. 2, ale stále funguje v Hadoopu 2. Místo toho použijte hdfs dfs.
Jak můžete očekávat, použijete příkaz mkdir k vytvoření adresáře v HDFS, stejně jako u operačních systémů Linux nebo Unix. Ačkoli HDFS má výchozí pracovní adresář, / user / $ USER, kde $ USER je vaše přihlašovací uživatelské jméno, musíte jej vytvořit sami pomocí syntaxe
$ hadoop hdfs dfs -mkdir / user / login_user_name
Chcete-li například vytvořit adresář s názvem "joanna", spusťte tento příkaz mkdir:
$ hadoop hdfs dfs -mkdir / user / joanna
místní souborový systém do formátu HDFS:
$ hadoop hdfs dfs -put jméno_souboru / user / login_user_name
Například kopírovat soubor s názvem data. txt do tohoto nového adresáře, spusťte následující příkaz put:
$ hadoop hdfs dfs -put data. txt / user / joanna
Spusťte příkaz ls pro zobrazení souboru HDFS:
$ hadoop hdfs dfs -ls. Nalezeno 2 položek drwxr-xr-x - joanna supergroup 0 2013-06-30 12: 25 / user / joanna -rw-r- r-- 1 joanna supergroup 118 2013-06-30 12: 15 / user / joanna / data. txt
Seznam souborů se rozděluje podle popisu v tomto seznamu:
-
Sloupec 1 zobrazuje režim souboru ("d" pro adresář a "-" pro normální soubor,. Ty tři typy oprávnění - čtení (r), zápis (w) a spuštění (x) - jsou stejné jako ty, které najdete na systémech Linux a Unix. Oprávnění k provedení souboru je ignorováno, protože v souboru HDFS nelze spustit soubor. Povolení jsou seskupena podle vlastníka, skupiny a veřejnosti (všichni ostatní).
-
Sloupec 2 zobrazuje faktor replikace souborů. (Koncepce replikace se nevztahuje na adresáře.) Bloky, které tvoří soubor v HDFS, jsou replikovány, aby se zajistila tolerance chyb. Replikační faktor , nebo počet replik uložených pro určitý soubor, je konfigurovatelný. Můžete zadat faktor replikace při vytváření souboru nebo později prostřednictvím aplikace.
-
Sloupce 3 a 4 zobrazují soubor vlastník a skupina . Supergroup je jméno skupiny superuserů a superuser je uživatel se stejnou identitou jako proces NameNode. Pokud spustíte NameNode, jste pro tuto chvíli superuser. Jedná se o speciální skupinu - běžní uživatelé budou mít své uživatelské nástroje patří do skupiny bez zvláštních vlastností - skupiny, kterou jednoduše definuje správce Hadoop.
-
Sloupec 5 zobrazuje velikost souboru v bajtech nebo 0, pokud je adresář.
-
Sloupce 6 a 7 zobrazují datum a čas poslední úpravy.
-
Sloupec 8 zobrazuje název bez oprávnění (tj. Název souboru není zadán) souboru nebo adresáře.
Použijte příkaz Hadoop get pro zkopírování souboru z HDFS do místního souborového systému:
$ hadoop hdfs dfs -get jméno_souboru / user / login_user_name
příkaz k odstranění souboru nebo prázdného adresáře:
$ hadoop hdfs dfs -rm jméno_souboru / user / login_user_name
Pomocí příkazu hadoop hdfs dfs -help získáte podrobnou pomoc volba.