Hadoop installieren: Einrichten eines Hadoop-Clusters mit einem einzelnen Knoten



Dieses Tutorial ist eine schrittweise Anleitung zum Installieren und Konfigurieren des Hadoop-Clusters auf einem einzelnen Knoten. Alle Hadoop-Installationsschritte gelten für CentOS-Computer.

Hadoop installieren: Einrichten eines Hadoop-Clusters mit einem einzelnen Knoten

Von unseren vorherigen Blogs an Sie müssen eine theoretische Vorstellung von Hadoop, HDFS und seiner Architektur haben.Aber zu bekommen Sie brauchen gute praktische Kenntnisse.Ich hoffe dir hätte unser vorheriger Blog auf gefallen Jetzt werde ich Sie durch das praktische Wissen über Hadoop und HDFS führen. Der erste Schritt ist die Installation von Hadoop.

Es gibt zwei Möglichkeiten, Hadoop zu installieren, d. H. Einzelner Knoten und Multi-Knoten .





Einzelknotencluster bedeutet, dass nur ein DataNode ausgeführt wird und alle NameNode, DataNode, ResourceManager und NodeManager auf einem einzelnen Computer eingerichtet werden. Dies wird zu Studien- und Testzwecken verwendet. Betrachten wir zum Beispiel einen Beispieldatensatz innerhalb einer Gesundheitsbranche. Um zu testen, ob die Oozie-Jobs alle Prozesse wie das Sammeln, Aggregieren, Speichern und Verarbeiten der Daten in einer richtigen Reihenfolge geplant haben, verwenden wir einen einzelnen Knotencluster. Es kann den sequentiellen Workflow in einer kleineren Umgebung einfach und effizient testen, verglichen mit großen Umgebungen, die Terabyte an Daten enthalten, die auf Hunderte von Computern verteilt sind.

Während in einem Cluster mit mehreren Knoten Es wird mehr als ein DataNode ausgeführt, und jeder DataNode wird auf verschiedenen Computern ausgeführt. Der Multi-Node-Cluster wird praktisch in Organisationen zur Analyse von Big Data verwendet. In Anbetracht des obigen Beispiels muss es in Echtzeit, wenn wir mit Petabytes an Daten arbeiten, auf Hunderte von Maschinen verteilt werden, um verarbeitet zu werden. Daher verwenden wir hier einen Multi-Node-Cluster.



In diesem Blog werde ich Ihnen zeigen, wie Sie Hadoop auf einem einzelnen Knotencluster installieren.

Voraussetzungen

  • VIRTUELLE BOX : wird zur Installation des Betriebssystems verwendet.
  • BETRIEBSSYSTEM : Sie können Hadoop auf Linux-basierten Betriebssystemen installieren. Ubuntu und CentOS werden sehr häufig verwendet. In diesem Tutorial verwenden wir CentOS.
  • JAVA : Sie müssen das Java 8-Paket auf Ihrem System installieren.
  • HADOOP : Sie benötigen das Hadoop 2.7.3-Paket.

Installieren Sie Hadoop

Schritt 1: Klick hier um das Java 8-Paket herunterzuladen. Speichern Sie diese Datei in Ihrem Home-Verzeichnis.

Schritt 2: Extrahieren Sie die Java Tar-Datei.

Befehl :: tar -xvf jdk-8u101-linux-i586.tar.gz

Java verschmieren - Hadoop - Edureka installieren



Abb: Hadoop-Installation - Extrahieren von Java-Dateien

Schritt 3: Laden Sie das Hadoop 2.7.3-Paket herunter.

Befehl :: wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Abb: Hadoop-Installation - Herunterladen von Hadoop

Schritt 4: Extrahieren Sie die Hadoop-TAR-Datei.

Befehl : tar -xvf hadoop-2.7.3.tar.gz

Abb: Hadoop-Installation - Extrahieren von Hadoop-Dateien

Schritt 5: Fügen Sie die Hadoop- und Java-Pfade in die Bash-Datei (.bashrc) ein.

Öffnen . bashrc Datei. Fügen Sie nun Hadoop und Java Path wie unten gezeigt hinzu.

Befehl :: vi .bashrc

Abb: Hadoop-Installation - Umgebungsvariable einstellen

Speichern Sie dann die Bash-Datei und schließen Sie sie.

Führen Sie den Quellbefehl aus, um alle diese Änderungen auf das aktuelle Terminal anzuwenden.

Befehl :: Quelle .bashrc

Abb: Hadoop-Installation - Aktualisieren von Umgebungsvariablen

Um sicherzustellen, dass Java und Hadoop ordnungsgemäß auf Ihrem System installiert wurden und über das Terminal aufgerufen werden können, zFühren Sie die Befehle java -version und hadoop version aus.

Befehl :: Java-Ausführung

Abb: Hadoop-Installation - Überprüfen der Java-Version

Befehl :: HadoopAusführung

Abb: Hadoop-Installation - Überprüfen der Hadoop-Version

Schritt 6 :: Bearbeiten Sie die .

Befehl: cd hadoop-2.7.3 / etc / hadoop /

wie man ein Ingenieur für künstliche Intelligenz wird

Befehl: ls

Alle Hadoop-Konfigurationsdateien befinden sich in hadoop-2.7.3 / etc / hadoop Verzeichnis, wie Sie im folgenden Schnappschuss sehen können:

Abb: Hadoop-Installation - Hadoop-Konfigurationsdateien

Schritt 7 :: Öffnen core-site.xml und bearbeiten Sie die unten genannte Eigenschaft im Konfigurations-Tag:

core-site.xml informiert den Hadoop-Daemon darüber, wo NameNode im Cluster ausgeführt wird. Es enthält Konfigurationseinstellungen des Hadoop-Kerns, z. B. E / A-Einstellungen, die für HDFS und MapReduce gelten.

Befehl :: vi core-site.xml

Abb: Hadoop-Installation - Konfigurieren von core-site.xml

fs.default.name hdfs: // localhost: 9000

Schritt 8: Bearbeiten hdfs-site.xml und bearbeiten Sie die unten genannte Eigenschaft im Konfigurations-Tag:

hdfs-site.xml enthält Konfigurationseinstellungen von HDFS-Dämonen (d. h. NameNode, DataNode, Secondary NameNode). Es enthält auch den Replikationsfaktor und die Blockgröße von HDFS.

Befehl :: vi hdfs-site.xml

Abb: Hadoop-Installation - Konfigurieren von hdfs-site.xml

dfs.replication 1 dfs.permission false

Schritt 9 :: Bearbeiten Sie die mapred-site.xml Datei und bearbeiten Sie die unten genannte Eigenschaft im Konfigurations-Tag:

mapred-site.xml Enthält Konfigurationseinstellungen der MapReduce-Anwendung wie die Anzahl der parallel laufenden JVM, die Größe des Mapper- und des Reduzierungsprozesses, die für einen Prozess verfügbaren CPU-Kerne usw.

In einigen Fällen ist die Datei mapred-site.xml nicht verfügbar. Also müssen wir die Datei mapred-site.xml erstellenVerwenden der Vorlage mapred-site.xml.

Befehl :: cp mapred-site.xml.template mapred-site.xml

Befehl :: wir mapred-Seite? ˅.xml.

Abb: Hadoop-Installation - Konfigurieren von mapred-site.xml

mapreduce.framework.name Garn

Schritt 10: Bearbeiten yarn-site.xml und bearbeiten Sie die unten genannte Eigenschaft im Konfigurations-Tag:

yarn-site.xml Enthält Konfigurationseinstellungen von ResourceManager und NodeManager wie die Größe der Anwendungsspeicherverwaltung, die für Programm und Algorithmus erforderliche Operation usw.

Befehl :: vi yarn-site.xml

Abb: Hadoop-Installation - Konfigurieren von yarn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Schritt 11: Bearbeiten hadoop-env.sh und fügen Sie den Java-Pfad wie folgt hinzu:

hadoop-env.sh enthält die Umgebungsvariablen, die im Skript zum Ausführen von Hadoop verwendet werden, z. B. Java-Home-Pfad usw.

Befehl :: wir Hadoop- -env.Sch

Abb: Hadoop-Installation - Konfigurieren von hadoop-env.sh

Schritt 12: Gehen Sie zum Hadoop-Ausgangsverzeichnis und formatieren Sie den NameNode.

Befehl :: CD

Befehl :: cd hadoop-2.7.3

Befehl :: bin / hadoop Zweck-Format

wie man ein Array c ++ sortiert

Abb: Hadoop-Installation - Formatieren von NameNode

Dies formatiert das HDFS über NameNode. Dieser Befehl wird nur zum ersten Mal ausgeführt. Das Formatieren des Dateisystems bedeutet das Initialisieren des Verzeichnisses, das durch die Variable dfs.name.dir angegeben wird.

Formatieren und betreiben Sie niemals das Hadoop-Dateisystem. Sie verlieren alle Ihre im HDFS gespeicherten Daten.

Schritt 13: Sobald der NameNode formatiert ist, wechseln Sie in das Verzeichnis hadoop-2.7.3 / sbin und starten Sie alle Daemons.

Befehl: cd hadoop-2.7.3 / sbin

Entweder können Sie alle Dämonen mit einem einzigen Befehl starten oder einzeln ausführen.

Befehl: ./ start-all.sh

Der obige Befehl ist eine Kombination aus start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

Oder Sie können alle Dienste einzeln wie folgt ausführen:

Starten Sie NameNode:

Der NameNode ist das Herzstück eines HDFS-Dateisystems. Es behält den Verzeichnisbaum aller im HDFS gespeicherten Dateien bei und verfolgt alle im Cluster gespeicherten Dateien.

Befehl: ./hadoop-daemon.sh Startzweck

Abb: Hadoop-Installation - Starten von NameNode

Starten Sie DataNode:

Beim Start stellt ein DataNode eine Verbindung zum Namenode her und antwortet auf die Anforderungen des Namenode für verschiedene Vorgänge.

Befehl: ./hadoop-daemon.sh startet den Datenknoten

Abb: Hadoop-Installation - Starten von DataNode

Starten Sie ResourceManager:

ResourceManager ist der Master, der alle verfügbaren Clusterressourcen vermittelt und somit bei der Verwaltung der verteilten Anwendungen hilft, die auf dem YARN-System ausgeführt werden. Seine Aufgabe besteht darin, jeden NodeManager und den ApplicationMaster jeder Anwendung zu verwalten.

Befehl: ./Garn-daemon.sh resourcemanager starten

Abb: Hadoop-Installation - Starten von ResourceManager

Starten Sie NodeManager:

Der NodeManager in jedem Maschinenframework ist der Agent, der für die Verwaltung der Container, die Überwachung ihrer Ressourcennutzung und die Berichterstellung an den ResourceManager verantwortlich ist.

Befehl: ./Garn-daemon.sh nodemanager starten

Abb: Hadoop-Installation - Starten von NodeManager

Starten Sie JobHistoryServer:

JobHistoryServer ist für die Bearbeitung aller Anforderungen an den Jobverlauf vom Client verantwortlich.

Befehl :: ./mr-jobhistory-daemon.sh Historyserver starten

Schritt 14: Führen Sie den folgenden Befehl aus, um zu überprüfen, ob alle Hadoop-Dienste ausgeführt werden.

Befehl: jps

Abb: Hadoop-Installation - Überprüfen von Dämonen

Schritt 15: Öffnen Sie nun den Mozilla-Browser und gehen Sie zu localhost :: 50070 / dfshealth.html um die NameNode-Schnittstelle zu überprüfen.

Abb: Hadoop-Installation - Starten der WebUI

Herzlichen Glückwunsch, Sie haben erfolgreich einen Hadoop-Cluster mit einem Knoten auf einmal installiert.In unserem nächsten Blog von Wir werden uns auch mit der Installation von Hadoop auf einem Cluster mit mehreren Knoten befassen.

Nachdem Sie die Installation von Hadoop verstanden haben, lesen Sie die von Edureka, einem vertrauenswürdigen Online-Lernunternehmen mit einem Netzwerk von mehr als 250.000 zufriedenen Lernenden auf der ganzen Welt. Der Edureka Big Data Hadoop-Zertifizierungskurs hilft Lernenden, Experten für HDFS, Garn, MapReduce, Schwein, Bienenstock, HBase, Oozie, Flume und Sqoop zu werden. Dabei werden Anwendungsfälle in Echtzeit in den Bereichen Einzelhandel, soziale Medien, Luftfahrt, Tourismus und Finanzen verwendet.

Hast du eine Frage an uns? Bitte erwähnen Sie es in den Kommentaren und wir werden uns bei Ihnen melden.