Wie erstelle ich einen Hadoop-Cluster mit Amazon EMR?



In diesem Artikel werden wir den AWS EMR-Service untersuchen und dabei lernen, wie man einen Hadoop-Cluster mit Amazon EMR erstellt.

In diesem Artikel zum Erstellen Cluster Mit Amazon EMR würden wir sehen, wie Hadoop- und Big Data-Anwendungen einfach ausgeführt und skaliert werden können. Die folgenden Hinweise werden in diesem Artikel behandelt:

Weiter mit diesem So erstellen Sie einen Hadoop-Cluster mit Amazon EMR?





Wie erstelle ich einen Hadoop-Cluster mit Amazon EMR?

Wenn wir in Google oder Yahoo nach etwas suchen, erhalten wir die Antwort in Sekundenbruchteilen. Wie ist es möglich, dass Google, Yahoo und andere Suchmaschinen die Ergebnisse so schnell aus dem ständig wachsenden Web zurückgeben? Die Suchmaschinen durchsuchen das Internet, laden die Webseiten herunter und erstellen einen Index wie unten gezeigt. Bei jeder Anfrage von uns verwenden sie den Index, um herauszufinden, welche Webseiten den gesuchten Text enthalten. Wenn wir uns den folgenden Index auf der rechten Seite ansehen, können wir klar erkennen, dass es auf Hadoop Webseiten 1, 2 und 3 gibt.

Bild - So erstellen Sie einen Hadoop-Cluster mit Amazon EMR - EdurekaDann ist die PageRanking-Algorithmus wird verwendet, basierend darauf, wie die Seiten verbunden sind, um herauszufinden, welche Seite oben und welche unten angezeigt werden soll. Im folgenden Szenario ist W1 das 'beliebteste', da jeder darauf verlinkt, und W4 das 'am wenigsten beliebte', da niemand darauf verlinkt. In den Suchergebnissen wird also W1 oben und W4 unten angezeigt.



Mit der Explosion der Webseiten fanden diese Suchmaschinen Herausforderungen, um einen Index zu erstellen und die PageRanking-Berechnungen durchzuführen. Hier fand die Geburt von Hadoop in Yahoo statt und wurde später unter der ASF (Apache Software Foundation) zu FOSS (Freie und Open Source Software). Unter der ASF interessierten sich viele Unternehmen für Hadoop und trugen dazu bei, es zu verbessern. Hadoop war derjenige, der die Big-Data-Revolution startete, aber viele andere Software wie Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra und Flume entwickelten sich weiter, um die Einschränkungen und Lücken in Hadoop zu beseitigen.

Web-Suchmaschinen waren die ersten, die Hadoop verwendeten, aber später entwickelten sich viele Anwendungsfälle, da immer mehr Daten generiert wurden. Nehmen wir das Beispiel einer E-Commerce-Anwendung, mit der dem Benutzer Bücher empfohlen werden. Gemäß dem folgenden Diagramm kaufte Benutzer1 Buch1, Buch2 und Buch3, Benutzer2 kaufte einige Bücher und so weiter. Bei genauerem Hinsehen können wir feststellen, dass Benutzer1 und Benutzer2 einen ähnlichen Geschmack haben wie sie Buch1 und Buch2 gekauft haben. Daher kann Buch3 Benutzer2 und Buch4 Benutzer1 empfohlen werden. Dies wird als kollaboratives Filtern bezeichnet, eine Art Algorithmus für maschinelles Lernen. Wir können das folgende Diagramm umdrehen und ähnliche Bücher erhalten.

Postgraduierten-Zertifikat gegen Meister

In dem oben genannten Fall haben wir einen Index erstellt, PageRanked und dem Benutzer empfohlen. Die Größe der Daten war gering, sodass wir die Daten visualisieren und daraus einige Ergebnisse ableiten konnten. Da die Datenmenge von Tag zu Tag größer und außer Kontrolle gerät, kommen hier Big-Data-Tools wie Hadoop ins Spiel.



Hadoop löst viele Probleme, aber die Installation von Hadoop und anderer Big Data-Software war nie einfach. Es sind viele Konfigurationsparameter zu optimieren, z. B. Integrations-, Installations- und Konfigurationsprobleme. Hier finden Unternehmen wie Cloudera, und Databricks helfen. Sie erleichtern die Installation der Big Data-Software und bieten kommerziellen Support. Nehmen wir beispielsweise an, dass in der Produktion etwas passiert. Amazon EMR (Elastic MapReduce) vereinfacht die Verwendung von Hadoop usw. erheblich. Der Name Elastic MapReduce ist etwas falsch, da EMR auch andere verteilte Computermodelle wie Resilient Distributed Datasets und nicht nur MapReduce unterstützt.

In diesem Lernprogramm erfahren Sie, wie Sie einen EMR-Cluster in der AWS Cloud einrichten. Im nächsten Lernprogramm erfahren Sie, wie Sie Spark, Hive und andere Programme darauf ausführen.

Weiter mit diesem So erstellen Sie einen Hadoop-Cluster mit Amazon EMR?

Demo: Erstellen eines EMR-Clusters in AWS

Schritt 1: Gehen Sie zur EMR Management Console und klicken Sie auf 'Cluster erstellen'. In der Konsole die Metadaten für die Cluster beendet wird auch für zwei Monate kostenlos gespeichert. Dadurch kann der terminierte Cluster geklont und erneut erstellt werden.

Schritt 2 : Klicken Sie im Bildschirm mit den schnellen Optionen auf 'Gehe zu erweiterten Optionen', um weitere Details zum Cluster anzugeben.

Schritt 3: Auf der Registerkarte Erweiterte Optionen können wir verschiedene Software auswählen, die auf dem EMR-Cluster installiert werden soll. Für eine SQL-Schnittstelle kann Hive ausgewählt werden. Für eine Datenflusssprachenschnittstelle kann Pig ausgewählt werden. Für die verteilte Anwendungskoordination kann ZooKeeper ausgewählt werden und so weiter. Auf dieser Registerkarte können wir auch Schritte hinzufügen, was eine optionale Aufgabe ist. Schritte sind Big Data-Verarbeitungsjobs mit MapReduce, Pig, Hive usw. Sie können auf dieser Registerkarte oder später hinzugefügt werden, sobald der Cluster erstellt wurde. Klicken Sie auf 'Weiter', um die für den EMR-Cluster erforderliche Hardware auszuwählen.

Schritt 4: Hadoop folgt der Master-Worker-Architektur, bei der der Master die gesamte Koordination wie das Planen und Zuweisen der Arbeit und das Überprüfen ihres Fortschritts übernimmt, während die Worker die eigentliche Arbeit zum Verarbeiten und Speichern der Daten erledigen. Ein einzelner Master ist ein Single-Point-of-Failure (SPOF). Amazon EMR unterstützt Multi-Master für Hochverfügbarkeit (HA). Im vorherigen Schritt können Sie einen Multi-Master-Cluster in EMR einrichten.

EMR erlaubt zwei Arten von Knoten, Core und Task. Der Kernknoten wird sowohl zum Verarbeiten als auch zum Speichern der Daten verwendet, der Taskknoten wird nur zum Verarbeiten der Daten verwendet. In diesem Tutorial können wir nur einen Core- und keinen Task-Knoten auswählen, da dies für uns weniger Kosten verursacht. Wählen Sie auch Spot-Instanzen Über Auf Anfrage da die Spot-Instanzen billiger sind. Der Haken bei den Spot-Instanzen ist, dass sie von AWS automatisch mit a beendet werden können zwei Minuten im Voraus . Dies ist aus Gründen der Übung und in einigen tatsächlichen Szenarien auch in Ordnung. Spot-Instanzen werden automatisch beendet, da sie gegenüber anderen Instanztypen eine niedrige Priorität haben. Klicken Sie auf 'Weiter'.

Schritt 5: Geben Sie den Clusternamen an. und klicken Sie auf 'Weiter'. Beachten Sie, dass 'Terminierungsschutz' standardmäßig aktiviert ist. Dadurch wird sichergestellt, dass der EMR-Cluster nicht versehentlich gelöscht wird, indem beim Beenden des Clusters einige Schritte ausgeführt werden.

Schritt 6: Auf der Registerkarte werden die verschiedenen Sicherheitsoptionen für den EMR-Cluster angegeben. Das KeyPair muss für die Anmeldung an der EC2-Instanz ausgewählt werden. EMR erstellt automatisch die entsprechenden Rollen und Sicherheitsgruppen und hängt sie an den Master- und den Worker-EC2-Knoten an. Klicken Sie auf 'Cluster erstellen'.

Die Erstellung des Clusters dauert einige Minuten, da die EC2-Instanzen aufgekauft und die verschiedenen Big Data-Softwareprogramme installiert und konfiguriert werden müssen. Anfänglich befindet sich der Clusterstatus im Status 'Start' und wechselt in den Status 'Warten'. Im Status 'Warten' wartet der EMR-Cluster lediglich darauf, dass wir verschiedene Big-Data-Verarbeitungsaufträge wie MR, Spark, Hive usw. senden.

Beachten Sie auch die EC2-Verwaltungskonsole und beachten Sie, dass die Master- und die Worker-EC2-Instanz ausgeführt werden sollten. Dies sind die Spot-Instanzen, die im Rahmen der EMR-Clustererstellung erstellt wurden. Derselbe EC2 kann auch auf der Registerkarte Hardware in der EMR Management Console beobachtet werden. Beachten Sie, dass auf der Registerkarte Hardware der Preis für die Spot EC2-Instanzen mit 0,032 USD / Stunde angegeben wird. Der Preis der Spot-Instanzen ändert sich mit der Zeit ständig und ist viel niedriger als bei der On-Demand-EC2-Preisgestaltung.

php print_r to string

Schritt 7: Nachdem der EMR-Cluster erfolgreich hinzugefügt wurde, können Schritte oder Big Data-Verarbeitungsjobs hinzugefügt werden. Gehen Sie zur Registerkarte 'Schritte', klicken Sie auf 'Schritt hinzufügen' und wählen Sie den Schritttyp (MR, Hive, Spark usw.) aus. Wir werden dasselbe im kommenden Tutorial untersuchen. Klicken Sie zunächst auf Abbrechen.

Schritt 8: Nachdem wir gesehen haben, wie die EMR gestartet wird, wollen wir sehen, wie Sie dieselbe stoppen können.

Schritt 8.1: Klicken Sie auf Beenden.

Schritt 8.2: Wie in den vorherigen Schritten erwähnt, ist 'Terminierungsschutz' für den EMR-Cluster aktiviert und die Schaltfläche 'Beenden' wurde deaktiviert. Klicken Sie auf Ändern.

Was ist eine Instanz in Java

Schritt 8.3: Aktivieren Sie das Optionsfeld „Aus“ und klicken Sie auf das Häkchen. Jetzt sollte die Schaltfläche Beenden aktiviert sein. Dies ist der zusätzliche Schritt, den EMR eingeführt hat, um sicherzustellen, dass der EMR-Cluster nicht versehentlich gelöscht wird.

Beachten Sie, dass sich der EMR-Cluster im Status 'Beenden' befindet und die EC2s beendet werden. Schließlich wird der EMR-Cluster in den Status 'Beendet' versetzt. Von hier aus wird unsere Abrechnung mit AWS gestoppt. Stellen Sie sicher, dass Sie den Cluster beenden, um keine zusätzlichen AWS-Kosten zu verursachen.

Fazit

In diesem Tutorial haben wir gesehen, wie der EMR-Cluster innerhalb weniger Minuten über die Webkonsole (Browser) gestartet wird. Dies kann mithilfe der automatisiert werden , AWS SDK oder mit AWS CloudFormation . Wie bereits erwähnt, kann die Einrichtung eines EMR-Clusters in wenigen Minuten erfolgen und die Big Data-Verarbeitung kann sofort gestartet werden. Sobald die Verarbeitung abgeschlossen ist, kann die Ausgabe in gespeichert werden S3 oder DynamoDB und damit das Herunterfahren des Clusters, um die Abrechnung zu stoppen. Aufgrund dieses Preismodells und der Benutzerfreundlichkeit ist EMR ein großer Erfolg für diejenigen, die die Big Data-Verarbeitung durchführen. Sie müssen keine Server in großer Anzahl kaufen, Lizenzen für die Big Data-Software erwerben und diese warten. “

Das ist es also, Leute, das bringt uns zum Ende dieses Artikels über das Erstellen eines Hadoop-Clusters mit Amazon EMR.Für den Fall, dass Sie Fachwissen in diesem Bereich erwerben möchten, hat Edureka einen Lehrplan erstellt, der genau abdeckt, was Sie benötigen, um die Solution Architect-Prüfung zu bestehen! Sie können sich die Kursdetails für ansehen Ausbildung.

Bei Fragen zu diesem Blog können Sie diese gerne in den Kommentaren unten eintragen. Wir würden uns sehr freuen, Ihnen so früh wie möglich zu antworten.