Cloudera Hadoop: Erste Schritte mit CDH Distribution



Dieser Edureka-Blog im Cloudera Hadoop Tutorial gibt Ihnen einen vollständigen Einblick in verschiedene Cloudera-Komponenten wie Cloudera Manager, Parcels, Hue usw.

Mit der steigenden Nachfrage nach Big Data und Apache ist HadoopbeimDas Herzstück der Revolution hat die Art und Weise verändert, wie wir die Daten organisieren und berechnen. Die Notwendigkeit für Unternehmen, Hadoop an ihren Geschäftsanforderungen auszurichten, hat die Entstehung der kommerziellen Distributionen angeheizt. Kommerzielle Hadoop-Distributionen sind normalerweise mit Funktionen ausgestattet, die die Bereitstellung von Hadoop optimieren sollen. Cloudera Hadoop Distribution bietet eine skalierbare, flexible und integrierte Plattform, mit der sich schnell wachsende Datenmengen und -varianten in Ihrem Unternehmen einfach verwalten lassen.

In diesem Blog über Cloudera Hadoop Distribution werden wir die folgenden Themen behandeln:





Cloudera Hadoop: Einführung in Hadoop

Hadoop ist ein Open-Source-Framework von Apache, das Big Data in einer verteilten Umgebung speichert und verarbeitetüber dieCluster mit einfachen Programmiermodellen. Hadoop bietet parallele Berechnungen zusätzlich zum verteilten Speicher.Um mehr über Hadoop im Detail zu erfahren von Sie können sich darauf beziehen

Lassen Sie mich nach dieser kurzen Einführung in Hadoop nun die verschiedenen Arten der Hadoop-Distribution erläutern.



Cloudera Hadoop: Hadoop-Distributionen

Da Apache Hadoop Open Source ist, haben viele Unternehmen Distributionen entwickelt, die über den ursprünglichen Open Source-Code hinausgehen. Dies ist sehr ähnlich zu Linux-Distributionen wie RedHat, Fedora und Ubuntu. Jede der Linux-Distributionen unterstützt ihre eigenen Funktionen und Features wie die benutzerfreundliche Benutzeroberfläche in Ubuntu. Ähnlich, roter Hut ist in Unternehmen beliebt, weil es Unterstützung und Ideologie bietet, um nach Belieben Änderungen an jedem Teil des Systems vorzunehmen. Red Hat befreit Sie von Softwarekompatibilitätsproblemen. Dies ist normalerweise ein großes Problem für Benutzerdie von Windows wechseln.

Ebenso gibt es drei Haupttypen von Hadoop-Distributionen, die über eigene Funktionen und Merkmale verfügen und unter dem Basis-HDFS erstellt werden.

Cloudera gegen MapR gegen Hortonworks

Abb: MapR gegen Hortonworks gegen Cloudera

Abb: MapR gegen Hortonworks gegen Cloudera



Cloudera Hadoop Distribution

Cloudera ist der Markttrend im Hadoop-Bereich und der erste, der eine kommerzielle Hadoop-Distribution herausbringt. Es bietet Beratungsdienste an, um die Lücke zwischen „Was bietet Apache Hadoop?“ Und „Was Unternehmen benötigen“ zu schließen.

Cloudera Distribution ist:

  • Schnell fürs Geschäft : Von der Analyse über die Datenwissenschaft bis hin zu allem dazwischen bietet Cloudera die Leistung, die Sie benötigen, um das Potenzial unbegrenzter Daten auszuschöpfen.
  • Erleichtert die Verwaltung von Hadoop : Mit Cloudera Manager können Sie mithilfe automatisierter Assistenten Ihren Cluster unabhängig von der Größe oder der Bereitstellungsumgebung schnell bereitstellen.
  • Ohne Kompromisse sicher: Erfüllt strenge Anforderungen an Datensicherheit und Compliance, ohne die geschäftliche Flexibilität zu beeinträchtigen. Cloudera bietet einen integrierten Ansatz für Datensicherheit und Governance.

Horton-Werke Verteilung

Die Horton-Works-Datenplattform (HDP) ist eine Open-Source-Plattform, mit der Daten aus vielen Quellen und Formaten manövriert werden können. Die Plattform umfasst verschiedene Hadoop-Tools wie das Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive und zusätzliche Komponenten.

Es unterstützt auch Funktionen wie:

  • HDP macht Hive Schneller durch sein neues Stinger-Projekt.
  • HDP vermeidet Lieferantenbindung durch das Versprechen auf eine gegabelte Version von Hadoop.
  • HDP konzentriert sich auf die Verbesserung der Benutzerfreundlichkeit der Hadoop-Plattform.

MapR-Verteilung

MapR ist wie HortonWorks und Cloudera ein plattformorientierter Anbieter von Hadoop-Lösungen. MapR integriert ein eigenes Datenbanksystem, das als MapR-DB bekannt ist, und bietet Hadoop-Distributionsdienste. Es wird behauptet, dass MapR-DB vier- bis siebenmal schneller ist als die Standard-Hadoop-Datenbank, d. H. HBase, die auf anderen Distributionen ausgeführt wird.

Es hat seine faszinierenden Eigenschaften wie:

  • Es ist die einzige Hadoop-Distribution, die Pig, Hive und Sqoop ohne Java-Abhängigkeiten enthält - da sie auf MapR-File System basiert.
  • MapR ist die produktionsfähigste Hadoop-Distribution mit vielen Verbesserungen, die sie benutzerfreundlicher, schneller und zuverlässiger machen.

Lassen Sie uns nun die Cloudera Hadoop-Distribution ausführlich diskutieren.

Abonniere unseren YouTube-Kanal, um neue Updates zu erhalten ...

Cloudera Hadoop: Cloudera Distribution

Cloudera ist der bekannteste Spieler im Hadoop-Bereich, der die erste kommerzielle Hadoop-Distribution veröffentlicht.

Abb: Cloudera Hadoop Distribution

Cloudera Hadoop Distribution unterstützt die folgenden Funktionen:

  1. Clouderas CDH umfasst alle Open Source-Komponenten, zielt auf Bereitstellungen der Enterprise-Klasse ab und ist eine der beliebtesten kommerziellen Hadoop-Distributionen.
  2. Cloudera, bekannt für seine Innovationen, war das erste Angebot SQL für Hadoop mit Impala Abfrage-Engine.
  3. Die Verwaltungskonsole - Cloudera Manager , ist einfach zu bedienen und zu implementieren, da die umfangreiche Benutzeroberfläche alle Clusterinformationen auf organisierte und übersichtliche Weise anzeigt.
  4. In CDH können Sie dem laufenden Cluster ohne Unterbrechung Dienste hinzufügen.
  5. Weitere Ergänzungen von Cloudera sind Sicherheit, Benutzeroberfläche und Schnittstellen für die Integration in Anwendungen von Drittanbietern.
  6. CDH bietet Knotenvorlagen d.h. es ermöglicht die Erstellung einer Gruppe von Knoten in einem Hadoop-Cluster mit unterschiedlicher Konfiguration. Die Verwendung derselben Konfiguration im gesamten Hadoop-Cluster entfällt.
  7. Es unterstützt auch:
    • Verlässlichkeit
      Hadoop-Anbieter reagieren umgehend, wenn ein Fehler erkannt wird. Mit der Absicht, kommerzielle Lösungen stabiler zu machen, werden Patches und Fixes sofort bereitgestellt.
    • Unterstützung
      Die Anbieter von Cloudera Hadoop bieten technische Anleitungen und Unterstützung, die es Kunden erleichtern, Hadoop für Aufgaben auf Unternehmensebene und geschäftskritische Anwendungen einzusetzen.

    • Vollständigkeit
      Hadoop-Anbieter koppeln ihre Distributionen mit verschiedenen anderen Add-On-Tools, mit denen Kunden die Hadoop-Anwendung an ihre spezifischen Aufgaben anpassen können.

Cloudera-Distributionen bieten zwei verschiedene Arten von Editionen.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Betrachten wir nun die Unterschiede zwischen ihnen.

Eigenschaften Cloudera-Express Cloudera-Enterprise
Clusterverwaltung
1. Multi-Cluster-ManagementJaJa
2. RessourcenverwaltungJaJa
Einsatz
1. Unterstützung für CDH 4 und 5JaJa
2. Rollendes Upgrade von CDHNeinJa
Service- und Konfigurationsmanagement
1. Verwalten Sie die Dienste HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark und AccumuloJaJa
2. Rollender Neustart der DiensteNeinJa
Sicherheit
1. LDAP-AuthentifizierungNeinJa
2. SAML-AuthentifizierungNeinJa
Überwachung und Diagnose
1. KrankengeschichteJaJa
Alarmverwaltung
1. Benachrichtigung per E-MailJaJa
2. Benachrichtigung über SNMPNeinJa
Erweiterte Verwaltungsfunktionen
1. Automatisierte Sicherung und WiederherstellungNeinJa
2. Durchsuchen und Suchen von DateienNeinJa
3. MapReduce-, Impala-, HBase- und GarnverwendungsberichteNeinJa

Cloudera Hadoop: Cloudera Manager

Laut Cloudera ist Cloudera Manager der beste Weg dazu Installieren , konfigurieren , verwalten , und Monitor der Hadoop-Stapel.

Es bietet:

  1. Automatisierte Bereitstellung und Konfiguration
  2. Anpassbare Überwachung und Berichterstellung
  3. Mühelose robuste Fehlerbehebung
  4. Wartung ohne Ausfallzeiten

Erfahren Sie mehr über Cloudera Hadoop und seine verschiedenen Tools

Demonstration des Cloudera Managers

Lassen Sie uns den Cloudera Manager erkunden.

1. Die folgende Abbildung zeigt die Anzahl der Dienste, die derzeit im Cloudera Manager ausgeführt werden. Sie können auch die Diagramme zur Cluster-CPU-Auslastung, Festplatten-E / A-Auslastung usw. anzeigen.

Abb: Homepage von Cloudera Manager

2. Das folgende Bild zeigt den HBase-Cluster. Sie erhalten Diagramme und Grafiken zu den Integritätsbedingungen des aktuell ausgeführten HBase REST-Servers.

Abb: Integritätsbedingungen des HBase-Servers

3. Schauen wir uns nun die Registerkarte Instanzen des HBase-Clusters an, auf der Sie den Status und die IP-Konfiguration überprüfen können.

Abb: Status und IP-Adresse des Host-Servers des HBase-Clusters

4. Als nächstes haben Sie die Registerkarte Konfiguration. Hier können Sie alle Konfigurationsparameter sehen und deren Werte ändern.

Abb: Konfiguration des HBase-Clusters

final vs finally vs finalize

Lassen Sie uns nun verstehen, was Pakete in Cloudera sind.

Cloudera Hadoop: Pakete

Ein Paket ist ein binäres Verteilungsformat, das die Programmdateien sowie zusätzliche Metadaten enthält, die von Cloudera Manager verwendet werden.

Pakete sind in sich geschlossen und werden in einem versionierten Verzeichnis installiert. Dies bedeutet, dass mehrere Versionen eines bestimmten Dienstes nebeneinander installiert werden können.

Nachfolgend sind die Vorteile der Verwendung von Parcel aufgeführt:

  • Es stellt die Verteilung von CDH als ein einzelnes Objekt bereit, d. H. Anstatt ein separates Paket für jeden Teil von CDH zu haben, müssen Pakete nur ein einzelnes Objekt installiert werden.

  • Es bietet interne Konsistenz (da das gesamte CDH als einzelnes Paket verteilt wird, sind alle CDH-Komponenten aufeinander abgestimmt und es besteht kein Risiko, dass unterschiedliche Teile aus unterschiedlichen CDH-Versionen stammen).

  • Sie können die Pakete in CDH mit wenigen Klicks installieren, aktualisieren, downgraden, verteilen und aktivieren.

Lassen Sie uns nun sehen, wie Sie den Kafka-Dienst in CDH mithilfe von Paketen installieren und aktivieren.

  1. Gehen Sie zur Cloudera Manager-Homepage >> Hosts >> Pakete wie unten gezeigt

    Abb: Pakete von den Hosts auswählen

2. Wenn Sie Kafka nicht in der Paketliste sehen, können Sie das Paket zur Liste hinzufügen.

  1. Suchen Sie das Paket der Kafka-Version, die Sie verwenden möchten. Wenn Sie es nicht sehen, können Sie das Paket-Repository zur Liste hinzufügen.
  2. Finden Sie das Paket für die Version von Kafka, die Sie installieren möchten - Cloudera-Verteilung von Apache Kafka-Versionen .
    Die folgende Abbildung zeigt dasselbe.

Abb: Repository-Pfad für das Paket.

3. Kopieren Sie den Link wie in der obigen Abbildung gezeigt und fügen Sie ihn wie unten gezeigt zum Remote Parcel Repository hinzu.

Abb: Hinzufügen des Kafka-Pfads aus dem Repository

Vier.Nach dem Hinzufügen des Pfads steht Kafka zum Download bereit. Sie können einfach auf den Download-Button klicken und die Kafka herunterladen.

Abb: Kafka herunterladen

5. Sobald Kafka heruntergeladen wurde, müssen Sie es nur noch verteilen und aktivieren.

Abb: Kafka aktivieren

Sobald es aktiviert ist, können Sie die Kafka auf der Registerkarte 'Dienste' im Cloudera-Manager anzeigen.

Abb: Kafka-Service

Cloudera Hadoop: Erstellen eines Oozie-Workflows

Das Erstellen eines Workflows durch manuelles Schreiben und anschließendes Ausführen des XML-Codes ist kompliziert. Sie können dies verweisen Planen des Oozie-Jobs Blog, um über den traditionellen Ansatz zu wissen.

Sie können das folgende Bild sehen, in dem wir eine XML-Datei geschrieben haben, um einen einfachen Oozie-Workflow zu erstellen. Abb: Erstellen eines Oozie-Workflows nach einem traditionellen Ansatz

Wie Sie selbst sehen können, mussten wir zum Erstellen eines einfachen Oozie-Schedulers großen XML-Code schreiben, der zeitaufwändig ist, und das Debuggen jeder einzelnen Zeile wird umständlich. Um dies zu überwinden, hat Cloudera Manager eine neue Funktion namens eingeführt Farbton Hier finden Sie eine grafische Benutzeroberfläche und einfache Drag & Drop-Funktionen zum Erstellen und Ausführen von Oozie-Workflows.

Lassen Sie uns nun sehen, wie Hue dieselbe Aufgabe auf vereinfachte Weise ausführt.

Bevor Sie einen Workflow erstellen, erstellen Sie zunächst Eingabedateien, d. H. Clickstream.txt und user.txt.
In der Datei user.txt haben wir Benutzer-ID, Name, Alter, Land, Geschlecht wie unten gezeigt. Wir benötigen diese Benutzerdatei, um die Anzahl der Benutzer zu kennen und auf die URL (in der Clickstream-Datei angegeben) basierend auf der Benutzer-ID zu klicken.

Abb: Erstellen einer Textdatei

Um die Anzahl der Klicks des Benutzers auf jede URL zu ermitteln, haben wir einen Clickstream, der die Benutzer-ID und die URL enthält.

Abb: Clickstream-Datei

Schreiben wir die Abfragen in die Skriptdatei.

Abb: Skriptdatei

Nachdem Sie als Nächstes die Benutzerdatei, die Clickstream-Datei und die Skriptdatei erstellt haben, können Sie den Oozie-Workflow erstellen.

1. Sie können den Oozie-Workflow einfach per Drag & Drop verschieben (siehe Abbildung).

Abb: Drag & Drop-Funktion zum Erstellen des Oozie-Workflows

2. Kurz nachdem Sie Ihre Aktion gelöscht haben, müssen Sie die Pfade zur Skriptdatei angeben und die in der Skriptdatei genannten Parameter hinzufügen. Hier müssen Sie die Parameter OUTPUT, CLICKSTREAM und USER hinzufügen und den Pfad zu jedem der Parameter angeben.

Abb: Hinzufügen einer Skriptdatei und der erforderlichen Parameter zum Ausführen der Aktion

3. Nachdem Sie die Pfade angegeben und die Parameter hinzugefügt haben, speichern Sie den Workflow einfach und senden Sie ihn wie in der folgenden Abbildung gezeigt.

Abb: Speichern und Senden der Oozie-Aktion

4. Sobald Sie die Aufgabe eingereicht haben, ist Ihr Auftrag abgeschlossen. Die Ausführung und die anderen Schritte werden von Hue übernommen.

Abb: Ausführungsstatus des Oozie-Jobs

5.Nachdem wir den Oozie-Job ausgeführt haben, werfen wir einen Blick auf die Registerkarte 'Aktion'. Es enthält die Benutzer-ID und den Status des Workflows. Außerdem werden gegebenenfalls Fehlercodes sowie die Start- und Endzeit des Aktionselements angezeigt.

Abb: Elemente auf der Registerkarte 'Aktion' des Oozie-Workflows

6. Neben der Registerkarte Aktion befindet sich die Registerkarte Details. Darin sehen wir die Startzeit und die letzte geänderte Zeit des Jobs.

Abb: Details zum Oozie-Workflow.

7. Neben der Registerkarte Details befindet sich die Registerkarte Konfiguration des Workflows.

Abb: Konfigurationseinstellungen des Oozie-Workflows

7. Wenn während der Ausführung des Aktionselements Fehler auftreten, werden diese auf der Registerkarte Protokoll aufgelistet. Sie können auf die Fehleranweisungen verweisen und sie entsprechend debuggen.

Abb: Protokolldatei mit Fehlercodes und Fehleranweisungen

8. Hier ist der XML-Code des Workflows, der automatisch von Hue generiert wird.

Abb: XML-Code des Oozie-Workflows

9.1. Da Sie den Pfad für das Ausgabeverzeichnis bereits in Schritt 2 angegeben haben, haben Sie hier das Ausgabeverzeichnis im HDFS-Browser, wie unten gezeigt.

Beziehung zwischen Java und Javascript

Abb: Ausgabeverzeichnis des HDFS-Browsers

9.2 Sobald Sie auf das Ausgabeverzeichnis klicken, finden Sie eine Textdatei mit dem Namen output.txt. Diese Textdatei enthält die tatsächliche Ausgabe, wie in der folgenden Abbildung dargestellt.

Abb: Endgültiger Ausgabetext

Auf diese Weise vereinfacht Hue unsere Arbeit, indem es die Drag & Drop-Optionen zum Erstellen eines Oozie-Workflows bereitstellt.

Ich hoffe, dieser Blog war hilfreich, um die Cloudera-Distribution und die verschiedenen Cloudera-Komponenten zu verstehen.

Möchten Sie an der Big Data-Revolution teilnehmen?

Nachdem Sie Cloudera Hadoop Distribution verstanden haben, lesen Sie die von Edureka, einem vertrauenswürdigen Online-Lernunternehmen mit einem Netzwerk von mehr als 250.000 zufriedenen Lernenden auf der ganzen Welt. Der Edureka Big Data Hadoop-Zertifizierungskurs hilft Lernenden, Experten für HDFS, Garn, MapReduce, Schwein, Bienenstock, HBase, Oozie, Flume und Sqoop zu werden. Dabei werden Anwendungsfälle in Echtzeit in den Bereichen Einzelhandel, soziale Medien, Luftfahrt, Tourismus und Finanzen verwendet.

Hast du eine Frage an uns? Bitte erwähnen Sie es in den Kommentaren und wir werden uns bei Ihnen melden.