Hadoop 2.0 - Häufig gestellte Fragen



Das Interesse an Hadoop hat sich in den letzten Jahren vervielfacht. Dieser Beitrag beantwortet Ihre Fragen und beseitigt viele Zweifel an Hadoop 2.0 und seiner Verwendung.

Dies ist ein Follow-up-Beitrag mit Antwort auf häufig gestellte Fragen während des öffentlichen Webinars von edureka! auf .

Unterschied zwischen veränderlich und unveränderlich

Häufig gestellte Fragen zu Hadoop

Deepak::





Was ist Hadoop?
Apache Hadoop ist ein Open Source-Software-Framework für die Speicherung und Verarbeitung von Datensätzen in großem Maßstab auf Clustern von Standardhardware. Es handelt sich um ein Open Source Data Management-Software-Framework mit Scale-Out-Speicher und verteilter Verarbeitung. Es wird von einer globalen Community von Mitwirkenden und Benutzern erstellt und verwendet.

Lesen Sie mehr in unserem Hadoop-Blogbeitrag und .



Suche:

Was sind die Big-Data-Anwendungsfälle in der Reise-, Transport- und Luftfahrtindustrie?

Sonnig:



Können Sie uns auf ein Beispiel aus der Praxis der Hadoop-Implementierung verweisen, das wir untersuchen können?
Wir lebenvonin einer Zeit zunehmender Überlastung in Spitzenzeiten. Transportunternehmen sind ständig auf der Suche nach kostengünstigen Wegen, um ihre Dienstleistungen zu erbringen und gleichzeitig ihre Transportflotte in gutem Zustand zu halten. Die Verwendung von Big Data Analytics in dieser Domäne kann die Organisation bei folgenden Aufgaben unterstützen:

  • Routenoptimierung
  • Geodatenanalyse
  • Verkehrsmuster und Überlastung
  • Wartung der Vermögenswerte
  • Revenue Management (d. H. Fluggesellschaft)
  • Bestandsverwaltung
  • Kraftstoffeinsparung
  • Gezieltes Marketing
  • Kundentreue
  • Kapazitätsprognose
  • Netzwerkleistung und -optimierung

Nur wenige der realen Anwendungsfälle sind:
zu) Ermittlung der Flugkosten
b) Vorhersagemodellierung für die Bestandslogistik
c) Orbitz Worldwide - Kundenkaufmuster
d) Sechs Super-Scale-Hadoop-Bereitstellungen
ist) Hadoop - Mehr als nur
f) Hadoop in Unternehmen

Weitere Informationen zu Hadoop Real-World-Implementierungen finden Sie unter:

Hirdesh::

Geht es bei Hadoop nur um Datenverarbeitung und -verarbeitung? Wie gehen wir bei der Berichterstellung und der visuellen Analyse vor? Kann Qlikview, Tableau zusätzlich zu Hadoop verwendet werden?
Bei den Hadoop-Kernkomponenten HDFS und MapReduce dreht sich alles um Datenspeicherung und -verarbeitung. HDFS für die Speicherung und MapReduce für die Verarbeitung. Für die Analyse werden jedoch Hadoop-Kernkomponenten wie Pig und Hive verwendet. Für Visual Reports Tableau kann QlikView für Visual Reporting mit Hadoop verbunden werden.

Amit::

Hadoop Vs. mongoDB
MongoDB wird als Echtzeit-Datenspeicher „Operational“ verwendet, während Hadoop für die Offline-Batch-Datenverarbeitung und -Analyse verwendet wird.
mongoDB ist ein dokumentenorientierter Datenspeicher ohne Schema, den Sie in einer Webanwendung als Backend anstelle von RDBMS wie MySQL verwenden können, während Hadoop hauptsächlich als Scale-Out-Speicher und verteilte Verarbeitung für große Datenmengen verwendet wird.

Lesen Sie mehr bei uns mongoDB und Hadoop Blogpost .

Hier::

Ist Apache Spark ein Teil von Hadoop? ?
Apache Spark ist eine schnelle und allgemeine Engine für die Datenverarbeitung in großem Maßstab. Spark ist schneller und unterstützt die In-Memory-Verarbeitung. Die Spark-Ausführungs-Engine erweitert die Art der Computer-Workloads, die Hadoop verarbeiten und auf dem Hadoop 2.0 YARN-Cluster ausführen kann. Es handelt sich um ein Verarbeitungsframeworksystem, das das Speichern von In-Memory-Objekten (RDD) sowie die Verarbeitung dieser Objekte mithilfe von Scala-Verschlüssen ermöglicht. Es unterstützt Grafik, Data Warehouse, maschinelles Lernen und Stream-Verarbeitung.

Wenn Sie einen Hadoop 2-Cluster haben, können Sie Spark ausführen, ohne dass eine Installation erforderlich ist. Andernfalls kann Spark problemlos eigenständig oder unter EC2 oder Mesos ausgeführt werden. Es kann aus HDFS, HBase, Cassandra und jeder Hadoop-Datenquelle lesen.

Lesen Sie mehr über Spark Hier .

Prasad::

Was ist Apache Flume?
Apache Flume ist ein verteiltes, zuverlässiges und verfügbares System zum effizienten Sammeln, Aggregieren und Verschieben großer Mengen von Protokolldaten aus vielen verschiedenen Quellen in eine zentralisierte Datenquelle.

Amit:

SQL vs NO-SQL-Datenbanken
NoSQL-Datenbanken sind Datenbanken der nächsten Generation und befassen sich hauptsächlich mit einigen Punkten

  • nicht relational
  • verteilt
  • Open Source
  • horizontal skalierbar

Oft gelten mehr Merkmale wie schemafreie, einfache Replikationsunterstützung, einfache API, eventuell konsistent / BASE (nicht ACID), eine große Datenmenge und vieles mehr. Zum Beispiel sind einige der Unterscheidungsmerkmale:

  • NoSQL-Datenbanken werden horizontal skaliert und fügen mehr Server hinzu, um größere Lasten zu bewältigen. SQL-Datenbanken hingegen werden normalerweise vertikal skaliert und fügen mit zunehmendem Datenverkehr immer mehr Ressourcen zu einem einzelnen Server hinzu.
  • Für SQL-Datenbanken mussten Sie Ihre Schemas definieren, bevor Sie Informationen und Daten hinzufügen. NoSQL-Datenbanken sind jedoch schemafrei und erfordern keine vorherige Schemadefinition.
  • SQL-Datenbanken sind tabellenbasiert mit Zeilen und Spalten nach RDBMS-Prinzipien, während NoSQL-Datenbanken Dokument-, Schlüssel-Wert-Paare-, Diagramm- oder Breitspaltenspeicher sind.
  • SQL-Datenbanken verwenden SQL (strukturierte Abfragesprache) zum Definieren und Bearbeiten der Daten. In der NoSQL-Datenbank variieren die Abfragen von Datenbank zu Datenbank.

Beliebte SQL-Datenbanken: MySQL, Oracle, Postgres und MS-SQL
Beliebt NoSQL-Datenbanken: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j und CouchDB

Überprüfen Sie unsere Blogs auf Hadoop und NoSQL Datenbanken und Vorteile einer solchen Datenbank:

Koteswararao::

Verfügt Hadoop über eine integrierte Cluster-Technologie?
Ein Hadoop-Cluster verwendet die Master-Slave-Architektur. Es besteht aus einem einzelnen Master (NameNode) und einem Cluster von Slaves (DataNodes) zum Speichern und Verarbeiten von Daten. Hadoop kann auf einer großen Anzahl von Computern ausgeführt werden, die weder Speicher noch Festplatten gemeinsam nutzen. Diese DataNodes werden mithilfe von als Cluster konfiguriert . Hadoop verwendet ein Replikationskonzept, um sicherzustellen, dass immer mindestens eine Kopie der Daten im Cluster verfügbar ist. Da mehrere Kopien von Daten vorhanden sind, können Daten, die auf einem Server gespeichert sind, der offline geht oder stirbt, automatisch von einer bekannten guten Kopie repliziert werden.

Dinesh::

Was ist ein Job in Hadoop? Was alles kann über einen Job erreicht werden?
In Hadoop ist ein Job ein MapReduce-Programm zum Verarbeiten / Analysieren der Daten. Der Begriff MapReduce bezieht sich tatsächlich auf zwei separate und unterschiedliche Aufgaben, die Hadoop-Programme ausführen. Die erste ist die Map-Aufgabe, die einen Datensatz nimmt und in einen anderen Satz von Zwischendaten konvertiert, wobei einzelne Elemente in Schlüssel-Wert-Paare zerlegt werden. Der zweite Teil eines MapReduce-Jobs, die Aufgabe 'Reduzieren', verwendet die Ausgabe einer Karte als Eingabe und kombiniert die Schlüssel-Wert-Paare zu einem kleineren Satz aggregierter Schlüssel-Wert-Paare. Wie die Reihenfolge des Namens MapReduce impliziert, wird die Aufgabe Reduzieren immer nach Abschluss der Map-Aufgaben ausgeführt. Lesen Sie mehr über MapReduce Job .

Sukruth::

Was ist das Besondere an NameNode? ?
Der NameNode ist das Herzstück eines HDFS-Dateisystems. Es speichert die Metadaten wie den Verzeichnisbaum aller Dateien im Dateisystem und verfolgt, wo im gesamten Cluster die Dateidaten gespeichert sind. Die tatsächlichen Daten werden auf DataNodes als HDFS-Blöcke gespeichert.
Clientanwendungen kommunizieren mit dem NameNode, wann immer sie eine Datei suchen oder wann sie eine Datei hinzufügen / kopieren / verschieben / löschen möchten. Der NameNode antwortet auf die erfolgreichen Anforderungen, indem er eine Liste der relevanten DataNodes-Server zurückgibt, auf denen sich die Daten befinden. Lesen Sie mehr über die HDFS-Architektur .

Dinesh::

Wann wurde Hadoop 2.0 auf den Markt gebracht?
Die Apache Software Foundation (ASF), die Open Source-Gruppe, die die Hadoop-Entwicklung verwaltet, hat in ihrem Blog am 15. Oktober 2013 angekündigt, dass Hadoop 2.0 jetzt allgemein verfügbar ist (GA). Diese Ankündigung bedeutet, dass Apache Hadoop 2.0 und YARN nach langem Warten nun für die Bereitstellung in der Produktion bereit sind. Mehr dazu Blog.

Dinesh::

Was sind die wenigen Beispiele für Nicht-MapReduce-Big-Data-Anwendungen?
MapReduce eignet sich hervorragend für viele Anwendungen zur Lösung von Big-Data-Problemen, jedoch nicht für alle anderen Programmiermodelle, die Anforderungen wie die Grafikverarbeitung (z. B. Google Pregel / Apache Giraph) und die iterative Modellierung mit Message Passing Interface (MPI) besser erfüllen.

Marish::

Wie werden die Daten in HDFS angeordnet und indiziert?
Die Daten werden in Blöcke von 64 MB aufgeteilt (durch einen Parameter konfigurierbar) und in HDFS gespeichert. NameNode speichert die Speicherinformationen dieser Blöcke als Block-IDs in seinem RAM (NameNode-Metadaten). MapReduce-Jobs können mithilfe der im NameNode-RAM gespeicherten Metadaten auf diese Blöcke zugreifen.

Shashwat::

Können wir sowohl MapReduce (MRv1) als auch MRv2 (mit YARN) im selben Cluster verwenden?
Hadoop 2.0 hat ein neues Framework YARN eingeführt, um verschiedene Anwendungen auf Hadoop zu schreiben und auszuführen. YARN und MapReduce sind also zwei verschiedene Konzepte in Hadoop 2.0 und sollten nicht gemischt und austauschbar verwendet werden. Die richtige Frage ist 'Ist es möglich, sowohl MRv1 als auch MRv2 auf einem YARN-fähigen Hadoop 2.0-Cluster auszuführen?' Die Antwort auf diese Frage lautet a 'Nein' Obwohl ein Hadoop-Cluster so konfiguriert werden kann, dass sowohl MRv1 als auch MRv2 ausgeführt werden, kann jedoch zu jedem Zeitpunkt nur ein Satz von Dämonen ausgeführt werden. Beide Frameworks verwenden schließlich dieselben Konfigurationsdateien ( yarn-site.xml und mapred-site.xml ), um die Daemons auszuführen, kann daher nur eine der beiden Konfigurationen in einem Hadoop-Cluster aktiviert werden.

Puppe::

Was ist der Unterschied zwischen MapReduce (MRv2) der nächsten Generation und YARN?
YARN und Next Generation MapReduce (MRv2) sind zwei verschiedene Konzepte und Technologien in Hadoop 2.0. YARN ist ein Software-Framework, mit dem nicht nur MRv2, sondern auch andere Anwendungen ausgeführt werden können. MRv2 ist ein Anwendungsframework, das mit der YARN-API geschrieben wurde und in YARN ausgeführt wird.

Bharat::

Bietet Hadoop 2.0 Abwärtskompatibilität für Hadoop 1.x-Anwendungen?
Neha::

Erfordert die Migration von Hadoop 1.0 auf 2.0 umfangreichen Anwendungscode? Migration?
Nein, die meisten Anwendungen, die mit den APIs 'org.apache.hadoop.mapred' entwickelt wurden, können ohne Neukompilierung auf YARN ausgeführt werden. YARN ist binär kompatibel mit MRv1-Anwendungen und 'bin / hadoop' kann verwendet werden, um diese Anwendungen auf YARN einzureichen. Lesen Sie mehr dazu Hier .

Sherin::

Was ist Anakonda für Python?

Was passiert, wenn der Resource Manager-Knoten in Hadoop 2.0 ausfällt?
Ab Hadoop Release 2.4.0 ist auch Hochverfügbarkeitsunterstützung für Resource Manager verfügbar. Der ResourceManager verwendet Apache ZooKeeper für das Failover. Wenn der Resource Manager-Knoten ausfällt, kann ein sekundärer Knoten schnell über den in ZooKeeper gespeicherten Clusterstatus wiederhergestellt werden. Der ResourceManager startet bei einem Failover alle in der Warteschlange befindlichen und ausgeführten Anwendungen neu.

Sabbirali::

Funktioniert das Hadoop-Framework von Apache unter Cloudera Hadoop?
Apache Hadoop wurde 2005 mit der zentralen MapReduce-Verarbeitungs-Engine eingeführt, um die verteilte Verarbeitung von in HDFS gespeicherten großen Daten-Workloads zu unterstützen. Es ist ein Open Source-Projekt und hat mehrere Distributionen (ähnlich wie Linux). Cloudera Hadoop (CDH) ist eine solche Distribution von Cloudera. Andere ähnliche Distributionen sind HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights usw.

Arulvadivel::

Gibt es eine einfache Möglichkeit, Hadoop auf meinem Laptop zu installieren und die Migration der Oracle-Datenbank auf Hadoop zu versuchen?
Sie können Start mit eine HortonWorks Sandbox oder Cloudera Quick VM auf Ihrem Laptop (mit mindestens 4 GB RAM und i3 oder höher Prozessor). Verwenden Sie SQOOP, um Daten wie beschrieben von Oracle nach Hadoop zu verschieben Hier .

Bhabani::

Was sind die besten Bücher, um Hadoop zu lernen?
Beginnen mit Hadoop: Der endgültige Leitfaden von Tom White und Hadoop-Operationen von Eric Sammer.

Mahendra::

Gibt es Lesungen für Hadoop 2.0, genau wie für Hadoop, den endgültigen Leitfaden?
Überprüfen Sie die letzte Ankunft auf Bücherregalen, die von wenigen Entwicklern von Hadoop 2.0 geschrieben wurden.

Weitere Fragen in dieser Reihe finden Sie hier.