EINFÜHRUNG IN APACHE HIVE

Apache Hive ist ein Data Warehousing-Paket, das auf Hadoop basiert und für die Datenanalyse verwendet wird. Hive richtet sich an Benutzer, die mit SQL vertraut sind. Es ähnelt SQL und heißt HiveQL und wird zum Verwalten und Abfragen strukturierter Daten verwendet. Apache Hive wird verwendet, um die Komplexität von Hadoop zu abstrahieren. Diese Sprache ermöglicht es herkömmlichen Map / Reduce-Programmierern auch, ihre benutzerdefinierten Mapper und Reduzierer anzuschließen. Das beliebte Feature von Hive ist, dass Sie Java nicht lernen müssen.

Hive, ein auf Hadoop basierendes Open-Source-Framework für die Datumslagerung im Peta-Byte-Maßstab, wurde vom Data Infrastructure Team auf Facebook entwickelt. Hive ist auch eine der Technologien, mit denen die Anforderungen bei Facebook erfüllt werden. Hive ist bei allen Benutzern bei Facebook sehr beliebt und wird verwendet, um Tausende von Jobs im Cluster mit Hunderten von Benutzern für eine Vielzahl von Anwendungen auszuführen. Der Hive-Hadoop-Cluster bei Facebook speichert mehr als 2PB Rohdaten und lädt regelmäßig täglich 15 TB Daten.

Schauen wir uns einige seiner Funktionen an, die es beliebt und benutzerfreundlich machen:

Ermöglicht Programmierern das Einstecken von benutzerdefinierten Mappern und Reduzierern.
Hat Data Warehouse-Infrastruktur.
Bietet Tools zum Aktivieren der einfachen Daten-ETL.
Definiert eine SQL-ähnliche Abfragesprache namens QL.

Anwendungsfall Apache Hive - Facebook:

Hive Use Case - Facebook

Vor der Implementierung von Hive war Facebook mit vielen Herausforderungen konfrontiert, da die Größe der generierten Daten zunahm oder eher explodierte, was es wirklich schwierig machte, mit ihnen umzugehen. Das traditionelle RDBMS konnte mit dem Druck nicht umgehen und Facebook suchte daher nach besseren Optionen. Um dieses bevorstehende Problem zu lösen, versuchte Facebook zunächst, Hadoop MapReduce zu verwenden, machte es jedoch mit Schwierigkeiten bei der Programmierung und obligatorischen SQL-Kenntnissen zu einer unpraktischen Lösung. Hive erlaubte ihnen, die Herausforderungen zu meistern, denen sie gegenüberstanden.

Mit Hive können sie nun Folgendes ausführen:

Tische können portioniert und mit Eimern versehen werden
Flexibilität und Entwicklung des Schemas
JDBC / ODBC-Treiber sind verfügbar
Hive-Tabellen können direkt im HDFS definiert werden
Erweiterbar - Typen, Formate, Funktionen und Skripte

Hive-Anwendungsfall im Gesundheitswesen:

Wo kann man Hive verwenden?

Apache Hive kann an folgenden Stellen verwendet werden:

Data Mining
Protokollverarbeitung
Dokumentindizierung
Business Intelligence für Kunden
Vorausschauende Modellierung
Hypothesentest

Hive-Architektur:

Generieren Sie eine zufällige Zeichenfolge in Java

Hive besteht aus folgenden Hauptkomponenten:

Metastore - Zum Speichern der Metadaten.
JDBC / ODBC - Query Compiler und Execution Engine zum Konvertieren von SQL-Abfragen in eine Folge von MapReduce.
SerDe und ObjectInspectors - Für Datenformate und -typen.
UDF / UDAF - Für benutzerdefinierte Funktionen.
Clients - Ähnlich der MySQL-Befehlszeile und einer Web-Benutzeroberfläche.

Komponenten von Hive:

Metastore:

Der Metastore speichert die Informationen zu den Tabellen, Partitionen und Spalten in den Tabellen. Es gibt drei Möglichkeiten zum Speichern in Metastore: Embedded Metastore, Local Metastore und Remote Metastore. Meistens wird Remote Metastore im Produktionsmodus verwendet.

Einschränkungen von Hive:

Hive hat die folgenden Einschränkungen und kann unter solchen Umständen nicht verwendet werden:

Nicht für die Online-Transaktionsverarbeitung konzipiert.
Bietet eine akzeptable Latenz für das interaktive Durchsuchen von Daten.
Bietet keine Echtzeitabfragen und Aktualisierungen auf Zeilenebene.
Die Latenz für Hive-Abfragen ist im Allgemeinen sehr hoch.

Hast du eine Frage an uns? Erwähnen Sie sie im Kommentarbereich und wir werden uns bei Ihnen melden.

Zusammenhängende Posts:

Hive-Befehle

Apache Hive ist ein Data Warehousing-Paket, das auf Hadoop basiert und für die Datenanalyse verwendet wird. Hive richtet sich an Benutzer, die mit SQL vertraut sind.

Anwendungsfall Apache Hive - Facebook:

Hive-Anwendungsfall im Gesundheitswesen:

Wo kann man Hive verwenden?

Hive-Architektur:

Komponenten von Hive:

Einschränkungen von Hive:

Kategorien

Popular Articles

Ein Mädchen aus Florida wurde Zeuge der tödlichen Erschießung ihrer Mutter, während sie in einem Zoom-Kurs war, teilte die Polizei mit

So implementieren Sie Kontextfilter in Tableau

Alles, was Sie über das Span-Tag in HTML wissen müssen

Der kanadische Gesetzgeber ließ seine Kamera an, als er sich auszog. Seine Kollegen sahen alles auf Zoom.

Alles, was Sie über Kommentare in HTML wissen müssen

Wie implementiere ich Intval in PHP?

Was ist Kotlin? - Lernen Sie Kotlin von Grund auf neu

Wie verwende ich die Änderung der Tabellenanweisung in SQL?

Die Vergewaltigung eines Studenten blieb 14 Jahre lang ungelöst. Laut Polizei gab der Verdächtige seine DNA an eine Ahnentafel weiter.

Wie werde ich Blockchain-Entwickler? - Typen, Rollen und Fähigkeiten

Toledo Blade-Autoren sagen, Manager hätten Geschichten über den Angriff des Pro-Trump-Mobs „manipuliert“

Trump behauptet, kontroverser Kommentar zur Injektion von Desinfektionsmitteln sei „sarkastisch“