4 Möglichkeiten, R und Hadoop zusammen zu verwenden

R und Hadoop ergänzen sich in Bezug auf Visualisierung und Analyse von Big Data recht gut. Dieser Blog-Beitrag beschreibt 4 Möglichkeiten, sie zusammen zu verwenden.

Hadoop ist ein disruptives Java-basiertes Programmierframework, das die Verarbeitung großer Datenmengen in einer verteilten Computerumgebung unterstützt, während R eine Programmiersprache und Softwareumgebung für statistische Berechnungen und Grafiken ist. Die R-Sprache wird unter Statistikern und Data Minern häufig zur Entwicklung statistischer Software und zur Durchführung von Datenanalysen verwendet. In den Bereichen interaktive Datenanalyse, Allzweckstatistik und Vorhersagemodellierung hat R aufgrund seiner Klassifizierungs-, Clustering- und Ranking-Funktionen eine enorme Popularität erlangt.

KM



Hadoop und R ergänzen sich in Bezug auf Visualisierung und Analyse von Big Data recht gut.

Rekursion Fibonacci c ++

Mit R und Hadoop

Es gibt vier verschiedene Möglichkeiten, Hadoop und R zusammen zu verwenden:

1. RHadoop

RHadoop ist eine Sammlung von drei R-Paketen: rmr, rhdfs und rhbase. Das rmr-Paket bietet Hadoop MapReduce-Funktionen in R, rhdfs bietet HDFS-Dateiverwaltung in R und rhbase bietet HBase-Datenbankverwaltung innerhalb von R. Jedes dieser Primärpakete kann zur besseren Analyse und Verwaltung von Hadoop-Framework-Daten verwendet werden.

2. ORCH

ORCH steht für Oracle R Connector für Hadoop. Es handelt sich um eine Sammlung von R-Paketen, die die relevanten Schnittstellen für die Arbeit mit Hive-Tabellen, der Apache Hadoop-Computerinfrastruktur, der lokalen R-Umgebung und Oracle-Datenbanktabellen bereitstellen. Darüber hinaus bietet ORCH prädiktive Analysetechniken, die auf Daten in HDFS-Dateien angewendet werden können.

3. RHIPE

RHIPE ist ein R-Paket, das eine API zur Verwendung von Hadoop bereitstellt. RHIPE steht für R and Hadoop Integrated Programming Environment und ist im Wesentlichen RHadoop mit einer anderen API.

Vier. Hadoop-Streaming

Hadoop Streaming ist ein Dienstprogramm, mit dem Benutzer Jobs mit beliebigen ausführbaren Dateien wie Mapper und / oder Reduzierer erstellen und ausführen können. Mit dem Streaming-System kann man funktionierende Hadoop-Jobs mit gerade genug Java-Kenntnissen entwickeln, um zwei Shell-Skripte zu schreiben, die zusammenarbeiten.

Die Kombination von R und Hadoop entwickelt sich zu einem unverzichtbaren Toolkit für Personen, die mit Statistiken und großen Datenmengen arbeiten. Einige Hadoop-Enthusiasten haben jedoch beim Umgang mit extrem großen Big-Data-Fragmenten eine rote Fahne gehisst. Sie behaupten, dass der Vorteil von R nicht seine Syntax ist, sondern die erschöpfende Bibliothek von Grundelementen für Visualisierung und Statistik. Diese Bibliotheken sind grundsätzlich nicht verteilt, was das Abrufen von Daten zu einer zeitaufwändigen Angelegenheit macht. Dies ist ein inhärenter Fehler von R, und wenn Sie ihn übersehen, können R und Hadoop zusammen immer noch Wunder wirken.

Sehen wir uns jetzt eine Demo an:

Was macht system.exit (0) in Java?

Was ist eine Instanz in Java

Hast du eine Frage an uns? Bitte erwähnen Sie sie in den Kommentaren und wir werden uns bei Ihnen melden.

Zusammenhängende Posts: