Big Data Tutorial
Big Data, haben Sie diesen Begriff noch nicht gehört? Ich bin sicher, dass Sie haben. In den letzten 4 bis 5 Jahren haben alle über Big Data gesprochen. Aber wissen Sie wirklich, was genau Big Data ist, wie es sich auf unser Leben auswirkt und warum Unternehmen nach Fachleuten suchen ? In diesem Big Data-Tutorial gebe ich Ihnen einen vollständigen Einblick in Big Data.
Im Folgenden sind die Themen aufgeführt, die ich in diesem Big Data-Lernprogramm behandeln werde:
- Geschichte von Big Data
- Big Data-Treiberfaktoren
- Was ist Big Data?
- Big Data-Merkmale
- Arten von Big Data
- Beispiele für Big Data
- Anwendungen von Big Data
- Herausforderungen mit Big Data
Lassen Sie mich dieses Big Data-Tutorial mit einer Kurzgeschichte beginnen.
Geschichte von Big Data
Früher reisten die Menschen mit einem Pferdewagen von einem Dorf in ein anderes Dorf, aber im Laufe der Zeit wurden die Dörfer zu Städten und Menschen, die sich ausbreiteten. Die Entfernung von einer Stadt zur anderen Stadt nahm ebenfalls zu. So wurde es zu einem Problem, zusammen mit dem Gepäck zwischen den Städten zu reisen. Aus heiterem Himmel schlug ein kluger Kerl vor, wir sollten ein Pferd mehr pflegen und füttern, um dieses Problem zu lösen. Wenn ich mir diese Lösung anschaue, ist es nicht so schlimm, aber glaubst du, ein Pferd kann ein Elefant werden? Das glaube ich nicht. Ein anderer kluger Kerl sagte, anstatt dass 1 Pferd den Wagen zieht, lassen Sie uns 4 Pferde haben, um den gleichen Wagen zu ziehen. Was haltet ihr von dieser Lösung? Ich denke, es ist eine fantastische Lösung. Jetzt können Menschen in kürzerer Zeit große Entfernungen zurücklegen und sogar mehr Gepäck mitnehmen.
Was ist eine Instanz einer Klasse in Java
Das gleiche Konzept gilt für Big Data. Laut Big Data waren wir bis heute damit einverstanden, die Daten auf unseren Servern zu speichern, da das Datenvolumen ziemlich begrenzt war und die Zeit für die Verarbeitung dieser Daten ebenfalls in Ordnung war. Aber jetzt in dieser gegenwärtigen technologischen Welt wachsen die Daten zu schnell und die Menschen verlassen sich oft auf die Daten. Auch mit der Geschwindigkeit, mit der die Daten wachsen, wird es unmöglich, die Daten auf einem Server zu speichern.
Lassen Sie uns in diesem Blog im Big Data Tutorial die Quellen von Big Data untersuchen, die von den traditionellen Systemen nicht gespeichert und verarbeitet werden können.
Big Data-Treiberfaktoren
Die Datenmenge auf dem Planeten Erde wächst aus vielen Gründen exponentiell. Verschiedene Quellen und unsere täglichen Aktivitäten generieren viele Daten. Mit der Erfindung des Webs ist die ganze Welt online gegangen, alles, was wir tun, hinterlässt eine digitale Spur. Da die intelligenten Objekte online gehen, hat die Datenwachstumsrate rapide zugenommen. Die Hauptquellen für Big Data sind Social-Media-Websites, Sensornetzwerke, digitale Bilder / Videos, Mobiltelefone, Kauftransaktionsaufzeichnungen, Weblogs, medizinische Aufzeichnungen, Archive, militärische Überwachung, E-Commerce, komplexe wissenschaftliche Forschung und so weiter. Alle diese Informationen belaufen sich auf rund eine Billion Datenbytes. Bis 2020 wird das Datenvolumen etwa 40 Zettabyte betragen, was dem Hinzufügen jedes einzelnen Sandkorns auf dem Planeten multipliziert mit fünfundsiebzig entspricht.
Was ist Big Data?
Big Data ist ein Begriff für eine Sammlung großer und komplexer Datensätze, die mit verfügbaren Datenbankverwaltungstools oder herkömmlichen Datenverarbeitungsanwendungen nur schwer zu speichern und zu verarbeiten sind. Die Herausforderung umfasst das Erfassen, Kuratieren, Speichern, Suchen, Teilen, Übertragen, Analysieren und Visualisieren dieser Daten.
Big Data-Merkmale
Die fünf Merkmale, die Big Data definieren, sind: Volumen, Geschwindigkeit, Vielfalt, Wahrhaftigkeit und Wert.
VOLUMEN
Das Volumen bezieht sich auf die „Datenmenge“, die von Tag zu Tag sehr schnell wächst. Die Größe der Daten, die von Menschen, Maschinen und deren Interaktionen in sozialen Medien selbst generiert werden, ist enorm. Forscher haben vorausgesagt, dass bis 2020 40 Zettabyte (40.000 Exabyte) erzeugt werden, was einer Steigerung von 300 gegenüber 2005 entspricht.
GESCHWINDIGKEIT
Geschwindigkeit ist definiert als das Tempo, mit dem verschiedene Quellen die Daten jeden Tag generieren. Dieser Datenfluss ist massiv und kontinuierlich. Derzeit sind auf Mobile 1,03 Milliarden Daily Active Users (Facebook DAU) verfügbar, was einer Steigerung von 22% gegenüber dem Vorjahr entspricht. Dies zeigt, wie schnell die Anzahl der Benutzer in sozialen Medien wächst und wie schnell die Daten täglich generiert werden. Wenn Sie mit der Geschwindigkeit umgehen können, können Sie Erkenntnisse generieren und Entscheidungen auf der Grundlage von Echtzeitdaten treffen.
VIELFALT
Da es viele Quellen gibt, die zu Big Data beitragen, ist die Art der Daten, die sie generieren, unterschiedlich. Es kann strukturiert, halbstrukturiert oder unstrukturiert sein. Daher gibt es eine Vielzahl von Daten, die jeden Tag generiert werden. Früher haben wir die Daten aus Excel und Datenbanken abgerufen, jetzt kommen die Daten in Form von Bildern, Audios, Videos, Sensordaten usw., wie im folgenden Bild gezeigt. Daher verursacht diese Vielzahl unstrukturierter Daten Probleme beim Erfassen, Speichern, Mining und Analysieren der Daten.
RICHTIGKEIT
Richtigkeit bezieht sich auf die Daten, die aufgrund von Dateninkonsistenzen und -unvollständigkeiten zweifelhaft oder unsicher sind. In der Abbildung unten sehen Sie, dass in der Tabelle nur wenige Werte fehlen. Außerdem sind einige Werte schwer zu akzeptieren, zum Beispiel - 15000 Mindestwert in der 3. Zeile ist nicht möglich. Diese Inkonsistenz und Unvollständigkeit ist Wahrhaftigkeit.
Die verfügbaren Daten können manchmal unübersichtlich und möglicherweise schwer zu vertrauen sein. Bei vielen Formen von Big Data sind Qualität und Genauigkeit wie bei Twitter-Posts mit Hashtags, Abkürzungen, Tippfehlern und umgangssprachlicher Sprache schwer zu kontrollieren. Das Volumen ist häufig der Grund für die mangelnde Qualität und Genauigkeit der Daten.- Aufgrund der Unsicherheit der Daten vertraut jeder dritte Unternehmensleiter den Informationen, die er für seine Entscheidungen verwendet, nicht.
- In einer Umfrage wurde festgestellt, dass 27% der Befragten sich nicht sicher waren, wie viele ihrer Daten ungenau waren.
- Eine schlechte Datenqualität kostet die US-Wirtschaft rund 3,1 Billionen US-Dollar pro Jahr.
WERT
Nach der Erörterung von Volumen, Geschwindigkeit, Vielfalt und Wahrhaftigkeit gibt es ein weiteres V, das bei der Betrachtung von Big Data, d. H. Wert, berücksichtigt werden sollte. Es ist schön und gut, Zugang zu großen zu habenDatenaberWenn wir es nicht in Wert verwandeln können, ist es nutzlos. Wenn ich es in Wert umwandle, meine ich, trägt es zu den Vorteilen der Organisationen bei, die Big Data analysieren? Arbeitet die Organisation an Big Data und erzielt einen hohen ROI (Return on Investment)? Es ist nutzlos, es sei denn, es erhöht ihren Gewinn durch die Arbeit an Big Data.
Sehen Sie sich unser Big Data-Video unten an, um mehr über Big Data zu erfahren:
Big Data Tutorial für Anfänger | Was ist Big Data? Edureka
Wie in Variety beschrieben, gibt es verschiedene Arten von Daten, die jeden Tag generiert werden. Lassen Sie uns nun die Datentypen verstehen:
Arten von Big Data
Es gibt drei Arten von Big Data:
- Strukturiert
- Halbstrukturiert
- Unstrukturiert
Strukturiert
Die Daten, die in einem festen Format gespeichert und verarbeitet werden können, werden als strukturierte Daten bezeichnet. Daten, die in einem relationalen Datenbankverwaltungssystem (RDBMS) gespeichert sind, sind ein Beispiel für „strukturierte“ Daten. Es ist einfach, strukturierte Daten zu verarbeiten, da sie ein festes Schema haben. Strukturierte Abfragesprache (SQL) wird häufig zum Verwalten solcher Daten verwendet.
Halbstrukturiert
Halbstrukturierte Daten sind Datentypen, die keine formale Struktur eines Datenmodells haben, dh eine Tabellendefinition in einem relationalen DBMS, aber dennoch einige organisatorische Eigenschaften wie Tags und andere Markierungen aufweisen, um semantische Elemente zu trennen, was die Vereinfachung erleichtert analysieren. XML-Dateien oder JSON-Dokumente sind Beispiele für halbstrukturierte Daten.
Unstrukturiert
Die Daten, deren Form unbekannt ist und die nicht in RDBMS gespeichert und nur analysiert werden können, wenn sie in ein strukturiertes Format umgewandelt werden, werden als unstrukturierte Daten bezeichnet. Textdateien und Multimedia-Inhalte wie Bilder, Audios und Videos sind Beispiele für unstrukturierte Daten. Die unstrukturierten Daten wachsen schneller als andere. Experten sagen, dass 80 Prozent der Daten in einer Organisation unstrukturiert sind.
Bis jetzt habe ich gerade die Einführung von Big Data behandelt. Darüber hinaus werden in diesem Big Data-Lernprogramm Beispiele, Anwendungen und Herausforderungen in Big Data erläutert.
Beispiele für Big Data
Täglich laden wir Millionen von Datenbytes hoch. 90% der weltweiten Daten wurden in den letzten zwei Jahren erstellt.
- Walmart handhabt mehr als 1 Million Kundentransaktionen jede Stunde.
- Facebook speichert, greift zu und analysiert 30+ Petabyte von benutzergenerierten Daten.
- Über 230 Millionen Tweets werden jeden Tag erstellt.
- Mehr als 5 Milliarden Menschen telefonieren, schreiben, twittern und surfen auf Mobiltelefonen weltweit.
- YouTube-Nutzer laden hoch 48 Stunden jede Minute des Tages von neuen Videos.
- Amazon behandelt 15 Millionen Kunden klicken auf Stream-Benutzerdaten pro Tag, um Produkte zu empfehlen.
- 294 Milliarden E-Mails werden jeden Tag gesendet. Services analysiert diese Daten, um die Spam-Mails zu finden.
- Moderne Autos haben in der Nähe 100 Sensoren Jedes Fahrzeug, das den Kraftstoffstand, den Reifendruck usw. überwacht, generiert viele Sensordaten.
Anwendungen von Big Data
Wir können nicht über Daten sprechen, ohne über die Menschen zu sprechen, die von Big Data-Anwendungen profitieren. Fast alle Branchen nutzen heute Big-Data-Anwendungen auf die eine oder andere Weise.
- Intelligentere Gesundheitsversorgung : Unter Verwendung der Petabyte an Patientendaten kann die Organisation aussagekräftige Informationen extrahieren und dann Anwendungen erstellen, die den sich verschlechternden Zustand des Patienten im Voraus vorhersagen können.
- Telekommunikation : Telekommunikationssektoren sammeln Informationen, analysieren sie und bieten Lösungen für verschiedene Probleme. Durch den Einsatz von Big-Data-Anwendungen konnten Telekommunikationsunternehmen den Verlust von Datenpaketen, der bei Überlastung von Netzwerken auftritt, erheblich reduzieren und so eine nahtlose Verbindung zu ihren Kunden herstellen.
- Einzelhandel : Der Einzelhandel weist einige der engsten Margen auf und ist einer der größten Nutznießer von Big Data. Das Schöne an der Nutzung von Big Data im Einzelhandel ist das Verständnis des Verbraucherverhaltens. Die Empfehlungs-Engine von Amazon bietet Vorschläge basierend auf dem Browserverlauf des Verbrauchers.
- Verkehrskontrolle : Verkehrsstaus sind für viele Städte weltweit eine große Herausforderung. Die effektive Nutzung von Daten und Sensoren wird der Schlüssel für ein besseres Verkehrsmanagement sein, da die Städte immer dichter besiedelt werden.
- Herstellung : Die Analyse von Big Data in der Fertigungsindustrie kann Komponentenfehler reduzieren, die Produktqualität verbessern, die Effizienz steigern und Zeit und Geld sparen.
- Suchqualität : Jedes Mal, wenn wir Informationen aus Google extrahieren, generieren wir gleichzeitig Daten dafür. Google speichert diese Daten und verwendet sie, um die Suchqualität zu verbessern.
Jemand hat zu Recht gesagt: 'Nicht alles im Garten ist rosig!' . Bis jetzt habe ich Ihnen in diesem Big Data-Tutorial gerade das rosige Bild von Big Data gezeigt. Glauben Sie nicht, dass alle Unternehmen in Big Data investieren würden, wenn es so einfach wäre, Big Data zu nutzen? Lassen Sie mich vorab sagen, dass dies nicht der Fall ist. Bei der Arbeit mit Big Data ergeben sich verschiedene Herausforderungen.
Nachdem Sie mit Big Data und seinen verschiedenen Funktionen vertraut sind, werden im nächsten Abschnitt dieses Blogs zum Big Data-Lernprogramm einige der wichtigsten Herausforderungen für Big Data beleuchtet.
Herausforderungen mit Big Data
Lassen Sie mich einige Herausforderungen erläutern, die mit Big Data einhergehen:
- Datenqualität - Das Problem hier ist die 4thV, d.h. Wahrhaftigkeit. Die Daten hier sind sehr unordentlich, inkonsistent und unvollständig. Schmutzige Daten kosten die Unternehmen in den USA jedes Jahr 600 Milliarden US-Dollar.
- Entdeckung - Einblicke in Big Data zu finden, ist wie eine Nadel im Heuhaufen zu finden. Das Analysieren von Petabytes an Daten mit äußerst leistungsfähigen Algorithmen, um Muster und Erkenntnisse zu finden, ist sehr schwierig.
- Lager - Je mehr Daten ein Unternehmen hat, desto komplexer können die Probleme bei der Verwaltung werden. Hier stellt sich die Frage: Wo soll es aufbewahrt werden? Wir brauchen ein Speichersystem, das bei Bedarf problemlos vergrößert oder verkleinert werden kann.
- Analytik - Im Fall von Big Data wissen wir meistens nicht, um welche Art von Daten es sich handelt, sodass die Analyse dieser Daten noch schwieriger ist.
- Sicherheit - Da die Daten sehr groß sind, ist es eine weitere Herausforderung, sie sicher zu halten. Es umfasst die Benutzerauthentifizierung, das Einschränken des Benutzerzugriffs, das Aufzeichnen von Datenzugriffsverläufen, die ordnungsgemäße Verwendung der Datenverschlüsselung usw.
- Mangel an Talent - Es gibt viele Big-Data-Projekte in großen Organisationen, aber ein hoch entwickeltes Team von Entwicklern, Datenwissenschaftlern und Analysten, die auch über ausreichende Domänenkenntnisse verfügen, ist immer noch eine Herausforderung.
Hadoop zur Rettung
Wir haben einen Retter, der sich mit Big Data-Herausforderungen befasst - es ist Hadoop . Hadoop ist ein Open Source, Java-basiertes Programmierframework, das die Speicherung und Verarbeitung extrem großer Datenmengen in einer verteilten Computerumgebung unterstützt. Es ist Teil des Apache-Projekts, das von der Apache Software Foundation gesponsert wird.
ng-change vs onchange
Hadoop verarbeitet mit seiner verteilten Verarbeitung große Mengen strukturierter und unstrukturierter Daten effizienter als das herkömmliche Enterprise Data Warehouse. Mit Hadoop können Anwendungen auf Systemen mit Tausenden von Standardhardwareknoten ausgeführt und Tausende von Terabyte an Daten verarbeitet werden. Unternehmen setzen Hadoop ein, da es sich um eine Open-Source-Software handelt, die auf Standardhardware (Ihrem PC) ausgeführt werden kann.Die anfänglichen Kosteneinsparungen sind dramatisch, da Standardhardware sehr billig ist. Wenn die Organisationsdaten zunehmen, müssen Sie im laufenden Betrieb immer mehr Standardhardware hinzufügen, um sie zu speichern. Daher erweist sich Hadoop als wirtschaftlich.Darüber hinaus hat Hadoop eine robuste Apache-Community hinter sich, die weiterhin zu seiner Weiterentwicklung beiträgt.
Wie bereits versprochen, habe ich Ihnen durch diesen Blog im Big Data Tutorial maximale Einblicke in Big Data gegeben. Dies ist das Ende des Big Data-Tutorials. Der nächste Schritt besteht nun darin, Hadoop zu kennen und zu lernen. Wir haben ein Reihe von Hadoop-Tutorial Blogs, die detailliertes Wissen über das gesamte Hadoop-Ökosystem vermitteln.
Alles Gute, Happy Hadooping!
Nachdem Sie verstanden haben, was Big Data ist, lesen Sie die von Edureka, einem vertrauenswürdigen Online-Lernunternehmen mit einem Netzwerk von mehr als 250.000 zufriedenen Lernenden auf der ganzen Welt. Der Edureka Big Data Hadoop-Zertifizierungskurs hilft Lernenden, Experten für HDFS, Garn, MapReduce, Schwein, Bienenstock, HBase, Oozie, Flume und Sqoop zu werden. Dabei werden Anwendungsfälle in Echtzeit in den Bereichen Einzelhandel, soziale Medien, Luftfahrt, Tourismus und Finanzen verwendet.
Hast du eine Frage an uns? Bitte erwähnen Sie es in den Kommentaren und wir werden uns bei Ihnen melden.
Zusammenhängende Posts: