BEDEUTUNG DER DATENWISSENSCHAFT MIT CASSANDRA -

Die rasche Erweiterung digitaler Daten durch Computer, Mobilgeräte, Videos, soziale Medien, digitale Sensoren usw. in Verbindung mit bedeutenden Durchbrüchen bei kostengünstigerer Verarbeitungsleistung, Open-Source-Datenbankanwendungen und größerer Bandbreite hat in der gesamten Geschäftswelt ein massives Interesse geweckt aufstrebendes Gebiet der Big Data-Wissenschaft und Analytik.

Big Data in großen unstrukturierten Volumina sind zu groß, um mit herkömmlichen Methoden verwaltet und analysiert zu werden. Die schiere Menge und Geschwindigkeit der heutigen Daten macht das Erfassen, Filtern, Speichern und Analysieren zu einer echten Herausforderung. Um dies zu bewältigen, werden regelmäßig neue Produkte entwickelt, die neue Fähigkeiten und Fachkenntnisse erfordern. Es besteht ein wachsender Bedarf an Personen, die neue Infrastrukturen, Plattformen und Prozesse in das Unternehmen integrieren können, sowie an Personen, die neue Analysen und Algorithmen erstellen können, mit denen enorme Informationen von großem geschäftlichem Wert erstellt werden können. Weitere Informationen finden Sie in unserem Blogbeitrag unter

Relevanz der Datenwissenschaft in verschiedenen Branchen:

Data Science & Analytics ist branchenübergreifend anwendbar:

E-Commerce - Personalisierungs- und Empfehlungs-Engines, die den Umsatz steigern.
Werbung - Sehr zielgerichtete Anzeigenlieferung in Echtzeit an Verbraucher.
Medien & Unterhaltung - Kundenspezifische Inhaltsentwicklung, die die Benutzerinteraktion maximiert.
Sozialen Medien - Erhöhte „Klebrigkeit“ der Website, Benutzerwachstum und die Fähigkeit, schnelllebige Trends auf der Grundlage der Verbraucherstimmung zu verfolgen.
Finanzdienstleistungen –Optimierte Kreditvergabepraktiken, die Risiko und Betrug minimieren.
Pharma / Bioinformatik - Verbesserte Wirkstoffentdeckung, wirksamere Behandlung bedrohlicher Krankheiten, gentechnische Verbesserungen.
Gesundheitspflege - Bessere Bewertung von Gesundheitspatienten hinsichtlich Gesundheitsrisiken sowie Antizipation und frühzeitige Prävention von Krankheiten.
Kraft / Energie - Smart Grid Intelligence, Nutzungseffizienz, Energieeinsparungen und Reduzierung von Ausfallzeiten.
Informationssicherheit - Deutlich verbesserte Diebstahlerkennung und Überwachung wertvoller Unternehmensinformationen und Vermögenswerte.

Schlüsselkompetenzen von Data Science-Fachleuten:

Data Science Domain erfordert Fachleute, die:

Versteht Datenanalyse und Entscheidungswissenschaft
Sind mit IT vertraut
Haben Sie starken Geschäftssinn
Besitzen Sie die Fähigkeit, effektiv mit Entscheidungsträgern zu kommunizieren

Weiterlesen: Kernkompetenzen, die erforderlich sind, um ein Data Scientist zu sein.

wie man Sets in Java benutzt

Gemeinsame Technologien im Zusammenhang mit der datenwissenschaftlichen Praxis:

Mit Data Science verbundene Technologien

Datenbanken

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

Aster, Greenplum, Netezza

Sprachen

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Bienenstock, Schwein, Lucene, Mahout, Solr

Statistik & Prognose

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

Datenvisualisierung

QlikView, Spotfire, Tableau, yWorks, R.

BI & Reporting

BusinessObjects, Cognos, MicroStrategy

Was ist Cassandra?

Apache Cassandra ist ein Open Source-System zur Verwaltung verteilter Datenbanken, das für die Verarbeitung großer Datenmengen auf vielen Commodity-Servern entwickelt wurde.
Cassandra bietet hohe Verfügbarkeit ohne Single Point of Failure.
Cassandra bietet robuste Unterstützung für Cluster, die sich über mehrere Rechenzentren erstrecken. Die asynchrone Replikation ohne Master ermöglicht Operationen mit geringer Latenz für alle Clients.

Weitere Informationen finden Sie in unserem Blogbeitrag auf der .

Wie nutzt Data Science Cassandra?

Cassandra ist eine verteilte Datenbank für Dienste mit geringer Latenz und hohem Durchsatz, die Echtzeit-Workloads mit Hunderten von Updates pro Sekunde und Zehntausenden von Lesevorgängen pro Sekunde verarbeiten.

Kassandra Anwendungsfall - PROS:

PROS ist ein Big-Data-Softwareunternehmen mit präskriptiven Analysen in seiner Software, die es seinen Kunden ermöglichen, ihre Daten zu analysieren und Einblicke und Anleitungen zur Optimierung ihres Preis-, Verkaufs- und Ertragsmanagements zu erhalten.

Sie verfügen über einen Echtzeitdienst, der die Verfügbarkeit von Fluggesellschaften berechnet und dabei die Daten zur Ertragskontrolle und die Lagerbestände dynamisch berücksichtigt, die sich viele hundert Mal pro Sekunde ändern können.

Dieser Dienst wird mehrere tausend Mal pro Sekunde abgefragt, was zu Zehntausenden von Datensuchen führt. Ihre Backend-Speicherschicht für diesen Service ist Cassandra.

Für ihre Echtzeitlösung erkannte PROS einen Bedarf an:

Ein verteilter Cache, der hoch verfügbar ist.
Leicht skalierbar.
Mit einer Architektur ohne Meister.
Mit nahezu Echtzeit-Datenreplikation auch über Rechenzentren hinweg.
Das kann Lese- und Schreibvorgänge in Echtzeit verarbeiten.

PROS bewertete Cassandra gegen Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort und Redis. Apache Cassandra führte ganz leicht die Liste an.

PROS und Cassandra

PROS verwendet Cassandra als verteilte Datenbank für Dienste mit geringer Latenz und hohem Durchsatz, die Echtzeit-Workloads mit Hunderten von Aktualisierungen pro Sekunde und Zehntausenden von Lesevorgängen pro Sekunde verarbeiten.
Zum Beispiel verfügen sie über einen Echtzeitdienst, der die Verfügbarkeit von Fluggesellschaften dynamisch berechnet und dabei Daten zur Umsatzkontrolle und Lagerbestände berücksichtigt, die sich viele hundert Mal pro Sekunde ändern können. Dieser Dienst wird mehrere tausend Mal pro Sekunde abgefragt, was zu Zehntausenden von Daten-Lookups führt. Ihre Backend-Speicherschicht für diesen Service ist Cassandra. Einige ihrer SaaS-Angebote verwenden Cassandra als Backend-Store, um eine Kombination aus Echtzeit- und Hadoop-basierten Batch-Workloads zu verwalten.
Wenn sie über Hadoop und Cassandra sprechen, nehmen sie die Daten aus Cassandra und legen sie in Hadoop ab. Anschließend führen sie Batch- und Analytics-Daten aus, und dann geht das zurück in Cassandra. Dies wird durch die Hadoop-Integration von Cassandra erreicht.
Die Hadoop-Jobs ziehen Daten aus Cassandra heraus, wenden auftragsspezifische Transformationen oder Analysen an und übertragen Daten zurück in Cassandra. Sie verwenden für diese Integration nicht die Datastax (offizielle Cassandra Maintainer) Enterprise Edition, sondern nur die Open-Source-Hadoop-Installation mit Cassandra.

Datenmodellierung mit Cassandra:

Wenn Sie versuchen, einen Schlüsselwertspeicher durch etwas zu ersetzen, das für die Echtzeitreplikation und Datenverteilung besser geeignet ist, zeigen Untersuchungen zu Dynamo, dem CAP-Theorem und dem eventuellen Konsistenzmodell, dass Cassandra recht gut zu diesem Modell passt. Wenn man mehr über Datenmodellierungsfunktionen erfährt, gehen wir schrittweise zur Zerlegung von Daten über.

Wenn man aus einem relationalen Datenbankhintergrund mit starker ACID-Semantik stammt, muss man sich die Zeit nehmen, um das mögliche Konsistenzmodell zu verstehen.

Verstehe Cassandras Architektur sehr gut und was sie unter der Haube macht. Mit Cassandra 2.0 erhalten Sie einfache Transaktionen und Trigger, die jedoch nicht mit den herkömmlichen Datenbanktransaktionen identisch sind, mit denen Sie möglicherweise vertraut sind. Beispielsweise sind keine Fremdschlüsseleinschränkungen verfügbar - diese müssen von der eigenen Anwendung behandelt werden. Es ist ein Muss, die Anwendungsfälle und Datenzugriffsmuster vor dem Modellieren von Daten mit Cassandra klar zu verstehen und die gesamte verfügbare Dokumentation zu lesen.

Fazit:

Apache Cassandra entwickelt sich schnell weiter und wir lernen und verstehen seine Fähigkeiten - insbesondere auf der Seite der Datenmodellierung. Wir sehen es als verteilte NoSQL-Datenbank der Wahl für unsere Big Data-Dienste und -Lösungen.

Wie konvertiere ich Dezimal in Binär in Python

Edureka bietet eine umfassende für diejenigen, die Datenwissenschaftler werden möchten. Der Kurs umfasst eine Reihe von Hadoop-, R- und maschinellen Lerntechniken, die die gesamte Data Science-Studie umfassen. Edureka bietet auch Das hilft Ihnen, NoSQL-Datenbanken zu beherrschen. Dieser Kurs soll Wissen und Fähigkeiten vermitteln, um ein erfolgreicher Cassandra-Experte zu werden.

Bedeutung der Datenwissenschaft mit Cassandra

Cassandra ist eine Open-Source-Datenbank für die Verarbeitung großer Datenmengen auf vielen Servern. Daher ist die Nachfrage von Datenwissenschaftlern mit Cassandra-Kenntnissen hoch.

Relevanz der Datenwissenschaft in verschiedenen Branchen:

Schlüsselkompetenzen von Data Science-Fachleuten:

Gemeinsame Technologien im Zusammenhang mit der datenwissenschaftlichen Praxis:

Was ist Cassandra?

Wie nutzt Data Science Cassandra?

Kassandra Anwendungsfall - PROS:

PROS und Cassandra

Datenmodellierung mit Cassandra:

Fazit:

Kategorien

Popular Articles

Salesforce Service Cloud - One-Stop-Lösung für Kundenanforderungen

Alles, was Sie über lose Kopplung in Java wissen müssen

Möglicherweise gab es Dutzende mehr Todesfälle im Zusammenhang mit der Wasserkrise in Flint als bisher bekannt

Der kanadische Gesetzgeber ließ seine Kamera an, als er sich auszog. Seine Kollegen sahen alles auf Zoom.

Nullzeiger-Ausnahme in Java: Implementierung und Beispiele

Laut Gallup-Umfrage wollen nur wenige Amerikaner die Polizei abschaffen

Was ist agiles Projektmanagement? Ein Leitfaden für Anfänger

Amazon Lightsail Tutorial - Eine Einführung

Was ist MS Excel und wie wird es verwendet?

PostgreSQL-Tutorial für Anfänger - Alles, was Sie über PostgreSQL wissen müssen

So machen Sie einen Screenshot in Selenium WebDriver

Entdecken Sie die Macht von YouTube: Edurekas Reise zu 1 Million YouTube-Abonnenten