Modellierungstechniken in Business Analytics mit R.

Der Blog bietet eine kurze Einführung in Modellierungstechniken in Business Analytics mit R.

Verschiedene Modellierungstechniken:

Wir können jedes Problem in kleinere Prozesse unterteilen:



Einstufung - ist, wo wir die Daten klassifizieren. Z.B. Krankheiten Alle Krankheiten zeigen ein bestimmtes Verhalten, und wir können sie weiter klassifizieren.

Zum Beispiel: Krankheiten, die die Immunität verringern, Kopfschmerzen verursachende Krankheiten usw.

Regression - beinhaltet das Herausfinden der Beziehung zwischen mehreren Variablen.

Zum Beispiel: Wie das Gewicht eines Menschen mit seiner Größe zusammenhängt.

Unterschied zwischen Methodenüberladung und Überschreiben in Java

AnomolyseErkennung - ist im Grunde eine Schwankung.

Zum Beispiel: Bei Hochspannung oder Niederspannung.

Ein weiteres Beispiel könnte ein reguliertes Verhalten sein, bei dem je nach Land auf der rechten oder linken Seite gefahren wird. Die Anomolyse hier ist jemand, der vom Gegenteil fährt.

Ein weiteres Beispiel könnte das Eindringen in das Netzwerk sein. Hier meldet sich ein authentifizierter Benutzer auf der Website Ihres Unternehmens an. Wenn sich dann ein nicht authentifizierter Benutzer anmeldet, handelt es sich um einenAn0moly.

Attribut Bedeutung - Es gibt grundsätzlich mehrere Attribute wie Größe, Gewicht, Temperatur, Herzschlag. Zu beachten ist, dass alle diese Attribute für eine Aufgabe wichtig sind.

Was ist Methodenüberladung und Methodenüberschreibung?

Zum Beispiel: Jemand versucht vorherzusagen, wann eine Person das Büro erreichen wird. Jedes Attribut spielt eine wichtige Rolle, aber nicht alle Attribute sind wichtig.

Assoziationsregeln - Einfacher ausgedrückt besteht die Analyse oder Vorhersage des nächsten Verhaltens, bei dem es um die Empfehlungs-Engine geht.

Zum Beispiel: Eine Person, die Brot kauft, kann auch Milch kaufen. Wenn wir das vergangene Einkaufsverhalten analysieren, haben alle Artikel im Warenkorb eine Beziehung. In diesem Fall besteht die Wahrscheinlichkeit, dass die Person, die Brot kauft, auch Milch kauft.

Clustering - Es ist eine der ältesten Techniken in der Statistik. Tatsächlich kann man jedes Problem immer modellieren, sei es Klassifizierung oder Clustering, was bedeutet, ähnliche Entitäten zu gruppieren.

Beispielsweise:

1) Nehmen Sie einen Korb mit Äpfeln und Orangen, in dem wir Äpfel von Orangen trennen können.

2) Ein wichtiger Anwendungsfall für Clustering ist das Gesundheitswesen. Fast alle Statistiken und Analysen begannen mit Anwendungsfällen im Gesundheitswesen. Um tiefer zu gehen, gibt es einen Clustering-Begriff namens Kohorten (Menschen mit ähnlichen Krankheiten), damit sie getrennt von bestehenden Kunden untersucht werden können. Wenn zum Beispiel 10 Menschen an Fieber und weitere 10 Menschen an Kopfschmerzen leiden, werden wir herausfinden, was zwischen ihnen gemeinsam ist, und Medikamente generieren.

Feature-Extraktion - Bei der Genauigkeit der Merkmalsextraktion sind Gültigkeit und Fehler sehr relevant. Mit anderen Worten kann die Merkmalsextraktion als Mustererkennung bezeichnet werden.

Jenkins gegen Marionette gegen Koch

Beispielsweise:

Wenn ein Nutzer in der Google-Suche einen Begriff eingibt, werden Ergebnisse angezeigt. Eine wichtige Frage ist nun, woher es wusste, welche Seite für den Begriff relevant und nicht relevant ist. Dies kann durch Merkmalsextraktion und Mustererkennung beantwortet werden, wobei herausragende Merkmale hinzugefügt werden. Nehmen wir an, ein Foto wird gegeben, bestimmte Kameras erkennen Gesichter, markieren das Gesicht, um schöne Bilder zu erhalten, und verwenden dabei auch die Funktionserkennung.

Überwachtes Lernen vs. unbeaufsichtigtes Lernen

zu) Vorhersagekategorie - Die Techniken umfassen Regression, Logistik, neuronale Netze und Entscheidungsbäume. Einige Beispiele umfassen die Betrugserkennung (bei der ein Computer den nächsten Betrug aus der Vorgeschichte des Betrugs lernt und vorhersagt). Beim unbeaufsichtigten Lernen kann man nicht anhand von Beispielen vorhersagen, da es keine historischen Daten gibt.

b) Klassifizierungskategorie - Wenn Sie ein Beispiel nehmen, ob die Transaktion betrügerisch ist oder nicht, wird sie in die Klassifizierungskategorie aufgenommen. Hier nehmen wir historische Daten und klassifizieren sie mit Entscheidungsbäumen. Falls wir überhaupt keine historischen Daten nehmen, beginnen wir direkt mit Daten und versuchen, Funktionen selbst zu nutzen. Zum Beispiel, wenn wir die Mitarbeiter kennen müssen, die wahrscheinlich die Organisation verlassen oder bleiben werden. Falls es sich um eine neue Organisation handelt, in der wir keine historischen Daten verwenden können, können wir immer Clustering für die Datenextraktion verwenden.

c) Explorationskategorie - Dies ist eine einfache Methode, um herauszufinden, was Big Data bedeutet. Beim unbeaufsichtigten Lernen spricht man von Hauptkomponenten und Clustering.

d) Affinitätskategorie - Hier sind mehrere Elemente beteiligt, wie Cross-Selling / Up-Selling, Warenkorbanalyse. In der Korbanalyse gibt es kein überwachtes Lernen, da es keine historischen Daten gibt. Wir nehmen also Daten direkt und finden Assoziationen, Sequenzierung und Faktoranalyse.

Hast du eine Frage an uns? Erwähnen Sie sie im Kommentarbereich und wir werden uns bei Ihnen melden.

Zusammenhängende Posts: