Classification and Clustering

Was ist kdd Prozess
Was ist CRISPR? Vergleichen sie bitte
Was ist Overfitting?
Was ist der One Rule Classifier?
Was könnte hier ein Problem sein?
1. Stehe auf dem Schlauch
(Hilfestellung) Nehmen wir Mal an wir arbeiten mit numerischen Werten
Können wir auch bei Klassifikation overfitten?
1. Ja, Beispiel Decision Tree
Wie können wir bei Decision Trees Overfitting vermeiden?
1. Post und Prepruning erklärt
Können Ensembles Overfitting verringern/vermeiden?
1. Bagging, Boosting, Stacking (wie funktioniert das und warum das Varianz verringert)
Können wir auch bei Clustering Overfitten?
(Hilfestellung) Schauen wir uns Mal k-means an, wie können wir hier Overfitten?
1. k zu groß
Wie wählen wir das k?
1. Silhouette Coefficient + Formel
Was sind gute und schlechte Werte für den Silhouette Coef.?
1. Anhand der Formel erklärt (-1 schlecht, 1 gut)
Können wir bei DBSCAN overfitten?
1. Beispiel → kommt auf die Wahl von MinPoints und Epsilon an
Wie wählen wir epsilon und MinPoints?
1. Faustregel mit MinPoints = 2*d, und Epsilon aus Plot rauslesen (Elbow). (Leider wusste ich nicht mehr wie genau der Plot entsteht)
Nachfrage zur Entstehung des Plots?
1. Wusste ich nicht
Kann es vorkommen das dieser Plot kein Elbow hat, wenn ja wann ist das der Fall?
1. Wenn die Cluster unterschiedliche Dichte haben → Daten ggf. anschauen oder Hierarchischen Ansatz wählen
Zeit ist rum.