Hatte ebenfalls Overfitting (direkt danach :D) Hier schonmal meine Fragen:
- Was ist der KDD Process?
- Warum genau transformieren wir die Daten und wie sieht eine Transformation aus? (Normalisierung bspw. Linear Classifier)
- Wie steht der CRIPSP DM im Verhältnis zum KDD?
Beschreiben sie den One Rule Classifier? Wo liegen seine Probleme?(Overfitting)
- Was ist Overfitting und warum ist es problematisch?
Nennen sie ein Beispiel für Overfitting bezogen auf Cluster? (K-Means mit K Clustern genannt)
- Wie kann Overfitting bei k-means „vermieden“ bzw. erkannt werden kann. (Silhouette Koeffizient mit Formel erklärt)
- Gibt es Ensemble Methoden um Overfitting zu vermeiden? (Bagging)
- Wie verhält sich die Laufzeit der unterschiedlichen Ensemble Methoden zueinander (Parallelisierung)?
- Gibt es bei der DBSCAN ebenfalls overfitting und wie kann dies aussehen?
- Was genau bedeuten die Parameter bei DBSCAN und wie wählen wir sie? (Elbow plot erklärt und Heuristik minPoints=2*d)
- Funktioniert das mit dem Plot immer?
- Wie können wir das Problem umgehen (OPTICS)?
- Zu welcher Art von Clustering gehört OPTICS?