Clustering | Notion

F: Erkläre Kdd prozess I: Erklärt F: Welche Dinge in mining? I: Alle aufgezählt F: Okay, heute geht es um Density based clustering F: Wie funktioniert Dbscan? I: Parameter und Konzepte erklärt, dann kurz Algorithmus erklärt F: Wie setzt man Parameter? I: Elbow plot, minpts = 2d F: Wie liest man epsilon aus? I: Kurz bisschen drumrumgeredet und erklärt wie der plot aussieht, dann auf seine Nachfrage nochmal erklärt dass man das epsilon auf die minpts distance von dem Objekt am elbow setzt F: Hat der plot immer einen elbow? I: Nein, falls keine noise und nur ein gleich dichtes cluster F: Wie sieht plot dann aus? I: Gerade Linie parallel zu x achse F: Kann die Linie trotzdem negative Steigung haben? I: Ja wenn es unterschiedlich dichte cluster gibt F: Wie kann man das lösen? I: OPTICS, hatte das vorher schonmal erwähnt gehabt und dachte er wolle noch etwas anderes hören, hab dann versucht das anders zu lösen aber er meinte dann ich hätte es ja schon gesagt, dann wusste ich dass er natürlich optics meint, glaube er wollte einfach nur nochmal dass ich es wiederhole F: Wie funktioniert das? I: Erklärt, prio queue, was ausgegeben wird, cdist und rdist erklärt, wie sortiert und die prio queue geupdated wird F: Okay, dann erhalte ich einen reachability plot... Was bringt der mir? I: Cluster auslesen durch krater F: Wie würde man daraus ein dendrogramm bauen? I: Rekursiv die subcluster rausziehen, also krater in kratern, hab etwas mehr erklärt wie man das machen könnte, man muss die epsilons der weniger dichten cluster Zwischenspeicher, er war zufrieden mit der antwort F: Welche Laufzeit hat optics und dbscan? I: Erklärt, linear in n und eps quer Komplexität, mit index n log n F: Welcher Index wäre dafür geeignet? I: R Baum, da Laufzeit Garantie F: Wie würde so eine nachbarschaftsquery beantwortet? I: Prio queue, immer vordersten knoten holen und Kinder expandieren und wieder in prio queue