Στόχος
Η δυνατότητα για συλλογή και αποθήκευση δεδομένων έχει αυξηθεί σημαντικά ως αποτέλεσμα της καινοτομίας σε διάφορους τομείς, όπως το διαδίκτυο, το ηλεκτρονικό εμπόριο, ηλεκτρονικές συναλλαγές , αναγνώστες bar-code, κινητές συσκευές και ευφυείς μηχανές. Η εξόρυξη δεδομένων είναι ένας ταχέως αναπτυσσόμενος τομέας που ασχολείται με την ανάπτυξη τεχνικών οι οποίες έχουν σαν στόχο να βοηθήσουν τους κατόχους των δεδομένων να κάνουν έξυπνη χρήση αυτών των συλλογών.
Στα πλαίσια του μαθήματος αυτού οι φοιτητές θα γνωρίσουν μεθόδους που βοηθούν στην ανάλυση των δεδομένων, την εξαγωγή χρήσιμων προτύπων γνώσης από αυτά καθώς και στη διαδικασία λήψης αποφάσεων.
Περιεχόμενα Μαθήματος
Βασικές έννοιες στην εξόρυξη δεδομένων και προετοιμασία δεδομένων.
Απαιτήσεις και ανασκόπηση των βασικών εργασιών εξόρυξης δεδομένων. Καθαρισμός δεδομένων, μετασχηματισμός. Μέτρα ομοιότητας, απόστασης. Σύνοψη μεθόδων αναλυτικής πρόβλεψης.
Συσταδοποίηση (Clustering).
Παρουσίαση βασικών αλγορίθμων συσταδοποίησης για μεγάλες βάσεις δεδομένων. Φασματικές μέθοδοι συσταδοποίησης (Spectral clustering). Διαχωριστική-ιεραρχική συσταδοποίηση. Συσταδοποίηση μη γραμμικά διαχωρίσιμων δεδομένων. Ασαφής συσταδοποίηση. Τεχνικές αξιολόγησης αποτελεσμάτων συσταδοποίησης.
Παλινδρόμηση (Regression).
Γραμμική-πολλαπλή γραμμική παλινδρόμηση, λογιστική παλινδρόμηση, αντίστροφη κανονική παλινδρόμηση (Probit regression), φασματική παλιδρόμηση, πολυμεταβλητή ανάλυση διακύμανσης (ANOVA-MANOVA). Διερευνητική ανάλυση παραγόντων. Εξόρυξη από βάση δεδομένων και προηγμένες τεχνικές πρόβλεψης. Πειραματικός σχεδιασμός. (Experimental design). Μοντελοποίηση πρόβλεψης βασισμένη σε παλινδρόμηση (forecast prediction, cancer prediction).
Κατηγοριοποίηση (Classification).
Βασικά είδη κατηγοριοποίησης. Στατιστική ταξινόμηση. Ανάλυση συνάρτησης διάκρισης (Discriminant function analysis). Κριτήρια αξιόλογησης μεθόδων κατηγοριοποίησης. Διαξονική κατηγοριοποίηση (Cross-classifications analysis). Τυπικές εφαρμογές.
Αλγόριθμοι κατηγοριοποίησης.
Δέντρα αποφάσεων. Μηχανές διανυσμάτων στήριξης. Εφαρμογές με WEKA.
Τεχνικές μείωσης διαστάσεων.
Το πρόβλημα των πολλών διαστάσεων. Παρουσίαση βασικών τεχνικών μείωσης διαστάσεων (PCA, SVD)
Ανάλυση συνδέσμων (Link Analysis).
Θέματα ανάλυσης υπερσυνδέσμων, αλγόριθμοι κατάταξης (Page ranking algorithms), Hubs and authorities (HITS)
Ανάλυση κοινωνικών δικτύων.
Μοντελοποίηση δικτύου, μετρικές σε γράφους (βαθμός, betweenness centrality, connected components), συντελεστής συσταδοποίησης (clustering coefficient).
Εξαγωγή κοινοτήτων από γράφους.
Εισαγωγή στις βασικές έννοιες της ομαδοποίησης σε δεδομένα γράφων. Βασικές τεχνικές εξαγωγής κοινοτήτων από γράφους.
Εξόρυξη γνώσης από κείμενα (Text mining).
Μοντέλο αναπαράσταση κειμένου, μέτρα ομοιότητας, μοντέλα πρόβλεψης για κείμενο, τεχνικές συσταδοποίησης.
Προτεινόμενα Συγγράμματα
- Daniel T. Larose, Chantal D. Larose. Data Mining and Predictive Analytics, Wiley, 2015 (2nd Edition)
- Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets. Cam-bridge University Press. 2014 (2nd Edition).