Κωδικός Μαθήματος

ΜΔΑ-230

Εξάμηνο Μαθήματος

1ου Εξαμήνου

Πιστωτικές Μονάδες

7,5

Ηλεκτρονικό Υλικό

https://evdoxos.ds.unipi.gr/courses/DSERV113

Κατηγορία Μαθήματος

Υποχρεωτικό

Εξόρυξη Δεδομένων και Προβλεπτική Αναλυτική

Στόχος

Η δυνατότητα για συλλογή και αποθήκευση δεδομένων έχει αυξηθεί σημαντικά ως αποτέλεσμα της καινοτομίας σε διάφορους τομείς, όπως το διαδίκτυο, το ηλεκτρονικό εμπόριο, ηλεκτρονικές συναλλαγές , αναγνώστες bar-code, κινητές συσκευές και ευφυείς μηχανές. Η εξόρυξη δεδομένων είναι ένας ταχέως αναπτυσσόμενος τομέας που ασχολείται με την ανάπτυξη τεχνικών οι οποίες έχουν σαν στόχο να βοηθήσουν τους κατόχους των δεδομένων να κάνουν έξυπνη χρήση αυτών των συλλογών. Επίσης σε συνδυασμό με τεχνικές προβλέψεις μπορούν να αξιοποιήσουν υπάρχουσα πληροφορία για να κάνουν προβλέψεις για το μέλλον και να λάβουν αποφάσεις.
Στα πλαίσια του μαθήματος αυτού θα εξετάσουμε μεθόδους που βοηθούν στην ανάλυση των δεδομένων, την εξαγωγή χρήσιμων προτύπων γνώσης από αυτά καθώς και στη διαδικασία προβλέψεων και λήψης αποφάσεων.

 

Περιεχόμενα

Βασικές έννοιες στην εξόρυξη δεδομένων και προετοιμασία δεδομένων.

Απαιτήσεις και ανασκόπηση των βασικών εργασιών εξόρυξης δεδομένων. Καθαρισμός δεδομένων, μετασχηματισμός. Μέτρα ομοιότητας, απόστασης. Σύνοψη μεθόδων αναλυτικής πρόβλεψης.

Παλινδρόμηση (Regression).

Γραμμική-πολλαπλή γραμμική παλινδρόμηση, λογιστική παλινδρόμηση, αντίστροφη κανονική παλινδρόμηση (Probit regression), φασματική παλιδρόμηση, πολυμεταβλητή ανάλυση διακύμανσης (ANOVA-MANOVA). Διερευνητική ανάλυση παραγόντων. Εξόρυξη από βάση δεδομένων και προηγμένες τεχνικές πρόβλεψης. Πειραματικός σχεδιασμός. (Experimental design). Μοντελοποίηση πρόβλεψης βασισμένη σε παλινδρόμηση (forecast prediction, cancer prediction).

Συσταδοποίηση (Clustering).

Παρουσίαση βασικών αλγορίθμων συσταδοποίησης για μεγάλες βάσεις δεδομένων. Φασματικές μέθοδοι συσταδοποίησης (Spectral clustering). Διαχωριστική-ιεραρχική συσταδοποίηση. Συσταδοποίηση μη γραμμικά διαχωρίσιμων δεδομένων. Ασαφής συσταδοποίηση. Τεχνικές αξιολόγησης αποτελεσμάτων συσταδοποίησης.

Κατηγοριοποίηση (Classification).

Βασικά είδη κατηγοριοποίησης. Στατιστική ταξινόμηση. Ανάλυση συνάρτησης διάκρισης (Discriminant function analysis). Μηχανές διανυσμάτων στήριξης. Κριτήρια αξιόλογησης μεθόδων κατηγοριοποίησης. Διαξονική κατηγοριοποίηση (Cross-classifications analysis). Τυπικές εφαρμογές.

Κανόνες συσχέτισης.

Aλγόριθμος Apriori, σύγκριση αλγορίθμων, αντιπροσωπευτικοί κανόνες συσχέτισης.

Εξόρυξη γνώσης από ροές δεδομένων.

Μοντέλο αναπαράσταση ροών δεδομένων, τεχνικές συσταδοποίησης ροών δεδομένων.

Συστήματα συστάσεων (recommendation systems).

Βασικές τεχνικές συστάσεων. Συνεργατικό φιλτράρισμα (Collaborative filtering), προσεγγίσεις βασισμένες στο περιεχόμενο (Content-based), παραγοντοποίηση μήτρας (Matrix Factorization).

Ανάλυση κοινωνικών δικτύων.

Μοντελοποίηση δικτύου, μετρικές σε γράφους (βαθμός, betweenness centrality, connected components), συντελεστής συσταδοποίησης (clustering coefficient).

Εξόρυξη γνώσης από κείμενα (Text mining).

Μοντέλο αναπαράσταση κειμένου, μέτρα ομοιότητας, μοντέλα πρόβλεψης για κείμενο, τεχνικές συσταδοποίησης.

Ανάλυση συνδέσμων (Link Analysis).

Θέματα ανάλυσης υπερσυνδέσμων, αλγόριθμοι κατάταξης (Page ranking algorithms), Hubs and authorities (HITS).

Προτεινόμενα Συγγράμματα

  • Daniel T. Larose, Chantal D. Larose Data Mining and Predictive Analytics, Wiley, 2015 (2nd Edition).
  • Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets. Cam-bridge University Press. 2014 (2nd Edition).