Κωδικός Μαθήματος

ΜΔΑ-283

Εξάμηνο Μαθήματος

1ου Εξαμήνου

Πιστωτικές Μονάδες

7,5

Ηλεκτρονικό Υλικό

https://lefkippos.ds.unipi.gr/courses/DSERV113/

Κατηγορία Μαθήματος

Υποχρεωτικό

Εξόρυξη και Προετοιμασία Δεδομένων

Στόχος

Η δυνατότητα για συλλογή και αποθήκευση δεδομένων έχει αυξηθεί σημαντικά ως αποτέλεσμα της καινοτομίας σε διάφορους τομείς, όπως το διαδίκτυο, το ηλεκτρονικό εμπόριο, ηλεκτρονικές συναλλαγές , αναγνώστες bar-code, κινητές συσκευές και ευφυείς μηχανές. Η εξόρυξη δεδομένων είναι ένας ταχέως αναπτυσσόμενος τομέας που ασχολείται με την ανάπτυξη τεχνικών οι οποίες έχουν σαν στόχο να βοηθήσουν τους κατόχους των δεδομένων να κάνουν έξυπνη χρήση αυτών των συλλογών.

Στα πλαίσια του μαθήματος αυτού θα εξετάσουμε μεθόδους που βοηθούν στην επιλογή και προετοιμασία των δεδομένων πριν την εφαρμογή τεχνικών ανάλυσης και εξόρυξης γνώσης. Στη συνέχεια θα παρουσιαστούν  οι βασικές τεχνικές οι οποίες χρησιμοποιούνται για την εξαγωγή χρήσιμων προτύπων γνώσης από συλλογές μεγάλου όγκου δεδομένων. Θα μελετηθούν τεχνικές που αφορούν στην ανάλυση διαφόρων τύπων δεδομένων συμπεριλαμβανομένου του κειμένου, δεδομένων από τον Παγκόσμιο Ιστό και τα κοινωνικά δίκτυα. Μέσα από το μάθημα αυτό, οι φοιτητές αναμένεται ότι θα αποκτήσουν σημαντικές τεχνικές δεξιότητες σε ότι αφορά στη ανάλυση δεδομένων και θα εξοικειωθούν με αλγορίθμους και μεθόδους  εξόρυξης γνώσης.

Περιεχόμενα Μαθήματος

Βασικές έννοιες στην εξόρυξη δεδομένων και προετοιμασία δεδομένων.

Απαιτήσεις και ανασκόπηση των βασικών εργασιών εξόρυξης δεδομένων. Καθαρισμός δεδομένων, μετασχηματισμός. Μέτρα ομοιότητας, απόστασης. Σύνοψη μεθόδων αναλυτικής πρόβλεψης.

Συσταδοποίηση (Clustering).

Παρουσίαση βασικών αλγορίθμων συσταδοποίησης για μεγάλες βάσεις δεδομένων. Φασματικές μέθοδοι συσταδοποίησης (Spectral clustering). Διαχωριστική-ιεραρχική συσταδοποίηση. Συσταδοποίηση μη γραμμικά διαχωρίσιμων δεδομένων.  Ασαφής συσταδοποίηση. Τεχνικές αξιολόγησης αποτελεσμάτων συσταδοποίησης.

Κατηγοριοποίηση (Classification).

Βασικά είδη κατηγοριοποίησης. Στατιστική ταξινόμηση. Ανάλυση συνάρτησης διάκρισης (Discriminant function analysis). Μηχανές διανυσμάτων στήριξης. Κριτήρια αξιόλογησης μεθόδων κατηγοριοποίησης. Διαξονική κατηγοριοποίηση (Cross-classifications analysis). Τυπικές εφαρμογές.

Τεχνικές μείωσης διαστάσεων.

Το πρόβλημα των πολλών διαστάσεων. Παρουσίαση βασικών τεχνικών μείωσης διαστάσεων (PCA, SVD)

Κανόνες συσχέτισης, συχνά εμφανισζόμενα σύνολα αντικειμένων.

Aλγόριθμος Apriori, σύγκριση αλγορίθμων, αντιπροσωπευτικοί κανόνες συσχέτισης.

Ανάλυση συνδέσμων (Link Analysis).

Θέματα ανάλυσης υπερσυνδέσμων, αλγόριθμοι κατάταξης (Page ranking algorithms), Hubs and authorities (HITS)

Ανάλυση κοινωνικών δικτύων.

Μοντελοποίηση δικτύου, μετρικές σε γράφους (βαθμός, betweenness centrality, connected components), συντελεστής συσταδοποίησης (clustering coefficient).

Εξαγωγή κοινοτήτων από γράφους.

Εισαγωγή στις βασικές έννοιες της ομαδοποίησης σε δεδομένα γράφων. Βασικές τεχνικές εξαγωγής κοινοτήτων από γράφους.

Εξόρυξη γνώσης από κείμενα (Text mining).

Μοντέλο αναπαράσταση κειμένου, μέτρα ομοιότητας, μοντέλα πρόβλεψης για κείμενο, τεχνικές συσταδοποίησης.

Συστήματα παραγωγής συστάσεων.

Συστήματα με βάση το περιεχόμενο, συστήματα συνεργατικού φιλτραρίσματος (collaborative filtering), εξατομίκευση, τεχνικές εξόρυξης γνώσης για συστήματα συστάσεων μεγάλης κλίμακας, αξιολόγηση συστημάτων συστάσεων, εφαρμογές των συστημάτων σύστασης.

Προτεινόμενα Συγγράμματα

  • Daniel T. Larose, Chantal D. Larose Data Mining and Predictive Analytics, Wiley, 2015 (2nd Edition)
  • Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets. Cam-bridge University Press. 2014 (2nd Edition).
  • Han and M. Kamber . Data Mining: Concepts and Techniques. Morgan Kaufmann, 2006