Κωδικός Μαθήματος

ΠΠΣ-188

Εξάμηνο Μαθήματος

2ου Εξαμήνου

Πιστωτικές Μονάδες

7,5

Ηλεκτρονικό Υλικό

Κατηγορία Μαθήματος

Υποχρεωτικό

Διδάσκοντες Μαθήματος

Στόχος

Η δυνατότητα για συλλογή και αποθήκευση δεδομένων έχει αυξηθεί σημαντικά ως αποτέλεσμα της καινοτομίας σε διάφορους τομείς, όπως το διαδίκτυο, το ηλεκτρονικό εμπόριο, ηλεκτρονικές συναλλαγές , αναγνώστες bar-code, κινητές συσκευές και ευφυείς μηχανές.Η εξόρυξη δεδομένων είναι ένας ταχέως αναπτυσσόμενος τομέας που ασχολείται με την ανάπτυξη τεχνικών οι οποίες έχουν σαν στόχο να βοηθήσουν τους κατόχους των δεδομένων να κάνουν έξυπνη χρήση αυτών των συλλογών.

Στα πλαίσια του μαθήματος αυτού οι φοιτητές θα γνωρίσουν μεθόδους που βοηθούν στην ανάλυση των δεδομένων, την εξαγωγή χρήσιμων προτύπων γνώσης από αυτά καθώς και στη διαδικασία λήψης αποφάσεων.

Οι φοιτητές μετά την επιτυχή ολοκλήρωση του μαθήματος θα μπορούν:

  • να κατανοούν τις βασικές τεχνικές εξόρυξης δεδομένων,
  • να γνωρίζουν μεθόδους συσταδοποίησης, κατηγοριοποίησης, παλινδρόμησης,
  • να εφαρμόζουν και να υλοποιούν αλγόριθμους εξόρυξης δεδομένων,
  • να εφαρμόζουν τεχνικές ανάλυσης δεδομένων σε δεδομένα κειμένων, σε δεδομένα παγκόσμιου ιστού, και σε δεδομένα κοινωνικών δικτύων.

Μαθησιακά Αποτελέσματα

  • Αναζήτηση, ανάλυση και σύνθεση δεδομένων και πληροφοριών, με τη χρήση και των απαραίτητων τεχνολογιών
  • Αυτόνομη εργασία
  • Προσαρμογή σε νέες καταστάσεις
  • Λήψη αποφάσεων
  • Παράγωγή νέων ερευνητικών ιδεών
  • Σχεδιασμός και διαχείριση έργων
  • Άσκηση κριτικής και αυτοκριτικής

Περιεχόμενα Μαθήματος

  • Βασικές έννοιες στην εξόρυξη δεδομένων και προετοιμασία δεδομένων

    Απαιτήσεις και ανασκόπηση των βασικών εργασιών εξόρυξης δεδομένων. Καθαρισμός δεδομένων, μετασχηματισμός. Μέτρα ομοιότητας, απόστασης. Σύνοψη μεθόδων αναλυτικής πρόβλεψης.

     

  • Συσταδοποίηση (Clustering)

    Παρουσίαση βασικών αλγορίθμων συσταδοποίησης για μεγάλες βάσεις δεδομένων. Φασματικές μέθοδοι συσταδοποίησης (Spectral clustering). Διαχωριστική-ιεραρχική συσταδοποίηση. Συσταδοποίηση μη γραμμικά διαχωρίσιμων δεδομένων.  Ασαφής συσταδοποίηση. Τεχνικές αξιολόγησης αποτελεσμάτων συσταδοποίησης.

     

  • Παλινδρόμηση (Regression)

    Γραμμική-πολλαπλή γραμμική παλινδρόμηση, λογιστική παλινδρόμηση, αντίστροφη κανονική παλινδρόμηση (Probit regression), φασματική παλιδρόμηση, πολυμεταβλητή ανάλυση διακύμανσης (ANOVA-MANOVA). Διερευνητική ανάλυση παραγόντων. Εξόρυξη από βάση δεδομένων και προηγμένες τεχνικές πρόβλεψης. Πειραματικός σχεδιασμός. (Experimental design). Μοντελοποίηση πρόβλεψης βασισμένη σε παλινδρόμηση (forecast prediction, cancer prediction).

     

  • Κατηγοριοποίηση (Classification)

    Βασικά είδη κατηγοριοποίησης. Στατιστική ταξινόμηση. Ανάλυση συνάρτησης διάκρισης (Discriminant function analysis).  Κριτήρια αξιόλογησης μεθόδων κατηγοριοποίησης. Διαξονική κατηγοριοποίηση (Cross-classifications analysis). Τυπικές εφαρμογές.

     

  • Αλγόριθμοι κατηγοριοποίησης

    Δέντρα αποφάσεων. Μηχανές διανυσμάτων στήριξης. Εφαρμογές με WEKA.

  • Τεχνικές μείωσης διαστάσεων

    Το πρόβλημα των πολλών διαστάσεων. Παρουσίαση βασικών τεχνικών μείωσης διαστάσεων (PCA, SVD).

     

  • Ανάλυση συνδέσμων (Link Analysis)

    Θέματα ανάλυσης υπερσυνδέσμων, αλγόριθμοι κατάταξης (Page ranking algorithms), Hubs and authorities (HITS).

     

  • Ανάλυση κοινωνικών δικτύων

    Μοντελοποίηση δικτύου, μετρικές σε γράφους (βαθμός, betweenness centrality, connected components), συντελεστής συσταδοποίησης (clustering coefficient).

     

  • Εξαγωγή κοινοτήτων από γράφους

    Εισαγωγή στις βασικές έννοιες της ομαδοποίησης σε δεδομένα γράφων. Βασικές τεχνικές εξαγωγής κοινοτήτων από γράφους.

     

  • Εξόρυξη γνώσης από κείμενα (Text mining)

    Μοντέλο αναπαράσταση κειμένου, μέτρα ομοιότητας, μοντέλα πρόβλεψης για κείμενο, τεχνικές συσταδοποίησης.

     

Βιβλιογραφία