Κωδικός Μαθήματος

ΜΔΑ-200

Εξάμηνο Μαθήματος

1ου Εξαμήνου

Πιστωτικές Μονάδες

7,5

Ηλεκτρονικό Υλικό

https://evdoxos.ds.unipi.gr/courses/DSERV109

Κατηγορία Μαθήματος

Υποχρεωτικό

Διδάσκοντες

Χρήστος Δουλκερίδης

Α. Βλάχου

Μεγάλα Δεδομένα και Αναλυτική I: Τεχνικές και Εργαλεία

Στόχος

Ο κύριος στόχος του μαθήματος είναι να παρουσιάσει στους φοιτητές σύγχρονες τεχνικές, συστήματα και πλατφόρμες για αποδοτική διαχείριση και ανάλυση δεδομένων μεγάλης κλίμακας. Έμφαση θα δοθεί σε θέματα που σχετίζονται με τη δυνατότητα κλιμάκωσης, την αποτελεσματικότητα και την ανεκτικότητα σε λάθη στον πλήρη κύκλο ζωής των μεγάλης κλίμακας δεδομένων, από τη συλλογή δεδομένων μέχρι την ολοκλήρωση των δεδομένων και την ερμηνεία. Μια άλλη σημαντική κατεύθυνση είναι η ανάλυση διαφόρων τύπων δεδομένων συμπεριλαμβανομένου του κειμένου, δεδομένων από τον Παγκόσμιο Ιστό και τα κοινωνικά δίκτυα. Μέσα από το μάθημα αυτό, οι φοιτητές αναμένεται ότι θα αποκτήσουν σημαντικές τεχνικές δεξιότητες στη διαχείριση δεδομένων μεγάλης κλίμακας και θα μάθουν να σχεδιάζουν και να υλοποιούν αλγορίθμους ανάλυσης δεδομένων μεγάλης κλίμακας.

 

Περιεχόμενα

Μεγάλα δεδομένα και προηγμένες τεχνικές μοντελοποίησης (Big Data and ad-vanced modelling techniques)

Βασικές έννοιες. Εφαρμογές. Περιπτώσεις χρήσης. Ορισμοί. 6Vs -Volume, Variety, Velocity, Veracity, Validity και Volatility. Προηγμένες τεχνικές μοντελοποίησης σχετιζόμενες με Μεγάλα Δεδομένα. Διατύπωση προβλήματος. Απαιτήσεις για πλατφόρμες διαχείρισης μεγάλης κλίμακας δεδομένων. Ευκαιρίες και ερευνητικές προκλήσεις. Η διαδικασία ανάλυσης Μεγάλων Δεδομένων. Προκλήσεις που σχετίζονται με δεδομένα μεγάλης κλίμακας.

Αρχές κατανεμημένης και παράλληλης διαχείρισης δεδομένων (Principles of dis-tributed and parallel data management)

Φυσική αποθήκευση. Αποθήκευση κατά γραμμές και κατά στήλες. Τοπικά και καθολικά ευρετήρια. Τεχνικές διαμέρισης. Κατανεμημένη επεξεργασία επερωτήσεων. Βελτιστοποίηση επερωτήσεων. Εξισορρόπηση φόρτου.

Ολοκλήρωση δεδομένων (Data integration)

Τύποι δεδομένων (κείμενο, ημι-δομημένα, δομημένα, πολυδιάστατα). Από δεδομένα σε πληροφορία και σε γνώση. Λήψη δεδομένων. Καθαρισμός δεδομένων. Μεταχηματισμός δεδομένων. Ένωση δεδομένων. Ολοκλήρωση δεδομένων. Σημασιολογική ολοκλήρωση δεδομένων. Θέματα ιδιωτικότητας και ασφάλειας.

Μη-σχεσιακές βάσεις δεδομένων (NoSQL stores)

Κίνητρα για μη-σχεσιακές βάσεις δεδομένων. Σύγκριση με σχεσιακές βάσεις δεδομένων. Ιδιότητες ACID. Ιδιότητες BASE. Ενδεχόμενη συνέπεια δεδομένων. Αποθήκες ζεύγων κλειδί-τιμής. Αποθήκες εγγράφων (MongoDB, CouchDB). Επεκτάσιμες αποθήκες εγγραφών (Google’s BigTable, Cassandra).

Η μη-σχεσιακή βάση MongoDB (MongoDB)

Παρουσίαση της MongoDB. Αρχιτεκ-τονική της MongoDB. Query router. Config servers. Shards. Αντίγραφα. Λειτουργίες υποστηριζόμενες από την MongoDB.

Εξόρυξη δεδομένων και αναλυτική (Data mining and analytics)

Προκλήσεις για αναλυτική δεδομένων μεγάλης κλίμακας. Το Apache Mahout. Εξόρυξη δεδομένων και αναλυτική. Συσταδοποίηση. Κατηγοριοποίηση. Συστήματα συστάσεων.

Αναλυτική σε πραγματικό χρόνο Ι (Real-time analytics I)

Επεξεργασία ροών δεδομένων και αναλυτική. Αναλυτική σε πραγματικό χρόνο. Προγραμματισμός με το Apache Storm. Υψηλότερου επίπεδου αφαιρέσεις στο Storm (Trident).

Αναλυτική σε πραγματικό χρόνο II (Real-time analytics II)

Η περίπτωση επεξεργασίας και αναλυτικής στη μνήμη. Επεξεργασία πολύπλοκων γεγονότων. Το Apache Spark. Σύγκριση μεταξύ Spark και Hadoop. Το micro-batching και το Spark streaming. SparkSQL.

Αναλυτική του Παγκόσμιου Ιστού (Web analytics)

Επιστήμη παγκόσμιου ιστού. Αλγόριθμοι αναζήτησης. Κατάταξη. Ανάλυση ιστορικού κινήσεων. Ανάλυση κίνησης ιστοτόπων ιστορικό επισκέψεων, ροές επισκέψεων, ιστορικό επερωτήσεων, και εμφανίσεις ιστοσελίδων.

Ανάλυση χρονοσειρών (Time series analysis)

Παραδείγματα και κίνητρα. Εντοπισμός τάσεων. Κινούμενοι μέσοι όροι. Εξομάλυνση. Συνάρτηση συσχέτισης.

Προτεινόμενα Συγγράμματα

  • Özsu, M. T., Valduriez P. (2011): Principles of Distributed Database Systems, Third Edition. Springer, ISBN 978-1-4419-8833-1, pp. I-XIX, 1-845.
  • Jagadish, H. V., Gehrke, J., Labrinidis, A., Papakonstantinou, Y., Patel, J. M., Ramakrishnan, R., Shahabi, C. (2014): Big Data and Its Technical Challenges. Communications of the ACM, Vol. 57 No. 7, pages 86-94.
  • Catell, R. (2010): Scalable SQL and NoSQL data stores. ACM SIGMOD Record, Volume 39 Issue 4, December 2010, pages 12-27.
  • White, T. (2012): Hadoop: The Definitive Guide, 3rd Edition. O’Reilly Media, ISBN-10: 1449311520.
  • Abadi, D. et al. (2016): The Beckman Report on Database Research. Communications of the ACM, Vol. 59 No. 2, pages 92-99.

Πρόσθετα Συγγράμματα

  • Golab, L., Özsu, M.T. (2010): Data Stream Management. Morgan & Claypool Publishers, Synthesis Lectures on Data Management.
  • Aggarwal, C.C. (2011): Social Network Data Analytics, Springer, ISBN: 978-1-4419-8462-3.
  • Mohan, C. (2013): History Repeats Itself: Sensible and NonsenSQL Aspects of the NoSQL Hoopla. Proceedings of EDBT’13, Genoa, Italy.
  • Επιλεγμένα ερευνητικά άρθρα.