Κωδικός Μαθήματος

ΠΠΣ-160

Εξάμηνο Μαθήματος

2ου Εξαμήνου

Πιστωτικές Μονάδες

7,5

Ηλεκτρονικό Υλικό

https://evdoxos.ds.unipi.gr/courses/DSERV107

Κατηγορία Μαθήματος

Υποχρεωτικό

Μεγάλα Δεδομένα και Αναλυτική

Στόχος

Ο κύριος στόχος του μαθήματος είναι να παρουσιάσει στους φοιτητές σύγχρονες τεχνικές, συστήματα και πλατφόρμες για αποδοτική διαχείριση και ανάλυση δεδομένων μεγάλης κλίμακας. Έμφαση θα δοθεί σε θέματα που σχετίζονται με τη δυνατότητα κλιμάκωσης, την αποτελεσματικότητα και την ανεκτικότητα σε λάθη στον πλήρη κύκλο ζωής των μεγάλης κλίμακας δεδομένων, από τη συλλογή δεδομένων μέχρι την ολοκλήρωση των δεδομένων και την ερμηνεία. Μια άλλη σημαντική κατεύθυνση είναι η ανάλυση διαφόρων τύπων δεδομένων συμπεριλαμβανομένου του κειμένου, δεδομένων από τον Παγκόσμιο Ιστό και τα κοινωνικά δίκτυα. Μέσα από το μάθημα αυτό, οι φοιτητές αναμένεται ότι θα αποκτήσουν σημαντικές τεχνικές δεξιότητες σε ότι αφορά στη διαχείριση δεδομένων μεγάλης κλίμακας και θα εξοικειωθούν με αλγορίθμους και μεθόδους ανάλυσης δεδομένων μεγάλης κλίμακας.

 

Περιεχόμενα

Μεγάλα δεδομένα

Βασικές έννοιες, εφαρμογές, περιπτώσεις χρήσης, ορισμοί, 6Vs -Volume, Variety, Velocity, Veracity, Validity and Volatility, ανοικτά ερευνητικά θέματα, απαιτήσεις για πλατφόρμες διαχείρισης μεγάλης κλίμακας δεδομένων, κυκλος ζωής ανάλυσης δεδομένων μεγάλης κλίμακας συλλογή δεδομένων και καταγραφή, εξαγωγή πληροφοριών και καθαρισμός δεδομένων, συνάθροιση δεδομένων, ολοκλήρωση και αναπαράσταση, επεξεργασία ερωτημάτων, μοντελοποίηση δεδομένων και ανάλυση, ερμηνεία. Προκλήσεις που σχετίζονται με δεδομένα μεγάλης κλίμακας ετερογένεια και μη-πληρότητα, κλιμάκωση, επικαιρότητα, ασφάλεια και ιδιωτικότητα, ανθρώπινη συνεργασία.

Μαζική επεξεργασία δεδομένων μεγάλης κλίμακας

Δυνατότητα κλιμάκωσης, αποδοτικότητα, ανεκτικότητα σε λάθη, προγραμματιστικές λύσεις για ανάλυση δεδομένων μεγάλης κλίμακας, MapReduce/Hadoop, HDFS, Hadoop οικοσύστημα, HBase, δηλωτική υποβολή ερωτημάτων, υψηλού επιπέδου γλώσσες επερωτήσεων (Hive, Pig), Apache Mahout.

Eπεξεργασία δεδομένων μεγάλης κλίμακας σε πραγματικό χρόνο

Επεξεργασία ροών δεδομένων, επεξεργασία δεδομένων σε πραγματικό χρόνο, συστήματα διαχείρισης δεδομένων στη κύρια μνήμη, προγραμματισμός με Storm, υψηλού επιπέδου αφαιρέσεις πάνω από Storm (Trident).

Νέες τάσεις στη διαχείριση μεγάλου όγκου δεδομένων

NoSQL stores, key-value stores, document stores (MongoDB, CouchDB), extensible record stores (Google’s BigTable, Cassandra), σύγχρονες τεχνικές διαχείρισης δεδομένων μεγάλης κλίμακας, διερεύνηση δεδομένων, επεξεργασία στη μνήμη, επιτόπια επεξεργασία, οπτικοποίηση δεδομένων, καινοτόμες πλατφόρμες (Pregel, Dremel, Giraph, F1, HANA).

Τεχνικές μηχανικής μάθησης για μεγάλης κλίμακας δεδομένα. Μη επιβλεπόμενη μάθηση

Αντιπροσωπευτικοί αλγόριθμοι συσταδοποίησης, συσταδοποίηση για ροές δεδομένων. Εποπτευόμενη μάθηση δέντρα αποφάσεων, Support Vector Machines. Αλγόριθμοι ημι-εποπτευόμενης μάθησης.

Ανάλυση δεδομένων από κοινωνικα δίκτυο

Δεδομένα από κοινωνικά δίκτυα, αναπαραστάσεις, διαχείριση, προκλήσεις στη διαχείριση δεδομένων από κοινωνικά δίκτυα, δομικές ιδιότητες των κοινωνικών δικτύων κεντρικότητα, βαθμός, ισορροπία, ενδιαφέροντα προβλήματα στην ανάλυση κοινωνικών δικτύων ανίχνευση κοινοτήτων, ανακάλυψη κόμβων που παρουσιάζουν ενδιαφέρον, κατηγοριοποίηση κόμβων, ανακάλυψη ροών πληροφορίας, επιρροή κόμβου.

Αναλυτική του Παγκόσμιου Ιστού

Αλγόριθμοι αναζήτησης, κατάταξη, ανάλυση συνδέσμων (PageRank, HITS), ανάλυση κυκλοφορίας ιστοχώρων όπως click streams, παραπομπές, λέξεις-κλειδιά, προβολές σελίδων, διαφήμιση στο Διαδίκτυο.

Συστήματα παραγωγής συστάσεων

Συστήματα με βάση το περιεχόμενο, συστήματα συνεργατικού φιλτραρίσματος (collaborative filtering), εξατομίκευση, τεχνικές εξόρυξης γνώσης για συστήματα συστάσεων μεγάλης κλίμακας, αξιολόγηση συστημάτων συστάσεων, εφαρμογές των συστημάτων σύστασης.

Αναλυτική και μαθηματικά

Μαθηματικά εργαλεία και αναλυτική, επιστήμη δεδομένων, μοντελοποίηση και ανάλυση των δεδομένων μεγάλης κλίμακας, αναλυτική προβλέψεων, στατιστική ανάλυση, ανάλυση παλινδρόμησης, εφαρμοσμένη στατιστική, δειγματοληψία, χρονοσειρές.

Περιοχές εφαρμογής της αναλυτικής

Επιχειρηματική αξία της αναλυτικής, λήψη αποφάσεων οδηγούμενη από τα δεδομένα, αναλυτική με εφαρμογή στην υγειονομική περίθαλψη (healthcare analytics), μοντέλο υιοθέτησης αναλυτικής, ανάλυση των επιστημονικών δεδομένων.

Προτεινόμενα Συγγράμματα

  • Jagadish, H. V., Gehrke, J., Labrinidis, A., Papakonstantinou, Y., Patel, J. M., Rama-krishnan, R., Shahabi, C. (2014): Big Data and Its Technical Challenges. Communica-tions of the ACM, Vol. 57 No. 7, pages 86-94.
  • Catell, R. (2010): Scalable SQL and NoSQL data stores. ACM SIGMOD Record, Volume 39 Issue 4, December 2010, pages 12-27.
  • White, T. (2010): Hadoop: The Definitive Guide, 2nd Edition. O’Reilly Media/Yahoo Press, ISBN: 9781449389734.
  • Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets. Cam-bridge University Press.

Πρόσθετα Συγγράμματα

  • Artie Mahal (2010): How Work Gets Done: Business Process Management, Basics and Beyond, Technics Publications, New Jersey, ISBN: 193550407.
  • Golab, L., Özsu, M.T. (2010): Data Stream Management. Morgan & Claypool Publish-ers, Synthesis Lectures on Data Management.
  • Aggarwal, C.C. (2011): Social Network Data Analytics, Springer, ISBN: 978-1-4419-8462-3.
  • Mohan, C. (2013): History Repeats Itself: Sensible and NonsenSQL Aspects of the NoSQL Hoopla. Proceedings of EDBT’13, Genoa, Italy.
  • The Beckman Report on Database Research (http://beckman.cs.wisc.edu/), Octo-ber 14-15, 2013.
  • Επιλεγμένα ερευνητικά άρθρα.