Author Archives: George Tziralis

Netflix Prize – Ο στόχος επετεύχθη!

Τα σχόλια είναι περιττά, δείτε απλά την τρέχουσα κατάσταση στο Leaderboard:
Picture 2

Όσοι είσασταν παρόντες στην παρουσίαση Αμπαζή μία εβδομάδα πριν στο συνέδριο ΕΛΛΑΚ μάλλον θα έχετε μείνει με το στόμα ανοικτό, οι υπόλοιποι δείτε εκτενέστερη κάλυψη εδώ:
New York Times
Wired
Read Write Web
Geeking with Greg

Για να δούμε τι θα μας φέρουν οι 30 μέρες που θα ακολουθήσουν, οι θερμότερες των ευχών μας στους Νίκο Αμπαζή και Γιώργο Τσάγκα της ομάδας Feeds2 (αυτή τη στιγμή στη θέση 14).

Τελική Βαθμολογία

Παραθέτω την τελική βαθμολογία, στην μορφή Όνομα_Επώνυμο: Συνολικοί βαθμοί ως σήμερα + Βαθμολογία Εξέτασης (με άριστα το 30) (βαθμολογία υποβολής test set εξέτασης + βαθμολογία περιγραφής πρώτου ζητήματος + βαθμολογία περιγραφής δεύτερου ζητήματος) = Τελικοί συνολικοί βαθμοί, με άριστα το 100 -> Βαθμολογία προς υποβολή στη γραμματεία, με άριστα το 10.

Παρακαλώ διορθώστε όποιο λάθος υπάρχει, ή υποβάλλετε τελικά σχόλια αν αυτά υπάρχουν, ώστε να προωθηθεί η τελική βαθμολογία στη γραμματεία και επισήμως.

Θεώνη Αγάθου: 75 + 22 (5+8+9) = 97 -> 10/10
Αθανάσιος Αγγελάκης: 89 + 18 (8+5+5) = 107 -> 10/10
Κατερίνα Αργύρη: 49 + 26 (6+10+10) = 75 -> 8/10
Βαγγέλης Κατσαβριάς: 80 + 25 (8+9+9) = 105 -> 10/10
Χριστίνα Μιχαηλίδου: 57 + 23 (5+9+9) = 80 -> 8/10
Νίκη Μόσχου: 63 + 22 (4+9+9) = 85 -> 9/10
Βασιλική Μουτσανά: 78 + 24 (5+9+10) = 102 -> 10/10
Γιώργος Μουτσάτσος: 71 + 24 (6+9+9) = 95 -> 10/10
Δήμητρα Μπάρλα: 62 + 23 (6+8+9) = 85 -> 9/10
Ιωάννα Μπλίντζιου: 76 + 27 (7+10+10) = 103 -> 10/10
Νικόλαος Νανούρης: 67 + 30 (10+10+10) = 97 -> 10/10
Μακρίνα Σαλμανίδου: 55 + 27 (9+9+9) = 82 -> 8/10
Δήμητρα Τάτσιου: 73 + 23 (5+9+9) = 96 -> 10/10
Αθηνά Τσανούσα: 44 + 0 (0,0,0) = 44 -> 5/10
Μαρία Τζωρτζάκη: 66 + 23 (5+9+9) = 91 -> 9/10
Ιωάννης Χουχούμης: 74 + 25 (5+10+10) = 99 -> 10/10

Και πάλι, τα θερμά μου συγχαρητήρια και οι ευχαριστίες μου προς όλους.

Αξιοπιστία υποβολών εξέτασης

Πολύ πρόχειρα, μέχρι να βγάλω συνολική βαθμολογία:

agathou: 0.732
aggelakis: 0.776
argurh: 0.760
chouchoumis: 0.732
katsabrias: 0.776
mixailidou: 0.708
moschou: 0.608
moutsana: 0.756
moutsatos: 0.760
mparla: 0.760
mplintziou: 0.764
nanouris: 0.780
salmanidou: 0.772
tatsiou: 0.732
tzortzaki: 0.752

Why Managers Should Analyse Data Themselves

Ενώ ακόμα δεν έχω βγάλει βαθμολογία (ευελπιστώ σημερα ή αύριο), σας παραθέτω ένα ενδιαφέρον ανάγνωσμα, να το θυμάστε όταν γίνεται υψηλά ιστάμενοι ερευνητές ή managers (από έναν εξαιρετικό καναδό ερευνητή & blogger): Why Senior Researchers And Managers Should Analyze Data Themselves

Τελική Εξέταση, 2009

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

Τελική Εξέταση του Μαθήματος

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Διδάσκοντες: Ηλίας Τατσιόπουλος, Γεώργιος Τζιραλής

Ημερομηνία & ώρα: Τρίτη 2 Ιουνίου 2009, 12.00-14.00

Τόπος διεξαγωγής: PC-Lab ΣΕΜΦΕ ΕΜΠ

Σύνοψη & Οδηγίες

Το παρόν αποτελεί την τελική εξέταση του μαθήματος, η οποία συνεισφέρει στον τελικό βαθμό με βαρύτητα 30% (3 μονάδες) επί του συνόλου.

Κατά τη διάρκεια της εξέτασης, η πρόσβαση σε οποιοδήποτε υλικό, έγγραφο ή ιστοσελίδα είναι απολύτως ελεύθερη. Ωστόσο η συνεργασία μεταξύ των φοιτητών με οποιοδήποτε μέσο απαγορεύεται ρητά. Η φύση των ερωτημάτων είναι τέτοια ώστε η υποβολή απαντήσεων με μεγάλο βαθμό ομοιότητας δεν είναι αναμενόμενη, οπότε σε αυτή την περίπτωση μηδενίζονται αμφότεροι οι εξεταζόμενοι.

Παρέχεται η δυνατότητα συμμετοχής στην εξέταση από το χώρο της επιλογής σας & όχι απαραίτητα από το PC-Lab του ΣΕΜΦΕ. Αν κάτι τέτοιο είναι επιθυμητό, πρέπει να δηλωθεί μέσω e-mail στη διεύθυνση gtzi(παπί)central.ntua.gr ως και δύο ώρες πριν την έναρξη της εξέτασης. Υπενθυμίζεται ωστόσο η αναγκαιότητα ικανής υπολογιστικής ισχύος, πρόσβασης στο διαδίκτυο και διαθεσιμότητας του λογισμικού πακέτου Weka.

Η αποστολή των επισυναπτόμενων στα θέματα συνόλων δεδομένων της εξέτασης θα πραγματοποιηθεί επίσης ηλεκτρονικά, στη διεύθυνση κάθε συμμετέχοντα την ώρα έναρξης της εξέτασης (ή και λίγο νωρίτερα) ή και μέσω ανάρτησης στο ιστολόγιο του μαθήματος, https://dataminingntua.wordpress.com. Ανεξάρτητα από τον τόπο, η συμμετοχή και βαθμολόγηση της εξέτασης επικυρώνεται από ανάρτηση των απαντήσεων στα ζητήματα, στη μορφή που ορίζεται παρακάτω, στο ιστολόγιο του μαθήματος, με τίτλο ‘Τελική Εξέταση, Επώνυμο _Όνομα’ ή με την αποστολή του παρόντος αρχείου με νέο όνομα της μορφής Epwnumo _Onoma.doc στην παραπάνω διεύθυνση, σε περίπτωση που αντιμετωπίσετε οποιοδήποτε πρόβλημα στην ανάρτηση των απαντήσεων στο ιστολόγιο. Με αμφότερους τρόπους, η υποβολή των απαντήσεων και ολοκλήρωση της εξέτασης πρέπει να έχει πραγματοποιηθεί ως τις 14.00 της 2/06/2009. Αναρτήσεις ή έγγραφα με ώρα ηλεκτρονικής υποβολής μεταγενέστερης της συγκεκριμένης δεν λαμβάνονται υπ’ όψιν.

Ζήτημα 1ο Εξόρυξη Πληροφορίας για Πρόγνωση: Εκτίμηση Πιστωτικού Κινδύνου (Μονάδες 2,0)

Παρέχεται το αρχείο CreditData_TrainSet.arff (.pdf), το οποίο περιέχει 750 υποδείγματα πελατών, αποτελούμενα από 20 χαρακτηριστικά διαφόρων μορφών το καθένα. Με βάση τα χαρακτηριστικά κάθε πελάτη, παρέχεται επίσης ως το 21ο χαρακτηριστικό ‘class’ ο πιστωτικός κίνδυνος χορήγησης δανείου στον πελάτη με δυνατές τιμές ‘good’ & ‘bad’.

Δίδεται επίσης αρχείο CreditData_TestSet.arff (.pdf) με 250 νέα παραδείγματα πελατών, όπου το επίπεδο πιστωτικού κινδύνου χαρακτηρίζεται σε κάθε περίπτωση –επομένως συχνά λανθασμένα- ως ‘good’.

Ζητούνται:

  • Η πρόγνωση του πραγματικού επιπέδου πιστωτικού κινδύνου κάθε παραδείγματος πελάτη του δεύτερου συνόλου
  • Η περιγραφή, ίσως και αιτιολόγηση των βημάτων της ακολουθείσας διαδικασίας, όπως επίσης και η εκτίμηση της τελικά αναμενόμενης αξιοπιστίας των προγνώσεων

Παρατήρηση: Οι ζητούμενες προγνώσεις πρέπει να υποβληθούν σε αρχείο Epwnumo_Onoma.txt (ή .xls) υπό τη μορφή πίνακα μίας στήλης και 250 γραμμών, η οποία και θα αναφέρει την πρόγνωση του πιστωτικού κινδύνου (‘good’/’bad’) για το υπόδειγμα με νούμερο αντίστοιχο της σειράς (για παράδειγμα το κελί C3 θα περιέχει την εκτίμηση για το 3ο υπόδειγμα του test set). H περιγραφή ή και αιτιολόγηση οφείλει να είναι υπό μορφή bullets, αριθμού μικρότερου ή ίσου του 10 και με αριθμό λέξεων επίσης μικρότερου ή ίσου του 10 ανά bullet. Ουσιαστικά καλείστε να περιγράψετε (αν απαιτείται επίσης και να αιτιολογήσετε) κάθε βήμα της διαδικασίας που επιλέξατε εντός 10 λέξεων, με ότι αυτό συνεπάγεται περί λιτότητας και σαφήνειας, έναντι ποσότητας της περιγραφής.

Ζήτημα 2ο Εξόρυξη Πληροφορίας για Περιγραφή: Κατηγοριοποίηση Οχημάτων (Μονάδες 1,0)

Παρέχεται το αρχείο Vehicle.arff (.pdf) το οποίο περιλαμβάνει τις τιμές 18 χαρακτηριστικών για 846 υποδείγματα οχημάτων και επίσης -για το σύνολο αυτών- την κατηγοριοποίησή τους σε ‘opel’, ‘saab’, ‘bus’ & ‘van’. Ζητείται η εξόρυξη και περιγραφή προτύπων που διέπουν το συγκεκριμένο σύνολο δεδομένων και δύναται να αναδείξουν και επεξηγήσουν τις συσχετίσεις μεταξύ των χαρακτηριστικών και της κατηγοριοποίησης του οχήματος.

Παρατήρηση: Ενδεικτικά αναφέρεται ότι τέτοια πρότυπα μπορεί να προκύψουν για παράδειγμα από τη χρήση των αλγορίθμων PART, J48 κτλ του λογισμικού πακέτου. Ζητούμενα είναι τόσο η απλότητα όσο και η αξιοπιστία των εξαγόμενων προτύπων. Η απάντηση στο σύνολό της δεν πρέπει να υπερβαίνει τις 500 λέξεις, ωστόσο μπορεί να περιλαμβάνει και σχήματα. Συνίσταται η χρήση τεχνοτροπίας αντίστοιχης με αυτή του προηγούμενου ζητήματος, τουλάχιστον όσον αφορά τα περί σαφήνειας και λιτότητας έναντι ποσότητας της περιγραφής.

Παρατίθεται τέλος το αρχείο της εκφώνησης σε μορφή .doc: Εκφώνηση.doc, ενώ τα αρχεία .arff CreditData_TrainSet.arff (.pdf), CreditData_TestSet.arff (.pdf) & Vehicle.arff (.pdf) βρίσκονται σε λανθάνουσα μορφή .arff, μόλις τα κατεβάσετε και αποθηκεύσετε στον δίσκο απλά διαγράψτε την κατάληξη .pdf από το όνομα του αρχείου και προσθέστε τελεία πριν το ‘arff’ για να λογιστεί ως κατάληξη.

Τελική Εξέταση, Οδηγίες

Η τελική εξέταση του μαθήματος συνεισφέρει στον τελικό βαθμό με βαρύτητα 30% (3 μονάδες) επί του συνόλου.

Κατά τη διάρκεια της εξέτασης, η πρόσβαση σε οποιοδήποτε υλικό, έγγραφο ή ιστοσελίδα είναι απολύτως ελεύθερη. Ωστόσο η συνεργασία μεταξύ των φοιτητών με οποιοδήποτε μέσο απαγορεύεται ρητά. Η φύση των ερωτημάτων είναι τέτοια ώστε η υποβολή απαντήσεων με μεγάλο βαθμό ομοιότητας δεν είναι αναμενόμενη, οπότε σε αυτή την περίπτωση μηδενίζονται αμφότεροι οι εξεταζόμενοι.

Παρέχεται η δυνατότητα συμμετοχής στην εξέταση από το χώρο της επιλογής σας & όχι απαραίτητα από το PC-Lab του ΣΕΜΦΕ. Αν κάτι τέτοιο είναι επιθυμητό (προσωπικά θα έλεγα πως δεν το συνιστώ), πρέπει να δηλωθεί μέσω e-mail στη διεύθυνση gtziralis(παπί)gmail.com ως και δύο ώρες πριν την έναρξη της εξέτασης. Υπενθυμίζεται ωστόσο η αναγκαιότητα ικανής υπολογιστικής ισχύος, πρόσβασης στο διαδίκτυο και διαθεσιμότητας του λογισμικού πακέτου Weka. Μπορείτε επίσης να φέρετε το δικό σας φορητό υπολογιστή στο PC-Lab, και να εργαστείτε από αυτόν.

Η αποστολή των επισυναπτόμενων στα θέματα συνόλων δεδομένων της εξέτασης θα πραγματοποιηθεί επίσης ηλεκτρονικά, μέσω ανάρτησης στο παρών ιστολόγιο του μαθήματος, https://dataminingntua.wordpress.com. Ανεξάρτητα από τον τόπο, η συμμετοχή και βαθμολόγηση της εξέτασης επικυρώνεται από ανάρτηση των απαντήσεων στα ζητήματα, στη μορφή που ορίζεται παρακάτω, στο ιστολόγιο του μαθήματος, με τίτλο ‘Τελική Εξέταση, Επώνυμο _Όνομα’ ή με την αποστολή του παρόντος αρχείου με νέο όνομα της μορφής Epwnumo _Onoma.pdf στην παραπάνω διεύθυνση, σε περίπτωση που αντιμετωπίσετε οποιοδήποτε πρόβλημα στην ανάρτηση των απαντήσεων στο ιστολόγιο. Με αμφότερους τρόπους, η υποβολή των απαντήσεων και ολοκλήρωση της εξέτασης πρέπει να έχει πραγματοποιηθεί ως τις 14.00 της 02/06/2009. Αναρτήσεις ή έγγραφα με ώρα ηλεκτρονικής υποβολής μεταγενέστερης της συγκεκριμένης δεν λαμβάνονται υπ’ όψιν.

KDNuggets, Data Mining Newsletter

Όποιος ενδιαφέρεται να μαθαίνει, και μετά τη λήξη του μαθήματος, οτιδήποτε συμβαίνει στην ερευνητική και εφαρμοσμένη περιοχή που ονομάζεται data mining, συνιστώ ανεπιφύλακτα να εγγραφεί σε αυτό το newsletter από το KDNuggets. Είναι απολύτως δωρεάν, και σας αποστέλλει μία φορά την εβδομάδα email με όλες τις εξελίξεις στο χώρο, από σχετικά συνέδρια και αναβαθμίσεις λογισμικών, μέχρι νέες θέσεις εργασίας στο αντικέιμενο (σε αυτό δεν αναφερόμαστε προφανώς για Ελλάδα βέβαια), σε κάθε περίπτωση ωστόσο σας κρατά μέσα στα πράγματα.