Τελική Εξέταση

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

Τελική Εξέταση του Μαθήματος

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Διδάσκοντες: Ηλίας Τατσιόπουλος, Γεώργιος Τζιραλής

Ημερομηνία & ώρα: Τετάρτη 18 Ιουνίου 2008, 15.00-17.00

Τόπος διεξαγωγής: PC-Lab ΣΕΜΦΕ ΕΜΠ

 

Σύνοψη & Οδηγίες

Το παρόν αποτελεί την τελική εξέταση του μαθήματος, η οποία συνεισφέρει στον τελικό βαθμό με βαρύτητα 30% (3 μονάδες) επί του συνόλου.

Κατά τη διάρκεια της εξέτασης, η πρόσβαση σε οποιοδήποτε υλικό, έγγραφο ή ιστοσελίδα είναι απολύτως ελεύθερη. Ωστόσο η συνεργασία μεταξύ των φοιτητών με οποιοδήποτε μέσο απαγορεύεται ρητά. Η φύση των ερωτημάτων είναι τέτοια ώστε η υποβολή απαντήσεων με μεγάλο βαθμό ομοιότητας δεν είναι αναμενόμενη, οπότε σε αυτή την περίπτωση μηδενίζονται αμφότεροι οι εξεταζόμενοι.

Παρέχεται η δυνατότητα συμμετοχής στην εξέταση από το χώρο της επιλογής σας & όχι απαραίτητα από το PC-Lab του ΣΕΜΦΕ. Αν κάτι τέτοιο είναι επιθυμητό, πρέπει να δηλωθεί μέσω e-mail στη διεύθυνση gtzi(παπί)central.ntua.gr ως και δύο ώρες πριν την έναρξη της εξέτασης. Υπενθυμίζεται ωστόσο η αναγκαιότητα ικανής υπολογιστικής ισχύος, πρόσβασης στο διαδίκτυο και διαθεσιμότητας του λογισμικού πακέτου Weka.

Η αποστολή των επισυναπτόμενων στα θέματα συνόλων δεδομένων της εξέτασης θα πραγματοποιηθεί επίσης ηλεκτρονικά, στη διεύθυνση κάθε συμμετέχοντα την ώρα έναρξης της εξέτασης (ή και λίγο νωρίτερα) ή και μέσω ανάρτησης στο ιστολόγιο του μαθήματος, https://dataminingntua.wordpress.com. Ανεξάρτητα από τον τόπο, η συμμετοχή και βαθμολόγηση της εξέτασης επικυρώνεται από ανάρτηση των απαντήσεων στα ζητήματα, στη μορφή που ορίζεται παρακάτω, στο ιστολόγιο του μαθήματος, με τίτλο ‘Τελική Εξέταση, Επώνυμο _Όνομα’ ή με την αποστολή του παρόντος αρχείου με νέο όνομα της μορφής Epwnumo _Onoma.doc στην παραπάνω διεύθυνση, σε περίπτωση που αντιμετωπίσετε οποιοδήποτε πρόβλημα στην ανάρτηση των απαντήσεων στο ιστολόγιο. Με αμφότερους τρόπους, η υποβολή των απαντήσεων και ολοκλήρωση της εξέτασης πρέπει να έχει πραγματοποιηθεί ως τις 17.00 της 18/06/2008. Αναρτήσεις ή έγγραφα με ώρα ηλεκτρονικής υποβολής μεταγενέστερης της συγκεκριμένης δεν λαμβάνονται υπ’ όψιν.

 

Ζήτημα 1ο   Εξόρυξη Πληροφορίας για Πρόγνωση: Εκτίμηση Πιστωτικού Κινδύνου   (Μονάδες 2,0)

Παρέχεται το αρχείο CreditData_TrainSet.arff (.pdf), το οποίο περιέχει 750 υποδείγματα πελατών, αποτελούμενα από  20 χαρακτηριστικά διαφόρων μορφών το καθένα. Με βάση τα χαρακτηριστικά κάθε πελάτη, παρέχεται επίσης ως το 21ο χαρακτηριστικό ‘class’ ο πιστωτικός κίνδυνος χορήγησης δανείου στον πελάτη με δυνατές τιμές ‘good’ & ‘bad’.

Δίδεται επίσης αρχείο CreditData_TestSet.arff (.pdf) με 250 νέα παραδείγματα πελατών, όπου το επίπεδο πιστωτικού κινδύνου χαρακτηρίζεται σε κάθε περίπτωση –επομένως συχνά λανθασμένα- ως ‘good’.

Ζητούνται:

  • Η πρόγνωση του πραγματικού επιπέδου πιστωτικού κινδύνου κάθε παραδείγματος πελάτη του δεύτερου συνόλου
  • Η περιγραφή, ίσως και αιτιολόγηση των βημάτων της ακολουθείσας διαδικασίας, όπως επίσης και η εκτίμηση της τελικά αναμενόμενης αξιοπιστίας των προγνώσεων

Παρατήρηση: Οι ζητούμενες προγνώσεις πρέπει να υποβληθούν σε αρχείο Epwnumo_Onoma.xls υπό τη μορφή πίνακα μίας στήλης και 250 γραμμών, η οποία και  θα αναφέρει την πρόγνωση του πιστωτικού κινδύνου (‘good’/’bad’) για το υπόδειγμα με νούμερο αντίστοιχο της σειράς (για παράδειγμα το κελί C3 θα περιέχει την εκτίμηση για το 3ο υπόδειγμα του test set). H περιγραφή ή και αιτιολόγηση οφείλει να είναι υπό μορφή bullets, αριθμού μικρότερου ή ίσου του 10 και με αριθμό λέξεων επίσης μικρότερου ή ίσου του 10 ανά bullet. Ουσιαστικά καλείστε να περιγράψετε (αν απαιτείται επίσης και να αιτιολογήσετε) κάθε βήμα της διαδικασίας που επιλέξατε εντός 10 λέξεων, με ότι αυτό συνεπάγεται περί λιτότητας και σαφήνειας, έναντι ποσότητας της περιγραφής.

 

Ζήτημα 2ο    Εξόρυξη Πληροφορίας για Περιγραφή: Κατηγοριοποίηση Οχημάτων       (Μονάδες 1,0)

Παρέχεται το αρχείο Vehicle.arff (.pdf) το οποίο περιλαμβάνει τις τιμές 18 χαρακτηριστικών για 846 υποδείγματα οχημάτων και επίσης -για το σύνολο αυτών- την κατηγοριοποίησή τους σε ‘opel’, ‘saab’, ‘bus’ & ‘van’. Ζητείται η εξόρυξη και περιγραφή  προτύπων που διέπουν το συγκεκριμένο σύνολο δεδομένων και δύναται να αναδείξουν και επεξηγήσουν τις συσχετίσεις μεταξύ των χαρακτηριστικών και της κατηγοριοποίησης του οχήματος.

Παρατήρηση: Ενδεικτικά αναφέρεται ότι τέτοια πρότυπα μπορεί να προκύψουν για παράδειγμα από τη χρήση των αλγορίθμων PART, J48 κτλ του λογισμικού πακέτου. Ζητούμενα είναι τόσο η απλότητα όσο και η αξιοπιστία των εξαγόμενων προτύπων. Η απάντηση στο σύνολό της δεν πρέπει να υπερβαίνει τις 500 λέξεις, ωστόσο μπορεί να περιλαμβάνει και σχήματα. Συνίσταται η χρήση τεχνοτροπίας αντίστοιχης με αυτή του προηγούμενου ζητήματος, τουλάχιστον όσον αφορά τα περί σαφήνειας και λιτότητας έναντι ποσότητας της περιγραφής.

 

Παρατίθεται τέλος το αρχείο της εκφώνησης σε μορφή .doc: Εκφώνηση.doc, ενώ τα αρχεία .arff CreditData_TrainSet.arff (.pdf)CreditData_TestSet.arff (.pdf) & Vehicle.arff (.pdf) βρίσκονται σε λανθάνουσα μορφή .arff, μόλις τα κατεβάσετε και αποθηκεύσετε στον δίσκο απλά διαγράψτε την κατάληξη .pdf από το όνομα του αρχείου και προσθέστε τελεία πριν το ‘arff’ για να λογιστεί ως κατάληξη.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s