Εργασία 03: Νανούρης Νικόλαος

     Το δείγμα εκπαίδευσης που διαθέτουμε περιλαμβάνει 2528 πρότυπα και 40 μεταβλητές (όλες τους αριθμητικές) εκ των οποίων η τελευταία έχει οριστεί ως η μεταβλητή στόχος (output). Προχωράμε αρχικά σε μια οπτική προεπεξεργασία των δεδομένων μας και στη συνέχεια σε μια περισσότερο αναλυτική μελέτη.

 

     Μετά την κατασκευή των σχετικών διαγραμμάτων, μπορούμε να σημειώσουμε τα παρακάτω:

 

·         Οι τιμές της μεταβλητής στόχου (μεταβλητή 40) λαμβάνουν τιμές στο [0 , 1] και πιο συγκεκριμένα (σχεδόν) αποκλειστικά στα διαστήματα [0 , 0.1] και [0.9 , 1]. Δεν αποκλείουμε την περίπτωση ο διαχωρισμός αυτός να εκφράζει μια ποιοτική τελικά μεταβλητή (Σχήμα 1).

 

·         Τα ιστογράμματα αρκετών μεταβλητών παρουσιάζουν αρκετά ιδιότυπη συμπεριφορά εμφανίζοντας πολύ μεγάλες συμπυκνώσεις δεδομένων σε πολύ συγκεκριμένα διαστήματα με μεγάλα κενά από διάφορες κλάσεις ιδιαίτερα ολιγάριθμων δεδομένων. Κάτι τέτοιο μας κάνει να υποψιαζόμαστε (κατά την προσωπική μας πάντα εκτίμηση) την ύπαρξη άτυπων / λανθασμένων προτύπων (outliers).

 

·         Η πιο πάνω συμπεριφορά παρουσιάζεται έντονα στις μεταβλητές 3, 7, 34, 35, 36, 38, 39 και 40. Από αυτές παρατηρούμε ότι η μεταβλητή 38 διαθέτει μηδενικές μόνο τιμές και συνεπώς απομακρύνεται (δε  μπορεί να επηρεάσει τη μεταβλητή στόχο μας). Η υποψία λανθασμένων δεδομένων εστιάζεται κυρίως στις μεταβλητές 34 (1 άτυπο σημείο), 3 (7 άτυπα σημεία) και ενδεχομένως στη μεταβλητή 36 (15 άτυπα σημεία).

 

·         Αποφεύγοντας να ρισκάρουμε την από κοινού απομάκρυνση των συγκεκριμένων προτύπων (ελπίζοντας ότι θα αξιολογηθούν από την περαιτέρω μελέτη), παρατηρούμε ότι το κατά σειρά 821 προβληματικό πρότυπο της μεταβλητής 34 αποτελεί επίσης πιθανό προβληματικό πρότυπο της μεταβλητής 3 και τελικά απομακρύνεται. Το γεγονός αυτο αποκαλύπτει ότι οι υπόλοιπες τιμές της μεταβλητής 34 είναι όμοιες και συνεπώς η μεταβλητή αυτή επίσης αγνοείται από την ανάλυση (Σχήμα 2).

 

·         Δεν παρατηρούνται ελλειπούσες τιμές (missing values) ώστε να συμπληρωθούν με κάποια από τις γνωστές μεθοδολογίες.

 

01

 

 

 

02

 

 

     Στη συνέχεια χρησιμοποιούμε ορισμένες μεθόδους οι οποίες μας επιτρέπουν να επιλέξουμε μεταξύ του συνολικού αριθμού των μεταβλητών εκείνες που παίζουν το σημαντικότερο ρόλο για τον καθορισμό της μεταβλητής στόχου (Σχήμα 3). Ως αξιολογητή (attribute evaluator) επιλέγουμε πάντοτε τον CfsSubsetEval και τις ακόλουθες τρείς μεθόδους αναζήτησης (search methods):

 

·         Best First: 6, 7, 12, 13, 23, 24, 27, 28, 32, 35 (10 μεταβλητές)

·         Genetic Search: 6, 7, 13, 19, 23, 24, 27, 28, 32, 35, 39 (11 μεταβλητές)

·         Greedy Stepwise: 6, 7, 12, 13, 23, 24, 27, 28, 32, 35, 36 (11 μεταβλητές)

 

     Είναι προφανές ότι η επιλογή της Exhaustive Search ως μέθοδο αναζήτησης θα ήταν ατυχής λόγω του μεγάλου πλήθος προτύπων και μεταβλητών. Τελικά, αποφασίζουμε να κρατήσουμε όλες τις σημαντικές μεταβλητές που προβλέπουν οι πιο πάνω τεχνικές και πιο συγκεκριμένα τις 6, 7, 12, 13, 19, 23, 24, 27, 28, 32, 35, 36, 39 και 40 (14 συνολικά μεταβλητές).

 

03

 

 

     Αποσκοπώντας σε μια πιο πλήρη εικόνα των αποτελεσμάτων, με τη βοήθεια του σχετικού φίλτρου διακριτοποίησης στη μάθηση χωρίς επίβλεψη, μετατρέψαμε τις μεταβλητές 7, 35, 36, 39 και 40 από αριθμητικές σε ονομαστικές (επιλογή δύο κλάσεων). Η διαδικασία αυτή, εκτός από τη μεγάλη σημασία που έχει στις περιπτώσεις τεχνικών που απαιτούν ονομαστικές και μόνο μεταβλητές για να εφαρμοστούν, μας βοηθά σε μια ακόμα καλύτερη εποπτική εικόνα του εξεταζόμενου προβλήματος (Σχήμα 4).

 

 041

 

 

     Τέλος, αξίζει να σημειωθεί πως μετά την επιλογή των τελικών 14 μεταβλητών με τις τεχνικές αξιολόγησης  μεταβλητών, επαναλάβαμε τη διαδικασία με τη βοήθεια της τεχνικής αναζήτησης Exhaustive Search, η οποία τώρα μπορεί να είναι εύκολα εφαρμόσιμη λόγω της σημαντικής μέιωσης των μεταβλητών. Η μέθοδος αυτή δε μας πρότεινε την απομάκρυνση καμίας από τις 11 μεταβλητές που είχε επιλέξει προηγουμένως η μέθοδος Greedy Stepwise (η πιο ασφαλής μετά την Exhaustive Search), γεγονός που υποδεικνύει ότι το πρόβλημα δε χωρά περαιτέρω απλοποίηση.

Advertisements

One response to “Εργασία 03: Νανούρης Νικόλαος

  1. Νίκο πολλά μπράβο για το πολυσχιδές και μοναδικό της εργασίας, μαζί με το ύφος σου που βρίσκς εξαιρετικό. Άριστα 6/5.

    Αναφορικά με τα όσα αναφέρεις στο bullet 1, ίσως έχει νόημα ο μετασχηματισμός της μεταβλητής στόχου σε boolean.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s