ΕΡΓΑΣΙΑ 03 ΜΟΥΤΣΑΤΣΟΣ ΓΙΩΡΓΟΣ

Το dataset το οποίο μελετάμε αποτελέιται απο 39 attributes και ένα επιπλέον που είναι η μεταβλητή στόχος (output) καθώς επίσης και απο 2528 instances. Όλα τα attributes είναι numeric και συγκεκριμένα η μεταβλητή στόχος είναι binary μεταβλητή. Μπορούμε μέσο των επιλογών του WEKA να χρησιμοποιήσουμε λιγότερα attributes και με αυτά να προσεγγίσουμε σωστά το αποτέλεσμα.

Πολύ εύκολα πηγαίνοντας στην επιλογή του WEKA visualize all, μπορούμε να δούμε ότι το attribute 38 δεν έχει καμία καταχώρηση οπότε είναι περιττό και μπορούμε να το αφαιρέσουμε ( αυτό μπορεί να γίνει πολύ εύκολα επιλέγοντας το και πατώντας remove ) .

attribute384

Ακόμα μπορούμε να αφαιρέσουμε τα attributes 6 , 34, 36 γιατί όπως βλέπουμε και στις παρακάτω εικόνες στο attribute 34 όλες οι καταχωρήσεις παίρνουν την τιμή 0 εκτός απο μία που παίρνει την τιμή 1, παρόμοια και στα attributes 6 και 36 το μεγαλύτερο πλήθος των καταχωρήσεων παίρνει μία συγκεκριμένη τιμή.

attibute34

attribute6

attribute36

Με βάση τις επιλογές του WEKA μπορούμε να προσεγγίσουμε το αποτέλεσμα και με πολύ λιγότερα attributes απο αύτα που έχει το dataset. Ένας τέτοιος τρόπος είναι μέσω της επιλογής Select attributes ( που βρίσκετε στην γραμμή εργαλείων του WEKA ).

Επιλέγοντας Attribute Evaluator : CfsSubsetEval και Search Method : Genetic Search καταλήγουμε σε 9 attributes, επιλέγοντας Attribute Evaluator : CfsSubsetEval και Search Method : Best First καταλήγουμε σε 10 attributes ενώ επιλέγοντας Attribute Evaluator : CfsSubsetEval και Search Method : Greedy Stepwise καταλήγουμε σε 11 attributes.

attr2

Έπειτα από κάποιους πειραματισμούς μου στο WEKA ψάχνοντας τα φίλτρα τόσο των supervised όσο και των unsupervised βρήκα το εξής αξιοσημείωτο :

Μπορούμε να οδηγιθούμε στο ίδιο αποτέλεσμα δουλεύοντας με φίλτρα.Αν παμε στην επιλογή του WEKA :

Filter   ->  supervised  -> attribute  ->  Attribute Selection .

aaa

Στην εικόνα βλέπουμε τα 9 attributes και το ένα επιπλέον που είναι η μεταβλητή στόχος (output).

One response to “ΕΡΓΑΣΙΑ 03 ΜΟΥΤΣΑΤΣΟΣ ΓΙΩΡΓΟΣ

  1. Άριστα 5/5.
    Αναφορικά με την απόρριψη του χαρακτηριστικού 6 (με 90% των τιμών ίσες με 0), αυτή ίσως είναι λίγο επίφοβη, αν και αυτό πρόκειται να αποδειχθεί στο τέλος.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s