Εργασία03_Ηρώ Ζαχαρίδου

Παρακάτω προτείνονται ορισμένα ενδεικτικά πρώτα βήματα για την ανάλυση του dataset training” του θέματος:

·         Καταρχάς μπορούμε αμέσως να διαπιστώσουμε πως το attribute #38 είναι περιττό καθώς για όλα τα instances έχει την ίδια τιμή(0). 

                      

 

·         To attribute 34 δεν μας παρέχει πληροφορία καθώς για τα 2527 instances η τιμή του είναι  0 και μόνο για ένα instance έχει τιμή 1 (instance 821). Μπορούμε λοιπόν να μην το λάβουμε υπόψη μας. Παρακάτω βλέπουμε το ιστόγραμμα μετά την αφαίρεση του instance #821( με την επιλογή του unsupervised ->instance filter RemoveRange”).

                     

·         Τα attributes του dataset είναι όλα numeric. Παρατηρούμε όμως πως για τα περισσότερα από αυτά ενώ υπάρχει μεγάλο εύρος τιμών, τα περισσότερα instances αποδίδουν τιμές γύρω από τη μικρότερη. Έτσι λοιπόν μπορούμε να μετατρέψουμε ορισμένα από τα attribute αυτά σε nominal, ομαδοποιώντας δηλαδή τα instances  με βάση τα  διαστήματα στα οποία θα ανήκουν και έτσι να έχουμε μια πιο σαφή εικόνα.Αυτό επίσης μπορεί να είναι απαραίτητο γιατί ορισμένοι αλγόριθμοι δέχονται input μόνο διακριτά δεδομένα.

 Για παράδειγμα για το attribute #25 έχουμε το παρακάτω αρχικό ιστόγραμμα:

 

                    

Ενώ ενημερωνόμαστε από το weka πως υπάρχουν 49 διαφορετικές τιμές εκ των οποίων οι 42 είναι unique, αυτό δεν είναι εμφανές.

Διαλέγοντας όμως το από τα unsupervised attribute filters  το «Discretize» μπορούμε είτε να επιλέξουμε εμείς το πλήθος των διαστημάτων ή να επιτρέψουμε στο ίδιο το weka να επιλέξει των αριθμό των bins.

                     

(εδώ έχουμε επιλέξει εμείς 25 bins)

              

 

(Εδώ αλλάξαμε το findNumBins σε True και τo weka  δημιούργησε 4 διαφορετικές τιμές με τη μία unique.)

·         Ακόμη μπορούμε να δούμε πιο υποσύνολο από τα δοσμένα attributes μας είναι χρήσιμο (αναζητάμε το ελάχιστο δυνατό που να δίνει τα σωστά αποτελέσματα), χρησιμοποιώντας το tab Select Attributes

 

Για παράδειγμα ο συνδυασμός AttributeEvaluator->CfsSubsetEval και SearchMethod->GreedyStepwise μας δίνει ένα  προτεινόμενο σύνολο από 10 attributes.

                                          Ενώ ο συνδυασμός AttributeEvaluator->CfsSubsetEval(LocallyPredictive=False) και  SearchMethod-> GeneticSearch μας δίνει ένα  προτεινόμενο σύνολο από 7 attributes.

                          

 

Advertisements

One response to “Εργασία03_Ηρώ Ζαχαρίδου

  1. Η καλύτερη εργασία που διάβασα ως τώρα. Ξεχωρίζει κυρίως επειδή αναφέρεις και την υλοποίηση των όσων προτείνεις, επίσης έχεις επιχειρήσει εφαρμογή μεθόδων attribute selection. Βαθμολογία 6/5.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s