Εργασία 03: Άννα Σκούντζου

Προεπεξεργασία και επιλογή δεδομένων από το training set.

Για να πάρουμε μία αρχική εικόνα για τα δεδομένα δημιουργούμε τα ιστογράμματα των μεταβλητών. Από τα διαγράμματα αυτά παρατηρούμε ότι το attribute 38 είναι περιττό στην ανάλυση των δεδομένων, καθώς έχει σταθερή τιμή και ίση με μηδέν, όπως και τα attributes 34 και τα 36 είναι περιττά, αφού εμφανίζουν μόνο μία φορά τιμή διάφορη του μηδενός. Μπορούμε να εξαιρέσουμε τα περιττά attributes ακολουθώντας τα εξής βήματα:

Παρατηρούμε επίσης, ότι για την πλειοψηφία των attributes οι περισσότερες τιμές βρίσκονται σε ένα διάστημα γύρω από την ελάχιστη τιμή. Σκόπιμο λοιπόν είναι, η διακριτοποίηση των χαρακτηριστικών αυτών, η μετατροπή τους δηλαδή, από αριθμητικά χαρακτηριστικά σε ονομαστικά. Για παράδειγμα, έστω ότι θέλουμε να μετατρέψουμε σε ονομαστικό χαρακτηριστικό το attribute 39, το οποίο λαμβάνει μόνο τις τιμές 0 και 1. Ακολουθούμε τα παρακάτω βήματα:

Επιλέγουμε apply και προκύπτει η διακριτοποίηση του χαρακτηριστικού.

Επιπλέον, το WEKA παρέχει τη δυνατότητα επιλογής ενός υποσυνόλου attributes. Για παράδειγμα, χρησιμοποιώντας όλο το training set, επιλέγουμε ως μέθοδο διήθησης τη CfsSubsetEvalC και ως μέθοδο αναζήτησης τη GeneticSearch και προκύπτει ένα υποσύνολο με τα 9 attributes που εμφανίζονται στην ακόλουθη εικόνα.

5 responses to “Εργασία 03: Άννα Σκούντζου

  1. Ωραία δουλειά Άννα, 5/5.

  2. Στη διακριτοποίηση του χαρακτηριστικού 39 γιατί χρησιμοποίησες 10 bins αφού λαμβάνει μόνο 2 τιμές;

  3. Anna Skountzou

    Γιώργο, άφησα τη default τιμή χωρίς κανέναν ιδιαίτερο λόγο. Ακριβώς επειδή το χαρακτηριστικό λαμβάνει μόνο δύο τιμές, όσα bins να βάλεις προκύπτει το ίδιο αποτέλεσμα.

  4. Ναι αλλά αυτό έχει δημιουργήσει άλλα 8 άχρηστα labels για τη μεταβλητή αυτή. Θα έπρεπε κατά τη γνώμη μου να ενεργοποιήσεις και τη μεταβλητή MakeBinary στο Discretize στη διακριτοποίηση μεταβλητών με δυο μόνο τιμές.

  5. Anna Skountzou

    Γιώργο, αυτή τη διαδικασία που μου προτείνεις δεν την ειχα υπόψιν, θα το κάνω! Ευχαριστώ για την εύστοχη παρατήρηση!

Leave a reply to ΓΔ 047 Cancel reply