Data Mining, a Course by Blog

Εργασία 03: Άννα Σκούντζου

April 9, 2008 · 5 Comments

Προεπεξεργασία και επιλογή δεδομένων από το training set.

Για να πάρουμε μία αρχική εικόνα για τα δεδομένα δημιουργούμε τα ιστογράμματα των μεταβλητών. Από τα διαγράμματα αυτά παρατηρούμε ότι το attribute 38 είναι περιττό στην ανάλυση των δεδομένων, καθώς έχει σταθερή τιμή και ίση με μηδέν, όπως και τα attributes 34 και τα 36 είναι περιττά, αφού εμφανίζουν μόνο μία φορά τιμή διάφορη του μηδενός. Μπορούμε να εξαιρέσουμε τα περιττά attributes ακολουθώντας τα εξής βήματα:

Παρατηρούμε επίσης, ότι για την πλειοψηφία των attributes οι περισσότερες τιμές βρίσκονται σε ένα διάστημα γύρω από την ελάχιστη τιμή. Σκόπιμο λοιπόν είναι, η διακριτοποίηση των χαρακτηριστικών αυτών, η μετατροπή τους δηλαδή, από αριθμητικά χαρακτηριστικά σε ονομαστικά. Για παράδειγμα, έστω ότι θέλουμε να μετατρέψουμε σε ονομαστικό χαρακτηριστικό το attribute 39, το οποίο λαμβάνει μόνο τις τιμές 0 και 1. Ακολουθούμε τα παρακάτω βήματα:

Επιλέγουμε apply και προκύπτει η διακριτοποίηση του χαρακτηριστικού.

Επιπλέον, το WEKA παρέχει τη δυνατότητα επιλογής ενός υποσυνόλου attributes. Για παράδειγμα, χρησιμοποιώντας όλο το training set, επιλέγουμε ως μέθοδο διήθησης τη CfsSubsetEvalC και ως μέθοδο αναζήτησης τη GeneticSearch και προκύπτει ένα υποσύνολο με τα 9 attributes που εμφανίζονται στην ακόλουθη εικόνα.

Categories: άλλο · εργασίες