Εργασία 03:Μπλίντζιου Ιωάννα

Παρατηρώντας τα ιστογράμματα των μεταβλητών, καταλαβαίνουμε οτι η attribute 38 δεν χρησιμεύει στην ανάλυση των δεδομένων καθώς έχει σταθερή τιμή ίση με μηδέν. Την τικάρουμε λοιπόν και πατάμε Remove για να την αφαιρέσουμε. (Αλλιώς επιλέγουμε το Unsupervised Filter Remove και συμπληρώνουμε τον αριθμό 38)

image11

Παρόλο που όλες οι attributes είναι numeric παρατηρούμε οτι αν μετατρέψουμε ορισμένες από αυτές σε nominal είναι πιο εύκολο, γραφικά τουλάχιστον, να εξηγήσουμε τα δεδομένα. Αυτό επιτυγχάνεται με τη χρήση του Unsupervised Filter Discretize.

Eδώ βλέπουμε το ιστόγραμμα της attribute 27 πριν τη χρήση του φίλτρου και ενημερωνόμαστε για την ελάχιστη και μέγιστη τιμή της.

image2

Εδώ βλέπουμε το ιστόγραμμα της 27 μετά τη χρήση του φίλτρου και αφού έχουμε ορίσει να βρει από μόνο του τον κατάλληλο number of bins. Στο πινακάκι βλέπουμε τα άκρα των διαστημάτων και τον αριθμό των instances σε καθένα απ’ αυτά.

image3

Αν δεν θέλουμε να αρκεστούμε στις γραφικές μεθόδους για την απόκλιση μεταβλητών, χρησιμοποιούμε πλέον όλο το dataset και πηγαίνουμε στο tab:Select attributes.

Επιλέγοντας Attribute Evaluator->CfsSubsetEval και Search Method->BestFirst με Backwrds Elimination καταλήγω με 11 (τις 6,7,12,13,23,24,27,28,32,35,36) πό τις 39 αρχικές μου attributes.

image4

Eνώ ο συνδυασμός Attribute Evaluator->WrapperSubsetEval και Search Method->GeneticSearch μου δείχνει πως μόνο 4 attributes είναι ικανές να προβλέψουν τη μεταβλητή στόχο.

image5

Advertisements

One response to “Εργασία 03:Μπλίντζιου Ιωάννα

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s