Εργασία 3 Τσανούσα Αθηνά

Χρησιμοποιώ ένα dataset που έχει 40 attributes και 2528 instances.
Επιλέγοντας την καρτέλα select attributes μπορούμε να βρούμε ποιες μεταβλητές από τις 40
είναι πιο ‘σημαντικές’, σε περίπτωση που δεν θέλω να χρησιμοποιήσω όλο το dataset.
Το πλήθος των attributes εξαρτάται από την search method που θα επιλέξω.

Για πχ η μέθοδος best first επιλέγει 10 από τις 40 μεταβλητές.

Ως attribute evaluator έχω επιλέξει το cfsSubseteval.

clip_image0028

Η greedystepwise όμως κρατάει 11 μεταβλητές:

untitled3

Θα μπορούσα επίσης να ‘ζητήσω’ από το weka να πετάξει μόνο τις ‘άχρηστες’ μεταβλητές.
Η σχετική εντολή είναι η εξής: filter/unsupervised/attribute/RemoveUseless,η οποία πετάει την
attr38.

003

Ακόμα και αν δεν έκανα την παραπάνω διεργασία θα μπορούσα να δω ότι η μετ/τη 38

δεν μου δίνει κάποια σημαντική πληροφορία. όλες οι τιμές της-εκτός από μια-είναι 0.

Από τα παρακάτω γραφήματα φαίνεται ότι σχεδόν όλες οι μεταβλητές έχουν υψηλή συγκέντρωση

σε ένα μόνο σημείο.

untitled2

untitled21

Τέλος μετατρέπουμε κάποια attributes από numeric σε nominal για να μπορέσουμε να τα
χρησιμοποιήσουμε σε κάποια ανάλυση.

untitled1tr

Advertisements

One response to “Εργασία 3 Τσανούσα Αθηνά

  1. Πλήρης, βαθμολογώ με 4/5 λόγω μικρής καθυστέρησης.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s