Εργασία 03: Δήμητρα Τάτσιου

Το συγκεκριμένο dataset αποτελείται από 39 attributes τη μεταβλητή στόχο και 2528 instances. Στόχος της ανάλυσης του datamining είναι η αξιολόγηση, επιλογή των σημαντικότερων μεταβλητών -με σκοπό τη βέλτιστη πληροφορία-χωρίς να επηρεάζεται το αποτέλεσμα της μεταβλητής στόχου.
Από τα περιγραφικά χαρακτηριστικά και από τα ιστογράμματα παρατηρούμε ότι  κάποιες μεταβλητές έχουν την ίδια συμμετοχή στο τελικό αποτέλεσμα.

Παράδειγμα οι μεταβλητές: 18 και 20, 16 και 19, 21 και 27.

attr18
attr181

attr20

attr20jpg

Επίσης, εύκολα παρατηρούμε ότι η ύπαρξη της μεταβλητής 38 δεν έχει καμία αξία στην εξαγωγή συμπερασμάτων

attr38

Καθώς και η μεταβλητή 34 δεν φαίνεται να επηρεάζει το αποτέλεσμα

attr34

 Με την επιλογή Select attributes και με CFS Subset Evaluator και BestFirst Method, αξιολογείται ότι αρκεί η επιλογή 1ο μεταβλητών για την απόδοση ίδιου συμπεράσματος μ’ αυτό των 39

attrevaluator1

Με παρόμοιες διαδικασίες, η επιλογή CSF Subset Evaluator και Genetic Search Method οδηγεί στην εξαγωγή συμπερασμάτων, μόλις, με 9 μεταβλητές

attrevaluator2

Με διακριτικοποίηση Filters-Unsupervised-remove αφήνω μόνο τις επιλεγείσες μεταβλητές και τη μεταβλητή στόχο

Με discretize και παρατηρώντας τα ιστογράμματα διαπιστώνουμε ότι μπορούμε να επαναλάβουμε τη διαδικασία της αξιολόγησης, ώστε να απορριφθούν μεταβλητές της ίδιας βαρύτητας. Δηλαδή, με CSF Subset Evaluator και BestFirst Method καταλήγω  πως αρκούν 6 μεταβλητές για το ίδιο συμπέρασμα

selectattr

One response to “Εργασία 03: Δήμητρα Τάτσιου

  1. Ολοκληρωμένη, 5/5

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s