Εργασία 3:Μόσχου Νίκη

Η ανάλυση πρέπει να ξεκινήσει με μια προεπισκόπηση των δεδομένων. Σε πρώτη φάση παρατηρούμε ότι σε αρκετές μεταβλητές το μεγαλύτερο ποσοστό δεδομένων βρίσκεται στο διάστημα (-1,1) ενώ υπάρχει ένα σχετικά μικρό ποσοστό το οπόιο παίρνει τιμές στο  ( 50,1000).Αυτό μπορούμε να το παρατηρήσουμε και από τα περιγραφικά χαρακτηριστικά (min, max, mean,Std) και με τη δημιουργεία ιστογραμμάτων-διαστημάτων (choose filters->unsupervised->attribute->descretize). Το πώς θα χειριστούμε αυτό το μικρό ποσοστό δεδομένων εξαρτάται απότη φύση των δεδομένων. Για παράδειγμα, εάν  γνωρίζουμε ότι ένα attribute παίρνει τιμές μόνο στο (-1,1) τότε αυτά τα δεδομένα μπορούν να θεωρηθούν ως outliers και να αντικτασταθούν με τη μέση τιμή των υπόλοιπων δεδομένων. Στην αντίθετη περίπτωση θα έπρεπε να κάνουμε μια extra ανάλυση αυτών των δεδομένων για  να δούμε που οφείλεται η τόση μεγάλη απόκλιση και μετά να δούμε πως θα τα χειριστούμε.
Το attribute 3 είναι μια τέτοια περίπτωση. Από το ιστόγραμμα, βλέπουμε ότι όλες σχεδόν οι τιμές έχουν μια σταθερή τιμή, εκτός από 9, οι οποίες έχουν και μεγάλη απόκλιση. Εάν τις θεωρήσουμε ως outliers θα πρέπει να αφαιρέσουμε αυτή τη μεταβλητή γιατι είναι σταθερή και δεν μας παρέχει καμία επιπλέον πληροφορία.
untitled

Η μέταβλητή 38 πρέπει επίσης να αφαιρεθεί γιατί όπως φαίνεται και από το ιστόγραμμα έχει τιμή σταθερή και ίση με μηδέν και συνεπώς δεν προσφέρει καμία πληροφορία

38

Τέλος θα μπόρούσαμε να βγάλουμε και τη μεταβλητή 34 (τουλάχιστον στη παρούσα φάση και να την αναλύσουμε πάλι εάν λάβουμε και άλλο δείγμα) αφού όλα σχεδόν τα δεδομένα παίρνουν την τιμή μηδέν (εκτός από δ ύο)

34

Για τις μεταβλητές που δεν είναι εύκολο να βγάλουμε συμπεράσματα σε πρώτη φάση μπορόυμε να χρησιμοποιήσουμε τους αλγόριθμούς που μας παρέχει το weka.

1)Attribute Evaluator->Cfs Subset eval-Search method->Exhaustive method : 9 μεταβλητές

Cfs subs-exhaust

2)Attribute Evaluator->CfsSubsetEval-Search Method->Best First: 10 μεταβλητές

Cfsubsetlbestfirst

 

3) Attribute Evaluator-> Wrapper Subset – Search method: Genetic Search:4 μεταβλητές

wrapper-genetic-search

Τέλος,  για να έχουμε πιο ασφαλή συμπεράσματα, μπορούμε να πάρουμε τα αποτελέσματα διάφορων αλγορίθμων και να αφαιρέσουμε τις μεταβλητές που έχουν το μεγαλύτερο weight (αυτές που ουσιαστικά συμπίπτουν, εμφανίζονται περισσότερες φορές)

Advertisements

One response to “Εργασία 3:Μόσχου Νίκη

  1. Ολοκληρωμένη υποβολή, 5/5

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s