Eργασία 03_Λίνα Μάσσου

Πριν αρχίσουμε την εφαρμογή των αλγορίθμων στην υπό μελέτη βάση δεδομένων, είναι πολύ χρήσιμο να εκτελέσουμε μια  προεπισκόπηση στα δεδομένα μας.  Σκοπός αυτής της διαδικασίας είναι ο  μετασχηματισμός των δεδομένων  σε μορφή κατάλληλη και αποδοτική για τη μέθοδο που πρόκειται να εφαρμόσουμε και η αύξηση του βαθμού αξιοπιστίας. Εφαρμόζοντας αυτή τη διαδικασία στο training set μπορούμε να παρατηρήσουμε  τα εξής:

v      Χρησιμοποιώντας την εντολή visualize all του WEKA προκύπτουν τα ιστογράμματα συχνοτήτων που αντιστοιχούν σε κάθε μεταβλητή. Από τα ιστογράμματα αυτά μπορούμε να δούμε αν κάποιο attribute μπορεί να αφαιρεθεί και αν υπάρχουν outliers σε κάποια attributes. Παρατηρούμε ότι από τις 39  attributes των 2528 instances του training set μία είναι περιττό να συμπεριληφθεί καθώς σε αυτή το κάθε instance είναι ίσο με μηδέν. Πρόκειται για την attribute 38 την οποία μπορούμε να αφαιρέσουμε (remove) από το training set.

v     Παρόμοια συμπεριφορά παρουσιάζουν και οι attributes 36 και 34 καθώς έχουν μόλις 15 και 1 αντίστοιχα διαφορετικά του μηδενός.

v     Για την εκμάθηση του μοντέλου θα εφαρμοστούν κανόνες ταξινόμησης(classification rules), κανόνες συσχέτισης(association rules) και κανόνες ομαδοποίησης. Για το σκοπό αυτό ίσως χρειαστεί να γίνει μετατροπή στην κλάση κάποιων attributes από numeric σε nominal (discretize) μέσω ενός filter ή κανονικοποίηση (normalize) πάλι μέσω κάποιου filter.

v      Στην περίπτωση που υπάρχουν missing values, μπορούμε να χρησιμοποιήσουμε το filter «ReplaceMissingValues» και να αντικαταστήσουμε αυτές τις τιμές , για παράδειγμα με τη μέση τιμή κάθε χαρακτηριστικού.   

v     Τέλος, στην περίπτωση που επιλεγεί η χρήση supervised filter ίσως μπορεί να γίνει χρήση του attribute selection για να δούμε με ποιο υποσύνολο των attributes θα συνεχίσουμε την ανάλυσή μας.

 

Advertisements

One response to “Eργασία 03_Λίνα Μάσσου

  1. To πρόβλημα αναφέρεται σε classification & όχι σε association ή clustering (η μεταβλητή – στόχος είναι γνωστή).
    Καλή η ανάλυση, αν και θα μπορούσε να είναι περισσότερο εκτενής. Σε συνδυασμό ωστόσο με την ασάφεια της διάλεξης και της συγκεκριμένςη εργασίας, η βαθμολογία σου είναι 5/5.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s