Πριν αρχίσουμε την εφαρμογή των αλγορίθμων στην υπό μελέτη βάση δεδομένων, είναι πολύ χρήσιμο να εκτελέσουμε μια προεπισκόπηση στα δεδομένα μας. Σκοπός αυτής της διαδικασίας είναι ο μετασχηματισμός των δεδομένων σε μορφή κατάλληλη και αποδοτική για τη μέθοδο που πρόκειται να εφαρμόσουμε και η αύξηση του βαθμού αξιοπιστίας. Εφαρμόζοντας αυτή τη διαδικασία στο training set μπορούμε να παρατηρήσουμε τα εξής:
v Χρησιμοποιώντας την εντολή visualize all του WEKA προκύπτουν τα ιστογράμματα συχνοτήτων που αντιστοιχούν σε κάθε μεταβλητή. Από τα ιστογράμματα αυτά μπορούμε να δούμε αν κάποιο attribute μπορεί να αφαιρεθεί και αν υπάρχουν outliers σε κάποια attributes. Παρατηρούμε ότι από τις 39 attributes των 2528 instances του training set μία είναι περιττό να συμπεριληφθεί καθώς σε αυτή το κάθε instance είναι ίσο με μηδέν. Πρόκειται για την attribute 38 την οποία μπορούμε να αφαιρέσουμε (remove) από το training set.
v Παρόμοια συμπεριφορά παρουσιάζουν και οι attributes 36 και 34 καθώς έχουν μόλις 15 και 1 αντίστοιχα διαφορετικά του μηδενός.
v Για την εκμάθηση του μοντέλου θα εφαρμοστούν κανόνες ταξινόμησης(classification rules), κανόνες συσχέτισης(association rules) και κανόνες ομαδοποίησης. Για το σκοπό αυτό ίσως χρειαστεί να γίνει μετατροπή στην κλάση κάποιων attributes από numeric σε nominal (discretize) μέσω ενός filter ή κανονικοποίηση (normalize) πάλι μέσω κάποιου filter.
v Στην περίπτωση που υπάρχουν missing values, μπορούμε να χρησιμοποιήσουμε το filter «ReplaceMissingValues» και να αντικαταστήσουμε αυτές τις τιμές , για παράδειγμα με τη μέση τιμή κάθε χαρακτηριστικού.
v Τέλος, στην περίπτωση που επιλεγεί η χρήση supervised filter ίσως μπορεί να γίνει χρήση του attribute selection για να δούμε με ποιο υποσύνολο των attributes θα συνεχίσουμε την ανάλυσή μας.
1 response so far ↓
George Tziralis // April 7, 2008 at 11:04 pm
To πρόβλημα αναφέρεται σε classification & όχι σε association ή clustering (η μεταβλητή - στόχος είναι γνωστή).
Καλή η ανάλυση, αν και θα μπορούσε να είναι περισσότερο εκτενής. Σε συνδυασμό ωστόσο με την ασάφεια της διάλεξης και της συγκεκριμένςη εργασίας, η βαθμολογία σου είναι 5/5.
Leave a Comment