Kατά την ανάλυση ενός μεγάλου όγκου δεδομένων, ώστε να βρεθούν σχέσεις, αναμενόμενες και μη, ανάμεσα στα δεδομένα, είναι αρκετά χρήσιμο να γίνει μια πρώτη προεπεξεργασία, πριν την οποιαδήποτε εφαρμογή αλγορίθμων. Όσον αφορά το dataset ‘training set’, θα μπορούσαν να γίνουν τα εξής:
- Έπειτα από μια πρώτη επισκόπηση του ‘training set’, μπορούμε να δούμε ότι στo attribute38, κάθε instance έχει τιμή 0. Αυτό σημαίνει ότι ίσως είναι καλό να αφαιρεθεί.
- Επίσης, τα attributes 36 και 34, έχουν από 15 και 1 αντίστοιχα καταχωρήσεις με 1, ενώ όλες οι υπόλοιπες είναι 0. Αυτό σημαίνει ότι ίσως θα πρέπει να εκτελεστούν κάποιοι μέθοδοι παλινδρόμησης ώστε έπειτα να αποφασιστεί αν θα παραμείνουν τα συγκεκριμένα attributes, ή θα πρέπει να τα αφαιρέσουμε.
- Παρατηρούμε ότι missing values δεν υπάρχουν, αν και αυτό δε θα αποτελούσε πρόβλημα, μια και στο Weka υπάρχει η δυνατότητα αντικατάστασης τους.
- Επίσης, ίσως χρειαστεί η μετατροπή κάποιων χαρακτηριστικών από numeric σε nominal (διακριτοποίηση), καθώς ορισμένες μέθοδοι εκμάθησης μπορούν να χειριστούν μόνο ρητά (categorical) χαρακτηριστικά.
- Θα πρέπει επιπλέον να επιλέξουμε κάποιο φίλτρο για τα δεδομένα μας. Χρειάζεται όμως κάποια προσοχή στην επιλογή supervised ή unsupervised filter, διότι η πρώτη κατηγορία στην πραγματικότητα δε συνιστά λειτουργίες προεπεξεργασίας.
3 responses so far ↓
ΓΔ 047 // April 7, 2008 at 2:36 pm
Πολύ καλή πιστεύω η τελευταία παρατήρηση. Μάλλον τα supervised θα πρέπει να τα χρησιμοποιούμε μέσω του FilteredClassifier (Classify panel - Choose - meta) στο training set. Ευελπιστώ σε περισσότερες διευκρινήσεις από τον Εισηγητή για τη σωστή χρήση του.
George Tziralis // April 7, 2008 at 10:52 pm
Καλή η ανάλυση, σε συνδυασμό με την ασάφεια της διάλεξης και εκφώνησης. Άριστα 5/5.
George Tziralis // April 7, 2008 at 10:53 pm
@ΓΔ ο47: Όχι, οι meta-algorithms θα αναπτυχθούν στην τελευταία διάλεξη και αναφέρονται σε κάτι διαφορετικό.
Leave a Comment