Ίσως το σημαντικότερο στην ανάλυση μιας τεράστιας βάσης δεδομένων είναι η πρώτη επαφή με τα δεδομένα και η απαλοιφή όποιων attributes δεν είναι σημαντικά. Η γρήγορη μείωση των atributes θα καταστήσει πολύ πιο εύκολη την μετέπειτα επεξεργασία. Η προεπεξεργασία και επιλογή δεδομένων μπορεί να γίνει με διάφορες τρόπους.
- Με την εντολή visualize all παίρνουμε μια γρήγορη εικόνα όλων των μεταβλητών, και όπως καταλαβαίνουμε τα attributes 38 και 34 θα μπορούσαν κάλλιστα να εξαιρεθούν.
- Ένα άλλο βήμα που θα μπορούσε να γίνει είναι ο εντοπισμός και η αντικατάσταση των ελλειπουσών τιμών, ώστε η τελική ανάλυση να έχει αξιόπιστα αποτελέσματα. Το weka έχει φίλτρο (replace missing values) για αυτό το σκοπό. Παρατηρούμε ότι στο train set δεν υπάρχουν missing values.
- Επίσης ίσως χρειαστεί να μετατρέψουμε μια μεταβλητή από numeric σε nominal γιατί ορισμένοι αλγόριθμοι δέχονται ως input μόνο διακριτά δεδομένα. Αυτό γίνεται με την εντολή discretize.
- Το weka διαθέτει πολλά φίλτρα για την προεπεξεργασία δεδομένων, επομένως στα δεδομένα του dataset θα πρέπει να εφαρμοσθούν αρκετά φίλτρα για να αποφανθούμε πιο είναι το καλύτερο (trial and error).
3 responses so far ↓
Athina Pandi // April 6, 2008 at 4:26 pm
Από ότι είδα έχει αλλάξει λίγο το blog όταν κάνουμε upload ένα post.Προσπάθησα να ανεβάσω μια εικόνα αλλά δεν τα κατάφερα. Μπορεί κανεις να βοήθησει?
George Tziralis // April 7, 2008 at 8:22 am
είναι η νέα έκδοση του wordpress.
try add media/add an image
George Tziralis // April 7, 2008 at 10:55 pm
Καλή η ανάλυση, αν και θα μπορούσε να είναι περισσότερο εκτενής. Σε συνδυασμό ωστόσο με την ασάφεια της διάλεξης και εκφώνησης η βαθμολογία που λαμβάνεις είναι Άριστα 5/5.
Leave a Comment