Ίσως το σημαντικότερο στην ανάλυση μιας τεράστιας βάσης δεδομένων είναι η πρώτη επαφή με τα δεδομένα και η απαλοιφή όποιων attributes δεν είναι σημαντικά. Η γρήγορη μείωση των atributes θα καταστήσει πολύ πιο εύκολη την μετέπειτα επεξεργασία. Η προεπεξεργασία και επιλογή δεδομένων μπορεί να γίνει με διάφορες τρόπους.
- Με την εντολή visualize all παίρνουμε μια γρήγορη εικόνα όλων των μεταβλητών, και όπως καταλαβαίνουμε τα attributes 38 και 34 θα μπορούσαν κάλλιστα να εξαιρεθούν.
- Ένα άλλο βήμα που θα μπορούσε να γίνει είναι ο εντοπισμός και η αντικατάσταση των ελλειπουσών τιμών, ώστε η τελική ανάλυση να έχει αξιόπιστα αποτελέσματα. Το weka έχει φίλτρο (replace missing values) για αυτό το σκοπό. Παρατηρούμε ότι στο train set δεν υπάρχουν missing values.
- Επίσης ίσως χρειαστεί να μετατρέψουμε μια μεταβλητή από numeric σε nominal γιατί ορισμένοι αλγόριθμοι δέχονται ως input μόνο διακριτά δεδομένα. Αυτό γίνεται με την εντολή discretize.
- Το weka διαθέτει πολλά φίλτρα για την προεπεξεργασία δεδομένων, επομένως στα δεδομένα του dataset θα πρέπει να εφαρμοσθούν αρκετά φίλτρα για να αποφανθούμε πιο είναι το καλύτερο (trial and error).