Η προεπεξεργασία δεδομένων είναι ένα πολύ σημαντικό κομμάτι στο data mining! Ο μετασχηματισμός των δεδομένων έχει σαν στόχο την βελτίωση στο σύνολο τους έτσι ώστε τα συμπεράσματα που θα διεξαχθουν κατά την στατιστική ανάλυση να είναι όσο το δυνατόν πιο αξιόπιστα. Κάποια πρώτα βήματα που κάποιος θα μπορούσε να ακολουθήσει εφαρμόζοντάς τα στο training set είναι τα εξής:
- Ανοίγοντας το dataset στο weka με την εντολή visualize all παρατηρούμε ότι υπάρχουν 39 attributes των 2528 instances.
- Έπειτα, μπορεί να γίνει έλεγχος για το αν υπάρχουν ελλείπουσες τιμές χρησιμοποιώτας το filter-> ReplaceMissingValues όπου γίνεται αντικατάσταση αυτών των τιμών π.χ. με την μέση τιμή κάθε χαρακτηριστικού. Στο συγκεκριμένο dataset παρατηρούμε ότι δεν υπάρχουν.
- Θα πρέπει γραφικά να ελέξουμε αν υπάρχουν outliers και να τα απομακρύνουμε γιατί επηρεάζουν την ανάλυση που θέλουμε να κάνουμε ή κάποια attributes που ίσως εμφανίζουν την ίδια συμπεριφορά με την εντολή Remove. Αυτό θα γίνει εφόσον εφαρμόσουμε καποιες μεθόδους παλινδρόμισης ώστε να δούμε τα σχετικά σφάλματα.
- Επίσης μπορούμε να κανονικοποιήσουμε τα δεδομένα του κάθε χαρακτηριστικού με την εντολή Normalize.
- Ίσως χρειαστεί να κατασκευάσουμε ένα καινούριο χαρακτηριστικό (ένας μαθηματικός τύπος) με βάση κάποια άλλα χαρακτηριστικά του dataset χρησιμοποιώντας την εντολή AddExpression.
Σαφέστατα υπάρχουν σίγουρα και άλλα βήματα που θα μπορούσε κάποιος να ακολουθήσει!!!
1 response so far ↓
George Tziralis // April 7, 2008 at 11:06 pm
Η ανάλυση θα μπορούσε να ήταν περισσότερο εκτενής, τα όσα αναφέρονται είναι ορθά αν και κάποια δεν έχουν εφαρμογή στο συγκεκριμένο dataset ενώ κάποια άλλα απλά αναφέρονται και δεν υλοποιούνται. Ωστόσο, σε συνδυασμό με την ασάφεια της διάλεξης και εκφώνησης, η βαθμολογία που λαμβάνεις είναι 5/5.
Leave a Comment