Εργασία 03:(Λυγκώνη Ειρήνη)

Η προεπεξεργασία  δεδομένων είναι ένα πολύ σημαντικό κομμάτι στο data mining! Ο μετασχηματισμός των δεδομένων έχει σαν στόχο την βελτίωση στο σύνολο τους έτσι ώστε τα συμπεράσματα που θα διεξαχθουν κατά την στατιστική ανάλυση να είναι όσο το δυνατόν πιο αξιόπιστα. Κάποια πρώτα βήματα που κάποιος θα μπορούσε να ακολουθήσει εφαρμόζοντάς τα στο training set  είναι τα εξής:

 

  • Ανοίγοντας το dataset στο weka με την εντολή  visualize all παρατηρούμε ότι υπάρχουν 39 attributes των 2528 instances.
  • Έπειτα, μπορεί να γίνει έλεγχος για το αν υπάρχουν ελλείπουσες τιμές χρησιμοποιώτας το filter-> ReplaceMissingValues όπου γίνεται αντικατάσταση αυτών των τιμών π.χ. με την μέση τιμή κάθε χαρακτηριστικού. Στο συγκεκριμένο dataset παρατηρούμε ότι δεν υπάρχουν.
  • Θα πρέπει γραφικά να ελέξουμε αν υπάρχουν outliers και να τα απομακρύνουμε γιατί επηρεάζουν την ανάλυση που θέλουμε να κάνουμε ή κάποια attributes που ίσως εμφανίζουν την ίδια συμπεριφορά με την εντολή Remove. Αυτό θα γίνει εφόσον εφαρμόσουμε καποιες μεθόδους παλινδρόμισης ώστε να δούμε τα σχετικά σφάλματα.
  • Επίσης μπορούμε να κανονικοποιήσουμε τα δεδομένα του κάθε χαρακτηριστικού με την εντολή Normalize.
  • Ίσως χρειαστεί να κατασκευάσουμε ένα καινούριο χαρακτηριστικό (ένας μαθηματικός τύπος) με βάση κάποια άλλα χαρακτηριστικά του dataset χρησιμοποιώντας την εντολή AddExpression.

 Σαφέστατα υπάρχουν σίγουρα και άλλα βήματα που θα μπορούσε κάποιος να ακολουθήσει!!!

Advertisements

One response to “Εργασία 03:(Λυγκώνη Ειρήνη)

  1. Η ανάλυση θα μπορούσε να ήταν περισσότερο εκτενής, τα όσα αναφέρονται είναι ορθά αν και κάποια δεν έχουν εφαρμογή στο συγκεκριμένο dataset ενώ κάποια άλλα απλά αναφέρονται και δεν υλοποιούνται. Ωστόσο, σε συνδυασμό με την ασάφεια της διάλεξης και εκφώνησης, η βαθμολογία που λαμβάνεις είναι 5/5.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s