ΕΡΓΑΣΙΑ 03:Πανδή Αθηνά

Ίσως το σημαντικότερο στην ανάλυση μιας τεράστιας βάσης δεδομένων είναι η πρώτη επαφή με τα δεδομένα και η απαλοιφή όποιων attributes δεν είναι σημαντικά. Η γρήγορη μείωση των atributes θα καταστήσει πολύ πιο εύκολη την μετέπειτα επεξεργασία. Η προεπεξεργασία και επιλογή δεδομένων μπορεί να γίνει με διάφορες τρόπους.

  • Με την εντολή visualize all παίρνουμε μια γρήγορη εικόνα όλων των μεταβλητών, και όπως καταλαβαίνουμε τα attributes 38 και 34 θα μπορούσαν κάλλιστα να εξαιρεθούν.
  • Ένα άλλο βήμα που θα μπορούσε να γίνει είναι ο εντοπισμός και η αντικατάσταση των ελλειπουσών τιμών, ώστε η τελική ανάλυση να έχει αξιόπιστα αποτελέσματα. Το weka  έχει φίλτρο (replace missing values) για αυτό το σκοπό. Παρατηρούμε ότι στο train set δεν υπάρχουν missing values.
  • Επίσης ίσως χρειαστεί  να μετατρέψουμε μια μεταβλητή από numeric σε nominal γιατί ορισμένοι αλγόριθμοι δέχονται ως input  μόνο διακριτά δεδομένα. Αυτό γίνεται με την εντολή discretize.
  • Το weka διαθέτει  πολλά φίλτρα για την προεπεξεργασία δεδομένων, επομένως στα δεδομένα του dataset θα πρέπει να εφαρμοσθούν  αρκετά φίλτρα για να αποφανθούμε πιο είναι το καλύτερο (trial and error).

 

Advertisements

3 responses to “ΕΡΓΑΣΙΑ 03:Πανδή Αθηνά

  1. Από ότι είδα έχει αλλάξει λίγο το blog όταν κάνουμε upload ένα post.Προσπάθησα να ανεβάσω μια εικόνα αλλά δεν τα κατάφερα. Μπορεί κανεις να βοήθησει?:)

  2. είναι η νέα έκδοση του wordpress.
    try add media/add an image :)

  3. Καλή η ανάλυση, αν και θα μπορούσε να είναι περισσότερο εκτενής. Σε συνδυασμό ωστόσο με την ασάφεια της διάλεξης και εκφώνησης η βαθμολογία που λαμβάνεις είναι Άριστα 5/5.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s