Data Mining, a Course by Blog

ΕΡΓΑΣΙΑ 03:Πανδή Αθηνά

April 6, 2008 · 3 Comments

Ίσως το σημαντικότερο στην ανάλυση μιας τεράστιας βάσης δεδομένων είναι η πρώτη επαφή με τα δεδομένα και η απαλοιφή όποιων attributes δεν είναι σημαντικά. Η γρήγορη μείωση των atributes θα καταστήσει πολύ πιο εύκολη την μετέπειτα επεξεργασία. Η προεπεξεργασία και επιλογή δεδομένων μπορεί να γίνει με διάφορες τρόπους.

  • Με την εντολή visualize all παίρνουμε μια γρήγορη εικόνα όλων των μεταβλητών, και όπως καταλαβαίνουμε τα attributes 38 και 34 θα μπορούσαν κάλλιστα να εξαιρεθούν.
  • Ένα άλλο βήμα που θα μπορούσε να γίνει είναι ο εντοπισμός και η αντικατάσταση των ελλειπουσών τιμών, ώστε η τελική ανάλυση να έχει αξιόπιστα αποτελέσματα. Το weka  έχει φίλτρο (replace missing values) για αυτό το σκοπό. Παρατηρούμε ότι στο train set δεν υπάρχουν missing values.
  • Επίσης ίσως χρειαστεί  να μετατρέψουμε μια μεταβλητή από numeric σε nominal γιατί ορισμένοι αλγόριθμοι δέχονται ως input  μόνο διακριτά δεδομένα. Αυτό γίνεται με την εντολή discretize.
  • Το weka διαθέτει  πολλά φίλτρα για την προεπεξεργασία δεδομένων, επομένως στα δεδομένα του dataset θα πρέπει να εφαρμοσθούν  αρκετά φίλτρα για να αποφανθούμε πιο είναι το καλύτερο (trial and error).

 

Categories: εργασίες

3 responses so far ↓

  • Athina Pandi // April 6, 2008 at 4:26 pm

    Από ότι είδα έχει αλλάξει λίγο το blog όταν κάνουμε upload ένα post.Προσπάθησα να ανεβάσω μια εικόνα αλλά δεν τα κατάφερα. Μπορεί κανεις να βοήθησει? :)

  • George Tziralis // April 7, 2008 at 8:22 am

    είναι η νέα έκδοση του wordpress.
    try add media/add an image :)

  • George Tziralis // April 7, 2008 at 10:55 pm

    Καλή η ανάλυση, αν και θα μπορούσε να είναι περισσότερο εκτενής. Σε συνδυασμό ωστόσο με την ασάφεια της διάλεξης και εκφώνησης η βαθμολογία που λαμβάνεις είναι Άριστα 5/5.

Leave a Comment