Data Mining, a Course by Blog

ΕΡΓΑΣΙΑ 03:Πανδή Αθηνά

April 6, 2008 · 3 Comments

Ίσως το σημαντικότερο στην ανάλυση μιας τεράστιας βάσης δεδομένων είναι η πρώτη επαφή με τα δεδομένα και η απαλοιφή όποιων attributes δεν είναι σημαντικά. Η γρήγορη μείωση των atributes θα καταστήσει πολύ πιο εύκολη την μετέπειτα επεξεργασία. Η προεπεξεργασία και επιλογή δεδομένων μπορεί να γίνει με διάφορες τρόπους.

  • Με την εντολή visualize all παίρνουμε μια γρήγορη εικόνα όλων των μεταβλητών, και όπως καταλαβαίνουμε τα attributes 38 και 34 θα μπορούσαν κάλλιστα να εξαιρεθούν.
  • Ένα άλλο βήμα που θα μπορούσε να γίνει είναι ο εντοπισμός και η αντικατάσταση των ελλειπουσών τιμών, ώστε η τελική ανάλυση να έχει αξιόπιστα αποτελέσματα. Το weka  έχει φίλτρο (replace missing values) για αυτό το σκοπό. Παρατηρούμε ότι στο train set δεν υπάρχουν missing values.
  • Επίσης ίσως χρειαστεί  να μετατρέψουμε μια μεταβλητή από numeric σε nominal γιατί ορισμένοι αλγόριθμοι δέχονται ως input  μόνο διακριτά δεδομένα. Αυτό γίνεται με την εντολή discretize.
  • Το weka διαθέτει  πολλά φίλτρα για την προεπεξεργασία δεδομένων, επομένως στα δεδομένα του dataset θα πρέπει να εφαρμοσθούν  αρκετά φίλτρα για να αποφανθούμε πιο είναι το καλύτερο (trial and error).

 

Categories: εργασίες

Εργασία 03: Ανδρουλάκης Μάνος

April 6, 2008 · 3 Comments

 

Kατά την ανάλυση ενός μεγάλου όγκου δεδομένων, ώστε να βρεθούν σχέσεις, αναμενόμενες και μη, ανάμεσα στα δεδομένα, είναι αρκετά χρήσιμο να γίνει μια πρώτη προεπεξεργασία, πριν την οποιαδήποτε εφαρμογή αλγορίθμων. Όσον αφορά το dataset ‘training set’, θα μπορούσαν να γίνουν τα εξής:

 

  • Έπειτα από μια πρώτη επισκόπηση του ‘training set’, μπορούμε να δούμε ότι στo attribute38, κάθε instance έχει τιμή 0. Αυτό σημαίνει ότι ίσως είναι καλό να αφαιρεθεί.
  • Επίσης, τα attributes 36 και 34, έχουν από 15 και 1 αντίστοιχα καταχωρήσεις με 1, ενώ όλες οι υπόλοιπες είναι 0. Αυτό σημαίνει ότι ίσως θα πρέπει να εκτελεστούν κάποιοι μέθοδοι παλινδρόμησης ώστε έπειτα να αποφασιστεί αν θα παραμείνουν τα συγκεκριμένα attributes, ή θα πρέπει να τα αφαιρέσουμε.
  • Παρατηρούμε ότι missing values δεν υπάρχουν, αν και αυτό δε θα αποτελούσε πρόβλημα, μια και στο Weka υπάρχει η δυνατότητα αντικατάστασης τους.
  • Επίσης, ίσως χρειαστεί η μετατροπή κάποιων χαρακτηριστικών από numeric σε nominal (διακριτοποίηση), καθώς ορισμένες μέθοδοι εκμάθησης μπορούν να χειριστούν μόνο ρητά (categorical) χαρακτηριστικά.
  • Θα πρέπει επιπλέον να επιλέξουμε κάποιο φίλτρο για τα δεδομένα μας. Χρειάζεται όμως κάποια προσοχή στην επιλογή supervised ή unsupervised filter, διότι η πρώτη κατηγορία στην πραγματικότητα δε συνιστά λειτουργίες προεπεξεργασίας.

 

Categories: εργασίες