Data Mining, a Course by Blog

ergasia03:Irene Spartinou

April 7, 2008 · 3 Comments

ΕΡΓΑΣΙΑ 03

Πρώτα βήματα επεξεργασίας για το dataset στο train.arff.

Για την προεπεξεργασία ενός μεγάλου όγκου δεδομένων είναι βοηθητική η εξαίρεση μέρος αυτού μέσω του αποκλεισμού χαρακτηριστικών που δεν επηρεάζουν αισθητά το σύστημά μας. Το πρώτο βήμα που επιχειρείται είναι η οπτική διερεύνηση με τη βοήθεια του tab visualize.

Ορισμένα χαρακτηριστικά έχουν missing values, το οποίο μπορεί να αντιμετωπιστεί με το φίλτρο ReplaceMissingValues στα attributes.

Ένα άλλο βασικό πρόβλημα προς διευθέτηση είναι η απομάκρυνση outliers με το φίλτρο RemoveMisclassified

Το πρώτο που παρατηρεί κανείς (στο Visualize) είναι η σταθερή τιμή του χαρακτηριστικού att38. Αμέσως γίνεται αντιληπτό ότι δεν είναι χρήσιμο χαρακτηριστικό τοatt38 για εξαγωγή πληροφορίας. Με την εντολή RemoveUseless μπορούν να απομακρυνθούν χαρακτηριστικά όχι μόνο αυτά που έχουν σταθερή τιμή αλλά και όσα έχουν τιμές που έχουν έντονες μεταβολές. Με αυτή την εντολή ουσιαστικά αρκετά από τα χαρακτηριστικά στο πεδίο από 30 ως 39 αφαιρούνται από το σύστημά μας.

Αποτίμηση Μοναδιαίων Χαρακτηριστικών. Μια επίσης χρήσιμη πρακτική παράλληλα με την χρησιμοποίηση φίλτρων είναι η αξιολόγηση κάθε χαρακτηριστικού. Μια χρήσιμή προς τον σκοπό αυτό μέθοδος είναι η Ανάλυση Κύριων Συνιστωσών, με την οποία επιλέγονται οι πιο σημαντικές συνιστώσες από το σύνολο των χαρακτηριστικών, ενώ τα υπόλοιπα αφαιρούνται. Σε ένα πρόχειρο ‘τρέξιμο’ αυτού του αλγορίθμου ως κύριες συνιστώσες επιλέγονται οι 30 πρώτες μεταβλητές ενώ οι υπόλοιπες αφαιρούνται.

Categories: εργασίες
Tagged:

3 responses so far ↓

  • George Tziralis // April 7, 2008 at 11:17 pm

    Ωραία απάντηση Ειρήνη, φαίνεται πως έχεις μπει κανονικά στο κλίμα του μαθήματος, μπράβο. Περί της ανάλυσης σου, σίγουρα θα μπορούσαν να αναφερθούν περισσότερα, ωστόσο τα όσα περιγράφεις είναι ορθά. Σε συνδυασμό με την ασάφεια της διάλεξης και της εκφώνησης του συγκεκριμένου θέματος, ο βαθμός που λαμβάνεις έιναι 5/5.

  • George Tziralis // April 7, 2008 at 11:27 pm

    Ειρήνη, μου λείπει και το post με το cv σου, ανέβασέ το κάποια στιγμή.

  • Εργασία 03: βαθμολόγηση « Data Mining, a Course by Blog // April 10, 2008 at 9:11 am

    [...] ← ergasia03:Irene Spartinou Διάλεξη 04: Απεικόνιση Γνώσης, Αξιοπιστία & [...]

Leave a Comment