Data Mining, a Course by Blog

Ergasia06:Irene Spartinou

May 12, 2008 · 1 Comment

Εργασια06

 

Το αρχείο weather-nominal.arff περιέχει όλα τα χαρακτηριστικά σε [nominal,nominal] μορφή.

 

1. [nominal,nominal]->[numeric,nominal]

Για τη μετατροπή αυτή επιλέγεται από το tab choose (filter):

Filters->unsupervised->Nominal to Binary

Με αυτό τον τρόπο προκύπτουν πλέον 9 μεταβλητές από 5 που υπήρχαν αρχικά και αυτό διότι τα nominal χαρακτηριστικά είναι σκόπιμο να διαιρούνται σε ξεχωριστά binary attributes όταν δεν μπορούν να διαταχθούν το ένα ως προς το άλλο (συνήθης περίπτωση)

<!–[if gte vml 1]> <![endif]–><!–[if !vml]–><!–[endif]–>

2. [nominal,nominal]->[numeric,numeric]

Ακολουθούμε ακριβώς τη διαδικασία του παραπάνω βήματος και επιλέγουμε κπ χαρακτηριστικό διαφορετικό από το play (class attribute) και επιλέγουμε το apply μια ακόμη φορά στο ίδιο φίλτρο (το γνωστό τρικ ).

<!–[if gte vml 1]> <![endif]–><!–[if !vml]–><!–[endif]–>

3. [nominal,nominal]->[numeric,nominal]

Ακολουθούμε μόνο το βήμα 2. δηλαδή Filters->unsupervised->Nominal to Binary, ( με attributeIndices : last), και με το γνωστό τρικ έχουμε την παρακάτω εικόνα

 

 

Categories: εργασίες
Tagged: ,

ergasia03:Irene Spartinou

April 7, 2008 · 3 Comments

ΕΡΓΑΣΙΑ 03

Πρώτα βήματα επεξεργασίας για το dataset στο train.arff.

Για την προεπεξεργασία ενός μεγάλου όγκου δεδομένων είναι βοηθητική η εξαίρεση μέρος αυτού μέσω του αποκλεισμού χαρακτηριστικών που δεν επηρεάζουν αισθητά το σύστημά μας. Το πρώτο βήμα που επιχειρείται είναι η οπτική διερεύνηση με τη βοήθεια του tab visualize.

Ορισμένα χαρακτηριστικά έχουν missing values, το οποίο μπορεί να αντιμετωπιστεί με το φίλτρο ReplaceMissingValues στα attributes.

Ένα άλλο βασικό πρόβλημα προς διευθέτηση είναι η απομάκρυνση outliers με το φίλτρο RemoveMisclassified

Το πρώτο που παρατηρεί κανείς (στο Visualize) είναι η σταθερή τιμή του χαρακτηριστικού att38. Αμέσως γίνεται αντιληπτό ότι δεν είναι χρήσιμο χαρακτηριστικό τοatt38 για εξαγωγή πληροφορίας. Με την εντολή RemoveUseless μπορούν να απομακρυνθούν χαρακτηριστικά όχι μόνο αυτά που έχουν σταθερή τιμή αλλά και όσα έχουν τιμές που έχουν έντονες μεταβολές. Με αυτή την εντολή ουσιαστικά αρκετά από τα χαρακτηριστικά στο πεδίο από 30 ως 39 αφαιρούνται από το σύστημά μας.

Αποτίμηση Μοναδιαίων Χαρακτηριστικών. Μια επίσης χρήσιμη πρακτική παράλληλα με την χρησιμοποίηση φίλτρων είναι η αξιολόγηση κάθε χαρακτηριστικού. Μια χρήσιμή προς τον σκοπό αυτό μέθοδος είναι η Ανάλυση Κύριων Συνιστωσών, με την οποία επιλέγονται οι πιο σημαντικές συνιστώσες από το σύνολο των χαρακτηριστικών, ενώ τα υπόλοιπα αφαιρούνται. Σε ένα πρόχειρο ‘τρέξιμο’ αυτού του αλγορίθμου ως κύριες συνιστώσες επιλέγονται οι 30 πρώτες μεταβλητές ενώ οι υπόλοιπες αφαιρούνται.

Categories: εργασίες
Tagged:

Ergasia02: Irene Spartinou

April 2, 2008 · 1 Comment

Categories: άλλο

Ergasia01: Irene Spartinou

April 2, 2008 · 1 Comment

Categories: άλλο

April 1, 2008 · 1 Comment

Categories: άλλο