Εργασία 04: Νανούρης Νικόλαος

     H οπτική προεργασία και η επιλογή των μεταβλητών έχει ήδη πραγματοποιηθεί στην εργασία 03 και στην οποία είχαμε επιλέξει ως αξιολογητή τον CfsSubsetEval και τις ακόλουθες τρείς μεθόδους αναζήτησης:

 

·         Best First: 6, 7, 12, 13, 23, 24, 27, 28, 32, 35 (10 μεταβλητές)

·         Genetic Search: 6, 7, 13, 19, 23, 24, 27, 28, 32, 35, 39 (11 μεταβλητές)

·         Greedy Stepwise: 6, 7, 12, 13, 23, 24, 27, 28, 32, 35, 36 (11 μεταβλητές)

 

     Στη συνέχεια, προσθέτουμε μια κενή στήλη στα δεδομένα του αρχείου μελέτης ώστε να είναι συμβατό με το αρχείο που περιέχει τα δεδομένα εκπαίδευσης και εφαρμόζουμε τον αλγόριθμο M5Rules. Παραθέτουμε παρακάτω τα κυριότερα στοιχεία της προσέγγισης που ακολουθήσαμε:

 

·         Παρατηρήσαμε ότι το δείγμα ελέγχου δεν περιέχει τη μεταβλητή εξόδου και συνεπώς δε μπορεί να αξιοποιηθεί.

 

·         Αποσκοπώντας σε μια εκτίμηση του σφάλματος γενίκευσης (σε άγνωστα δηλαδή δεδομένα), χρησιμοποιήσαμε τις τεχνικές διασταυρωμένης επικύρωσης (πίνακας Ι) και μερικού διαχωρισμού του δείγματος εκπαίδευσης ως δείγμα ελέγχου (πίνακας II), ενώ αποφύγαμε να εμπιστευτούμε πληροφορίες που προέκυπταν από το ίδιο το δείγμα χωρίς κανενός είδους επεξεργασία:

 

 

Πίνακας Ι

 

Αλγόριθμος

Σχετικό Απόλυτο Σφάλμα

Συντελεστής Συσχέτισης

Best First

25.8877 %

0.8618

Genetic Search

24.4043 %

0.8707

Speedy Stepwise

25.8877 %

0.8618

Κανένας

17.9993 %

0.9058

 

 

Πίνακας ΙΙ

 

Αλγόριθμος

Σχετικό Απόλυτο Σφάλμα

Συντελεστής Συσχέτισης

Best First

28.8780  %

0.8429

Genetic Search

25.5487 %

0.8660

Speedy Stepwise

28.8780  %

0.8429

Κανένας

21.6319 %

0.8553

 

 

·         Παρατηρούμε ότι το μικρότερο σχετικό σφάλμα και ο μεγαλύτερος συντελεστής συσχέτισης προκύπτει στο δείγμα εκπαίδευσης του οποίου δεν αφαιρέσαμε καμία μεταβλητή. Προσωπική μας άποψη είναι ότι το κόστος της παρουσίας και των 39 μεταβλητών είναι πολύ μεγάλο, καθώς το βέλτιστο μοντέλο οφείλει να είναι πρώτα λιτό και μετά ακριβές. Το μοντέλο αυτό φαίνεται να είναι εκέινο με τις 11 μεταβλητές που προκύπτει από τον αλγόριθμο Genetic Search.

 

·         Χρησιμοποιώντας την επιλογή εισαγωγής του δείγματος ελέγχου (supplied test set) και την επιλογή εμφάνισης των προβλεπόμενων από το εκάστοτε μοντέλο τιμών, αποθηκεύσαμε τα αποτελέσματά μας και τα στρογγυλοποιήσαμε ώστε να μετατραπούν σε δυαδικά.

Advertisements

One response to “Εργασία 04: Νανούρης Νικόλαος

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s