Εργασία 04-Αγάθου Θεώνη

Για μια πρόβλεψη τιμών της output μπορεί κανείς να ακολουθήσει τα ακόλουθα βήματα:

  • Άνοιγμα του train.arff και πάμε κατευθείαν στην επιλογή Select attributes, μιας και δεν σκοπεύουμε να μετατρέψουμε καμία από τις numeric μεταβλητές σε nominal.
  • Με Attribute Evaluator το CfsSubsetEval και Search Method την GeneticSearch,το weka επιλέγει τελικά να κρατήσουμε μόλις 9 από 40 attributes, για να βγάλουμε ένα αρκετά αξιόπιστο αποτέλεσμα. Τα attributes αυτά είναι τα εξής: 6, 7, 12, 19, 23, 24, 27, 28, 32 (και προφανώς και το output).
  • Επιστρέφουμε στο preprocessing, όπου έχοντας πλέον γνώση σχετικά με το ποια attributes μας χρειάζονται, αφαιρούμε τα υπόλοιπα. Αυτό γίνεται με την εντολή Remove, αφού πρώτα έχουμε ‘τσεκάρει’ εκείνα τα attributes που δε χρειαζόμαστε.

project04-img01

  • Στη συνέχεια, πάμε στην επιλογή Classify για να βρούμε το σφάλμα γι’αυτή τη διαδικασία. Ως Classifier δεχόμαστε τον M5Rules (η output είναι numeric), και ως Test Option δεχόμαστε το Cross-validation (10 folds). Ως αποτέλεσμα έχουμε Relative Absolute Error της τάξεως  24,5963%. Παρατηρούμε ότι αν παίρναμε ως Test Option το Use training test, θα βρίσκαμε μικρότερο σφάλμα (22,5625%), που είναι λογικό γιατί στην περίπτωση αυτή δεν έχουμε δώσει στοιχεία ελέγχου στον αλγόριθμο, τα οποία όμως δώσαμε με το Cross-validation.

project04-img02

  • Έχοντας βρεί λοιπόν μια ικανοποιητική διαδικασία σε όρους σφάλματος, ανοίγουμε το quiz.arff, αφού πρώτα αποθηκεύσουμε το train.arff γιατί θα μας ξαναχρειαστεί.
  • Αφαιρούμε, κατά τον ίδιο τρόπο με πριν, τα attributes που αφαιρέσαμε και στο train.arff και στη συνέχεια προσθέτουμε το target attribute (output), αφού το τελευταίο λείπει. Αυτό το πετυχαίνουμε ως εξής: Choose Filter –>Filters–>Unsupervised–>Attribute–>Add. Στο weka Object Editor, συμπληρώνουμε output στο attributeName και κάνουμε Apply.
  • Επίσης, στη νέα numeric μεταβλητή ορίζουμε όλα τα instances (1265) να έχουν μηδενικές τιμές. Για να γίνει αυτό, επιλέγουμε Edit και με δεξί click στην στήλη της output εισάγουμε μηδέν στο παράθυρο με τίτλο Set all values to…

project04-img03

  • Αποθηκεύουμε το quiz set (με την επιλογή Save)
  • Όντας ένα βήμα πριν την πρόβλεψη των τιμών της output,  ανοίγουμε ξανά το train.arff και επιλέγουμε το Classify. Όμοια με πριν, ως classifier παίρνουμε τον M5Rules, ενώ τώρα ως Test Option παίρνουμε το Supplied Test Set και πατάμε Set, για να ανοίξουμε το quiz.arff που είχαμε αποθηκεύσει στο προηγούμενο βήμα. Ακόμη, επιλέγουμε στο More Options  το Output predictions, για να καταγραφούν οι ζητούμενες προβλέψεις.

project04-img04

  • Ζητάμε τα στοιχεία της λίστας ‘Predicted’. Παρατηρούμε ότι αυτά είναι υπό μορφή δεκαδικών αριθμών. Τελικά, θα τα παρουσιάσουμε στρογγυλοποιημένα.
  • Κάνουμε ‘Επιλογή όλων’ (δεξί click) των παραπάνω,  στη συνέχεια Copy (Ctrl+C) και τέλος Paste (Ctrl+V) σε ένα αρχείο .txt
  • Στο αρχείο αυτό, πατάμε Επεξεργασία–>Αντικατάσταση και αντικαθιστούμε τις τελείες με κόμματα (απαραίτητο για την επεξεργασία με το Excel που θα ακολουθήσει). Σώζουμε το αρχείο .txt
  • Στη συνέχεια, ανοίγουμε ένα αρχείο .xls (Excel) και επιδιώκουμε να ανοίξουμε μέσω αυτού το προηγούμενο αρχείο .txt (text). Ακολουθούμε την εξής πορεία επιλογών: Αρχείο –>Άνοιγμα –> (κάτω δεξιά) Όλα τα αρχεία και βρίσκουμε το .txt. Στον οδηγό εισαγωγής κειμένου που εμφανίζεται αμέσως μετά, επιλέγουμε οριοθετημένο τύπο αρχείου στο Βήμα 1 και ως οριοθέτες στο Βήμα 2 ‘τσεκάρουμε’ τον Χαρακτήρα tab, το Διάστημα καθώς επίσης επιλέγουμε και Χειρισμό διαδοχικών οριοθετών ως ενός.
  • Βρίσκουμε τη στήλη των Predicted τιμών της output (π.χ. τη στήλη D) και την επιλέγουμε.
  • Για να πετύχουμε την στρογγυλοποίηση των δεκαδικών στοιχείων της στήλης αυτής, πάμε στην επιλογή ‘Αριθμός’ της κεντρικής λίστας επιλογών του excel. Επιλέγουμε ‘Περισσότερες μορφές αριθμών…’ και έπειτα στην κατηγορία Αριθμός, διαλέγουμε μηδενικό πλήθος δεκαδικών ψηφίων:

project04-img05

  • Όταν πατήσουμε OK, οι αριθμοί της στήλης D επανέρχονται στρογγυλοποιημένοι (δηλαδή λαμβάνουμε 1265 αριθμούς , που είναι είτε μηδενικά είτε άσσοι). Αντιγράφοντας τους αριθμούς αυτούς σε ένα νέο αρχείο .txt, έχουμε πλέον καταλήξει στην ολοκληρωμένη υποβολή της εργασίας μας.

project04-img06

Advertisements

One response to “Εργασία 04-Αγάθου Θεώνη

  1. Υπερβολικά εκτενής αφήγηση, νομίζω βοήθησε και τους υπόλοιπους, μπράβο. Άριστα 5/5
    (εναλλακτικά νομίζω και ότι αν σώσεις με απλό txt τις 4 στήλες, κ μετά τις ανοίξεις με excel, πάλι θα γίνει η δουλειά σου).

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s