Όταν αποθηκεύουμε ένα αρχειο excel ως csv, οι μετρήσεις στα instances χωρίζονται με “;” αντί για “,” με αποτέλεσμα να μην το ανοίγει το weka. Όταν είχαμε μικρό data set, το πρόβλημα λυνόταν με το Edit->Replace. Τώρα με τόσα instances κάνω replace και κολλάει σε κάποιο σημείο. Τι να κάνω?
Entries from April 2008
Ερωτηση
April 13, 2008 · 1 Comment
Categories: ερωτήσεις
Θέμα, πρώτα αποτελέσματα
April 12, 2008 · No Comments
Η λίστα με τα success rates των υποβολών σας περί quiz set του θέματος βρίσκονται στη σελίδα Leaderboard. Θα ανανεώνεται διαρκώς με τις νέες υποβολές σας. Η Ελευθερία ξεκίνησε με εξαιρετική επίδοση, ο πήχυς είναι ήδη ψηλά, ξεπεράστε τον! (Ωστόσο, εν γένει προσπαθήστε να βελτιστοποιήσετε το σφάλμα του training set και μην παρασύρεστε απαραίτητα από ‘τη γοητεία της κορυφής’ στις υποδείξεις του quiz set, δείτε και διαφάνειες 99 και 100 της διάλεξης 4).
Categories: εργασίες
ΕΡΩΤΗΣΗ
April 11, 2008 · 1 Comment
Αφορά την εργασία 04. Δικαιολογείται το train set μετά την εφαρμογή κάποιων αλγορίθμων (με cross validation) να δίνει πολύ χαμηλό σφάλμα και καλό correlation και η εφαρμογή των ίδιων διαδικασιών με supplied test set το αντίστοιχο quiz να δίνει εντελώς χάλια σφάλματα??? Έχει σχέση με το ότι η προστιθέμενη τελευταία στήλη των outputs στο quiz είναι όλα μηδεν? Αν ναι πρέπει να βάλουμε δικά μας νούμερα στην τύχη?
Categories: ερωτήσεις
Εργασία03: Γιώργος Δοντάς
April 11, 2008 · 3 Comments
- H 38 μπορεί άνετα να εξαιρεθεί
- Η 34 φαίνεται να έχει ένα και μοναδικό outlier. Θα τολμήσω να την εξαιρέσω και αυτή.
- ReplaceMissingValues
- επιλέγω class = none και κανω discretize την output attribute σε 2 bins. Επειτα την ξαναορίζω ως class
- discretize/make binary 6,7,35,36,39
Στη συνέχεια θα επιχειρούσα attribute selection
Μία λύση είναι να κάνω discretize όλες τις υπόλοιπες μεταβλητές και μετά να προχωρήσω σε attribute selection. Η άλλη να προχωρήσω με τις μεταβλητές ως έχουν.
Αν κάνω discretize με useBetterEncoding=true οι μεταβλητές 3 και 4 καθίστανται άχρηστες και εξαιρούνται.
Αν δεν κάνω discretize, να κάποια αποτελέσματα των attribute evaluators (όπου έχω εξαιρέσει τον έλεγχο των binary 6,7,35,36,39 που τις θέλω)
Relief : 24,23,33,12,30,14,5,4,31,15,36,28,21,27,20,32,
18,10,29,17,9,22,26,11,8,19,2,13,25,16,1,3
SVM : 32,24,27,28,13,17,8,33,12,36,23,21,29,16,26,9,
19,18,20,30,10,22,5,11,4,25,2,3,31,14,15,1
PCA : 13,14,11,12,17,18,15,16,3,4,1,2,9,10,5,8,29,30,
27,28,33,36,31,32,21,22,19,20,25,26,23,24
SymmetricUncert : 24,8,22,17,21,10,9,32,11,18,20,19,28,27,
33,13,29,12,26,31,14,15,25,36,23,1,16,30,2,5,4,3
1R : 24,17,8,32,28,9,11,22,18,19,10,20,27,21,33,13,25,
29,2,1,16,3,14,36,12,23,15,30,5,4,26,31
InfoGain : 24,32,17,8,19,9,11,20,10,22,18,28,21,33,13,27,
29,12,26,14,31,15,36,23,30,25,1,16,2,5,4,3
Gain ratio : 21,22,8,10,18,11,9,24,20,17,27,19,33,28,32,25,
16,13,2,1,29,26,12,31,15,14,36,5,23,30,4,3
ChiSquared : 24,32,17,8,9,11,19,20,10,22,28,18,21,33,27,
13,29,12,14,26,31,15,36,23,25,30,1,16,2,5,4,3
Η PCA φαίνεται να είναι τελείως κόντρα στο ρεύμα και την αγνοώ. Από τις υπόλοιπες οι πέντε τελευταίες συμφωνούν σε μεγάλο βαθμό γι’ αυτό και θα βασιστώ περισσότερο σ’αυτές για την επιλογή μου.
Βάσει αυτών θα δοκίμαζα να εξαιρέσω (με σειρά προτεραιότητας) τις : 3,4,5,2,1,16,15,30,14,31,26,25,23,36,29,13
Categories: εργασίες
Εργασία 03: Άννα Σκούντζου
April 9, 2008 · 5 Comments
Προεπεξεργασία και επιλογή δεδομένων από το training set.
Για να πάρουμε μία αρχική εικόνα για τα δεδομένα δημιουργούμε τα ιστογράμματα των μεταβλητών. Από τα διαγράμματα αυτά παρατηρούμε ότι το attribute 38 είναι περιττό στην ανάλυση των δεδομένων, καθώς έχει σταθερή τιμή και ίση με μηδέν, όπως και τα attributes 34 και τα 36 είναι περιττά, αφού εμφανίζουν μόνο μία φορά τιμή διάφορη του μηδενός. Μπορούμε να εξαιρέσουμε τα περιττά attributes ακολουθώντας τα εξής βήματα:
Παρατηρούμε επίσης, ότι για την πλειοψηφία των attributes οι περισσότερες τιμές βρίσκονται σε ένα διάστημα γύρω από την ελάχιστη τιμή. Σκόπιμο λοιπόν είναι, η διακριτοποίηση των χαρακτηριστικών αυτών, η μετατροπή τους δηλαδή, από αριθμητικά χαρακτηριστικά σε ονομαστικά. Για παράδειγμα, έστω ότι θέλουμε να μετατρέψουμε σε ονομαστικό χαρακτηριστικό το attribute 39, το οποίο λαμβάνει μόνο τις τιμές 0 και 1. Ακολουθούμε τα παρακάτω βήματα:

Επιλέγουμε apply και προκύπτει η διακριτοποίηση του χαρακτηριστικού.
Επιπλέον, το WEKA παρέχει τη δυνατότητα επιλογής ενός υποσυνόλου attributes. Για παράδειγμα, χρησιμοποιώντας όλο το training set, επιλέγουμε ως μέθοδο διήθησης τη CfsSubsetEvalC και ως μέθοδο αναζήτησης τη GeneticSearch και προκύπτει ένα υποσύνολο με τα 9 attributes που εμφανίζονται στην ακόλουθη εικόνα.
Διάλεξη 04: Εργασία προς υποβολή
April 8, 2008 · 1 Comment
Η παρούσα εργασία είναι προαιρετική και η βαθμολογία που θα λάβετε είναι προσθετική στο βαθμό σας (λίγο ακόμα και θα πάρετε όλοι 10, anyway). Επίσης, είναι ουσιαστικά κομμάτι του θέματος και την αναθέτω με σκοπό να σας κάνω να ασχοληθείτε πιο σύντομα με αυτό, δηλαδή τώρα. :)
Οι λεπτομέρειες: Χρησιμοποιείτε όσες και όποιες διαδικασίες προεπεξεργασίας και επιλογής χαρακτηριστικών θέλετε και τον αλγόριθμο M5Rules (classify/ rules/ M5Rules). (Εννοείται πως μπορείτε να χρησιμοποιήσετε και όποιον άλλο αλγόριθμο θέλετε, ωστόσο δεν έχετε διδαχθεί λεπτομέρειες περί αλγορίθμων, οπότε σας υποδεικνύω κάποιον που λειτουργεί :), βρίσκετε μία διαδικασία ικανοποιητική σε όρους σφάλματος στο train set, στη συνέχεια εφαρμόζετε ακριβώς την ίδια στο quiz set και εν τέλει μου αποστέλλετε το αρχείο name_quiz_trialnumber.txt (πχ tziralis_quiz01.txt) με email, το οποίο θα περιλαμβάνει τις εκτιμώμενες τιμές της μεταβλητής output για το quiz set.
Όπως έχει αναφερθεί στην εκφώνηση του θέματος, μπορείτε να αποστείλλετε όσα αρχεία τέτοια θέλετε (με διαφορετικές προγνώσεις κάθε φορά) έως την καταληκτική ημερομηνία υποβολής του θέματος, ωστόσο η αποστολή ενός και μόνο συνόλου προβλέψεων ως την επόμενη δευτέρα είναι αρκετή για να σας δώσει άλλες 5 μονάδες (δεν χρειάζεται να ανεβάσετε κάποιο post με περιγραφή της διαδικασίας που ακολουθήσατε -αν θέλετε μπορείτε βέβαια να ανεβάσετε ένα post, χωρίς πολλά λόγια, ίσως αναφέροντας τηλεγραφικά τα βήματα που ακολουθήσατε με bullets, θα βοηθήσει και τους υπόλοιπους-, κατά τ’ άλλα μου αρκεί και η αποστολή του email).
Ως την τρίτη θα αναρτηθεί post με τις αποδόσεις κάθε dataset σας που θα υπολογίσω από τις γνωστές σε εμένα τιμές της μεταβλητής στόχου του quiz set, οπότε και θα ξεκινήσει ο συναγωνισμός. Ο ‘νικητής’, δηλαδή αυτός που θα υποβάλλει την καλύτερη πρόβλεψη στα πλαίσια αυτής της εργασίας ως και τη δευτέρα θα λάβει 6/5 μονάδες. Ότι απορίες έχετε (ίσως έχω ξεχάσει κάποια πράγματα και προκύψουν αρκετές) μου λέτε..
Σχετικά post περί θέματος ως τώρα:
Categories: εργασίες
Πώς να αυξήσετε τη μνήμη του weka
April 8, 2008 · 4 Comments
Αρκετές φορές, εργαζόμενοι με μεγάλα datasets, μάλλον και αυτό του θέματος, θα διαπιστώσετε πως το weka θα κάνει quit λόγω έλλειψης μνήμης, για παράδειγμα κατά τη διάρκεια τρεξίματος ενός απαιτητικού αλγορίθμου. Αυτό οφείλεται στο ότι η αρχική ρύθμιση χρήσης μνήμης από τη java είναι αρκετά μικρή, συνήθως στα 256MB. Οι τρόποι για να το αλλάξετε αυτό είναι οι ακόλουθοι:
way #1 (the easy one):
open RunWeka.bat (located on weka’s folder in program files) with Notepad
and change -Xmx___ to 1024
way#2 (the hard one):
start\control panel\system\advanced\Environment variables\System variables:
change variable “CLASSPATH” to “C:\Program Files\Java\j2re1.4.2_12\bin” (the directory java is installed)
then,
command prompt:
change directory to classpath, namely
cd C:\Program Files\Java\j2re1.4.2_12\bin
and type: java -Xmx1024m -jar “C:\Program Files\Weka-3-4\weka.jar
(this solution is temporary, just for the running weka session)
Note: this is checked on windows xp, if there are any problems on vista or any proposals for other operating systems, just let me know.
Categories: άλλο
Υπόδειξη περί θέματος
April 8, 2008 · 3 Comments
Ως γνωστόν, τα datasets του θέματος είναι διαθέσιμα εδώ, ενώ το train set περιέχει 39 attributes + output, ενώ τα quiz & test sets περιέχουν μόνο τα 39 attrs (σε αντίθεση με όσα ανέφερα στη διάλεξη σήμερα, το quiz set δεν περιλαμβάνει τιμές για το output/target attribute). Το train set χρησιμοποιείται για τη δημιουργία του μοντέλου, ενώ με τη χρήση cross validation μπορεί να προκύψει και αξιόπιστη εκτίμηση του σφάλματος, όπως αναφέρθηκε στη σημερινή διάλεξη 04. Ωστόσο, το μοντέλο που προκύπτει δεν μπορεί να χρησιμοποιηθεί στο weka για την εκπόνηση πρόβλεψης σε dataset διαφορετικού αριθμού χαρακτηριστικών, όπως τα quiz & test sets.
Για το λόγο αυτό, είναι αναγκαία η προσθήκη ενός πλαστού χαρακτηριστικού ‘prediction’ σε αυτά, πχ από το excel (και μετατροπή σε .arff, συνίσταται) ή preprocess/ filter/attribute/add. Σας αποστέλλεται για παράδειγμα ηλεκτρονικά το αρχείο QuizExtended.arff.pdf (το γνωστό trick, βγάλτε το .pdf από το όνομα του αρχείου για να ανοίξει με το weka), το οποίο περιέχει το πρόσθετο attribute ‘prediction’ με τιμή ίση με μηδέν σε όλα τα instances του αρχείου quiz που έχετε ήδη διαθέσιμο.
Οπότε, τελικά, προτείνεται:
- Χρήση του train set για προεπιλογή αλγορίθμων και ρύθμιση παραμέτρων τους μέσω της εκτίμησης του σφάλματος (cross validation)
- Επανάληψη χρήσης των προεπιλεγμένων αλγορίθμων και ρυθμίσεών τους, όπου στα test options τώρα δηλώνεται ως supplied test set το quiz ή test set με το πλαστό χαρακτηριστικό και επιλογή more options/output predictions, ώστε να εκτυπωθούν οι προβλέψεις του μοντέλου για το supplied test set στο classifier output. Τις προβλέψεις αυτές μπορείτε να τις αντιγράψετε εύκολα σε ένα αρχείο .txt (για διευκόλυνση ανοίξτε στη συνέχεια το αρχείο αυτό μέσα από το excel (open/all files/ toarxeio.txt, text import wizard…) ώστε να επιλέξετε μόνο τη στήλη που σας ενδιαφέρει).
Προσοχή: το σύνολο των επιλεγμένων (με πολύ trial & error) διαδικασιών προεπεξεργασίας που εφαρμόζονται στο train set, πρέπει να εφαρμοστούν με τον ίδιο ακριβώς τρόπο και στα υπόλοιπα datasets, ούτως ώστε να προκύψει το δυνητικά ‘βέλτιστο’ αποτέλεσμα.
Απορίες, ως συνήθως, δεκτές στα σχόλια :)
Categories: εργασίες
Διάλεξη 04: Απεικόνιση Γνώσης, Αξιοπιστία & Αποτίμηση (video)
April 8, 2008 · No Comments
Ακολουθεί η μαγνητοσκόπηση της Διάλεξης 4. Το Μέρος ‘Α περιλαμβάνει τις διάφορες μορφές απεικόνισης γνώσης, ενώ το Μέρος Β’ εστιάζει σε θέματα αξιοπιστίας και αποτίμησης.
Μέρος ‘Α: Απεικόνιση Γνώσης
Μέρος Β’: Αξιοπιστία & Αποτίμηση
Ακολουθεί και το .pdf της διάλεξης, ιδιαίτερα χρήσιμο αυτή τη φορά λόγω του βιαστικού της διάλεξης.
Categories: video · σημειώσεις
Διάλεξη 04: Απεικόνιση Γνώσης, Αξιοπιστία & Αποτίμηση (live)
April 8, 2008 · No Comments
Categories: video


