Είναι δόκιμη η χρήση του Pearson Correlation Test Statistic για την επιλογή ασυσχέτιστων (και συνεπώς αχρείαστων) μεταβλητών, ή δεν ενδείκνυται επειδή περιορίζεται μόνο στη γραμμική συσχέτιση των μεταβλητών με την output ; (Π.χ. στο παράδειγμά μας 6 μεταβλητές δεν περνούν τον έλεγχο).
Μήπως θα ήταν χρήσιμο να δοκιμάζαμε μη γραμμικές μεθόδους όπως mutual information/total correlation για έλεγχο οποιουδήποτε είδους συσχέτισης, ή μήπως απαραμετρικές μεθόδους (μιας και μόνο Normal δεν είναι οι κατανομές των χαρακτηριστικών) όπως το Spearman’s ρ ;
Σας φαίνεται λογική η επιλογή μεταβλητών με βάση τη συσχέτισή τους με την output;
Περιλαμβάνεται κάτι από αυτά στο Attribute Selection του Weka;
prospathw na treksw ton algorithmo JRip or PRism. Enw kanw kanonika Discretize sto train set mou kai ton trexw kanonika, meta kanw kai sto quiz set mou Discretize gia na einai compatible ta atribbutes kai kanw to kainourgio quizset openfile sto set opws me ton idio tropo opws stin proigoumeni ergasia kai den mou trexei me tipota. Ti na kanw lathos?
Όταν αποθηκεύουμε ένα αρχειο excel ως csv, οι μετρήσεις στα instances χωρίζονται με “;” αντί για “,” με αποτέλεσμα να μην το ανοίγει το weka. Όταν είχαμε μικρό data set, το πρόβλημα λυνόταν με το Edit->Replace. Τώρα με τόσα instances κάνω replace και κολλάει σε κάποιο σημείο. Τι να κάνω?
Αφορά την εργασία 04. Δικαιολογείται το train set μετά την εφαρμογή κάποιων αλγορίθμων (με cross validation) να δίνει πολύ χαμηλό σφάλμα και καλό correlation και η εφαρμογή των ίδιων διαδικασιών με supplied test set το αντίστοιχο quiz να δίνει εντελώς χάλια σφάλματα??? Έχει σχέση με το ότι η προστιθέμενη τελευταία στήλη των outputs στο quiz είναι όλα μηδεν? Αν ναι πρέπει να βάλουμε δικά μας νούμερα στην τύχη?
Έχω πρόβλημα με τα vista, όταν πάω να κάνω save το αρχείο excel σαν csv το σώζει απευθείας σαν wordpad και όταν το κάνω rename σε arff παραμένει wordpad. Ξέρει κανείς τι τρέχει?
1) Tι κάνει το κουμπί Filter στο Preprocess;
2) Tι κάνει το κουμπί Clear στο παράθυρο που ανοίγει με click σε scatterplot στο Visualize;
3) Το Weka δεν τρέχει σε Vista; Έχει σημασία αν υπάρχει internet;
1) Πώς ορίζεται μια ordinal μεταβλητή σε arff αρχείο;
2) Πώς εντοπίζονται οι τιμές outlier (μόνο οπτικά);
3) Πώς μπορείς να δεις για κάποιο instance με τιμή outlier σε κάποιο χαρακτηριστικό, τι τιμές έχει στα υπόλοιπα; Υπάρχει το λεγόμενο parallel coordinates view;
4) Πώς εξαιρώ έναν outlier από το dataset; Εξαιρώ όλο το instance ή σβήνω τη συγκεκριμένη τιμή της attribute μετατρέποντάς τη σε missing value;
Υ.Γ. Θα πρότεινα να δημιουργηθεί κατηγορία Ερωτήσεις/Απορίες ή κάτι τέτοιο, όπου θα εκφράζουμε ερωτήματα.