Ζήτημα 1 :
Έχουμε ένα dataset το οποίο περιέχει 20 attributes και μία τελική μεταβλητή στόχο την class
- στην προσπάθεια μου να μειώσω τον όγκο των δεδομένων χρησιμοποίησα την επιλογή του WEKA visualize all απο την οποία δεν έβγαλα κάποιο συμπέρασμα και έτσι χρησιμοποίησα την επιλογή select attributes όπου σε μεγαλύτερο ποσοστό οι attribute evaluators κρατούσαν όλα τα χαρακτηριστικα.
δείνω μερικά αποτελέσματα :
Ranker + SymmetricalUncertAttributeEval :
Selected attributes:1,3,2,6,20,4,9,7,15,14,10,12,17,19,16,18,8,11,5,13 : 20
Ranker + ChiSquaredAttributeEval :
Selected attributes: 1,3,2,4,6,7,9,12,15,14,10,20,17,19,18,8,11,5,13,16 : 20
Ranker + GainRatioAttributeEval :
Selected attributes: 1,20,3,2,6,10,14,15,4,9,7,12,17,19,13,18,8,11,5,16 : 20
- στη συνέχεια προσπαθώ να βρώ εναν αλγόριθμο με αρκετά καλό σφάλμα (εξετάζω το σφάλμα με cross validation με 10 folds) :
- meta.RacedIncrementalLogitBoost : J48 Correctly Classified Instances 70.2667 %
- meta.Bagging : AdaBoostM1 : REPTree Correctly Classified Instances 74.5333 %
- meta.Bagging : AdaBoostM1 : J48 Correctly Classified Instances 75.4667 %
- επιλέγω τον αλγόριθμο Bagging : AdaBoostM1 : J48 γιατί μου δείνει τα καλύτερα αποτελέσματα οπότε η πρόβλεψη μου είναι :
moutsatsos_giorgos_predictiontxt
(το αρχείο είναι σε μορφή txt)
Ζήτημα 2 :
Έχουμε το dataset vehicle το οποίο αναφέρεται σε μορφές οχημάτων οποτε ψάχνουμε να βρούμε κανόνες κατηγοριοποίησης των οχημάτων αυτών.
χρησιμοποιώντας τους αλγορίθμους PART και JRip και επιλέγοντας απο ενα σύνολο 36 κανόνων καταλήγω στους παρακάτω σημαντικότερους :
(ELONGATEDNESS >= 43) and (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 73) => Class=van (86.0/0.0)
αυτός ο κανόνας μας λέει οτι εαν το χαρακτηριστικό ELONGATEDNESS είναι μεγαλύτερο ή ίσο του 43, το MAX.LENGTH ASPECT RATIO είναι μεγαλύτερο ή ίσο του 9 και το DISTANCE CIRCULARITY είναι μεγαλύτερο ή ίσο του 73 τοτε το όχημα είναι van και τα αποτελέσματα σε αυτό το κανόνα είναι 86 σωστά και κανένα λάθος.
ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7 AND
COMPACTNESS > 95: bus (70.0/1.0)
MAX.LENGTH ASPECT RATIO > 8 AND
HOLLOWS RATIO > 189 AND
SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)
(MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR <= 231) => Class=saab (71.0/9.0)
ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7 AND
COMPACTNESS > 95: bus (70.0/1.0)
(MAX.LENGTH ASPECT RATIO >= 8) and (COMPACTNESS <= 103) and (ELONGATEDNESS <= 37) and (HOLLOWS RATIO <= 195) => Class=opel (14.0/0.0)