ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΜΟΥΤΣΑΤΣΟΣ ΓΕΩΡΓΙΟΣ

Ζήτημα 1 :

Έχουμε ένα dataset το οποίο περιέχει 20 attributes και μία τελική μεταβλητή στόχο την  class

  • στην προσπάθεια μου να μειώσω τον όγκο των δεδομένων χρησιμοποίησα την επιλογή του WEKA visualize all απο την οποία δεν έβγαλα κάποιο συμπέρασμα και έτσι χρησιμοποίησα την επιλογή  select attributes όπου σε μεγαλύτερο ποσοστό οι attribute evaluators κρατούσαν όλα τα χαρακτηριστικα.

                   δείνω μερικά αποτελέσματα :

                    Ranker + SymmetricalUncertAttributeEval :

Selected attributes:1,3,2,6,20,4,9,7,15,14,10,12,17,19,16,18,8,11,5,13 : 20

                    Ranker + ChiSquaredAttributeEval :

Selected attributes: 1,3,2,4,6,7,9,12,15,14,10,20,17,19,18,8,11,5,13,16 : 20

                     Ranker + GainRatioAttributeEval :

Selected attributes: 1,20,3,2,6,10,14,15,4,9,7,12,17,19,13,18,8,11,5,16 : 20

  • στη συνέχεια προσπαθώ να βρώ εναν αλγόριθμο με αρκετά καλό σφάλμα  (εξετάζω το σφάλμα με cross validation με 10 folds) :
  1. meta.RacedIncrementalLogitBoost  : J48                                         Correctly Classified Instances       70.2667 %
  2. meta.Bagging : AdaBoostM1 : REPTree                                      Correctly Classified Instances       74.5333 %
  3. meta.Bagging : AdaBoostM1 : J48                                                  Correctly Classified Instances       75.4667 %
  • επιλέγω τον αλγόριθμο Bagging : AdaBoostM1 : J48 γιατί μου δείνει τα καλύτερα αποτελέσματα οπότε η πρόβλεψη μου είναι :

                           moutsatsos_giorgos_predictiontxt

                             (το αρχείο είναι σε μορφή txt)

Ζήτημα 2 :

Έχουμε το  dataset vehicle το οποίο αναφέρεται σε μορφές οχημάτων οποτε ψάχνουμε να βρούμε κανόνες κατηγοριοποίησης των οχημάτων αυτών.

χρησιμοποιώντας τους αλγορίθμους PART και JRip και επιλέγοντας απο ενα σύνολο 36 κανόνων καταλήγω στους παρακάτω σημαντικότερους :

(ELONGATEDNESS >= 43) and (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 73) => Class=van (86.0/0.0)

αυτός ο κανόνας μας λέει οτι εαν το χαρακτηριστικό ELONGATEDNESS είναι μεγαλύτερο ή ίσο του 43, το MAX.LENGTH ASPECT RATIO είναι μεγαλύτερο ή ίσο του 9 και το DISTANCE CIRCULARITY είναι μεγαλύτερο ή ίσο του 73 τοτε το όχημα είναι van και τα αποτελέσματα σε αυτό το κανόνα είναι 86 σωστά και κανένα λάθος.

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7 AND
COMPACTNESS > 95: bus (70.0/1.0)

MAX.LENGTH ASPECT RATIO > 8 AND
HOLLOWS RATIO > 189 AND
SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

(MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR <= 231) =>  Class=saab (71.0/9.0)

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7 AND
COMPACTNESS > 95: bus (70.0/1.0)

(MAX.LENGTH ASPECT RATIO >= 8) and (COMPACTNESS <= 103) and (ELONGATEDNESS <= 37) and (HOLLOWS RATIO <= 195) =>  Class=opel (14.0/0.0)

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s