Τελική Εργασία: Θεώνη Αγάθου

Ζήτημα 1:
Ανοίγουμε το αρχείο creditdata_trainsetarff1.arff και κάνουμε την εξής διαδικασία:

 •  Πάμε στο tab Visualise All και παρατηρούμε ότι δεν υπάρχει κάποιο attribute που να μπορούμε εύκολα να αφαιρέσουμε.
 • Με attribute selection και δοκιμάζοντας τους περισσότερους συνδυασμούς attribute evaluation και search methods, παρατηρούμε ότι οι τα χαρακτηριστικά 5,8,11,13,16,18 και 19 πρέπει να αφαιρεθούν.
 • Με την αφαίρεση αυτή, βλέπουμε ότι  εφαρμόζοντας τον αλγόριθμο (meta)–>Bagging–>J48 υπάρχει βελτίωση του σφάλματος και τελικά από 72.2667% correctly classified instances, δίνει 73.2%.
 • Αποθηκεύουμε το νέο train set, ως creditdata_trainsetarff2 και ανοίγουμε το creditdata_testsetarff1.
 • Τροποποιούμε το testset με ανάλογο τρόπο (δηλαδή αφαιρούμε τα παραπάνω attributes) και το αποθηκεύουμε ως creditdata_testsetarff2.
 • Εφοδιάζουμε το creditdata_testsetarff2 στο trainingdata_trainsetarff2 (ως supplied test set) και με cross validation προκύπτουν οι προβλέψεις (το ακόλουθο txt αρχείο):
  Θεώνη_Αγάθουtxt
Zήτημα:

Ανοίγουμε το vehicle.arff και για να διεξάγουμε κανόνες για την μεταβλητή στόχο (class), που παίρνει τις τιμές: οpel, saab, bus και van χρησιμοποιύμε τους classifier rules JRip (17 κανόνες) και PART (29 κανόνες) του weka.
Αξιοσημείωτοι εμφανίζονται οι ακόλουθοι κανόνες, στους οποίους δίδεται και επεξήγηση:

 

 

 

 

 

 

 

 

 • MAX.LENGTH ASPECT RATIO > 8 AND
  HOLLOWS RATIO > 189 AND
  SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

  Ερμηνεία:  Αν το εν λόγω αυτοκίνητο έχει MAX.LENGTH ASPECT RATIO>8 και HOLLOWS RATIO>189 και SKEWNESS ABOUT_MAJOR>63, τότε ο τύπος του αυτοκινήτου είναι van. Πρόκειται για συνοπτικό και ‘καλό’ κανόνα, διότι δίνει 107 σωστές και μόνο 2 λανθασμένες εκτιμήσεις. Προέκυψε με τον PART:

 • SCALED VARIANCE_MINOR > 309 AND
  DISTANCE CIRCULARITY <= 76 AND
  SKEWNESS ABOUT_MINOR <= 10 AND
  SKEWNESS ABOUT_MAJOR > 64 AND
  CIRCULARITY > 41: bus (107.0/1.0)

  Ερμηνεία:  Όμοια με πριν, εαν ισχύουν οι παραπάνω προυποθέσεις για τα χαρακτηριστικά που φαίνονται,  τότε ο τύπος του αυτοκινήτου είναι bus. Επίσης πρόκειται για καλό κανόνα, γιατί δίνει 107 σωστές εκτιμήσεις και μόλις μια λάθος, ωστόσο απαιτεί να συμβαίνουν πολλές προϋποθέσεις μαζί (δηλαδή ίσως να μην είναι τόσο βολικός τελικά). Τέλος, και ο κανόνας αυτός προέκυψε με τον κανόνα PART.

 • (ELONGATEDNESS >= 43) and (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 73) =>Class=van (86.0/0.0)

  Ερμηνεία:  Πρόκειται για έναν επίσης καλό κανόνα, που υποδεικνύει ότι εαν ισχύουν οι προϋποθέσεις του, τότε ο τύπος του αυτοκινήτου είναι van (με 86 σωστές εκτιμήσεις και καμία λάθος). Προέκυψε με τον rule JRip. 

 • ELONGATEDNESS <= 41 AND
  MAX.LENGTH ASPECT RATIO > 7: opel (132.0/65.0)

  Ερμηνεία: Εδώ έχουμε έναν μη καλό κανόνα γιατί βγάζει πολλές λανθασμένες εκτιμήσεις (65.0) αν και δεν απαιτεί να συμβαίνουν πολλές προϋποθέσεις ταυτόχρονα. Προέκυψε με τον PART

 • (MAX.LENGTH ASPECT RATIO >= 8) and (COMPACTNESS <= 103) and (ELONGATEDNESS <= 37) and (HOLLOWS RATIO <= 195) => Class=opel (14.0/0.0)

  Ερμηνεία: Εδώ ο κανόνας είναι αρκετά καλός και συνοπτικός, για τον τύπο αυτοκινήτου opel και προέκυψε με τον  JRip.

 • (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR <= 231) => Class=saab(71.0/9.0)
  Ερμηνεία:  Τέλος, ένας ακόμη καλός κανόνας που προέκυψε με τον JRip φαίνεται να ισχύει για τον τύπο αυτοκινήτου saab. Ισχύει όταν  ισχύουν οι τρεις προϋποθέσεις που βλέπουμε , που αφορούν τα χαρακτηριστικά (MAX.LENGTH ASPECT RATIO, DISTANCE CIRCULARITY και SCALED VARIANCE_MAJOR)

 

 

 

 

 

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

w

Connecting to %s