Category Archives: exam

Αξιοπιστία υποβολών εξέτασης

Πολύ πρόχειρα, μέχρι να βγάλω συνολική βαθμολογία:

agathou: 0.732
aggelakis: 0.776
argurh: 0.760
chouchoumis: 0.732
katsabrias: 0.776
mixailidou: 0.708
moschou: 0.608
moutsana: 0.756
moutsatos: 0.760
mparla: 0.760
mplintziou: 0.764
nanouris: 0.780
salmanidou: 0.772
tatsiou: 0.732
tzortzaki: 0.752

Advertisements

Τελική Εξέταση : Κατσαβριάς Ευάγγελος

Ζήτημα 1 :

  • Απο το “Visualize All” δεν βγάζουμε κάποιο συμπέρασμα
  • Χρησιμοποιόντας την επιλογή “Select attributes” με διάφορους συνδιασμούς
  • Το attribute 16 δεν φαίνεται σημαντικό
  • Κάνουμε “remove” την attribute16 και αποθηκεύουμε το καινούργιο training set (trainset2)
  • Δοκιμάζουμε διάφορους αλγόριθμους (κυρίως meta) με Cross-validation
  • Επιλογή του αλγορίθμου : bagging+AdaboostM1+J48  

με ποσοστά επιτυχίας : Correctly Classified Instances 76.9333%

και σφάλμα 68.5112%

  • Αφαιρούμε απο το test set την attribute 16 και το αποθηκεύουμε(testset2)
  • Τρέχουμε το  trainset2 με “Supplied test set” το testset2 χρησιμοποιώντας τον παραπάνω αλγόριθμο
  • Το αποτέλεσμα είναι : Teliki_Vagelis_Katsavriasxls

Ζήτημα 2 :

Τρέχοντας το αρχείο Vehicle στο WEKA,με την βοήθεια των rules αλγορίθμων (κυρίως τον Part) μας εμφανίζει κάποιους κανόνες κατηγοριοποίησης των οχημάτων σε “Opel,Saab,Bus και Van”. Οι κανόνες που θέλουμε να βγάλουμε πρέπει να μην είναι πολύπλοκοι, αλλά λιτοί, όσο χρειάζεται φυσικά. Ακόμα στους κανόνες πρέπει να προσέξουμε το ποσοστό των σωστών προβλέψεων, όπου το WEKA μας το αναφέρει μέσα σε παρένθεση.            Έτσι θα έχουμε :

  • ELONGATEDNESS <= 41 AND
    MAX.LENGTH ASPECT RATIO <= 7 AND
    COMPACTNESS > 95: bus (70.0/1.0)

Δηλαδή εάν elongatedness<=41 και το max lenghta spect ratio<=7 και το compactness>95 τότε είναι bus.  Στην παρένθεση μας αναφέρει οτι στις 70 περιπτώσεις που ισχύουν οι παραπάνω περιορισμοί, μόνο σε 1 δεν είναι bus. Κάποιοι ακόμα κανόνες :

  • MAX.LENGTH ASPECT RATIO > 8 AND
    HOLLOWS RATIO > 189 AND
    SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

 

  • SCALED VARIANCE_MINOR > 309 AND
    DISTANCE CIRCULARITY <= 76 AND
    SKEWNESS ABOUT_MINOR <= 10 AND
    SKEWNESS ABOUT_MAJOR > 64 AND
    CIRCULARITY > 41: bus (107.0/1.0)

 

  • (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR <= 231) => saab (71.0/9.0)

 

  • ELONGATEDNESS <= 41 AND
    MAX.LENGTH ASPECT RATIO > 7 AND
    SCALED VARIANCE_MINOR > 721: opel (23.0/1.0)

 

  • SCALED VARIANCE_MAJOR <= 173 AND
    COMPACTNESS > 82 AND
    KURTOSIS ABOUT_MAJOR <= 19 AND
    SCATTER RATIO <= 142 AND
    PR.AXIS RECTANGULARITY <= 17 AND
    SKEWNESS ABOUT_MINOR <= 18: van (30.0/1.0)

ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΜΟΥΤΣΑΤΣΟΣ ΓΕΩΡΓΙΟΣ

Ζήτημα 1 :

Έχουμε ένα dataset το οποίο περιέχει 20 attributes και μία τελική μεταβλητή στόχο την  class

  • στην προσπάθεια μου να μειώσω τον όγκο των δεδομένων χρησιμοποίησα την επιλογή του WEKA visualize all απο την οποία δεν έβγαλα κάποιο συμπέρασμα και έτσι χρησιμοποίησα την επιλογή  select attributes όπου σε μεγαλύτερο ποσοστό οι attribute evaluators κρατούσαν όλα τα χαρακτηριστικα.

                   δείνω μερικά αποτελέσματα :

                    Ranker + SymmetricalUncertAttributeEval :

Selected attributes:1,3,2,6,20,4,9,7,15,14,10,12,17,19,16,18,8,11,5,13 : 20

                    Ranker + ChiSquaredAttributeEval :

Selected attributes: 1,3,2,4,6,7,9,12,15,14,10,20,17,19,18,8,11,5,13,16 : 20

                     Ranker + GainRatioAttributeEval :

Selected attributes: 1,20,3,2,6,10,14,15,4,9,7,12,17,19,13,18,8,11,5,16 : 20

  • στη συνέχεια προσπαθώ να βρώ εναν αλγόριθμο με αρκετά καλό σφάλμα  (εξετάζω το σφάλμα με cross validation με 10 folds) :
  1. meta.RacedIncrementalLogitBoost  : J48                                         Correctly Classified Instances       70.2667 %
  2. meta.Bagging : AdaBoostM1 : REPTree                                      Correctly Classified Instances       74.5333 %
  3. meta.Bagging : AdaBoostM1 : J48                                                  Correctly Classified Instances       75.4667 %
  • επιλέγω τον αλγόριθμο Bagging : AdaBoostM1 : J48 γιατί μου δείνει τα καλύτερα αποτελέσματα οπότε η πρόβλεψη μου είναι :

                           moutsatsos_giorgos_predictiontxt

                             (το αρχείο είναι σε μορφή txt)

Ζήτημα 2 :

Έχουμε το  dataset vehicle το οποίο αναφέρεται σε μορφές οχημάτων οποτε ψάχνουμε να βρούμε κανόνες κατηγοριοποίησης των οχημάτων αυτών.

χρησιμοποιώντας τους αλγορίθμους PART και JRip και επιλέγοντας απο ενα σύνολο 36 κανόνων καταλήγω στους παρακάτω σημαντικότερους :

(ELONGATEDNESS >= 43) and (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 73) => Class=van (86.0/0.0)

αυτός ο κανόνας μας λέει οτι εαν το χαρακτηριστικό ELONGATEDNESS είναι μεγαλύτερο ή ίσο του 43, το MAX.LENGTH ASPECT RATIO είναι μεγαλύτερο ή ίσο του 9 και το DISTANCE CIRCULARITY είναι μεγαλύτερο ή ίσο του 73 τοτε το όχημα είναι van και τα αποτελέσματα σε αυτό το κανόνα είναι 86 σωστά και κανένα λάθος.

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7 AND
COMPACTNESS > 95: bus (70.0/1.0)

MAX.LENGTH ASPECT RATIO > 8 AND
HOLLOWS RATIO > 189 AND
SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

(MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR <= 231) =>  Class=saab (71.0/9.0)

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7 AND
COMPACTNESS > 95: bus (70.0/1.0)

(MAX.LENGTH ASPECT RATIO >= 8) and (COMPACTNESS <= 103) and (ELONGATEDNESS <= 37) and (HOLLOWS RATIO <= 195) =>  Class=opel (14.0/0.0)

Τελική εξέταση : Χουχούμης Ιωάννης

Telikh_Exetash

Chouchoumis_test.txt

Τελική εξέταση: Τζωρτζάκη Μαρία

ΖΗΤΗΜΑ 1

  1. Αρχικά, ανοίγουμε το CreditData_TrainSet.arff
  2. Κάνουμε ένα οπτικό έλεγχο με το visualize all. Παρατηρούμε όμως, ότι δεν παίρνουμε καμία χρήσιμη πληροφορία, οπότε κρατάμε όλες τις attributes.
  3. Στη συνέχεια, παμε στο select attributes -> attribute evaluator & Search method.
  4. Αφαιρώ την attribute 16 (remove) και αποθηκεύω το καινούριο αρχείο.
  5. Εφαρμόζουμε cross validation με διάφορους αλγόριθμους.
  6. Καταλήγουμε στον Bagging -> MultiBoostAB -> J48, ο οποίος μου έδωσε:  Correctly Classified Instances   75.4667 % & Relative absolute error   66.5391 %
  7. Έπειτα, αφαιρώ την attribute 16 από το CreditData_TestSet.arff  και το αποθηκεύουμε.
  8. Τέλος, τρέχουμε το νέο CreditData_TrainSet.arff με supplied test set το νέο CreditData_TestSet.arff  και αποθηκεύουμε τις προβλέψεις, οι οποίες είναι:

predictions.xls

 

 ΖΗΤΗΜΑ 2 

  Τρέχοντας τους έτοιμους αλγόριθμους PART  & J48 μπορούμε να περιγράψουμε και να επεξηγήσουμε τις συσχετίσεις που υπάρχουν ανάμεσα στα χαρακτηριστικά και την κατηγοριοποίηση του οχήματος. Παρακάτω αναφέρονται ενδεικτικά κάποιοι κανόνες.  Οι αριθμοί στις παρενθέσεις (.. , ..) εκφράζουν τις σωστές και τις λάθος προβλέψεις αντίστοιχα.

  • MAX.LENGTH ASPECT RATIO > 8 AND
    HOLLOWS RATIO > 189 AND
    SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

Εξήγηση: Ο παραπάνω κανόνας λέει ότι εαν MAX.LENGTH ASPECT RATIO > 8 και HOLLOWS RATIO > 189 και SKEWNESS ABOUT_MAJOR > 63 τότε  είναι van και από τις 107 περιπτώσεις όπου ισχύουν τα παραπάνω, οι 2 δύο είναι λάθος. Όμοια εξήγηση έχουν και οι παρακάτω κανόνες.

  • SCALED VARIANCE_MINOR > 309 AND
    DISTANCE CIRCULARITY <= 76 AND
    SKEWNESS ABOUT_MINOR <= 10 AND
    SKEWNESS ABOUT_MAJOR > 64 AND
    CIRCULARITY > 41: bus (107.0/1.0)
  • SCATTER RATIO > 144 AND
    PR.AXIS ASPECT RATIO <= 62 AND
    MAX.LENGTH ASPECT RATIO <= 8 AND
    PR.AXIS ASPECT RATIO <= 61: opel (60.0/29.0)

 

  • ELONGATEDNESS > 46 AND
    MAX.LENGTH ASPECT RATIO > 4 AND
    SCALED RADIUS OF GYRATION <= 124 AND
    KURTOSIS ABOUT_MAJOR <= 28 AND
    MAX.LENGTH RECTANGULARITY > 124: van (9.0)

 

  • SCALED VARIANCE_MAJOR <= 174: saab (12.0/3.0)

 

  • ELONGATEDNESS <= 41 AND
    MAX.LENGTH ASPECT RATIO <= 7 AND
    COMPACTNESS > 95: bus (70.0/1.0)

Τελική βαθμολογία

Η τελική βαθμολογία, όπως διαμορφώνεται από τις εργασίες και την εξέταση, έχει ως εξής:

 

  • Πανδή Αθηνά: 72 + 25 = 97 → 10/10
  • Ανδρουλάκης Μάνος: 71 + 27 = 98 → 10/10
  • Καναβού Ελευθερία: 75 + 30 =105 → 10/10
  • Λυγκώνη Ειρήνη: 71 + 19 = 90 → 9/10
  • Ζαχαρίδου Ηρώ: 73 + 17 = 90 → 9/10
  • Πετράτου Θεώνη: 67 + 24 = 89 → 9/10
  • Μάσσου Λίνα: 74 + 23 = 97 → 10/10
  • Σπαρτινού Ειρήνη: 68 + 18 = 86 → 9/10 (διόρθωση: 10/10)
  • Σκούντζου Άννα: 63 + 26 =89 → 9/10 (διόρθωση: 10/10)
  • Δοντάς Γιώργος: 71 + 0 (ΔΠ) = 44 → 4/10 (διόρθωση: 10/10)

Η κ. Σπαρτινού Ειρήνη έλαβε άριστα 10 δεδομένης της πρωτιάς της στο βαθμό αξιοπιστίας των προβλέψεν του θέματος, ενώ η κ. Σκούντζου Άννα και ο κ. Δοντάς Γιώργος έλαβαν επίσης άριστα 10 δεδομένης της παρουσίας και συμμετοχής τους ως τη λήξη του μαθήματος, επίσης της υποστήριξής τους σε αυτό (παρά το γεγονός πως το παρακολουθούσαν προαιρετικά χωρίς τυπικές υποχρεώσεις).

Κρίνοντας και από τη βαθμολόγηση, θεωρώ πως το μάθημα κύλισε εν τέλει εξαιρετικά, εκκρεμεί ένας πιο επίσημος απολογισμός μου και επίσης ο σχολιασμός των θετικών και αρνητικών σημείων του από τον καθένα από εσάς (σε προαιρετικό διακριτό post). Ως τότε, έχετε τις θερμές μου ευχαριστίες και ευχές για καλό καλοκαίρι.

 

Τελική εξέταση, ακρίβεια προβλέψεων στο test set

Παραθέτω το ποσοστό επιτυχίας στις υποβολές σας σχετικά με το ζήτημα 1 της εξέτασης.

  1. Καναβού Ελευθερία: 0,776
  2. Πετράτου Θεώνη: 0,756
  3. Μάσσου Λίνα: 0,756
  4. Ανδρουλάκης Μάνος: 0,752
  5. Σκούντζου Άννα: 0,752
  6. Πανδή Αθηνά: 0,744
  7. Λυγκώνη Ειρήνη: 0,716
  8. Ηρώ Ζαχαρίδου: 0,656
  9. Σπαρτινού Ειρήνη: 0.240
Θα ακολουθήσουν σύντομα η συνολική βαθμολογία σας στις εξετάσεις, όπως επίσης και ο βαθμό προαγωγής σας.