Netflix Prize – Ο στόχος επετεύχθη!

Τα σχόλια είναι περιττά, δείτε απλά την τρέχουσα κατάσταση στο Leaderboard:
Picture 2

Όσοι είσασταν παρόντες στην παρουσίαση Αμπαζή μία εβδομάδα πριν στο συνέδριο ΕΛΛΑΚ μάλλον θα έχετε μείνει με το στόμα ανοικτό, οι υπόλοιποι δείτε εκτενέστερη κάλυψη εδώ:
New York Times
Wired
Read Write Web
Geeking with Greg

Για να δούμε τι θα μας φέρουν οι 30 μέρες που θα ακολουθήσουν, οι θερμότερες των ευχών μας στους Νίκο Αμπαζή και Γιώργο Τσάγκα της ομάδας Feeds2 (αυτή τη στιγμή στη θέση 14).

Τελική Βαθμολογία

Παραθέτω την τελική βαθμολογία, στην μορφή Όνομα_Επώνυμο: Συνολικοί βαθμοί ως σήμερα + Βαθμολογία Εξέτασης (με άριστα το 30) (βαθμολογία υποβολής test set εξέτασης + βαθμολογία περιγραφής πρώτου ζητήματος + βαθμολογία περιγραφής δεύτερου ζητήματος) = Τελικοί συνολικοί βαθμοί, με άριστα το 100 -> Βαθμολογία προς υποβολή στη γραμματεία, με άριστα το 10.

Παρακαλώ διορθώστε όποιο λάθος υπάρχει, ή υποβάλλετε τελικά σχόλια αν αυτά υπάρχουν, ώστε να προωθηθεί η τελική βαθμολογία στη γραμματεία και επισήμως.

Θεώνη Αγάθου: 75 + 22 (5+8+9) = 97 -> 10/10
Αθανάσιος Αγγελάκης: 89 + 18 (8+5+5) = 107 -> 10/10
Κατερίνα Αργύρη: 49 + 26 (6+10+10) = 75 -> 8/10
Βαγγέλης Κατσαβριάς: 80 + 25 (8+9+9) = 105 -> 10/10
Χριστίνα Μιχαηλίδου: 57 + 23 (5+9+9) = 80 -> 8/10
Νίκη Μόσχου: 63 + 22 (4+9+9) = 85 -> 9/10
Βασιλική Μουτσανά: 78 + 24 (5+9+10) = 102 -> 10/10
Γιώργος Μουτσάτσος: 71 + 24 (6+9+9) = 95 -> 10/10
Δήμητρα Μπάρλα: 62 + 23 (6+8+9) = 85 -> 9/10
Ιωάννα Μπλίντζιου: 76 + 27 (7+10+10) = 103 -> 10/10
Νικόλαος Νανούρης: 67 + 30 (10+10+10) = 97 -> 10/10
Μακρίνα Σαλμανίδου: 55 + 27 (9+9+9) = 82 -> 8/10
Δήμητρα Τάτσιου: 73 + 23 (5+9+9) = 96 -> 10/10
Αθηνά Τσανούσα: 44 + 0 (0,0,0) = 44 -> 5/10
Μαρία Τζωρτζάκη: 66 + 23 (5+9+9) = 91 -> 9/10
Ιωάννης Χουχούμης: 74 + 25 (5+10+10) = 99 -> 10/10

Και πάλι, τα θερμά μου συγχαρητήρια και οι ευχαριστίες μου προς όλους.

Αξιοπιστία υποβολών εξέτασης

Πολύ πρόχειρα, μέχρι να βγάλω συνολική βαθμολογία:

agathou: 0.732
aggelakis: 0.776
argurh: 0.760
chouchoumis: 0.732
katsabrias: 0.776
mixailidou: 0.708
moschou: 0.608
moutsana: 0.756
moutsatos: 0.760
mparla: 0.760
mplintziou: 0.764
nanouris: 0.780
salmanidou: 0.772
tatsiou: 0.732
tzortzaki: 0.752

Data Mining + Συνέδριο Δημιουργών ΕΛ/ΛΑΚ

Αν και ο χρόνος μέσα στην εξεταστική είναι περιορισμένος για όλους μας αξίζει να κλέψουμε λίγο από αυτόν για μια επίσκεψη στο
Συνέδριο δημιουργών ΕΛ/ΛΑΚ (Ελεύθερου Λογισμικού / λογισμικού ανοιχτού κωδικά ) ,
το οποίο θα διεξαχθεί στην Πολυτεχνειούπολη Ζωγράφου το διήμερο Παρασκευή 19 και Σάββατο 20 Ιουνίου.

Στο Συνέδριο θα  υπάρξουν  ενδιαφέρουσες ομιλίες και workshops σχετικά  με εφαρμογές Data mining καθώς και πλήθος παρουσιάσεων για  εφαρμογές ανοιχτού λογισμικού   σε μικρομεσαίες   επιχειρήσεις ,  στην εκπαίδευση και στην έρευνα (Προσομοιώσεις,  Στατιστική επεξεργασία).
Όσοι από εσάς δεν γνωρίζετε για το ελεύθερο λογισμικό το παραπάνω διήμερο είναι μια καλή ευκαιρία για να το ανακαλύψετε.

Σας παραθέτω ενδεικτικά τις ομιλίες  ενός workshop της Παρασκευής που έχει άμεση σχέση με το μάθημα:

Data Mining: Το Πρόβλημα, τα Εργαλεία Ανοιχτού Λογισμικού, οι Εφαρμογές & η Υπόσχεση (Παρασκευή 19 Ιουνίου  17:00-19:00)

Η Εγγραφή στο συνέδριο και η συμμετοχή στα workshops είναι δωρεάν!
Οι έγγραφες θα γίνονται μέχρι την Τετάρτη 17 Ιουνίου εδώ

 

Why Managers Should Analyse Data Themselves

Ενώ ακόμα δεν έχω βγάλει βαθμολογία (ευελπιστώ σημερα ή αύριο), σας παραθέτω ένα ενδιαφέρον ανάγνωσμα, να το θυμάστε όταν γίνεται υψηλά ιστάμενοι ερευνητές ή managers (από έναν εξαιρετικό καναδό ερευνητή & blogger): Why Senior Researchers And Managers Should Analyze Data Themselves

Τελική Εργασία: Θεώνη Αγάθου

Ζήτημα 1:
Ανοίγουμε το αρχείο creditdata_trainsetarff1.arff και κάνουμε την εξής διαδικασία:

  •  Πάμε στο tab Visualise All και παρατηρούμε ότι δεν υπάρχει κάποιο attribute που να μπορούμε εύκολα να αφαιρέσουμε.
  • Με attribute selection και δοκιμάζοντας τους περισσότερους συνδυασμούς attribute evaluation και search methods, παρατηρούμε ότι οι τα χαρακτηριστικά 5,8,11,13,16,18 και 19 πρέπει να αφαιρεθούν.
  • Με την αφαίρεση αυτή, βλέπουμε ότι  εφαρμόζοντας τον αλγόριθμο (meta)–>Bagging–>J48 υπάρχει βελτίωση του σφάλματος και τελικά από 72.2667% correctly classified instances, δίνει 73.2%.
  • Αποθηκεύουμε το νέο train set, ως creditdata_trainsetarff2 και ανοίγουμε το creditdata_testsetarff1.
  • Τροποποιούμε το testset με ανάλογο τρόπο (δηλαδή αφαιρούμε τα παραπάνω attributes) και το αποθηκεύουμε ως creditdata_testsetarff2.
  • Εφοδιάζουμε το creditdata_testsetarff2 στο trainingdata_trainsetarff2 (ως supplied test set) και με cross validation προκύπτουν οι προβλέψεις (το ακόλουθο txt αρχείο):
    Θεώνη_Αγάθουtxt
Zήτημα:

Ανοίγουμε το vehicle.arff και για να διεξάγουμε κανόνες για την μεταβλητή στόχο (class), που παίρνει τις τιμές: οpel, saab, bus και van χρησιμοποιύμε τους classifier rules JRip (17 κανόνες) και PART (29 κανόνες) του weka.
Αξιοσημείωτοι εμφανίζονται οι ακόλουθοι κανόνες, στους οποίους δίδεται και επεξήγηση:

 

 

 

 

 

 

 

 

  • MAX.LENGTH ASPECT RATIO > 8 AND
    HOLLOWS RATIO > 189 AND
    SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

    Ερμηνεία:  Αν το εν λόγω αυτοκίνητο έχει MAX.LENGTH ASPECT RATIO>8 και HOLLOWS RATIO>189 και SKEWNESS ABOUT_MAJOR>63, τότε ο τύπος του αυτοκινήτου είναι van. Πρόκειται για συνοπτικό και ‘καλό’ κανόνα, διότι δίνει 107 σωστές και μόνο 2 λανθασμένες εκτιμήσεις. Προέκυψε με τον PART:

  • SCALED VARIANCE_MINOR > 309 AND
    DISTANCE CIRCULARITY <= 76 AND
    SKEWNESS ABOUT_MINOR <= 10 AND
    SKEWNESS ABOUT_MAJOR > 64 AND
    CIRCULARITY > 41: bus (107.0/1.0)

    Ερμηνεία:  Όμοια με πριν, εαν ισχύουν οι παραπάνω προυποθέσεις για τα χαρακτηριστικά που φαίνονται,  τότε ο τύπος του αυτοκινήτου είναι bus. Επίσης πρόκειται για καλό κανόνα, γιατί δίνει 107 σωστές εκτιμήσεις και μόλις μια λάθος, ωστόσο απαιτεί να συμβαίνουν πολλές προϋποθέσεις μαζί (δηλαδή ίσως να μην είναι τόσο βολικός τελικά). Τέλος, και ο κανόνας αυτός προέκυψε με τον κανόνα PART.

  • (ELONGATEDNESS >= 43) and (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 73) =>Class=van (86.0/0.0)

    Ερμηνεία:  Πρόκειται για έναν επίσης καλό κανόνα, που υποδεικνύει ότι εαν ισχύουν οι προϋποθέσεις του, τότε ο τύπος του αυτοκινήτου είναι van (με 86 σωστές εκτιμήσεις και καμία λάθος). Προέκυψε με τον rule JRip. 

  • ELONGATEDNESS <= 41 AND
    MAX.LENGTH ASPECT RATIO > 7: opel (132.0/65.0)

    Ερμηνεία: Εδώ έχουμε έναν μη καλό κανόνα γιατί βγάζει πολλές λανθασμένες εκτιμήσεις (65.0) αν και δεν απαιτεί να συμβαίνουν πολλές προϋποθέσεις ταυτόχρονα. Προέκυψε με τον PART

  • (MAX.LENGTH ASPECT RATIO >= 8) and (COMPACTNESS <= 103) and (ELONGATEDNESS <= 37) and (HOLLOWS RATIO <= 195) => Class=opel (14.0/0.0)

    Ερμηνεία: Εδώ ο κανόνας είναι αρκετά καλός και συνοπτικός, για τον τύπο αυτοκινήτου opel και προέκυψε με τον  JRip.

  • (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR <= 231) => Class=saab(71.0/9.0)
    Ερμηνεία:  Τέλος, ένας ακόμη καλός κανόνας που προέκυψε με τον JRip φαίνεται να ισχύει για τον τύπο αυτοκινήτου saab. Ισχύει όταν  ισχύουν οι τρεις προϋποθέσεις που βλέπουμε , που αφορούν τα χαρακτηριστικά (MAX.LENGTH ASPECT RATIO, DISTANCE CIRCULARITY και SCALED VARIANCE_MAJOR)

 

 

 

 

 

Τελική Εξέταση : Κατσαβριάς Ευάγγελος

Ζήτημα 1 :

  • Απο το “Visualize All” δεν βγάζουμε κάποιο συμπέρασμα
  • Χρησιμοποιόντας την επιλογή “Select attributes” με διάφορους συνδιασμούς
  • Το attribute 16 δεν φαίνεται σημαντικό
  • Κάνουμε “remove” την attribute16 και αποθηκεύουμε το καινούργιο training set (trainset2)
  • Δοκιμάζουμε διάφορους αλγόριθμους (κυρίως meta) με Cross-validation
  • Επιλογή του αλγορίθμου : bagging+AdaboostM1+J48  

με ποσοστά επιτυχίας : Correctly Classified Instances 76.9333%

και σφάλμα 68.5112%

  • Αφαιρούμε απο το test set την attribute 16 και το αποθηκεύουμε(testset2)
  • Τρέχουμε το  trainset2 με “Supplied test set” το testset2 χρησιμοποιώντας τον παραπάνω αλγόριθμο
  • Το αποτέλεσμα είναι : Teliki_Vagelis_Katsavriasxls

Ζήτημα 2 :

Τρέχοντας το αρχείο Vehicle στο WEKA,με την βοήθεια των rules αλγορίθμων (κυρίως τον Part) μας εμφανίζει κάποιους κανόνες κατηγοριοποίησης των οχημάτων σε “Opel,Saab,Bus και Van”. Οι κανόνες που θέλουμε να βγάλουμε πρέπει να μην είναι πολύπλοκοι, αλλά λιτοί, όσο χρειάζεται φυσικά. Ακόμα στους κανόνες πρέπει να προσέξουμε το ποσοστό των σωστών προβλέψεων, όπου το WEKA μας το αναφέρει μέσα σε παρένθεση.            Έτσι θα έχουμε :

  • ELONGATEDNESS <= 41 AND
    MAX.LENGTH ASPECT RATIO <= 7 AND
    COMPACTNESS > 95: bus (70.0/1.0)

Δηλαδή εάν elongatedness<=41 και το max lenghta spect ratio<=7 και το compactness>95 τότε είναι bus.  Στην παρένθεση μας αναφέρει οτι στις 70 περιπτώσεις που ισχύουν οι παραπάνω περιορισμοί, μόνο σε 1 δεν είναι bus. Κάποιοι ακόμα κανόνες :

  • MAX.LENGTH ASPECT RATIO > 8 AND
    HOLLOWS RATIO > 189 AND
    SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

 

  • SCALED VARIANCE_MINOR > 309 AND
    DISTANCE CIRCULARITY <= 76 AND
    SKEWNESS ABOUT_MINOR <= 10 AND
    SKEWNESS ABOUT_MAJOR > 64 AND
    CIRCULARITY > 41: bus (107.0/1.0)

 

  • (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR <= 231) => saab (71.0/9.0)

 

  • ELONGATEDNESS <= 41 AND
    MAX.LENGTH ASPECT RATIO > 7 AND
    SCALED VARIANCE_MINOR > 721: opel (23.0/1.0)

 

  • SCALED VARIANCE_MAJOR <= 173 AND
    COMPACTNESS > 82 AND
    KURTOSIS ABOUT_MAJOR <= 19 AND
    SCATTER RATIO <= 142 AND
    PR.AXIS RECTANGULARITY <= 17 AND
    SKEWNESS ABOUT_MINOR <= 18: van (30.0/1.0)

Νανούρης Νικόλαος: Τελική Εξέταση

Θέμα 1

1. Η οπτικοποίηση των δεδομένων δεν οδηγεί στην απόρριψη κάποιας   μεταβλητής.

2. Παρατηρούμε ότι η μεταβλητή foreign_workers ίσως δεν είναι σημαντική.

3. Η χρήση αξιολογητών μεταβλητών προτείνει μόνο τις τρεις πρώτες μεταβλητές.

4. Χρήση αλγορίθμων όλων των κατηγοριών και της τεχνικής διασταυρωμένης επικύρωσης.

5. Παρατηρείται υπεροχή της Μπεϋζιανής κατηγορίας, ενδεχομένως λόγω παρουσίας θορύβου.

6. Όλες οι μεταβλητές: 27.73% με RandomForest, 26% με SMO, 25.6% με NaiveBayes.

7. Αφαίρεση της foreign_workers: 25.47% με RandomForest, 26.53% με SMO, 25.73% με NaiveBayes.

8. Χρήση μόνο των μεταβλητών 1, 2, 3: 32.27% με RandomForest, 28% με SMO, 26.27% με NaiveBayes.

9. Χρήση μεταμαθησιακών αλγορίθμων με όλες τις μεταβλητές. Υπεροχή NaiveBayes ως εμβόλιμου αλγόριθμου.

10. Βέλτιστη επιλογή: MultiBoostAB+NaiveBayes με ποσοστό αποτυχίας 25.07%.

Nanouris_Nikolaos

 

Θέμα 2

1. Χρήση του αλγόριθμου PART με κατάλληλη επιλογή του ελάχιστου αριθμού αντικειμένων (αρκετά υψηλό) ώστε να αποκαλυφθούν οι σημαντικότεροι κανόνες:

PART decision list
——————

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7: bus (107.0/21.0)

ELONGATEDNESS <= 41 AND
COMPACTNESS <= 106 AND
MAX.LENGTH RECTANGULARITY <= 172 AND
HOLLOWS RATIO > 196 AND
MAX.LENGTH ASPECT RATIO > 9: saab (73.0/29.0)

ELONGATEDNESS <= 41 AND
COMPACTNESS <= 106 AND
MAX.LENGTH ASPECT RATIO > 9: opel (64.0/10.0)

ELONGATEDNESS <= 41 AND
PR.AXIS RECTANGULARITY <= 23 AND
SKEWNESS ABOUT_MAJOR <= 67: opel (52.0/23.0)

ELONGATEDNESS > 41 AND
MAX.LENGTH ASPECT RATIO <= 8 AND
SCALED VARIANCE_MINOR > 305 AND
MAX.LENGTH RECTANGULARITY > 134: bus (146.0/31.0)

ELONGATEDNESS > 41 AND
MAX.LENGTH RECTANGULARITY > 138: van (152.0/10.0)

PR.AXIS RECTANGULARITY > 18: saab (139.0/55.0)

MAX.LENGTH RECTANGULARITY > 127: van (67.0/26.0)

: saab (46.0/26.0)

Number of Rules  :  9

Παρατηρήσεις:

  • Έχουμε τους 9 βασικότερους κανόνες, από τους οποίους μερικοί διακρίνονται ακόμα περισσότερο: πρόκειται για τον πρώτο, πέμπτο, έκτο και έβδομο κανόνα.
  • Η σημαντικότερη πληροφορία, σύμφωνα με τον πρώτο και τον έκτο κανόνα, είναι η διαπίστωση ότι το elongatedness είναι καθοριστικός παράγοντας της ταξινόμησης (κάτω από 41, τότε bus και πάνω από 41, τότε van).

2. Χρήση του αλγόριθμου J48 με κατάλληλη επιλογή του ελάχιστου αριθμού αντικειμένων (αρκετά υψηλό) ώστε να αποκαλυφθούν οι σημαντικότεροι κανόνες:

J48 pruned tree
——————

ELONGATEDNESS <= 41
|   MAX.LENGTH ASPECT RATIO <= 7: bus (107.0/21.0)
|   MAX.LENGTH ASPECT RATIO > 7
|   |   SCALED VARIANCE_MINOR <= 721
|   |   |   HOLLOWS RATIO <= 195: opel (39.0/7.0)
|   |   |   HOLLOWS RATIO > 195: saab (213.0/84.0)
|   |   SCALED VARIANCE_MINOR > 721: opel (23.0/1.0)
ELONGATEDNESS > 41
|   MAX.LENGTH ASPECT RATIO <= 8
|   |   SCALED VARIANCE_MINOR <= 305
|   |   |   MAX.LENGTH RECTANGULARITY <= 138
|   |   |   |   PR.AXIS RECTANGULARITY <= 17: van (39.0/12.0)
|   |   |   |   PR.AXIS RECTANGULARITY > 17
|   |   |   |   |   MAX.LENGTH RECTANGULARITY <= 128: opel (32.0/16.0)
|   |   |   |   |   MAX.LENGTH RECTANGULARITY > 128
|   |   |   |   |   |   SCALED RADIUS OF GYRATION <= 140: van (21.0/4.0)
|   |   |   |   |   |   SCALED RADIUS OF GYRATION > 140: opel (20.0/11.0)
|   |   |   MAX.LENGTH RECTANGULARITY > 138: van (46.0/4.0)
|   |   SCALED VARIANCE_MINOR > 305
|   |   |   DISTANCE CIRCULARITY <= 76
|   |   |   |   SKEWNESS ABOUT_MINOR <= 10: bus (137.0/15.0)
|   |   |   |   SKEWNESS ABOUT_MINOR > 10: opel (20.0/9.0)
|   |   |   DISTANCE CIRCULARITY > 76: opel (33.0/16.0)
|   MAX.LENGTH ASPECT RATIO > 8: van (116.0/10.0)

Number of Leaves  :  13

Size of the tree :  25

Παρατηρήσεις:

  • Έχουμε τα 13 βασικότερα φύλλα ταξινόμησης, από τα οποία τα δύο είναι ιδιαίτερα χαρακτηριστικά: πρόκειται για εκείνα τα οποία καθορίζονται από τη μεταβλητή elongatedness της οποίας η τιμή 41 οδηγεί σε πιο ενδελεχή διαχωρισμό των αποτελεσμάτων.
  • Οι δύο αλγόριθμοι συμφωνούν σε μεγάλο βαθμό ως προς την επιλογή του παράγοντα elongatedness ο οποίος μπορεί με ασφάλεια να θεωρηθεί ο πιο κρίσιμος για το σχεδιασμό της εταιρείας που πραγματοποίησε τη συγκεκριμένη μελέτη.

ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΜΟΥΤΣΑΤΣΟΣ ΓΕΩΡΓΙΟΣ

Ζήτημα 1 :

Έχουμε ένα dataset το οποίο περιέχει 20 attributes και μία τελική μεταβλητή στόχο την  class

  • στην προσπάθεια μου να μειώσω τον όγκο των δεδομένων χρησιμοποίησα την επιλογή του WEKA visualize all απο την οποία δεν έβγαλα κάποιο συμπέρασμα και έτσι χρησιμοποίησα την επιλογή  select attributes όπου σε μεγαλύτερο ποσοστό οι attribute evaluators κρατούσαν όλα τα χαρακτηριστικα.

                   δείνω μερικά αποτελέσματα :

                    Ranker + SymmetricalUncertAttributeEval :

Selected attributes:1,3,2,6,20,4,9,7,15,14,10,12,17,19,16,18,8,11,5,13 : 20

                    Ranker + ChiSquaredAttributeEval :

Selected attributes: 1,3,2,4,6,7,9,12,15,14,10,20,17,19,18,8,11,5,13,16 : 20

                     Ranker + GainRatioAttributeEval :

Selected attributes: 1,20,3,2,6,10,14,15,4,9,7,12,17,19,13,18,8,11,5,16 : 20

  • στη συνέχεια προσπαθώ να βρώ εναν αλγόριθμο με αρκετά καλό σφάλμα  (εξετάζω το σφάλμα με cross validation με 10 folds) :
  1. meta.RacedIncrementalLogitBoost  : J48                                         Correctly Classified Instances       70.2667 %
  2. meta.Bagging : AdaBoostM1 : REPTree                                      Correctly Classified Instances       74.5333 %
  3. meta.Bagging : AdaBoostM1 : J48                                                  Correctly Classified Instances       75.4667 %
  • επιλέγω τον αλγόριθμο Bagging : AdaBoostM1 : J48 γιατί μου δείνει τα καλύτερα αποτελέσματα οπότε η πρόβλεψη μου είναι :

                           moutsatsos_giorgos_predictiontxt

                             (το αρχείο είναι σε μορφή txt)

Ζήτημα 2 :

Έχουμε το  dataset vehicle το οποίο αναφέρεται σε μορφές οχημάτων οποτε ψάχνουμε να βρούμε κανόνες κατηγοριοποίησης των οχημάτων αυτών.

χρησιμοποιώντας τους αλγορίθμους PART και JRip και επιλέγοντας απο ενα σύνολο 36 κανόνων καταλήγω στους παρακάτω σημαντικότερους :

(ELONGATEDNESS >= 43) and (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 73) => Class=van (86.0/0.0)

αυτός ο κανόνας μας λέει οτι εαν το χαρακτηριστικό ELONGATEDNESS είναι μεγαλύτερο ή ίσο του 43, το MAX.LENGTH ASPECT RATIO είναι μεγαλύτερο ή ίσο του 9 και το DISTANCE CIRCULARITY είναι μεγαλύτερο ή ίσο του 73 τοτε το όχημα είναι van και τα αποτελέσματα σε αυτό το κανόνα είναι 86 σωστά και κανένα λάθος.

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7 AND
COMPACTNESS > 95: bus (70.0/1.0)

MAX.LENGTH ASPECT RATIO > 8 AND
HOLLOWS RATIO > 189 AND
SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

(MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR <= 231) =>  Class=saab (71.0/9.0)

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7 AND
COMPACTNESS > 95: bus (70.0/1.0)

(MAX.LENGTH ASPECT RATIO >= 8) and (COMPACTNESS <= 103) and (ELONGATEDNESS <= 37) and (HOLLOWS RATIO <= 195) =>  Class=opel (14.0/0.0)

Τελική εξέταση : Χουχούμης Ιωάννης

Telikh_Exetash

Chouchoumis_test.txt