Νανούρης Νικόλαος: Τελική Εξέταση

Θέμα 1

1. Η οπτικοποίηση των δεδομένων δεν οδηγεί στην απόρριψη κάποιας   μεταβλητής.

2. Παρατηρούμε ότι η μεταβλητή foreign_workers ίσως δεν είναι σημαντική.

3. Η χρήση αξιολογητών μεταβλητών προτείνει μόνο τις τρεις πρώτες μεταβλητές.

4. Χρήση αλγορίθμων όλων των κατηγοριών και της τεχνικής διασταυρωμένης επικύρωσης.

5. Παρατηρείται υπεροχή της Μπεϋζιανής κατηγορίας, ενδεχομένως λόγω παρουσίας θορύβου.

6. Όλες οι μεταβλητές: 27.73% με RandomForest, 26% με SMO, 25.6% με NaiveBayes.

7. Αφαίρεση της foreign_workers: 25.47% με RandomForest, 26.53% με SMO, 25.73% με NaiveBayes.

8. Χρήση μόνο των μεταβλητών 1, 2, 3: 32.27% με RandomForest, 28% με SMO, 26.27% με NaiveBayes.

9. Χρήση μεταμαθησιακών αλγορίθμων με όλες τις μεταβλητές. Υπεροχή NaiveBayes ως εμβόλιμου αλγόριθμου.

10. Βέλτιστη επιλογή: MultiBoostAB+NaiveBayes με ποσοστό αποτυχίας 25.07%.

Nanouris_Nikolaos

 

Θέμα 2

1. Χρήση του αλγόριθμου PART με κατάλληλη επιλογή του ελάχιστου αριθμού αντικειμένων (αρκετά υψηλό) ώστε να αποκαλυφθούν οι σημαντικότεροι κανόνες:

PART decision list
——————

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7: bus (107.0/21.0)

ELONGATEDNESS <= 41 AND
COMPACTNESS <= 106 AND
MAX.LENGTH RECTANGULARITY <= 172 AND
HOLLOWS RATIO > 196 AND
MAX.LENGTH ASPECT RATIO > 9: saab (73.0/29.0)

ELONGATEDNESS <= 41 AND
COMPACTNESS <= 106 AND
MAX.LENGTH ASPECT RATIO > 9: opel (64.0/10.0)

ELONGATEDNESS <= 41 AND
PR.AXIS RECTANGULARITY <= 23 AND
SKEWNESS ABOUT_MAJOR <= 67: opel (52.0/23.0)

ELONGATEDNESS > 41 AND
MAX.LENGTH ASPECT RATIO <= 8 AND
SCALED VARIANCE_MINOR > 305 AND
MAX.LENGTH RECTANGULARITY > 134: bus (146.0/31.0)

ELONGATEDNESS > 41 AND
MAX.LENGTH RECTANGULARITY > 138: van (152.0/10.0)

PR.AXIS RECTANGULARITY > 18: saab (139.0/55.0)

MAX.LENGTH RECTANGULARITY > 127: van (67.0/26.0)

: saab (46.0/26.0)

Number of Rules  :  9

Παρατηρήσεις:

  • Έχουμε τους 9 βασικότερους κανόνες, από τους οποίους μερικοί διακρίνονται ακόμα περισσότερο: πρόκειται για τον πρώτο, πέμπτο, έκτο και έβδομο κανόνα.
  • Η σημαντικότερη πληροφορία, σύμφωνα με τον πρώτο και τον έκτο κανόνα, είναι η διαπίστωση ότι το elongatedness είναι καθοριστικός παράγοντας της ταξινόμησης (κάτω από 41, τότε bus και πάνω από 41, τότε van).

2. Χρήση του αλγόριθμου J48 με κατάλληλη επιλογή του ελάχιστου αριθμού αντικειμένων (αρκετά υψηλό) ώστε να αποκαλυφθούν οι σημαντικότεροι κανόνες:

J48 pruned tree
——————

ELONGATEDNESS <= 41
|   MAX.LENGTH ASPECT RATIO <= 7: bus (107.0/21.0)
|   MAX.LENGTH ASPECT RATIO > 7
|   |   SCALED VARIANCE_MINOR <= 721
|   |   |   HOLLOWS RATIO <= 195: opel (39.0/7.0)
|   |   |   HOLLOWS RATIO > 195: saab (213.0/84.0)
|   |   SCALED VARIANCE_MINOR > 721: opel (23.0/1.0)
ELONGATEDNESS > 41
|   MAX.LENGTH ASPECT RATIO <= 8
|   |   SCALED VARIANCE_MINOR <= 305
|   |   |   MAX.LENGTH RECTANGULARITY <= 138
|   |   |   |   PR.AXIS RECTANGULARITY <= 17: van (39.0/12.0)
|   |   |   |   PR.AXIS RECTANGULARITY > 17
|   |   |   |   |   MAX.LENGTH RECTANGULARITY <= 128: opel (32.0/16.0)
|   |   |   |   |   MAX.LENGTH RECTANGULARITY > 128
|   |   |   |   |   |   SCALED RADIUS OF GYRATION <= 140: van (21.0/4.0)
|   |   |   |   |   |   SCALED RADIUS OF GYRATION > 140: opel (20.0/11.0)
|   |   |   MAX.LENGTH RECTANGULARITY > 138: van (46.0/4.0)
|   |   SCALED VARIANCE_MINOR > 305
|   |   |   DISTANCE CIRCULARITY <= 76
|   |   |   |   SKEWNESS ABOUT_MINOR <= 10: bus (137.0/15.0)
|   |   |   |   SKEWNESS ABOUT_MINOR > 10: opel (20.0/9.0)
|   |   |   DISTANCE CIRCULARITY > 76: opel (33.0/16.0)
|   MAX.LENGTH ASPECT RATIO > 8: van (116.0/10.0)

Number of Leaves  :  13

Size of the tree :  25

Παρατηρήσεις:

  • Έχουμε τα 13 βασικότερα φύλλα ταξινόμησης, από τα οποία τα δύο είναι ιδιαίτερα χαρακτηριστικά: πρόκειται για εκείνα τα οποία καθορίζονται από τη μεταβλητή elongatedness της οποίας η τιμή 41 οδηγεί σε πιο ενδελεχή διαχωρισμό των αποτελεσμάτων.
  • Οι δύο αλγόριθμοι συμφωνούν σε μεγάλο βαθμό ως προς την επιλογή του παράγοντα elongatedness ο οποίος μπορεί με ασφάλεια να θεωρηθεί ο πιο κρίσιμος για το σχεδιασμό της εταιρείας που πραγματοποίησε τη συγκεκριμένη μελέτη.

ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΜΟΥΤΣΑΤΣΟΣ ΓΕΩΡΓΙΟΣ

Ζήτημα 1 :

Έχουμε ένα dataset το οποίο περιέχει 20 attributes και μία τελική μεταβλητή στόχο την  class

  • στην προσπάθεια μου να μειώσω τον όγκο των δεδομένων χρησιμοποίησα την επιλογή του WEKA visualize all απο την οποία δεν έβγαλα κάποιο συμπέρασμα και έτσι χρησιμοποίησα την επιλογή  select attributes όπου σε μεγαλύτερο ποσοστό οι attribute evaluators κρατούσαν όλα τα χαρακτηριστικα.

                   δείνω μερικά αποτελέσματα :

                    Ranker + SymmetricalUncertAttributeEval :

Selected attributes:1,3,2,6,20,4,9,7,15,14,10,12,17,19,16,18,8,11,5,13 : 20

                    Ranker + ChiSquaredAttributeEval :

Selected attributes: 1,3,2,4,6,7,9,12,15,14,10,20,17,19,18,8,11,5,13,16 : 20

                     Ranker + GainRatioAttributeEval :

Selected attributes: 1,20,3,2,6,10,14,15,4,9,7,12,17,19,13,18,8,11,5,16 : 20

  • στη συνέχεια προσπαθώ να βρώ εναν αλγόριθμο με αρκετά καλό σφάλμα  (εξετάζω το σφάλμα με cross validation με 10 folds) :
  1. meta.RacedIncrementalLogitBoost  : J48                                         Correctly Classified Instances       70.2667 %
  2. meta.Bagging : AdaBoostM1 : REPTree                                      Correctly Classified Instances       74.5333 %
  3. meta.Bagging : AdaBoostM1 : J48                                                  Correctly Classified Instances       75.4667 %
  • επιλέγω τον αλγόριθμο Bagging : AdaBoostM1 : J48 γιατί μου δείνει τα καλύτερα αποτελέσματα οπότε η πρόβλεψη μου είναι :

                           moutsatsos_giorgos_predictiontxt

                             (το αρχείο είναι σε μορφή txt)

Ζήτημα 2 :

Έχουμε το  dataset vehicle το οποίο αναφέρεται σε μορφές οχημάτων οποτε ψάχνουμε να βρούμε κανόνες κατηγοριοποίησης των οχημάτων αυτών.

χρησιμοποιώντας τους αλγορίθμους PART και JRip και επιλέγοντας απο ενα σύνολο 36 κανόνων καταλήγω στους παρακάτω σημαντικότερους :

(ELONGATEDNESS >= 43) and (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 73) => Class=van (86.0/0.0)

αυτός ο κανόνας μας λέει οτι εαν το χαρακτηριστικό ELONGATEDNESS είναι μεγαλύτερο ή ίσο του 43, το MAX.LENGTH ASPECT RATIO είναι μεγαλύτερο ή ίσο του 9 και το DISTANCE CIRCULARITY είναι μεγαλύτερο ή ίσο του 73 τοτε το όχημα είναι van και τα αποτελέσματα σε αυτό το κανόνα είναι 86 σωστά και κανένα λάθος.

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7 AND
COMPACTNESS > 95: bus (70.0/1.0)

MAX.LENGTH ASPECT RATIO > 8 AND
HOLLOWS RATIO > 189 AND
SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

(MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR <= 231) =>  Class=saab (71.0/9.0)

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7 AND
COMPACTNESS > 95: bus (70.0/1.0)

(MAX.LENGTH ASPECT RATIO >= 8) and (COMPACTNESS <= 103) and (ELONGATEDNESS <= 37) and (HOLLOWS RATIO <= 195) =>  Class=opel (14.0/0.0)

Τελική εξέταση : Χουχούμης Ιωάννης

Telikh_Exetash

Chouchoumis_test.txt

Τελική εξέταση: Τζωρτζάκη Μαρία

ΖΗΤΗΜΑ 1

  1. Αρχικά, ανοίγουμε το CreditData_TrainSet.arff
  2. Κάνουμε ένα οπτικό έλεγχο με το visualize all. Παρατηρούμε όμως, ότι δεν παίρνουμε καμία χρήσιμη πληροφορία, οπότε κρατάμε όλες τις attributes.
  3. Στη συνέχεια, παμε στο select attributes -> attribute evaluator & Search method.
  4. Αφαιρώ την attribute 16 (remove) και αποθηκεύω το καινούριο αρχείο.
  5. Εφαρμόζουμε cross validation με διάφορους αλγόριθμους.
  6. Καταλήγουμε στον Bagging -> MultiBoostAB -> J48, ο οποίος μου έδωσε:  Correctly Classified Instances   75.4667 % & Relative absolute error   66.5391 %
  7. Έπειτα, αφαιρώ την attribute 16 από το CreditData_TestSet.arff  και το αποθηκεύουμε.
  8. Τέλος, τρέχουμε το νέο CreditData_TrainSet.arff με supplied test set το νέο CreditData_TestSet.arff  και αποθηκεύουμε τις προβλέψεις, οι οποίες είναι:

predictions.xls

 

 ΖΗΤΗΜΑ 2 

  Τρέχοντας τους έτοιμους αλγόριθμους PART  & J48 μπορούμε να περιγράψουμε και να επεξηγήσουμε τις συσχετίσεις που υπάρχουν ανάμεσα στα χαρακτηριστικά και την κατηγοριοποίηση του οχήματος. Παρακάτω αναφέρονται ενδεικτικά κάποιοι κανόνες.  Οι αριθμοί στις παρενθέσεις (.. , ..) εκφράζουν τις σωστές και τις λάθος προβλέψεις αντίστοιχα.

  • MAX.LENGTH ASPECT RATIO > 8 AND
    HOLLOWS RATIO > 189 AND
    SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

Εξήγηση: Ο παραπάνω κανόνας λέει ότι εαν MAX.LENGTH ASPECT RATIO > 8 και HOLLOWS RATIO > 189 και SKEWNESS ABOUT_MAJOR > 63 τότε  είναι van και από τις 107 περιπτώσεις όπου ισχύουν τα παραπάνω, οι 2 δύο είναι λάθος. Όμοια εξήγηση έχουν και οι παρακάτω κανόνες.

  • SCALED VARIANCE_MINOR > 309 AND
    DISTANCE CIRCULARITY <= 76 AND
    SKEWNESS ABOUT_MINOR <= 10 AND
    SKEWNESS ABOUT_MAJOR > 64 AND
    CIRCULARITY > 41: bus (107.0/1.0)
  • SCATTER RATIO > 144 AND
    PR.AXIS ASPECT RATIO <= 62 AND
    MAX.LENGTH ASPECT RATIO <= 8 AND
    PR.AXIS ASPECT RATIO <= 61: opel (60.0/29.0)

 

  • ELONGATEDNESS > 46 AND
    MAX.LENGTH ASPECT RATIO > 4 AND
    SCALED RADIUS OF GYRATION <= 124 AND
    KURTOSIS ABOUT_MAJOR <= 28 AND
    MAX.LENGTH RECTANGULARITY > 124: van (9.0)

 

  • SCALED VARIANCE_MAJOR <= 174: saab (12.0/3.0)

 

  • ELONGATEDNESS <= 41 AND
    MAX.LENGTH ASPECT RATIO <= 7 AND
    COMPACTNESS > 95: bus (70.0/1.0)

Τελική Εξέταση:Σαλμανίδου Μακρίνα

Θέμα 1.

-Από το preprosess και απο το visualize all κάνουμε έναν έλεγχο.

-Βλέπουμε πως δεν βγάζουμε κανένα συμπέρασμα για το αν θα σβήσουμε κάποια μεταβλητή.

-Από το select attributes χρησιμοποιούμε ConsistencySubsetEval και GreedyStepwise.

-Κρατάμε τις 1,2,3,4,6,7,9,12,14,17 και class για το ίδιο αξιόπιστο αποτέλεσμα.

-Δοκιμάζουμε διάφορους αλγορίθμους με βάση το CorrectlyClassifiedInstances.

-Χρησιμοποιούμε LogitBoost ->AdditiveRegresion  με ποσοστό επιτυχίας 74,26%.

-Αφαιρούμε τις ίδιες μεταβλητές από το test set και με το supplied test set παίρνουμε την predicted.

-Οπότε έχουμε μια στήλη μόνο με good και bad.

Θέμα 2.

Με χρήση των αλγορίθμων PART και JRip έχουμε

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7 AND
COMPACTNESS > 95: bus (70.0/1.0)

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO > 7: opel (132.0/65.0)

MAX.LENGTH ASPECT RATIO > 8 AND
HOLLOWS RATIO > 189 AND
SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

(MAX.LENGTH ASPECT RATIO >= 9) and
(DISTANCE CIRCULARITY >= 100) and
(SCALED VARIANCE_MAJOR <= 231) => class =saab (71.0/9.0)

(ELONGATEDNESS >= 43) and
(MAX.LENGTH ASPECT RATIO >= 9) and
(DISTANCE CIRCULARITY >= 73) =>class=van  (86.0/0.0)

Τα παραπάνω δείχνουν τις σωστές και τις λανθασμένες προβλέψεις μέσα στις παρενθέσεις και επιλέχθηκαν λόγω του οτι έχουν τις λιγότερες λάθος προβλέψεις.

Final Exam_Moschou Niki

THEMA 1

  • Arxika elegxoume an kapoia metavlhth prepei na afairethei (visualize) –>oxi
  • Xrhsimopoioume to select attributes kai afairoyme tis 5,8,,10,11,13,15,16
  • Dokimazoume diaforous algorithmous kai epilegoume ton Bagging-J48 me pososto epityxias 74,13
  • Afairoume tis idies  metavlhtes kai apo to test set kai to apothikevoyme
  • Efarmozoume ton idio algorithmo me supply test to neo test set

THEMA 2

  • Xrhsimopoioyme toys JRIP kai PART
  •  Exoume toys akolouthous kanones me vash ta kalitera pososta epityxias

PART

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO > 7: opel (132.0/65.0)

Ean elongatedness einai mikrotero toy 41 kai max.legth ratio megalytero toy 7, tote opel me 132 swsta kai 65 lanthasmena

MAX.LENGTH ASPECT RATIO > 8 AND
HOLLOWS RATIO > 189 AND
SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

 
SCALED VARIANCE_MINOR > 309 AND
DISTANCE CIRCULARITY <= 76 AND
SKEWNESS ABOUT_MINOR <= 10 AND
SKEWNESS ABOUT_MAJOR > 64 AND
CIRCULARITY > 41: bus (107.0/1.0)

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7 AND
COMPACTNESS > 95: bus (70.0/1.0)
JRIP

(MAX.LENGTH ASPECT RATIO >= 9) and
(DISTANCE CIRCULARITY >= 100) and
(SCALED VARIANCE_MAJOR <= 231) => (71.0/9.0)

ELONGATEDNESS >= 43) and
(MAX.LENGTH ASPECT RATIO >= 9) and
(DISTANCE CIRCULARITY >= 73) => (86.0/0.0)

 

https://dataminingntua.files.wordpress.com/2009/06/final1.pdf

Τελική Εξέταση,Μπάρλα_Δήμητρα

Ζήτημα 1

1) Κάνοντας συνδυασμούς στο select attributes επιλέγω να διαγράψω τις μεταβλητές 11,5,16.
2)Αποθηκεύω τις αλλαγές στο training set στο preprocess.
3)Δοκιμάζω διάφορους αλγόριθμους στο classify.
4)Eπιλέγω τον αλγόριθμο NaiveBayes επειδή δίνει Correctly Classified instances 74,933%.
5)Αφαιρώ στο test set τις μεταβλητές 11,5,16 και το αποθηκεύω ως creditdata_testset1.arff
6)Απο το training set ανοίγω το παραπάνω αρχείο με το supplied test set.
7)Εκτελώ τον αλγόριθμο που αναφέρθηκε και παίρνω τη στήλη με τα predictions.

prediction

Ζήτημα 2

1) Χρησιμοποιώντας τον Part έχουμε 29 κανόνες.

2)Ενδεικτικά αναφέρω κάποιους που επιλέγω με βάση τα ποσοστά επιτυχίας.

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO 95: bus (70.0/1.0)

ELONGATEDNESS 7 AND
SCALED VARIANCE_MINOR <= 721 AND
COMPACTNESS 67 AND
COMPACTNESS > 106: saab (24.0/1.0)

MAX.LENGTH ASPECT RATIO > 8 AND
HOLLOWS RATIO > 189 AND
SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

SCALED VARIANCE_MINOR > 309 AND
DISTANCE CIRCULARITY <= 76 AND
SKEWNESS ABOUT_MINOR 64 AND
CIRCULARITY > 41: bus (107.0/1.0)

PR.AXIS ASPECT RATIO 120 AND
SCALED VARIANCE_MAJOR = 8) and (MAX.LENGTH RECTANGULARITY >= 173) => Class=opel (45.0/8.0)

3)Χρησιμοποιώντας τον JRip έχω 17 κανόνες

(ELONGATEDNESS >= 43) and (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 73) => Class=van (86.0/0.0)

(MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR Class=saab (71.0/9.0)

(MAX.LENGTH ASPECT RATIO >= 8) and (MAX.LENGTH RECTANGULARITY >= 173) => Class=opel (45.0/8.0)