Author Archives: vagelis86

Τελική Εξέταση : Κατσαβριάς Ευάγγελος

Ζήτημα 1 :

  • Απο το “Visualize All” δεν βγάζουμε κάποιο συμπέρασμα
  • Χρησιμοποιόντας την επιλογή “Select attributes” με διάφορους συνδιασμούς
  • Το attribute 16 δεν φαίνεται σημαντικό
  • Κάνουμε “remove” την attribute16 και αποθηκεύουμε το καινούργιο training set (trainset2)
  • Δοκιμάζουμε διάφορους αλγόριθμους (κυρίως meta) με Cross-validation
  • Επιλογή του αλγορίθμου : bagging+AdaboostM1+J48  

με ποσοστά επιτυχίας : Correctly Classified Instances 76.9333%

και σφάλμα 68.5112%

  • Αφαιρούμε απο το test set την attribute 16 και το αποθηκεύουμε(testset2)
  • Τρέχουμε το  trainset2 με “Supplied test set” το testset2 χρησιμοποιώντας τον παραπάνω αλγόριθμο
  • Το αποτέλεσμα είναι : Teliki_Vagelis_Katsavriasxls

Ζήτημα 2 :

Τρέχοντας το αρχείο Vehicle στο WEKA,με την βοήθεια των rules αλγορίθμων (κυρίως τον Part) μας εμφανίζει κάποιους κανόνες κατηγοριοποίησης των οχημάτων σε “Opel,Saab,Bus και Van”. Οι κανόνες που θέλουμε να βγάλουμε πρέπει να μην είναι πολύπλοκοι, αλλά λιτοί, όσο χρειάζεται φυσικά. Ακόμα στους κανόνες πρέπει να προσέξουμε το ποσοστό των σωστών προβλέψεων, όπου το WEKA μας το αναφέρει μέσα σε παρένθεση.            Έτσι θα έχουμε :

  • ELONGATEDNESS <= 41 AND
    MAX.LENGTH ASPECT RATIO <= 7 AND
    COMPACTNESS > 95: bus (70.0/1.0)

Δηλαδή εάν elongatedness<=41 και το max lenghta spect ratio<=7 και το compactness>95 τότε είναι bus.  Στην παρένθεση μας αναφέρει οτι στις 70 περιπτώσεις που ισχύουν οι παραπάνω περιορισμοί, μόνο σε 1 δεν είναι bus. Κάποιοι ακόμα κανόνες :

  • MAX.LENGTH ASPECT RATIO > 8 AND
    HOLLOWS RATIO > 189 AND
    SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

 

  • SCALED VARIANCE_MINOR > 309 AND
    DISTANCE CIRCULARITY <= 76 AND
    SKEWNESS ABOUT_MINOR <= 10 AND
    SKEWNESS ABOUT_MAJOR > 64 AND
    CIRCULARITY > 41: bus (107.0/1.0)

 

  • (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR <= 231) => saab (71.0/9.0)

 

  • ELONGATEDNESS <= 41 AND
    MAX.LENGTH ASPECT RATIO > 7 AND
    SCALED VARIANCE_MINOR > 721: opel (23.0/1.0)

 

  • SCALED VARIANCE_MAJOR <= 173 AND
    COMPACTNESS > 82 AND
    KURTOSIS ABOUT_MAJOR <= 19 AND
    SCATTER RATIO <= 142 AND
    PR.AXIS RECTANGULARITY <= 17 AND
    SKEWNESS ABOUT_MINOR <= 18: van (30.0/1.0)

Τελική Εργασία-Κατσαβριάς Ευάγγελος

Εργασία_τελική_Κατσαβριάς_Ευάγγελος

Παρουσίαση_Τελικής_Εργασίας_Κατσαβριάς_Ευάγγελος

Εργασία 04:Κατσαβριάς Βαγγέλης

Ανοίγουμε το dataset train.arff και από το select attributes επιλέγω στο

Attribute Evaluator: ClassifierSubsetEval

Search Method: GeneticSearch

Έτσι καταλήγουμε σε 4 attributes + output

im22

Για να δούμε τώρα την εκτίμηση του σφάλματος, πηγαίνουμε στο Classify, επιλέγουμε τον αλγόριθμο : M5Rules και με το Cross-Validation βλέπουμε ότι το σφάλμα είναι : 46.2337%

im31

Έπειτα ανοίγουμε το dataset : quiz.arff, δημιουργούμε μία καινούργια attribute, όπου την ονομάζουμε output. Η output τώρα δεν έχει τιμές και γι’αυτό το λόγο πηγαίνοντας στο edit, με δεξί κλίκ πάνω στην output της δίνουμε την τιμή 0.

im41

Μετά απο αυτό, πάμε και κάνουμε Remove όλες τις attributes εκτός απο αυτές που είχαμε αφήσει στο dataset : train. Σώζουμε τώρα το quiz με διαφορετικό όνομα (quiz2.arff).

Γυρνάμε πάλι στο train, όπως το είχαμε αφήσει πρίν, στο Classify και επιλέγουμε αυτή την φορά το Supplied test set. Κάνουμε κλίκ δίπλα στο set και ανοίγουμε το quiz2.arff (όπως επίσης και απο το More options κάνουμε κλίκ στο Output predictions).

im51

Τρέχοντας το WEKA , με το Start, μας εμφανίζει ένα πίνακα με τις εκτιμόμενες τιμές, όπου τις κάνουμε Copy και με το Excel και τις στρογγυλοποιούμε.

im6

Εργασία 03:Κατσαβριάς Βαγγέλης

Ανοίγοντας το dataset “training set” παρατηρούμε ότι έχει 40 attributes (όλες numeric) και 2528 Instances. Ακόμα παρατηρούμε ότι δεν έχουμε καμία missing value , έτσι δεν χρειάζεται να χρησιμοποιήσουμε το replace missing values , όπου μας αντικαθιστά τις τιμές αυτές.

img311

Τώρα επιλέγοντας το Visualize All μας εμφανίζονται όλα τα ιστογράμματα των μεταβλητών και έτσι μπορούμε (οπτικά) γρήγορα να καταλάβουμε ότι την attribute 38 δεν την χρειαζόμαστε και την κάνουμε remove:

img32

Όταν έχουμε μεγάλα datasets με πολλά attributes (μεταβλητές) μπορούμε να κρατήσουμε τα πιο σημαντικά. Αυτό το γίνεται πηγαίνοντας στο Select attributes και επιλέγουμε στο Attribute Evaluator:CfsSubsetEval και στο Search Method:BestFirst.

img33

Παρατηρούμε απο το παραπάνω ότι το WEKA μας επέλεξε 10 attributes (6,7,12,13,23,24,27,28,32,35).

Αν τώρα θέλουμε να επιλέξουμε πάλι τα σημαντικότερα attributes, με βάση όμως αυτή τη φορά το attr15, θα έχουμε:

img34

Όπως παρατηρούμε είναι μόνο 4 τα: attr06, attr31, attr39, output.

Επίσης πηγαίνοντας στο Preprocess στο filter αν θέλουμε, με την εντολή add, μπορούμε να βάλουμε μια νέα μεταβλητή:

img35

Τέλος, μερικές φορές για να μπορέσουμε να κάνουμε ανάλυση των δεδομένων χρειάζεται να μετατρέψουμε τις μεταβλητές μας απο numeric σε nominal. Αυτό γίνεται πηγαίνοντας στο Preprocess και επιλέγοντας στο filter το Discretize. Εκεί μπορούμε να επιλέξουμε τις μεταβλητές που θα κάνουμε nominal και τον αριθμό των bins:

img36

με αυτόν το τρόπο θα έχουμε:

img37

Εργασία 02:Κατσαβριάς Βαγγέλης

Αρχείο Weka:

askisi2arff

Ανάλυση Dataset:

Το dataset  περιέχει 49 instances(καταχωρήσεις) και 10 attributes (μεταβλητές). Από τις 10 αυτές μεταβλητές οι 6 είναι nominal (Sex,Live,Union,Race,Sector,Marital) και οι 4 είναι numeric (Education,Experience,Wage,Age).

Το dataset αυτό αναφέρεται σε ένα δείγμα από τον πληθυσμό της έρευνας του 1990 και μας δείχνει μερικά χαρακτηριστικά του πληθυσμού αυτού όπως: την ηλικία , αν είναι από Νότια χώρα , τί εκπαίδευση έχει , τί μισθό παίρνει…

Επιλέγοντας τώρα για μεταβλητή στόχο, την nominal μεταβλητή Sex, παρατηρούμε ότι παίρνει δύο τιμές: 1)Female 2)Male εκ  των οποίων 8 είναι γυναίκες κ 41 άντρες. Ακόμα παρατηρούμε ότι το μπλε χρώμα αντιστοιχεί στις γυναίκες και το κόκκινο στους άντρες.

img31

Κρατώντας την μεταβλητή Sex σαν μεταβλητή στόχο και επιλέγοντας την μεταβλητή Wage έχουμε το ακόλουθο γράφημα:

img5

Βλέπουμε ότι 29 άτομα, εκ των οποίων 8 γυναίκες (όλες) και 21 άντρες, παίρνουν μισθό από 3,35$/εβδομάδα έως 8,06$.  Παρατηρούμε όμως ότι δεν υπάρχει γυναίκα που να έχει μισθό πάνω απο 8,06$, αλλά μόνο άντρες.Έτσι 13 άντρες έχουν μισθό από 8,06$ έως 12,77$ , 3 από 12,77$ έως 17,48$ και 4 από 17,48$ έως 22,2$.

Ομοίως κρατώντας την μεταβλητή Sex σαν μεταβλητή στόχο και επιλέγοντας την μεταβλητή Experience έχουμε το ακόλουθο γράφημα:

img6

Από το γράφημα αυτό παρατηρούμε ότι 15 άτομα (εκ των οποίων 2 γυναίκες και 13 άντρες) έχουν 0-11,5 χρόνια εργασιακή εμπειρία, 18 άτομα (εκ των οποίων 4 γυναίκες και 14 άντρες) έχουν 11,5-23 χρόνια εργασιακή εμπειρία, 8 άτομα (όλα άντρες) έχουν απο 23-34,5 χρόνια εργασιακή εμπειρία και 8 άτομα (εκ΄των οποίων 2 γυναίκες κ 6 άντρες) έχουν από 34,5-46 χρόνια εργασιακή εμπειρία.

Έτσι μπορούμε να βγάλουμε και ένα γρήγορο κανόνα που να λέει:

if Wage>8,06$ and Experience>23  then sex=male.

Τέλος μπορούμε να έχουμε και γραφήματα όπως το παρακάτω:

img7

Στο συγκεκριμένο βλέπουμε πώς κατανέμονται τα άτομα που είναι παντρεμένα ή μη (μπλέ και κόκκινα x αντίστοιχα) σύμφωνα με την ηλικία τους (άξονας x) και την διάρκεια της εργασιακή τους εμπειρίας (άξονας y).

Εργασία 01: Κατσαβριάς Βαγγέλης

Ερευνητική Εφαρμογή:

Η μέθοδος των αλγορίθμων εξόρυξης πληροφορίας μπορεί να εφαρμοσθεί για την εύρεση της πιθανότητας ενός νεογέννητου παιδιού να του παρουσιαστεί άσθμα στον πρώτο χρόνο της ζωής του , σε κάποια συγκεκριμένη περιοχή που ερευνούμε. Τα δεδομένα που ελέγχουμε για την περιοχή αυτή είναι η ατμοσφαιρική ρύπανση (δηλ. το μονοξείδιο του άνθρακα , ο μόλυβδος , το διοξείδιο του θείου και του αζώτου…) σε συνάρτηση με το κλίμα (δηλ. η θερμοκρασία , η υγρασία…) , η έκθεσή του σε διάφορα χημικά ( δηλ. φυτοφάρμακα κυρίως στα χωριά , ραδιενέργεια…) , όπως επίσης εάν κάποιος από τους γονείς του είναι καπνιστής. Με αυτόν τον τρόπο θα μπορέσουμε να κατανοήσουμε τους βασικότερους παράγοντες για την γέννηση ενός παιδιού με κάποια ασθένεια και να γίνει ενημέρωση των πολιτών.

Επιχειρηματική Εφαρμογή:

Σε μια αντιπροσωπεία αυτοκινήτων μπορεί να εφαρμοσθεί η μέθοδος των αλγορίθμων εξόρυξης πληροφορίας ως ενα εργαλείο για την βελτίωση των αυτοκινήτων της , καθώς επίσης και για την ικανοποίηση των πελατών της , με απώτερο σκοπό την αύξηση των πωλήσεών της. Οι πελάτες τις αντιπροσωπείας μετά την αγορά ή την επίσκεψή τους  σε αυτήν θα απαντούν ένα ερωτηματολόγιο αξιολόγησης. Αυτό θα περιέχει κάποιες ερωτήσεις όπως: εαν είναι ικανοποιημένοι απο την εξυπηρέτηση , απο το αυτοκίνητό τους (εάν όχι τι αλλαγές επιθυμούν) κ.α. Με την ανάλυση των ερωτηματολογίων αυτών η εταιρία θα αυξήσει τα κέρδη της και θα αποκτήσει την εμπιστοσύνη των πελατών της.

Συστάσεις: Κατσαβριάς Ευάγγελος

Προσωπικές πληροφορίες

·     Ημερομηνία Γέννησης: 27/02/1986

·     Καταγωγή: Χανιά – Κρήτης, Ελλάδα

·     Διεύθυνση κατοικίας: Πειραιάς, Αττικής

·     E-mail: vagkatsavrias@gmail.com

Σπουδές

 

 

 

 

Ίδρυμα

Τμήμα

Διάρκεια Σπουδών

Έτος

Πανεπιστήμιο Κρήτης

ΜΑΘΗΜΑΤΙΚΩΝ

4 Έτη

2003- 2007

 

Μεταπτυχιακές Σπουδές

 

 

 

 

Ίδρυμα

Τμήμα

Διάρκεια Σπουδών

Έτος

Εθνικό Μετσόβιο Πολυτεχνείο

Σ.Ε.Μ.Φ.Ε.

2 Έτη

2008 – 2010

 

Γλώσσες

·     Αγγλικά επίπεδου Lower

·     Γερμανικά επιπέδου  Zertifikat Deutsch

Γνώσεις Η/Υ

·     Γλώσσα Προγραμματισμού C

·     Maple

·     Microsoft Office

Εργασιακή Εμπειρία

 

Ιδιαίτερα Μαθήματα Μαθηματικών

Σεμινάρια

22 έως 23 Απριλίου 2005

Αντικείμενο: 4η Διημερίδα Διδακτικής Μαθηματικών

Διοργανωτής: Παιδαγωγικό Τμήμα Δ.Ε Πανεπιστημίου Κρήτης

Τόπος : Πανεπιστημιούπολη Ρεθύμνου. 

7 Δεκεμβρίου 2008

Αντικείμενο:  Επιστημονική Ημερίδα  με θέμα την Εφαρμογή Συστημάτων Διαχείρισης Ολικής Ποιότητας & Περιβαλλοντικής Διαχείρισης στον τομέα της Υγείας

Διοργανωτής: Εκπαιδευτικό Forum Festival φοίτηση

Τόπος :   Εκθεσιακό Κέντρο Περιστερίου