Author Archives: Ioannis

Data Mining + Συνέδριο Δημιουργών ΕΛ/ΛΑΚ

Αν και ο χρόνος μέσα στην εξεταστική είναι περιορισμένος για όλους μας αξίζει να κλέψουμε λίγο από αυτόν για μια επίσκεψη στο
Συνέδριο δημιουργών ΕΛ/ΛΑΚ (Ελεύθερου Λογισμικού / λογισμικού ανοιχτού κωδικά ) ,
το οποίο θα διεξαχθεί στην Πολυτεχνειούπολη Ζωγράφου το διήμερο Παρασκευή 19 και Σάββατο 20 Ιουνίου.

Στο Συνέδριο θα  υπάρξουν  ενδιαφέρουσες ομιλίες και workshops σχετικά  με εφαρμογές Data mining καθώς και πλήθος παρουσιάσεων για  εφαρμογές ανοιχτού λογισμικού   σε μικρομεσαίες   επιχειρήσεις ,  στην εκπαίδευση και στην έρευνα (Προσομοιώσεις,  Στατιστική επεξεργασία).
Όσοι από εσάς δεν γνωρίζετε για το ελεύθερο λογισμικό το παραπάνω διήμερο είναι μια καλή ευκαιρία για να το ανακαλύψετε.

Σας παραθέτω ενδεικτικά τις ομιλίες  ενός workshop της Παρασκευής που έχει άμεση σχέση με το μάθημα:

Data Mining: Το Πρόβλημα, τα Εργαλεία Ανοιχτού Λογισμικού, οι Εφαρμογές & η Υπόσχεση (Παρασκευή 19 Ιουνίου  17:00-19:00)

Η Εγγραφή στο συνέδριο και η συμμετοχή στα workshops είναι δωρεάν!
Οι έγγραφες θα γίνονται μέχρι την Τετάρτη 17 Ιουνίου εδώ

 

Τελική εξέταση : Χουχούμης Ιωάννης

Telikh_Exetash

Chouchoumis_test.txt

Τελική Εργασία: Χουχούμης Ιωάννης

Telikh_ergasia

Parousiash

Εργασία 04: Χουχούμης Ιωάννης

Από την προεπεξεργασία του train set και μετά την εφαρμογή φίλτρων  για την επιλογή των attributes κατέληξα στην διαγραφή των attributes 34, 36,  38  όπου με την εφαρμογή  (cross validation) o αλγόριθμος  M5Rules μου έδωσε υψηλό συντελεστή συσχέτισης και χαμηλό σφάλμα :

=== Cross-validation ===
=== Summary ===

Correlation coefficient                  0.9058
Mean absolute error                      0.0651
Root mean squared error                  0.1802
Relative absolute error                 17.9993 %
Root relative squared error             42.3605 %
Total Number of Instances             2528

Στη συνέχεια αποθήκευσα το νέο train set ως train01.arff και στο quiz set αφαίρεσα τις μεταβλητές 34, 36 και 38  και πρόσθεσα ένα νέο πλαστό χαρακτηριστικό ‘prediction’( για να είναι συμβατό με το train01 set) με τιμή ίση με 0 σε όλα τα instances του και ονόμασα το νέο αρχείο quiz01.arff , ύστερα χρησιμοποίησα τον αλγόριθμο M5Rules στο train01 set με cross-validation και έπειτα τον εφάρμοσα πάλι θέτοντας αυτή τη φορά ωςsupplied test set το quiz01 set από όπου πήρα τα παρακάτω αποτελέσματα:

=== Evaluation on test set ===
=== Summary ===

Correlation coefficient 0
Mean absolute error 0.2718
Root mean squared error 0.469
Relative absolute error 114.7134 %
Root relative squared error 197.9197 %
Total Number of Instances 1265

και κατέληξα στην πρόβλεψη για το quiz set.

Εργασία 03: Χουχούμης Ιωάννης

Δημιουργώντας τα ιστογράμματα συχνοτήτων των μεταβλητών παρατηρούμε ότι μπορούμε να διαγράψουμε το attribute 38 (χρησιμοποιώντας την εντολή Remove ή με το φίλτρο filters ->unsupervised ->attribute ->RemoveUseless) διότι σε αυτό το κάθε instance είναι ίσο με μηδέν,  επίσης  στα attributes 34, 36  έχουμε 2527 instances με τιμή 0 και ένα instance με τιμή 1 και 2513 instances με τιμή 0 και 15 instances με τιμή 1 αντίστοιχα, οπότε μπορούμε να διαγράψουμε και το attribute 34 και ίσως και το attribute 36 .

j11

j21

Επίσης από το tab  Select attributes επιλέγοντας Attribute Evaluator ->CfsSubsetEVal  και  Search Method-> GreedyStepwise έχουμε ένα σύνολο με 11 attributes απο τα 39

j31

ενώ επιλέγοντας Attribute Evaluator ->WrapperSubsetEval  και    Search Method->GeneticSearch παίρνουμε ένα σύνολο από μόνο 4 attributes

j41

Από τα ιστογράμματα παρατηρούμε επίσης ότι σε αρκετά attributes οι περισσότερες τιμές βρίσκονται κοντά στην ελάχιστη τιμή  οπότε θα μπορούσαμε με τη χρήση του φίλτρου filters ->unsupervised -> attribute ->Discretize να μετατρέψουμε κάποια attributes από αριθμητικά  σε ονομαστικά όπως π.χ. παρακάτω έχουμε μετατρέψει το attribute 36 από numeric σε nominal.

j5

Εργασία 02: Χουχούμης Ιωάννης

1ο Μέρος

αρχείο artiriaki_piesi

2ο Μέρος

Το dataset artiriaki_piesi περιέχει 4 μεταβλητές (sex, age, systoliki, diastoliki) και 50 καταχωρήσεις για ασθενείς με αρτηριακή πίεση που τους χορηγείται ένα συγκεκριμένο φάρμακο. Με βάση τα δεδομένα αυτά εξετάζουμε αν θα πρέπει να γίνει αύξηση της δόσης του φαρμάκου ή όχι, η μεταβλητή στόχος είναι nominal και παίρνει τις τιμές yes και no. Επιλέγοντας την μεταβλητή sex έχουμε το παρακάτω γράφημα.

piesi1

Παρατηρούμε ότι για τον παράγοντα sex έχουμε 27 male και 23 female, όπου το μπλε χρώμα είναι για το χαρακτηριστικό yes και το κόκκινο χρώμα για το no.

piesi23

Επιλέγοντας τον παράγοντα age έχουμε ότι   20 άτομα ανήκουν στο διάστημα [50, 53] από τα οποία 7 είναι no και 13 yes,  18 άτομα ανήκουν στο διάστημα  (53, 56]  από τα οποία 10 είναι no και 8 yes,  12 άτομα ανήκουν στο διάστημα  (56, 59] από τα οποία  2 είναι no και 10 yes.

piesi3

Επιλέγοντας τον παράγοντα συστολική πίεση (systoliki) έχουμε ότι 18 άτομα ανήκουν στο διάστημα [109, 126.75] τα οποία είναι όλα no,  10 άτομα ανήκουν στο διάστημα (126.75, 144.5] από τα οποία 1 είναι no και 9 yes,  16 άτομα ανήκουν στο                  (144.5, 162.25] τα οποία είναι yes και 6 άτομα ανήκουν στο (162.25, 180] τα οποία είναι yes.

piesi4

Επιλέγοντας τον παράγοντα διαστολική πίεση (diastoliki) έχουμε ότι 17 άτομα ανήκουν στο διάστημα [70, 80] από τα οποία 15 είναι no και 2 yes, 16 άτομα ανήκουν στο        (80, 90] από τα οποία 4 είναι no και 12 yes, 12 άτομα ανήκουν στο  (90, 100] τα οποία είναι όλα yes και 5 ανήκουν στο (100, 110] τα οποία είναι επίσης yes.

piesi5

Τέλος επιλέγοντας τον παράγοντα increase έχουμε ότι σε 31 ασθενείς θα αυξηθεί η δόση του φαρμάκου ενώ σε 29 όχι.
Από τα παραπάνω έχουμε ότι σε καμία περίπτωση δεν  υπάρχουν missing values και ότι στα χαρακτηριστικά age, systoliki, diastoliki υπάρχουν unique τιμές.Επίσης επιλέγοντας την εντολή visualize μπορούμε να πάρουμε γραφικές παραστάσεις όπως η παρακάτω.

piesi6

Με βάση τα παραπάνω μπορούν να προκύψουν και κάποιοι κανόνες:

if age>56 and systoliki>144.5  then increase=yes
if systoliki>144.5 and diastoliki>90  then increase=yes
if systoliki<126.75 and diastoliki<80 then increase=no

Εργασία 01: Χουχούμης Ιωάννης

Ερευνητική Εφαρμογή

Η μέθοδος του Data Mining βρίσκει εφαρμογή στον τομέα της αστρονομίας. Ένα από τα βασικά προβλήματα στην αστρονομία είναι η ταξινόμηση των αστρονομικών αντικειμένων που βασίζεται στις παρατηρησιακές παραμέτρους τους. Καθημερινά παράγονται τεράστιοι όγκοι ψηφιακών δεδομένων από διαστημικά τηλεσκόπια και ραδιοτηλεσκόπια, αλλά και από ερασιτέχνες αστρονόμους. Έτσι με τεχνικές εξόρυξης γνώσης τα δεδομένα αυτά μπορούν να ταξινομηθούν και να κατηγοριοποιηθούν βοηθώντας τους αστρονόμους στη μελέτη και ανάλυσή τους.


Επιχειρηματική Εφαρμογή

Ένας τραπεζικός οργανισμός μπορεί με τη χρήση του Data mining να προβλέψει το προφίλ των πελατών που προτίθενται να μεταφέρουν το στεγαστικό ή καταναλωτικό τους δάνειο σε ένα ανταγωνιστικό οργανισμό ο οποίος προσφέρει καλύτερους όρους αποπληρωμής. Έτσι μελετώντας κάποια χαρακτηριστικά των πελατών, που έχουν ήδη μεταφέρει το δάνειο τους ή έχουν ζητήσει τη μεταφορά του, όπως το φύλο , η ηλικία , η οικογενειακή-επαγγελματική κατάσταση, το ύψος και η διάρκεια του δανείου ο οργανισμός να μπορεί να προσδιορίσει τους δυσαρεστημένους πελάτες και να δημιουργήσει μεθόδους για τη συγκράτηση τους στο πελατολόγιο του.