Παρατηρούμε στο dataset segment challenge ότι όλα τα attributes είναι της μορφής numeric, με εξαίρεση class attribute το οποίο είναι της μορφής nominal. Θα μετασχηματίσουμε το attributes της μορφής numeric σε attributes της μορφής nominal. Για το μετασχηματισμό αυτό ακολουθούμε τα εξής βήματα:
filter -> choose -> unsupervised -> attribute -> numeric to nominal
Με αυτή τη διαδικασία έχουν γίνει όλα τα attributes nominal, όπως φαίνεται και στην παρακάτω εικόνα και οι αλγόριθμοι που χρειάζονται attributes αυτής της μορφής μπορούν πλέον να τρέξουν.

Παρατηρούμε ότι ο αλγόριθμος M5Rules δεν τρέχει. Γι’ αυτό επιλέγουμε διαφορετικό class attribute και στη συνέχεια εφαρμόζουμε το φίλτρο nominal to binary, ορίζοντας στις επιλογές του attributeIndices: last attribute.

Πριν αρχίσουμε την εφαρμογή των αλγορίθμων στην υπό μελέτη βάση δεδομένων, είναι πολύ χρήσιμο να εκτελέσουμε μια προεπισκόπηση στα δεδομένα μας. Σκοπός αυτής της διαδικασίας είναι ο μετασχηματισμός των δεδομένων σε μορφή κατάλληλη και αποδοτική για τη μέθοδο που πρόκειται να εφαρμόσουμε και η αύξηση του βαθμού αξιοπιστίας. Εφαρμόζοντας αυτή τη διαδικασία στο training set μπορούμε να παρατηρήσουμε τα εξής:
v Χρησιμοποιώντας την εντολή visualize all του WEKA προκύπτουν τα ιστογράμματα συχνοτήτων που αντιστοιχούν σε κάθε μεταβλητή. Από τα ιστογράμματα αυτά μπορούμε να δούμε αν κάποιο attribute μπορεί να αφαιρεθεί και αν υπάρχουν outliers σε κάποια attributes. Παρατηρούμε ότι από τις 39 attributes των 2528 instances του training set μία είναι περιττό να συμπεριληφθεί καθώς σε αυτή το κάθε instance είναι ίσο με μηδέν. Πρόκειται για την attribute 38 την οποία μπορούμε να αφαιρέσουμε (remove) από το training set.
v Παρόμοια συμπεριφορά παρουσιάζουν και οι attributes 36 και 34 καθώς έχουν μόλις 15 και 1 αντίστοιχα διαφορετικά του μηδενός.
v Για την εκμάθηση του μοντέλου θα εφαρμοστούν κανόνες ταξινόμησης(classification rules), κανόνες συσχέτισης(association rules) και κανόνες ομαδοποίησης. Για το σκοπό αυτό ίσως χρειαστεί να γίνει μετατροπή στην κλάση κάποιων attributes από numeric σε nominal (discretize) μέσω ενός filter ή κανονικοποίηση (normalize) πάλι μέσω κάποιου filter.
v Στην περίπτωση που υπάρχουν missing values, μπορούμε να χρησιμοποιήσουμε το filter «ReplaceMissingValues» και να αντικαταστήσουμε αυτές τις τιμές , για παράδειγμα με τη μέση τιμή κάθε χαρακτηριστικού.
v Τέλος, στην περίπτωση που επιλεγεί η χρήση supervised filter ίσως μπορεί να γίνει χρήση του attribute selection για να δούμε με ποιο υποσύνολο των attributes θα συνεχίσουμε την ανάλυσή μας.
Μια εφαρμογή του data mining σε επιχειρηματικό επίπεδο θα ήταν η εξής:
Μια επιχείρηση καταγράφει σε μια βάση τα χαρακτηριστικά των πελατών της, για παράδειγμα ηλικία, οικονομική κατάσταση, οικογενειακά κατάσταση, και άλλα. Με βάση αυτά τα δεδομένα μπορεί να αποφασίσει για το μέρος στο οποίο θα ανοίξει υποκατάστημα. Για παράδειγμα, αν το προϊόν που παράγει προτιμάται από νέους χαμηλού εισοδήματος, θα πρέπει να ανοίξει ένα υποκατάστημα σε μια περιοχή όπου θα μένουν νέοι ή γενικά θα είναι εύκολη η πρόσβαση των νέων.
Μια εφαρμογή του data mining σε ερευνητικό επίπεδο θα ήταν η ακόλουθη:
Kαταγράφουμε σε μια βάση τη συμπεριφορά – τις ιδιότητες ορισμένων χημικών ουσιών που μας ενδιαφέρουν για την παραγωγή ενός φαρμάκου. Εξετάζουμε την σημαντικότητά τους και τις αλληλεπιδράσεις τους και αποφασίζουμε σχετικά με το ποιες θα περιέχονται στο φάρμακο. Για παράδειγμα δηλαδή, καταγράφουμε σε μια βάση τη συμπεριφορά 20 ουσιών που γνωρίζουμε από ιατρικά δεδομένα ότι σχετίζονται με την πάθηση για την οποία επιθυμούμε να φτιάξουμε ένα φάρμακο. Στις στήλες καταγράφουμε τη σχέση της κάθε ουσίας με κάποιους παράγοντες, π.χ. με αλλεργικές παρενέργειες, με καρδιακή λειτουργία, με νεφρική ανεπάρκεια κ.λ.π. Στη συνέχεια εξετάζοντας τη σημαντικότητα κάθε ουσία και τις αλληλεπιδράσεις τους, αποφασίζουμε για το αν το φάρμακο θα πρέπει να περιέχει ή όχι την κάθε ουσία.
ΕΚΠΑΙΔΕΥΣΗ
2000-2007 Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών.
2007-σήμερα: Mεταπτυχιακό Εφαρμοσμένες Μαθηματικές Επιστήμες, κατεύθυνση Στατιστική-Πιθανότητες.
Διπλωματική Εργασία
« Θεωρία Πληροφοριών και Κρυπτογραφία- Σημειωματάριο Μιας Χρήσης- Συνδυαστικοί Σχεδιασμοί Στην Κρυπτογραφία». Αθήνα 2007, ΕΜΠ.
ΕΡΓΑΣΙΑΚΗ ΕΜΠΕΙΡΙΑ
Σεπτέμβριος – Οκτώβριος 2003 Εταιρεία Προστασίας Πνευματικής Ιδιοκτησίας (ΑΕΠΙ ΑΕ), Τμήμα Αρχείου Ελληνικής Μουσικής (Πρακτική άσκηση στο πλαίσιο των προπτυχιακών σπουδών)
ΣΕΜΙΝΑΡΙΑ
Νοέμβριος - Δεκέμβριος 2004, Ένωση Διαπραγματευτών Χρηματοοικονομικών Προϊόντων Ελλάδας (Forex Club Hellas), με θεματικες ενότητες: Μέθοδοι μέτρησης κινδύνων-Money Market Basics-Bonds Basics-Capital Guarantees-Basics Concepts of Risk Management-Forward Swaps Basics.
Επέλεξα το μάθημα data mining λόγω του ότι αποτελεί ένα πεδίο συνδυασμού των αλγορίθμων και της στατιστικής στη διαχείριση πολύ μεγάλων βάσεων δεδομένων για την εξαγωγή χρήσιμων συμπερασμάτων. Σκοπός μου είναι η εφαρμογή των γνώσεων που θα αποκομίσω από το συγκεκριμένο μάθημα στην εκπόνηση της διπλωματικής μου εργασίας.