Data Mining, a Course by Blog

Eργασία06: Ανδρουλάκης Μάνος

May 12, 2008 · 1 Comment

Σκοπός της εργασίας είναι η μετατροπή των attributes από numeric σε  nominal ή αντιστρόφως, αναλόγως ποιο dataset έχει ο καθένας, ώστε να μπορούν να υλοποιηθούν αλγόριθμοι οι οποίοι απαιτούν συγκεκριμένη μορφή των δεδομένων.

Το dataset με το οποίο θα ασχοληθούμε είναι το contact-lenses. Με μια απλή οπτικοποίηση των δεδομένων από το Edit παρατηρούμε ότι όλα τα attributes μαζί με το class-attribute είναι nominal.

Image1

 

  

Oι αλγόριθμοι οι οποίοι παρουσιάζουν πρόβλημα, είναι ο Μ5Rules στο Classify, όπου αν επιχειρήσουμε να τον τρέξουμε μας βγάζει σφάλμα ότι δεν μπορεί να χρησιμοποιήσει nominal class και ο αλγόριθμος Xmeans στο Cluster ο οποίος δεν μπορεί να χρησιμοποιήσει nominal attributes.

 

Οπότε το μόνο που μπορούμε να κάνουμε αρχικά, είναι να μετατρέψουμε τα nominal attributes σε binary (ώστε να γίνουν numeric).

Αυτό υλοποιείται ως εξής:

Επιλέγουμε FilteràChooseàfiltersàunsupervisedàatttributeàNominalToBinary.

 

Image 2

 

Yποτίθεται τώρα ότι θα έπρεπε να τρέξει ο αλγόριθμος Xmeans. Όμως, όταν κάνουμε φιλτράρισμα στα δεδομένα, έστω κι αν έχουμε επιλέξει first-last στο AttributesIndices (στα χαρακτηριστικά του αλγορίθμου) πριν κάνουμε τον μετασχηματισμό από nominal σε binary, αλλάζουν όλα πλην του class (βλ. image2). Τελικά, πάλι δεν τρέχει ο Xmeans. Αυτό που μπορούμε να κάνουμε είναι, πριν το φιλτράρισμα, να ορίσουμε άλλο attribute ως class, και έπειτα να επιλέξουμε να γίνει η αλλαγή μόνο στο τελευταίο attribute (το οποίο είναι και το class atttribute). Αυτό όμως πάλι θα μας δημιουργήσει πρόβλημα, καθότι η αρχική nominal μορφή του class είχε 3 distinct values, οπότε και θα δημιουργηθούν 3 καινούργια binary attributes αντί του αρχικού class. Επίσης ως class attribute θα είναι πλέον το τελευταίο. Προφανώς δεν ωφελεί σε κάτι να γίνει η συγκεκριμένη αλλαγή, μιας και έτσι χαλάει εντελώς η μεταβλητή στόχος. Άρα πολύ απλά δεν πρέπει να γίνει οποιαδήποτε αλλαγή στο class attribute και δεν μπορούμε τελικά να χρησιμοποιήσουμε τον συγκεκριμένο αλγόριθμο.

Όσον αφορά τον M5Rules, πρέπει μόνο να αλλάξουμε το class attribute οπότε για τους λόγους που αναφέραμε πριν, κάτι τέτοιο δεν πρέπει να γίνει. Άρα δεν μπορεί να χρησιμοποιηθεί ούτε αυτός ο αλγόριθμος.

 

Categories: εργασίες

Εργασία 03: Ανδρουλάκης Μάνος

April 6, 2008 · 3 Comments

 

Kατά την ανάλυση ενός μεγάλου όγκου δεδομένων, ώστε να βρεθούν σχέσεις, αναμενόμενες και μη, ανάμεσα στα δεδομένα, είναι αρκετά χρήσιμο να γίνει μια πρώτη προεπεξεργασία, πριν την οποιαδήποτε εφαρμογή αλγορίθμων. Όσον αφορά το dataset ‘training set’, θα μπορούσαν να γίνουν τα εξής:

 

  • Έπειτα από μια πρώτη επισκόπηση του ‘training set’, μπορούμε να δούμε ότι στo attribute38, κάθε instance έχει τιμή 0. Αυτό σημαίνει ότι ίσως είναι καλό να αφαιρεθεί.
  • Επίσης, τα attributes 36 και 34, έχουν από 15 και 1 αντίστοιχα καταχωρήσεις με 1, ενώ όλες οι υπόλοιπες είναι 0. Αυτό σημαίνει ότι ίσως θα πρέπει να εκτελεστούν κάποιοι μέθοδοι παλινδρόμησης ώστε έπειτα να αποφασιστεί αν θα παραμείνουν τα συγκεκριμένα attributes, ή θα πρέπει να τα αφαιρέσουμε.
  • Παρατηρούμε ότι missing values δεν υπάρχουν, αν και αυτό δε θα αποτελούσε πρόβλημα, μια και στο Weka υπάρχει η δυνατότητα αντικατάστασης τους.
  • Επίσης, ίσως χρειαστεί η μετατροπή κάποιων χαρακτηριστικών από numeric σε nominal (διακριτοποίηση), καθώς ορισμένες μέθοδοι εκμάθησης μπορούν να χειριστούν μόνο ρητά (categorical) χαρακτηριστικά.
  • Θα πρέπει επιπλέον να επιλέξουμε κάποιο φίλτρο για τα δεδομένα μας. Χρειάζεται όμως κάποια προσοχή στην επιλογή supervised ή unsupervised filter, διότι η πρώτη κατηγορία στην πραγματικότητα δε συνιστά λειτουργίες προεπεξεργασίας.

 

Categories: εργασίες

Εργασία 02: Ανδρουλάκης Μάνος

March 29, 2008 · 1 Comment

Categories: εργασίες

Εργασία 01: Ανδρουλάκης Μάνος

March 14, 2008 · 2 Comments

Ερευνητική εφαρμογή 

 Στην εξ’ αποστάσεως μάθηση, τα διάφορα συστήματα που την υποστηρίζουν, καταγράφουν τις κινήσεις του εκπαιδευόμενου, π.χ. πόσο έμεινε σε μια ιστοσελίδα, πόσο έγραψε στα on-line tests, μετά από πόση ώρα απάντησε, που έκανε λάθος, κ.λ.π. Όλα αυτά τα δεδομένα, τα οποία είναι καταγεγραμμένα σε log-files, παρέχουν πλούσιες πληροφορίες, οι οποίες με τις κατάλληλες μεθόδους data mining, μπορούν να αξιοποιηθούν έτσι ώστε να βοηθήσουν τον εκπαιδευτή να εξαγάγει συμπεράσματα για το επίπεδο μάθησης των εκπαιδευόμενων. Εκλεπτυσμένα τα αποτελέσματα από τη χρήση data mining τεχνικών σε τέτοια data sets, όταν δωθούν στον εκπαιδευτή, τον βοηθούν στον περαιτέτω σχεδιασμό των εκπαιδευτικών του δραστηριοτήτων και γενικά στη βελτίωση της όλης διαδικασίας της εξ΄αποστάσεως μάθησης.

 

Επιχειρηματική εφαρμογή 

 

Σε ένα πάρκιγκ αυτοκινήτων θα μπορούσε να πουληθεί ένα αυτοματοποιημένο σύστημα, το οποίο θα τοποθετηθεί στην είσοδο του πάρκιγκ. Αυτό θα μπορεί να αναγνωρίζει και να «κρατάει» τον αριθμό κυκλοφορίας του αυτοκινήτου, χρησιμοποιώντας μεθόδους clustering για την αναγνώριση των γραμμάτων και των αριθμών της πινακίδας. Ώστε, κυρίως οι συχνοί πελάτες, να μην ταλαιπωρούνται με τις κλασικές μεθόδους ταυτοποίησης στοιχείων.

 

Categories: εργασίες

Συστάσεις: Ανδρουλάκης Μάνος

March 1, 2008 · No Comments

ΣΠΟΥΔΕΣ

2001-2007: Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών του Ε.Μ.Π. Κατεύθυνση Μαθηματικού Εφαρμογών. Ροές Στατιστικής και Πληροφορικής. Βαθμός πτυχίου: 7.32/10.

2007-σήμερα: Διατμηματικό Μεταπτυχιακό Πρόγραμμα του Ε.Μ.Π. «Εφαρμοσμένες Μαθηματικές Επιστήμες». Ροή: Στατιστική και Πιθανότητες. 

ΕΡΓΑΣΙΕΣ

Βασικές έννοιες Βιοστατιστικής και Επιδημιολογίας και εφαρμογές. Διπλωματική εργασία που εκπονήθηκε κατά την περίοδο Νοεμβρίου 2006 - Σεπτεμβρίου 2007: Κατηγορίες και χαρακτηριστικά επιδημιολογικών μελετών, δείκτες νοσηρότητας, μέτρα κινδύνου, διαγνωστικοί έλεγχοι, βασικές μέθοδοι στην ανάλυση επιβίωσης, κλινικές δοκιμές, εφαρμογές αυτών. 

ΓΝΩΣΕΙΣ Η/Υ, ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ

Statgraphics, Spss, Minitab, Stata, SAS, R, Microsoft  Office, C, Matlab, Mathematica.

ΕΡΓΑΣΙΑΚΗ ΕΜΠΕΙΡΙΑ

10/10/2005-10/11/2005: Πρακτική άσκηση στην Εθνική Τράπεζα, κατάστημα Πανόρμου 064, Αθήνα.

23/06/2005-2007-31/07/2007: Βοηθός Ερευνητή στο Πρόγραμμα «Φύλο-Αρχιμήδης ΙΙ_Ενίσχυση Ερευνητικών Ομάδων του Τ.Ε.Ι Κρήτης, υποέργο: Στάσεις και αντιλήψεις των επαγγελματιών υγείας στις υγειονομικές μονάδες της Κρήτης απέναντι στην κακοποίηση των γυναικών». 

ΣΥΜΜΕΤΟΧΗ ΣΕ ΕΠΙΣΤΗΜΟΝΙΚΑ ΣΥΝΕΔΡΙΑ  

“28th Annual Conference of the International Society for Clinical Biostatistics”.Αλεξανδρούπολη, 29 Ιουλίου - 2 Αυγούστου 2007.  

Ο βασικός λόγος για τον οποίο επέλεξα το μάθημα Αλγόριθμοι Εξόρυξης Πληροφορίας, είναι ότι η χρησιμότητά του έγκειται στην ανακάλυψη προτύπων από έναν (συνήθως μεγάλο) όγκο δεδομένων, που πριν δεν ήταν γνωστά και στην ανάλυσή τους ώστε να βρεθούν μη αναμενόμενες σχέσεις ανάμεσα στα δεδομένα. Σκοπός μου είναι η κατανόηση των αποδοτικών αυτών τεχνικών εξόρυξης γνώσης και η εφαρμογή τους σε προβλήματα κυρίως Βιοστατιστικής.     

Categories: συστάσεις