Data Mining, a Course by Blog

Εργασία 06: (Ειρήνη Λυγκώνη)

May 12, 2008 · 1 Comment

      

 

Στην εργασία αυτή θα μετατρέψουμε nominal attributes ή class σε numeric και αντιστρόφως με την βοήθεια του filter  με την βοήθεια του Weka. Το αρχείο με τα δεδομένα labor.arff περιέχει numeric (1,2,3,4,6,8,9,11,12,17), nominal (5,7,10,12,13,14,15,16,) και ενα nominal class  attributes.

Όταν θέλω να κάνω  classification και συγκεκριμένα να τρέξω κάποιους αλγορίθμους, όπως τον M5Rules  παρατηρώ ότι το class attribute (bad or good) το δέχεται σαν binary και δεν τρέχει ο αλγόριθμος. Δεν υπάρχει αλγόριθμος που να αλλάζει το class attribute απο binary σε nominal. Επειδή όμως  το class attribute ειναι bad or good (2 κλάσεις μόνο) εύκολα μπορούμε να το μετατρέψουμε σε numeric με την εξής εντολή: 

Filter->Choose->filters->unsupervised->atttribute->NominalToBinary

Βάζοντας στα χαρακτηριστικά του αλγορίθμου μόνο για την τελευταία μεταβολή που είναι η τιμή στόχος (AttributesIndices->last)

Παρατηρώ ότι ο αλγόριθμος M5Rules μετά την αλλαγή υλοποιείται με την εξής εντολή:

Classify->Choose->M5Rules

Ακολουθεί το γράφημα με της class attribute που ειναι 0 ή 1.

 

 

 

Αν θέλουμε να αλλάξουμε τώρα και  τα υπόλοιπα  nominal attributes σε numeric ακολουθώ τα εξής βήματα όπως και παραπάνω:

Filter->Choose->filters->unsupervised->atttribute->NominalToBinary

Όμοια, αν θέλω να μετατρέψω τα numeric attributes σε nominal ακολουθούμε την εξής εντολή:

Filter->Choose->filters->unsupervised->attribute->NumericToNominal

Παντώντας το visualize all προκύπτει το παρακάτω γράφημα:

 

 

Categories: εργασίες

EΡΩΤΗΣΗ

April 20, 2008 · 4 Comments

prospathw na treksw ton algorithmo JRip or PRism. Enw kanw kanonika Discretize sto train set mou kai ton trexw kanonika, meta kanw kai sto quiz set mou Discretize gia na einai compatible ta atribbutes kai kanw to kainourgio quizset openfile sto set opws me ton idio tropo opws stin proigoumeni ergasia kai den mou trexei me tipota. Ti na kanw lathos?

Categories: ερωτήσεις

Εργασία 03:(Λυγκώνη Ειρήνη)

April 7, 2008 · 1 Comment

Η προεπεξεργασία  δεδομένων είναι ένα πολύ σημαντικό κομμάτι στο data mining! Ο μετασχηματισμός των δεδομένων έχει σαν στόχο την βελτίωση στο σύνολο τους έτσι ώστε τα συμπεράσματα που θα διεξαχθουν κατά την στατιστική ανάλυση να είναι όσο το δυνατόν πιο αξιόπιστα. Κάποια πρώτα βήματα που κάποιος θα μπορούσε να ακολουθήσει εφαρμόζοντάς τα στο training set  είναι τα εξής:

 

  • Ανοίγοντας το dataset στο weka με την εντολή  visualize all παρατηρούμε ότι υπάρχουν 39 attributes των 2528 instances.
  • Έπειτα, μπορεί να γίνει έλεγχος για το αν υπάρχουν ελλείπουσες τιμές χρησιμοποιώτας το filter-> ReplaceMissingValues όπου γίνεται αντικατάσταση αυτών των τιμών π.χ. με την μέση τιμή κάθε χαρακτηριστικού. Στο συγκεκριμένο dataset παρατηρούμε ότι δεν υπάρχουν.
  • Θα πρέπει γραφικά να ελέξουμε αν υπάρχουν outliers και να τα απομακρύνουμε γιατί επηρεάζουν την ανάλυση που θέλουμε να κάνουμε ή κάποια attributes που ίσως εμφανίζουν την ίδια συμπεριφορά με την εντολή Remove. Αυτό θα γίνει εφόσον εφαρμόσουμε καποιες μεθόδους παλινδρόμισης ώστε να δούμε τα σχετικά σφάλματα.
  • Επίσης μπορούμε να κανονικοποιήσουμε τα δεδομένα του κάθε χαρακτηριστικού με την εντολή Normalize.
  • Ίσως χρειαστεί να κατασκευάσουμε ένα καινούριο χαρακτηριστικό (ένας μαθηματικός τύπος) με βάση κάποια άλλα χαρακτηριστικά του dataset χρησιμοποιώντας την εντολή AddExpression.

 Σαφέστατα υπάρχουν σίγουρα και άλλα βήματα που θα μπορούσε κάποιος να ακολουθήσει!!!

Categories: εργασίες

Εργασία 02:(Ειρήνη Λυγκώνη)

March 29, 2008 · 1 Comment

Categories: εργασίες

Εργασία01:(Ειρήνη Λυγκώνη)

March 15, 2008 · 2 Comments

Ερευνητική εφαρμογή

Σε μια Μονάδα Εντατικής Θεραπείας, οι γιατροί υπολογίζουν κάποια scores (scoring systems APACHE II, SAPS, SOFA) που βρίσκουν πόσο κρίσιμη είναι η κατάσταση των ασθενών για κάθε μέρα που έχουν εισαχθεί στην Εντατική και ποιά είναι η προβλεπόμενη πιθανότητα θνησιμότητά τους. Καθένα από αυτά τα scores εξάρτώνται από πολλούς παράγοντες (βιοχημικές και ζωτικές μετρήσεις των ασθενών).Με την βοήθεια των τεχνικών του data mining θα μπορούσε να γίνει σύγκριση αυτών των scores έτσι ώστε να βρεθεί το πιο αξιόπιστο ή ακόμα να γίνει μείωση των παράγοντων των ήδη υπάρχουσων scores έτσι ώστε να δημιουργθεί εκ νέου ένα  score το οποίο θα έχει πρακτική και κλινική εφαρμογή.

Επιχειρηματική εφαρμογή

Έστω ότι η Ελληνική κυβέρνηση θέλει να βελτιώσει τα online services που διαθέτει σε διάφορες υπηρεσίες της (π.χ. ΚΕΠ, ΟΑΕΔ). Για να γίνει αυτό όμως πρέπει πρώτα να καταλάβει πώς οι πολίτες της αντιλαμβάνονται και αξιολογούν τα online services. Αυτό ονομάζεται e-gov service quality. Έτσι αναθέτει σε μια ομάδα ερευνητών να αναπτύξουν ένα εργαλείο (ερωτηματολόγιο) το οποίο θα αξιολογεί και θα μετράει την ποιότητα της εξυπηρέτησης του πολίτη από  e-government sites ή portals. Με την συγκέντρωση της πληροφορίας αυτής, οι τεχνικές του data mining (Jackknife, K- Means, bootstrap etc.) θα είναι πολύ χρήσιμες.

Categories: εργασίες

Συστάσεις (Ειρήνη Λυγκώνη)

February 28, 2008 · No Comments

ΕΚΠΑΙΔΕΥΣΗ-ΣΠΟΥΔΕΣ:2007σε εξέλιξη: Διατμηματικό μεταπτυχιακό πρόγραμμα του Ε.Μ.Π. «Εφαρμοσμένες Μαθηματικές Επιστήμες, Ροή Στατιστικής».

2002-2007: Απόφοιτη  της Σχολής Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών ΕΜΠ με βαθμό 7,66/10.                         

Γνώσεις Η/Υ:  Microsoft  Office Word, Microsoft  Office Excel, Microsoft  Office Access, Statgraphics,  Minitab, SPSS, STATA, SAS, Mathematica, Matlab, Mathtype. Γλώσσες προγραμματισμού: Pascal, C .

ΕΠΙΣΤΗΜΟΝΙΚΕΣ ΕΡΓΑΣΙΕΣ:Συγκριτική μελέτη των πέδιων βάρυτητας των ασθενών σε Μονάδα Εντατικής Θεραπείας , διπλωματική εργασία που εκπονήθηκε σε συνεργασία με το Ιπποκράτειο Νοσοκομείο την περίοδο Νοεμβρίου 2006 - Οκτωμβρίου 2007 η οποία βασίστηκε στην ανάλυση δεδομένων με την χρήση της ανάλυσης επαναλαμβανόμενων μετρήσεων.

ΠΡΟΫΠΗΡΕΣΙΑ:Μερική απασχόληση από Ο.Τ.Ε. Α.Ε. στο τμήμα τηλεφωνικής εξυπηρέτησης πελατών  134 την περίοδο 15/11/2005 έως 14/07/2006,Μερική απασχόληση στην βιβλιοθήκη του Ε.Μ.Π στο έργο Ανάπτυξη Ψηφιακών Υπηρεσιών – Αριάδνη την περίοδο 21/08/2006 έως 31/12/2006,Πρακτική άσκηση στο Ιπποκράτειο Νοσοκομείο Αθηνών την περίοδο 17/11/2006 έως 17/01/2007,Μερική απασχόληση από το Γραφείο διασύνδεσης φοιτητών και νέων αποφοίτων του Ε.Μ.Π. την περίοδο 5/12/06 έως 25/01/2008.

Ο λόγος που με ώθησε να επιλέξω το μάθημα Αλγόριθμοι Εξόρυξης Δεδομένων είναι ότι είναι ένα σύχρονο πεδίο μελέτης στο οποίο μπορεί να βασιστούν πολλές εφαρμογές και να διεξαχθούν πολλά χρήσιμα συμπεράσματα από τεράστιες βάσεις δεδομένων.  Σκοπός μου είναι η εξοικείωση με τους συγκεκριμένους αλγορίθμους και η εφαρμογή τους σε διάφορα προβλήματα.

Categories: συστάσεις