Data Mining, a Course by Blog

Eργασία06:Θεωνη Πετρατου

May 12, 2008 · 1 Comment

 

Το dataset που εξετάζουμε είναι το soybean.arff. Παρατηρούμε ότι όλα τα attributes είναι της μορφής nominal.

 

 

 

Σκοπός μας είναι να μετασχηματίσουμε τα attributes  της μορφής nominal σε attributes της μορφής numeric. Η διαδικασία που ακολουθούμε είναι η εξής:

 

Filter – Choose – filters – unsupervised – attributes – NominalToBinary – Apply

 

Έτσι λοιπόν παίρνουμε τα ακόλουθα: 

 

 

 

 

 

 

 

 

 

 

 

 

 

Categories: εργασίες

ΕΡΓΑΣΙΑ 03: Θεώνη Πετράτου

April 7, 2008 · 1 Comment

Η προεπεξεργασία και η επιλογή δεδομένων είναι πολύ χρήσιμη όταν έχουμε μια μεγάλη βάση δεδομένων, από την οποία θέλουμε να αντλήσουμε πληροφορίες για την επίλυση ενός προβλήματος. Για το σκοπό αυτό υπάρχουν πολλοί τρόποι που μας βοηθούν να μειώσουμε τον αριθμό των attributes ώστε η επεξεργασία των δεδομένων μας να είναι πιο εύκολη. Ορισμένοι από αυτούς τους τρόπους είναι οι ακόλουθοι:

  • Με τη βοήθεια της εντολής visualize all θα μας εμφανιστούν τα ιστογράμματα όλων των μεταβλητών και μπορούμε οπτικά να αποκλείσουμε κάποιες μεταβλητές. Για παράδειγμα, στο training set βλέπουμε ότι το attribute 38 μπορεί να εξαιρεθεί.
  • Πριν ξεκινήσουμε την ανάλυση είναι χρήσιμο να ελέγχουμε αν υπάρχουν missing values στο dataset μας. Το weka   μας παρέχει την δυνατότητα να αντικαταστήσουμε τις ελλειπούσες τιμές  με την εντολή replace missing values. Στο training set που έχουμε για ανάλυση δεν υπάρχουν missing values.
  • Στη συνέχεια μπορούμε να δούμε τις συχνότητες όλων των attributes και να αφαιρέσουμε αυτά που η συχνότητα τους είναι χαμηλή.
  • Επίσης σε ορισμένες περιπτώσεις είναι χρήσιμο  να μετατρέψουμε ορισμένες μεταβλητές από numeric σε nominal ώστε να είναι εφικτή η ανάλυση των δεδομένων.
  • Το weka διαθέτει πολλά φίλτρα που επιλέγουν αυτόματα τις μεταβλητές, αλλά επειδή υπάρχει ο κίνδυνος να εξαιρεθεί κάποια μεταβλητή που να είναι χρήσιμη θα πρέπει να εφαρμοσθούν πολλά φίλτρα για να καταλήξουμε σε μια απόφαση.

Categories: εργασίες

Εργασία 02: Θεώνη Πετράτου

March 31, 2008 · 1 Comment

Categories: εργασίες

ΕΡΓΑΣΙΑ 01: ΘΕΩΝΗ ΠΕΤΡΑΤΟΥ

March 13, 2008 · 2 Comments

  1. Στην Ελληνική Εταιρεία Τραύματος & Επείγουσας Χειρουργικής έχει δημιουργηθεί μια βάση δεδομένων, στην οποία καταγράφονται όλες οι πληροφορίες που αφορούν ασθενείς οι οποίοι έχουν νοσηλευτεί σε υγειονομικούς σχηματισμούς εξαιτίας τροχαίων ατυχημάτων, αθλητικών ατυχημάτων, πτώσεων κ.α. Η δομή της βάσης δεδομένων είναι τέτοια ώστε τα ιατρικά δεδομένα που συλλέγονται απο το τόπο του ατυχήματος, απο την άφιξη ενός τραυματία στο τμήμα επειγόντων περιστατικών (ΤΕΠ), από τη διάρκεια παραμονής του στο ΤΕΠ καθώς και από την ενδονοσοκομειακή του περίθαλψη να ομαδοποιούνται σε πίνακες έτσι ώστε να διευκολύνονται σημαντικά τόσο η καταχώρηση όσο και η ανεύρεση τους. Σκοπός της Ελληνικής Εταιρείας Τραύματος & Επείγουσας Χειρουργικής είναι να καταγράψει όλους τους παράγοντες που επηρεάζουν την θνητότητα των ατόμων από τραύμα και να βρούν το βέλτιστο μοντέλο που θα περιέχει μόνο τους σημαντικούς παράγοντες με στόχο τη μείωση του ποσοστού θνητότητας.
  2. Μια εταιρεία που κατασκευάζει κινητά τηλέφωνα, καταγράφει σε βάση δεδομένων τις απαιτήσεις ενός μέρους του αγοραστικού κοινού ηλικίας 16-60 ετών. Σκοπός της εταιρείας είναι η κατασκευή νέων μοντέλων κινητής τηλεφωνείας που να ικανοποιούν αυτές τις απαιτήσεις με στόχο την αύξηση των πωλήσεων των προιόντων της.

Categories: εργασίες

Συστάσεις:Θεώνη Πετράτου

March 3, 2008 · 1 Comment

ΣΠΟΥΔΕΣ:

2002-2007: Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών του ΕΜΠ, με ροές Εφαρμοσμένη Ανάλυση και Στατιστική. Βαθμός πτυχίου 7.22
2007-Σήμερα: Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών της σχολής Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών του ΕΜΠ με τίτλο “Εφαρμοσμένες Μαθηματικές Επιστήμες” με κατεύθυνση Στατιστική-Πιθανότητες
Διπλωματική Εργασία: “Εφαρμογή των Υπερκορεσμένων Σχεδιασμών σε Βιολογικά Δεδομένα”. Επεξεργασία μετρήσεων απο τη βάση δεδομένων του Ιπποκρατειου νοσοκομείου σε πρόγραμμα MATLAB

Γνώσεις Η/Υ: pascal, c, mathematica, matlab, minitab, statgraphics, spss, R, HTML, Microsoft office

Εργασιακή Εμπειρία:

  • Τεχνικό Επιμελητήριο Ελλάδος (ΤΕΕ). Στα πλαίσια της πρακτικής άσκησης του ΕΜΠ εργάστηκα στο ΤΕΕ στο τμήμα Μητρώου ως στατιστική αναλύτρια δεδομένων (1/11/06-1/12/06)
  • Ελληνική Εταιρεία Τραύματος & Επείγουσας Χειρουργικής. Καταγραφή περιστατικών τραύματος, διαχείρισης δεδομένων, διαχείριση βάσεων δεδομένων-data mining, στατιστική ανάλυση (1/2/07-30/6/07)

Συμμετοχή σε Επιστημονικά Συνέδρια: Τέταρτο Συνέδριο Ελληνικής Εταιρείας Τραύματος & Επείγουσας Χειρουργικής, Αθήνα, Ελλάδα , 23/2/07-25/2/07

 Επέλεξα το μάθημα Αλγόριθμοι Εξόρυξης Πληροφορίας (data-mininng) γιατί θεωρώ ότι είναι πολύ σύγχρονο και ενδιαφέρον, με πολλές εφαρμογές που καλύπτουν ένα ευρύ φάσμα εργασιακών κλάδων. Η εμπειρία που αποκόμισα έπειτα απο την εργασία μου στην Ελληνική Εταιρεία Τραύματος & Επειγουσας Χειρουργικής μου δείχνει την χρησιμότητα του datamining και  με ώθησε στην περαιτέρω ενασχολησή μου με αυτό το αντικείμενο, με κύριο σκοπό την εφαρμογή του σε προβλήματα Βιοστατιστικής

Categories: συστάσεις