Data Mining, a Course by Blog

ΕΡΓΑΣΙΑ 06 Πανδή Αθηνά

May 12, 2008 · 1 Comment

Στην παρούσα εργάσια  ζητείται ο μετασχηματισμός των input και class attribute σε numeric και nominal ανάλογα με τον αλγόριθμο που τρέχουμε κάθε φορά.

Στο αρχείο segment-test.arff τα input attributes είναι numeric και το class attribute είναι nominal.

Αν τρέξουμε στο weka τον αλγόριθμο M5Rules ακολουθώντας τα παρακάτω βήματα

Classify->Choose->rules->M5Rule  εμφανίζεται το ακόλουθο μήνυμα

 

Για να μετατρέψουμε το class attribute σε nominal πάμε

Preprocess->Filter->Choose->unsupervised->attribute->nominal to binary

Παρατηρούμε ότι δεν έχει αλλάξει το class attribute παραμένει nominal. Πρέπει να ορίσουμε άλλη class attribute από το drop down list Class:Class (Nom). Έστω ότι η νέα μεταβλητή στόχος είναι το attribute hue-mean. Εφαρμόζοντας το παραπάνω φίλτρο η νέα μεταβλητή στόχος έγινε numeric έχοντας όμως “σπάσει” σε 7 διαφορετικές binary μεταβλητές,όσα και τα distinct της προηγούμενης class attribute όπως φαίνεται στο παρακάτω σχήμα.

 

 

Όπως είδαμε παραπάνω δεν έχει νόημα να μετατρέπουμε την class attribute, γι αυτό τον αλγόριθμο τον επιλέγουμε εξαρχής με βάσει τον τύπο της μεταβλητής στόχου.

Αυτό που είναι εφικτό στο συγκεκριμένο dataset είναι η μετροπή των input attributes από numeric σε nominal. Αν προσπαθήσουμε να τρέξουμε τον αλγόριθμο Prism

Classify->Classifier->Choose->rules->Prism

θα δούμε ότι τα input attributes πρέπει να είναι nominal για να τρέξει. Οπότε ακολουθούμε τα παρακάτω βήματα.

Preprocess->Filter->Choose->NumericToNominal

Αν πατήσουμε το visualize all έχουμε το παρακάτω γράφημα όπου φαίνεται ότι όλες οι μεταβλητές έγιναν nominal.

Categories: εργασίες

ΕΡΩΤΗΣΗ

April 11, 2008 · 1 Comment

Αφορά την εργασία 04. Δικαιολογείται το train set μετά την εφαρμογή κάποιων αλγορίθμων (με cross validation) να δίνει πολύ χαμηλό σφάλμα και καλό correlation και η εφαρμογή των ίδιων διαδικασιών με supplied test set το αντίστοιχο quiz να δίνει εντελώς χάλια σφάλματα??? Έχει σχέση με το ότι η προστιθέμενη τελευταία στήλη των outputs στο quiz είναι όλα μηδεν? Αν ναι πρέπει να βάλουμε δικά μας νούμερα στην τύχη?

Categories: ερωτήσεις

ΕΡΓΑΣΙΑ 03:Πανδή Αθηνά

April 6, 2008 · 3 Comments

Ίσως το σημαντικότερο στην ανάλυση μιας τεράστιας βάσης δεδομένων είναι η πρώτη επαφή με τα δεδομένα και η απαλοιφή όποιων attributes δεν είναι σημαντικά. Η γρήγορη μείωση των atributes θα καταστήσει πολύ πιο εύκολη την μετέπειτα επεξεργασία. Η προεπεξεργασία και επιλογή δεδομένων μπορεί να γίνει με διάφορες τρόπους.

  • Με την εντολή visualize all παίρνουμε μια γρήγορη εικόνα όλων των μεταβλητών, και όπως καταλαβαίνουμε τα attributes 38 και 34 θα μπορούσαν κάλλιστα να εξαιρεθούν.
  • Ένα άλλο βήμα που θα μπορούσε να γίνει είναι ο εντοπισμός και η αντικατάσταση των ελλειπουσών τιμών, ώστε η τελική ανάλυση να έχει αξιόπιστα αποτελέσματα. Το weka  έχει φίλτρο (replace missing values) για αυτό το σκοπό. Παρατηρούμε ότι στο train set δεν υπάρχουν missing values.
  • Επίσης ίσως χρειαστεί  να μετατρέψουμε μια μεταβλητή από numeric σε nominal γιατί ορισμένοι αλγόριθμοι δέχονται ως input  μόνο διακριτά δεδομένα. Αυτό γίνεται με την εντολή discretize.
  • Το weka διαθέτει  πολλά φίλτρα για την προεπεξεργασία δεδομένων, επομένως στα δεδομένα του dataset θα πρέπει να εφαρμοσθούν  αρκετά φίλτρα για να αποφανθούμε πιο είναι το καλύτερο (trial and error).

 

Categories: εργασίες

Εργασία 02: Πανδή Αθηνά

March 29, 2008 · 1 Comment

Categories: εργασίες

Ερώτηση

March 27, 2008 · 6 Comments

Έχω πρόβλημα με τα vista, όταν πάω να κάνω save το αρχείο excel σαν csv το σώζει απευθείας σαν wordpad και όταν το κάνω rename σε arff παραμένει wordpad. Ξέρει κανείς τι τρέχει?

Categories: ερωτήσεις

Εργασία 01: Πανδή Αθηνά

March 13, 2008 · 15 Comments

 Ερευνητική εφαρμογή

Μια τεράστια βάση δεδομένων, που ίσως αρκετοί δεν έχουν σκεφτεί αποτελεί το facebook. Εκεί εκατομμύρια άνθρωποι, κυρίως νέοι, από όλο τον κόσμο έχουν δημιουργήσει ένα “προφίλ” στο διαδίκτυο όπου αναγράφονται δεδομένα όπως ηλικία, φύλλο, μόρφωση πολιτικές και θρησκευτικές πεποιθήσεις, μουσικές και τηλεοπτικές προτιμήσεις καθώς και πληθώρα άλλων πληροφοριών οι οποίες μπορούν να αξιοποιηθούν με μεθόδους data mining από κάποιο Πανεπιστημιακό Ίδρυμα και να βγουν ενδιαφέροντα συμπεράσματα για το πώς σκέφτονται οι νέοι, ποιες είναι οι προτιμήσεις τους και πως αντιμετωπίζουν γενικά την επικαιρότητα.

Επιχειρηματική εφαρμογή

 Οι εταιρίες τηλεπικοινωνιών θα μπορούσαν χρησιμοποιώντας τεχνικές data mining να βγάλουν συμπεράσματα σχετικά με το target group των πελατών τους προσαρμόζοντας έτσι τις υπηρεσίες τους και κατά επέκταση μεγιστοποιώντας το κέρδος. Η ανάλυση αυτή μπορεί να γίνει σε βάση δεδομένων που θα περιέχει πληροφορίες  όπως η ηλικία, το φύλλο, ο τόπος κατοικίας και το μορφωτικό επίπεδο των χρηστών ευρυζωνικών υπηρεσιών στην Ελλάδα.

Categories: εργασίες

Συστάσεις: Αθηνά Πανδή

February 27, 2008 · No Comments

ΣΠΟΥΔΕΣ

2002-2007 : Εθνικό Μετσόβιο Πολυτεχνείο , Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Κατεύθυνση Μαθηματικού Εφαρμογών με ειδίκευση στην Ανάλυση και στη Στατιστική. Bαθμός Πτυχίου: 7,78/10

2007-2008:  Εθνικό Μετσόβιο Πολυτεχνείο , Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στις Εφαρμοσμένες Μαθηματικές Επιστήμες.  Κατεύθυνση Στατιστικής.

ΕΡΓΑΣΙΕΣ

Ανάπτυξη Υπηρεσιών WiMAX στην περιοχή των Μεσογείων Αττικής

Διπλωματική εργασία που εκπονήθηκε σε συνεργασία με τον Διεθνή Αερολιμένα Αθηνών κατά την περίοδο Φεβρουαρίου – Νοεμβρίου 2007. Μελετήθηκαν τα τεχνικά , οικονομικά και δημογραφικά στοιχεία που είναι απαραίτητα για την ανάπτυξη υπηρεσιών WiMAX στην συγκεκριμένη περιοχή.

ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ-ΓΝΩΣΕΙΣ Η/Υ

Pascal, C, HTML, Matlab, Mathematica, Minitab, Statgraphics, Spss, Stata, SAS,R, Microsoft Office (ECDL).

ΕΡΓΑΣΙΑΚΗ ΕΜΠΕΙΡΙΑ

Εργοδότης: Διεθνής Αερολιμένας Αθηνών. Δίμηνη απασχόληση στα πλαίσια πρακτικής άσκησης της σχολής Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών Ε.Μ.Π.

Θέση: Telecommunications coordinator. Κύριες αρμοδιότητες ήταν η ανάπτυξη νέων τεχνολογιών όπως WiFi, WiMAX, Tetra Systems.

Ο κύριος λόγος που με ώθησε να επιλέξω το μάθημα Αλγόριθμοι  Εξόρυξης Πληροφορίας είναι ότι το data mining είναι μια πολύ πρόσφατη επιστήμη που είναι χρήσιμη στην εποχή μας ,δεδομένου του όγκου των πληροφοριών που παράγονται κάθε μέρα. Από το συγκεκριμένο μάθημα ευελπιστώ να αποκομίσω τις βασικές γνώσεις πάνω στο data mining ,ώστε να έχω την δυνατότητα να ασχοληθώ περαιτέρω με το αντικείμενο και ενδεχομένως να  εφαρμόσω τις γνώσεις μου στην αγορά εργασίας.

Categories: συστάσεις