Data Mining, a Course by Blog

ΕΡΓΑΣΙΑ06: ΚΑΝΑΒΟΥ ΕΛΕΥΘΕΡΙΑ

May 12, 2008 · 1 Comment

Σε αυτήν την εργασία πρέπει να αναρτήσουμε τη διαδικασία με την οποία μετατρέπουμε nominal attributes ή class σε numeric και αντιστρόφως.

Σε εμένα έχει ανατεθεί το αρχείο με τα δεδομένα iris.arff

Σε αυτά τα data έχουμε numeric attributes και nominal class.

Έστω ότι θέλουμε να κάνουμε classification.

Πηγαίνοντας classify -> rules βλέπουμε ότι δεν τρέχουν οι αλγόριθμοι M5Rules και Prism.

O M5Rules επεξεργάζεται μόνο numeric class,

οπότε για να τρέξει στα δεδομένα μας πρέπει να μετατρέψουμε τη nominal class σε numeric. Ο μόνος τρόπος να γίνει αυτό είναι να την κάνουμε binary μέσω του φίλτρου NominalToBinary (Preprocess->choose->filters->unsupervised->attribute->NominalToBinary) και αλλάζοντας τη μεταβλήτη στόχο (Class) από class σε sepallength - για παράδειγμα (μετά επαναφέρουμε το αρχικό class).

 

Τότε όμως χάνεται η πληροφορία που είχαμε στη μεταβλητή στόχο καθώς το φίλτρο αυτό τη σπάει σε τρεις διαφορετικές numeric (binary) atributes (όσο δηλαδή και το distinct της αρχικής μας nominal class).

 

O M5Rules, πλέον, τρέχει αλλά έχουμε χάσει τη μεταβλητή στόχο μας, και την πληροφορία που περιέιχε πριν τη μετατροπή.

 Καταλήγουμε λοιπόν στο συμπέρασμα πως δεν έχει νόημα η μετατροπή της nominal class σε numeric, απλά δεν θα χρησιμοποιήσουμε τον αλγόριθμο αυτό.

 

O αλγόριθμος Prism δεν δέχεται numeric attributes,

 

οπότε πρέπει να μετατρέψουμε τις numeric attributes σε nominal. Αυτό γίνεται μέσω του φίλτρου NumericToNominal (Preprocess->choose->filters->unsupervised->attribute->NumericToNominal).

οπότε μπορούμε, πλέον, να εφαρμόσουμε τον αλγόριθμο Prism.

Categories: άλλο · εργασίες

Ερωτηση

April 13, 2008 · 1 Comment

Όταν αποθηκεύουμε ένα αρχειο excel ως csv, οι μετρήσεις στα instances χωρίζονται με “;” αντί για “,” με αποτέλεσμα να μην το ανοίγει το weka. Όταν είχαμε μικρό data set, το πρόβλημα λυνόταν με το Edit->Replace. Τώρα με τόσα instances κάνω replace και κολλάει σε κάποιο σημείο. Τι να κάνω?

Categories: ερωτήσεις

Ergasia03: Kanavou Eleftheria

April 7, 2008 · 2 Comments

Σκοπός του data mining είναι να διαχειρίζεται πληθώρα πληροφοριών από μεγάλα  data sets. Σε αυτήν την εργασία επεξαργαζόμαστε το train.arff. Παρατηρούμε ότι έχουμε 39 attributes, οπότε στα πρώτα βήματα μας ακολουθούμε κάποιες διαδικασίες για να ελλατωθούν και να διευκολύνουμε την εξόρυξη πληροφορίας από το δάτα σετ αυτό.

Κατ’ αρχήν ένα πολύ σημαντικό βήμα είναι η οπτική διερέυνηση των δεδομένων μας. Ανοίγοντας, λοιπόν, το train.arff με το weka, μπορούμε να δούμε όλα τα ιστογράμματα των attributes. Είναι εμφανές πως τα attributes 34 και 38 δεν προσφέρουν κάποια πληροφορία, οπότε μπορούμε να τα διαγράψουμε, επιλέγοντάς τα και πατώντας remove.

Παρατηρόυμε επίσης ότι σε κάποια χαρακτηριστικά υπάρχουν πολλά missing values. Για να λάβουμε πιο αξιόπιστες πληροφορίες από αυτά, μπορούμε να αντικατάστησουμε όπου χρειάζεται την ελλειπούσα τιμή με τη μέση τιμή του χαρακτηριστικού, χρησιμοποιώντας την εντολή replace missing values.

Πολλά χαρακτηριστικά περιέχουν μεγάλο ποσοστό outliers. Καλό θα ήταν να απαλλαχθούμε από αυτά με τη βοήθεια της εντολής Νumeric Cleaner.

Ίσως χρειαστεί προς διευκόλυνσή μας να διακριτοποιήσουμε κάποια attributes, με την εντολή discretize.

Επειδή σε αρκετά χαρακτηριστικά εμφανίζεται μεγάλη συγκέντρωση των μετρήσεων σε κάποιο διάστημα, ίσως χρειαστεί να μετατρέψουμε το διάστημα ομαδοποίησης των μετρήσεων.

Γενικότερα μπορούμε να πειραματιστούμε με διάφορες εντολές του weka και να χρησιμοποιήσουμε εκείνες που λειτουργούν προς διευκόλυνσή μας. 

Categories: εργασίες

Ergasia 02: Kanavou Eleftheria

March 31, 2008 · 2 Comments

Categories: εργασίες

Εργασία01: Καναβού Ελευθερία

March 13, 2008 · 5 Comments

Εφαρμογή Αλγόριθμων Εξόρυξης Πληροφορίας με ερευνητική εστίαση:

Η μέθοδος data mining μπορεί να εφαρμοσθεί στην έρευνα κατά πόσο είναι πιθανό ένα παιδί να γεννηθεί με σύνδρομο down. Δεδομένα θα αποτελούν: η διάμετρος του αυχένα εμβρύου, το πλάτος της μύτης εμβρύου, ηλικία μητέρας, ιστορικό υγείας της μητέρας, ιστορικό υγείας του πατέρα, κληρονομικές ασθένειες γονέων και προγόνων. Σκοπός είναι ο εντοπισμός των κυριότερων παραγόντων που οδηγούν στη γέννεση ενός ατόμου με σύνδρομο Down και η η έγκαιρη πληροφόρηση των γόνεων σχετικά με την πιθανότητα που υπάρχει να γεννηθεί το παιδί τους με το σύνδρομο αυτό.

Επιχειρηματική εφαρμογή Αλγόριθμων Εξόρυξης Πληροφορίας:

Μια εταιρεία Α μπορεί να εφαρμόσει τη μέθοδο data mining προς αξιολόγηση συμφερόντων και κερδών από τη συχώνευσή της με μια άλλη εταιρεία Β. Κριτήρια μπορούν να αποτελούν η αγοραστική δύναμη της εταιρείας Α, τα κέρδη της εταιρείας Β, η ευημερία της εταιρείας Β, το πελατολόγιο/αγοραστικό κοινό της εταιρείας Β, η ποιότητα της εταιρείας Β. Σκοπός η μεγιστοποίση των κερδών της εταρείας Α έπειτα της συχώνευσής της με την κατάλληλη εταιρεία Β. 

  

Categories: εργασίες

ΣΥΣΤΑΣΕΙΣ από Καναβού Ελευθερία

March 3, 2008 · No Comments

ΣΠΟΥΔΕΣ:

2007 - σήμερα: Διατμηματικό Μεταπτυχιακό Πρόγραμμα στο Εθνικό Μετσόβιο Πολυτεχνείο , Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, με τίτλο Εφαρμοσμένες Μαθηματικές Επιστήμες και κατεύθυνση: Στατιστική.

2002 - 2007: Σπουδές στη Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών του Εθνικού Μετσόβιου Πολυτεχνείου με ροές: Στατιστική - Μηχανική

ΓΝΩΣΕΙΣ Η/Υ - ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ:

Pascal, C, JAVA, Matlab, Mathematica, HTML, Minitab, Statgraphics, Spss, R, Microsoft Office (ECDL).

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ:

Επιχειρησιακή Έρευνα - Διαχείριση Έργων (Project Networks, CPM/PERT, project crashing, linear programming)

ΕΡΓΑΣΙΑΚΗ ΕΜΠΕΙΡΙΑ:

  • Ενισχυτική διδασκαλία κατ’ οίκον σε μαθητές Γυμνασίου - Λυκείου (2003 - σήμερα)
  • Πρακτική άσκηση στο Ινστιτούτο Μεσογειακών Δασικών Οικοσυστημάτων και Τεχνολογίας Δασικών Προϊόντων στον Τομέα Στατιστικής Επεξεργασίας Δεδομένων (31/10/2006 - 30/11/2006)

…………………………………………………………………….

Οι Αλγόριθμοι Εξόρυξης Πληροφορίας (data mining) είναι μια επιστήμη που γνωρίζει μεγάλη άνθιση στις μέρες μας, δεδομένου της σύγχρονης οργάνωσης των επιχειρήσεων και των πληροφοριακών συστημάτων που χρησιμοποιούνται σε όλους τους χώρους. Η πληθώρα των πληροφοριών με τις οποίες ερχόμαστε καθημερίνα σε επαφή είναι τέτοια που καθιστά απαραίτητη τη χρήση εξελιγμένων τεχνολογιών όπως το data mining. Πιστεύω ότι η παρακολούθηση ενός μαθήματος σχετικού με τον τομέα των Αλγορίθμων Εξόρυξης Πληροφορίας θα μου προσφέρει τις βάσεις για περαιτέρω ενασχόληση με μία τόσο χρήσιμη και αναπτυσσόμενη επιστήμη, δίνοντάς μου τα απαραίτητα εφόδια έτσι ώστε να ανταπεξέλθω στο ανταγωνιστικό περιβάλλον της αγοράς εργασίας σήμερα.

Categories: συστάσεις