Data Mining, a Course by Blog

Εργασία 03: Άννα Σκούντζου

April 9, 2008 · 5 Comments

Προεπεξεργασία και επιλογή δεδομένων από το training set.

Για να πάρουμε μία αρχική εικόνα για τα δεδομένα δημιουργούμε τα ιστογράμματα των μεταβλητών. Από τα διαγράμματα αυτά παρατηρούμε ότι το attribute 38 είναι περιττό στην ανάλυση των δεδομένων, καθώς έχει σταθερή τιμή και ίση με μηδέν, όπως και τα attributes 34 και τα 36 είναι περιττά, αφού εμφανίζουν μόνο μία φορά τιμή διάφορη του μηδενός. Μπορούμε να εξαιρέσουμε τα περιττά attributes ακολουθώντας τα εξής βήματα:

Παρατηρούμε επίσης, ότι για την πλειοψηφία των attributes οι περισσότερες τιμές βρίσκονται σε ένα διάστημα γύρω από την ελάχιστη τιμή. Σκόπιμο λοιπόν είναι, η διακριτοποίηση των χαρακτηριστικών αυτών, η μετατροπή τους δηλαδή, από αριθμητικά χαρακτηριστικά σε ονομαστικά. Για παράδειγμα, έστω ότι θέλουμε να μετατρέψουμε σε ονομαστικό χαρακτηριστικό το attribute 39, το οποίο λαμβάνει μόνο τις τιμές 0 και 1. Ακολουθούμε τα παρακάτω βήματα:

Επιλέγουμε apply και προκύπτει η διακριτοποίηση του χαρακτηριστικού.

Επιπλέον, το WEKA παρέχει τη δυνατότητα επιλογής ενός υποσυνόλου attributes. Για παράδειγμα, χρησιμοποιώντας όλο το training set, επιλέγουμε ως μέθοδο διήθησης τη CfsSubsetEvalC και ως μέθοδο αναζήτησης τη GeneticSearch και προκύπτει ένα υποσύνολο με τα 9 attributes που εμφανίζονται στην ακόλουθη εικόνα.

Categories: άλλο · εργασίες

Εργασία 02: Άννα Σκούντζου

March 30, 2008 · 1 Comment

Categories: άλλο

Εργασία 01: Άννα Σκούντζου

March 17, 2008 · 1 Comment

Μελέτη Παραβατικής Συμπεριφοράς

Το Υπουργείο Δικαιοσύνης διαθέτει πλήρη βάση δεδομένων για τους κρατούμενους του σωφρονιστικού συστήματος (δημογραφικά και κοινωνιολογικά στοιχεία, ιστορικό παραβατικών συμπεριφορών και προηγούμενων συλλήψεων, κλπ), βάσει της οποίας καθορίζεται το προφίλ που είχαν οι έγκλειστοι κατά την περίοδο πριν από την καταδίκη τους. Μελετώντας τα στοιχεία αυτά και ερευνώντας την ύπαρξη των χαρακτηριστικών αυτών στο γενικό πληθυσμό, μπορεί να προβεί σε προβλέψεις για τη μελλοντική εγκληματικότητα. Τα στοιχεία αυτά μπορούν να χρησιμοποιηθούν και από άλλους κοινωνικούς φορείς (Υπουργείο Παιδείας, Πρόνοια κλπ) για την πρόληψη και αντιμετώπιση παραβατικών συμπεριφορών.

Διαχείριση Ανθρώπινου Δυναμικού

Το Τμήμα Ανθρώπινου Δυναμικού της SIEMENS ενδιαφέρεται να προβεί σε προσλήψεις για την επάνδρωση των υπηρεσιών της εταιρείας. Διαθέτει αναλυτικά δημογραφικά (φύλο,οικογενειακή κατάσταση, κλπ) και βιογραφικά (εκπαίδευση, κατάρτιση, πρότερη εργασιακή εμπειρία, κλπ) στοιχεία, καθώς και πλήρες σύστημα αξιολόγησης των υπαλλήλων όλων των διοικητικών βαθμίδων. Τα στοιχεία αυτά χρησιμοποιούνται για να συγκροτήσουν το προφίλ του παραγωγικού στελέχους για κάθε βαθμίδα, προκειμένου, με βάση τις προβλέψεις για ανάγκες σε ανθρώπινο δυναμικό ανά βαθμίδα, να πραγματοποιήσει τις προσλήψεις του σήμερα, ώστε σε χρονικό ορίζοντα π.χ. πέντε ετών να έχει εξασφαλίσει τα απαιτούμενα σε αριθμό και προσόντα διοικητικά στελέχη.

Categories: εργασίες

Συστάσεις από Άννα Σκούντζου

March 12, 2008 · No Comments

Σπουδές 

2000-2006: Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο.
Διπλωματική εργασία: Ανάλυση Μη Επαναλαμβανόμενων Παραγοντικών Πειραμάτων.

2006-2008: Δ. Π. Μ. Σ. «Εφαρμοσμένες Μαθηματικές Επιστήμες» της Σχολής Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο.
Διπλωματική εργασία: Μεταθετικοί Έλεγχοι στην Ανάλυση Μη Επαναλαμβανόμενων Παραγοντικών Σχεδιασμών.

ΓΝΩΣΕΙΣ Η/Υ

 Γλώσσες Προγραμματισμού: C, Java, HTML.

 Προγράμματα: Latex, Mathematica, Matlab, Minitab, R, StatGraphics.

 MS Office Professional: Word, Excel, PowerPoint.

Ερευνητικά Ενδιαφέροντα

  • Statistical Design and Analysis of Experiments.
  • Statistical Quality Control (Off-Line QC).
  • Computational Statistics.

Επέλεξα να παρακολουθήσω το συγκεκριμένο μάθημα γιατί το Data Mining αποτελεί ένα ελκυστικό εργαλείο για την ανάλυση βάσεων δεδομένων και την εξαγωγή χρήσιμων πληροφοριών και συμπερασμάτων.

Categories: συστάσεις