Data Mining, a Course by Blog

Εργασία 01-Ηρώ Ζαχαρίδου

March 19, 2008 · 2 Comments

Εφαρμογή #1:

Μια πιθανή εφαρμογή του data mining θα μπορούσε να είναι στον χώρο των πανεπιστημιακών ιδρυμάτων, σε ότι αφορά την πορεία των φοιτητών καθώς και την σταδιοδρομία των αποφοίτων. Για παράδειγμα τα ιδρύματα θα μπορούσαν χρησιμοποιώντας τεχνικές data mining να εξάγουν πληροφορίες για τα μαθήματα ή τους κλάδους στους οποίους κάποιοι φοιτητές έχουν αδυναμία, χρησιμοποιώντας δεδομένα για τις επιλογές μαθημάτων ενός φοιτητή , τις φορές που χρειάστηκε να εξεταστεί σε ένα μάθημα μέχρι να επιτύχει ή την αλλαγή μαθημάτων από έτος σε έτος. Οι πληροφορίες αυτές στη συνέχεια θα μπορούσαν να αξιοποιηθούν ώστε αρμόδιοι φορείς να βοηθήσουν τους φοιτητές παρέχοντας τους βοηθητική βιβλιογραφία ή προτείνοντας τους μαθήματα τα οποία να είναι συναφή καθώς και συμβουλευτικές υπηρεσίες , ενώ ακόμη θα μπορούσε να γίνει πρόβλεψη για το χρόνο ολοκλήρωσης των σπουδών ενός φοιτητή ή τον αριθμό των σπουδαστών που ενδέχεται να εγγραφούν σε κάποιο μάθημα. Επίσης θα μπορούσε να αποστέλλεται ενημερωτικό υλικό σε φοιτητές και αποφοίτους σχετικά με ευκαιρίες εργασίας, μεταπτυχιακά προγράμματα ή ερευνητική δραστηριότητα γύρω από τις περιοχές ενδιαφέροντος τους.

Εφαρμογή #2:

Οι αλγόριθμοι εξόρυξης πληροφορίας μπορούν επίσης να χρησιμοποιηθούν στον εντοπισμό των παραγόντων που επηρεάζουν τα ποσοστά επιβίωσης ατόμων που έχουν κάνει μεταμόσχευση οργάνων σε βάθος χρόνου. Στην περίπτωση αυτή οι μετρήσιμες συνιστώσες θα μπορούσαν να είναι για παράδειγμα η ηλικία, το φύλο και η φυσική κατάσταση του δότη( π.χ. εάν είχε προηγούμενα προβλήματα υγείας) καθώς επίσης και παράμετροι όπως το χρονικό διάστημα για το οποίο τα όργανα προς μεταμόσχευση διατηρούνται στον πάγο πριν την επέμβαση ή ο χρόνος που μεσολαβεί μέχρι την τοποθέτηση των μοσχευμάτων στον πάγο καθώς και η διάρκεια της επέμβασης.

Categories: άλλο

Ερωτήσεις στο 2ο μάθημα

March 19, 2008 · 1 Comment

 1) Πώς ορίζεται μια ordinal μεταβλητή σε arff αρχείο;

2) Πώς εντοπίζονται οι τιμές outlier (μόνο οπτικά);

3) Πώς μπορείς να δεις για κάποιο instance με τιμή outlier σε κάποιο χαρακτηριστικό, τι τιμές έχει στα υπόλοιπα; Υπάρχει το λεγόμενο parallel coordinates view;

4) Πώς εξαιρώ έναν outlier από το dataset; Εξαιρώ όλο το instance ή σβήνω τη συγκεκριμένη τιμή της attribute μετατρέποντάς τη σε missing value;

Υ.Γ. Θα πρότεινα να δημιουργηθεί κατηγορία Ερωτήσεις/Απορίες ή κάτι τέτοιο, όπου θα εκφράζουμε ερωτήματα.

Categories: ερωτήσεις

PNC2 Rule Induction System

March 19, 2008 · No Comments

The PNC2 Rule Induction System is a free machine learning software tool, that automatically induces rules from your data using the newly invented PNC2 Cluster Algorithm. An integrated parameter tuning component allows an easy adjustment of the algorithm’s behaviour to your particular data without any further knowledge.

Categories: πηγές

Οπτική διερεύνηση δεδομένων

March 19, 2008 · 2 Comments

Οι δυνατότητες οπτικής διερεύνησης δεδομένων του Weka δεν με άφησαν και με το στόμα ανοιχτό. Επίσης οι περιγραφικοί στατιστικοί δείκτες των attributes είναι μάλλον φτωχοί (έχει διάμεσο, επικρατούσα τιμή /mode, λοξότητα, κύρτωση, ποσοστημόρια;). Πώς διαπιστώνεται ότι μια τιμή είναι στα σίγουρα outlier (βάσει του τύπου); Στο visualization φαίνονται τα correlation scatterplots αλλά που είναι ο correlation matrix ώστε να δούμε και τις τιμές;.  

Θα πρότεινα σε όσους ενδιαφέρονται να έχουν στη «φαρέτρα» τους το εργαλείο GGobi http://www.ggobi.org. Το GGobi βοηθά στην οπτική διερεύνηση πολυμεταβλητών δεδομένων μέσω δυναμικών και interactive γραφικών εργαλείων όπως tours, scatterplots (2D, 3D), barcharts, parallel coordinates plots, time series plots κλπ. Ενδεικτικά αναφέρω ότι δίνει τη δυνατότητα να ανοιχθούν πολλά διαφορετικά παράθυρα με διάφορες απεικονίσεις των δεδομένων και στη συνέχεια με ένα brush tool να χρωματίζεις μια ομάδα ή και μια μοναδική instance και αυτόματα να βλέπεις στα άλλα διαγράμματα με το ίδιο χρώμα τη θέση της. (σημειώτεον ότι μπορεί να εμφανίζει και labels ώστε να ξέρεις για ποιά instance πρόκειται). Συγκεκριμένα με το parallel coordinates plot μπορείς εύκολα να δεις τι τιμές έχει μια instance που είναι outlier για μια attribute σε όλες τις υπόλοιπες.

Δείτε π.χ. το Brushing video στη σελίδα http://www.ggobi.org/docs/parallel-coordinates/

parallel1.jpg 

Τέλος να πω για τους γνώστες της R ότι υπάρχει το package rggobi μέσω του οποίου κάνει κανείς χρήση του GGobi από την R. H χρήση του μπορεί να γίνει μέσω του γραφικού package Rattle (data mining GUI for R), το οποίο παρέχει πρόσβαση (με γραφικό περιβάλλον) σε διάφορα data mining και statistical packages της R.

Categories: σημειώσεις