Διάλεξη 02: Εργασία προς υποβολή

Δεδομένης και της χρονικής ευχέρειας που μας παρέχει η εθνική εορτή, η εργασία προς υποβολή ως τις 31 Μαρτίου, η οποία και προτείνετε να αναρτηθεί με τίτλο ‘Εργασία02: Όνομα_Επώνυμο‘ έχει δύο μέρη, τα εξής:

  • Δημιουργήστε και κάνετε upload αρχείο .arff από dataset της επιλογής σας (δεν είναι ανάγκη να είναι ιδιαίτερα μεγάλο). Μοναδικό κριτήριο για τη βαθμολόγηση αποτελεί η αναγνωσιμότητα του αρχείου από το weka (να μπορεί δηλαδή κανείς να ανοίξει το αρχείο με το συγκεκριμένο λογισμικό χωρίς σφάλματα). Το μέρος αυτό βαθμολογείται με μία μονάδα.
  •  Αναλύστε dataset της επιλογής σας (σε συμφωνία με τον καταμερισμό που έλαβε χώρα κατά τη διάρκεια της διάλεξης) χρησιμοποιώντας οπτικές μεθόδους εξερεύνησης δεδομένων (πρώτο και τελευταίο tab του λογισμικού). Παραδείγματα συμπερασμάτων περιλαμβάνουν ‘Το χαρακτηριστικό x δεν συνεισφέρει αρκετά στη διακριτοποίηση και ταξινόμηση των υποδειγμάτων, καθώς οι τιμές του είναι ομοιόμορφες για το σύνολο των τιμών της μεταβλητής στόχου ή είναι συγκεντρωμένες σχεδόν εξ’ ολοκλήρου σε μία τιμή της μεταβλητής αυτής, όπως φαίνεται και στο επισυναπτόμενο διάγραμμα’ ή ‘Το συνεχές χαρακτηριστικό y πιθανότατα χρήζει απαλειφής outliers, καθώς το σύνολο σχεδόν των τιμών του βρίσκεται συγκεντρωμένο σε πολύ μικρό εύρος του πεδίου τιμών, σύμφωνα και με το σχήμα‘. (παρακαλώ μην αντιγράψετε απλά το παραπάνω κείμενο, προσπαθήστε να εξηγήσετε με δικά σας λόγια αυτό που αντιλαμβάνεστε από τα διάφορα γραφήματα). Το μέρος αυτό βαθμολογείται με δύο μονάδες (άλλες δύο λαμβάνει κανείς απλά με την έγκαιρη υποβολή των παραπάνω). Τέλος, παράκληση, η απάντησή σας να είναι σχετικά σύντομη, δεν είναι ανάγκη να παρουσιάσετε ολόκληρο το σύνολο των συνεπαγόμενων συμπερασμάτων αλλά το πιο χαρακτηριστικό υποσύνολο αυτού.

Update: Περισσότερο αναλυτικές πληροφορίες περί .arff files μπορεί κανείς να βρει εδώ. Περί visualization διαβάστε και αυτό ή και αυτό.

Update 2: Συμπληρώνω τα όσα παρέλειψα να σας αναφέρω περί περισσοτέρων δυνατοτήτων οπτικοποίησης με νέο post.

Advertisements

4 responses to “Διάλεξη 02: Εργασία προς υποβολή

  1. Παραθέτω προσπάθεια έκφρασης των παρακάτω σχολίων μέσω μαθηματικού φορμαλισμού (παρακαλώ σχολιάστε)

    “Το χαρακτηριστικό x δεν συνεισφέρει αρκετά στη διακριτοποίηση και ταξινόμηση των υποδειγμάτων, καθώς οι τιμές του είναι ομοιόμορφες για το σύνολο των τιμών της μεταβλητής στόχου”

    -> Αν το χαρακτηριστικό είναι ασυσχέτιστο με τα υπόλοιπα το εξαιρούμε.
    Διαδικασία: Χρήση του Pearson Correlation test statistic (κανόνας / κατώφλι που να μας υποδεικνύει το πότε υπάρχουν ουσιαστικές ενδείξεις στα δεδομένα που να μας επιτρέπουν να απορρίψουμε την υπόθεση ότι ο συντελεστής συσχέτισης είναι μηδενικός)

    “Oι τιμές του χαρακτηριστικού είναι συγκεντρωμένες σχεδόν εξ’ ολοκλήρου σε μία τιμή της μεταβλητής αυτής”

    -> Έλεγχος δείκτη συγκέντρωσης (ή δείκτη ετερογένειας)
    Διαδικασία: Εύρεση π.χ. του Gini concentration index (αν π.χ. είναι πάνω από 90% εξαιρούμε το χαρακτηριστικό). Εναλλακτικά έλεγχος για μικρή τιμή του αντίστοιχου δείκτη ετερογένειας.

    Νομίζω όμως ότι τα παραπάνω εφαρμόζονται μόνο σε qualitative data.

    Για περισσότερα δείτε:

    http://www.amazon.com/Applied-Data-Mining-Statistical-Statistics/dp/0470846798/ref=pd_bbs_sr_1/105-8767263-0229212?ie=UTF8&s=books&qid=1185362067&sr=8-1

  2. @ΓΔ047: George, σωστά τα λες, θα δούμε και στο μάθημα τρόπους αυτοματοποίησης των παραπάνω, αλλά, επαναλαμβάνω, so far ασχολούμαστε με συμπεράσματα και μεθόδους οπτικοποίησης και μόνο, μην προτρέχεις :)
    Ενδιαφέρον και το σχόλιό σου περί gini index, εγώ ήξερα πως χρησιμοποιείται μόνο για ποσοτικοποίηση της κατανομής εισοδημάτων σε ένα πληθυσμό, όπου τιμή 0 παίρνει για παράδειγμα η ιδεατή χώρα όπου όλοι οι κάτοικοι έχουν ίσο εισόδημα, ενώ 1 η χώρα της οποία όλος ο πλούτος είναι συγκεντρωμένος σε ένα και μόν οάτομο.

  3. To βιβλίο που ανέφερα περιγράφει τον υπολογισμό των δεικτών και περιλαμβάνεται στα βιβλία που σου έδωσα. Δεν ξέρω κατά πόσον είναι εύκολη η χρήση του σε κατηγορικές μεταβλητές.

  4. Pingback: Εργασία 02: Βαθμολόγηση « Data Mining, a Course by Blog

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s