Data Mining, a Course by Blog

Ergasia03: Kanavou Eleftheria

April 7, 2008 · 2 Comments

Σκοπός του data mining είναι να διαχειρίζεται πληθώρα πληροφοριών από μεγάλα  data sets. Σε αυτήν την εργασία επεξαργαζόμαστε το train.arff. Παρατηρούμε ότι έχουμε 39 attributes, οπότε στα πρώτα βήματα μας ακολουθούμε κάποιες διαδικασίες για να ελλατωθούν και να διευκολύνουμε την εξόρυξη πληροφορίας από το δάτα σετ αυτό.

Κατ’ αρχήν ένα πολύ σημαντικό βήμα είναι η οπτική διερέυνηση των δεδομένων μας. Ανοίγοντας, λοιπόν, το train.arff με το weka, μπορούμε να δούμε όλα τα ιστογράμματα των attributes. Είναι εμφανές πως τα attributes 34 και 38 δεν προσφέρουν κάποια πληροφορία, οπότε μπορούμε να τα διαγράψουμε, επιλέγοντάς τα και πατώντας remove.

Παρατηρόυμε επίσης ότι σε κάποια χαρακτηριστικά υπάρχουν πολλά missing values. Για να λάβουμε πιο αξιόπιστες πληροφορίες από αυτά, μπορούμε να αντικατάστησουμε όπου χρειάζεται την ελλειπούσα τιμή με τη μέση τιμή του χαρακτηριστικού, χρησιμοποιώντας την εντολή replace missing values.

Πολλά χαρακτηριστικά περιέχουν μεγάλο ποσοστό outliers. Καλό θα ήταν να απαλλαχθούμε από αυτά με τη βοήθεια της εντολής Νumeric Cleaner.

Ίσως χρειαστεί προς διευκόλυνσή μας να διακριτοποιήσουμε κάποια attributes, με την εντολή discretize.

Επειδή σε αρκετά χαρακτηριστικά εμφανίζεται μεγάλη συγκέντρωση των μετρήσεων σε κάποιο διάστημα, ίσως χρειαστεί να μετατρέψουμε το διάστημα ομαδοποίησης των μετρήσεων.

Γενικότερα μπορούμε να πειραματιστούμε με διάφορες εντολές του weka και να χρησιμοποιήσουμε εκείνες που λειτουργούν προς διευκόλυνσή μας. 

Categories: εργασίες

2 responses so far ↓

  • George Tziralis // April 7, 2008 at 11:12 pm

    MIssing values δεν υπάρχουν στο συγκεκριμένο dataset, αυτό καταγράφηκε και στις περισσότεερς εργασίες. Κατά τα λοιπά, σωστές οι παρατηρήσεις σου, αν και θα μπορούσαν να ήταν περισσότερες και επίσης υλοποιημένες.
    Ωστόσο, σε συνδυασμό με την ασάφεια των όσων αναφέρθηκαν στην εκφώνηση και στην εκφώνηση του θέματος, η βαθμολογία σου είναι 5/5.

  • Εργασία 03: βαθμολόγηση « Data Mining, a Course by Blog // April 7, 2008 at 11:36 pm

    [...] Ελευθερία Καναβού: 5/5 [...]

Leave a Comment