Ergasia03: Kanavou Eleftheria

Σκοπός του data mining είναι να διαχειρίζεται πληθώρα πληροφοριών από μεγάλα  data sets. Σε αυτήν την εργασία επεξαργαζόμαστε το train.arff. Παρατηρούμε ότι έχουμε 39 attributes, οπότε στα πρώτα βήματα μας ακολουθούμε κάποιες διαδικασίες για να ελλατωθούν και να διευκολύνουμε την εξόρυξη πληροφορίας από το δάτα σετ αυτό.

Κατ’ αρχήν ένα πολύ σημαντικό βήμα είναι η οπτική διερέυνηση των δεδομένων μας. Ανοίγοντας, λοιπόν, το train.arff με το weka, μπορούμε να δούμε όλα τα ιστογράμματα των attributes. Είναι εμφανές πως τα attributes 34 και 38 δεν προσφέρουν κάποια πληροφορία, οπότε μπορούμε να τα διαγράψουμε, επιλέγοντάς τα και πατώντας remove.

Παρατηρόυμε επίσης ότι σε κάποια χαρακτηριστικά υπάρχουν πολλά missing values. Για να λάβουμε πιο αξιόπιστες πληροφορίες από αυτά, μπορούμε να αντικατάστησουμε όπου χρειάζεται την ελλειπούσα τιμή με τη μέση τιμή του χαρακτηριστικού, χρησιμοποιώντας την εντολή replace missing values.

Πολλά χαρακτηριστικά περιέχουν μεγάλο ποσοστό outliers. Καλό θα ήταν να απαλλαχθούμε από αυτά με τη βοήθεια της εντολής Νumeric Cleaner.

Ίσως χρειαστεί προς διευκόλυνσή μας να διακριτοποιήσουμε κάποια attributes, με την εντολή discretize.

Επειδή σε αρκετά χαρακτηριστικά εμφανίζεται μεγάλη συγκέντρωση των μετρήσεων σε κάποιο διάστημα, ίσως χρειαστεί να μετατρέψουμε το διάστημα ομαδοποίησης των μετρήσεων.

Γενικότερα μπορούμε να πειραματιστούμε με διάφορες εντολές του weka και να χρησιμοποιήσουμε εκείνες που λειτουργούν προς διευκόλυνσή μας. 

Advertisements

2 responses to “Ergasia03: Kanavou Eleftheria

  1. MIssing values δεν υπάρχουν στο συγκεκριμένο dataset, αυτό καταγράφηκε και στις περισσότεερς εργασίες. Κατά τα λοιπά, σωστές οι παρατηρήσεις σου, αν και θα μπορούσαν να ήταν περισσότερες και επίσης υλοποιημένες.
    Ωστόσο, σε συνδυασμό με την ασάφεια των όσων αναφέρθηκαν στην εκφώνηση και στην εκφώνηση του θέματος, η βαθμολογία σου είναι 5/5.

  2. Pingback: Εργασία 03: βαθμολόγηση « Data Mining, a Course by Blog

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s