Εργασία 03: Αγάθου Θεώνη

Το dataset που εξετάζουμε αυτή τη βδομάδα, έχει 40 numeric attributes (attr1,…,attr39,output) εκ των οποίων η μεταβλητή στόχος είναι η output και έχουμε επίσης 2528 instances. Λόγω του μεγάλου όγκου των υποδειγμάτων, η εξαντλητική επεξεργασία δεδομένων είναι σκόπιμο να αποφευχθεί, ώστε να κερδίσουμε τόσο χρόνο όσο και αξιοπιστία του αποτελέσματος. Έτσι, αναζητούμε μια βέλτιστη σύγκριση των δεδομένων προς λήψιν όσο το δυνατόν πιο έγκυρων πληροφοριών. Με χρήση του λογισμικού weka προκύπτουν γρήγορα τα εξής συμπεράσματα:

  • Οι μεταβλητές attr6, attr7, attr34, attr35, attr36, attr38, attr39 είναι binary μεταβλητές, αφού οι τιμές που παίρνουν είναι είτε μηδέν είτε ένα.
  • Δεν έχουμε καμία missing value.
  • Οι attr16 και attr19 είναι δύο από τις μεταβλητές που δίνουν  ΠΑΡΟΜΟΙΑ πληροφορία:
  • img7-erg031

    img8-erg031

    Πειραματιζόμενοι, είναι εύκολο να μετατρέψουμε τη numeric μεταβλητή output (καθώς και τις λοιπές μεταβλητές)σε nominal, είτε από την επιλογή: Filter–>Unsupervised–>Attribute–>Discretize, είτε από την επιλογή: Filter–>Unsupervised–>Attribute–>Numeric to Nominal, συμπληρώνοντας κατάλληλα στο weka object editor ποιες μεταβλητές ακριβώς μας ενδιαφέρει να μετατρέψουμε:

    starting-image-031

  • Έτσι, βλέπουμε ότι (ως προς το υπό μελέτη χαρακτηριστικό, output) οι 1929 από τις παρατηρήσεις κατηγοριοποιούνται στο διάστημα (-inf, 0.1] (μπλέ), ενώ οι υπόλοιπες 599 βρίσκονται στο διάστημα (0.9,inf) (πράσινο).

img2-erg03

  • Το attr38 δεν αποτελεί καθόλου ισχυρό ‘πληροφοριοδότη’ για το χαρακτηριστικό που μας ενδιαφέρει, αφού όλες οι παρατηρήσεις παίρνουν μηδενική σ’αυτό τιμή -βρίσκονται στο διάστημα [0,0]- (μπορούμε να πούμε το ίδιο και για το attr34, για το οποίο μόνο μια παρατήρηση παίρνει τιμή 1, ενώ όλες οι άλλες την τιμή μηδέν).
  • Αυτό, άλλωστε, γίνεται προφανές, εάν ανοίξουμε το unsupervised filter –> Remove ή RemoveUseless, το οποίο απομακρύνει τα κατά πολύ ή καθόλου αποκλίνοντα χαρακτηριστικά. Επιτρέποντας μέγιστη απόκλιση/σύγκλιση π.χ. 99%, βλέπουμε ότι το attr38 ‘σβήνεται’ από τη λίστα των attributes:

img6-erg03

Με το φίλτρο AddExpression (Filter–>Unsupervised–>Attribute–>AddExpression), μπορούμε να διαφοροποιήσουμε ορισμένα χαρακτηριστικά ως προς τη σύγκρισή τους με άλλα, για να διευκολυνθούμε (όπου αυτό είναι δυνατόν) στο αποτέλεσμά μας. Μπορούμε δηλαδή να προσθέσουμε attributes, παραγόμενα από άλλα attributes (για παράδειγμα υπολογίζοντας το ημίτονο, ή το τετράγωνο αυτών), όπως συμβαίνει παρακάτω:

img12-erg03

  • Επιλέγοντας π.χ. ως πρότυπο attribute το attr10, δημιουργούμε το attr(α10^2) ή το attr(sin(α10)).

Κλείνοντας, για να περιορίσουμε εν τέλει τον αριθμό των attributes που θα συγκρίνουμε και παράλληλα να έχουμε αξιόπιστο αποτέλεσμα, επιλέγουμε από το μενού του weka explorer το Select attributes.

img3-erg03

  • Επιλέγοντας ως Attribute Evaluator το CfsSubsetEval και ως Search Method την LinearForwardSelection, το weka εντοπίζει τα 7 attributes που θεωρεί ότι θα μας δώσουν εξίσου αξιόπιστο αποτέλεσμα με εκείνο που θα μας έδινε η ίδια μέθοδος αν είχαμε 40 attributes. Αυτό βέβαια δε σημαίνει ότι είναι και η ιδανική επιλογή. Μπορεί να υπάρχουν μέθοδοι που να αποδίδουν ακόμα λιγότερα (του 7) attributes, όπως επίσης και άλλες που να αποδίδουν περισσότερα attributes, π.χ. η μέθοδος RankSearch υπό το ίδιο Attribute Evaluator, δίνει 11 selected attributes:

img5-erg03

Στο ίδιο ακριβώς συμπέρασμα θα μπορούσαμε να καταλήξουμε αν παραμέναμε στη χρήση φίλτρων, ακολουθούμενοι τις εξής επιλογές: Filter–>Supervised–>Attribute–>AttributeSelection και στη συνέχεια συμπληρώνοντας στο weka object editor τις αντίστοιχες (με τις παραπάνω) μεθόδους διερεύνησης.

Advertisements

2 responses to “Εργασία 03: Αγάθου Θεώνη

  1. Ολοκληρωμένη υποβολή, άριστα 5/5.

    Αναφορικά με το επιπλέον χαρακτηριστικό που όρισες, έχεις κάποιες ιδέες για το ποιο τέτοιο μπορεί να είχε χρησιμότητα;

  2. Δεν είχα κάτι συγκεκριμένο στο μυαλό μου είναι η αλήθεια….απλώς το δοκίμασα, μου άρεσε και σκέφτηκα να το αναφέρω… Δε νομίζω όμως ότι θα το χρησιμοποιήσω παρακάτω στην εργασία μου :)

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s