Οπτική διερεύνηση δεδομένων

Οι δυνατότητες οπτικής διερεύνησης δεδομένων του Weka δεν με άφησαν και με το στόμα ανοιχτό. Επίσης οι περιγραφικοί στατιστικοί δείκτες των attributes είναι μάλλον φτωχοί (έχει διάμεσο, επικρατούσα τιμή /mode, λοξότητα, κύρτωση, ποσοστημόρια;). Πώς διαπιστώνεται ότι μια τιμή είναι στα σίγουρα outlier (βάσει του τύπου); Στο visualization φαίνονται τα correlation scatterplots αλλά που είναι ο correlation matrix ώστε να δούμε και τις τιμές;.  

Θα πρότεινα σε όσους ενδιαφέρονται να έχουν στη «φαρέτρα» τους το εργαλείο GGobi http://www.ggobi.org. Το GGobi βοηθά στην οπτική διερεύνηση πολυμεταβλητών δεδομένων μέσω δυναμικών και interactive γραφικών εργαλείων όπως tours, scatterplots (2D, 3D), barcharts, parallel coordinates plots, time series plots κλπ. Ενδεικτικά αναφέρω ότι δίνει τη δυνατότητα να ανοιχθούν πολλά διαφορετικά παράθυρα με διάφορες απεικονίσεις των δεδομένων και στη συνέχεια με ένα brush tool να χρωματίζεις μια ομάδα ή και μια μοναδική instance και αυτόματα να βλέπεις στα άλλα διαγράμματα με το ίδιο χρώμα τη θέση της. (σημειώτεον ότι μπορεί να εμφανίζει και labels ώστε να ξέρεις για ποιά instance πρόκειται). Συγκεκριμένα με το parallel coordinates plot μπορείς εύκολα να δεις τι τιμές έχει μια instance που είναι outlier για μια attribute σε όλες τις υπόλοιπες.

Δείτε π.χ. το Brushing video στη σελίδα http://www.ggobi.org/docs/parallel-coordinates/

parallel1.jpg 

Τέλος να πω για τους γνώστες της R ότι υπάρχει το package rggobi μέσω του οποίου κάνει κανείς χρήση του GGobi από την R. H χρήση του μπορεί να γίνει μέσω του γραφικού package Rattle (data mining GUI for R), το οποίο παρέχει πρόσβαση (με γραφικό περιβάλλον) σε διάφορα data mining και statistical packages της R.

Advertisements

2 responses to “Οπτική διερεύνηση δεδομένων

  1. Πολύ ενδιαφέρον το GGobi, Γιώργο, συνέχισε να μας δίνεις υλικό που δεν το γνωρίζει ο διδάσκοντας, είσαι θησαυρός για το μάθημα.
    Αν προλάβουμε, ίσως αναλάβεις στο τέλος να μας κάνεις μία διάλεξη περί R, ggobi και οτιδήποτε άλλου προκύψει.

    Περί weka τώρα, ένα εργαλείο που επιλέγεται για διδασκαλία οφείλει να είναι πλήρες, ολοκληρωμένο και συνάμα εύκολα κατανοητό, simplistic. Οι δείκτες πχ που αναφέρεις σωστά ως στοιχειώδεις είναι ικανοί για μία άμεση θεώρηση του μεγέθους, χωρίς δεύτερη σκέψη.
    Θεωρώ πως το weka συνεχίζει να έχει τη βέλτιστη τοποθέτηση στο trade-off μεταξύ δυνατοτήτων και ευκολίας κατανόησης.

  2. Έχω και το βιβλίο που αναφέρεται στο site http://www.ggobi.org/book/index.html . Δεν θυμάμαι αν το είχα συμπεριλάβει στα βιβλία που σου έδωσα. Αν όχι πες μου να το φέρω. Ευχαριστώ για την πρόταση αλλά δεν είμαι καλός στις διαλέξεις. Ό,τι νομίζω ότι είναι ενδιαφέρον θα το κοινοποιώ μέσω του blog που ήταν καταπληκτική ιδέα – όσο και τα video των διαλέξεων.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s