Data Mining, a Course by Blog

Περισσότερες δυνατότητες οπτικοποίησης στο weka

March 20, 2008 · 2 Comments

Το weka παρέχει κάποιες ακόμα δυνατότητες οπτικοποίησης που παρέλειψα να σας επισημάνω κατά τη διάρκεια της διάλεξης. Σας τις αναφέρω αναλυτικά εδώ μέσω παραδείγματος, ερωτήσεις και απορίες όπως πάντα δεκτές, είτε στα σχόλια είτε δια ζώσης.

Ανοίγω το αρχείο soybean.arff στον explorer του weka επιλέγω το πρώτο από δεξιά tab ‘Visualize’. Εμφανίζονται, όπως γνωρίζουμε, scatter plots για κάθε πιθανό ζεύγος μεταβλητών. ΑΝ τώρα κάνετε τη μαγική κίνηση (που δεν πειχειρήσαμε στη διάλεξη)΄διπλού κλικ΄πάνω σε ένα οποιοδήποτε γράφημα, για παράδειγμα στο date vs class που εμφανίζεται στη θέση [1,1] του ΄πίνακα΄, τότε εμφανίζεται το γράφημα σε νέο παράθυρο, σαν αυτό που παρουσιάζω εδώ, με αρκετές επιπλέον δυνατότητες.

picture-1.png

(Δοκιμάστε το jitter, είναι πολύ χρήσιμο σε αυτή την περίπτωση.) Έχουμε πλέον τη δυνατότητα να διακρίνουμε το καθένα scatter plot με μεγαλύτερη ανάλυση, ενώ στη δεξιά στήλη βλέπουμε όλα τα scatter plots. Επίσης, μπορούμε να επιλέξουμε ποια μεταβλητή θέλουμε να υπάρχει στον άξονα-x, στον άξονα-y και ποια θα είναι αυτή που θα καθορίζει τη χρωματική κλίμακα.

Ιδιαίτερα ενδιαφέρουσα είναι ωστόσο και η δυνατότητα που μας παρέχει το τέταρτο drop down menu, με την αρχική ένδειξη ‘Select Instance’. Επιλέξτε για παράδειγμα το rectangle, ορίστε μία ορθογώνια περιοχή μέσα στο διάγραμμα και πατήστε ‘Submit’. Στο σχήμα που ακολουθεί, βλέπετε για παράδειγμα πολλαπλές επιλογές ορθογωνίων (εφικτές πριιν πατήσει κανείς το’Submit’).

picture-2.png

Αυτομάτως το διάγραμμα παρουσιάζει πλέον μόνο τα σημεία που περικλείονται στην επιλογή μας, επίσης όχι μόνο στο τρέχων διάγραμμα, αλλά και σε όλα τα υπόλοιπα που διακρίνονται στη δεξιά στήλη. Πατήστε σε κάποιο από αυτά για να το φέρετε στο προσκήνιο.

picture-3.png

Το χαρακτηριστικό αυτό είναι συχνά ιδιαίτερα χρήσιμο, για να αντιληφθεί κανείς για παράδειγμα αν κάποιο instance που μπορεί να χαρακτηριστεί ως outlier σε συγκεκριμένη επιλογή αξόνων, δικαιολογεί αυτό τον χαρακτηρισμό γενικότερα ή όχι. Τα παραπάνω ίσως είναι προαιρετικά χρήσιμα και για την Εργασία 02.

Categories: πηγές

2 responses so far ↓

  • ΓΔ 047 // March 20, 2008 at 5:49 pm

    Η ένστασή μου είναι ότι η διάγνωση των outliers θα έπρεπε να γίνεται βάσει των τύπων (βλέπε: http://en.wikipedia.org/wiki/Outlier ) και όχι οπτικά.

  • George Tziralis // March 20, 2008 at 5:54 pm

    Σωστά. Απλά τώρα έχουμε δει μόνο περί οπτικοποίησης και δυνατοτήτων αυτής. Θα δούμε και σχετικούς αλγορίθμους.
    Πάντως, θα συνιστούσα να μην υποτιμάτε γενικότερα την οπτικοποίηση, το έμπειρο μάτι συχνά είναι τουλάχιστον απαραίτητο ακόμα και σε αλγορίθμους Μηχανικής Μάθησης. Αυτό προσπαθούμε να αναπτύξυμε και με τη σχετική εργασία. Περισσότερα στην πορεία.

Leave a Comment