Data Mining, a Course by Blog

Δημοσιότητα

March 20, 2008 · No Comments

Το μάθημα και η υλοποίησή του μέσω ενός blog τυγχάνουν δημοσιότητας, την οποία και θα προσπαθήσω να συγκεντρώσω στο παρών post:

Για όλους εσάς εκεί έξω, ευχαριστούμε θερμά για την όποια προβολή, ελπίζουμε το blog να αποτελέσει χρήσιμη αναφορά, ίσως και πυροδότη περαιτέρω ενδιαφέροντος για το αντικείμενο, τέλος να είστε σίγουροι πως διδάσκων και διδασκόμενοι έχουμε πλέον ένα ακόμα κίνητρο για να δώσουμε τον καλύτερό μας εαυτό! :)

Categories: άλλο

Εργασία02: Γιώργος Δοντάς

March 20, 2008 · 8 Comments

1) arff file: arff sample file

2) Αρχείο soybean.arff

Οι 4 τελευταίες ασθένειες έχουν για τα περισσότερα χαρακτηριστικά άγνωστες τιμές, άρα είναι μάλλον δύσκολη η εξαγωγή συμπερασμάτων για αυτές.

ENVIRONMENT

Τα (11) χαρακτηριστικά του περιβάλλοντος δεν παρέχουν άμεσα ορατές ενδείξεις συσχέτισης με ασθένειες. Τα πλέον ασυσχέτιστα φαίνεται να είναι τα cropping history , hail damage και seed treatment. To πλέον ορατό είναι αυτό που εκφράζεται στον προ-τελευταίο κανόνα.

LEAF

Φαίνεται ότι οι ασθένειες rhizoctonia-root-rot και diaporthe-pod-&-stem-blight δεν προκαλούν ποτέ ανωμαλίες στα φύλλα.

STEM

To mycelium έχει τεράστια συγκέντρωση στην τιμή absent. Δεν το εξαιρούμε όμως γιατί θα χάναμε τον τελευταίο από τους παρακάτω κανόνες. Αν υπάρχει leaf malformation τότε και τα 9 χαρακτηριστικά του stem παραμένουν ανεπηρέαστα.

SEED

Αν υπάρχει leaf malformation τότε τα 4 από τα 5 χαρακτηριστικά του seed παραμένουν ανεπηρέαστα (εκτός του shriveling).

FRUIT

Αν υπάρχει leaf malformation κανένα από τα 2 χαρακτηριστικά του φρούτου δεν φαίνεται να επηρεάζεται. Σε κάθε περίπτωση αν τα χαρακτηριστικά του φρούτου είναι φυσιολογικά αποκλείονται οι rhizoctonia-root-rot και phytophthora-rot.

ΑΜΕΣΑ ΟΡΑΤΟΙ ΚΑΝΟΝΕΣ

If internal discoloration = brown then class = brown-stem-rot

If internal discoloration = black then class = charcoal-rot

If leaf mildew growth = lower-surf then class = downy-mildew

If leaf mildew growth = upper-surf then class = powdery-mildew

If damaged area = low_areas then class = rhizoctonia-root-rot

If stem cankers = below soil then class = rhizoctonia-root-rot

If external decay of stem = watery then class = phytophthora-rot

If sclerotia = present then class = charcoal-rot

If class = rhizoctonia-root-rot or class = downy-mildew then germination 90-100

If mycelium = present then class = rhizoctonia-root-rot

Tα παραπάνω προέκυψαν με χρήση του GGobi. Αφού τα ελέγξω και  με το Weka, αν χρειαστεί θα προσθέσω στοιχεία.

Θα πρέπει επίσης να πω ότι υπήρχαν πάρα πολλές τιμές με “?”. Εχουν καμία διαφορά από τις missing; Κάποια στιγμή τις εξαίρεσα από την οπτική απεικόνιση και οι κανόνες προέκυψαν αγνοώντας τες.

Categories: εργασίες

Περισσότερες δυνατότητες οπτικοποίησης στο weka

March 20, 2008 · 2 Comments

Το weka παρέχει κάποιες ακόμα δυνατότητες οπτικοποίησης που παρέλειψα να σας επισημάνω κατά τη διάρκεια της διάλεξης. Σας τις αναφέρω αναλυτικά εδώ μέσω παραδείγματος, ερωτήσεις και απορίες όπως πάντα δεκτές, είτε στα σχόλια είτε δια ζώσης.

Ανοίγω το αρχείο soybean.arff στον explorer του weka επιλέγω το πρώτο από δεξιά tab ‘Visualize’. Εμφανίζονται, όπως γνωρίζουμε, scatter plots για κάθε πιθανό ζεύγος μεταβλητών. ΑΝ τώρα κάνετε τη μαγική κίνηση (που δεν πειχειρήσαμε στη διάλεξη)΄διπλού κλικ΄πάνω σε ένα οποιοδήποτε γράφημα, για παράδειγμα στο date vs class που εμφανίζεται στη θέση [1,1] του ΄πίνακα΄, τότε εμφανίζεται το γράφημα σε νέο παράθυρο, σαν αυτό που παρουσιάζω εδώ, με αρκετές επιπλέον δυνατότητες.

picture-1.png

(Δοκιμάστε το jitter, είναι πολύ χρήσιμο σε αυτή την περίπτωση.) Έχουμε πλέον τη δυνατότητα να διακρίνουμε το καθένα scatter plot με μεγαλύτερη ανάλυση, ενώ στη δεξιά στήλη βλέπουμε όλα τα scatter plots. Επίσης, μπορούμε να επιλέξουμε ποια μεταβλητή θέλουμε να υπάρχει στον άξονα-x, στον άξονα-y και ποια θα είναι αυτή που θα καθορίζει τη χρωματική κλίμακα.

Ιδιαίτερα ενδιαφέρουσα είναι ωστόσο και η δυνατότητα που μας παρέχει το τέταρτο drop down menu, με την αρχική ένδειξη ‘Select Instance’. Επιλέξτε για παράδειγμα το rectangle, ορίστε μία ορθογώνια περιοχή μέσα στο διάγραμμα και πατήστε ‘Submit’. Στο σχήμα που ακολουθεί, βλέπετε για παράδειγμα πολλαπλές επιλογές ορθογωνίων (εφικτές πριιν πατήσει κανείς το’Submit’).

picture-2.png

Αυτομάτως το διάγραμμα παρουσιάζει πλέον μόνο τα σημεία που περικλείονται στην επιλογή μας, επίσης όχι μόνο στο τρέχων διάγραμμα, αλλά και σε όλα τα υπόλοιπα που διακρίνονται στη δεξιά στήλη. Πατήστε σε κάποιο από αυτά για να το φέρετε στο προσκήνιο.

picture-3.png

Το χαρακτηριστικό αυτό είναι συχνά ιδιαίτερα χρήσιμο, για να αντιληφθεί κανείς για παράδειγμα αν κάποιο instance που μπορεί να χαρακτηριστεί ως outlier σε συγκεκριμένη επιλογή αξόνων, δικαιολογεί αυτό τον χαρακτηρισμό γενικότερα ή όχι. Τα παραπάνω ίσως είναι προαιρετικά χρήσιμα και για την Εργασία 02.

Categories: πηγές