Εργασία02: Γιώργος Δοντάς

1) arff file: arff sample file

2) Αρχείο soybean.arff

Οι 4 τελευταίες ασθένειες έχουν για τα περισσότερα χαρακτηριστικά άγνωστες τιμές, άρα είναι μάλλον δύσκολη η εξαγωγή συμπερασμάτων για αυτές.

ENVIRONMENT

Τα (11) χαρακτηριστικά του περιβάλλοντος δεν παρέχουν άμεσα ορατές ενδείξεις συσχέτισης με ασθένειες. Τα πλέον ασυσχέτιστα φαίνεται να είναι τα cropping history , hail damage και seed treatment. To πλέον ορατό είναι αυτό που εκφράζεται στον προ-τελευταίο κανόνα.

LEAF

Φαίνεται ότι οι ασθένειες rhizoctoniarootrot και diaporthe-pod-&-stem-blight δεν προκαλούν ποτέ ανωμαλίες στα φύλλα.

STEM

To mycelium έχει τεράστια συγκέντρωση στην τιμή absent. Δεν το εξαιρούμε όμως γιατί θα χάναμε τον τελευταίο από τους παρακάτω κανόνες. Αν υπάρχει leaf malformation τότε και τα 9 χαρακτηριστικά του stem παραμένουν ανεπηρέαστα.

SEED

Αν υπάρχει leaf malformation τότε τα 4 από τα 5 χαρακτηριστικά του seed παραμένουν ανεπηρέαστα (εκτός του shriveling).

FRUIT

Αν υπάρχει leaf malformation κανένα από τα 2 χαρακτηριστικά του φρούτου δεν φαίνεται να επηρεάζεται. Σε κάθε περίπτωση αν τα χαρακτηριστικά του φρούτου είναι φυσιολογικά αποκλείονται οι rhizoctonia-root-rot και phytophthora-rot.

ΑΜΕΣΑ ΟΡΑΤΟΙ ΚΑΝΟΝΕΣ

If internal discoloration = brown then class = brown-stem-rot

If internal discoloration = black then class = charcoal-rot

If leaf mildew growth = lower-surf then class = downy-mildew

If leaf mildew growth = upper-surf then class = powdery-mildew

If damaged area = low_areas then class = rhizoctonia-root-rot

If stem cankers = below soil then class = rhizoctonia-root-rot

If external decay of stem = watery then class = phytophthora-rot

If sclerotia = present then class = charcoal-rot

If class = rhizoctonia-root-rot or class = downy-mildew then germination 90-100

If mycelium = present then class = rhizoctonia-root-rot

Tα παραπάνω προέκυψαν με χρήση του GGobi. Αφού τα ελέγξω και  με το Weka, αν χρειαστεί θα προσθέσω στοιχεία.

Θα πρέπει επίσης να πω ότι υπήρχαν πάρα πολλές τιμές με “?”. Εχουν καμία διαφορά από τις missing; Κάποια στιγμή τις εξαίρεσα από την οπτική απεικόνιση και οι κανόνες προέκυψαν αγνοώντας τες.

Advertisements

8 responses to “Εργασία02: Γιώργος Δοντάς

  1. Επί του αρχείου:
    Οι ελληνικοί χαρακτήρες (ίσως γενικότερα οι Unicode) δεν αναγωρίζονται, δοκίμασε λατινικούς. Επίσης, το attribute 01 εμφανίζει ‘Attribute is neither numeric or nominal’. Σε δεύτερη ανάγνωση βλέπω ότο το έχεις ορίσει ως string, τέτοια attribute δεν έχουν απαραίτητα νόημα σε data mining διαδικασίες. Επιχείρησε να το μεταλλάξεις σε nominal.

  2. To weka μου διαβάζει κανονικά τους ελληνικούς χαρακτήρες (!?). Το string attribute 01 δεν πρόκειται να λάβει μέρος σε κάποιον data mining αλγόριθμο. Αποτελεί όμως το label της κάθε εγγραφής. Για παράδειγμα αν κάνω cluster analysis πώς θα μπορέσω να μάθω εν τέλει ποιοί κωδικοί τελικά κατατάχθηκαν στο τάδε cluster;

  3. Θα είναι θέμα έκδοσης, εγώ έχω την 3.4.11 που μάλλον είναι παλιότερη και δεν φαίνεται πως δεν διαβάζει unicode (?).
    Λογική η απαίτηση, νομίζω υπάρχει τέτοιο φίλτρο δημιουργίας label στο weka, αλλιώς εισήγαγέ το ως numeric για να το διαβάσει και μετά το βγάζεις στο preprocessing. Θα έχω περισσότερο ακριβή απάντηση εν καιρώ.

  4. Το string datatype προβλέπεται από το arff format, δες σελ. 55 του βιβλίου.

  5. Πολύ σωστά περί string, βλέπω υπάρχει και η δυνατότητα date στο βιβλίο που επίσης δεν σας ανέφερα (αν συνεχίσεις έτσι, πιθανό να σε βαθμολογήσω καλύτερα απ’ ότι εμένα)..

    Εξαιρετική η ανάλυση, αν θες βάλε και λίγα σχηματάκια από το weka που πιθανά θα βοηθήσουν και τους επόμενους. Άριστα 5/5.

  6. Είναι σωστό που πέταξα στα σκουπίδια τις 121 εγγραφές με “?” επειδή με μπέρδευαν;
    Θα πρέπει να τους συμπεριφερθώ ως missing;
    Πως χειρίζομαι τις categorical missing;

  7. Ναι, πολύ σωστά έκανες. Άλλωστε, το ίδιο το weka στις υποδεικνύει ως missing (πχ επέλεξε μία μεταβλητή και σου υποδεικνύει τον αριθμό των missing μαζί με τα άλλα βασικά χαρακτηριστικά της μεταβλητής).
    Η απλή λύση είναι να αποβάλλεις όλα τα instances με categorical missing.

  8. Pingback: Εργασία 02: Βαθμολόγηση « Data Mining, a Course by Blog

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s