Εργασία03: Γιώργος Δοντάς

  • H 38 μπορεί άνετα να εξαιρεθεί
  • Η 34 φαίνεται να έχει ένα και μοναδικό outlier. Θα τολμήσω να την εξαιρέσω και αυτή.
  • ReplaceMissingValues
  • επιλέγω class = none και κανω discretize την output attribute σε 2 bins. Επειτα την ξαναορίζω ως class
  • discretize/make binary 6,7,35,36,39

Στη συνέχεια θα επιχειρούσα attribute selection
Μία λύση είναι να κάνω discretize όλες τις υπόλοιπες μεταβλητές και μετά να προχωρήσω σε attribute selection. Η άλλη να προχωρήσω με τις μεταβλητές ως έχουν.

Αν κάνω discretize με useBetterEncoding=true οι μεταβλητές 3 και 4 καθίστανται άχρηστες και εξαιρούνται.

Αν δεν κάνω discretize, να κάποια αποτελέσματα των attribute evaluators (όπου έχω εξαιρέσει τον έλεγχο των binary 6,7,35,36,39 που τις θέλω) 

Relief : 24,23,33,12,30,14,5,4,31,15,36,28,21,27,20,32,
18,10,29,17,9,22,26,11,8,19,2,13,25,16,1,3

SVM :    32,24,27,28,13,17,8,33,12,36,23,21,29,16,26,9,
19,18,20,30,10,22,5,11,4,25,2,3,31,14,15,1

PCA :    13,14,11,12,17,18,15,16,3,4,1,2,9,10,5,8,29,30,
27,28,33,36,31,32,21,22,19,20,25,26,23,24

SymmetricUncert : 24,8,22,17,21,10,9,32,11,18,20,19,28,27,
33,13,29,12,26,31,14,15,25,36,23,1,16,30,2,5,4,3

1R :     24,17,8,32,28,9,11,22,18,19,10,20,27,21,33,13,25,
29,2,1,16,3,14,36,12,23,15,30,5,4,26,31

InfoGain : 24,32,17,8,19,9,11,20,10,22,18,28,21,33,13,27,
29,12,26,14,31,15,36,23,30,25,1,16,2,5,4,3

Gain ratio : 21,22,8,10,18,11,9,24,20,17,27,19,33,28,32,25,
16,13,2,1,29,26,12,31,15,14,36,5,23,30,4,3

ChiSquared : 24,32,17,8,9,11,19,20,10,22,28,18,21,33,27,
13,29,12,14,26,31,15,36,23,25,30,1,16,2,5,4,3

Η PCA φαίνεται να είναι τελείως κόντρα στο ρεύμα και την αγνοώ. Από τις υπόλοιπες οι πέντε τελευταίες συμφωνούν σε μεγάλο βαθμό γι’ αυτό και θα βασιστώ περισσότερο σ’αυτές για την επιλογή μου.

Βάσει αυτών θα δοκίμαζα να εξαιρέσω (με σειρά προτεραιότητας) τις : 3,4,5,2,1,16,15,30,14,31,26,25,23,36,29,13

Advertisements

3 responses to “Εργασία03: Γιώργος Δοντάς

  1. Το επιλεγμένο font είναι χάλια για την απεικόνιση αριθμών!

  2. Standardize και Normalize δεν μπορώ να κάνω ανά attribute (χωρίς να τις κάνω nominal)?

  3. Πολύ ολοκληρωμένη δουλειά, 5/5 (αν κα ι εκπρόθεσμη). Στην ουσία τώρα:
    1) Γιατί ReplaceMissingValues? Υπάρχουν τέτοιες στο dataset?
    2) Ωραία τα βήματα #4&5. Να δούμε τι impact θα έχουν στα αποτελέσματα.

    Περί select attributes, εξαιρετική η παράθεσή σου από αποτελέσματα με πολλές μεθόδους. Σωστά αναφέρεις πως εν τέλει αναζητεί κανείς επικαλυπτόμενες υποδείξεις, για να εξάγει συμπεράσματα με μεγαλύτερη αξιοπιστία.

    Μία λύση ίσως αποτελεί η πρόσδοση βαρύτητας σε κάθε υπόδειξη ανάλογα με τον αριθμό κατάταξης του χαρακτηριστικού (πχ 1ο, 2ο, 3ο κτλ) και τον συγκεκριμένο αλγόριθμο επιλογής (ίσως ίση αρχικη βαρύτητα για τον καθένα), και η εκμαίευση εν τέλει μίας κατάταξης που να περιλαμβάνει όλτα τα παραπάνω αποτελέσματα (ωραία ιδεά και για νεό αλγόριθμο στο weka, δεν υπάρχει κάτι σχετικό νομίζω).

    Εϊναι κάπως περίεργο το font (Georgia), όχι τόσο ομοιόμορφο στα νούμερα, αλλά εμένα μου αρέσει. :P

    Τα standardize & normalize εφαρμόζονται σε dataset με numeric attributes, όπου και αναδιατάσσουν όλα τα attributes σε νέα κλίμακα. Δεν υπάρχει επιλογή εφαρμογής τους σε μερικά μόνο attributes καθώς είναι λανθασμένη η αλλαγή κλίμακας για μερικά μόνο χαρακτηριστικά.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s