Τελική Εξέταση – Μουτσανά Βασιλική

Ζήτημα 1

Το πρώτο στάδιο επεξεργασίας των δεδομένων μας είναι αυτό της επιλογής του οικονομικότερου υποσυνόλου χαρακτηριστικών το οποίο θα μας δώσει τα καλύτερα αποτελέσματα σε αξιοπίστία και ακρίβεια.

  • Αρχικά χρησιμοποιούμε την επιλογή visualize all. Καταλήγω στο συμπέρασμα ότι ίσως θα έπρεπε να αφαιρέσω την 18 αφού οι τιμές της περιορίζονται σε δύο μόνο διαστήματα και δεν κατανέμονται ομοιόμορφα στον άξονα και την 5 (unique attributes= 89%).
  • Στο  tab select attributes παρατηρώ ότι οι περισσότεροι συνδυασμοί, για παράδειγμα ChisquaredAttributeEval, InfogainAttributeEval, ReliefAttributeEval με τον Ranker δεν αφαιρούν κάποιο attribute. Αντίθετα οι CfsSubsetEval με  Bestfirst και GreedyStepwise καταλήγουν σε 3.
  • Τρέχω διάφορους αλγορίθμους και αποφασίζω να συνεχίσω την ανάλυση με το Naive.Bayes  έχοντας αφαιρέσει τελικά τις 5 και 18 αφού τα αποτελέσματά μου βελτιώνονται σημαντικά.
  • Αναμένω στις προβλέψεις του test set ένα ποσοστό επιτυχίας 76.8% με σφάλμα 2.9%, Άλλωστε ο  δείκτης  R^2 αρκετά υψηλός  (98.2%)

Οι προβλέψεις μου είναι στο αρχείο Μουτσανά_Βασιλική(xls)

Ζήτημα 2

Πειραματιζόμαι με τον αλγόριθμο Jrip και καταλήγω στους παρακάτω κανόνες παρατηρώντας κάθε φορά το class==xxx(xxx/xxx)

(ELONGATEDNESS >= 43) and (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 73) => class==van(86.0/0.0)

(MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR <= 231) => class==saab(71.0/9.0)

(MAX.LENGTH ASPECT RATIO >= 8) and (MAX.LENGTH RECTANGULARITY >= 173) => class==opel(45.0/8.0)

(MAX.LENGTH ASPECT RATIO >= 8) and (COMPACTNESS <= 103) and (ELONGATEDNESS <= 37) and (HOLLOWS RATIO <= 195) => class==opel(14.0/0.0)

Επέλεξα τους 2 πρώτους καθώς εφαρμόζονται σε πολλά instances (86 και 71 αντίστοιχα) και δίνουν αρκετές σωστές προβλέψεις ενώ ο τελευταίος εφαρμόζεται μόλις σε 14 instances δίνοντας σωστές προβλέψεις σε όλες τις περιπτώσεις (ίσως ο συγκεκριμένος κανόνας είναι δύσκολο να εξαχθεί χωρίς τη βοήθεια του προγράμματος weka)

Από τον PART επιλέγουμε τους

SCALED VARIANCE_MINOR > 309 AND
DISTANCE CIRCULARITY <= 76 AND
SKEWNESS ABOUT_MINOR <= 10 AND
SKEWNESS ABOUT_MAJOR > 64 AND
CIRCULARITY > 41: bus (107.0/1.0)

MAX.LENGTH ASPECT RATIO > 8 AND
HOLLOWS RATIO > 189 AND
SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

οι οπoίοι βρίσκουν επίσης εφαρμογή σε 107 intances.

Εντύπωση μου κάνει και ο

ELONGATEDNESS <= 44 AND
PR.AXIS ASPECT RATIO <= 68: opel (5.0)

ο οποίος απ’ ότι φαίνεται ισχύει μόλις για 5 instances και είναι σίγουρα από τους κανόνες που μπορεί να διέφευγαν από την ανάλυση μας λόγω της περιορισμένης εφαρμογής του.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s