Εργασία 02:Μουτσανά Βίκυ

diamonds_dataset

Το dataset που χρησιμοποιούμε για τη συγκεκριμένη εργασία εξετάζει πως μεταβάλλεται η τιμή (price) ενός διαμαντιού – η οποία αποτελεί τη μεταβλητή στόχο καθώς διαφοροποιούνται οι τιμές των 5 attribute (carat, depth, table, color, clarity). Σε αυτό το παράδειγμα οι μεταβλητές carat (καράτια), depth (βάθος), table (η μεγαλύτερη έδρα ενός διαμαντιού – εκφράζεται συνήθως σε ποσοστό επί τοις εκατό) είναι numeric  ενώ οι color (χρώμα), clarity (καθαρότητα) είναι nominal παρά το γεγονός ότι παίρνουν αριθμητικές τιμές. Αυτό μπορεί να εξηγηθεί ως εξής: στη μεταβλητή color έχουμε αντιστοιχίσει σε κάθε αριθμό και ένα χρώμα ή μία διαβάθμιση του συγκεκριμένου χρώματος. Χρησιμοποιούμε 30 διαφορετικά instances, 30 δηλαδή διαφορετικές εκτιμήσεις της τιμής του πολύτιμου λίθου που μελετάμε. Παρακάτω παραθέτουμε τα ιστογράμματα και κάποια στατιστικά στοιχεία για κάθε attribute ξεχωριστά.

  • Carat

carat5

Η πλειψηφία των διαμαντιών (23/30=77%) έχει βάρος (μονάδα μέτρησης του βάρους είναι το καράτι, συγκεκριμένα 1 καράτι=1/5 του γραμμαρίου) που ανήκει στο διάστημα (1, 2.017) όπως βλέπουμε από το παραπάνω ιστόγραμμα. Ενώ μόνο 3 ανήκουν στο διάστημα (3.033, 4.05) γεγονός που μας κάνει να υποψιαστούμε ότι είναι δυσκολότερη η ανίχνευση μεγάλων διαμαντιών και σχετικά υψηλής ποιότητας.

  • Depth

depth1

Τα διαμάντια ανιχνεύονται σε ποσοστό 30%, 33%, 37% σε διαστήματα βάθους (57.1, 59.533), (59.533, 61.967), (61.967, 64.4) αντίστοιχα

  • Table

table1

To μεγαλύτερο ποσοστό των διαμαντιών (17/30=56.7%) παίρνει τιμές στο διάστημα (61.5, 65). Εδώ αξίζει να σημειώσουμε ότι γενικά κοστολογούνται ακριβότερα διαμάντια με υψηλότερη τιμή table αρκεί να μην είναι πολύ μεγάλα σε μέγεθος.

  • Color

color1

To 40% (20%+20%) έχει αποχρώσεις 5 και 6

  • Clarity

clarity2

H πλειψηφία των διαμαντιών (11/30=37%) έχει καθαρότητα 4 

  • Price : Μεταβλητή στόχος

price1

 Παρατηρούμε ότι η πλειοψηφία των διαμαντιών, το 80% έχει τιμή που κυμαίνεται από 3670 έως 19447.5 Ευρώ.

Εδώ αξίζει να σημειώσουμε ότι η μεταβλητή στόχος έχει 100% unique values το οποίο είναι αναμενόμενο αν σκεφτεί κανείς ότι οι πιθανότητες να βρούμε δύο διαμάντια εντελώς όμοια είναι μικρές. Ως αποτέλεσμα αποκλείεται να έχουν την ίδια τιμή. Επίσης σε κανένα attribute από τα παραπάνω δεν υπάρχουν missing values.

Στη συνέχεια θα προσπαθήσουμε να εξάγουμε κάποια συμπεράσματα ξαναμελετώντας τα προηγούμενα ιστογράμματα αναφορικά με τις τιμές των atrribute color και clarity και όχι της μεταβλητής στόχου που είχαμε προηγουμένως.

clarity13

Έτσι η καθαρότητα 2 αντιστοιχεί στο μπλε χρώμα, η 3 στο κόκκινο, η 4 στο θαλασσί και η 5 στο πετρόλ.

Με βάση την παραπάνω ταξινόμηση μπορούμε να πούμε ότι:

  • Δεν παρατηρούνται διαμάντια με καθαρότητα 4 και 5 στο διάστημα (2.017, 3.033) καράτια καθώς και καθαρότητας 2 και 3 στο (3.033, 4.05).
  • Βρίσκονται διαμάντια οποιασδήποτε καθαρότητας σε κάθε βάθος
  • Διαμάντια αποχρώσεων 7 και 9 είναι αποκλειστικά καθαρότητας 4
  • Το διαμάντι με την υψηλότερη τιμή είναι καθαρότητας 3

color21

Στη συνέχεια κάνοντας την αντιστοίχιση απόχρωση 1-> μπλε χρώμα, 2->  κόκκινο, 3-> θαλασσί, 4-> πετρόλ, 5-> ροζ κλπ μπορούμε να πούμε ότι:

  • Τα διαμάντια απόχρωσης 5 παρατηρούνται μόνο στο διάστημα (1, 2.017), ενώ στο (3.033, 4.05) παρατηρούνται διαμάντια αποχρώσεων 3,6,7.
  • Δεν βρίσκουμε όλες τις αποχρώσεις σε όλα τα βάθη
  • Η απόχρωση 8 έχει υψηλό ποσοστό για το attribute table
  • Υψηλότερη τιμή έχει το διαμάντι με την  απόχρωση 1

Γενικά μπορούμε να πούμε ότι προχωρώντας από την απόχρωση 9 στην 1 η τιμή αυξάνεται. Δεν μπορούμε να ισχυριστούμε κάτι αντίστοιχο για την καθαρότητα.

Advertisements

One response to “Εργασία 02:Μουτσανά Βίκυ

  1. Ενδιαφέρον dataset, ωστόσο όπως συμπέρανες οδηγείται κανείς σε διαφορετικά συμπεράσματα αν ορίσει ένα χαρακτηριστικό (σαν το color) ονομαστικό ή αριθμητικό (επίσης, στη διάλεξη εκηγήσαμε γιατί ο ορισμός του σαν αριθμητικό είναι μάλλον λανθασμένος, καθώς δεν έχει νόημα η διαδοχή, η απόσταση κτλ). Στην έκδοση του αρχείου που έχεις ανεβάσει, όλα τα χαρακτηριστικά είναι ορισμένα ως αριθμητικά.

    Σε κάθε περίπτωση, η εργασία είναι υπερπλήρης, και μάθαμε αρκετά κατά την υποβολή της, άριστα 5/5 :)

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s