Category Archives: άλλο

Netflix Prize – Ο στόχος επετεύχθη!

Τα σχόλια είναι περιττά, δείτε απλά την τρέχουσα κατάσταση στο Leaderboard:
Picture 2

Όσοι είσασταν παρόντες στην παρουσίαση Αμπαζή μία εβδομάδα πριν στο συνέδριο ΕΛΛΑΚ μάλλον θα έχετε μείνει με το στόμα ανοικτό, οι υπόλοιποι δείτε εκτενέστερη κάλυψη εδώ:
New York Times
Wired
Read Write Web
Geeking with Greg

Για να δούμε τι θα μας φέρουν οι 30 μέρες που θα ακολουθήσουν, οι θερμότερες των ευχών μας στους Νίκο Αμπαζή και Γιώργο Τσάγκα της ομάδας Feeds2 (αυτή τη στιγμή στη θέση 14).

Advertisements

Τελική Βαθμολογία

Παραθέτω την τελική βαθμολογία, στην μορφή Όνομα_Επώνυμο: Συνολικοί βαθμοί ως σήμερα + Βαθμολογία Εξέτασης (με άριστα το 30) (βαθμολογία υποβολής test set εξέτασης + βαθμολογία περιγραφής πρώτου ζητήματος + βαθμολογία περιγραφής δεύτερου ζητήματος) = Τελικοί συνολικοί βαθμοί, με άριστα το 100 -> Βαθμολογία προς υποβολή στη γραμματεία, με άριστα το 10.

Παρακαλώ διορθώστε όποιο λάθος υπάρχει, ή υποβάλλετε τελικά σχόλια αν αυτά υπάρχουν, ώστε να προωθηθεί η τελική βαθμολογία στη γραμματεία και επισήμως.

Θεώνη Αγάθου: 75 + 22 (5+8+9) = 97 -> 10/10
Αθανάσιος Αγγελάκης: 89 + 18 (8+5+5) = 107 -> 10/10
Κατερίνα Αργύρη: 49 + 26 (6+10+10) = 75 -> 8/10
Βαγγέλης Κατσαβριάς: 80 + 25 (8+9+9) = 105 -> 10/10
Χριστίνα Μιχαηλίδου: 57 + 23 (5+9+9) = 80 -> 8/10
Νίκη Μόσχου: 63 + 22 (4+9+9) = 85 -> 9/10
Βασιλική Μουτσανά: 78 + 24 (5+9+10) = 102 -> 10/10
Γιώργος Μουτσάτσος: 71 + 24 (6+9+9) = 95 -> 10/10
Δήμητρα Μπάρλα: 62 + 23 (6+8+9) = 85 -> 9/10
Ιωάννα Μπλίντζιου: 76 + 27 (7+10+10) = 103 -> 10/10
Νικόλαος Νανούρης: 67 + 30 (10+10+10) = 97 -> 10/10
Μακρίνα Σαλμανίδου: 55 + 27 (9+9+9) = 82 -> 8/10
Δήμητρα Τάτσιου: 73 + 23 (5+9+9) = 96 -> 10/10
Αθηνά Τσανούσα: 44 + 0 (0,0,0) = 44 -> 5/10
Μαρία Τζωρτζάκη: 66 + 23 (5+9+9) = 91 -> 9/10
Ιωάννης Χουχούμης: 74 + 25 (5+10+10) = 99 -> 10/10

Και πάλι, τα θερμά μου συγχαρητήρια και οι ευχαριστίες μου προς όλους.

Data Mining + Συνέδριο Δημιουργών ΕΛ/ΛΑΚ

Αν και ο χρόνος μέσα στην εξεταστική είναι περιορισμένος για όλους μας αξίζει να κλέψουμε λίγο από αυτόν για μια επίσκεψη στο
Συνέδριο δημιουργών ΕΛ/ΛΑΚ (Ελεύθερου Λογισμικού / λογισμικού ανοιχτού κωδικά ) ,
το οποίο θα διεξαχθεί στην Πολυτεχνειούπολη Ζωγράφου το διήμερο Παρασκευή 19 και Σάββατο 20 Ιουνίου.

Στο Συνέδριο θα  υπάρξουν  ενδιαφέρουσες ομιλίες και workshops σχετικά  με εφαρμογές Data mining καθώς και πλήθος παρουσιάσεων για  εφαρμογές ανοιχτού λογισμικού   σε μικρομεσαίες   επιχειρήσεις ,  στην εκπαίδευση και στην έρευνα (Προσομοιώσεις,  Στατιστική επεξεργασία).
Όσοι από εσάς δεν γνωρίζετε για το ελεύθερο λογισμικό το παραπάνω διήμερο είναι μια καλή ευκαιρία για να το ανακαλύψετε.

Σας παραθέτω ενδεικτικά τις ομιλίες  ενός workshop της Παρασκευής που έχει άμεση σχέση με το μάθημα:

Data Mining: Το Πρόβλημα, τα Εργαλεία Ανοιχτού Λογισμικού, οι Εφαρμογές & η Υπόσχεση (Παρασκευή 19 Ιουνίου  17:00-19:00)

Η Εγγραφή στο συνέδριο και η συμμετοχή στα workshops είναι δωρεάν!
Οι έγγραφες θα γίνονται μέχρι την Τετάρτη 17 Ιουνίου εδώ

 

Why Managers Should Analyse Data Themselves

Ενώ ακόμα δεν έχω βγάλει βαθμολογία (ευελπιστώ σημερα ή αύριο), σας παραθέτω ένα ενδιαφέρον ανάγνωσμα, να το θυμάστε όταν γίνεται υψηλά ιστάμενοι ερευνητές ή managers (από έναν εξαιρετικό καναδό ερευνητή & blogger): Why Senior Researchers And Managers Should Analyze Data Themselves

Τελική Εργασία: Θεώνη Αγάθου

Ζήτημα 1:
Ανοίγουμε το αρχείο creditdata_trainsetarff1.arff και κάνουμε την εξής διαδικασία:

  •  Πάμε στο tab Visualise All και παρατηρούμε ότι δεν υπάρχει κάποιο attribute που να μπορούμε εύκολα να αφαιρέσουμε.
  • Με attribute selection και δοκιμάζοντας τους περισσότερους συνδυασμούς attribute evaluation και search methods, παρατηρούμε ότι οι τα χαρακτηριστικά 5,8,11,13,16,18 και 19 πρέπει να αφαιρεθούν.
  • Με την αφαίρεση αυτή, βλέπουμε ότι  εφαρμόζοντας τον αλγόριθμο (meta)–>Bagging–>J48 υπάρχει βελτίωση του σφάλματος και τελικά από 72.2667% correctly classified instances, δίνει 73.2%.
  • Αποθηκεύουμε το νέο train set, ως creditdata_trainsetarff2 και ανοίγουμε το creditdata_testsetarff1.
  • Τροποποιούμε το testset με ανάλογο τρόπο (δηλαδή αφαιρούμε τα παραπάνω attributes) και το αποθηκεύουμε ως creditdata_testsetarff2.
  • Εφοδιάζουμε το creditdata_testsetarff2 στο trainingdata_trainsetarff2 (ως supplied test set) και με cross validation προκύπτουν οι προβλέψεις (το ακόλουθο txt αρχείο):
    Θεώνη_Αγάθουtxt
Zήτημα:

Ανοίγουμε το vehicle.arff και για να διεξάγουμε κανόνες για την μεταβλητή στόχο (class), που παίρνει τις τιμές: οpel, saab, bus και van χρησιμοποιύμε τους classifier rules JRip (17 κανόνες) και PART (29 κανόνες) του weka.
Αξιοσημείωτοι εμφανίζονται οι ακόλουθοι κανόνες, στους οποίους δίδεται και επεξήγηση:

 

 

 

 

 

 

 

 

  • MAX.LENGTH ASPECT RATIO > 8 AND
    HOLLOWS RATIO > 189 AND
    SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

    Ερμηνεία:  Αν το εν λόγω αυτοκίνητο έχει MAX.LENGTH ASPECT RATIO>8 και HOLLOWS RATIO>189 και SKEWNESS ABOUT_MAJOR>63, τότε ο τύπος του αυτοκινήτου είναι van. Πρόκειται για συνοπτικό και ‘καλό’ κανόνα, διότι δίνει 107 σωστές και μόνο 2 λανθασμένες εκτιμήσεις. Προέκυψε με τον PART:

  • SCALED VARIANCE_MINOR > 309 AND
    DISTANCE CIRCULARITY <= 76 AND
    SKEWNESS ABOUT_MINOR <= 10 AND
    SKEWNESS ABOUT_MAJOR > 64 AND
    CIRCULARITY > 41: bus (107.0/1.0)

    Ερμηνεία:  Όμοια με πριν, εαν ισχύουν οι παραπάνω προυποθέσεις για τα χαρακτηριστικά που φαίνονται,  τότε ο τύπος του αυτοκινήτου είναι bus. Επίσης πρόκειται για καλό κανόνα, γιατί δίνει 107 σωστές εκτιμήσεις και μόλις μια λάθος, ωστόσο απαιτεί να συμβαίνουν πολλές προϋποθέσεις μαζί (δηλαδή ίσως να μην είναι τόσο βολικός τελικά). Τέλος, και ο κανόνας αυτός προέκυψε με τον κανόνα PART.

  • (ELONGATEDNESS >= 43) and (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 73) =>Class=van (86.0/0.0)

    Ερμηνεία:  Πρόκειται για έναν επίσης καλό κανόνα, που υποδεικνύει ότι εαν ισχύουν οι προϋποθέσεις του, τότε ο τύπος του αυτοκινήτου είναι van (με 86 σωστές εκτιμήσεις και καμία λάθος). Προέκυψε με τον rule JRip. 

  • ELONGATEDNESS <= 41 AND
    MAX.LENGTH ASPECT RATIO > 7: opel (132.0/65.0)

    Ερμηνεία: Εδώ έχουμε έναν μη καλό κανόνα γιατί βγάζει πολλές λανθασμένες εκτιμήσεις (65.0) αν και δεν απαιτεί να συμβαίνουν πολλές προϋποθέσεις ταυτόχρονα. Προέκυψε με τον PART

  • (MAX.LENGTH ASPECT RATIO >= 8) and (COMPACTNESS <= 103) and (ELONGATEDNESS <= 37) and (HOLLOWS RATIO <= 195) => Class=opel (14.0/0.0)

    Ερμηνεία: Εδώ ο κανόνας είναι αρκετά καλός και συνοπτικός, για τον τύπο αυτοκινήτου opel και προέκυψε με τον  JRip.

  • (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR <= 231) => Class=saab(71.0/9.0)
    Ερμηνεία:  Τέλος, ένας ακόμη καλός κανόνας που προέκυψε με τον JRip φαίνεται να ισχύει για τον τύπο αυτοκινήτου saab. Ισχύει όταν  ισχύουν οι τρεις προϋποθέσεις που βλέπουμε , που αφορούν τα χαρακτηριστικά (MAX.LENGTH ASPECT RATIO, DISTANCE CIRCULARITY και SCALED VARIANCE_MAJOR)

 

 

 

 

 

Νανούρης Νικόλαος: Τελική Εξέταση

Θέμα 1

1. Η οπτικοποίηση των δεδομένων δεν οδηγεί στην απόρριψη κάποιας   μεταβλητής.

2. Παρατηρούμε ότι η μεταβλητή foreign_workers ίσως δεν είναι σημαντική.

3. Η χρήση αξιολογητών μεταβλητών προτείνει μόνο τις τρεις πρώτες μεταβλητές.

4. Χρήση αλγορίθμων όλων των κατηγοριών και της τεχνικής διασταυρωμένης επικύρωσης.

5. Παρατηρείται υπεροχή της Μπεϋζιανής κατηγορίας, ενδεχομένως λόγω παρουσίας θορύβου.

6. Όλες οι μεταβλητές: 27.73% με RandomForest, 26% με SMO, 25.6% με NaiveBayes.

7. Αφαίρεση της foreign_workers: 25.47% με RandomForest, 26.53% με SMO, 25.73% με NaiveBayes.

8. Χρήση μόνο των μεταβλητών 1, 2, 3: 32.27% με RandomForest, 28% με SMO, 26.27% με NaiveBayes.

9. Χρήση μεταμαθησιακών αλγορίθμων με όλες τις μεταβλητές. Υπεροχή NaiveBayes ως εμβόλιμου αλγόριθμου.

10. Βέλτιστη επιλογή: MultiBoostAB+NaiveBayes με ποσοστό αποτυχίας 25.07%.

Nanouris_Nikolaos

 

Θέμα 2

1. Χρήση του αλγόριθμου PART με κατάλληλη επιλογή του ελάχιστου αριθμού αντικειμένων (αρκετά υψηλό) ώστε να αποκαλυφθούν οι σημαντικότεροι κανόνες:

PART decision list
——————

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7: bus (107.0/21.0)

ELONGATEDNESS <= 41 AND
COMPACTNESS <= 106 AND
MAX.LENGTH RECTANGULARITY <= 172 AND
HOLLOWS RATIO > 196 AND
MAX.LENGTH ASPECT RATIO > 9: saab (73.0/29.0)

ELONGATEDNESS <= 41 AND
COMPACTNESS <= 106 AND
MAX.LENGTH ASPECT RATIO > 9: opel (64.0/10.0)

ELONGATEDNESS <= 41 AND
PR.AXIS RECTANGULARITY <= 23 AND
SKEWNESS ABOUT_MAJOR <= 67: opel (52.0/23.0)

ELONGATEDNESS > 41 AND
MAX.LENGTH ASPECT RATIO <= 8 AND
SCALED VARIANCE_MINOR > 305 AND
MAX.LENGTH RECTANGULARITY > 134: bus (146.0/31.0)

ELONGATEDNESS > 41 AND
MAX.LENGTH RECTANGULARITY > 138: van (152.0/10.0)

PR.AXIS RECTANGULARITY > 18: saab (139.0/55.0)

MAX.LENGTH RECTANGULARITY > 127: van (67.0/26.0)

: saab (46.0/26.0)

Number of Rules  :  9

Παρατηρήσεις:

  • Έχουμε τους 9 βασικότερους κανόνες, από τους οποίους μερικοί διακρίνονται ακόμα περισσότερο: πρόκειται για τον πρώτο, πέμπτο, έκτο και έβδομο κανόνα.
  • Η σημαντικότερη πληροφορία, σύμφωνα με τον πρώτο και τον έκτο κανόνα, είναι η διαπίστωση ότι το elongatedness είναι καθοριστικός παράγοντας της ταξινόμησης (κάτω από 41, τότε bus και πάνω από 41, τότε van).

2. Χρήση του αλγόριθμου J48 με κατάλληλη επιλογή του ελάχιστου αριθμού αντικειμένων (αρκετά υψηλό) ώστε να αποκαλυφθούν οι σημαντικότεροι κανόνες:

J48 pruned tree
——————

ELONGATEDNESS <= 41
|   MAX.LENGTH ASPECT RATIO <= 7: bus (107.0/21.0)
|   MAX.LENGTH ASPECT RATIO > 7
|   |   SCALED VARIANCE_MINOR <= 721
|   |   |   HOLLOWS RATIO <= 195: opel (39.0/7.0)
|   |   |   HOLLOWS RATIO > 195: saab (213.0/84.0)
|   |   SCALED VARIANCE_MINOR > 721: opel (23.0/1.0)
ELONGATEDNESS > 41
|   MAX.LENGTH ASPECT RATIO <= 8
|   |   SCALED VARIANCE_MINOR <= 305
|   |   |   MAX.LENGTH RECTANGULARITY <= 138
|   |   |   |   PR.AXIS RECTANGULARITY <= 17: van (39.0/12.0)
|   |   |   |   PR.AXIS RECTANGULARITY > 17
|   |   |   |   |   MAX.LENGTH RECTANGULARITY <= 128: opel (32.0/16.0)
|   |   |   |   |   MAX.LENGTH RECTANGULARITY > 128
|   |   |   |   |   |   SCALED RADIUS OF GYRATION <= 140: van (21.0/4.0)
|   |   |   |   |   |   SCALED RADIUS OF GYRATION > 140: opel (20.0/11.0)
|   |   |   MAX.LENGTH RECTANGULARITY > 138: van (46.0/4.0)
|   |   SCALED VARIANCE_MINOR > 305
|   |   |   DISTANCE CIRCULARITY <= 76
|   |   |   |   SKEWNESS ABOUT_MINOR <= 10: bus (137.0/15.0)
|   |   |   |   SKEWNESS ABOUT_MINOR > 10: opel (20.0/9.0)
|   |   |   DISTANCE CIRCULARITY > 76: opel (33.0/16.0)
|   MAX.LENGTH ASPECT RATIO > 8: van (116.0/10.0)

Number of Leaves  :  13

Size of the tree :  25

Παρατηρήσεις:

  • Έχουμε τα 13 βασικότερα φύλλα ταξινόμησης, από τα οποία τα δύο είναι ιδιαίτερα χαρακτηριστικά: πρόκειται για εκείνα τα οποία καθορίζονται από τη μεταβλητή elongatedness της οποίας η τιμή 41 οδηγεί σε πιο ενδελεχή διαχωρισμό των αποτελεσμάτων.
  • Οι δύο αλγόριθμοι συμφωνούν σε μεγάλο βαθμό ως προς την επιλογή του παράγοντα elongatedness ο οποίος μπορεί με ασφάλεια να θεωρηθεί ο πιο κρίσιμος για το σχεδιασμό της εταιρείας που πραγματοποίησε τη συγκεκριμένη μελέτη.

Τελική Εξέταση:Σαλμανίδου Μακρίνα

Θέμα 1.

-Από το preprosess και απο το visualize all κάνουμε έναν έλεγχο.

-Βλέπουμε πως δεν βγάζουμε κανένα συμπέρασμα για το αν θα σβήσουμε κάποια μεταβλητή.

-Από το select attributes χρησιμοποιούμε ConsistencySubsetEval και GreedyStepwise.

-Κρατάμε τις 1,2,3,4,6,7,9,12,14,17 και class για το ίδιο αξιόπιστο αποτέλεσμα.

-Δοκιμάζουμε διάφορους αλγορίθμους με βάση το CorrectlyClassifiedInstances.

-Χρησιμοποιούμε LogitBoost ->AdditiveRegresion  με ποσοστό επιτυχίας 74,26%.

-Αφαιρούμε τις ίδιες μεταβλητές από το test set και με το supplied test set παίρνουμε την predicted.

-Οπότε έχουμε μια στήλη μόνο με good και bad.

Θέμα 2.

Με χρήση των αλγορίθμων PART και JRip έχουμε

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO <= 7 AND
COMPACTNESS > 95: bus (70.0/1.0)

ELONGATEDNESS <= 41 AND
MAX.LENGTH ASPECT RATIO > 7: opel (132.0/65.0)

MAX.LENGTH ASPECT RATIO > 8 AND
HOLLOWS RATIO > 189 AND
SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

(MAX.LENGTH ASPECT RATIO >= 9) and
(DISTANCE CIRCULARITY >= 100) and
(SCALED VARIANCE_MAJOR <= 231) => class =saab (71.0/9.0)

(ELONGATEDNESS >= 43) and
(MAX.LENGTH ASPECT RATIO >= 9) and
(DISTANCE CIRCULARITY >= 73) =>class=van  (86.0/0.0)

Τα παραπάνω δείχνουν τις σωστές και τις λανθασμένες προβλέψεις μέσα στις παρενθέσεις και επιλέχθηκαν λόγω του οτι έχουν τις λιγότερες λάθος προβλέψεις.