Data Mining, a Course by Blog

Το μέλλον του παρόντος blog

May 13, 2008 · No Comments

 

Το μάθημα πλησιάζει στο τέλος του, ωστόσο το εργαλείο μέσα από το οποίο υλοποιήθηκε -με καινοτομικό για τα ελληνικά και όχι μόνο δεδομένα τρόπο- θα βρίσκεται διαθέσιμο και μετά από τη λήξη του ακαδημαϊκού εξαμήνου. Το ερώτημα λοιπόν είναι ευθύ: Με ποιους τρόπους και σκοπούς θέλετε να συνεχίσει η ύπαρξη του παρόντος blog και μετά την περάτωση του μαθήματος; Θεωρείται κάτι τέτοιο σκόπιμο και πως θα επιθυμούσατε να σας ωφελήσει;

Έχω κάποιες ιδέες στο μυαλό μου, ωστόσο είμαι σίγουρος πως αυτές που θα προκύψουν από τα σχόλια θα είναι αρκετά καλύτερες. Σας ακούω λοιπόν…

Categories: άλλο

The NetFlix Prize

May 13, 2008 · No Comments

Η NetFlix είναι μία καινοτομική εταιρεία ενοικίασης ταινιών από την απέναντι όχθη του Ατλαντικού. Σε αυτήν μπορεί κανείς, με σταθερό μηνιαίο κόστος, να παρακολουθήσει ταινίες τις αρεσκείας του κατευθείαν στον υπολογιστή του, δείτε και το σχετικό σχήμα.

Με εκατομμύρια πελάτες και τίτλους ταινιών διαθέσιμους, η NetFlix διαθέτει πλείστα ratings ταινιών (1-5 αστέρια), ωστόσο υψηλής σημασίας για αυτήν είναι η πρόβλεψη της βαθμολογίας που θα καταχωρήσει ένας χρήστης σε μία συγκεκριμένη ταινία. Οι χρήσεις για κάτι τέτοιο είναι αρκετές, για παράδειγμα η σύσταση ενός συνόλου ταινιών σε χρήστη με δεδομένο ‘ιστορικό παρακολούθησης’, για μεγιστοποίηση του αριθμού εκείνων που θα επιλέξουν να παρακολουθήσουν τις προτεινόμενες ταινίες. Και, αν μη τι άλλο έχουν ιδιαίτερη αξία. Το τελευταίο αποδεικνύεται από την ενδιαφέρουσα επιλογή της NetFlix, να ανοίξει το πρόβλημα προς το διεθνές ερευνητικό κοινό και, παρέχοντας σχετικό dataset να ζητήσει το βέλτιστο αλγόριθμο και τις προβλέψεις αυτού. Το όνομα του διαγωνισμού: The NetFlix Prize.

Το κίνητρο είναι αρκετά σημαντικό, ο διαγωνισμός είναι ανοικτός σε όλους και να είστε σίγουροι πως μέσα από το μάθημα έχετε αποκομίσει τις αναγκαίες γνώσεις για να συμμετέχετε. Παραθέτω λοιπόν λεπτομέρειες για τους πιθανά ενδιαφερόμενους:

 

We’re quite curious, really. To the tune of one million dollars.

 

  • Contest begins October 2, 2006 and continues through at least October 2, 2011.
  • Contest is open to anyone, anywhere (except certain countries listed below).
  • You have to register to enter.
  • Once you register and agree to these Rules, you’ll have access to the Contest training data and qualifying test sets.
  • To qualify for the $1,000,000 Grand Prize, the accuracy of your submitted predictions on the qualifying set must be at least 10% better than the accuracy Cinematch can achieve on the same training data set at the start of the Contest.
  • To qualify for a year’s $50,000 Progress Prize the accuracy of any of your submitted predictions that year must be less than or equal to the accuracy value established by the judges the preceding year.
  • To win and take home either prize, your qualifying submissions must have the largest accuracy improvement verified by the Contest judges, you must share your method with (and non-exclusively license it to) Netflix, and you must describe to the world how you did it and why it works.
Upon registration, Participants may access the Contest training data and qualifying test sets. The training data set consists of more than 100 million ratings from over 480 thousand randomly-chosen, anonymous customers on nearly 18 thousand movie titles. The data were collected between October, 1998 and December, 2005 and reflect the distribution of all ratings received by Netflix during this period. The ratings are on a scale from 1 to 5 (integral) stars.
In addition to the training data set, a qualifying test set is provided containing over 2.8 million customer/movie id pairs with rating dates but with the ratings withheld. These pairs were selected from the most recent ratings from a subset of the same customers in the training data set, over a subset of the same movies.

The qualifying set is divided into two disjoint subsets containing randomly selected pairs from the qualifying set. The assignment of pairs to these subsets is not disclosed. The Site will score each subset by computing the square root of the averaged squared difference between each prediction and the actual rating (the root mean squared error or “RMSE”) in the subset, rounded to the nearest .0001.

The RMSE for the first “quiz” subset will be reported publicly on the Site; the RMSE for the second “test” subset will not be reported publicly but will be employed to qualify a submission as described below. The reported RMSE scores on the quiz subset provide a public announcement that a potential qualifying score has been reached and provide feedback to Participants on both their absolute and relative performance.

Τo qualify for the Grand Prize the RMSE of a Participant’s submitted predictions on the test subset must be less than or equal to 90% of 0.9525, or 0.8572 (the “qualifying RMSE”). 

Contest Prizes:

  1. Grand Prize: $1,000,000 (USD) Cash
  2. Progress Prizes: $50,000 (USD) Cash each award

Categories: άλλο

Factor Analysis and Data Mining with R

May 13, 2008 · 1 Comment

Tο πακέτο FactoMineR (http://factominer.free.fr/index.html), για πολυμεταβλητή ανάλυση, δημιουργεί δικό του μενού στον R-Commander και μπορείτε να το χρησιμοποιήσετε πολύ πιο εύκολα με γραφικά εργαλεία.

Με τον R-Commander δίνετε εντολές στην R με επιλογές από μενου και βλέπετε τα αποτελέσματα μαζί με τον κώδικα που τα παρήγαγε. Τον κώδικα αυτόν μπορείτε να τον τροποποιήσετε και να τον ξανατρέξετε ή να τον αντιγράψετε αλλού.

Για όσους δεν έχουν τον R Commander μπορείτε να τον εγκαταστήσετε μαζί με το FactoMineR τρέχοντας στην R, αφού συνδεθείτε στο internet και επιλέξετε CRAN mirror, την εντολή:

source(”http://factominer.free.fr/install-facto.r”)

Με αυτή την εντολή θα εγκατασταθεί το R-Commander και το FactoMineR και καμια 30ρια ακόμα προαπαιτούμενα πακέτα.

Αν δεν θέλετε το FactoMineR εγκατάστησε μόνο τον R-Commander με την εντολή:

install.packages(”Rcmdr”, dependencies=TRUE)

Μπορείτε να προσθέσετε τα παρακάτω στο τέλος του αρχείου Rprofile.site που είναι στον κατάλογο etc κάτω από αυτόν της R για να τρέχει ο R-Commander με το που ξεκινάει η R:

# add the following to run R-Commander at the beggining
local({
old <- getOption(”defaultPackages”)
options(defaultPackages = c(old, “Rcmdr”))
})

Αν πάλι δεν το θέλετε, μπορείτε να τον ξεκινάτε με την εντολή

library(Rcmdr)

Ένα manual για τον R-Commander θα βρείτε εδώ
http://www.jstatsoft.org/v14/i09/paper

και για το FactoMineR
http://www.agrocampus-rennes.fr/math/Documents/factominer_user2007.pdf
http://www.jstatsoft.org/v25/i01/paper
http://www.agrocampus-rennes.fr/math/husson/user2007-josse-le-husson.pdf

Επίσης, με δεδομένη τη σπουδαιότητα της οπτικοποίησης δεδομένων ως συμπληρωματικό στοιχείο της ανάλυσης, σας ενημερώνω για την R Graph Gallery, όπου μπορείτε να βρείτε πολλά ενδιαφέροντα custom διαγράμματα και συνθέσεις διαγραμμάτων, όλα με τον κώδικά τους, για εύκολη προσαρμογή στα δεδομένα σας. Δείτε επίσης και την R Graphics Gallery

Υ.Γ. όποιος ενδιαφέρεται για sensory analysis μπορεί να χρησιμοποιήσει το SensoMineR http://sensominer.free.fr/ (πακέτο του ιδίου εργαστηρίου http://www.agrocampus-rennes.fr/math/) που επίσης διαθέτει μενού στον R-commander

Categories: πηγές

Η βαθμολόγησή σας έως τώρα

May 13, 2008 · No Comments

Ακολουθεί η βαθμολόγηση που έχει συμπληρώσει ως τώρα ο καθένας από εσάς, με βάση τις Εργασία01/Εργασία02/Εργασία03/Εργασία04/Εργασία05/Εργασία06

  • Μάνος Ανδρουλάκης: 5/5/5/5/0/5 (25)
  • Γιώργος Δοντάς: 5/5/0/5/15/0 (30)
  • Ηρώ Ζαχαρίδου: 5/5/6/5/0/5 (26)
  • Ελευθερία Καναβού: 5/5/5/5/0/6 (26)
  • Ειρήνη Λυγκώνη: 5/5/5/5/0/5 (25)
  • Λίνα Μάσσου: 5/5/5/5/0/5 (25)
  • Αθηνά Πανδή: 6/5/5/5/0/5 (26)
  • Θεώνη Πετράτου: 5/5/5/5/0/5 (25)
  • Άννα Σκούντζου: 5/5/5/5/0/0 (20)
  • Ειρήνη Σπαρτινού: 4/4/5/0/0/5 (18 )

Αν παρατηρήσετε κάποιο λάθος, ενημερώστε με σχόλιο.

Πηγές:

Υπενθυμίζεται πως, σύμφωνα με την αρχική συμφωνία περί αξιολόγησης, το κύριο θέμα βαθμολογείται με 50 μονάδες, ενώ η εξέταση με 30. Επομένως, βάλτε τα δυνατά σας, το παιχνίδι κρίνεται τώρα :)

Categories: άλλο

Εργασία 07: Εκφώνηση

May 13, 2008 · No Comments

Ως 7η (και τελευταία) εργασία, προβλέπεται η υποβολή (παράλληλα με το θέμα) και παρουσίαση στην αίθουσα περίληψης έκτασης 3 διαφανειών από κάθε προηγηθείσα διάλεξη. Με άλλα λόγια, ο καθένας από εσάς πρέπει να αναρτήσει (με καταληκτική ημερομηνία τα μεσάνυχτα της μεθεπόμενης Δευτέρας 26 Μαϊου) και παρουσιάσει στην καταληκτική διάλεξη του μαθήματος, εντός 5 λεπτών, 3 διαφάνειες περίληψης από την διάλεξη που του έχει ανατεθεί, με την εξής (αλφαβητική) κατανομή:

  • Μάνος Ανδρουλάκης: Διάλεξη 01
  • Ηρώ Ζαχαρίδου: Διάλεξη 02
  • Ελευθερία Καναβού: Διάλεξη 03
  • Ειρήνη Λυγκώνη: Διάλεξη 04
  • Λίνα Μάσσου: Διάλεξη 05
  • Αθηνά Πανδή: Διάλεξη 06
  • Θεώνη Πετράτου: Διάλεξη 07
  • Ειρήνη Σπαρτινού: Ok, εσύ θα μας παρουσιάσεις τα βασικά του weka σε 5′

Categories: εργασίες

Εργασία 06: Βαθμολόγηση

May 13, 2008 · No Comments

Η βαθμολόγηση της Εργασίας 06 έχει ως εξής:

  • Λίνα Μάσσου: 5/5
  • Ηρώ Ζαχαρίδου: 5/5
  • Ανδρουλάκης Μάνος: 5/5
  • Πανδή Αθηνά: 5/5
  • Ειρήνη Σπαρτινού: 5/5
  • Καναβού Ελευθερία: 6/5
  • Ειρήνη Λυγκώνη: 5/5
  • Θεώνη Πετράτου: 5/5

Categories: εργασίες

Διάλεξη 07: Αλγόριθμοι Εκμάθησης, μέρος Γ’ (Συναρτήσεις & μεταμαθησιακοί αλγόριθμοι) (video)

May 13, 2008 · No Comments

Ακολουθούν τα videos και οι διαφάνειες της Διάλεξης 07 με αντικείμενο γραμμικά μοντέλα, μηχανές διανυσμάτων υποστήριξης, νευρωνικά δίκτυα και μετα-μαθησιακούς αλγορίθμους.

Ωρα πρώτη: Γραμμικά μοντέλα & support vector machines

Ώρα δεύτερη: Νευρωνικά δίκτυα & μεταμαθησιακοί αλγόριθμοι

Διαφάνειες: Lecture07_Algorithms_linear,supportvectors,neuralnets,metaalgorithms.pdf

Categories: video · σημειώσεις