Data Mining, a Course by Blog

Entries from April 2008

Ένα διαφορετικό δένδρο απόφασης

April 24, 2008 · No Comments

Ακολουθεί μία απόπειρα μορφοποίησης της διαδικασίας απόφασης που φαίνεται πως ακολουθούν μέχρι στιγμής οι αμερικανοί ψηφοφόροι των δημοκρατικών. Ο στόχος της παράθεσης δεν επεκτείνεται πέραν της παρουσίασης ενός αρκετά ‘διαφορετικού’ των συνηθισμένων δένδρου, επίσης, μην αποπειραθείτε να με ρωτήσετε τον ‘αλγόριθμο’ που έδωσε το αποτέλεσμα :)

πηγή

Categories: άλλο

Ερώτηση για attribute selection

April 22, 2008 · 2 Comments

Είναι δόκιμη η χρήση του Pearson Correlation Test Statistic για την επιλογή ασυσχέτιστων (και συνεπώς αχρείαστων) μεταβλητών, ή δεν ενδείκνυται επειδή περιορίζεται μόνο στη γραμμική συσχέτιση των μεταβλητών με την output ; (Π.χ. στο παράδειγμά μας 6 μεταβλητές δεν περνούν τον έλεγχο).

Μήπως θα ήταν χρήσιμο να δοκιμάζαμε μη γραμμικές μεθόδους όπως mutual information/total correlation για έλεγχο οποιουδήποτε είδους συσχέτισης, ή μήπως απαραμετρικές μεθόδους (μιας και μόνο Normal δεν είναι οι κατανομές των χαρακτηριστικών) όπως το Spearman’s ρ ;

Σας φαίνεται λογική η επιλογή μεταβλητών με βάση τη συσχέτισή τους με την output;

Περιλαμβάνεται κάτι από αυτά στο Attribute Selection του Weka;

Categories: ερωτήσεις

EΡΩΤΗΣΗ

April 20, 2008 · 4 Comments

prospathw na treksw ton algorithmo JRip or PRism. Enw kanw kanonika Discretize sto train set mou kai ton trexw kanonika, meta kanw kai sto quiz set mou Discretize gia na einai compatible ta atribbutes kai kanw to kainourgio quizset openfile sto set opws me ton idio tropo opws stin proigoumeni ergasia kai den mou trexei me tipota. Ti na kanw lathos?

Categories: ερωτήσεις

Open (and not) Data Mining Products

April 18, 2008 · No Comments

Categories: πηγές

Farecast: Μία τυπική εφαρμογή data mining, και η αξία της

April 18, 2008 · No Comments

H Farecast συλλέγει καθημερινά εκατομμύρια δεδομένων περί πτήσεων: ώρες, διαθεσιμότητα και, κυρίως, τιμές. Πηγή των δεδομένων αποτελεί αρχικά το ομοιογενές αρχείο δεδομένων της αντίστοιχης αμερικανικής ‘Υπηρεσίας Πολιτικής Αεροπορίας’, η οποία μάλλον είναι και η μοναδική που διαθέτει πληθώρα ιστορικών στοιχείων σχετικά με τα μεγέθη αυτά (αυτός είναι και ο λόγος που η υπηρεσία δεν έχει κατορθώσει να επεκταθεί πλήρως εκτός ΗΠΑ ακόμα), επίσης δε και στις ιστοσελίδες των ίδιων των αεροπορικών εταιρειών.

Αφού λοιπόν υπάρχουν διαθέσιμα τα δεδομένα αυτά, η Farecast  τα χρησιμοποιεί (για μαντέψτε, σωστά) για να τρέξει διάφορα μοντέλα data mining και να επιστρέψει, εκτός από πίνακα συσχέτισης τιμών με ώρες πτήσης, επίσης και κυρίως την πρόβλεψή της εάν οι τιμές ανέβουν ή πέσουν, οπότε συμφέρει κανείς να αγοράσει τώρα τα εισητήριά του ή να περιμένει (δείτε τα ακόλουθα δύο σχήματα, επίσης ‘our technology‘ & ‘how it works‘).

Γιατί σας τα αναφέρω όλα αυτά; Επειδή, πέρα του ότι είμαι σίγουρος πως, αν είχατε διαθέσιμα αντίστοιχα δεδομένα, θα μπορούσατε να ανταπεξέλθετε επιτυχώς στο ‘farecast task’ (χμμ, ίσως είναι καλή ιδέα κάτι τέτοιο για την εξέτασή σας στο τέλος του εξαμήνου..), κάνω την αναφορά καθώς σήμερα ανακοινώθηκε πως η Microsoft αγοράζει την Farecast αντί ποσού $115Μ.

Ιδού λοιπόν, μία σχετικά απλοϊκή και εφικτή εφαρμογή data mining, ωστόσο εξαιρετικά εκτελεσμένη (προσέξτε πως ο τελικός χρήστης δεν αντιλαμβάνεται τι τρέχει από πίσω, απλά λαμβάνει κάποια αποτελέσματα, εξαιρετικά απλά, πχ κόκκινα ή πράσινα βελάκια ανόδου ή πτώσης, που με άλλες τεχνικές δεν θα μπορούσε να διαθέτει. αυτό οφείλει να είναι μπούσουλας για εσάς όταν επιχειρείτε χρήση των τεχνικών του μαθήματος εκτός ακαδημαϊκών χώρων), η εφαρμογή και η αξία της. Ποιος είναι ο επόμενος;

Categories: άλλο

Προσοχή, ‘wekas’

April 16, 2008 · No Comments

Η ένδειξη απευθύνεται σε όσους πρόκειτια να ασχοληθούν αποκλειστικά με το μάθημα κατά τη διάρκεια των διακοπών, δεν συνίσταται! :-)

Σημείωση: Το weka είναι πτηνό, χωρίς πτητική ικανότητα, που ενδημεί στη Νέα Ζηλανδία, ‘πατρίδα’ και του ‘δικού μας’ λογισμικού weka που δημιουργήθηκε από το τοπικό πανεπιστήμιο.

photo by Andrew Turner on flickr, CC

Categories: άλλο

Εργασία 05…

April 15, 2008 · 1 Comment

…όπως σας είπα, δεν υπάρχει. Ωστόσο, για να κρατήσω ζωντανό το ενδιαφέρον σας και κατά τη διάρκεια των διακοπών του Πάσχα (και για να μην σας πέσει ο οβελίας τόσο βαρύς ώστε να ξεχάσετε τα όσα έχουμε αφομοιώσει ως τώρα), ανακοινώνεται ο εξής ‘μίνι εβδομαδιαίος διαγωνισμός’, αντί εργασίας:

Ο πρωτοπόρος του Leaderboard κάθε Τρίτη λαμβάνει βαθμολογικό βραβείο 5 μονάδων. Στην πράξη, θα υπολογίζω τα αποτελέσματα για υποβολές περί quiz data set μέχρι και τα μεσάνυχτα της προηγούμενης Δευτέρας και εκείνος που θα διαθέτει το καλύτερο success rate από το σύνολο των υποβληθέντων από όλους αποτελεσμάτων μέχρι εκείνη τη στιγμή, θα λαμβάνει το ‘βραβείο’.

Οι ‘μίνι διαγωνισμοί’ ισχύουν για τις επόμενες 3 εβδομάδες, δηλαδή για τις

  • Τρίτη 22 Απριλίου (’Μεγάλη’)
  • Τρίτη 29 Απριλίου (’του Πάσχα’)
  • Τρίτη 6 Μαϊου (επόμενη διάλεξη)

Καλά αποτελέσματα και καλές διακοπές! 

Categories: εργασίες

Διάλεξη 05: Αλγόριθμοι εκμάθησης, μέρος α, δένδρα και κανόνες (video)

April 15, 2008 · No Comments

Ακολουθούν τα video και οι διαφάνειες της διάλεξης 05 νωρίτερα σήμερα.

Ώρα 1η, τα βασικά

Ώρα 2η, περισσότερο εξεζητημένα ζητήματα

Και το .pdf της διάλεξης:

lecture05_algorithms_trees&rules.pdf

Categories: video

Διάλεξη 05: Αλγόριθμοι εκμάθησης, μέρος α: Δένδρα & Κανόνες (live)

April 15, 2008 · No Comments

Categories: video

Εργασία 04: Βαθμολόγηση

April 15, 2008 · No Comments

Η εργασία 04, όπως έχει αναφερθεί, απαιτεί απλά την υποβολή του πρώτου συνόλου αποτελεσμάτων για το quiz set του θέματος. Εντός προθεσμίας απέστειλαν αποτελέσματα οι ακόλουθοι, οι οποίοι και λαμβάνουν τους σχετικούς βαθμούς (σε χρονολογική σειρά):

  • Καναβού Ελευθερία: 5/5
  • Ανδρουλάκης Μάνος: 5/5
  • Πανδή Αθηνά: 5/5
  • Λυγκώνη Ειρήνη: 5/5
  • Σκούντζου Άννα: 5/5
  • Δόντας Γιώργος: 5/5
  • Ζαχαρίδου Ηρώ: 5/5
  • Μάσσου Λίνα: 5/5
  • Πετράτου Θεώνη: 5/5

Δημιουργήθηκαν αρκετές απορίες, πράγμα αναμενόμενο αν αναλογιστεί κανείς το περίπλοκο της διαδικασίας και την περιγραφή της απλά μέσω της σχετικής ανάρτησης και όχι ζωντανά κατά τη διάρκεια διάλεξης, ωστόσο αυτές πρόκειται να επιλυθούν στο σύνολό τους στη σημερινή διάλεξη.

Στόχος εν τέλει ήταν να αρχίσετε να ασχολείστε με το θέμα, το οποίο και απαιτεί γνώση και χρήση του συνόλου των διαδικασιών που έχουν και πρόκειται να διδαχθούν, και νομίζω ότι κάτι τέτοιο επιτεύχθηκε, τουλάχιστον αν κρίνει κανείς από τον ‘σκληρό ανταγωνισμό‘ που παρατηρείται ως προς το success rate των υποβολών μέχρι στιγμής. Περισσότερα στη συνέχεια.

Categories: εργασίες