Data Mining, a Course by Blog

Entries categorized as 'πηγές'

Factor Analysis and Data Mining with R

May 13, 2008 · 1 Comment

Tο πακέτο FactoMineR (http://factominer.free.fr/index.html), για πολυμεταβλητή ανάλυση, δημιουργεί δικό του μενού στον R-Commander και μπορείτε να το χρησιμοποιήσετε πολύ πιο εύκολα με γραφικά εργαλεία.

Με τον R-Commander δίνετε εντολές στην R με επιλογές από μενου και βλέπετε τα αποτελέσματα μαζί με τον κώδικα που τα παρήγαγε. Τον κώδικα αυτόν μπορείτε να τον τροποποιήσετε και να τον ξανατρέξετε ή να τον αντιγράψετε αλλού.

Για όσους δεν έχουν τον R Commander μπορείτε να τον εγκαταστήσετε μαζί με το FactoMineR τρέχοντας στην R, αφού συνδεθείτε στο internet και επιλέξετε CRAN mirror, την εντολή:

source(”http://factominer.free.fr/install-facto.r”)

Με αυτή την εντολή θα εγκατασταθεί το R-Commander και το FactoMineR και καμια 30ρια ακόμα προαπαιτούμενα πακέτα.

Αν δεν θέλετε το FactoMineR εγκατάστησε μόνο τον R-Commander με την εντολή:

install.packages(”Rcmdr”, dependencies=TRUE)

Μπορείτε να προσθέσετε τα παρακάτω στο τέλος του αρχείου Rprofile.site που είναι στον κατάλογο etc κάτω από αυτόν της R για να τρέχει ο R-Commander με το που ξεκινάει η R:

# add the following to run R-Commander at the beggining
local({
old <- getOption(”defaultPackages”)
options(defaultPackages = c(old, “Rcmdr”))
})

Αν πάλι δεν το θέλετε, μπορείτε να τον ξεκινάτε με την εντολή

library(Rcmdr)

Ένα manual για τον R-Commander θα βρείτε εδώ
http://www.jstatsoft.org/v14/i09/paper

και για το FactoMineR
http://www.agrocampus-rennes.fr/math/Documents/factominer_user2007.pdf
http://www.jstatsoft.org/v25/i01/paper
http://www.agrocampus-rennes.fr/math/husson/user2007-josse-le-husson.pdf

Επίσης, με δεδομένη τη σπουδαιότητα της οπτικοποίησης δεδομένων ως συμπληρωματικό στοιχείο της ανάλυσης, σας ενημερώνω για την R Graph Gallery, όπου μπορείτε να βρείτε πολλά ενδιαφέροντα custom διαγράμματα και συνθέσεις διαγραμμάτων, όλα με τον κώδικά τους, για εύκολη προσαρμογή στα δεδομένα σας. Δείτε επίσης και την R Graphics Gallery

Υ.Γ. όποιος ενδιαφέρεται για sensory analysis μπορεί να χρησιμοποιήσει το SensoMineR http://sensominer.free.fr/ (πακέτο του ιδίου εργαστηρίου http://www.agrocampus-rennes.fr/math/) που επίσης διαθέτει μενού στον R-commander

Categories: πηγές

Open (and not) Data Mining Products

April 18, 2008 · No Comments

Categories: πηγές

Περισσότερες δυνατότητες οπτικοποίησης στο weka

March 20, 2008 · 2 Comments

Το weka παρέχει κάποιες ακόμα δυνατότητες οπτικοποίησης που παρέλειψα να σας επισημάνω κατά τη διάρκεια της διάλεξης. Σας τις αναφέρω αναλυτικά εδώ μέσω παραδείγματος, ερωτήσεις και απορίες όπως πάντα δεκτές, είτε στα σχόλια είτε δια ζώσης.

Ανοίγω το αρχείο soybean.arff στον explorer του weka επιλέγω το πρώτο από δεξιά tab ‘Visualize’. Εμφανίζονται, όπως γνωρίζουμε, scatter plots για κάθε πιθανό ζεύγος μεταβλητών. ΑΝ τώρα κάνετε τη μαγική κίνηση (που δεν πειχειρήσαμε στη διάλεξη)΄διπλού κλικ΄πάνω σε ένα οποιοδήποτε γράφημα, για παράδειγμα στο date vs class που εμφανίζεται στη θέση [1,1] του ΄πίνακα΄, τότε εμφανίζεται το γράφημα σε νέο παράθυρο, σαν αυτό που παρουσιάζω εδώ, με αρκετές επιπλέον δυνατότητες.

picture-1.png

(Δοκιμάστε το jitter, είναι πολύ χρήσιμο σε αυτή την περίπτωση.) Έχουμε πλέον τη δυνατότητα να διακρίνουμε το καθένα scatter plot με μεγαλύτερη ανάλυση, ενώ στη δεξιά στήλη βλέπουμε όλα τα scatter plots. Επίσης, μπορούμε να επιλέξουμε ποια μεταβλητή θέλουμε να υπάρχει στον άξονα-x, στον άξονα-y και ποια θα είναι αυτή που θα καθορίζει τη χρωματική κλίμακα.

Ιδιαίτερα ενδιαφέρουσα είναι ωστόσο και η δυνατότητα που μας παρέχει το τέταρτο drop down menu, με την αρχική ένδειξη ‘Select Instance’. Επιλέξτε για παράδειγμα το rectangle, ορίστε μία ορθογώνια περιοχή μέσα στο διάγραμμα και πατήστε ‘Submit’. Στο σχήμα που ακολουθεί, βλέπετε για παράδειγμα πολλαπλές επιλογές ορθογωνίων (εφικτές πριιν πατήσει κανείς το’Submit’).

picture-2.png

Αυτομάτως το διάγραμμα παρουσιάζει πλέον μόνο τα σημεία που περικλείονται στην επιλογή μας, επίσης όχι μόνο στο τρέχων διάγραμμα, αλλά και σε όλα τα υπόλοιπα που διακρίνονται στη δεξιά στήλη. Πατήστε σε κάποιο από αυτά για να το φέρετε στο προσκήνιο.

picture-3.png

Το χαρακτηριστικό αυτό είναι συχνά ιδιαίτερα χρήσιμο, για να αντιληφθεί κανείς για παράδειγμα αν κάποιο instance που μπορεί να χαρακτηριστεί ως outlier σε συγκεκριμένη επιλογή αξόνων, δικαιολογεί αυτό τον χαρακτηρισμό γενικότερα ή όχι. Τα παραπάνω ίσως είναι προαιρετικά χρήσιμα και για την Εργασία 02.

Categories: πηγές

PNC2 Rule Induction System

March 19, 2008 · No Comments

The PNC2 Rule Induction System is a free machine learning software tool, that automatically induces rules from your data using the newly invented PNC2 Cluster Algorithm. An integrated parameter tuning component allows an easy adjustment of the algorithm’s behaviour to your particular data without any further knowledge.

Categories: πηγές

Άλλες πηγές

February 28, 2008 · 1 Comment

  • The Data Mining Software Repository makes available a collection of free (as in libre) open source software tools for data mining
  • The Data Mining Catalogue lists many of the free and commercial data mining tools that are available on the market.
  • The Australasian Data Mining Conferences are supported by Togaware, which also hosts the web site.
  • Information about the Pacific Asia Knowledge Discovery and Data Mining series of conferences is also available.
  • A Data Mining course is taught at the Australian National University.
  • See also the Canberra Analytics Practise Group.
  • A Data Mining Course was held at the Harbin Institute of Technology Shenzhen Graduate School, China, 6 December - 13 December 2006. This course introduced the basic concepts and algorithms of data mining from an applications point of view and introduced the use of R and Rattle for data mining in practise.
  • A Data Mining Workshop was held over two days at the University of Canberra, 27-28 November, 2006. This course introduced the basic concepts and algorithms for data mining and the use of R and Rattle.

Οι παραπάνω σύνδεσμοι προέρχονται από τη σελίδα http://datamining.togaware.com/ όπου θα βρείτε και την εφαρμογή Rattle (R)

Categories: πηγές

Αντί εισαγωγής

February 27, 2008 · No Comments

 Η ανάγκη που οδήγησε στη δημιουργία του ερευνητικού πεδίου που μελετάμε, σε μια εξαιρετική περιγραφή της:

The rapid progress in digital data acquisition has led to the fast-growing amount
of data stored in databases, data warehouses, or other kinds of data repositories. (Zhou, 2003)

Although valuable information may be hiding behind the data, the overwhelming data volume makes it difficult for human beings to extract them without powerful tools. In order to relieve such a data rich but information poor dilemma, during the late 1980s, a new discipline named data mining emerged, which devotes itself to extracting knowledge from huge volumes of data, with the help of the ubiquitous modern computing devices, namely, computer. (Markellos et al., 2003)

Αναφορές:

Zhou, Z.H., 2003. Three Perspectives of Data Mining. Journal of Artificial Intelligence, 143(1), pp.139-146.

Markellos, K., Markellou, P., Rigou, M., and Sirmakessis, S., 2003. Mining for Gems of Information. In S. Sirmakessis Ed. Studies in Fuzziness and Soft Computing, Text Mining and its Applications: Results of the NEMIS Launch Conference on the 1st International Workshop on Text Mining and its Applications (Patras, Greece, April 5th, 2003). Berlin, Heidelberg: Springer-Verlag, 2004, Vol.138, pp.1-11.

Categories: πηγές