Data Mining, a Course by Blog

Factor Analysis and Data Mining with R

May 13, 2008 · 1 Comment

Tο πακέτο FactoMineR (http://factominer.free.fr/index.html), για πολυμεταβλητή ανάλυση, δημιουργεί δικό του μενού στον R-Commander και μπορείτε να το χρησιμοποιήσετε πολύ πιο εύκολα με γραφικά εργαλεία.

Με τον R-Commander δίνετε εντολές στην R με επιλογές από μενου και βλέπετε τα αποτελέσματα μαζί με τον κώδικα που τα παρήγαγε. Τον κώδικα αυτόν μπορείτε να τον τροποποιήσετε και να τον ξανατρέξετε ή να τον αντιγράψετε αλλού.

Για όσους δεν έχουν τον R Commander μπορείτε να τον εγκαταστήσετε μαζί με το FactoMineR τρέχοντας στην R, αφού συνδεθείτε στο internet και επιλέξετε CRAN mirror, την εντολή:

source(”http://factominer.free.fr/install-facto.r”)

Με αυτή την εντολή θα εγκατασταθεί το R-Commander και το FactoMineR και καμια 30ρια ακόμα προαπαιτούμενα πακέτα.

Αν δεν θέλετε το FactoMineR εγκατάστησε μόνο τον R-Commander με την εντολή:

install.packages(”Rcmdr”, dependencies=TRUE)

Μπορείτε να προσθέσετε τα παρακάτω στο τέλος του αρχείου Rprofile.site που είναι στον κατάλογο etc κάτω από αυτόν της R για να τρέχει ο R-Commander με το που ξεκινάει η R:

# add the following to run R-Commander at the beggining
local({
old <- getOption(”defaultPackages”)
options(defaultPackages = c(old, “Rcmdr”))
})

Αν πάλι δεν το θέλετε, μπορείτε να τον ξεκινάτε με την εντολή

library(Rcmdr)

Ένα manual για τον R-Commander θα βρείτε εδώ
http://www.jstatsoft.org/v14/i09/paper

και για το FactoMineR
http://www.agrocampus-rennes.fr/math/Documents/factominer_user2007.pdf
http://www.jstatsoft.org/v25/i01/paper
http://www.agrocampus-rennes.fr/math/husson/user2007-josse-le-husson.pdf

Επίσης, με δεδομένη τη σπουδαιότητα της οπτικοποίησης δεδομένων ως συμπληρωματικό στοιχείο της ανάλυσης, σας ενημερώνω για την R Graph Gallery, όπου μπορείτε να βρείτε πολλά ενδιαφέροντα custom διαγράμματα και συνθέσεις διαγραμμάτων, όλα με τον κώδικά τους, για εύκολη προσαρμογή στα δεδομένα σας. Δείτε επίσης και την R Graphics Gallery

Υ.Γ. όποιος ενδιαφέρεται για sensory analysis μπορεί να χρησιμοποιήσει το SensoMineR http://sensominer.free.fr/ (πακέτο του ιδίου εργαστηρίου http://www.agrocampus-rennes.fr/math/) που επίσης διαθέτει μενού στον R-commander

Categories: πηγές

Ερώτηση για attribute selection

April 22, 2008 · 2 Comments

Είναι δόκιμη η χρήση του Pearson Correlation Test Statistic για την επιλογή ασυσχέτιστων (και συνεπώς αχρείαστων) μεταβλητών, ή δεν ενδείκνυται επειδή περιορίζεται μόνο στη γραμμική συσχέτιση των μεταβλητών με την output ; (Π.χ. στο παράδειγμά μας 6 μεταβλητές δεν περνούν τον έλεγχο).

Μήπως θα ήταν χρήσιμο να δοκιμάζαμε μη γραμμικές μεθόδους όπως mutual information/total correlation για έλεγχο οποιουδήποτε είδους συσχέτισης, ή μήπως απαραμετρικές μεθόδους (μιας και μόνο Normal δεν είναι οι κατανομές των χαρακτηριστικών) όπως το Spearman’s ρ ;

Σας φαίνεται λογική η επιλογή μεταβλητών με βάση τη συσχέτισή τους με την output;

Περιλαμβάνεται κάτι από αυτά στο Attribute Selection του Weka;

Categories: ερωτήσεις

Open (and not) Data Mining Products

April 18, 2008 · No Comments

Categories: πηγές

Εργασία03: Γιώργος Δοντάς

April 11, 2008 · 3 Comments

  • H 38 μπορεί άνετα να εξαιρεθεί
  • Η 34 φαίνεται να έχει ένα και μοναδικό outlier. Θα τολμήσω να την εξαιρέσω και αυτή.
  • ReplaceMissingValues
  • επιλέγω class = none και κανω discretize την output attribute σε 2 bins. Επειτα την ξαναορίζω ως class
  • discretize/make binary 6,7,35,36,39

Στη συνέχεια θα επιχειρούσα attribute selection
Μία λύση είναι να κάνω discretize όλες τις υπόλοιπες μεταβλητές και μετά να προχωρήσω σε attribute selection. Η άλλη να προχωρήσω με τις μεταβλητές ως έχουν.

Αν κάνω discretize με useBetterEncoding=true οι μεταβλητές 3 και 4 καθίστανται άχρηστες και εξαιρούνται.

Αν δεν κάνω discretize, να κάποια αποτελέσματα των attribute evaluators (όπου έχω εξαιρέσει τον έλεγχο των binary 6,7,35,36,39 που τις θέλω) 

Relief : 24,23,33,12,30,14,5,4,31,15,36,28,21,27,20,32,
18,10,29,17,9,22,26,11,8,19,2,13,25,16,1,3

SVM :    32,24,27,28,13,17,8,33,12,36,23,21,29,16,26,9,
19,18,20,30,10,22,5,11,4,25,2,3,31,14,15,1

PCA :    13,14,11,12,17,18,15,16,3,4,1,2,9,10,5,8,29,30,
27,28,33,36,31,32,21,22,19,20,25,26,23,24

SymmetricUncert : 24,8,22,17,21,10,9,32,11,18,20,19,28,27,
33,13,29,12,26,31,14,15,25,36,23,1,16,30,2,5,4,3

1R :     24,17,8,32,28,9,11,22,18,19,10,20,27,21,33,13,25,
29,2,1,16,3,14,36,12,23,15,30,5,4,26,31

InfoGain : 24,32,17,8,19,9,11,20,10,22,18,28,21,33,13,27,
29,12,26,14,31,15,36,23,30,25,1,16,2,5,4,3

Gain ratio : 21,22,8,10,18,11,9,24,20,17,27,19,33,28,32,25,
16,13,2,1,29,26,12,31,15,14,36,5,23,30,4,3

ChiSquared : 24,32,17,8,9,11,19,20,10,22,28,18,21,33,27,
13,29,12,14,26,31,15,36,23,25,30,1,16,2,5,4,3

Η PCA φαίνεται να είναι τελείως κόντρα στο ρεύμα και την αγνοώ. Από τις υπόλοιπες οι πέντε τελευταίες συμφωνούν σε μεγάλο βαθμό γι’ αυτό και θα βασιστώ περισσότερο σ’αυτές για την επιλογή μου.

Βάσει αυτών θα δοκίμαζα να εξαιρέσω (με σειρά προτεραιότητας) τις : 3,4,5,2,1,16,15,30,14,31,26,25,23,36,29,13

Categories: εργασίες

WEKA Filters and Attribute Selection

April 4, 2008 · 3 Comments

Categories: weka

Using WEKA in MATLAB

March 31, 2008 · 4 Comments

Categories: weka

Ερωτήσεις

March 26, 2008 · 6 Comments

1) Tι κάνει το κουμπί Filter στο Preprocess;

2) Tι κάνει το κουμπί Clear στο παράθυρο που ανοίγει με click σε scatterplot στο Visualize;

3) Το Weka δεν τρέχει σε Vista; Έχει σημασία αν υπάρχει internet;

Categories: ερωτήσεις

Εργασία02: Γιώργος Δοντάς

March 20, 2008 · 8 Comments

1) arff file: arff sample file

2) Αρχείο soybean.arff

Οι 4 τελευταίες ασθένειες έχουν για τα περισσότερα χαρακτηριστικά άγνωστες τιμές, άρα είναι μάλλον δύσκολη η εξαγωγή συμπερασμάτων για αυτές.

ENVIRONMENT

Τα (11) χαρακτηριστικά του περιβάλλοντος δεν παρέχουν άμεσα ορατές ενδείξεις συσχέτισης με ασθένειες. Τα πλέον ασυσχέτιστα φαίνεται να είναι τα cropping history , hail damage και seed treatment. To πλέον ορατό είναι αυτό που εκφράζεται στον προ-τελευταίο κανόνα.

LEAF

Φαίνεται ότι οι ασθένειες rhizoctonia-root-rot και diaporthe-pod-&-stem-blight δεν προκαλούν ποτέ ανωμαλίες στα φύλλα.

STEM

To mycelium έχει τεράστια συγκέντρωση στην τιμή absent. Δεν το εξαιρούμε όμως γιατί θα χάναμε τον τελευταίο από τους παρακάτω κανόνες. Αν υπάρχει leaf malformation τότε και τα 9 χαρακτηριστικά του stem παραμένουν ανεπηρέαστα.

SEED

Αν υπάρχει leaf malformation τότε τα 4 από τα 5 χαρακτηριστικά του seed παραμένουν ανεπηρέαστα (εκτός του shriveling).

FRUIT

Αν υπάρχει leaf malformation κανένα από τα 2 χαρακτηριστικά του φρούτου δεν φαίνεται να επηρεάζεται. Σε κάθε περίπτωση αν τα χαρακτηριστικά του φρούτου είναι φυσιολογικά αποκλείονται οι rhizoctonia-root-rot και phytophthora-rot.

ΑΜΕΣΑ ΟΡΑΤΟΙ ΚΑΝΟΝΕΣ

If internal discoloration = brown then class = brown-stem-rot

If internal discoloration = black then class = charcoal-rot

If leaf mildew growth = lower-surf then class = downy-mildew

If leaf mildew growth = upper-surf then class = powdery-mildew

If damaged area = low_areas then class = rhizoctonia-root-rot

If stem cankers = below soil then class = rhizoctonia-root-rot

If external decay of stem = watery then class = phytophthora-rot

If sclerotia = present then class = charcoal-rot

If class = rhizoctonia-root-rot or class = downy-mildew then germination 90-100

If mycelium = present then class = rhizoctonia-root-rot

Tα παραπάνω προέκυψαν με χρήση του GGobi. Αφού τα ελέγξω και  με το Weka, αν χρειαστεί θα προσθέσω στοιχεία.

Θα πρέπει επίσης να πω ότι υπήρχαν πάρα πολλές τιμές με “?”. Εχουν καμία διαφορά από τις missing; Κάποια στιγμή τις εξαίρεσα από την οπτική απεικόνιση και οι κανόνες προέκυψαν αγνοώντας τες.

Categories: εργασίες

Ερωτήσεις στο 2ο μάθημα

March 19, 2008 · 1 Comment

 1) Πώς ορίζεται μια ordinal μεταβλητή σε arff αρχείο;

2) Πώς εντοπίζονται οι τιμές outlier (μόνο οπτικά);

3) Πώς μπορείς να δεις για κάποιο instance με τιμή outlier σε κάποιο χαρακτηριστικό, τι τιμές έχει στα υπόλοιπα; Υπάρχει το λεγόμενο parallel coordinates view;

4) Πώς εξαιρώ έναν outlier από το dataset; Εξαιρώ όλο το instance ή σβήνω τη συγκεκριμένη τιμή της attribute μετατρέποντάς τη σε missing value;

Υ.Γ. Θα πρότεινα να δημιουργηθεί κατηγορία Ερωτήσεις/Απορίες ή κάτι τέτοιο, όπου θα εκφράζουμε ερωτήματα.

Categories: ερωτήσεις

PNC2 Rule Induction System

March 19, 2008 · No Comments

The PNC2 Rule Induction System is a free machine learning software tool, that automatically induces rules from your data using the newly invented PNC2 Cluster Algorithm. An integrated parameter tuning component allows an easy adjustment of the algorithm’s behaviour to your particular data without any further knowledge.

Categories: πηγές