Ερώτηση για attribute selection

Είναι δόκιμη η χρήση του Pearson Correlation Test Statistic για την επιλογή ασυσχέτιστων (και συνεπώς αχρείαστων) μεταβλητών, ή δεν ενδείκνυται επειδή περιορίζεται μόνο στη γραμμική συσχέτιση των μεταβλητών με την output ; (Π.χ. στο παράδειγμά μας 6 μεταβλητές δεν περνούν τον έλεγχο).

Μήπως θα ήταν χρήσιμο να δοκιμάζαμε μη γραμμικές μεθόδους όπως mutual information/total correlation για έλεγχο οποιουδήποτε είδους συσχέτισης, ή μήπως απαραμετρικές μεθόδους (μιας και μόνο Normal δεν είναι οι κατανομές των χαρακτηριστικών) όπως το Spearman’s ρ ;

Σας φαίνεται λογική η επιλογή μεταβλητών με βάση τη συσχέτισή τους με την output;

Περιλαμβάνεται κάτι από αυτά στο Attribute Selection του Weka;

Advertisements

2 responses to “Ερώτηση για attribute selection

  1. Πολύ σωστά, το κλασσικό correlation αποτιμά μόνο τη γραμμική συσχέτιση δύο μεταβλητών. Ωστόσο, κατά κανόνα, ο έλεγχος αυτός είναι αρκετός (μην ξεχνάμε, πρώτα τα βασικά!). Επίσης, πλήθος εφαρμογών και μεθόδων στηρίζεται σε αυτόν, η καθιέρωσή του δεν είναι τυχαία. Θα πρότεινα λοιπόν να αρκεστείτε στο κλασσικό correlation test.

    Για έλεγχο μη γραμμικών συσχετίσεων, συνηθέστερος είναι ο κατάλληλος μετασχηματισμός της μεταβλητής πριν τον έλεγχο (πχ λογαριθμικός μετασχηματισμός για έλεγχο λογαριθμικής συσχέτισης κοκ) και η εφαρμογή πάλι του κλασσικού τεστ.

    Οι μη γραμμικοί έλεγχοι που αναφέρεις είναι ιδιαίτερα ενδιαφέροντες, η χρήση τους definitely makes sense to me. Ωστόσο, δεν γνωρίζω εργαλείο να τους υλοποιεί (εντός ή εκτός γουέκα) και δεν έχει πέσει στην αντίληψή μου εφαρμογή τους (αν αυτό σημαίνει κάτι). Πάντως, τα αποτελέσματα και οι ενδείξεις από πιθανή χρήση των ελέγχων αυτών θα ήταν ιδιαιτέρως ενδιαφέροντα!

  2. Σύμφωνα με τη Wikipedia “Mutual information has been used as a criterion for feature selection and feature transformations in machine learning. It can be used to characterize both the relevance and redundancy of variables, such as the minimum redundancy feature selection.”

    Επίσης : “Clustering and feature selection algorithms based on total correlation have been explored by Watanabe” http://www.research.ibm.com/journal/rd/041/ibmrd0401H.pdf

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s