Το dataset που εξετάζουμε είναι το cpu.with.vendor. Έχει 7 input attribute εκ των οποίων ένα (vendor) είναι nominal και τα υπόλοιπα είναι numeric. Το class attribute είναι numeric. ’Αρα είμαστε στην περίπτωση,(both,numeric)
1.Numeric, numeric
Αλλάζουμε μόνο το πρώτο attribute
Για το μετασχηματισμό αυτό χρησιμοποιούμε από τα unsupervised φίλτρα του weka για τα attributes το NominalToBinary.
Εδώ βλέπουμε το ιστόγραμμα για το attribute vendor

Μετά την εφαρμογή του φίλτρου:
Να σημειωθεί πως για κάθε label του nominal attribute δημιουργείται ένα νέο numeric attribute.
‘Ετσι από 8 attribute που είχαμε πριν τώρα έχουμε 37.
2.Numeric, nominal
1 και Αλλάζουμε τον τύπο της κλάσης
Χρησιμοποιούμε από τα unsupervised φίλτρα για τα attributes το Discretize , για να μπορέσει όμως να γίνει η μετατροπή της κλάσης ,ορίζουμε κάποιο άλλο attribute ως class attribute.

Επιλέγοντας findNumBins=True(το παράθυρο εμφανίζεται κάνοντας διπλό κλικ στην «μπάρα» ανάμεσα από «filter” και “apply”) ,το weka ορίζει από μόνο του σε πόσα διαστήματα θα χωρίσει το (-∞,∞).


3.Nominal,nominal
Χρησιμοποιούμε από τα unsupervised φίλτρα για τα attributes το Discretize.
(findNumBins=True)

(bins=10)

4.Nominal, numeric
Discretize για όλα attributes εκτός από το class attribute.

Παρακάτω προτείνονται ορισμένα ενδεικτικά πρώτα βήματα για την ανάλυση του dataset “training” του θέματος:
· Καταρχάς μπορούμε αμέσως να διαπιστώσουμε πως το attribute #38 είναι περιττό καθώς για όλα τα instances έχει την ίδια τιμή(0).

· To attribute 34 δεν μας παρέχει πληροφορία καθώς για τα 2527 instances η τιμή του είναι 0 και μόνο για ένα instance έχει τιμή 1 (instance 821). Μπορούμε λοιπόν να μην το λάβουμε υπόψη μας. Παρακάτω βλέπουμε το ιστόγραμμα μετά την αφαίρεση του instance #821( με την επιλογή του unsupervised ->instance filter “RemoveRange”).

· Τα attributes του dataset είναι όλα numeric. Παρατηρούμε όμως πως για τα περισσότερα από αυτά ενώ υπάρχει μεγάλο εύρος τιμών, τα περισσότερα instances αποδίδουν τιμές γύρω από τη μικρότερη. Έτσι λοιπόν μπορούμε να μετατρέψουμε ορισμένα από τα attribute αυτά σε nominal, ομαδοποιώντας δηλαδή τα instances με βάση τα διαστήματα στα οποία θα ανήκουν και έτσι να έχουμε μια πιο σαφή εικόνα.Αυτό επίσης μπορεί να είναι απαραίτητο γιατί ορισμένοι αλγόριθμοι δέχονται input μόνο διακριτά δεδομένα.
Για παράδειγμα για το attribute #25 έχουμε το παρακάτω αρχικό ιστόγραμμα:

Ενώ ενημερωνόμαστε από το weka πως υπάρχουν 49 διαφορετικές τιμές εκ των οποίων οι 42 είναι unique, αυτό δεν είναι εμφανές.
Διαλέγοντας όμως το από τα unsupervised attribute filters το «Discretize» μπορούμε είτε να επιλέξουμε εμείς το πλήθος των διαστημάτων ή να επιτρέψουμε στο ίδιο το weka να επιλέξει των αριθμό των bins.

(εδώ έχουμε επιλέξει εμείς 25 bins)

(Εδώ αλλάξαμε το findNumBins σε True και τo weka δημιούργησε 4 διαφορετικές τιμές με τη μία unique.)
· Ακόμη μπορούμε να δούμε πιο υποσύνολο από τα δοσμένα attributes μας είναι χρήσιμο (αναζητάμε το ελάχιστο δυνατό που να δίνει τα σωστά αποτελέσματα), χρησιμοποιώντας το tab Select Attributes.
Για παράδειγμα ο συνδυασμός AttributeEvaluator->CfsSubsetEval και SearchMethod->GreedyStepwise μας δίνει ένα προτεινόμενο σύνολο από 10 attributes.
Ενώ ο συνδυασμός AttributeEvaluator->CfsSubsetEval(LocallyPredictive=False) και SearchMethod-> GeneticSearch μας δίνει ένα προτεινόμενο σύνολο από 7 attributes.

Εφαρμογή #1:
Μια πιθανή εφαρμογή του data mining θα μπορούσε να είναι στον χώρο των πανεπιστημιακών ιδρυμάτων, σε ότι αφορά την πορεία των φοιτητών καθώς και την σταδιοδρομία των αποφοίτων. Για παράδειγμα τα ιδρύματα θα μπορούσαν χρησιμοποιώντας τεχνικές data mining να εξάγουν πληροφορίες για τα μαθήματα ή τους κλάδους στους οποίους κάποιοι φοιτητές έχουν αδυναμία, χρησιμοποιώντας δεδομένα για τις επιλογές μαθημάτων ενός φοιτητή , τις φορές που χρειάστηκε να εξεταστεί σε ένα μάθημα μέχρι να επιτύχει ή την αλλαγή μαθημάτων από έτος σε έτος. Οι πληροφορίες αυτές στη συνέχεια θα μπορούσαν να αξιοποιηθούν ώστε αρμόδιοι φορείς να βοηθήσουν τους φοιτητές παρέχοντας τους βοηθητική βιβλιογραφία ή προτείνοντας τους μαθήματα τα οποία να είναι συναφή καθώς και συμβουλευτικές υπηρεσίες , ενώ ακόμη θα μπορούσε να γίνει πρόβλεψη για το χρόνο ολοκλήρωσης των σπουδών ενός φοιτητή ή τον αριθμό των σπουδαστών που ενδέχεται να εγγραφούν σε κάποιο μάθημα. Επίσης θα μπορούσε να αποστέλλεται ενημερωτικό υλικό σε φοιτητές και αποφοίτους σχετικά με ευκαιρίες εργασίας, μεταπτυχιακά προγράμματα ή ερευνητική δραστηριότητα γύρω από τις περιοχές ενδιαφέροντος τους.
Εφαρμογή #2:
Οι αλγόριθμοι εξόρυξης πληροφορίας μπορούν επίσης να χρησιμοποιηθούν στον εντοπισμό των παραγόντων που επηρεάζουν τα ποσοστά επιβίωσης ατόμων που έχουν κάνει μεταμόσχευση οργάνων σε βάθος χρόνου. Στην περίπτωση αυτή οι μετρήσιμες συνιστώσες θα μπορούσαν να είναι για παράδειγμα η ηλικία, το φύλο και η φυσική κατάσταση του δότη( π.χ. εάν είχε προηγούμενα προβλήματα υγείας) καθώς επίσης και παράμετροι όπως το χρονικό διάστημα για το οποίο τα όργανα προς μεταμόσχευση διατηρούνται στον πάγο πριν την επέμβαση ή ο χρόνος που μεσολαβεί μέχρι την τοποθέτηση των μοσχευμάτων στον πάγο καθώς και η διάρκεια της επέμβασης.