Author Archives: Anita

Τελική Εργασία: Θεώνη Αγάθου

Ζήτημα 1:
Ανοίγουμε το αρχείο creditdata_trainsetarff1.arff και κάνουμε την εξής διαδικασία:

  •  Πάμε στο tab Visualise All και παρατηρούμε ότι δεν υπάρχει κάποιο attribute που να μπορούμε εύκολα να αφαιρέσουμε.
  • Με attribute selection και δοκιμάζοντας τους περισσότερους συνδυασμούς attribute evaluation και search methods, παρατηρούμε ότι οι τα χαρακτηριστικά 5,8,11,13,16,18 και 19 πρέπει να αφαιρεθούν.
  • Με την αφαίρεση αυτή, βλέπουμε ότι  εφαρμόζοντας τον αλγόριθμο (meta)–>Bagging–>J48 υπάρχει βελτίωση του σφάλματος και τελικά από 72.2667% correctly classified instances, δίνει 73.2%.
  • Αποθηκεύουμε το νέο train set, ως creditdata_trainsetarff2 και ανοίγουμε το creditdata_testsetarff1.
  • Τροποποιούμε το testset με ανάλογο τρόπο (δηλαδή αφαιρούμε τα παραπάνω attributes) και το αποθηκεύουμε ως creditdata_testsetarff2.
  • Εφοδιάζουμε το creditdata_testsetarff2 στο trainingdata_trainsetarff2 (ως supplied test set) και με cross validation προκύπτουν οι προβλέψεις (το ακόλουθο txt αρχείο):
    Θεώνη_Αγάθουtxt
Zήτημα:

Ανοίγουμε το vehicle.arff και για να διεξάγουμε κανόνες για την μεταβλητή στόχο (class), που παίρνει τις τιμές: οpel, saab, bus και van χρησιμοποιύμε τους classifier rules JRip (17 κανόνες) και PART (29 κανόνες) του weka.
Αξιοσημείωτοι εμφανίζονται οι ακόλουθοι κανόνες, στους οποίους δίδεται και επεξήγηση:

 

 

 

 

 

 

 

 

  • MAX.LENGTH ASPECT RATIO > 8 AND
    HOLLOWS RATIO > 189 AND
    SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0)

    Ερμηνεία:  Αν το εν λόγω αυτοκίνητο έχει MAX.LENGTH ASPECT RATIO>8 και HOLLOWS RATIO>189 και SKEWNESS ABOUT_MAJOR>63, τότε ο τύπος του αυτοκινήτου είναι van. Πρόκειται για συνοπτικό και ‘καλό’ κανόνα, διότι δίνει 107 σωστές και μόνο 2 λανθασμένες εκτιμήσεις. Προέκυψε με τον PART:

  • SCALED VARIANCE_MINOR > 309 AND
    DISTANCE CIRCULARITY <= 76 AND
    SKEWNESS ABOUT_MINOR <= 10 AND
    SKEWNESS ABOUT_MAJOR > 64 AND
    CIRCULARITY > 41: bus (107.0/1.0)

    Ερμηνεία:  Όμοια με πριν, εαν ισχύουν οι παραπάνω προυποθέσεις για τα χαρακτηριστικά που φαίνονται,  τότε ο τύπος του αυτοκινήτου είναι bus. Επίσης πρόκειται για καλό κανόνα, γιατί δίνει 107 σωστές εκτιμήσεις και μόλις μια λάθος, ωστόσο απαιτεί να συμβαίνουν πολλές προϋποθέσεις μαζί (δηλαδή ίσως να μην είναι τόσο βολικός τελικά). Τέλος, και ο κανόνας αυτός προέκυψε με τον κανόνα PART.

  • (ELONGATEDNESS >= 43) and (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 73) =>Class=van (86.0/0.0)

    Ερμηνεία:  Πρόκειται για έναν επίσης καλό κανόνα, που υποδεικνύει ότι εαν ισχύουν οι προϋποθέσεις του, τότε ο τύπος του αυτοκινήτου είναι van (με 86 σωστές εκτιμήσεις και καμία λάθος). Προέκυψε με τον rule JRip. 

  • ELONGATEDNESS <= 41 AND
    MAX.LENGTH ASPECT RATIO > 7: opel (132.0/65.0)

    Ερμηνεία: Εδώ έχουμε έναν μη καλό κανόνα γιατί βγάζει πολλές λανθασμένες εκτιμήσεις (65.0) αν και δεν απαιτεί να συμβαίνουν πολλές προϋποθέσεις ταυτόχρονα. Προέκυψε με τον PART

  • (MAX.LENGTH ASPECT RATIO >= 8) and (COMPACTNESS <= 103) and (ELONGATEDNESS <= 37) and (HOLLOWS RATIO <= 195) => Class=opel (14.0/0.0)

    Ερμηνεία: Εδώ ο κανόνας είναι αρκετά καλός και συνοπτικός, για τον τύπο αυτοκινήτου opel και προέκυψε με τον  JRip.

  • (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR <= 231) => Class=saab(71.0/9.0)
    Ερμηνεία:  Τέλος, ένας ακόμη καλός κανόνας που προέκυψε με τον JRip φαίνεται να ισχύει για τον τύπο αυτοκινήτου saab. Ισχύει όταν  ισχύουν οι τρεις προϋποθέσεις που βλέπουμε , που αφορούν τα χαρακτηριστικά (MAX.LENGTH ASPECT RATIO, DISTANCE CIRCULARITY και SCALED VARIANCE_MAJOR)

 

 

 

 

 

Advertisements

Τελική εργασία: Θεώνη Αγάθου

Τελική Αναφορά_Θεώνη Αγάθου

Παρουσίαση_Θεώνη_Αγάθου

Εργασία 04-Αγάθου Θεώνη

Για μια πρόβλεψη τιμών της output μπορεί κανείς να ακολουθήσει τα ακόλουθα βήματα:

  • Άνοιγμα του train.arff και πάμε κατευθείαν στην επιλογή Select attributes, μιας και δεν σκοπεύουμε να μετατρέψουμε καμία από τις numeric μεταβλητές σε nominal.
  • Με Attribute Evaluator το CfsSubsetEval και Search Method την GeneticSearch,το weka επιλέγει τελικά να κρατήσουμε μόλις 9 από 40 attributes, για να βγάλουμε ένα αρκετά αξιόπιστο αποτέλεσμα. Τα attributes αυτά είναι τα εξής: 6, 7, 12, 19, 23, 24, 27, 28, 32 (και προφανώς και το output).
  • Επιστρέφουμε στο preprocessing, όπου έχοντας πλέον γνώση σχετικά με το ποια attributes μας χρειάζονται, αφαιρούμε τα υπόλοιπα. Αυτό γίνεται με την εντολή Remove, αφού πρώτα έχουμε ‘τσεκάρει’ εκείνα τα attributes που δε χρειαζόμαστε.

project04-img01

  • Στη συνέχεια, πάμε στην επιλογή Classify για να βρούμε το σφάλμα γι’αυτή τη διαδικασία. Ως Classifier δεχόμαστε τον M5Rules (η output είναι numeric), και ως Test Option δεχόμαστε το Cross-validation (10 folds). Ως αποτέλεσμα έχουμε Relative Absolute Error της τάξεως  24,5963%. Παρατηρούμε ότι αν παίρναμε ως Test Option το Use training test, θα βρίσκαμε μικρότερο σφάλμα (22,5625%), που είναι λογικό γιατί στην περίπτωση αυτή δεν έχουμε δώσει στοιχεία ελέγχου στον αλγόριθμο, τα οποία όμως δώσαμε με το Cross-validation.

project04-img02

  • Έχοντας βρεί λοιπόν μια ικανοποιητική διαδικασία σε όρους σφάλματος, ανοίγουμε το quiz.arff, αφού πρώτα αποθηκεύσουμε το train.arff γιατί θα μας ξαναχρειαστεί.
  • Αφαιρούμε, κατά τον ίδιο τρόπο με πριν, τα attributes που αφαιρέσαμε και στο train.arff και στη συνέχεια προσθέτουμε το target attribute (output), αφού το τελευταίο λείπει. Αυτό το πετυχαίνουμε ως εξής: Choose Filter –>Filters–>Unsupervised–>Attribute–>Add. Στο weka Object Editor, συμπληρώνουμε output στο attributeName και κάνουμε Apply.
  • Επίσης, στη νέα numeric μεταβλητή ορίζουμε όλα τα instances (1265) να έχουν μηδενικές τιμές. Για να γίνει αυτό, επιλέγουμε Edit και με δεξί click στην στήλη της output εισάγουμε μηδέν στο παράθυρο με τίτλο Set all values to…

project04-img03

  • Αποθηκεύουμε το quiz set (με την επιλογή Save)
  • Όντας ένα βήμα πριν την πρόβλεψη των τιμών της output,  ανοίγουμε ξανά το train.arff και επιλέγουμε το Classify. Όμοια με πριν, ως classifier παίρνουμε τον M5Rules, ενώ τώρα ως Test Option παίρνουμε το Supplied Test Set και πατάμε Set, για να ανοίξουμε το quiz.arff που είχαμε αποθηκεύσει στο προηγούμενο βήμα. Ακόμη, επιλέγουμε στο More Options  το Output predictions, για να καταγραφούν οι ζητούμενες προβλέψεις.

project04-img04

  • Ζητάμε τα στοιχεία της λίστας ‘Predicted’. Παρατηρούμε ότι αυτά είναι υπό μορφή δεκαδικών αριθμών. Τελικά, θα τα παρουσιάσουμε στρογγυλοποιημένα.
  • Κάνουμε ‘Επιλογή όλων’ (δεξί click) των παραπάνω,  στη συνέχεια Copy (Ctrl+C) και τέλος Paste (Ctrl+V) σε ένα αρχείο .txt
  • Στο αρχείο αυτό, πατάμε Επεξεργασία–>Αντικατάσταση και αντικαθιστούμε τις τελείες με κόμματα (απαραίτητο για την επεξεργασία με το Excel που θα ακολουθήσει). Σώζουμε το αρχείο .txt
  • Στη συνέχεια, ανοίγουμε ένα αρχείο .xls (Excel) και επιδιώκουμε να ανοίξουμε μέσω αυτού το προηγούμενο αρχείο .txt (text). Ακολουθούμε την εξής πορεία επιλογών: Αρχείο –>Άνοιγμα –> (κάτω δεξιά) Όλα τα αρχεία και βρίσκουμε το .txt. Στον οδηγό εισαγωγής κειμένου που εμφανίζεται αμέσως μετά, επιλέγουμε οριοθετημένο τύπο αρχείου στο Βήμα 1 και ως οριοθέτες στο Βήμα 2 ‘τσεκάρουμε’ τον Χαρακτήρα tab, το Διάστημα καθώς επίσης επιλέγουμε και Χειρισμό διαδοχικών οριοθετών ως ενός.
  • Βρίσκουμε τη στήλη των Predicted τιμών της output (π.χ. τη στήλη D) και την επιλέγουμε.
  • Για να πετύχουμε την στρογγυλοποίηση των δεκαδικών στοιχείων της στήλης αυτής, πάμε στην επιλογή ‘Αριθμός’ της κεντρικής λίστας επιλογών του excel. Επιλέγουμε ‘Περισσότερες μορφές αριθμών…’ και έπειτα στην κατηγορία Αριθμός, διαλέγουμε μηδενικό πλήθος δεκαδικών ψηφίων:

project04-img05

  • Όταν πατήσουμε OK, οι αριθμοί της στήλης D επανέρχονται στρογγυλοποιημένοι (δηλαδή λαμβάνουμε 1265 αριθμούς , που είναι είτε μηδενικά είτε άσσοι). Αντιγράφοντας τους αριθμούς αυτούς σε ένα νέο αρχείο .txt, έχουμε πλέον καταλήξει στην ολοκληρωμένη υποβολή της εργασίας μας.

project04-img06

απορία για 04

Στην προηγούμενη εργασία μου, είχα μετατρέψει την target attribute (output) σε nominal. Προσπάθησα λοιπόν να κάνω το ίδιο στο train.arff αυτής της εργασίας και στη συνέχεια  έκανα nominal και την output του quiz.arff, αφού πρώτα την προσέθεσα. Όταν όμως ξανάνοιξα το train.arff για να πάω στην επιλογή Classify>Test Options>Select Test Set–>Set–>Open File –>quiz.arff (δηλαδή ακολουθώντας τη διαδικασία αυτή ανοίγω το quiz.arff που είχα αποθηκεύσει προηγουμένως με κάποιο όνομα) κι επειδή είναι nominal τώρα η output διαλέγω ως classifier τον OneR, μου λέει ότι το train και το test set (δηλαδή το quiz στην προκειμένη περίπτωση) δεν είναι συμβατά. Επίσης, έχω προσπαθήσει να κάνω nominal όλα τα attributes καθώς και όλα τα attributes εκτός του output. Μου εμφανίζει όμως ακριβώς το ίδιο μήνυμα. Τι κάνω λάθος ???

Εργασία 03: Αγάθου Θεώνη

Το dataset που εξετάζουμε αυτή τη βδομάδα, έχει 40 numeric attributes (attr1,…,attr39,output) εκ των οποίων η μεταβλητή στόχος είναι η output και έχουμε επίσης 2528 instances. Λόγω του μεγάλου όγκου των υποδειγμάτων, η εξαντλητική επεξεργασία δεδομένων είναι σκόπιμο να αποφευχθεί, ώστε να κερδίσουμε τόσο χρόνο όσο και αξιοπιστία του αποτελέσματος. Έτσι, αναζητούμε μια βέλτιστη σύγκριση των δεδομένων προς λήψιν όσο το δυνατόν πιο έγκυρων πληροφοριών. Με χρήση του λογισμικού weka προκύπτουν γρήγορα τα εξής συμπεράσματα:

  • Οι μεταβλητές attr6, attr7, attr34, attr35, attr36, attr38, attr39 είναι binary μεταβλητές, αφού οι τιμές που παίρνουν είναι είτε μηδέν είτε ένα.
  • Δεν έχουμε καμία missing value.
  • Οι attr16 και attr19 είναι δύο από τις μεταβλητές που δίνουν  ΠΑΡΟΜΟΙΑ πληροφορία:
  • img7-erg031

    img8-erg031

    Πειραματιζόμενοι, είναι εύκολο να μετατρέψουμε τη numeric μεταβλητή output (καθώς και τις λοιπές μεταβλητές)σε nominal, είτε από την επιλογή: Filter–>Unsupervised–>Attribute–>Discretize, είτε από την επιλογή: Filter–>Unsupervised–>Attribute–>Numeric to Nominal, συμπληρώνοντας κατάλληλα στο weka object editor ποιες μεταβλητές ακριβώς μας ενδιαφέρει να μετατρέψουμε:

    starting-image-031

  • Έτσι, βλέπουμε ότι (ως προς το υπό μελέτη χαρακτηριστικό, output) οι 1929 από τις παρατηρήσεις κατηγοριοποιούνται στο διάστημα (-inf, 0.1] (μπλέ), ενώ οι υπόλοιπες 599 βρίσκονται στο διάστημα (0.9,inf) (πράσινο).

img2-erg03

  • Το attr38 δεν αποτελεί καθόλου ισχυρό ‘πληροφοριοδότη’ για το χαρακτηριστικό που μας ενδιαφέρει, αφού όλες οι παρατηρήσεις παίρνουν μηδενική σ’αυτό τιμή -βρίσκονται στο διάστημα [0,0]- (μπορούμε να πούμε το ίδιο και για το attr34, για το οποίο μόνο μια παρατήρηση παίρνει τιμή 1, ενώ όλες οι άλλες την τιμή μηδέν).
  • Αυτό, άλλωστε, γίνεται προφανές, εάν ανοίξουμε το unsupervised filter –> Remove ή RemoveUseless, το οποίο απομακρύνει τα κατά πολύ ή καθόλου αποκλίνοντα χαρακτηριστικά. Επιτρέποντας μέγιστη απόκλιση/σύγκλιση π.χ. 99%, βλέπουμε ότι το attr38 ‘σβήνεται’ από τη λίστα των attributes:

img6-erg03

Με το φίλτρο AddExpression (Filter–>Unsupervised–>Attribute–>AddExpression), μπορούμε να διαφοροποιήσουμε ορισμένα χαρακτηριστικά ως προς τη σύγκρισή τους με άλλα, για να διευκολυνθούμε (όπου αυτό είναι δυνατόν) στο αποτέλεσμά μας. Μπορούμε δηλαδή να προσθέσουμε attributes, παραγόμενα από άλλα attributes (για παράδειγμα υπολογίζοντας το ημίτονο, ή το τετράγωνο αυτών), όπως συμβαίνει παρακάτω:

img12-erg03

  • Επιλέγοντας π.χ. ως πρότυπο attribute το attr10, δημιουργούμε το attr(α10^2) ή το attr(sin(α10)).

Κλείνοντας, για να περιορίσουμε εν τέλει τον αριθμό των attributes που θα συγκρίνουμε και παράλληλα να έχουμε αξιόπιστο αποτέλεσμα, επιλέγουμε από το μενού του weka explorer το Select attributes.

img3-erg03

  • Επιλέγοντας ως Attribute Evaluator το CfsSubsetEval και ως Search Method την LinearForwardSelection, το weka εντοπίζει τα 7 attributes που θεωρεί ότι θα μας δώσουν εξίσου αξιόπιστο αποτέλεσμα με εκείνο που θα μας έδινε η ίδια μέθοδος αν είχαμε 40 attributes. Αυτό βέβαια δε σημαίνει ότι είναι και η ιδανική επιλογή. Μπορεί να υπάρχουν μέθοδοι που να αποδίδουν ακόμα λιγότερα (του 7) attributes, όπως επίσης και άλλες που να αποδίδουν περισσότερα attributes, π.χ. η μέθοδος RankSearch υπό το ίδιο Attribute Evaluator, δίνει 11 selected attributes:

img5-erg03

Στο ίδιο ακριβώς συμπέρασμα θα μπορούσαμε να καταλήξουμε αν παραμέναμε στη χρήση φίλτρων, ακολουθούμενοι τις εξής επιλογές: Filter–>Supervised–>Attribute–>AttributeSelection και στη συνέχεια συμπληρώνοντας στο weka object editor τις αντίστοιχες (με τις παραπάνω) μεθόδους διερεύνησης.

Σχετικά με εργασία 02:Αγάθου Θεώνη

Επισυνάπτω το αρχείο δεδομένων .arff, που είχα χρησιμοποιήσει στην εργασία 02 και που δεν σας άνοιγε. Το μετέτρεψα σε  .pdf αυτή τη φορά και …..ελπίζω να τα κατάφερα…!

anxiety_level

Εργασία 02: Αγάθου Θεώνη

Part 1:

dataset :anxiety_level

Part 2:

Το dataset που εξετάζουμε παρακάτω, αφορά τα κυμαινόμενα επίπεδα άγχους (anxiety level: μεταβλητή στόχος) 30 φοιτητών (instances) κατά τη διάρκεια μιας εξέτασης κάποιας εξεταστικής περιόδου, έχοντας λάβει υπόψιν 10 χαρακτηριστικά τους (attributes).

Πιο συγκεκριμένα, οι υπό εξέταση φοιτητές είναι ηλικίας (age) από 18 ως 28 ετών και επιπλέον για τη διεκπεραίωση των διαφόρων λοιπών συγκρίσεων, χρειαστήκαμε το φύλο (gender) , το βάρος (weight), το ύψος (height), την επίδοση των φοιτητών στην εξέταση (grade), καθώς τέλος λήφθηκαν υπόψιν και τέσσερις σφυγμομετρήσεις τους (heartbeat 1,2,3,4/minute)σε τυχαίες χρονικές στιγμές. Εκτός από τα χαρακτηριστικά φύλο, βαθμός (στη συγκεκριμένη εξέταση η βαθμολόγηση δεν είναι αριθμητική, αλλά γίνεται με χρήση γραμμάτων, με τον εξής τρόπο: Α= Άριστα, Β=Καλά, C=Μέτρια, D=Κάτω του μετρίου) και επίπεδο άγχους (anxiety level), που αποτελούν ονομαστικά χαρακτηριστικά (nominal attributes), οι υπόλοιπες παράμετροι αποτελούν τα αριθμητικά χαρακτηριστικά της μελέτης μας (ordinal/numeric attributes).

Ακολούθως, παραθέτουμε ενδεικτικά κάποια από τα συμπεράσματα της παραπάνω μελέτης, τα οποία δύνανται να προκύψουν με χρήση γραφημάτων του λογισμικού WEKA.

  1. Επίπεδο άγχους (anxiety level-nominal attribute)

 photo1

 

Διευκρίνιση χρωμάτων:

Με δεδομένο ότι η μεταβλητή στόχος είναι το anxiety level (επίπεδο άγχους) και παρατηρώντας κανείς το παραπάνω αρχικό διευκρινιστικό γράφημα, μπορούμε να πούμε συνοπτικά τα εξής:

  • Το χαρακτηριστικό anxiety level έχει τέσσερις διακριτές τιμές (distinct values: very low, low, high, very high). Επίσης,  καμία τιμή του χαρακτηριστικού αυτού δεν εμφανίζεται μόνο μια φορά και γι’αυτό έχουμε unique value ίση με μηδέν.
  • Όσοι από τους φοιτητές του δείγματος εμφανίζουν πολύ χαμηλά (very low) επίπεδα άγχους, παρουσιάζονται γραφικά με σκούρο μπλέ χρώμα. Αυτοί, είναι 7 σε σύνολο 30 και συνεπώς αποτελούν το 23,33% των υποδειγμάτων (instances).
  • Με ανάλογα επιχειρήματα, βλέπουμε ακόμη ότι όσοι από τους φοιτητές του δείγματος εμφανίζουν χαμηλά (low) επίπεδα άγχους, παρουσιάζονται με κόκκινο χρώμα (11/30 = 36,66%), όσοι εμφανίζουν υψηλά (high) επίπεδα άγχους, παρουσιάζονται με γαλάζιο χρώμα (8/30 =26,66%) και τέλος, όσοι φοιτητές εμφανίζουν πολύ υψηλά (very high) επίπεδα άγχους, παρουσιάζονται με πετρόλ χρώμα (4/30 =13,33%).

      2.    Ηλικία (age – numeric attribute)

 agevsanxiety_photo2

 

Στη συνέχεια, παραθέτοντας το παραπάνω ιστόγραμμα συγκρίνουμε τα επίπεδα άγχους με βάση το χαρακτηριστικό ηλικία (age). Από εδώ, μπορούν να διεξαχθούν τα ακόλουθα συμπεράσματα:

  • Από τους 14 φοιτητές (ποσοστό 46,66%) ηλικίας [18, 20.5] που έλαβαν μέρος στην εξέταση, οι περισσότεροι εμφανίζουν υψηλό άγχος (high anxiety level), ενώ φαίνονται να είναι σχεδόν ισομοιρασμένοι με εκείνους που έχουν χαμηλό άγχος (low anxiety level).
  • Ένα ακόμα σημαντικό συμπέρασμα, είναι ότι ο μοναδικός φοιτητής που εξετάστηκε(ποσοστό 3,33% του συνόλου) και ήταν ηλικίας (25.5, 28], είχε χαμηλό άγχος, ενώ στις ηλικίες (23, 25.5] κανείς από τους παρευρισκόμενους 3 φοιτητές δεν είχε πολύ υψηλό άγχος.
  • Αξίζει επίσης να σημειωθεί εδώ ότι 7% των τιμών των εξεταζόμενων ηλικιών (που αντιστοιχούν σε 2 φοιτητές) είναι unique, δηλαδή εμφανίζονται μόνο μία φορά, που σημαίνει ότι οι ηλικίες των εξεταζόμενων υποδειγμάτων πολλές φορές συμπίπτουν, πράγμα λογικό αν σκεφτεί κανείς ότι οι ηλικίες των φοιτητών της ίδιας εξέτασης είναι αρκετά κοντινές.

     3.     Βαθμός (grade – nominal attribute)

jitter_photo33

 

 Τέλος, στο παραπάνω γράφημα κατανομής του επιπέδου άγχους (anxiety level), σύμφωνα με το βαθμό (grade) των φοιτητών, διαφαίνεται αρκετά καθαρά ότι από εκείνους που πήραν βαθμό C, οι περισσότεροι είχαν χαμηλό άγχος (με τη χρήση του Jitter βλέπουμε ότι πολλά κόκκινα σημεία βρίσκονται γύρω από την περιοχή C, και αντιστοιχούν στο χαμηλό άγχος), ενώ αρκετά λιγότεροι είχαν υψηλό άγχος (λίγα πράσινα σημεία γύρω από την περιοχή C, που αντιστοιχούν στο υψηλό άγχος).
Σημείωση:  Η απομόνωση των πράσινων και κόκκινων σημείων (που αφορούν το high και low anxiety levels αντίστοιχα), έγινε με τη χρήση της επιλογής Rectangle (Weka explorer ->Visualize ->Επιλογή Plot->Select instance ->Rectangle).