Τελική Εργασία: Νανούρης Νικόλαος

Report

Report_Presentation

Nanouris_Test

Advertisements

4 responses to “Τελική Εργασία: Νανούρης Νικόλαος

  1. Συγχαρητήρια φίλε για τη δουλειά σου!
    Από όσο την έχω διαβάσει μέχρι τώρα, έχω μια παρατήρηση να κάνω.
    Ο αλγόριθμος Random Forest κακώς κατά τη γνώμη μου περιλαμβάνεται στην κατηγορία των δέντρων του weka, μιας και αποτελεί “committee machine” όπως ακριβώς ο adaboost και ο bagging (μάλιστα είναι ένα extention του bagging).

    Έχει μάλιστα και μερικές εξαιρετικές ακόμα ιδιότητες:

    1. Μπορεί να χρησιμοποιηθεί για να εκτιμήσει τη σπουδαιότητα κάθε μεταβλητής του dataset (αλλάζοντας τις τιμές που παίρνει κάθε μεταβλητή σε κάθε bootstrap sample και βλέποντας κατά πόσο αυτή η αλλαγή επηρεάζει τη σωστή ταξινόμηση), δίνοντας μάλιστα μια γραφική απεικόνιση με τις μεταβλητές βάσει σπουδαιότητας (στην R).

    2. Μπορεί να υπολογίσει (με αντίστοιχο τρόπο) proximities μεταξύ κάθε ζεύγους παρατηρήσεων. Έχοντας ένα πίνακα με proximities μπορούμε στη συνέχεια να εφαρμόσουμε την τεχνική multidimentional scaling ώστε να πάρουμε μια οπτική εικόνα των θέσεων και των ομάδων που σψηματίζουν τα δεδομένα μας, σε ένα χώρο 2 ή 3 διαστάσεων.

    3. Οι proximities μπορούν να χρησιμοποιηθούν για ακόμη μια πολύ δύσκολη συνήθως εργασία. Τη διάγνωση πολυμεταβλητών outliers (υπάρχει επίσης στον αντίστοιχο αλγόριθμο της R).

    Δες περισσότερα εδώ.
    http://lib.stat.cmu.edu/R/CRAN/web/packages/randomForest/randomForest.pdf

    Προτείνω επίσης αυτό το βιβλίο
    http://www.amazon.com/Modern-Multivariate-Statistical-Techniques-Classification/dp/0387781889/ref=sr_1_1?ie=UTF8&s=books&qid=1243322805&sr=8-1

    Υ.Γ. Με ποιο τρόπο έκανες τα διαγραμματάκια της παρ.4?

  2. Nikos Nanouris

    Γειά σου Γιώργη!

    Βλέπω, διατηρείσαι πάντα σε φόρμα.
    Από που ξετρύπωσες τόσες πληροφορίες;

    Να μη χαζεύουμε στη δουλειά! Σε θέλω στο τρέξιμο!

    Τα διαγραμματάκια τα έκανα με το origin αν εννοείς το πρόγραμμα. Κατά τα άλλα, έτρεξα τους σχετικούς αλγόριθμους πριν και μετά το θόρυβο για το δεύτερο, ενώ για το πρώτο έτρεξα τους αλγόριθμους για διάφορους συνδυασμούς μεταβλητών…

    Σε χαιρετώ και ελπίζω να τα πούμε από κοντά σύντομα!

  3. :-) , μπορεί καμιά φορά να μη δουλεύουμε αλλά ποτέ δε χαζεύουμε.

    origin ε? Διακρίνω μια απιστία προς την R. Μη διανοηθείς να την εγκαταλήψεις γιατί θα το μετανιώσεις. :-| H R περιλαμβάνει πλήρεις λύσεις για datamining και ολόκληρο το weka είναι στο package Rweka.

    Οι πληροφορίες είναι φυσικά από το βιβλίο που προτείνω, το οποίο ολοκλήρωσα πρόσφατα. Κυκλοφορεί και στο net και αποτελεί μια πολύ σύγχρονη προσέγγιση στην ανάλυση δεδομένων συνδυάζοντας στατιστική και machine learning.

    Υ.Γ. Δε σε είδα στο συμπόσιο αστρονομίας τις προάλλες! Πήρες απουσία.

  4. Υποδειγματική εργασία, 10/10
    Ομοίως και για την παρουσίαση, 10/10

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s