Τίθενται στη διάθεσή σας από σήμερα τα datasets του τελικού θέματος (υπενθυμίζω, βαρύτητα 50 μονάδες). Η ημερομηνία υποβολής του θέματος ορίζεται ως η τελευταία διάλεξη, ωστόσο μπορείτε ήδη να πειραματίζεστε με τα data (για παράδειγμα με τεχνικές εξερεύνησης μέσω οπτικοποίησης που γνωρίζετε ήδη). Τα σύνολα δεδομένων, τα αρχεία των οποίων επισυνάπτονται στο παρόν post, είναι τα εξής:
1. Δεδομένα εκπαίδευσης (training set)
- 2528 υποδείγματα
- 39 χαρακτηριστικά (δυαδικά, ακέραια, πραγματικά) & ζητούμενο (record label, good / bad)
2. Δεδομένα επαλήθευσης (quiz set)
- 1265 υποδείγματα
- 39 χαρακτηριστικά
3. Δεδομένα εξέτασης (test set)
- 1265 υποδείγματα
- 39 χαρακτηριστικά
Καμία περαιτέρω πληροφορία περί του συνόλου των δεδομένων δεν είναι γνωστή.
tip: αφού κάνετε download το αρχείο, αλλάξτε την κατάληξη σε .zip. Μικρό trick που είναι αναγκαίο, το dataset προφανώς και δεν είναι σε μορφή .pdf, ωστόσο το wordpress δέχεται για upload μόνο αρχεία εικόνας/doc/ppt/pdf. Θα χρειαστείτε να κάνετε το ίδιο και για το upload του αρχείου .arff στην εργασία 02, αφού δημιουργήσετε και ελέγξετε κανονικά το αρχείοσε μορφή .arff, αλλάξτε του filename από file.arff σε file.pdf για παράδειγμα, και στη συνέχεια το κάνετε upload.
3 responses so far ↓
Διάλεξη 03 - εργασία προς υποβολή « Data Mining, a Course by Blog // April 1, 2008 at 2:11 pm
[...] πρόθεση να ακολουθήσετε για το dataset ‘training set’ του θέματος. Η αναφορά σας μπορεί να περιλαμβάνει συμπεράσματα [...]
Υπόδειξη περί θέματος « Data Mining, a Course by Blog // April 8, 2008 at 2:34 pm
[...] No Comments Ως γνωστόν, τα datasets του θέματος είναι διαθέσιμα εδώ, ενώ το train set περιέχει 39 attributes + output, ενώ τα quiz & test sets [...]
Διάλεξη 04: Εργασία προς υποβολή « Data Mining, a Course by Blog // April 8, 2008 at 3:16 pm
[...] datasets & εκφώνηση [...]
Leave a Comment