Data Mining, a Course by Blog

Entries from February 2008

Συστάσεις (Ειρήνη Λυγκώνη)

February 28, 2008 · No Comments

ΕΚΠΑΙΔΕΥΣΗ-ΣΠΟΥΔΕΣ:2007σε εξέλιξη: Διατμηματικό μεταπτυχιακό πρόγραμμα του Ε.Μ.Π. «Εφαρμοσμένες Μαθηματικές Επιστήμες, Ροή Στατιστικής».

2002-2007: Απόφοιτη  της Σχολής Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών ΕΜΠ με βαθμό 7,66/10.                         

Γνώσεις Η/Υ:  Microsoft  Office Word, Microsoft  Office Excel, Microsoft  Office Access, Statgraphics,  Minitab, SPSS, STATA, SAS, Mathematica, Matlab, Mathtype. Γλώσσες προγραμματισμού: Pascal, C .

ΕΠΙΣΤΗΜΟΝΙΚΕΣ ΕΡΓΑΣΙΕΣ:Συγκριτική μελέτη των πέδιων βάρυτητας των ασθενών σε Μονάδα Εντατικής Θεραπείας , διπλωματική εργασία που εκπονήθηκε σε συνεργασία με το Ιπποκράτειο Νοσοκομείο την περίοδο Νοεμβρίου 2006 - Οκτωμβρίου 2007 η οποία βασίστηκε στην ανάλυση δεδομένων με την χρήση της ανάλυσης επαναλαμβανόμενων μετρήσεων.

ΠΡΟΫΠΗΡΕΣΙΑ:Μερική απασχόληση από Ο.Τ.Ε. Α.Ε. στο τμήμα τηλεφωνικής εξυπηρέτησης πελατών  134 την περίοδο 15/11/2005 έως 14/07/2006,Μερική απασχόληση στην βιβλιοθήκη του Ε.Μ.Π στο έργο Ανάπτυξη Ψηφιακών Υπηρεσιών – Αριάδνη την περίοδο 21/08/2006 έως 31/12/2006,Πρακτική άσκηση στο Ιπποκράτειο Νοσοκομείο Αθηνών την περίοδο 17/11/2006 έως 17/01/2007,Μερική απασχόληση από το Γραφείο διασύνδεσης φοιτητών και νέων αποφοίτων του Ε.Μ.Π. την περίοδο 5/12/06 έως 25/01/2008.

Ο λόγος που με ώθησε να επιλέξω το μάθημα Αλγόριθμοι Εξόρυξης Δεδομένων είναι ότι είναι ένα σύχρονο πεδίο μελέτης στο οποίο μπορεί να βασιστούν πολλές εφαρμογές και να διεξαχθούν πολλά χρήσιμα συμπεράσματα από τεράστιες βάσεις δεδομένων.  Σκοπός μου είναι η εξοικείωση με τους συγκεκριμένους αλγορίθμους και η εφαρμογή τους σε διάφορα προβλήματα.

Categories: συστάσεις

Άλλες πηγές

February 28, 2008 · 1 Comment

  • The Data Mining Software Repository makes available a collection of free (as in libre) open source software tools for data mining
  • The Data Mining Catalogue lists many of the free and commercial data mining tools that are available on the market.
  • The Australasian Data Mining Conferences are supported by Togaware, which also hosts the web site.
  • Information about the Pacific Asia Knowledge Discovery and Data Mining series of conferences is also available.
  • A Data Mining course is taught at the Australian National University.
  • See also the Canberra Analytics Practise Group.
  • A Data Mining Course was held at the Harbin Institute of Technology Shenzhen Graduate School, China, 6 December - 13 December 2006. This course introduced the basic concepts and algorithms of data mining from an applications point of view and introduced the use of R and Rattle for data mining in practise.
  • A Data Mining Workshop was held over two days at the University of Canberra, 27-28 November, 2006. This course introduced the basic concepts and algorithms for data mining and the use of R and Rattle.

Οι παραπάνω σύνδεσμοι προέρχονται από τη σελίδα http://datamining.togaware.com/ όπου θα βρείτε και την εφαρμογή Rattle (R)

Categories: πηγές

Συστάσεις: Αθηνά Πανδή

February 27, 2008 · No Comments

ΣΠΟΥΔΕΣ

2002-2007 : Εθνικό Μετσόβιο Πολυτεχνείο , Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Κατεύθυνση Μαθηματικού Εφαρμογών με ειδίκευση στην Ανάλυση και στη Στατιστική. Bαθμός Πτυχίου: 7,78/10

2007-2008:  Εθνικό Μετσόβιο Πολυτεχνείο , Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στις Εφαρμοσμένες Μαθηματικές Επιστήμες.  Κατεύθυνση Στατιστικής.

ΕΡΓΑΣΙΕΣ

Ανάπτυξη Υπηρεσιών WiMAX στην περιοχή των Μεσογείων Αττικής

Διπλωματική εργασία που εκπονήθηκε σε συνεργασία με τον Διεθνή Αερολιμένα Αθηνών κατά την περίοδο Φεβρουαρίου – Νοεμβρίου 2007. Μελετήθηκαν τα τεχνικά , οικονομικά και δημογραφικά στοιχεία που είναι απαραίτητα για την ανάπτυξη υπηρεσιών WiMAX στην συγκεκριμένη περιοχή.

ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ-ΓΝΩΣΕΙΣ Η/Υ

Pascal, C, HTML, Matlab, Mathematica, Minitab, Statgraphics, Spss, Stata, SAS,R, Microsoft Office (ECDL).

ΕΡΓΑΣΙΑΚΗ ΕΜΠΕΙΡΙΑ

Εργοδότης: Διεθνής Αερολιμένας Αθηνών. Δίμηνη απασχόληση στα πλαίσια πρακτικής άσκησης της σχολής Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών Ε.Μ.Π.

Θέση: Telecommunications coordinator. Κύριες αρμοδιότητες ήταν η ανάπτυξη νέων τεχνολογιών όπως WiFi, WiMAX, Tetra Systems.

Ο κύριος λόγος που με ώθησε να επιλέξω το μάθημα Αλγόριθμοι  Εξόρυξης Πληροφορίας είναι ότι το data mining είναι μια πολύ πρόσφατη επιστήμη που είναι χρήσιμη στην εποχή μας ,δεδομένου του όγκου των πληροφοριών που παράγονται κάθε μέρα. Από το συγκεκριμένο μάθημα ευελπιστώ να αποκομίσω τις βασικές γνώσεις πάνω στο data mining ,ώστε να έχω την δυνατότητα να ασχοληθώ περαιτέρω με το αντικείμενο και ενδεχομένως να  εφαρμόσω τις γνώσεις μου στην αγορά εργασίας.

Categories: συστάσεις

Αντί εισαγωγής

February 27, 2008 · No Comments

 Η ανάγκη που οδήγησε στη δημιουργία του ερευνητικού πεδίου που μελετάμε, σε μια εξαιρετική περιγραφή της:

The rapid progress in digital data acquisition has led to the fast-growing amount
of data stored in databases, data warehouses, or other kinds of data repositories. (Zhou, 2003)

Although valuable information may be hiding behind the data, the overwhelming data volume makes it difficult for human beings to extract them without powerful tools. In order to relieve such a data rich but information poor dilemma, during the late 1980s, a new discipline named data mining emerged, which devotes itself to extracting knowledge from huge volumes of data, with the help of the ubiquitous modern computing devices, namely, computer. (Markellos et al., 2003)

Αναφορές:

Zhou, Z.H., 2003. Three Perspectives of Data Mining. Journal of Artificial Intelligence, 143(1), pp.139-146.

Markellos, K., Markellou, P., Rigou, M., and Sirmakessis, S., 2003. Mining for Gems of Information. In S. Sirmakessis Ed. Studies in Fuzziness and Soft Computing, Text Mining and its Applications: Results of the NEMIS Launch Conference on the 1st International Workshop on Text Mining and its Applications (Patras, Greece, April 5th, 2003). Berlin, Heidelberg: Springer-Verlag, 2004, Vol.138, pp.1-11.

Categories: πηγές

Συστάσεις (Γιώργος Δοντάς)

February 27, 2008 · No Comments

ΣΠΟΥΔΕΣ:

Εθνικό Μετσόβιο Πολυτεχνείο - Σχολή  Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών: Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών Τεχνο-Οικονομικά Συστήματα. Κατεύθυνση “Διοίκηση Τεχνολογικών Συστημάτων”.

Πανεπιστήμιο Θεσσαλονίκης, Τμήμα Πολιτικών Μηχανικών, Κατεύθυνση “Επιστήμη & Τεχνολογία κατασκευών”

ΕΠΙΣΤΗΜΟΝΙΚΕΣ ΕΡΓΑΣΙΕΣ:

• «Stochastic Estimation using the Extended and Unscented Kalman Filters”. Διπλωματική Εργασία που εκπονήθηκε στα πλαίσια του Διατμηματικού Προγράμματος Μεταπτυχιακών Σπουδών “Τεχνο-Οικονομικά Συστήματα», 2007.

• «Στατική - Δυναμική ανάλυση με πεπερασμένα στοιχεία σε Η/Υ με το πρόγραμμα SAP 80» και αντικείμενο την ανάλυση των τεχνικών μοντελλοποίησης φορέων υπό φορτίσεις πάσης φύσεως και των αποτελεσμάτων που αυτές δίνουν σε σχέση με αυτά της θεωρητικής επίλυσης αλλά και άλλων προγραμμάτων (π.χ. SUPERETABS). Διπλωματική Εργασία που εκπονήθηκε στον τομέα Στατικής & Δυναμικής των Κατασκευών του τμήματος Πολιτικών Μηχανικών του ΑΠΘ, 1991.

ΣΕΜΙΝΑΡΙΑ:

2007 - 2008: Παρακολούθηση μαθημάτων στα πλαίσια του μεταπτυχιακού προγράμματος “Εραρμοσμένες Μαθηματικές Επιστήμες” της σχολής Ε.Μ.Φ.Ε. του Ε.Μ.Π.

  • Μπεϋζιανή Στατιστική
  • Αριθμητικές Μέθοδοι Διαφορικών Εξισώσεων (προβλήματα αρχικών και συνοριακών τιμών)
  • Υπολογιστική Στατιστική και Στοχαστική Βελτιστοποίηση
  • Αλγόριθμοι Εξόρυξης Πληροφορίας (Data Mining)

Γλώσσες Προγραμματισμού: C#, Visual Basic.NET, MATLAB, R, WinBUGS, SIMULINK, VB, JAVA, POWER BUILDER, T SQL, IDL, Office VBA, ASP.NET, XML, Shell scripting
Σχεσιακές Βάσεις Δεδομένων: MS SQL Server (Διαχείριση, Προγραμματισμός), Sybase (Διαχείριση, Προγραμματισμός), MySQL, Access, ODBC, ADO 2.x, ADO.NET, DAΟ

ΘΕΣΗ: Στέλεχος Πληροφοριακών Συστημάτων ΕΡΓΟΣΕ με αρμοδιότητες :

  • τη συμβολή στον σχεδιασμό, τη συνεχή ανάπτυξη και την λειτουργία του εταιρικού Ολοκληρωμένου Πληροφοριακού Συστήματος (ΟΠΣ) της «ΕΡΓΟΣΕ Α.Ε.» (σε περιβάλλον Powerbuilder/PFC - SYBASE ASE 12.5)
  • το σχεδιασμό και την ανάλυση βάσεων δεδομένων (Sybase ή MS SQL Server)
  • τον προγραμματισμό και διαχείριση βάσεων δεδομένων Sybase ή MS SQL Server
  • τη στατιστική επεξεργασία των δεδομένων και την εξόρυξη γνώσης.
  • την ανάπτυξη συμπληρωματικών εφαρμογών (desktop ή web) με πρόσβαση στις ως άνω βάσεις δεδομένων με χρήση της βιβλιοθήκης αντικειμένων .NET Framework ή της VBA (COM, Windows API) ή του Powerbuilder
  • τη δημιουργία δυναμικών βιβλιοθηκών αντικειμένων (dll) γενικής χρήσης.

ΕΝΔΙΑΦΕΡΟΝΤΑ:

  • Systems Analysis and Optimization
  • Optimal State Estimation (Kalman Filtering)
  • Fault Detection and Isolation
  • Time Series Analysis
  • Bayesian Data Analysis (WinBUGS, R)
  • Multivariate Statistical analysis / Statistical Data Mining (R, SPSS, MATLAB, STATISTICA, Weka, Rattle, GGobi)

Categories: συστάσεις

Πρόγραμμα & Περιεχόμενα Μαθήματος

February 27, 2008 · No Comments

Οι τίτλοι των διαλέξεων που θα πραγματοποιηθούν είναι οι εξής:

  • Διάλεξη 01: Εισαγωγή
  • Διάλεξη 02: Συνιστώσες Δεδομένων, Οπτικοποίηση & Εξερεύνηση
  • Διάλεξη 03: Προεπεξεργασία & Επιλογή Δεδομένων
  • Διάλεξη 04: Απεικόνιση Γνώσης, Αξιοπιστία & Αποτίμηση
  • Διάλεξη 05: Αλγόριθμοι Εκμάθησης, Μέρος Α: Δένδρα Αποφάσεων & Κανόνες Ταξινόμησης
  • Διάλεξη 06: Αλγόριθμοι Εκμάθησης, Μέρος Β: Bayes, Κανόνες Συσχέτισης, Αδρανής
    Εκμάθηση & Ομαδοποίηση
  • Διάλεξη 07: Αλγόριθμοι Εκμάθησης, Μέρος Γ: Συναρτήσεις & μετα-μαθησιακοί Αλγόριθμοι
  • Διάλεξη 08: Παρουσίαση Εργασιών

Δεν προβαίνω σε προσδιορισμό ημερομηνιών, καθώς είναι σαφές πως το σφάλμα πρόκειται να είναι στατιστικά σημαντικό και η αναμενόμενη διακύμανσή του για τις τελευταίες ειδικά διαλέξεις αρκετά μεγάλη. Σε επόμενο post θα αναρτηθεί αναλυτικά και ο αλγόριθμος βαθμολόγησης.

Categories: συστάσεις

Διάλεξη 00: Παρουσίαση Μαθήματος

February 27, 2008 · 1 Comment

Σήμερα πραγματοποιήθηκε η πρώτη διάλεξη του μαθήματος, περισσότερο αναγνωριστικής φύσεως, όπου επιχειρήθηκε μία σύντομη σκαγράφηση της θεματολογίας που πρόκειται να αναπτυχθεί στην πορεία. Το αρχείο της παρουσίασης είναι διαθέσιμο εδώ, σε μορφή pdf. Όσοι δεν παρευρεθήκατε, για οποιονδήποτε λόγο, δεν θα αντιμετωπίσετε πρόβλημα, καθώς το σύνολο των όσων αναφέρθηκαν θα αναπτυχθούν σε πιο διεξοδικό βαθμό στη διάλεξη της επόμενης Τρίτης (φροντίστε ωστόσο να μου κοινοποιήσετε το email σας για να αποκτήσετε δικαίωμα συγγραφής στο blog).

Ως εργασία μέχρι την επόμενη διάλεξη σας ανατίθεται η συγγραφή ενός post με σύντομο βιογραφικό σας -για να γνωριστούμε και καλύτερα-, μαζί με τους λόγους που σας οδήγησαν στην επιλογή του μαθήματος και το τι αναμένετε να αποκομίσετε από αυτό. Ο τίτλος του post πρέπει να είναι της μορφής ‘Συστάσεις: Όνομα Επώνυμο’ (συμβουλή: θα πρότεινα να μην συνεισφέρετε κάτι ιδιαίτερα πρόχειρο, σε λίγο καιρό μπορεί το συγκεκριμένο post να προκύπτει στα πρώτα αποτελέσματα όταν κάποιος σας αναζητά στο google :)

Categories: σημειώσεις

a Course by Blog

February 27, 2008 · No Comments

I’m teaching the course ‘Information Extraction Algorithms’ (well, pure data mining in practice) at the post-graduate program  ‘Applied Mathematical Sciences’ of NTUA’s School of Applied Mathematics and Physics.

I’m strongly considering the idea of employing a blog to serve at the core of the learning process. The class is held at a pc-lab, so it came somehow natural to me to create a blog where I admin and all students author.

The target? Except from posting lecture notes and publicizing assignments or announcements, I feel that a blog could evolve as the greatest of tools to foster conversation among students and finally enable a really educative experience, powered by the students themselves. The plan is to accept assignments by public posts, instead of filing them out of sight, and motivate each student to comment on the works of others, while learning by the comments received by herself. The concept looks simple and clear, however I have yet to find any similar references (any links would be really appreciated!). Let’s see how it all goes.

I also plan to stream live the whole course (it’s all in greek, though, apologies), while I’m looking for a wiki wordpress plugin to enable collaborative notes’ keeping during the lectures (any ideas?).

The feedback during the introductory lecture today, while we were creating the wordpress blog on the fly and assigning author rights to all students, was really hopeful: “It’s cool, it looks like facebook…”

Categories: άλλο

Καλώς ήλθατε

February 27, 2008 · No Comments

Το παρόν αποτελεί το επίσημο blog του μαθήματος ‘Αλγόριθμοι Εξόρυξης Πληροφορίας’, το οποίο και διδάσκεται στο δεύτερο εξάμηνο του διατμηματικού μεταπτυχιακού προγράμματος σπουδών ‘Εφαρμοσμένες Μεταπτυχιακές Επιστήμες‘, με συντονίζουσα τη Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημώντου Εθνικού Μετσόβιου Πολυτεχνείου. Το συγκεκριμένο μάθημα παρέχεται από τον Τομέα Βιομηχανικής Διοίκησης & Επιχειρησιακής Έρευνας της Σχολής Μηχανολόγων Μηχανικών ΕΜΠ, με υπεύθυνους τον καθηγητή κ. Ηλία Τατσιόπουλο και τον υπογράφοντα ΥΔ, Γεώργιο Τζιραλή. Οι διαλέξεις πραγματοποιούνται κάθε Τρίτη 12.00-14.00, στο pc-lab της ΣΕΜΦΕ.

Το blog πρόκειται να αποτελέσει εργαλείο υποστήριξης της διδασκαλίας του μαθήματος, φιλοξενώντας το σύνολο του σχετικού υλικού και αναβαθμίζοντας τη συμμετοχικότητα των διδικασιών και της φύσης του μαθήματος. Συγγραφέας του ιστολογίου δεν είναι μονάχα ο διδάσκων, αλλά και το σύνολο των φοιτητών.

Στο πλαίσιο αυτό, το blog πρόκειται να περιλάβει το σύνολο των διδακτικών σημειώσεων, τις εκφωνήσεις των διαφόρων εργασιών, όπως επίσης συνοδευτικό υλικό του μαθήματος και (ευελπιστώ) τα videos των διαλέξεων, σε ζωντανή και μαγνητοσκοπημένη μορφή. Πέρα από το υλικό που θα συνεισφέρει ο διδάσκων, ο κάθε φοιτητής καλείται να υποβάλλει τις εργασίες του σε ξεχωριστό post κάθε φορά, δίνοντας τη δυνατότητα κριτικής αξιολόγησης όχι μονάχα στον διδάσκοντα, αλλά και στους συμφοιτητές του (τα θέματα πρόκειται να φέρουν διαφοροποίηση ανά φοιτητή). Επίσης, προφανώς και μπορεί να αναρτά σχετικό προς το μάθημα υλικό, υποδεικνύοντας ζητήματα προς προβληματισμό και διερεύνηση. Περαιτέρω λεπτομέρειες θα αναρτηθούν εν καιρώ.

Προφανώς και η επιλογή αυτού του μέσου για την υποστήριξη του μαθήματος συνιστά ένα πείραμα, καθώς τα αντίστοιχα παραδείγματα είναι ελάχιστα, αν όχι εντελώς ανύπαρκτα, σε διεθνές επίπεδο (αν έχετε να υποδείξετε κάποιο, παρακαλώ αφήστε ένα σχόλιο, θα ήταν χρήσιμο). Για το λόγο αυτό, η έκβαση του πειράματος παραμένει εκ των προτέρων άγνωστη, αν και διατηρώ βάσιμες ελπίδες πως η διαδικασία θα αποδειχθεί ιδιαίτερα επωφελής. Καλή μας επιτυχία.

Categories: συστάσεις