Data Mining, a Course by Blog

PNC2 Rule Induction System

March 19, 2008 · No Comments

The PNC2 Rule Induction System is a free machine learning software tool, that automatically induces rules from your data using the newly invented PNC2 Cluster Algorithm. An integrated parameter tuning component allows an easy adjustment of the algorithm’s behaviour to your particular data without any further knowledge.

Categories: πηγές

Οπτική διερεύνηση δεδομένων

March 19, 2008 · 2 Comments

Οι δυνατότητες οπτικής διερεύνησης δεδομένων του Weka δεν με άφησαν και με το στόμα ανοιχτό. Επίσης οι περιγραφικοί στατιστικοί δείκτες των attributes είναι μάλλον φτωχοί (έχει διάμεσο, επικρατούσα τιμή /mode, λοξότητα, κύρτωση, ποσοστημόρια;). Πώς διαπιστώνεται ότι μια τιμή είναι στα σίγουρα outlier (βάσει του τύπου); Στο visualization φαίνονται τα correlation scatterplots αλλά που είναι ο correlation matrix ώστε να δούμε και τις τιμές;.  

Θα πρότεινα σε όσους ενδιαφέρονται να έχουν στη «φαρέτρα» τους το εργαλείο GGobi http://www.ggobi.org. Το GGobi βοηθά στην οπτική διερεύνηση πολυμεταβλητών δεδομένων μέσω δυναμικών και interactive γραφικών εργαλείων όπως tours, scatterplots (2D, 3D), barcharts, parallel coordinates plots, time series plots κλπ. Ενδεικτικά αναφέρω ότι δίνει τη δυνατότητα να ανοιχθούν πολλά διαφορετικά παράθυρα με διάφορες απεικονίσεις των δεδομένων και στη συνέχεια με ένα brush tool να χρωματίζεις μια ομάδα ή και μια μοναδική instance και αυτόματα να βλέπεις στα άλλα διαγράμματα με το ίδιο χρώμα τη θέση της. (σημειώτεον ότι μπορεί να εμφανίζει και labels ώστε να ξέρεις για ποιά instance πρόκειται). Συγκεκριμένα με το parallel coordinates plot μπορείς εύκολα να δεις τι τιμές έχει μια instance που είναι outlier για μια attribute σε όλες τις υπόλοιπες.

Δείτε π.χ. το Brushing video στη σελίδα http://www.ggobi.org/docs/parallel-coordinates/

parallel1.jpg 

Τέλος να πω για τους γνώστες της R ότι υπάρχει το package rggobi μέσω του οποίου κάνει κανείς χρήση του GGobi από την R. H χρήση του μπορεί να γίνει μέσω του γραφικού package Rattle (data mining GUI for R), το οποίο παρέχει πρόσβαση (με γραφικό περιβάλλον) σε διάφορα data mining και statistical packages της R.

Categories: σημειώσεις

Εργασία01:Γ. Δοντάς

March 12, 2008 · 1 Comment

Έργα Πολιτικού Μηχανικού

Οι πόροι των έργων κατασκευής περιλαμβάνουν ανθρώπους, υλικά, μηχανήματα, κ.λπ, που είναι απαραίτητα στη διαδικασία κατασκευής.  Με βάση τις καταγραφές συγκεκριμένων παραμέτρων για κάθε νέο έργο, (π.χ. σκοπό, είδος κατασκευής, χώρα και πόλη, συνολικό εμβαδό, κ.λπ.) και με τη χρησιμοποίηση προτύπων DM επί στοιχείων παρόμοιων ιστορικών έργων, μπορεί να εκτιμηθεί το ύψος της εκτιμώμενης δαπάνης (ανά τετρ. μέτρο). Tα στοιχεία αυτά μπορούν να χρησιμοποιηθούν για την αποτελεσματικότερη διαχείριση των πόρων σε ένα νέο έργο. Επίσης θα μπορούσαν να διερευνηθούν συσχετικές πληροφορίες των ιστορικών στοιχείων των έργων και να δημιουργηθούν κατάλληλες γραφικές παραστάσεις για ανάλυση και λήψη αποφάσεων.

Θα μπορούσε να γίνει ανάλυση του προγράμματος κατασκευής (πρόγραμμα ολόκληρου του έργου και πρόγραμμα WBS).  Ειδικότερα να διερευνηθεί το πώς αναμένεται να επηρεάσουν το πρόγραμμα γεγονότα που σχετίζονται με διασφάλιση ποιότητας και ασφάλειας.

Ανάλογα με τα χαρακτηριστικά του έργου, όπως είδος κατασκευής, είδος και επίπεδο εργασίας στο WBS, το σύστημα θα μπορούσε να αναλύσει τα γεγονότα που συνέβησαν με μεγάλη συχνότητα κατά τη διάρκεια κατασκευής σε αντίστοιχες περιπτώσεις.  Απεικονίζοντας τα αποτελέσματα της ανάλυσης αυτής θα ήταν εύκολο οι χρήστες να ανακαλύψουν χρήσιμες πληροφορίες ή να διαμορφώσουν χρήσιμες αναφορές. Το σύστημα θα μπορούσε να ανακαλύπτει επίσης τους παράγοντες με τη μεγαλύτερη επίδραση στην ποιότητα και την ασφάλεια ενός έργου και τη σχέση μεταξύ των γεγονότων ποιότητας/ασφάλειας και της ανάλυσης κόστους/χρόνου με τη χρησιμοποίηση π.χ. ανάλυσης κατά συστάδες.  

Εταιρεία Λιανικού Εμπορίου

Μια εταιρεία λιανικού εμπορίου θα μπορούσε να χρησιμοποιήσει μεθόδους DM ως επικουρικό εργαλείο για την επιλογή των περιοχών που θα ανοίξει νέα καταστήματα. Με την ανάλυση εμπορικών και δημογραφικών στοιχείων για τις πιθανές νέες περιοχές και με τη χρήση περιγραφικών, σχεσιακών και προγνωστικών μοντέλων DM, η ερευνητική ομάδα θα μπορούσε να καθορίσει ποιες περιοχές έχουν τη μεγαλύτερη πιθανότητα εμπορικής επιτυχίας για κάθε μια από τις γραμμές καταστημάτων της. 

Προφανώς οι μέθοδοι DM θα μπορούσαν να εφαρμοστούν και σε ζητήματα ικανοποίησης πελατών. Για παράδειγμα από την ανάλυση στοιχείων ερευνών αγοράς μπορεί να γίνει αντιληπτό τι θεωρείται σημαντικό από τους πελάτες και ποια είναι τα καταστήματα με προβλήματα ικανοποίησης πελατών. Τα αποτελέσματα της ανάλυσης μπορούν να χρησιμοποιούνται για να βοηθήσουν τη διοίκηση να διαθέσει καλύτερα τους πόρους και την τεχνολογία στα καταστήματά της, καθώς επίσης και να βελτιώσει την κατάρτιση.

Categories: εργασίες

Άλλες πηγές

February 28, 2008 · 1 Comment

  • The Data Mining Software Repository makes available a collection of free (as in libre) open source software tools for data mining
  • The Data Mining Catalogue lists many of the free and commercial data mining tools that are available on the market.
  • The Australasian Data Mining Conferences are supported by Togaware, which also hosts the web site.
  • Information about the Pacific Asia Knowledge Discovery and Data Mining series of conferences is also available.
  • A Data Mining course is taught at the Australian National University.
  • See also the Canberra Analytics Practise Group.
  • A Data Mining Course was held at the Harbin Institute of Technology Shenzhen Graduate School, China, 6 December - 13 December 2006. This course introduced the basic concepts and algorithms of data mining from an applications point of view and introduced the use of R and Rattle for data mining in practise.
  • A Data Mining Workshop was held over two days at the University of Canberra, 27-28 November, 2006. This course introduced the basic concepts and algorithms for data mining and the use of R and Rattle.

Οι παραπάνω σύνδεσμοι προέρχονται από τη σελίδα http://datamining.togaware.com/ όπου θα βρείτε και την εφαρμογή Rattle (R)

Categories: πηγές

Συστάσεις (Γιώργος Δοντάς)

February 27, 2008 · No Comments

ΣΠΟΥΔΕΣ:

Εθνικό Μετσόβιο Πολυτεχνείο - Σχολή  Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών: Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών Τεχνο-Οικονομικά Συστήματα. Κατεύθυνση “Διοίκηση Τεχνολογικών Συστημάτων”.

Πανεπιστήμιο Θεσσαλονίκης, Τμήμα Πολιτικών Μηχανικών, Κατεύθυνση “Επιστήμη & Τεχνολογία κατασκευών”

ΕΠΙΣΤΗΜΟΝΙΚΕΣ ΕΡΓΑΣΙΕΣ:

• «Stochastic Estimation using the Extended and Unscented Kalman Filters”. Διπλωματική Εργασία που εκπονήθηκε στα πλαίσια του Διατμηματικού Προγράμματος Μεταπτυχιακών Σπουδών “Τεχνο-Οικονομικά Συστήματα», 2007.

• «Στατική - Δυναμική ανάλυση με πεπερασμένα στοιχεία σε Η/Υ με το πρόγραμμα SAP 80» και αντικείμενο την ανάλυση των τεχνικών μοντελλοποίησης φορέων υπό φορτίσεις πάσης φύσεως και των αποτελεσμάτων που αυτές δίνουν σε σχέση με αυτά της θεωρητικής επίλυσης αλλά και άλλων προγραμμάτων (π.χ. SUPERETABS). Διπλωματική Εργασία που εκπονήθηκε στον τομέα Στατικής & Δυναμικής των Κατασκευών του τμήματος Πολιτικών Μηχανικών του ΑΠΘ, 1991.

ΣΕΜΙΝΑΡΙΑ:

2007 - 2008: Παρακολούθηση μαθημάτων στα πλαίσια του μεταπτυχιακού προγράμματος “Εραρμοσμένες Μαθηματικές Επιστήμες” της σχολής Ε.Μ.Φ.Ε. του Ε.Μ.Π.

  • Μπεϋζιανή Στατιστική
  • Αριθμητικές Μέθοδοι Διαφορικών Εξισώσεων (προβλήματα αρχικών και συνοριακών τιμών)
  • Υπολογιστική Στατιστική και Στοχαστική Βελτιστοποίηση
  • Αλγόριθμοι Εξόρυξης Πληροφορίας (Data Mining)

Γλώσσες Προγραμματισμού: C#, Visual Basic.NET, MATLAB, R, WinBUGS, SIMULINK, VB, JAVA, POWER BUILDER, T SQL, IDL, Office VBA, ASP.NET, XML, Shell scripting
Σχεσιακές Βάσεις Δεδομένων: MS SQL Server (Διαχείριση, Προγραμματισμός), Sybase (Διαχείριση, Προγραμματισμός), MySQL, Access, ODBC, ADO 2.x, ADO.NET, DAΟ

ΘΕΣΗ: Στέλεχος Πληροφοριακών Συστημάτων ΕΡΓΟΣΕ με αρμοδιότητες :

  • τη συμβολή στον σχεδιασμό, τη συνεχή ανάπτυξη και την λειτουργία του εταιρικού Ολοκληρωμένου Πληροφοριακού Συστήματος (ΟΠΣ) της «ΕΡΓΟΣΕ Α.Ε.» (σε περιβάλλον Powerbuilder/PFC - SYBASE ASE 12.5)
  • το σχεδιασμό και την ανάλυση βάσεων δεδομένων (Sybase ή MS SQL Server)
  • τον προγραμματισμό και διαχείριση βάσεων δεδομένων Sybase ή MS SQL Server
  • τη στατιστική επεξεργασία των δεδομένων και την εξόρυξη γνώσης.
  • την ανάπτυξη συμπληρωματικών εφαρμογών (desktop ή web) με πρόσβαση στις ως άνω βάσεις δεδομένων με χρήση της βιβλιοθήκης αντικειμένων .NET Framework ή της VBA (COM, Windows API) ή του Powerbuilder
  • τη δημιουργία δυναμικών βιβλιοθηκών αντικειμένων (dll) γενικής χρήσης.

ΕΝΔΙΑΦΕΡΟΝΤΑ:

  • Systems Analysis and Optimization
  • Optimal State Estimation (Kalman Filtering)
  • Fault Detection and Isolation
  • Time Series Analysis
  • Bayesian Data Analysis (WinBUGS, R)
  • Multivariate Statistical analysis / Statistical Data Mining (R, SPSS, MATLAB, STATISTICA, Weka, Rattle, GGobi)

Categories: συστάσεις