Εργασία 01: Πανδή Αθηνά

 Ερευνητική εφαρμογή

Μια τεράστια βάση δεδομένων, που ίσως αρκετοί δεν έχουν σκεφτεί αποτελεί το facebook. Εκεί εκατομμύρια άνθρωποι, κυρίως νέοι, από όλο τον κόσμο έχουν δημιουργήσει ένα “προφίλ” στο διαδίκτυο όπου αναγράφονται δεδομένα όπως ηλικία, φύλλο, μόρφωση πολιτικές και θρησκευτικές πεποιθήσεις, μουσικές και τηλεοπτικές προτιμήσεις καθώς και πληθώρα άλλων πληροφοριών οι οποίες μπορούν να αξιοποιηθούν με μεθόδους data mining από κάποιο Πανεπιστημιακό Ίδρυμα και να βγουν ενδιαφέροντα συμπεράσματα για το πώς σκέφτονται οι νέοι, ποιες είναι οι προτιμήσεις τους και πως αντιμετωπίζουν γενικά την επικαιρότητα.

Επιχειρηματική εφαρμογή

 Οι εταιρίες τηλεπικοινωνιών θα μπορούσαν χρησιμοποιώντας τεχνικές data mining να βγάλουν συμπεράσματα σχετικά με το target group των πελατών τους προσαρμόζοντας έτσι τις υπηρεσίες τους και κατά επέκταση μεγιστοποιώντας το κέρδος. Η ανάλυση αυτή μπορεί να γίνει σε βάση δεδομένων που θα περιέχει πληροφορίες  όπως η ηλικία, το φύλλο, ο τόπος κατοικίας και το μορφωτικό επίπεδο των χρηστών ευρυζωνικών υπηρεσιών στην Ελλάδα.

Advertisements

15 responses to “Εργασία 01: Πανδή Αθηνά

  1. Τα περισσότερα πεδία στο facebook είναι ελεύθερης συμπλήρωσης κειμένου και φαντάζομαι ότι θα είναι δύσκολο να κατηγοριοποιηθούν (δεν ξέρω κατά πόσον θα ήταν εύκολο μέσω text mining).

  2. Και όμως στο facebook τα πέδια που θα ήθελε να χρησιμοποιήσει η αγαπητή συνάδελφος έχουν απο μόνα τους κάποιες επιλογές π.χ το φύλο έχει male-female, οι πολιτικές πεποιθήσεις έχουν liberal,conservative, moderate κ.τ.λ. όποτε θα έιναι ενδιαφέρουσα μια τέτοια έρευνα.

  3. Το ίδιο είπα κι εγώ. Τα πεδία με επιλογές είναι πολύ λίγα. Και πάλι όμως πως θα αποκτήσει ένα πανεπιστήμιο πρόσβαση στη βάση δεδομένων του facebook;

  4. Όντως τα πεδία με επιλογές είναι λίγα,όμως υπάρχουν στην κάθε σελίδα πάρα πολλά δεδομένα και φαντάζομαι ότι υπάρχουν πολλές στατιστικές τεχνικές για κατηγοριοποίηση δεδομένων. Ένα Πανεπιστήμιο θα μπορούσε κάλλιστα να πάρει άδεια από την ομάδα του facebook για να χρησιμοποίησει την βάση δεδομένων έχοντας πρώτα ενημερώσει για τους σκοπούς της έρευνας και διασφαλίσει την προστασία των προσωπικών δεδομένων.

  5. Να συμπληρώσω στα παραπάνω ότι στο Facebook περιλαμβάνονται applications, ερωτηματολόγια, συμμετοχές σε groups κλπ, στα οποία κάθε χρήστης συμμετέχει με γνωστή την ταυτότητά του, οπότε κάλλιστα μπορούν να χρησιμοποιηθούν στοιχεία από αυτά για τη μελέτη των τάσεων και των ενδιαφερόντων της νεολαίας.

    Εμένα μου άρεσε πολύ η ιδέα για το Facebook!!!!:):):):):)

  6. Έχω απλά την απορία με ποια τεχνική μπορείς να κατηγοριοποιήσεις τις παρακάτω εγγραφές:
    – I like comedies
    – Ι dont like comedies
    – I hate comedies
    – I like farce

  7. Anna Skountzou

    Νομίζω ότι μπορείς να αντιστοιχίσεις σε κάθε πιθανή απάντηση μία ψευδομεταβλητή, π.χ. “I like comedies” -> 1, “I don’t like comedies” ->2, κ.ο.κ. , και να κατηγοριοποιείς τις εγγραφές που σε ενδιαφέρουν έτσι. Εξ’ου και συγκεντρώνεται μία τεράστια βάση δεδομένων, γιατί για κάθε μεταβλητή (π.χ. comedy) θα έχεις τέσσερις (ή και παραπάνω) “τιμές”.

  8. Αφού κάθε απάντηση είναι διαφορετική από την άλλη, καθότι ελεύθερη, θα έχεις τόσες μεταβλητές όσες σχεδόν και οι περιπτώσεις που χρησιμοποιήθηκε η λέξη comedies. Και πάλι πώς μπορείς αυτόματα να διαγνώσεις σε ποιες περιπτώσεις δηλώνεται συμπάθεια για το είδος και σε ποιες αντιπάθεια (για να μη μιλήσω για τις συνώνυμες λέξεις που μπορεί να έχουν χρησιμοποιηθεί αντί του comedies)

  9. Eleftheria Kanavou

    Γεια σου Αθηνά με το facebook!!!
    Σκοπός της εργασίας είναι να συνειδητοποιήσουμε – ανακαλύψουμε την τεράστια εμβέλεια εφαρμογής της μεθόδου data mining, έστω και σε θεωρητικό επίπεδο. Η ιδέα του facebook θεωρώ πως είναι πολύ ευρηματική, ενδιαφέρουσα και πρακτική. Σαφώς θα αντιμετωπίζει κάποια προβλήματα στην εφαρμογή της, λόγω πληθώρας των δεδομένων. Για όποιον ενδιαφέρεται να επικεντρωθεί στα προβλήματα αυτά ας προσπαθήσει να λύσει τις απορίες του πραγματοποιώντας αυτήν την ιδέα.

  10. Anna Skountzou

    Προφανώς την παραπάνω κωδικοποίηση που περιέγραψα ο ερευνητής μπορεί να την εφαρμόσει σε συγκεκριμένα applications που θα αφορούν την εκάστοτε μελέτη που θα πραγματοποιεί και όχι καθολικά σαν να κάνει αναζήτηση στο google. Άλλωστε η διαδικασία δειγματοληψίας έγκειται στη διάθεση του κάθε ερευνητή και μπορεί να βασίσει την ανάλυσή του σε όσα applications κρίνει απαραίτητα και με όσες μεταβλητές θέλει. Αυτό που θα του παρέχει το facebook σαν βάση δεδομένων είναι η πληθώρα επιλογών και πιθανών συνδυασμών.

  11. Αγαπητέ ΓΔ047,έχεις κολλήσει στην λεπτομέρεια με την μεταβλητή comedies. Μπορούν να κατηγοριοποιηθούν οι προτιμήσεις στο σινεμά σε κάποιες γενικές ομάδες και να κατατάσσονται οι χρήστες ανάλογα με το τι έχουν απαντήσει. Αλλά δεν είναι εκεί το θέμα. Εξεφρασα την ιδέα ότι θα μπορούσαν να αξιοποιηθούν οι πληροφορίες που υπάρχουν στο facebook. Σίγουρα υπάρχουν πολλές τεχνικές. Αν θες μπορείς να αντρέξεις σε βιβλία Στατιστικής να δεις τι είδους μέθοδοι υπάρχουν για ανάλυση και κατηγοριοποιήση δεδομένων.Αλλα πιστευω ότι είναι εφικτή μια ανάλυση των πληροφοριώντου facebook.

  12. Παραδέχομαι ότι δεν έχω υπόψη μου κανένα αυτοματοποιημένο τρόπο που να κατηγοριοποιείται σε ομάδες το ελεύθερο κείμενο – ελπίζω να με κάνει σοφότερο το εν λόγω μάθημα. Αν οι προτιμήσεις ήταν εξαρχής κατηγοριοποιημένες και επιλέγονταν από drop down lists, θα ήταν εύκολα τα πράγματα. Το να μπορέσεις όμως να αντιληφθείς το νόημα σε ελεύθερο κείμενο ώστε να προβείς σε κατηγοριοποιήσεις είναι άλλο. Αν ήταν απλό, θα είχε λυθεί και το πρόβλημα του spam mail ή του semantic web. Δεν θέλω να πω ότι η ιδέα δεν είναι ωραία. Το ερευνητικό ενδιαφέρον όμως φαίνεται να έγκειται, όπως ελέχθη και στο μάθημα, στην αποτελεσματική αναζήτηση περιεχομένου βάσει νοήματος και όχι λέξεων.

  13. “αποτελεσματική αναζήτηση περιεχομένου βάσει νοήματος και όχι λέξεων”

    spam mail or semantic web? Τι σημαίνουν οι λέξεις? Το νόημα?

  14. Εξαιρετικές ιδέες, επειδή προκάλεσαν και εκτενή σχετική συζήτηση η βαθμολογία που λαμβάνεις Αθηνά είναι 6/5.

    Κάποια σχόλια τώρα, πέρα από οποιαδήποτε ‘αξιολόγηση’:
    Το facebook διατηρεί για κάθε μέλος του χαρακτηριστικά δεδομένα που ίσως κανείς άλλος στην ιστορία δεν έχει καταφέρει. Αυτό είναι και το μεγάλο του πλεονέκτημα, από άποη διαφημιστική. Μην ξεχνάτε ότι το κύριο όχημα αποκόμισης χρημάτων και στο διαδίκτυο, είναι η διαφήμιση.
    Το facebook λοιπόν διαθέτει τόσα πολλά δεδομένα σχετικά με τον καθένα μας, τα ενδιαφέροντά μας, τις προτιμήσεις μας αλλά και αυτά των φίλων μας, ώστε μπορεί να παρέχει σε όσους διαφημίζονται σε αυτό τις περισσότερο και καλύτερα στοχευμένες διαφημίσεις, σε βαθμό καλύτερο και από τη Google. Προσέξτε το την επόμενη φορά που θα το επισκεφθείτε. Και προφανώς αυτή η στόχευση υλοποιείται με χρήση τεχνικών DM.
    Κάτι ακόμη, που ίσως το γνωρίζετε: H Microsoft ξόδεψε προ λίγων μηνών $240Μ για να αγοράσει το 1.6% των μετοχών του facebook, γεγονός που ανεβάζει τη συνολική αποτίμηση για αυτό στα $15Β, περισσότερο πχ από τη χρηματιστηριακή αξία της Ford αυτή τη στιγμή. Μπορώ να σας πω και περισσότερα στο μάθημα αν θέλετε.

    Περί διακριτοποίησης μεταβλητών, η διαδικασία που υπέδειξη η ‘Αννα είναι σωστή εν γένει, θα δούμε αρκετές τέτοιες μεθόδους σε σχετική διάλεξη. Γιώργο, σχετικά με τη ‘διακριτοποίηση κειμένου΄που αναφέρεις, αυτή ανήκει εν γένει στο text mining, με το οποίο δεν θα ασχοληθούμε (αν και το weka έχει κάποιους σχετικούς βασικούς αλγορίθμους). Φανταστείτε πως, αν το data mining αφορά το επίπεδο, το text mining αφορά το χώρο.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s