Contia

Κατασκευή ιστοσελίδων Θεσσαλονίκη

Υπερμοντελοποίηση στην Μηχανική Μάθηση (overfitting)

Contia Θεσσαλονίκη

Υπερμοντελοποίηση στην Μηχανική Μάθηση (overfitting)

Εισαγωγή

Η Μηχανική Μάθηση επιδιώκει την δημιουργία μοντέλων μέσω των αλγορίθμων που χρησιμοποιεί. Σκοπός ενός μοντέλου μπορεί να είναι η ταξινόμηση νέων περιπτώσεων βάση ενός συνόλου κατηγοριών. Για να είναι εφικτή αυτή η λειτουργία θα πρέπει το μοντέλο που θα δημιουργηθεί να μπορεί να γενικεύσει.

Τι εννοούμε γενίκευση;

Για να κατανοήσουμε καλύτερα τον σκοπό των μοντέλων που έχουν προκύψει από επιβλεπόμενη μάθηση (Μηχανική μάθηση), προσπαθώντας να λύσουν το πρόβλημα της ταξινόμησης, θα δώσουμε ένα παράδειγμα. Σκεφτείτε ότι την επόμενη μέρα δίνετε εξετάσεις στη σχολή σας γνωρίζοντας τα θέματα των προηγούμενων ετών.

Πιστεύοντας ότι και τα φετινά θέματα θα είναι τα ίδια, εστιάζετε την μελέτη σας μόνο σε αυτά. Αν τελικά στις εξετάσεις τα θέματα είναι ίδια με των παλαιότερων ετών τότε θα είστε σε θέση να γράψετε και ίσως να αριστεύσετε. Από την άλλη μεριά, αν τα θέματα είναι διαφορετικά το μόνο σίγουρο είναι ότι θα έχετε μία δύσκολη μέρα.

Ας μεταφέρουμε το παράδειγμα στην ανάλυση που κάναμε προηγουμένως. Κατά την εκπαίδευσή σας δεν γενικεύσατε με βάση τις γνώσεις που πήρατε από τα παλιά θέματα. Αντιθέτως, γνωρίσατε πολύ καλά ένα συγκεκριμένο σύνολο θεμάτων. Έτσι, το “μοντέλο” που χτίσατε δεν μπόρεσε να τα πάει καλά σε νέες περιπτώσεις που δεν ταιριάζουν στο σύνολο δεδομένων που εκπαιδευτήκατε. Τι όμως πήγε στραβά; Την απάντηση σε αυτό θα μας την δώσει η έννοια της υπερμοντελοποίησης.

Υπερμοντελοποίηση

Ένας επίσημος ορισμός στην περίπτωση της ανάλυσής μας από το Oxford Dictionary θα σας διαφωτίσει.

The production of an analysis which corresponds too closely or exactly to a particular set of data, and may therefore fail to fit additional data or predict future observations reliably.

Στην περίπτωση του παραδείγματος που δόθηκε παραπάνω, το σύνολο δεδομένων είναι τα παλιά θέματα ενώ η προσαρμογή σε νέα δεδομένα είναι η δυνατότητα του φοιτητή να γράψει τα νέα θέματα.

Περιπτώσεις υπερμοντελοποίσης

Περιπτώσεις υπερμοντελοποίσης μπορούμε να έχουμε όταν.

  1. Τα δεδομένα εκπαίδευσης δεν ταιριάζουν με τις νέες περιπτώσεις. Για παράδειγμα, φανταστείτε ότι θέλετε να ταξινομήσετε κάποια email σε ανεπιθύμητη ή επιθυμητή αλληλογραφία. Έστω ότι τα email που διαθέτουμε ως σύνολο εκπαίδευσης είναι μόνο ανεπιθύμητα. Το μοντέλο που θα χτιστεί δεν θα είναι σε θέση να προβλέψει μία νέα περίπτωση email ως επιθυμητή αλληλογραφία καθώς δεν θα έχει δει προγενέστερα μία τέτοια περίπτωση.
  2. Η επιλογή χαρακτηριστικών. Ως παράδειγμα θα χρησιμοποιήσουμε το παράδειγμα με την αλληλογραφία. Έστω ότι κάθε χαρακτηριστικό είναι μία λέξη σε ένα δοσμένο λεξικό της αγγλικής γλώσσας μαζί με λέξεις από την σύγχρονη τεχνολογία. Επίσης, το μοντέλο εκπαιδεύεται ώστε να μπορεί να προβλέψει αν η αλληλογραφία είναι επιθυμητή ή όχι βρίσκοντας συνδυασμούς λέξεων.
  3. Η παραμετροποίηση των αλγορίθμων μηχανικής μάθησης κατά την εκπαίδευση του μοντέλου. Όπως, αναφέρετε στο sklearn η παραμετροποίηση είναι μία επιθυμητή ενέργεια που την εφαρμόζουν πολλοί ερευνητές με σκοπό την βελτίωση των αποτελεσμάτων τους.

Για την επίλυση της υπερμοντελοποίησης και για την καλύτερη γενίκευση του μοντέλου που χτίζουμε θα μπορούσαμε να σπάσουμε το σύνολο των δεδομένων μας σε σύνολο εκπαίδευσης και σύνολο δοκιμής.

Εφαρμόζοντας αυτή την τεχνική, μπορούμε να κάνουμε διάφορες δοκιμές στο σύνολο εκπαίδευσης και όταν καταλήξουμε στις καλύτερες τότε βλέπουμε τα αποτελέσματα στο test set.

Προσοχή όμως, δοκιμάζοντας διάφορες τεχνικές στο σύνολο εκπαίδευσης με σκοπό τα καλύτερα αποτελέσματα στο σύνολο δοκιμής, είναι και αυτό μία μορφή υπερμοντελοποίησης.

Κάποιες χρήσιμες πηγές

      1. Machine Learning: The Art and Science of Algorithms that Make Sense of Data 
      2. Overfitting 

About Author

contia

Η Contia ιδρύθηκε το 2017 με έδρα τη Θεσσαλονίκη έχοντας ως κύριο αντικείμενο την παροχή υπηρεσιών Διαδικτύου (κατασκευή ιστοσελίδων, κατασκευή ηλεκτρονικών καταστημάτων). Οι υπηρεσίες που προσφέρει η CONTIA εξελίσσονται συνεχώς ώστε να ανταπεξέλθει στις απαιτήσεις των ομάδων ενδιαφερομένων. Η μεταβολή του περιβάλλοντος, μας καθιστά υπεύθυνους στη διαχείριση της τεχνολογίας μέσω της συνεχής εκπαίδευσης της διοίκησης και μέσω της επένδυσης της εταιρείας στην έρευνα και ανάπτυξη. Προς αυτήν την κατεύθυνση, οι υπηρεσίες μας συνεχίζουν να εξελίσσονται όσο ερχόμαστε αντιμέτωποι με νέα ζητήματα και νέες προκλήσεις για την ικανοποίηση της αγοράς. Ο κλάδος που υπεισέρχεται η εταιρεία απαιτεί να έχουμε σχεδιασμένες τις Επιχειρηματικές Αρχές ώστε να διασφαλίσουμε ότι η CONTIA έχει στόχο να κάνει πάντοτε υπεύθυνες επιλογές. Τέλος, σαν εταιρεία αναγνωρίζουμε πως η οικοδόμηση και η διατήρηση της εμπιστοσύνης των πελατών και όλων των ομάδων ενδιαφερομένων απαιτεί αδιάλειπτη προσήλωση και συνεχή ετοιμότητα τόσο από τη διοίκηση της επιχείρησης όσο και από το προσωπικό της.

Leave a Reply

Κατηγοριες Αρθρων

Αρθρα – Ημερολογιακα

Καντε μια δωρεα

Donation Form 2018

Βοηθήστε μας να βελτιώσουμε το ιστολόγιό μας. Αν τα άρθρα μας ανήκουν στα ενδιαφέροντά σας, κάντε την προσφορά σας
1,00
Προσωπικές Πληροφορίες

Συνολική Δωρεά 1,00€