Βασικές μετρήσεις για την παρακολούθηση της ποιότητας των δεδομένων

0
Βασικές μετρήσεις για την παρακολούθηση της ποιότητας των δεδομένων

Το κλειδί για την επιτυχή εφαρμογή ενός προγράμματος ή μιας συσκευής με τεχνητή νοημοσύνη εξαρτάται από τα δεδομένα που χρησιμοποιούνται για την εκπαίδευση του μοντέλου. Η χρήση δεδομένων εκπαίδευσης κακής ποιότητας έχει ως αποτέλεσμα ένα ανεπαρκώς εκπαιδευμένο μοντέλο που μπορεί να απαιτεί επιπλέον χρόνο και προϋπολογισμό για την επανεκπαίδευση και τη δοκιμή. Ο καλύτερος τρόπος για να αποφευχθεί αυτό είναι η εφαρμογή ποιοτικών ελέγχων στη διαδικασία εκπαίδευσης μοντέλων. Είναι σημαντικό να σημειωθεί ότι δεν εξυπηρετούν όλες οι μετρήσεις ποιότητας τον ίδιο σκοπό και ορισμένες ταιριάζουν καλύτερα σε διαφορετικούς τύπους δεδομένων από άλλες.

Αυτές οι μετρήσεις είναι:

  • Αξιοπιστία μεταξύ αξιολογητών – απλή και διπλή αναθεώρηση, έλεγχοι
  • Βαθμολογία F1 – ακρίβεια, ανάκληση
  • Ακρίβεια – χρυσά σύνολα δεδομένων, κουίζ

Δεν δημιουργούνται όλα τα δεδομένα ίσα, ούτε οι μετρήσεις. Διαφορετικοί τύποι είναι κατάλληλοι για διαφορετικές ανάγκες έργου.

Αξιοπιστία μεταξύ αξιολογητών

Η ενιαία αναθεώρηση είναι η διαδικασία κατά την οποία δύο ξεχωριστοί συνεισφέροντες σχολιάζουν το ίδιο τμήμα δεδομένων (ένας για να σχολιάσει και ένας για να επιβεβαιώσει ότι έχει σχολιαστεί σωστά) και ελέγχουν αν ταιριάζει. Εάν συμβαίνει αυτό, τα δεδομένα καθορίζεται να σχολιάζονται σωστά. Εάν οι δύο διαφωνούν, τότε χρειάζεται διπλή αναθεώρηση. Ένας τρίτος συνεργάτης εργάζεται πάνω στο κομμάτι των δεδομένων. Εάν ταιριάζει με κάποιο από τα δύο πρώτα, αυτή θεωρείται η σωστή απάντηση. Εάν δεν υπάρχουν αντιστοιχίες, τα δεδομένα απορρίπτονται και περνούν ξανά τη διαδικασία. Αυτή η διαδικασία δεν είναι μια κατάσταση 100% αντιστοίχισης ή μη. Εάν επιθυμείτε, μπορούν να επιτραπούν μερικοί αγώνες. Εδώ είναι που παίζει ρόλο η ύπαρξη ενός ορίου ακρίβειας — εάν αυτό το όριο δεν πληρούται, τα δεδομένα δεν θα είναι αρκετά υψηλής ποιότητας για να εκπαιδεύσουν το μοντέλο να λειτουργεί όπως προβλέπεται.

Οι ελεγκτές μπορούν να εργάζονται σε συνδυασμό με απλή και διπλή αξιολόγηση ή να λειτουργούν χωριστά. Οι ελεγκτές είναι έμπειροι συνεισφέροντες που αποδεικνύουν σταθερά ότι διατηρούν υψηλή ποιότητα, οι οποίοι είναι επιφορτισμένοι με την αξιολόγηση των ολοκληρωμένων δεδομένων για να ελέγξουν ότι σχολιάστηκαν σωστά. Αυτοί οι ελεγκτές παρέχουν επίσης ανατροφοδότηση σε όσους εργάστηκαν στα δεδομένα, ενημερώνοντάς τους εάν κάτι έγινε εσφαλμένα. Είναι συνετό να εργάζονται περισσότεροι από ένας ελεγκτές σε ένα έργο, ώστε να επιτρέπεται ο έλεγχος περισσότερων δεδομένων και να αποτρέπεται η είσοδος κακών δεδομένων στο μοντέλο.

Βαθμολογία F1

Το F1, που χρησιμοποιείται συχνά σε σύνολα δεδομένων ταξινόμησης, είναι μια βαθμολογία της προγνωστικής ακρίβειας του μοντέλου με βάση τα παρεχόμενα δεδομένα εκπαίδευσης. Υπάρχουν δύο βασικές μετρήσεις για τον υπολογισμό αυτής της βαθμολογίας: ανάκληση και ακρίβεια. Η ανάκληση αναφέρεται στο κλάσμα των σχετικών στοιχείων που ανακτώνται. Η ακρίβεια αναφέρεται στο κλάσμα των ανακτημένων στοιχείων που είναι σχετικά. Οι πελάτες βρίσκουν το F1 χρήσιμο για την εύρεση μιας ισορροπίας μεταξύ των βαθμολογιών ακρίβειας και ανάκλησης στην επισήμανση δεδομένων τους. Για όσους χρειάζονται μόνο ένα σκορ είτε στην ακρίβεια είτε στην ανάκληση, η F1 δεν είναι τόσο ωφέλιμη.

Ακρίβεια

Η ακρίβεια που βασίζεται στο κουίζ μετριέται με τεστ που χορηγούνται πριν και κατά τη διάρκεια του έργου. Η προκαταρκτική εξέταση είναι η διαδικασία στην οποία περνά το πλήθος μας για να βεβαιωθεί ότι κατανοεί πώς να σχολιάζει συγκεκριμένα δεδομένα με βάση τις απαιτήσεις του έργου. Υπάρχει ένας αριθμός ερωτήσεων που πρέπει να απαντήσουν σωστά για να μπορέσουν να λειτουργήσουν. Σε όλη τη διάρκεια του έργου δίνονται επιπλέον κουίζ.

Μια άλλη μέθοδος διεξαγωγής κουίζ είναι μέσω χρυσών συνόλων δεδομένων, αυτά είναι προεπισημασμένα κομμάτια δεδομένων που ενσωματώνονται σε ένα σύνολο δεδομένων που σχολιάζεται ως κουίζ. Αφού σχολιαστούν τα ενσωματωμένα κουίζ από ένα άτομο, παρέχεται βαθμολογία ακρίβειας. Εάν κάθε συνεισφέρων πετύχει ένα συγκεκριμένο σκορ σε οποιαδήποτε μέθοδο κουίζ, μπορεί να συνεχίσει να εργάζεται στο έργο. Αυτοί οι τύποι δοκιμών επιτρέπουν στους κατόχους έργων να εντοπίζουν εύκολα οποιονδήποτε δεν πληροί τις απαιτήσεις του έργου και να τον αφαιρούν και τα δεδομένα στα οποία έχουν εργαστεί από το μοντέλο που εκπαιδεύεται

Λήψη των σωστών δεδομένων

Δεν αρκεί να βεβαιωθείτε ότι τα ληφθέντα δεδομένα σχολιάζονται με ακρίβεια σύμφωνα με τις απαιτήσεις του έργου. είναι ότι τα δεδομένα πρέπει να είναι επωφελής για το πρόγραμμα ή τη συσκευή καθώς και πλήρη. Τα πλήρη δεδομένα καλύπτουν όλες τις πιθανές περιπτώσεις χρήσης που απαιτούνται για την επιτυχή εκπαίδευση του μοντέλου.

Υπάρχουν τέσσερις κύριοι τρόποι προέλευσης δεδομένων:

  • Συλλέξτε χειροκίνητα
  • Χρησιμοποιήστε ένα υβριδικό μοντέλο τεχνολογίας και ανθρώπινου κύκλου
  • Χρησιμοποιήστε ένα προεπισημασμένο σύνολο δεδομένων (PLD)
  • Χρησιμοποιήστε συνθετικά δεδομένα

Η μη αυτόματη λήψη όλων των απαραίτητων δεδομένων είναι μια εξαιρετική επιλογή εάν δεν υπάρχουν περιορισμοί προϋπολογισμού ή χρόνου. Οι επιχειρήσεις που πρέπει να επισπεύσουν τη διαδικασία μπορούν να χρησιμοποιήσουν ένα PLD. Διαθέτουμε περισσότερα από 250 PLD στον ιστότοπό μας, έτοιμα για χρήση αμέσως από το ράφι. Ένα υβριδικό μοντέλο μπορεί επίσης να χρησιμοποιηθεί όπου τα προεπισημασμένα δεδομένα χρησιμοποιούνται ως σημείο εκκίνησης και στη συνέχεια οι άνθρωποι εργάζονται για να ετοιμάσουν τα υπόλοιπα δεδομένα για εκπαίδευση μοντέλων.

Εναλλακτικά, εάν τα δεδομένα είναι ευαίσθητα στη φύση (ιατρικά και οικονομικά, για παράδειγμα), είναι επωφελές να χρησιμοποιείτε δεδομένα που δημιουργούνται όπου οι τιμές δεν σχετίζονται με έναν ζωντανό άνθρωπο. Τα δημιουργούμενα δεδομένα, γνωστά ως συνθετικά δεδομένα, μπορούν να δημιουργήσουν δεδομένα χωρίς στοιχεία προσωπικής ταυτοποίησης (PII) και είναι μια ιδανική επιλογή για δύσκολες περιπτώσεις αιχμής. Συνεργαστήκαμε με Mindtech για να φέρουμε αυτές τις λύσεις συνθετικών δεδομένων στους πελάτες μας.

Τα ποιοτικά δεδομένα ξεκινούν με τους σχολιαστές

Ένας βασικός τρόπος για να διασφαλιστεί η υψηλή ποιότητα των δεδομένων είναι η χρήση αποκλειστικών σχολιαστών που έχουν δεσμευτεί να επισημαίνουν τα δεδομένα με ακρίβεια και μπορούν να συμμορφώνονται με τις απαιτήσεις του έργου. Στο Appen, έχουμε ένα αφοσιωμένο πλήθος πάνω από ένα εκατομμύριο ανθρώπων που ζουν σε όλο τον κόσμο. Μέσω των διαχειριζόμενων υπηρεσιών μας, τα μέλη του πλήθους περνούν αυστηρές δοκιμές επισήμανσης πριν από τον έλεγχο που διασφαλίζουν ότι είναι σε θέση να σχολιάζουν τα δεδομένα με ακρίβεια σύμφωνα με τις απαιτήσεις του έργου.

Για να επιβεβαιώσετε ότι ο σχολιασμός εκτελείται σωστά σε όλη τη διαδικασία, τα δεδομένα θα πρέπει να ελεγχθούν ως προς την ποιότητα. Αυτό γίνεται συνήθως μέσω της διαδικασίας ελέγχου. Συνήθως γίνεται από ελεγκτές, ακολουθούν την ίδια διαδικασία προκαταρκτικού ελέγχου για να αποδείξουν ότι μπορούν να διατηρήσουν τις απαιτήσεις του έργου και να αποτρέψουν τη χρήση δεδομένων με κακή επισήμανση για την εκπαίδευση ενός μοντέλου.

Υποκειμενική VS Αντικειμενική Ποιότητα

Είναι σημαντικό να σημειωθεί ότι οι μετρήσεις ποιότητας δεν είναι πάντα οριστικές. Μπορούν να ταξινομηθούν σε δύο κατηγορίες, υποκειμενικές και αντικειμενικές.

Μερικά παραδείγματα περιπτώσεων χρήσης:

  • Αντικειμενικές περιπτώσεις χρήσης: ταξινόμηση και τμηματοποίηση
  • Υποκειμενικές περιπτώσεις χρήσης: κατάταξη συνάφειας και ανάλυση συναισθήματος

Οι περιπτώσεις αντικειμενικής χρήσης συνήθως περιέχουν απλές απαντήσεις. Τα παραδείγματα είναι το ερώτημα εάν μια εικόνα περιέχει τηγανιτές πατάτες ή να τοποθετήσετε ένα πλαίσιο οριοθέτησης γύρω από ποδήλατα. Η διαφοροποίηση στις απαντήσεις παρατηρείται συνήθως σε περιπτώσεις υποκειμενικής χρήσης. Παραδείγματα περιλαμβάνουν το ερώτημα ενός ατόμου εάν το αποτέλεσμα που βλέπει είναι σχετικό με το θέμα που αναζήτησε ή το ερώτημα εάν το γραπτό περιεχόμενο που εξετάζει περιέχει ένα θετικό μήνυμα. Με αυτά τα παραδείγματα, κάθε άτομο θα δώσει ελαφρώς διαφορετικές απαντήσεις επειδή δεν υπάρχουν δύο άνθρωποι που να είναι ίδιοι. Αυτές οι αντικειμενικές μετρήσεις συγκεντρώνουν τη συναίνεση σχετικά με τον τρόπο με τον οποίο ο χρήστης που αλληλεπιδρά με το στοιχείο ή το πρόγραμμα πιθανότατα θα το αντιληφθεί. Οι μετρήσεις ποιότητας F1 και που βασίζονται σε κουίζ είναι εξαιρετικές για την αντιμετώπιση πιο αντικειμενικών συνόλων δεδομένων, ενώ η αξιοπιστία μεταξύ των αξιολογητών υπερέχει με τα υποκειμενικά σύνολα δεδομένων.

Πώς βοηθά το Appen

Έχουμε ένα εκτεταμένο πλήθος με πάνω από 1 εκατομμύριο συνεισφέροντες σε όλο τον κόσμο που είναι συνηθισμένοι να εργάζονται σε έργα με όλα τα είδη δεδομένων, να παράγουν ποιοτικά αποτελέσματα και να συνεργάζονται με ελεγκτές. Όλοι οι διαχειριστές έργων και προγραμμάτων μας είναι έμπειροι στην αντιμετώπιση όλων των τύπων μετρήσεων ποιότητας και θα συνεργαστούν μαζί σας για να διασφαλίσουν ότι το έργο σας επιτυγχάνει τους επιθυμητούς στόχους. Η πλατφόρμα σχολιασμού δεδομένων Appen μας (ADAP) είναι σε θέση να συλλέγει δεδομένα και να συμπληρώνει σχολιασμούς για τη μέτρηση της επιλογής σας.

Δεν είστε σίγουροι ποια μέτρηση ποιότητας είναι καλύτερο να χρησιμοποιήσετε για το επόμενο έργο σας; Επικοινωνήστε μαζί μας και θα χαρούμε να σας βοηθήσουμε να αποφασίσετε τι να χρησιμοποιήσετε.

Schreibe einen Kommentar