Εξάλλου, το πρόβλημα είναι ότι τα μοντέλα που εκπαιδεύονται σε μη ισορροπημένα σύνολα δεδομένων έχουν συχνά φτωχά αποτελέσματα όταν πρέπει να γενικεύσουν (να προβλέψουν μια κλάση ή να ταξινομήσουν αθέατες παρατηρήσεις). Παρά τον αλγόριθμο που επιλέγετε, ορισμένα μοντέλα θα είναι πιο ευαίσθητα σε μη ισορροπημένα δεδομένα από άλλα.
Εσωτερικά, τα βάρη w πολλαπλασιάζονται με τα υπολείμματα στη συνάρτηση απώλειας [ 1 ]: Επομένως, σημασία έχει η σχετική κλίμακα των βαρών. Το N μπορεί να περάσει ως έχει εάν αντικατοπτρίζει ήδη τις προτεραιότητες. Η ομοιόμορφη κλιμάκωση δεν θα άλλαζε το αποτέλεσμα. Ακολουθεί ένα παράδειγμα.
Μπορείτε να ορίσετε το βάρος της κλάσης για κάθε κλάση όταν το σύνολο δεδομένων δεν είναι ισορροπημένο.
reduction='mean': η απώλεια θα κανονικοποιηθεί με το άθροισμα των αντίστοιχων βαρών για κάθε στοιχείο. Είναι η προεπιλογή. reduction='none': θα πρέπει να φροντίσετε μόνοι σας για την κανονικοποίηση. Συνήθως, αυξάνετε το βάρος για τις τάξεις μειοψηφίας, έτσι ώστε να αυξηθεί και η απώλειά τους και να αναγκαστεί το μοντέλο να μάθει αυτά τα δείγματα.
Μπορείτε να ορίσετε το βάρος της κλάσης για κάθε κλάση όταν το σύνολο δεδομένων δεν είναι ισορροπημένο. Ας υποθέσουμε ότι έχετε 5000 δείγματα της κλάσης dog και 45000 δείγματα της κλάσης not-dog και τροφοδοτείτε το class_weight = {0: 5, 1: 0.5}.
... Συνδέοντας τα παραπάνω, το παρακάτω παράδειγμα αναζητά οκτώ διαφορετικά θετικά βάρη κλάσεων για τον αλγόριθμο XGBoost στο μη ισορροπημένο σύνολο δεδομένων. Θα μπορούσαμε να περιμένουμε ότι η ευρετική στάθμιση κλάσεων είναι η διαμόρφωση με τις καλύτερες επιδόσεις.
Το σύνολο δεδομένων περιέχει τον αριθμό για πέντε τύπους χειρουργικών επεμβάσεων απώλειας βάρους (βαριατρικές) (ανοικτή γαστρική παράκαμψη Roux-en-Y, λαπαροσκοπική γαστρική παράκαμψη Roux-en-Y , λαπαροσκοπική ρυθμιζόμενη γαστρική περίδεση, κάθετη γαστρεκτομή μανίκι , και χολοπαγκρεατική εκτροπή ) που πραγματοποιήθηκαν σε νοσοκομεία της Καλιφόρνια.Έτσι, εξετάσαμε ένα μεγάλο σύνολο δεδομένων από μια εφαρμογή κινητού τηλεφώνου για να κατανοήσουμε την επίδραση των εβδομαδιαίων προτύπων θερμιδικής πρόσληψης στην επιτυχία της απώλειας βάρους.
Ορισμένα δεδομένα είναι διαθέσιμα ανά ηλικία, φύλο, φυλετική και εθνοτική καταγωγή και εκπαίδευση. Όλοι οι συμμετέχοντες παρακολουθήθηκαν κατά τη διάρκεια μιας περιόδου τεσσάρων μηνών και η καθαρή αλλαγή βάρους (Πριν - Μετά σε κιλά) στο τέλος αυτής της περιόδου καταγράφηκε για κάθε άτομο. Κατά το χειρισμό ενός συνόλου δεδομένων με μεγάλη ουρά (το οποίο έχει τα περισσότερα δείγματα που ανήκουν σε πολύ λίγες κλάσεις και πολλές άλλες κλάσεις έχουν πολύ μικρότερη υποστήριξη), η απόφαση για το πώς να σταθμιστεί η απώλεια για τις διάφορες κλάσεις μπορεί να είναι δύσκολη. Έτσι, υψηλότερο βάρος τάξης σημαίνει ότι θέλετε να δώσετε μεγαλύτερη έμφαση σε μια τάξη.Η "κανονικοποίηση των μεταβλητών" δεν έχει νόημα. Η σωστή ορολογία είναι "κανονικοποίηση / κλιμάκωση των χαρακτηριστικών". Αν πρόκειται να κανονικοποιήσετε ή να κλιμακώσετε ένα χαρακτηριστικό, θα πρέπει να κάνετε το ίδιο και για τα υπόλοιπα. Εμφάνιση δραστηριότητας σε αυτή τη θέση. Αυτό έχει νόημα επειδή η κανονικοποίηση και η τυποποίηση κάνουν διαφορετικά πράγματα.
Τι είναι ένα μη ισορροπημένο σύνολο δεδομένων; Με απλά λόγια, ένα μη ισορροπημένο σύνολο δεδομένων είναι εκείνο στο οποίο η μεταβλητή-στόχος έχει περισσότερες παρατηρήσεις σε μια συγκεκριμένη κλάση από ό,τι οι άλλες. Για παράδειγμα, ας υποθέσουμε ότι έχουμε ένα σύνολο δεδομένων που χρησιμοποιείται για την ανίχνευση μιας δόλιας συναλλαγής.
Νομοθεσία Δεδομένα πολιτικής για 50 πολιτείες των ΗΠΑ και την περιφέρεια της Κολομβίας από το 2001 έως το 2017 σχετικά με την πολιτειακή νομοθεσία και τους κανονισμούς για τη διατροφή, τη σωματική δραστηριότητα και την παχυσαρκία σε χώρους όπως κέντρα πρόωρης φροντίδας και εκπαίδευσης, εστιατόρια, σχολεία και χώρους εργασίας. Διαθέσιμα δεδομένα ανά τοποθεσία και διάφορους κοινωνικούς παράγοντες της υγείας για χρόνιες ασθένειες, μειονοτικούς πληθυσμούς, σωματική δραστηριότητα και διαγνωσμένο διαβήτη.Αυτό το σύνολο δεδομένων περιλαμβάνει δεδομένα σχετικά με τη διατροφή, τη σωματική δραστηριότητα και την κατάσταση βάρους των ενηλίκων από το Σύστημα επιτήρησης παραγόντων κινδύνου συμπεριφοράς.
Οι ετήσιες κατατάξεις υγείας των κομητειών μετρούν ζωτικούς παράγοντες υγείας, όπως ο επιπολασμός της παχυσαρκίας, η σωματική αδράνεια, η πρόσβαση σε υγιεινά τρόφιμα και η πρόσβαση σε ευκαιρίες για σωματική δραστηριότητα σχεδόν σε κάθε κομητεία της Αμερικής.Κατασκευασμένα δεδομένα σχετικά με την απώλεια βάρους και την αυτοεκτίμηση σε διάστημα τριών μηνών, για τρεις ομάδες ατόμων: Δίαιτα και δίαιτα + άσκηση.
Αντί της πραγματικής υπερδειγματοληψίας (η χρήση ενός μεγαλύτερου συνόλου δεδομένων θα ήταν υπολογιστικά πιο δαπανηρή) για την εξισορρόπηση των κλάσεων, μπορούμε να ενημερώσουμε τον εκτιμητή να προσαρμόσει τον τρόπο υπολογισμού της απώλειας. Χρησιμοποιήθηκαν μέθοδοι ταξινόμησης και δέντρων παλινδρόμησης για τη διερεύνηση ομαδοποιήσεων της απώλειας βάρους με ένα υποδείγμα, με περιγραφικές αναλύσεις για την εξέταση άλλων χαρακτηριστικών των ομάδων.Οι ερευνητές διερεύνησαν αν τα οικονομικά κίνητρα θα βοηθούσαν τους ανθρώπους να χάσουν βάρος με μεγαλύτερη επιτυχία.
Προεπισκόπηση παραδείγματος chatbot απώλειας βάρους Τα chatbots απώλειας βάρους θα μπορούσαν να χρησιμεύσουν ως μια φανταστική διαδρομή για τους πελάτες για να αποκτήσουν πληροφορίες σχετικά με τις υπηρεσίες διατροφής, γυμναστικής ή υγείας σας, ακόμη και όταν είστε απασχολημένοι βοηθώντας τους υπάρχοντες πελάτες να επιτύχουν τους σωματικούς τους στόχους. Κορυφαίοι δείκτες υγείας και βασικοί στόχοι που σχετίζονται με τη διατροφή, τη σωματική δραστηριότητα και την παχυσαρκία. Η μεγάλη απώλεια βάρους μετά τη βαριατρική χειρουργική επέμβαση και η ταυτόχρονη μείωση της σωματικής παχυσαρκίας μπορεί να έχει σημαντικά μακροπρόθεσμα οφέλη για την υγεία όσον αφορά τις χρόνιες παθήσεις που σχετίζονται με την παχυσαρκία.Στη συνέχεια, τα άτομα έμειναν μόνα τους για τρεις μήνες και έκαναν έλεγχο του βάρους τους μετά από επτά μήνες για να δουν αν η απώλεια βάρους συνεχίστηκε μετά τους τέσσερις μήνες της αρχικής θεραπείας.
Το Kaggle είναι η μεγαλύτερη κοινότητα επιστήμης δεδομένων στον κόσμο με ισχυρά εργαλεία και πόρους που θα σας βοηθήσουν να επιτύχετε τους στόχους σας στην επιστήμη δεδομένων.
Ορισμένοι συμμετέχοντες στη μελέτη κατατάχθηκαν τυχαία σε μια ομάδα θεραπείας στην οποία προσφέρθηκαν οικονομικά κίνητρα για την επίτευξη των στόχων απώλειας βάρους, ενώ άλλοι κατατάχθηκαν σε μια ομάδα ελέγχου που δεν χρησιμοποίησε οικονομικά κίνητρα.Κάθε χρήστης έχει τρεις στατικούς στόχους: 2) έναν εβδομαδιαίο στόχο απώλειας βάρους και 3) έναν ημερήσιο στόχο καθαρών θερμίδων.
Βάρος κλάσης που επιτρέπει στο μοντέλο να δίνει μεγαλύτερη προσοχή σε παραδείγματα από την κλάση της μειοψηφίας παρά από την κλάση της πλειοψηφίας σε σύνολα δεδομένων με έντονα λοξή κατανομή κλάσεων.Η απώλεια γίνεται σταθμισμένος μέσος όρος όταν το βάρος κάθε δείγματος καθορίζεται από το class_weight και την αντίστοιχη κλάση. Μπορείτε να υπολογίσετε το βάρος της κλάσης προγραμματιστικά χρησιμοποιώντας το sklearn.utils.compute_class_weight () της scikit-learn.
Η εφαρμογή του scikit-learn βασίζεται στον αλγόριθμο που περιγράφεται στο Παράρτημα Α του (Tipping, 2001), όπου η ενημέρωση των παραμέτρων α και λ γίνεται όπως προτείνεται στο (MacKay, 1992). Η αρχική τιμή της διαδικασίας μεγιστοποίησης μπορεί να οριστεί με τις υπερπαραμέτρους alpha_init και lambda_init.
Γραμμικά μοντέλα - scikit-learn 1.0.1 τεκμηρίωση 1.1. Γραμμικά Μοντέλα ¶ Τα παρακάτω είναι ένα σύνολο μεθόδων που προορίζονται για παλινδρόμηση στην οποία η τιμή-στόχος αναμένεται να είναι ένας γραμμικός συνδυασμός των χαρακτηριστικών. Σε μαθηματικό συμβολισμό, αν y ^ είναι η προβλεπόμενη τιμή.
Αυτό το σεμινάριο δείχνει πώς να δημιουργήσετε μια συνάρτηση απωλειών για ένα ανισόρροπο σύνολο δεδομένων στο οποίο η τάξη μειονότητας αναλογικά με την υποεκπροσώπησή της.
Το L1 ή το L2 δεν θα αποδώσουν ιδιαίτερα καλύτερα σε ένα ισορροπημένο ή μη ισορροπημένο σύνολο δεδομένων, αυτό που θέλετε να κάνετε είναι να καλέσετε ελαστικά δίκτυα (που είναι ένας συνδυασμός των δύο) και να κάνετε διασταυρωμένη επικύρωση πάνω στους συντελεστές καθενός από τους κανονικοποιητές. Επίσης, το να κάνετε αναζήτηση πλέγματος είναι πολύ περίεργο, είναι καλύτερα να χρησιμοποιήσετε απλώς διασταυρωμένη επικύρωση και να δείτε ποιες παράμετροι λειτουργούν καλύτερα.
Ο περιορισμός του υπολογισμού των απωλειών στο σύνολο δεδομένων εκπαίδευσης είναι ότι τα παραδείγματα από κάθε κλάση αντιμετωπίζονται με τον ίδιο τρόπο, πράγμα που για ανισόρροπα σύνολα δεδομένων σημαίνει ότι το μοντέλο προσαρμόζεται πολύ περισσότερο για τη μία κλάση από ό,τι για την άλλη.
Πολλές εργασίες αναφέρουν μια "σταθμισμένη συνάρτηση απώλειας διασταυρούμενης εντροπίας" ή μια "εστιακή απώλεια με εξισορροπητικά βάρη".Θα συνιστούσα να δοκιμάσετε μερικές από τις μεθόδους επαναδειγματοληψίας και να επιλέξετε μια μετρική (π.χ. απώλεια καταγραφής ή παρόμοια) που αποτυπώνει καλύτερα τον στόχο του έργου σας. Αναφέρατε ότι "τα δέντρα αποφάσεων συχνά αποδίδουν καλά σε μη ισορροπημένα σύνολα δεδομένων".
Μόνο τα δεδομένα 4 μηνών (με τις ελλείπουσες τιμές να παραλείπονται) αποθηκεύονται στο WeightLossIncentive4.
Θα πρέπει επίσης να κανονικοποιηθούν οι ετικέτες των δεδομένων παλινδρόμησης; Πρόσφατα μου είπαν ότι οι ετικέτες των δεδομένων παλινδρόμησης θα πρέπει επίσης να κανονικοποιηθούν για καλύτερο αποτέλεσμα, αλλά είμαι αρκετά αμφίβολος γι' αυτό. Δεν έχω δοκιμάσει ποτέ την κανονικοποίηση των ετικετών τόσο στην παλινδρόμηση όσο και στην ταξινόμηση, γι' αυτό δεν ξέρω αν αυτή η κατάσταση είναι αληθινή ή όχι.
Μια μεταβλητή βάρους παρέχει μια τιμή (το βάρος) για κάθε παρατήρηση σε ένα σύνολο δεδομένων.Το Scikit-learn παρέχει 3 ισχυρούς εκτιμητές παλινδρόμησης: RANSAC , Theil Sen και HuberRegressor. Ο HuberRegressor θα πρέπει να είναι ταχύτερος από τους RANSAC και Theil Sen εκτός αν ο αριθμός των δειγμάτων είναι πολύ μεγάλος, δηλαδή n_samples >> n_features .
Πηγαίνετε στο αρχείο Πηγαίνετε στο αρχείο T; Πηγαίνετε στη γραμμή L; Αντιγράψτε τη διαδρομή Αντιγράψτε το Permalink; Αυτή η δέσμευση δεν ανήκει σε κανέναν κλάδο αυτού του αποθετηρίου και μπορεί να ανήκει σε μια διακλάδωση εκτός του αποθετηρίου.