Τι είναι ένα σύνολο δεδομένων στη μηχανική μάθησηείναι μια ερώτηση που έχει απήχηση μεταξύ διαφορετικών ατόμων, είτε είστε αρχάριοι πρόθυμοι να εξερευνήσετε την καριέρα σας στην Τεχνητή Νοημοσύνη είτε είστε επαγγελματίας που είναι πρόθυμοι να προωθήσουν τις δεξιότητές τους σε αυτόν τον μεταβαλλόμενο κόσμο του AI. Το σύνολο δεδομένων στη Μηχανική μάθηση είναι τοθεμέλιο από το οποίο εξαρτάται η επιτυχία του μοντέλου ML. Ανεξάρτητα από το πόσο προηγμένο είναι το μοντέλο μηχανικής εκμάθησης, εάν έχει εκπαιδευτεί σε ένα σύνολο δεδομένων χαμηλής ποιότητας, τα αποτελέσματα θα είναι ανακριβή.
Είναι το καύσιμο για την εκμάθηση και την ακρίβεια ενός μοντέλου ML, είτε μιλάτε για μοντέλα συστάσεων όπως κάποτε χρησιμοποιήθηκαν από τη ροή του Instagram είτε αυτά που χρησιμοποιήθηκαν κάποτε από το τραπεζικό σύστημα για τον εντοπισμό απάτης.
Μέσω αυτού του ιστολογίου θα σας βοηθήσουμε να κατανοήσετε τη σημασία των συνόλων δεδομένων στη μηχανή, πόσοι τύποι συνόλων δεδομένων υπάρχουν, ποια είναι η σημασία των συνόλων δεδομένων για τη μηχανική μάθηση, με λίγα λόγια όλα τα βασικά στοιχεία που πρέπει να γνωρίζει κανείς. Ας βουτήξουμε λοιπόν!
Τι είναι ένα σύνολο δεδομένων στον ορισμό της μηχανικής μάθησης
Ένα σύνολο δεδομένων είναι μια καλά οργανωμένη και ουσιαστική συλλογή σχετικών δεδομένων (γεγονότα, αριθμοί ή παρατηρήσεις) που χρησιμοποιούν τα μοντέλα μηχανικής μάθησης για την εκπαίδευση, την επικύρωση και τη δοκιμή των προβλέψεών τους.
Γενικά αποθηκεύεται σε μορφές πίνακα όπως CSV, Excel ή πίνακες βάσης δεδομένων σε μορφή γραμμής και στήλης. Ορισμένα μεγάλα σύνολα δεδομένων, όπως εικόνα ή ομιλία, αποθηκεύονται επίσης σε μορφές .ZIP ή .tar.gz.
Ένα σωστά κατασκευασμένο σύνολο δεδομένων στη μηχανική μάθηση μπορεί να είναι σύνθετο ή απλό, μεγάλο ή μικρό σε μέγεθος ανάλογα με την ανάγκη του μοντέλου, αλλά κοιτάζοντας μόνο το σύνολο δεδομένων, οι μηχανικοί ή οι αναλυτές θα είναι σε θέση να αποκωδικοποιήσουν "τι αντιπροσωπεύει" και "ποιες πληροφορίες στοχεύει να αποκαλύψει" και να βρουν ένα επαναλαμβανόμενο μοτίβο.
Παράδειγμα:Αρχεία πωλήσεων εταιρείας, Μετρήσεις υγείας ασθενών κατά τη διάρκεια του COVID-19, Δεδομένα εγκλήματος
Σύνολο δεδομένων έναντι δεδομένων: Βασικές διαφορές
| Αποψη | Σύνολο δεδομένων | Δεδομένα |
| Δομή | Δομημένοι και οργανωμένοι (π.χ. πίνακες CSV, Excel, SQL) | Ακατέργαστο, μη επεξεργασμένο (π.χ. τυχαίοι αριθμοί, αποσπάσματα κειμένου) |
| Συμφραζόμενα | Περιλαμβάνει περιβάλλον όπως ετικέτες, κεφαλίδες, μεταδεδομένα | Συχνά στερείται πλαισίου ή αυτόνομου νοήματος |
| Ετοιμότητα | Έτοιμο για μηχανική μάθηση ή στατιστική ανάλυση | Απαιτεί καθαρισμό, μορφοποίηση και δόμηση |
| Παράδειγμα | Παράδειγμα CSV:Age, Income ($) | [6000, 25, 30, 40000]Απλώς αριθμοί, ασαφές νόημα χωρίς πλαίσιο |
Πρακτική Εφαρμογή Συνόλου Δεδομένων στη Μηχανική Μάθηση
Το σύνολο δεδομένων στη μηχανική εκμάθηση χρησιμεύει ως η ραχοκοκαλιά ενός μοντέλου, επειδή ακόμη και το πιο προηγμένο μοντέλο λειτουργεί σε "Σκουπίδια στα σκουπίδια έξωΑυτά τα μοντέλα λειτουργούν με βάση δεδομένων που τροφοδοτούνται στο σύστημα.
Διαβάστε περισσότερα:Πώς να δημιουργήσετε σύνολο δεδομένων από PDF;
Ακολουθεί η λειτουργία του συνόλου δεδομένων κατά μήκος των διαφόρων σταδίων της ροής εργασίας ML:
- Ενεργοποίηση εκμάθησης και αναγνώρισης προτύπων:
Σε ένα μοντέλο ML, η μάθηση δεν προέρχεται απλώς από αλγόριθμους, προέρχεται από σύνολα δεδομένων. Τα σύνολα δεδομένων παρέχουν αυτά τα παραδείγματα που με τη σειρά τους εκπαιδεύουν τον αλγόριθμο ώστε να κατανοεί σαφώς τη συμπεριφορά ή ακόμα και την ανθρώπινη γλώσσα. - Ενεργοποίηση αξιολόγησης και βελτίωσης μοντέλου:
Τα σύνολα δεδομένων δεν χρησιμοποιούνται μόνο για εκπαίδευση, αλλά και για δοκιμές και επικύρωση. Μόλις το μοντέλο είναι έτοιμο, είναι σημαντικό όχι μόνο να δοκιμάσετε το μοντέλο – κάτι που γίνεται μέσω του "Σύνολο δεδομένων δοκιμής” και επίσης για περαιτέρω λεπτομέρεια του μοντέλου – που γίνεται μέσω “Σύνολο δεδομένων επικύρωσης.» - Απόδοση και ακρίβεια μοντέλου οδήγησης:
Οι θεμελιώδεις αρχές που έχουν ύψιστη σημασία για τον καθορισμό της αποτελεσματικότητας του μοντέλου είναι οι ανθρώπινες απαντήσεις και η ακρίβεια που προέρχεται από «Σύνολο δεδομένων ποιότηταςΕνώ η ποιότητα είναι αναμφισβήτητα βασιλιάς,Ο επαρκής όγκος δεδομένων είναι επίσης ζωτικής σημασίας. Εάν ένα σύνολο δεδομένων είναι γεμάτο ανακρίβειες, ασυνέπειες ή απλά δεν είναι διαφορετικό, το μοντέλο αναπόφευκτα θα μάθει αυτά τα ελαττώματα.
Αυτές είναι μόνο μερικές βασικές εφαρμογές, αλλά το σύνολο δεδομένων στη μηχανική εκμάθηση είναι υπεύθυνη για πολλά περισσότερα, όπως η διασφάλιση της δικαιοσύνης, ο μετριασμός της μεροληψίας, η πρόληψη της υπερβολικής προσαρμογής και πολλά άλλα.
Τύποι συνόλου δεδομένων στη μηχανική μάθηση
Η κατανόηση των διαφορετικών τύπων συνόλων δεδομένων μηχανικής μάθησης είναι ζωτικής σημασίας, διότι επηρεάζει άμεσα την επιλογή αλγορίθμων και τεχνικών κανονικοποίησης, τα οποία με τη σειρά τους επηρεάζουν την ακρίβεια, την εντροπία και την αποτελεσματικότητα ολόκληρου του μοντέλου μηχανικής μάθησης.
Τα σύνολα δεδομένων μπορούν να κατηγοριοποιηθούν με βάση τη δομή, τη λειτουργία τους στη ροή εργασίας ML και το περιεχόμενο που διαθέτουν.
Ταξινόμηση συνόλου δεδομένων μηχανικής μάθησης βάσει συναρτήσεων
Οι άνθρωποι συχνά ρωτούν «Ποια είναι τα τρία σύνολα δεδομένων στη μηχανική εκμάθηση;» Με βάση τη συνάρτηση υπάρχουν τρεις τύποι συνόλων δεδομένων:
- Σύνολο δεδομένων εκπαίδευσης
Τα μοντέλα AI & ML χρειάζονται ένα σύνολο δεδομένων για εκπαίδευση και, όπως υποδηλώνει το όνομα, το σύνολο δεδομένων που χρησιμοποιείται για την εκπαίδευση του μοντέλου είναι οι συσχετίσεις των δεδομένων εκπαίδευσης και η λογική πίσω από τις υποκείμενες δομές. Είναι περίπου το 60% – 80% του συνόλου των δεδομένων στη μηχανική εκμάθηση.
Παράδειγμα:Σε ένα μοντέλο ML ανίχνευσης απάτης, σύνολο δεδομένων προηγούμενων συναλλαγών με πιστωτική κάρτα, όπου κάθε συναλλαγή επισημαίνεται ως "Απάτη" ή "Νόμιμη". - Σύνολο δεδομένων επικύρωσης
Το σύνολο δεδομένων επικύρωσης χρησιμοποιείται επίσης στη φάση εκπαίδευσης του μοντέλου. Είναι το σύνολο δεδομένων που βοηθά στον ακριβή συντονισμό των υπερπαραμέτρων (καθορίζει την πολυπλοκότητα της διαδικασίας μάθησης). Χρησιμεύει ως δυναμικό σημείο ελέγχου κατά τη διάρκεια της εκπαίδευσης για να βεβαιωθείτε ότι το μοντέλο εκμάθησης μοτίβο και ότι εφαρμόζεται βασίζεται στα δεδομένα που δίνονται και απλώς δεν ταιριάζει υπερβολικά στο σύνολο δεδομένων εκπαίδευσης. Είναι περίπου 10% – 20% του συνόλου των δεδομένων στη μηχανική εκμάθηση.
Παράδειγμα:Το 20% των δεδομένων ανίχνευσης ανεπιθύμητης αλληλογραφίας με ετικέτα τίθεται στην άκρη για την προσαρμογή των ορίων του μοντέλου. - Σύνολο δεδομένων δοκιμής
Μόλις ολοκληρωθεί η φάση εκπαίδευσης και λεπτομέρειας, πρέπει τώρα να μετρήσουμε την ακρίβεια, την ακρίβεια, την ανάκληση, τον χρόνο απόκρισης κ.λπ. για το μοντέλο ML. Έτσι, κρατάμε στην άκρη ορισμένα δεδομένα για να το κάνουμε αυτό, το οποίο ονομάζεται Δοκιμαστικό σύνολο δεδομένων . Είναι περίπου το 10-20% του συνόλου των δεδομένων. Είναι ένα διακριτό σύνολο δεδομένων εισόδου που το μοντέλο δεν έχει συναντήσει ποτέ πριν.
Παράδειγμα:Για ένα μοντέλο ανίχνευσης απάτης, το δοκιμαστικό σύνολο δεδομένων θα αποτελείται από νέες συναλλαγές με πιστωτική κάρτα. Όπου το μοντέλο θα επισημαίνει τώρα ως "Απάτη" ή "Νόμιμη".
Ισχυρή λύση σχεδιασμένη για να χωρίζει το σύνολο δεδομένων σας: Εργαλείο διαχωρισμού CSV BitRecover
Μαθαίνω:Πώς να συγχωνεύσετε δύο σύνολα δεδομένων;
Σύνολο δεδομένων βάσει περιεχομένου στη μηχανική μάθηση
Ας προσπαθήσουμε τώρα να κατανοήσουμε διαφορετικούς τύπους δεδομένων με βάση το περιεχόμενο που αποθηκεύουν:
| Τύπος συνόλου δεδομένων | Τι Περιέχει | Παράδειγμα |
| Αριθμητικά σύνολα δεδομένων | Μετρήσιμα, μετρήσιμα δεδομένα σε αριθμητική μορφή | Ρεκόρ θερμοκρασίας, δεδομένα βροχοπτώσεων, τιμές μετοχών |
| Κατηγορικά σύνολα δεδομένων | Διακεκριμένες τιμές που αντιπροσωπεύουν κατηγορίες ή ετικέτες | Φύλο (Άνδρας/Γυναίκα), χρώμα αυτοκινήτου (Κόκκινο, Μπλε, Πράσινο) |
| Σύνολα δεδομένων εικόνας | Δεδομένα εικόνας που βασίζονται σε pixel, αποθηκευμένα σε μορφές όπως CSV, JSON ή ZIP | Εικόνες ακτινογραφίας θώρακα με την ένδειξη "Κανονική" ή "Πνευμονία" |
| Σύνολα δεδομένων χρονοσειρών | Τα δεδομένα παρακολουθούνται σε διαδοχικά χρονικά διαστήματα | Στοιχεία μηνιαίων πωλήσεων, καρδιακός ρυθμός με την πάροδο του χρόνου |
| Παραγγελθέντα σύνολα δεδομένων | Ταξινομημένα δεδομένα με σειρά αλλά όχι ομοιόμορφη απόσταση | Αξιολογήσεις ταινιών (1 έως 5 αστέρια), επίπεδα ικανοποίησης πελατών |
| Διμεταβλητά σύνολα δεδομένων | Δύο μεταβλητές που δείχνουν μια σχέση | Ώρες μελέτης και βαθμολογίες εξετάσεων μαθητών |
| Πολυμεταβλητά σύνολα δεδομένων | Πολλαπλές μεταβλητές ή χαρακτηριστικά | Αρχεία υγειονομικής περίθαλψης με ηλικία, φύλο, ΔΜΣ και χοληστερόλη |
| Σύνολα δεδομένων που βασίζονται σε αρχεία | Δομημένα σύνολα δεδομένων που αποθηκεύονται σε αρχεία όπως CSV, Excel ή JSON | Φύλλο Excel που δείχνει τις πωλήσεις προϊόντων ή περιοχής |
| Σύνολα δεδομένων Ιστού | Τα δεδομένα προέρχονται από API, προγράμματα ανίχνευσης ή απόξεση ιστού, συχνά σε μορφή JSON | Δεδομένα τιμών μετοχών που ανακτήθηκαν από ένα διαδικτυακό οικονομικό API |
| Διαμερισμένα σύνολα δεδομένων | Τα δεδομένα διαιρούνται λογικά (ανά περιοχή, λειτουργία ή χρήση) | Τα δεδομένα πελατών χωρίζονται μεταξύ των χωρών |
Ο παραπάνω πίνακας παρέχει μια περίπλοκη περιγραφή σχετικά με διαφορετικούς τύπους δεδομένων στη μηχανική εκμάθηση με βάση το περιεχόμενο που περιέχουν. Μπορεί να υπάρχουν ποικίλα σύνολα δεδομένων, αλλά μόνο ποιοτικά σύνολα δεδομένων μπορούν να βοηθήσουν στην απόδοση και την ακρίβεια ενός μοντέλου μηχανικής εκμάθησης.
Χαρακτηριστικά Ποιοτικού Συνόλου Δεδομένων σε Κλίση Μηχανής
Καθώς όλοι γνωρίζουμε ότι το σύνολο δεδομένων στη μηχανική εκμάθηση έχει ύψιστη προτεραιότητα, επομένως είναι σημαντικό να προσδιοριστεί τι χρησιμεύει ως σύνολο δεδομένων ποιότητας:
- Ποικιλία:Ένα ποιοτικό σύνολο δεδομένων σε μηχανήματα που οδηγεί καλύπτει μια ποικιλία σεναρίων για να αυξήσει την ικανότητα ενός μοντέλου να αποδίδει σε αόρατα δεδομένα.
- Συνοχή:Ένα σύνολο δεδομένων θεωρείται σύνολο δεδομένων ποιότητας εάν η μορφή και ο τύπος δεδομένων είναι ομοιόμορφοι σε όλες τις καταχωρήσεις δεδομένων (κατά μήκος της σειράς γενικά)
- Ακρίβεια ετικέτας:Το σύνολο δεδομένων εκπαίδευσης θα πρέπει να επισημαίνεται με ακρίβεια. Ένα σύνολο δεδομένων ποιότητας θα πρέπει να είναι αληθές και είναι σημαντικό για την εποπτευόμενη μάθηση, διαφορετικά η καταστροφή από το μοντέλο θα ρέει.
- Ισορροπημένες τάξεις:Σε ένα σύνολο δεδομένων ποιότητας, οι κατηγορίες/ετικέτες θα πρέπει να είναι ανάλογες παντού. Είναι σημαντικό να βεβαιωθείτε ότι δεν υπάρχουν προκαταλήψεις, διαφορετικά θα δημιουργηθούν λοξά αποτελέσματα.
Πχ:Το σύνολο δεδομένων με 95% "χωρίς απάτη" και 5% "απάτη" δεν είναι ποιοτικά δεδομένα. - Καθαρισμένα δεδομένα:Δεν πρέπει να υπάρχουν ανακρίβειες, ορθογραφικά λάθη ή διπλότυπα στη σειρά.
- Φρεσκάδα:Πολλοί άνθρωποι τείνουν να βασίζονται στα ιστορικά δεδομένα που μπορεί να είναι χρήσιμα για την πραγματοποίηση προβλέψεων, αλλά για πολλά προβλήματα του πραγματικού κόσμου τα δεδομένα πρέπει να είναι ενημερωμένα. Διασφαλίζει ότι το μοντέλο μαθαίνει από τις πιο πρόσφατες τάσεις.
Διαβάστε επίσης:Πώς να δημιουργήσετε σύνολο δεδομένων από JSON;
Συχνές ερωτήσεις: Τι είναι ένα σύνολο δεδομένων στη μηχανική μάθηση;
Ε1: Σε ποια μορφή αποθηκεύονται τα δεδομένα στη μηχανική εκμάθηση;
Τα σύνολα δεδομένων στη μηχανική εκμάθηση αποθηκεύονται συνήθως σε μορφές όπως CSV, Excel (.xlsx), JSON, SQL και για μεγάλα σύνολα δεδομένων χρησιμοποιούνται επίσης μορφές όπως ZIP και 7z.
Ε2: Τι είναι ένα συνθετικό σύνολο δεδομένων;
Ένα συνθετικό σύνολο δεδομένων είναι ένα σύνολο δεδομένων που δημιουργείται μέσω προγραμματισμού με τη βοήθεια αλγορίθμων υπολογιστών. Με πιο απλά λόγια είναι "Ψεύτικα Δεδομένα.» Τέτοια δεδομένα δεν συλλέγονται από γεγονότα του πραγματικού κόσμου ή πραγματικές πηγές. Αν χρησιμοποιηθούν σωστά είναι εξίσου αξιόπιστα.
Ε3: Πώς δημιουργώ ένα σύνολο δεδομένων για μηχανική εκμάθηση?
Για να δημιουργήσετε ένα σύνολο δεδομένων για μηχανική εκμάθηση, πρέπει να ορίσετε τη δήλωση προβλήματος >> Προσδιορίστε ποια σχετικά δεδομένα >> Συλλέξτε δεδομένα >> Καθαρίστε και προεπεξεργαστείτε τα. Περαιτέρω αποθηκεύστε τα δεδομένα στην επιθυμητή μορφή όπως .CSV, .XLS ή JSON ανάλογα με τις ανάγκες. Τέλος, διαχωρίστε τα δεδομένα σε σύνολο δεδομένων εκπαίδευσης, επικύρωσης και δοκιμής.
Ε4: Πού να κατεβάσετε σύνολα δεδομένων για μηχανική εκμάθηση;
Υπάρχουν διάφορες πλατφόρμες ανοιχτού κώδικα για τη λήψη συνόλων δεδομένων μηχανικής εκμάθησης, όπως Kaggle, Google Dataset Search, GitHub, UCI Machine Learning Repository κ.λπ. Εάν χρειάζεστε συνθετικά σύνολα δεδομένων βασιστείτε σε πλατφόρμες όπως το Synthea και το Mostly AI.
Ε5: Ποια είναι τα καλύτερα σύνολα δεδομένων για αρχάριους στη μηχανική εκμάθηση
Ένα σύνολο δεδομένων καλής ποιότητας είναι ένα σύνολο δεδομένων που είναι ποικίλο, καθαρό, καλά δομημένο, ενημερωμένο και ισορροπημένο.
Παράδειγμα: Iris Dataset, Titanic Survival Dataset & Wine Quality Dataset. Αυτά είναι εύκολα κατανοητά και φιλικά για αρχάριους.
Τελικός Λόγος
Τα σύνολα δεδομένων στη μηχανική μάθηση είναι το θεμέλιο πάνω στο οποίο λειτουργεί ολόκληρο το μοντέλο μηχανικής μάθησης. Αυτή τη στιγμή ζούμε σε έναν κόσμο που κινείται προς την τεχνητή νοημοσύνη μέρα με τη μέρα. Κάνοντας την επιστήμη των δεδομένων και τη μηχανική μάθηση πολύ σημαντική και, κατά συνέπεια, καθιστώντας τα σύνολα δεδομένων ζωτικής σημασίας μεταξύ όλων των τομέων, είτε πρόκειται για επιχειρήσεις, υγειονομική περίθαλψη, χρηματοοικονομικά ή χάραξη πολιτικής.
Μέσω αυτού του ιστολογίου, δεν εξηγήσαμε μόνο τι είναι το σύνολο δεδομένων στη μηχανική εκμάθηση, αλλά και πώς τα σωστά δεδομένα (είτε είναι αριθμητικά, κατηγορικά, συνθετικά ή βασισμένα σε εικόνες) και ποιοτικά δεδομένα μπορούν να κάνουν ή να χαλάσουν την επιτυχία του έργου σας.
Ελπίζουμε τώρα να έχετε όλες τις γνώσεις σχετικά με το σύνολο δεδομένων για να πλοηγηθείτε εύκολα στο έργο σας.
