GR1010537B

GR1010537B - Αναλυση συναισθηματος περιεχομενου ιστοσελιδας

Info

Publication number: GR1010537B
Application number: GR20220100927A
Authority: GR
Inventors: Παναγιωτης Τσαντιλας
Original assignee: Παναγιωτης Τσαντιλας
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-09-05

Abstract

Παρουσιάζεται ένα σύστημα και μεθοδολογία εξαγωγής συναισθημάτων για στοιχεία δεδομένων ιστού από διάφορες διαδικτυακές πηγές. Τα δεδομένα ανίχνευσης υποβάλλονται σε προεπεξεργασία, προκειμένου να εξαχθούν χρήσιμες λειτουργίες που βοηθούν τους αλγόριθμους μηχανικής μάθησης στην εργασία ανάλυσης συναισθήματος. Οι λέξεις που αποτελούν κάθε κείμενο αντιστοιχίζονται σε έναν νευρωνικό χώρο ενσωμάτωσης και παρέχονται σε ένα υβριδικό, αμφίδρομο δίκτυο βραχυπρόθεσμης μνήμης, σε συνδυασμό με συνελικτικά επίπεδα και έναν μηχανισμό προσοχής που εξάγει τα τελικά κειμενικά χαρακτηριστικά. Επιπλέον, εξάγεται ένας αριθμός μεταδεδομένων εγγράφων, όπως ιδεογράμματα emoji που βοηθούν περαιτέρω στην ανίχνευση συναισθήματος στα στοιχεία δεδομένων, ενισχύοντας την αναγνώριση προτύπων κ.λπ. Απλουστεύσεις του προβλήματος ανάλυσης με τη μείωση του μεγέθους των δεδομένων με επιλεκτική μείωση δειγματοληψίας και άλλες τεχνικές χρησιμοποιούνται επίσης.

Description

ΤΙΤΛΟΣ: Ανάλυση Συναισθήματος Περιεχομένου Ιστοσελίδας

ΠΕΡΙΓΡΑΦΗ

Τεχνικό Πεδίο: Ηλεκτρονικό υπολογιστικό σύστημα για ανάλυση διαδικτυακών δεδομένων με μονάδες τεχνητής νοημοσύνης και μηχανικής μάθησης με στόχο την εξαγωγή (και όχι την ταξινόμηση) συναισθήματος κοινού-πελατών έναντι εταιρειών και προϊόντων για χρήση σε εξωτερικά συστήματα για καμπάνιες μάρκετινγκ και σχεδίασμά νέων προϊόντων.

Στάθμη Τεχνικής: Το έργο της ανάλυσης συναισθήματος προσπαθεί να προβλέψει τη συναισθηματική κατάσταση του συγγραφέα ενός εγγράφου εξετάζοντας το περιεχόμενο και τα μεταδεδομένα του μέσω της εφαρμογής τεχνικών μηχανικής εκμάθησης. Οι πρόσφατες εξελίξεις στον τομέα θεωρούν ότι το συναίσθημα είναι μια πολυδιάστατη ποσότητα που αναφέρεται σε διαφορετικές ερμηνείες (ή πτυχές), παρά σε μια ενιαία.

Πιο συγκεκριμένα, η ανάλυση συναισθήματος (SA) ή η εξόρυξη γνώμης (ΟΜ) αναφέρεται στο έργο της χρήσης μιας ποικιλίας συστημάτων τα οποία είναι σχεδιασμένα για υλοποίηση τεχνικών επεξεργασίας φυσικής γλώσσας (NLP) προκειμένου να εξαχθούν συγκεκριμένα χαρακτηριστικά από ένα απόσπασμα κειμένου που σχετίζονται με εκφρασμένη γνώμη, συναίσθημα και αξιολόγηση. Ο απώτερος σκοπός αυτής της διαδικασίας είναι να αποκτήσει μια εικόνα για τις διάφορες πτυχές των μεταφερόμενων πληροφοριών. Τα τελευταία χρόνια, έχει γίνει ένας δυναμικός ερευνητικός τομέας, κυρίως λόγω της τεράστιας επέκτασης του περιεχομένου που μοιράζεται στο διαδίκτυο τόσο από νομικές οντότητες (π.χ. εταιρείες/ιδρύματα) και ιδιώτες, όπως οι χρήστες διαδικτυακών πλατφορμών κοινωνικών δικτύων (OSN) όπως το Twitter, το Instagram και το Facebook, ή οι δημιουργοί ιστολογιών. Πράγματι, οι άνθρωποι δημιουργούν και μοιράζονται κάθε είδους ψηφιακό περιεχόμενο, συζητούν, εκφράζουν απόψεις και γενικά συμμετέχουν σε δραστηριότητες, σε έναν μεγάλο, εικονικό δημόσιο χώρο.

Κατά συνέπεια, διάφοροι θεσμοί και οργανισμοί, από εκείνους που μελετούν την ιδιαιτερότητα της κοινής γνώμης έως εκείνους που ενδιαφέρονται απλώς για την αντίληψη των προϊόντων και των υπηρεσιών τους από το μεγαλύτερο κοινό, έχουν συνειδητοποιήσει τη δυνατότητα ανάλυσης του προαναφερθέντος εικονικού δημόσιου χώρου. Μια χρήση υπολογιστικών συστημάτων για τη σωστή, σε βάθος ανάλυση διαδικτυακών δεδομένων, θα είναι σίγουρα ένα σημαντικό πλεονέκτημα για τα ενδιαφερόμενο μέρη, καθώς στην ιδανική περίπτωση, θα καταστήσει περιττές τις εξειδικευμένες δημοσκοπήσεις και έρευνες, καθώς θα μπορεί πλέον κανείς να βασιστεί στις άφθονες πληροφορίες που είναι διαθέσιμες στο διαδίκτυο.

Ωστόσο, η εξαγωγή γνώμης των χρηστών από τις διάφορες διαδικτυακές πηγές δεν είναι απλή υπόθεση, για διάφορους λόγους. Το πρώτο αφορά τον τεράστιο όγκο των διαθέσιμων δεδομένων, που υπαγορεύει την χρήση μεγάλου υλικού και ειδικών πόρων λογισμικού, που δεν είναι εύκολα προσβάσιμα ή προσιτά σε όλους. Επιπλέον, κάθε υπηρεσία παρουσιάζει τις δικές της ιδιαιτερότητες και χαρακτηριστικά, όπως διατίθενται μέσω διεπαφών προγραμματισμού εφαρμογών (API), των οποίων η δωρεάν χρήση είναι είτε πολύ περιορισμένη είτε καθόλου. Κατά συνέπεια, απαιτούνται και προηγμένες δεξιότητες προγραμματισμού, εκτός από το κόστος πρόσβασης στα API στα απαιτούμενα επίπεδα.

Ο εφευρέτης γνωρίζοντας τα προβλήματα και τους περιορισμούς της στάθμης τεχνικής έχει στο παρελθόν δημοσιεύσει σύστημα τεχνητής νοημοσύνης το οποίο προσπαθεί να βελτιώσει τα αποτελέσματα εξαγωγής συναισθήματος περιεχομένου ιστοσελίδων αποθηκευμένων σε βάσεις δεδομένων. Η δημοσίευση αυτή είναι η «Konstantinos Korovesis, Georgios Alexandridis, George Caridakis, Pavlos Polydoras, and Panagiotis Tsantilas. 2020. Leveraging aspect-based sentiment prediction with textual features and document metadata. In 11th Hellenic Conference on Artificial Intelligence (SETN 2020), September 2-4, 2020, Athens, Greece. ACM, New York, NY, USA, 7 pages, δημοσιευμένο στο https://doi.org/10.

1145/3411408.3411433. To σύστημα αυτό της στάθμης τεχνικής αρχικά πραγματοποιεί προεπεξεργασία των δεδομένων όπως καθαρισμός, ομογενοποίηση, αφαίρεση/φιλτράρισμα του σχετικού περιεχομένου και εν συνεχεία επιτελεί επισημείωση των δεδομένων σε τρεις διακριτές τιμές (θετικό, ουδέτερο, αρνητικό). Επίσης αξιολογεί και λαμβάνει υπόψιν υπό τη μορφή μεταδεδομένων των ανακτώμενων εγγράφων τον αριθμό των επαναλήψεων και τη δημοφιλία ενός εγγράφου, τη συχνότητα εμφάνισης ιδεογραμμάτων emoji στα ανακτώμενα έγγραφα καθώς και τις λέξεις κλειδιά που σχετίζονται σε σημαντικό βαθμό με την πρόβλεψη του συναισθήματος. Ακολούθως επιχειρείται καθαρισμός του συνόλου δεδομένων κι ο μετασχηματισμός ενός συνόλου ενσωματωμένων λέξεων. Στη συνέχεια χωρίζεται το σύνολο των δεδομένων σε 80% σετ εκπαίδευσης, 10% σετ επικύρωσης και 10% σετ δοκιμής με σκοπό την εξαγωγή χαρακτηριστικών κειμένου κατά την επεξεργασία από αρχιτεκτονική δικτύου που αποτελείται από 2 στρωματώσεις αμφίδρομου LSTM συζευγμένες με συνελικτικό στρώμα (convID), ένα μέγιστο επίπεδο συγκέντρωσης (Max Pooling) και ένα επίπεδο προσοχής (Attention).

Η κάθε στρωμάτωση αμφίδρομου LSTM αποτελείται από 150 στρώματα μεταξύ των οποίων παρεμβάλλονται στρώματα dropout, τα οποία συμβάλλουν στη μείωση του overfitting με το να επιβάλουν στους νευρώνες κάθε στρώματος να αποσυσχετίσουν τα βάρη (weights) τους μέσω της αποτροπής ταυτόχρονης βελτιστοποίησης των βαρών τους η οποία έχει σαν αποτέλεσμα την αποτροπή των νευρώνων από το να συγκλίνουν στον ίδιο στόχο (όπως είναι γενικά γνωστό σε κάθε γνώστη του τεχνικού αντικειμένου της τεχνητής νοημοσύνης, π.χ. όπως περιγράφεται στη διαδικτυακή εγκυκλοπαίδεια OREILLY στην καταχώρηση «Advantages of dropout layers» η οποία είναι δημοσιευμένη στη διεύθυνση https://www.oreilly.com/library/view/machinelearning-for/9781786469878/252b7560-e262-49c4-9c8f-5b78d2eec420. xhtml). Το σύστημα αυτό παρέχει βελτιώσεις στην ακρίβεια εξαγωγής συναισθήματος περιεχομένου ιστοσελίδων σε σχέση με άλλες τεχνικές. Όμως, όπως γνωρίζει ο κάθε γνώστης του τεχνικού αντικειμένου (π.χ. όπως δημοσιεύεται στο άρθρο ««Should You Always Use Dropout?», ενότητα «Disadvantages of Using Dropout» της διαδικτυακής επιθεώρησης NNART η οποία βρίσκεται στη διεύθυνση https://nnart.org/shouid-you-use-dropout/? utm_content=cmp-true»), η χρήση dropout συνεπάγεται πιο μακρά εκμάθηση και σύγκλιση στον στόχο και κυρίως κίνδυνο παράβλεψης σημαντικών τάσεων στα προς ανάλυση δεδομένα.

Με άλλα λόγια, η δημοσίευση του εφευρέτη και αιτούντα της παρούσας ΑΔΕ αποτελεί μεν μιία βελτίωση επί των προγενέστερων γνωστών συστημάτων αλλά ακόμα κι αυτή περιέχει μειονεκτήματα στην απόδοσή της. Καθώς αυτά τα μειονεκτήματα είναι ευρέως γνωστά σε κάθε γνώστη της τεχνικής, είναι επομένως γνωστά και στον εφευρέτη. Συνεπώς ο εφευρέτης έχει κάθε λόγο να επιδιώξει τη βελτίωση αυτού του συστήματος. Όπως συνηθίζεται στα κοινά αποδεκτά πλαίσια της εφευρετικής δραστηριότητας.

Ωστόσο, πέρα του πιο πάνω περιορισμού-μειονεκτήματος, η κύρια δυσκολία σε όλα τα συστήματα της στάθμης τεχνικής έγκειται στην ίδια την εργασία σχολιασμού συναισθήματος. δηλαδή σχετικά με τη διαδικασία απόφασης και απόδοσης συγκεκριμένων συναισθηματικών αξιών στο διαθέσιμο περιεχόμενο. Και τα δύο προαναφερθέντα επιμέρους καθήκοντα είναι επαχθή. Ο καθορισμός και η τήρηση ενός συνεπούς συνόλου κανόνων σχολιασμού δεν είναι εύκολο. Επιπλέον, είναι επίσης πολύ δύσκολο να εντοπιστεί ένα συναίσθημα σε ένα στοιχείο κειμένου, καθώς μια ένδειξη του συναισθήματος του συγγραφέα συχνά καλύπτεται από άλλες πληροφορίες που μπορεί να έχουν διφορούμενη σημασία ή αναφέρεται σε άλλα στοιχεία δεδομένων.

Ορισμός Προβλήματος: Απαιτείται ένα βελτίωση συστήματος σύστημα και μεθοδολογίας εξαγωγής συναισθήματος που να μπορεί να εξάγει με ακρίβεια το συναίσθημα από στοιχεία δεδομένων on-line που συλλέγονται από έναν ανιχνευτή Ιστού για χρήση σε εξωτερικά συστήματα για καμπάνιες μάρκετινγκ και σχεδιασμό νέων προϊόντων.

Προτεινόμενη Λύση - Περίληψη: Παρουσιάζεται βελτιωμένο σύστημα και μέθοδος ανάλυσης συναισθήματος περιεχομένου ιστοσελίδων.

Αρχιτεκτονική Συστήματος Εξαγωγής Συναισθήματος

Το Σχήμα 1 δείχνει μια αρχιτεκτονική συστήματος για ένα σύστημα εξαγωγής συναισθήματος περιεχομένου Ιστού. Το σύστημα εξαγωγής συναισθήματος περιεχομένου Ιστού (100) χρησιμοποιεί δεδομένα ανιχνευμένα στον ιστό που είναι αποθηκευμένα σε μία ή περισσότερες βάσεις δεδομένων και μια σειρά βημάτων επεξεργασίας και επίπεδα νευρωνικού δικτύου (ΝΝ) που έχουν εκπαιδευτεί με δεδομένα παρόμοια με αυτά στις εν λόγω βάσεις δεδομένων για την εξαγωγή συναισθημάτων που σχετίζονται με το ανιχνευμένα δεδομένα. Ο στόχος είναι να προσδιοριστεί το συναίσθημα (π.χ. αρνητικό, ουδέτερο, θετικό) σχετικά με οποιοδήποτε συγκεκριμένο στοιχείο δεδομένων (π.χ. ένα άρθρο, μια εμπορική δημοσίευση κ.λπ.) που εκφράζεται από οποιοδήποτε άτομο που διαβάζει ή αλληλεπιδρά με το στοιχείο δεδομένων ή/και το συναίσθημα του συντάκτη του αρχικού στοιχείου δεδομένων.

Από μία άποψη, το σύστημα (100) έχει τη δική του βάση δεδομένων λίμνης δεδομένων (105), η οποία είναι γεμάτη με στοιχεία δεδομένων (δηλ. περιεχόμενο) που έχουν συλλεχθεί από έναν ανιχνευτή ιστού ο οποίος έχει σχεδιαστεί για την ανίχνευση συγκεκριμένων διευθύνσεων ιστού (π.χ. πηγές δεδομένων) ή συγκεκριμένους τύπους διευθύνσεων ιστού. Για παράδειγμα, ο ανιχνευτής μπορεί να προγραμματιστεί να ανιχνεύει σε απευθείας σύνδεση εφημερίδες, ιστολογία και ιστότοπους κατασκευαστών αυτοκινήτων για τη συλλογή δεδομένων περιεχομένου που σχετίζεται με αυτοκίνητα.

Από μια άλλη άποψη, το σύστημα (100) έχει πρόσβαση σε μία ή περισσότερες βάσεις δεδομένων λίμνης δεδομένων (105), ή από άλλη άποψη, το σύστημα (100) έχει πρόσβαση τόσο στις δικές του όσο και σε μία ή περισσότερες εξωτερικές βάσεις δεδομένων λίμνης δεδομένων 105.

Συνήθως, η μία ή περισσότερες βάσεις δεδομένων λίμνης δεδομένων (105) δημιουργούνται από έναν ή περισσότερους ανιχνευτές Ιστού για τη συλλογή στοιχείων δεδομένων που ανήκουν σε πολλές κατηγορίες και τα οποία είναι κατάλληλα για χρήση για πολλούς διαφορετικούς σκοπούς. Για παράδειγμα, μια βάση δεδομένων (ΒΔ) λίμνης δεδομένων (105) μπορεί να περιέχει στοιχεία δεδομένων που μπορούν να χρησιμοποιηθούν από κατασκευαστές αυτοκινήτων, λιανοπωλητές μόδας, κατασκευαστές ταχέως κινούμενων καταναλωτικών αγαθών κ.λπ. προκειμένου να υποστηριχθεί η παροχή υπηρεσιών σε διαφορετικούς πελάτες.

Από αυτήν την εκτενή ομάδα στοιχείων δεδομένων που είναι αποθηκευμένα σε βάσεις δεδομένων λίμνης δεδομένων 105, το σύστημα (100) επιλέγει ένα υποσύνολο αυτών των στοιχείων δεδομένων και τα αποθηκεύει σε μία ή περισσότερες σχολιασμένες βάσεις δεδομένων (110), οι οποίες μπορεί να αποτελούν μέρος του συστήματος (100 ), ή μπορεί να είναι εξωτερικά του συστήματος (100) και στο οποίο το σύστημα (100) έχουν απλώς πρόσβαση. Από μία άποψη, οι βάσεις δεδομένων (100), (105) αποθηκεύονται σε μία ή περισσότερες υποδομές cloud, απομακρυσμένους ή τοπικούς διακομιστές ή σε συνδυασμό αυτών.

Λαμβάνοντας, για παράδειγμα, έναν κατασκευαστή αυτοκινήτων που ενδιαφέρεται να μάθει το κοινό για τα αυτοκίνητά του, η σχολιασμένη βάση δεδομένων (110) θα συμπληρώνεται με στοιχεία δεδομένων που σχετίζονται μόνο με αυτοκίνητα και από μια άλλη άποψη μόνο με ένα αυτοκίνητο του συγκεκριμένου κατασκευαστή. Ο σχολιασμός των στοιχείων δεδομένων της σχολιασμένης βάσης δεδομένων (110) μπορεί να γίνει με το χέρι (π.χ. από ανθρώπινους σχολιαστές), αυτόματα από εμπορικούς σχολιαστές (δηλαδή υπολογιστικά συστήματα) ή συχνότερα με συνδυασμό των δύο. Συνήθως η μηχανική μάθηση, η τεχνητή νοημοσύνη ή το ΝΝ εκπαιδεύονται πρώτα από έναν άνθρωπο σχολιαστή και στη συνέχεια αφήνονται να εκτελέσουν τον όγκο των σχολιασμών δεδομένων.

Τα στοιχεία δεδομένων στη σχολιασμένη βάση δεδομένων (110) (βάση επιση μειωμένων δεδομένων) προέρχονται από διαφορετικές πηγές και ενδέχεται να μην είναι κατάλληλα για ανάλυση ανά σύστημα (100). Για το λόγο αυτό, το (100) έχει μια διοχέτευση επεξεργασίας δεδομένων (130), η οποία επεξεργάζεται την σχολιασμένη ημερομηνία της σχολιασμένης βάσης δεδομένων (110) για να την ομογενοποιήσει και να αυξήσει την καταλληλότητά της για ανάλυση συναισθήματος. Η διοχέτευση επεξεργασίας δεδομένων (130) χρησιμοποιεί πρώτα μια μονάδα αποδιπλότυπου (de-duplicator) (133) η οποία αναλύει το περιεχόμενο δεδομένων για την αναγνώριση αντιγράφων του ίδιου περιεχομένου (π.χ. δημοσιεύσεις του ίδιου περιεχομένου σε περισσότερες από μία πηγές - αυτό μπορεί να αναφέρεται στο ίδιο άρθρο ειδήσεων, αναδημοσιεύσεις, retwits, κ.λπ.). Εάν βρεθούν διπλότυπα αντίγραφα των ίδιων στοιχείων δεδομένων, η μονάδα de-duplicator (133) επαναλαμβάνει μόνο μία από τις πανομοιότυπες εκδόσεις (π.χ. την πρώτη ή την τελευταία εμφάνιση) και απορρίπτει τις υπόλοιπες από τη σχολιασμένη βάση δεδομένων (110). Από μια άποψη, η ενότητα αποδιπλότυπου (133) συσχετίζει μεταδεδομένα που σχετίζονται με μέρος ή το σύνολο της πηγής, της ημερομηνίας, του συγγραφέα, του εκδότη, κ.λπ. των διπλότυπων αντιγράφων και αποθηκεύει αυτά τα μεταδεδομένα σε σχολιασμένη βάση δεδομένων (110).

Τα μη διπλότυπα στοιχεία δεδομένων τροφοδοτούνται στη συνέχεια σε μια ενότητα επεξηγηματικής ανάλυσης δεδομένων (136), η οποία λαμβάνει κείμενο εισόδου και κατηγορίες εγγράφων (που δημιουργούνται κατά τη διάρκεια ενός βήματος σχολιασμού - επισημείωσης (annotation)) από σχολιασμένη βάση δεδομένων (110) και τα χρησιμοποιεί για Στατιστική Ανάλυση. Οποιοσδήποτε τύπος γνωστής τεχνικής στατιστικής ανάλυσης μπορεί να χρησιμοποιηθεί από την ενότητα επεξηγηματικής ανάλυσης δεδομένων (136) για την παραγωγή αναλυόμενων δεδομένων σχετικά με την κατανομή των κλάσεων και τα κορυφαία N-grams, μαζί με διαχωρισμό δεδομένων κατά 80%, 10%, 10% σε σετ εκπαίδευσης, σετ επικύρωσης και σετ δοκιμής (test set), αντίστοιχα.

Τα αναλυθέντα δεδομένα από την ενότητα επεξηγηματικής ανάλυσης δεδομένων (136) τροφοδοτούνται στη συνέχεια σε μια ενότητα επαύξησης δεδομένων (139), η οποία εάν η στατιστική ανάλυση δείξει (μεγάλη) ανισορροπία δεδομένων (δηλαδή προκατάληψη προς μια συγκεκριμένη κατηγορία δεδομένων κ.λπ.) τότε βρίσκει τα κορυφαία N-grams στο σετ εκπαίδευσης και ελέγχει εάν τα ίδια N-grams της τάξης μειοψηφίας συνυπάρχουν στην πλειοψηφική τάξη και στη συνέχεια παίρνει δεδομένα από την πλειοψηφική τάξη και τα σημειώνει ως μειοψηφική τάξη. Η μονάδα επαύξησης δεδομένων (139) εξάγει επαυξημένα δεδομένα εκπαίδευσης, ενώ τα δεδομένα επικύρωσης και δοκιμής δεν επαυξάνονται. Στη συνέχεια, τα επαυξημένα και μη επαυξημένα δεδομένα εξάγονται από τη γραμμή επεξεργασίας δεδομένων (130) για χρήση από μια μονάδα βελτιστοποίησης υπερπαραμέτρων Bayes (140) και από το επίπεδο ενσωμάτωσης λέξεων του ΝΝ (151). Το ΝΝ έχει σχεδιαστεί για να βελτιώνει τις πληροφορίες των στοιχείων δεδομένων για την εξαγωγή συναισθήματος. Για να επιτευχθεί αυτό από ένα σύνολο στοιχείων δεδομένων, επιλέγει και επεξεργάζεται ένα επιλεκτικό υποσύνολο των στοιχείων δεδομένων του συνόλου.

Η μονάδα βελτιστοποίησης υπερπαραμέτρων Bayes (140) είναι μια λειτουργική μονάδα μηχανικής εκμάθησης που έχει σχεδιαστεί για να βρίσκει το συνολικό ελάχιστο για κάθε υπερπαράμετρο μιας συνάρτησης κόστους f(x) που χρησιμοποιείται από ένα Adam Optimizer, στον μικρότερο αριθμό βημάτων. Οι υπερπαράμετροι υπάρχουν αρχικά στο προεπιλεγμένο εύρος και επιλέγονται από ένα σύνολο υπερπαραμέτρων που περιέχει λέξεις εγκατάλειψης (dropout words), RNN εγκατάλειψης, πυκνή εγκατάλειψη, προσοχή εγκατάλειψης, l2_regularization, loss_l2 και ρυθμό εκμάθησης. Άλλη γνωστή υπερπαράμετρος μπορεί επίσης να χρησιμοποιηθεί για την οδήγηση του βελτιστοποιητή (optimizer).

To NN που χρησιμοποιείται έχει τα ακόλουθα στρώματα, συνδεδεμένα με την παρακάτω σειρά: στρώμα ενσωμάτωσης λέξεων (151), στρώμα θορύβου Gaussian (152), 1ο επίπεδο εγκατάλειψης (153), 1ο επίπεδο αμφίδρομης μακροπρόθεσμης μνήμης (BiLSTM) ( 154), 2ο στρώμα εγκατάλειψης (155), 2ο επίπεδο BiLSTM (156), 3ο στρώμα εγκατάλειψης (157), συνελικτικό στρώμα (158), μέγιστο επίπεδο συγκέντρωσης (159), στρώμα προσοχής (160), 1ο κρυφό πυκνό στρώμα (161), δεύτερο κρυφό πυκνό στρώμα (162) και πυκνό στρώμα ταξινόμησης (163).

Το στρώμα ενσωματώσεων λέξεων (151) είναι το πρώτο επίπεδο του ΝΝ. Λαμβάνει ως είσοδο τα επεξεργασμένα δεδομένα εκπαίδευσης, επικύρωσης και δοκιμής που εξάγονται από τη γραμμή επεξεργασίας δεδομένων (130) και ένα σύνολο ενσωματώσεων λέξεων, και τα οποία είναι προεπεξεργασμένα στοιχεία κειμένου που χωρίζονται κατά δευτερεύοντα διακριτικά και κωδικοποιούνται σε πραγματικούς αριθμούς χρησιμοποιώντας το γνωστό τύπο ομοιότητας συνημιτόνου. Οι αριθμοί δείχνουν την ομοιότητα μεταξύ μιας ομάδας λέξεων. Η έξοδος του στρώματος ενσωμάτωσης λέξεων (151) είναι διανύσματα λέξεων σταθερού μήκους που περιέχουν αριθμούς, δηλ. τα διανύσματα ενσωμάτωσης. Αυτά τα διανύσματα λέξεων σχηματίζουν έναν χώρο ενσωματώσεων.

Στη συνέχεια, τα διανύσματα λέξεων τροφοδοτούνται στο στρώμα θορύβου Gauss (152), το οποίο προσθέτει μικρό Gaussian Noise (μ=0,σ=1) στα διανύσματα (ενσωμάτωσης) λέξης για την αποφυγή υπερπροσαρμογής και εξάγει τα θορυβώδη στοιχεία δεδομένων στο 1ο στρώμα εγκατάλειψης (153).

Το 1ο επίπεδο εγκατάλειψης (153) λαμβάνει τα θορυβώδη δεδομένα από το επίπεδο θορύβου Gaussian (152) και τα επεξεργασμένα δεδομένα εκπαίδευσης, επικύρωσης και δοκιμής που εξάγονται από τη γραμμή επεξεργασίας δεδομένων (130) και ορίζει τυχαία τα στοιχεία δεδομένων εισόδου στο 0 με συχνότητα ρυθμιζόμενη από τη μονάδα βελτιστοποίησης υπερπαράμετρου Bayes (140) σε κάθε βήμα της βελτιστοποίησης κατά τη διάρκεια του χρόνου εκπαίδευσης, η οποία βοηθά στην αποφυγή υπερβολικής προσαρμογής (overfitting). Ως αποτέλεσμα, το 1ο επίπεδο εγκατάλειψης (153) λαμβάνει ως είσοδο θορυβώδη δεδομένα και εξάγει ένα μικρότερο ποσοστό αυτών των θορυβωδών δεδομένων.

Η έξοδος του 1ου στρώματος εγκατάλειψης (153) μαζί με την έξοδο της μονάδας βελτιστοποίησης υπερπαραμέτρων Bayes (140) τροφοδοτούνται ως είσοδοι στο 1ο επίπεδο BiLSTM (154), το οποίο είναι ένα στρώμα επεξεργασίας ακολουθίας (sequence processing layer) που αποτελείται από δύο LSTM, το ένα παίρνει είσοδο (input) σε μια κατεύθυνση προς τα εμπρός και το άλλο σε μια κατεύθυνση προς τα πίσω λαμβάνοντας υπόψη τη δομή, καθώς και το πλαίσιο του κειμένου. Επιπλέον, οι υπερπαράμετροι του, οι μεταβλητές «dropout_rnn» και «l2_reg», προσαρμόζονται και βελτιστοποιούνται από την ενότητα βελτιστοποίησης υπερπαραμέτρων Bayes (140). Το 1ο επίπεδο BiLSTM (154) αποδίδει απρόσμενα καλύτερα σε μεγάλα κείμενα (δηλαδή κείμενα μήκους 200-600 χαρακτήρων) και εξάγει τα συνδεόμενα χαρακτηριστικά της τελευταίας κρυφής κατάστασης του BiLSTM για όλα τα διακριτικά (δηλαδή λέξεις και σύμβολα) στην εισαγωγή του ως πραγματικοί αριθμοί.

Η έξοδος του 1ου επιπέδου BiLSTM (154) μαζί με την έξοδο της μονάδας βελτιστοποίησης υπερπαραμέτρων Bayes (140) τροφοδοτούνται ως είσοδοι στο 2ο επίπεδο εγκατάλειψης (155), το οποίο ορίζει τυχαία ένα ποσοστό στοιχείων εισόδου στο 0, γεγονός που βοηθά στην αποτροπή υπερπροσαρμογής. Η είσοδος 2ου στρώματος εγκατάλειψης (155) αποτελείται από θορυβώδεις τανυστές δεδομένων 1D και οι έξοδοι της αποτελούνται από μικρότερο ποσοστό των τανυστών 1D δεδομένων. Το ποσοστό της εγκατάλειψης ορίζεται από μια βέλτιστη τιμή που βρέθηκε από το Bayesian Optimization κατά τη διάρκεια του χρόνου εκπαίδευσης.

Η έξοδος του 2ου στρώματος εγκατάλειψης (dropout layer) (155) τροφοδοτείται στο 2ο επίπεδο BiLSTM (156) μαζί με την έξοδο της μονάδας βελτιστοποίησης υπερπαραμέτρων Bayes (140), που λειτουργεί πανομοιότυπα με το 1ο επίπεδο BiLSTM (154) και εξάγει τα συνενωμένα χαρακτηριστικά της τελευταίας κρυφής κατάστασης του BiLSTM για όλα τα διακριτικά στην εισαγωγή του ως πραγματικός αριθμούς.

Το 2ο επίπεδο εξόδου BiLSTM (156) μαζί με την έξοδο της μονάδας βελτιστοποίησης υπερπαραμέτρων Bayes (140) τροφοδοτούνται στο 3ο στρώμα εγκατάλειψης (157), το οποίο λειτουργεί πανομοιότυπα με το 1ο στρώμα εγκατάλειψης (153) και το 2ο στρώμα εγκατάλειψης (155) και εξάγει ένα μικρότερο ποσοστό των τανυστών 1D των δεδομένων εισόδου του.

Η έξοδος του 3ου στρώματος εγκατάλειψης (157) τροφοδοτείται σε ένα συνελικτικό στρώμα (158), το οποίο λαμβάνει την είσοδο των τανυστών 1D και τους περιπλέκει από ένα φίλτρο μήκους 64 και από 1D συνελικτικό παράθυρο 5 (μέγεθος_πυρήνα) για να βρει αριθμητικά μοτίβα στις γλωσσικές ομάδες ανά μέγεθος_πυρήνα και εξάγει έναν γραμμικό 1D τανυστή πραγματικών αριθμών.

Μέγιστο επίπεδο συγκέντρωσης (max pooling layer) (159) λαμβάνει την έξοδο του 3ου στρώματος εγκατάλειψης (157) και μειώνει τη δειγματοληψία του κατά ένα παράθυρο συγκέντρωσης μήκους 5. Αυτή η δειγματοληψία επιτρέπει στο στρώμα μέγιστης συγκέντρωσης (159) να επιλέξει τις πιο σημαντικές πληροφορίες στην είσοδο και να εξάγει πραγματικούς αριθμούς σε τανυστές 1D.

Η έξοδος του στρώματος μέγιστης συγκέντρωσης (159) μαζί με την έξοδο της μονάδας βελτιστοποίησης υπερπαραμέτρων Bayes (140) τροφοδοτούνται στο επίπεδο προσοχής (160), το οποίο εξισορροπεί την πτώση πληροφοριών από το φιλτράρισμα του στρώματος μέγιστης συγκέντρωσης (159) βρίσκοντας λέξεις που φέρουν έντονο συναίσθημα. Το στρώμα προσοχής (160) εξάγει ένα διάνυσμα προσοχής από 128 κόμβους χρησιμοποιώντας τη συνάρτηση ενεργοποίησης tanh στις τιμές, η οποία είναι μια μείωση σε σχέση με τις τιμές των τανυστών 1D όπου κάθε τιμή είναι το αποτέλεσμα της συνάρτησης ενεργοποίησης tanh στα βάρη προσοχής. Τα βάρη προσοχής υπολογίζονται ως μέρος του γινόμενου (dot product) της συνάρτησης softmax των βαθμολογιών με την κρυφή κατάσταση της πηγής.

Η έξοδος του επιπέδου προσοχής (160) μαζί με την έξοδο της μονάδας βελτιστοποίησης υπερπαραμέτρων Bayes (140) τροφοδοτούνται στο 1ο κρυφό πυκνό στρώμα (161), το οποίο αποτελείται από 1024 νευρώνες και του οποίου η συνάρτηση ενεργοποίησης είναι η διορθωμένη γραμμική μονάδα (ReLU). Βρίσκει περισσότερες δυνατότητες από πιο σύνθετα μοτίβα δεδομένων και εξάγει τα αποτελέσματα της συνάρτησης ενεργοποίησης (ReLU) ως τανυστή 1 D.

Η έξοδος του 1ου κρυφού πυκνού στρώματος (161) μαζί με την έξοδο της μονάδας βελτιστοποίησης υπερπαραμέτρων Bayes (140) και ένα διάνυσμα emoji τροφοδοτούνται σε ένα 2ο κρυφό πυκνό στρώμα (162), που αποτελείται από 128 νευρώνες, του οποίου η συνάρτηση ενεργοποίησης είναι η διορθωμένη γραμμική μονάδα (ReLU). Βρίσκει περισσότερες δυνατότητες από πιο σύνθετα μοτίβα δεδομένων και εξάγει τα αποτελέσματα της συνάρτησης ενεργοποίησης (ReLU) ως τανυστήρα 1D.

Το διάνυσμα emoji δημιουργείται από μια μονάδα διανύσματος emoji (174). Σημαντικές πληροφορίες βρίσκονται στα ιδεογράμματα emoji για κείμενα μέσων κοινωνικής δικτύωσης. Ένα διάνυσμα συχνότητας για κάθε έγγραφο Ιστού κατασκευάζεται και εξάγεται από τη μονάδα διανύσματος emoji (174) στο 2ο κρυφό πυκνό στρώμα (162) ως διάνυσμα emoji. Τα στοιχεία του διανύσματος emoji αντιπροσωπεύουν τον αριθμό των φορών που κάθε συγκεκριμένο emoji εμφανίζεται σε ένα στοιχείο δεδομένων (δηλαδή ένα κείμενο στο παρόν πλαίσιο).

Η διανυσματική μονάδα emoji (emoji vector) (174) λαμβάνει ως είσοδο μια λίστα emoji που έχει κατασκευαστεί από μια μονάδα λίστας emoji (172).

Η έξοδος του 2ου κρυφού πυκνού στρώματος (162) τροφοδοτείται σε ένα πυκνό στρώμα ταξινόμησης (dense classification layer) (163), το οποίο υπολογίζει τις πιθανότητες ανά κλάση και εξάγει την πιθανότητα της συνάρτησης ενεργοποίησης (sotfmax) ανά κατηγορία κλάσης (δηλαδή αρνητικό, ουδέτερο, θετικό ). Η υψηλότερη από αυτές τις πιθανότητες για κάθε στοιχείο δεδομένων αντιπροσωπεύει το συναίσθημα που σχετίζεται με αυτό το στοιχείο δεδομένων.

Ο αριθμός των νευρώνων, τα μήκη του φίλτρου και άλλες παράμετροι που παρουσιάζονται για το σύστημα (100) επιλέγονται ως παρέχοντα τα βέλτιστα αποτελέσματα. Παραλλαγές αυτών των παραμέτρων μπορούν επίσης να χρησιμοποιηθούν χωρίς απομάκρυνση από το πεδίο προστασίας της παρούσας καινοτόμου λύσης.

Μεθοδολογία εξαγωγής συναισθήματος

Το Σχήμα 2 δείχνει μια μεθοδολογία για την εξαγωγή συναισθήματος από κειμενικό περιεχόμενο. Η Μεθοδολογία (200) έχει ένα βήμα για τη λήψη σχολιασμένων στοιχείων δεδομένων (210) από μια βάση δεδομένων (110) που αποθηκεύει δεδομένα (συνήθως ανιχνευμένα στον ιστό). Τα στοιχεία δεδομένων στη βάση δεδομένων (110) έχουν δημιουργηθεί με ανίχνευση (202) συγκεκριμένων τοποθεσιών του ιστού για δημόσια διαθέσιμα δεδομένα, επιλέγοντας (204) τα σχετικά δεδομένα από τα ανιχνευμένα δεδομένα σε μια βάση δεδομένων (105) και σχολιάζοντας τα (206) στη βάση δεδομένων (110). Το βήμα επιλογής (204) ρυθμίζεται έτσι ώστε να επιλέγονται δεδομένα σχετικά με τους σκοπούς της εργασίας εξαγωγής συναισθήματος, π.χ. εξαγωγή του συναισθήματος των στοιχείων δεδομένων που σχετίζονται με τα αυτοκίνητα ενός συγκεκριμένου κατασκευαστή αυτοκινήτων.

Στη συνέχεια, τα σχολιασμένα στοιχεία δεδομένων υποβάλλονται σε επεξεργασία με τη μονάδα de-duplicator (133) για την αφαίρεση διπλών στοιχείων δεδομένων (212) και τις κατανομές κλάσεων τους (όπως μπορεί να προκύψει με γνωστές μεθόδους από τους σχολιασμούς των στοιχείων δεδομένων) και κορυφαία N-grams αναλύονται στατιστικά (214). Χρησιμοποιώντας ένα κριτήριο ανισορροπίας (217) (π.χ. ένα όριο που χρησιμοποιείται για τον διαχωρισμό των κατανομών στοιχείων δεδομένων σε σύνολα- εάν η συμμετοχή σε αυτά τα σύνολα δεν είναι περίπου η ίδια, π.χ. με ανοχή 10%, τότε η ανισορροπία υπάρχει), εάν εντοπιστεί ανισορροπία (216), στη συνέχεια πραγματοποιείται υπερδειγματοληψία δεδομένων της κατηγορίας μειοψηφίας μαζί με μείωση δειγματοληψίας της κλάσης πλειοψηφίας (218) χρησιμοποιώντας τη μονάδα επαύξησης δεδομένων (data augmentation module) (135).

Η μεθοδολογία (200) συνεχίζει με τη βελτιστοποίηση δεδομένων (δηλαδή υπερπαράμετρο) (220) χρησιμοποιώντας τη μονάδα βελτιστοποίησης υπερπαραμέτρων Bayesian (140), η οποία περιλαμβάνει επαναφορά των τιμών υπερπαραμέτρων (222) (οι οποίες επιλέγονται από ένα σύνολο υπερπαραμέτρων που περιέχει λέξεις εγκατάλειψης, επαναλαμβανόμενης εγκατάλειψης νευρωνικό δίκτυο (dropout recurrent neural network ) (RNN), πυκνότητα εγκατάλειψης, προσοχή εγκατάλειψης, l2_regularization, loss_l2 και ρυθμός εκμάθησης) και βρίσκει το συνολικό ελάχιστο μιας συνάρτησης κόστους που χρησιμοποιείται σε έναν βελτιστοποιητή Adam για κάθε υπερπαράμετρο (224).

Η μεθοδολογία λαμβάνει ενσωματώσεις λέξεων (word embeddings) από μια εξωτερική ή εσωτερική βάση δεδομένων (230) και τις τροφοδοτεί σε ένα ΝΝ. Οι ενσωματώσεις λέξεων είναι προεπεξεργασμένα στοιχεία κειμένου που χωρίζονται κατά δευτερεύοντα διακριτικά και κωδικοποιούνται σε πραγματικούς αριθμούς χρησιμοποιώντας τον τύπο ομοιότητας συνημιτόνου. Οι αριθμοί δείχνουν την ομοιότητα μεταξύ μιας ομάδας λέξεων. Το ΝΝ χρησιμοποιεί το στρώμα ενσωματώσεων λέξεων (151) για να κωδικοποιήσει στοιχεία κειμένου (δηλαδή δεδομένα κειμένου) σε αριθμούς (233) χρησιμοποιώντας τη λέξη ενσωματώσεις. Αυτοί οι αριθμοί μεταβιβάζονται στη συνέχεια σε ένα στρώμα θορύβου Gauss (152), το οποίο προσθέτει μικρό Gaussian θόρυβο (μ=0,σ=1) (236) στα κωδικοποιημένα δεδομένα για να αποφευχθεί η υπερβολική προσαρμογή (overfitting) των δεδομένων.

Στη συνέχεια, τα θορυβώδη δεδομένα επεξεργάζονται από το 1ο επίπεδο εγκατάλειψης (153), το οποίο ορίζει τυχαία τα κωδικοποιημένα στοιχεία δεδομένων στο 0 με μια συχνότητα που ορίζεται από τη μονάδα βελτιστοποίησης υπερπαραμέτρου Bayes (140) σε κάθε βήμα κατά τη διάρκεια του χρόνου εκπαίδευσης (240), η οποία βοηθά στην αποτροπή υπερπροσαρμογής (overfitting). Ως είσοδο λαμβάνει τα θορυβώδη δεδομένα και εξάγει ένα μικρότερο ποσοστό των δεδομένων.

Το μειωμένο σύνολο θορυβωδών δεδομένων επεξεργάζεται στη συνέχεια (242) από το 1ο επίπεδο BiLSTM (154), το οποίο αποτελείται από δύο LSTM, το ένα παίρνει την είσοδο προς τα εμπρός και το άλλο σε μια προς τα πίσω κατεύθυνση λαμβάνοντας υπόψη τη δομή, καθώς και το πλαίσιο του κειμένου. Επιπλέον, οι μεταβλητές "dropout_rnn" και "l2_reg" των υπερπαραμέτρων του 1ου επιπέδου BiLSTM (154) προσαρμόζονται και βελτιστοποιούνται από τη μονάδα βελτιστοποίησης υπερπαραμέτρων Bayesian (140). Το 1ο επίπεδο BiLSTM (154) αποδίδει καλύτερα σε μεγάλα κείμενα (δηλαδή 200-600 χαρακτήρες) και εξάγει τα συνδυασμένα χαρακτηριστικά της τελευταίας κρυφής κατάστασης του LSTMS και του BiLSTM για όλα τα διακριτικά (tokens) της ακολουθίας ως πραγματικούς αριθμούς.

Η έξοδος του βήματος (242) επεξεργάζεται στη συνέχεια από το 2ο επίπεδο εγκατάλειψης (155), το οποίο θέτει τυχαία τα κωδικοποιημένα στοιχεία δεδομένων στο Ο με μια συχνότητα που ορίζεται από τη μονάδα βελτιστοποίησης υπερπαραμέτρων Bayes (140) σε κάθε βήμα κατά τη διάρκεια του χρόνου εκπαίδευσης (244), το οποίο βοηθά στην αποφυγή υπερβολικής προσαρμογής. Ως είσοδο λαμβάνει τα θορυβώδη δεδομένα και εξάγει ένα μικρότερο ποσοστό των δεδομένων.

Το μειωμένο σύνολο δεδομένων του βήματος (244) επεξεργάζεται στη συνέχεια (246) από το 2ο επίπεδο BiLSTM (156), το οποίο αποτελείται από δύο LSTM, το ένα παίρνει την είσοδο προς τα εμπρός και το άλλο σε μια προς τα πίσω κατεύθυνση λαμβάνοντας λάβετε υπόψη τη δομή, καθώς και το πλαίσιο του κειμένου. Επιπλέον, οι μεταβλητές "dropout_rnn" και "I2_reg" των υπερπαραμέτρων του 2ου επιπέδου BiLSTM (156) προσαρμόζονται και βελτιστοποιούνται από τη μονάδα βελτιστοποίησης υπερπαραμέτρων Bayes (140). Το 2ο επίπεδο BiLSTM (156) αποδίδει απρόσμενα καλύτερα σε μεγάλα κείμενα (δηλαδή 200-600 χαρακτήρες) και εξάγει τα συνδυασμένα χαρακτηριστικά της τελευταίας κρυφής κατάστασης του LSTMS και του BiLSTM για όλα τα διακριτικά της ακολουθίας ως πραγματικούς αριθμούς.

Η έξοδος του βήματος (246) επεξεργάζεται στη συνέχεια από το 3ο επίπεδο εγκατάλειψης (157), το οποίο θέτει τυχαία τα κωδικοποιημένα στοιχεία δεδομένων στο 0 με μια συχνότητα που ορίζεται από τη μονάδα βελτιστοποίησης υπερπαραμέτρων Bayes (140) σε κάθε βήμα κατά τη διάρκεια του χρόνου εκπαίδευσης (248), το οποίο βοηθά στην αποφυγή υπερβολικής προσαρμογής. Ως είσοδο λαμβάνει τα θορυβώδη δεδομένα και εξάγει ένα μικρότερο ποσοστό των δεδομένων.

Το μειωμένο σύνολο δεδομένων που εξάγεται από το βήμα (248), το οποίο είναι ένας τανυστής 1D, περιελίσσεται (250) από το συνελικτικό στρώμα (158) χρησιμοποιώντας ένα φίλτρο μήκους 64 και ένα 1D συνελικτικό παράθυρο μήκους 5 (μέγεθος_πυρήνα) για εύρεση αριθμητικών μοτίβων στις γλωσσικές ομάδες ανά μέγεθος_πυρήνα.

Η έξοδος του βήματος (250), που είναι ένα σύνολο διανυσμάτων γραμμικών 1D τανυστών πραγματικών αριθμών, στη συνέχεια υποβάλλεται σε δειγματοληψία (252) από το μέγιστο στρώμα συγκέντρωσης (159) χρησιμοποιώντας ένα παράθυρο συγκέντρωσης (pooling window) μήκους 5. Το βήμα (252), έτσι, εφαρμόζει έναν μηχανισμό για τη λήψη (δηλαδή την επιλογή) των πιο σημαντικών διανυσμάτων και εξάγει διανύσματα πραγματικών αριθμών σε 1D Tensor.

Τα υποδειγματοληπτισμένα δεδομένα (downsampled data) του βήματος (252) επεξεργάζονται στη συνέχεια από το επίπεδο προσοχής 160, το οποίο εξισορροπεί την πτώση της πληροφορίας από το βήμα (252) εφαρμόζοντας βάρη (δηλαδή στάθμιση) (254) στους τανυστές 1D που λαμβάνει ως είσοδο. Αυτά τα βάρη προέρχονται από τη συνάρτηση ενεργοποίησης tanh στα βάρη προσοχής.

Τα σταθμισμένα δεδομένα του βήματος (254) επεξεργάζονται στη συνέχεια από το 1ο κρυφό στρώμα (161), το οποίο χρησιμοποιεί 1024 νευρώνες για να βρει περισσότερα χαρακτηριστικά από πιο πολύπλοκα μοτίβα δεδομένων και εξάγει τα αποτελέσματα της συνάρτησης ενεργοποίησής του (ReLU) ως τανυστήρα 1D ( 256).

Η έξοδος του βήματος (256) επεξεργάζεται στη συνέχεια από το 2ο κρυφό στρώμα (162), το οποίο χρησιμοποιεί 128 νευρώνες για να επεξεργαστεί τα δεδομένα εισόδου του μαζί με διανύσματα emoji (174) (που αντιπροσωπεύουν τη συχνότητα εμφάνισης κάθε emoji σε ένα στοιχείο κειμένου ) που έχουν δημιουργηθεί από μια λίστα emoji (172), για την εύρεση περισσότερων χαρακτηριστικών από πιο σύνθετα μοτίβα δεδομένων και εξάγει τα αποτελέσματα της συνάρτησης ενεργοποίησής του (ReLU) ως τανυστήρα 1D (260). Το βήμα (260) βασίζεται στο γεγονός ότι σημαντικές πληροφορίες βρίσκονται στα ιδεογράμματα emoji για τις κειμενικές εκδόσεις των μέσων κοινωνικής δικτύωσης.

Η έξοδος του βήματος (260) επεξεργάζεται από το πυκνό στρώμα ταξινόμησης (163), το οποίο υπολογίζει τις πιθανότητες ανά κλάση (270) και εξάγει την πιθανότητα της συνάρτησης ενεργοποίησης (sotfmax) ανά κατηγορία κλάσης (class category) (αρνητικό, ουδέτερο, θετικό) (280). Η κατηγορία κλάσης με την υψηλότερη πιθανότητα για κάθε στοιχείο δεδομένων ορίζεται ως το συναίσθημα του στοιχείου δεδομένων, το οποίο μπορεί στη συνέχεια να χρησιμοποιηθεί από εξωτερικά συστήματα και μεθοδολογίες (π.χ. για τον σχεδίασμά μιας στρατηγικής μάρκετινγκ για ένα νέο μοντέλο αυτοκινήτου ή για την προσαρμογή της τιμολόγησης του μοντέλο αυτοκινήτου κ.λπ.).

Στη μεθοδολογία (200), τα βήματα (230), (233), (240), (242), (244), (246), (248), (254), (256), (260) επίσης λαμβάνουν ως είσοδο την έξοδο του βήματος βελτιστοποίησης υπερπαραμέτρων Bayes (220) (δηλαδή των βημάτων (222), (224)).

Οι διαδικασίες που παρουσιάζονται παραπάνω αναφέρονται σε ειδησεογραφικούς ιστότοπους και άρθρα, εμπορικούς ιστότοπους και άρθρα, ιστότοπους μέσων κοινωνικής δικτύωσης και δημοσιεύσεις και retwits, και δίνονται με παράδειγμα. Σημειώνεται ότι το πεδίο εφαρμογής του παρόντος καινοτόμου συστήματος και μεθόδου ανίχνευσης συναισθημάτων δεν περιορίζεται στα προηγούμενα παραδείγματα, αλλά ισχύει για άλλα και μπορεί να περιλαμβάνει άλλα στοιχεία δεδομένων εκτός από κείμενο, συγκεκριμένα εικόνες, βίντεο, τρισδιάστατο ήχο, vlog κ.λπ. τα οποία με κατάλληλη επεξεργασία μπορούν να μετατραπεί σε δεδομένα κειμένου ή άλλου τύπου οπτικοακουστικά δεδομένα που μπορεί να αναπαρασταθούν αριθμητικά. Όπου χρησιμοποιείται μη κειμενικό περιεχόμενο, η προτεινόμενη μεθοδολογία και σύστημα εξαγωγής συναισθήματος μπορεί να χρησιμοποιεί μεταδεδομένα που συνοδεύουν το μη κειμενικό περιεχόμενο ή σε άλλα παραδείγματα ενσωμάτωσης εφαρμόζει πρόσθετα βήματα επεξεργασίας όπου τα δεδομένα κειμένου προέρχονται από το μη κειμενικό περιεχόμενο. Μέσω παραδείγματος, η φωνητική ομιλία και η αναγνώριση ήχου μπορεί να χρησιμοποιηθούν για τη δημιουργία εκδόσεων κειμένου της ομιλίας ή περιγραφής κειμένου του ήχου (π.χ. τίτλος τραγουδιού, μεταδεδομένα που περιγράφουν μια έκρηξη, κ.λπ.) ή ανάλυση εικόνας/βίντεο/30 για τη δημιουργία μεταδεδομένα που περιγράφουν οπτικό περιεχόμενο. Τεχνικές για την επεξεργασία οπτικοακουστικού περιεχομένου είναι πολύ γνωστές στην προηγούμενη τεχνική και δεν περιλαμβάνονται στην παρούσα αποκάλυψη καθώς είναι προφανείς σε οποιονδήποτε αναγνώστη με συνήθη εμπειρία στη σχετική τέχνη.

Τα ανεπεξέργαστα, επεξεργασμένα και αναλυμένα δεδομένα αποθηκεύονται σε ουρές (queues) και βάσεις δεδομένων (όπως SQL, noSQL ή άλλες) ενώ σε εναλλακτικά παραδείγματα ενσωμάτωσης αποθηκεύονται σε αρχεία καταγραφής, δομές δεδομένων κ.λπ. Τα δεδομένα αποθηκεύονται σε αρχεία ASCII, XML, συμπιεσμένα, κρυπτογραφημένα ή σε άλλες αναπαραστάσεις και μορφές αρχείων.

Οι παραπάνω παραδειγματικές περιγραφές υλοποίησης είναι απλοποιημένες και δεν περιλαμβάνουν στοιχεία υλικού και λογισμικού που χρησιμοποιούνται στις υλοποιήσεις αλλά δεν αποτελούν μέρος της τρέχουσας καινοτόμου λύσης, δεν χρειάζονται για την κατανόηση των ενσωματώσεων και είναι προφανή σε οποιονδήποτε χρήστη συνηθισμένης δεξιότητας στη σχετική τέχνη. Επιπλέον, είναι δυνατές παραλλαγές της περιγραφόμενης τεχνικής, της αρχιτεκτονικής συστήματος και της αρχιτεκτονικής λογισμικού, όπου, για παράδειγμα, βήματα τεχνικής και στοιχεία υλικού και λογισμικού μπορούν να αναδιαταχθούν, να παραληφθούν ή να προστεθούν νέα.

Διάφορες πραγματοποιήσεις της εφεύρεσης περιγράφονται παραπάνω στη Λεπτομερή Περιγραφή. Ενώ αυτές οι περιγραφές περιγράφουν άμεσα τις παραπάνω υλοποιήσεις, είναι κατανοητό ότι οι έμπειροι στην τέχνη μπορεί να συλλάβουν τροποποιήσεις και/ή παραλλαγές (όπως προσθήκη, διαγραφή ή αναδιάταξη σταδίων της διαδικασίας και ενότητες λογισμικού και υλικού, παραλλαγή του αριθμού και το μέγεθος των στρωμάτων ΝΝ, φίλτρων, κ.λπ.) στις συγκεκριμένες εφαρμογές που παρουσιάζονται και περιγράφονται εδώ. Οποιεσδήποτε τέτοιες τροποποιήσεις ή παραλλαγές που εμπίπτουν στο πεδίο εφαρμογής αυτής της περιγραφής προορίζονται επίσης να συμπεριληφθούν σε αυτήν. Εκτός εάν σημειώνεται συγκεκριμένα, πρόθεση του εφευρέτη είναι οι λέξεις και οι φράσεις στην προδιαγραφή και τις αξιώσεις να λάβουν τη συνηθισμένη σημασία σε εκείνους με συνήθη εμπειρία στην εφαρμοστέα τέχνη.

Η προηγούμενη περιγραφή μιας προτιμώμενης υλοποίησης και του καλύτερου τρόπου της εφεύρεσης που είναι γνωστός στον αιτούντα αυτή τη στιγμή της κατάθεσης της αίτησης έχει παρουσιαστεί και προορίζεται για σκοπούς απεικόνισης και περιγραφής. Δεν προορίζεται να είναι εξαντλητικό ή να περιορίσει την εφεύρεση στην ακριβή μορφή που αποκαλύπτεται και πολλές τροποποιήσεις και παραλλαγές είναι δυνατές υπό το φως των παραπάνω διδασκαλιών. Η ενσωμάτωση επιλέχθηκε και περιεγράφηκε για να εξηγηθούν καλύτερα οι αρχές της εφεύρεσης και η πρακτική εφαρμογή της και να δοθεί η δυνατότητα σε άλλους έμπειρους στην τέχνη να χρησιμοποιήσουν καλύτερα την εφεύρεση σε διάφορες υλοποιήσεις και με διάφορες τροποποιήσεις που είναι κατάλληλες για τη συγκεκριμένη χρήση που εξετάζεται. Επομένως, επιδιώκεται η εφεύρεση να μην περιορίζεται στις συγκεκριμένες υλοποιήσεις που αποκαλύπτονται για την πραγματοποίηση αυτής της εφεύρεσης, αλλά ότι η εφεύρεση θα περιλαμβάνει όλες τις πραγματοποιήσεις που εμπίπτουν στο πλαίσιο των συνημμένων αξιώσεων.

Οι έμπειροι στην τέχνη θα καταλάβουν ότι τα σήματα μπορούν να αναπαρασταθούν χρησιμοποιώντας οποιαδήποτε από μια ποικιλία διαφορετικών τεχνικών. Για παράδειγμα, δεδομένα, λογισμικό, οδηγίες, σήματα που μπορούν να αναφέρονται σε όλη την παραπάνω περιγραφή μπορεί να αντιπροσωπεύονται από τάσεις, ρεύματα, ηλεκτρομαγνητικά κύματα, μαγνητικά πεδία ή σωματίδια, φως ή οποιονδήποτε συνδυασμό αυτών.

Οι ειδικοί θα εκτιμούσαν περαιτέρω ότι τα διάφορα επεξηγηματικά μπλοκ κυκλωμάτων ραδιοσυχνότητας ή αναλογικών που περιγράφονται σε σχέση με την αποκάλυψη στο παρόν μπορούν να υλοποιηθούν σε μια ποικιλία διαφορετικών τοπολογιών κυκλωμάτων, σε ένα ή περισσότερα ολοκληρωμένα κυκλώματα, χωριστά ή σε συνδυασμό με λογικά κυκλώματα και συστήματα ενώ εκτελούν τις ίδιες λειτουργίες που περιγράφονται στην παρούσα αποκάλυψη.

Οι ειδικοί θα εκτιμούσαν επίσης ότι τα διάφορα επεξηγηματικά λογικά μπλοκ, μονάδες, κυκλώματα και βήματα αλγορίθμου που περιγράφονται σε σχέση με την αποκάλυψη στο παρόν μπορούν να υλοποιηθούν ως ηλεκτρονικό υλικό, λογισμικό υπολογιστή ή συνδυασμοί και των δύο. Για να επεξηγηθεί με σαφήνεια αυτή η εναλλαξιμότητα υλικού και λογισμικού, διάφορα επεξηγηματικά στοιχεία, μπλοκ, μονάδες, κυκλώματα και βήματα έχουν περιγράφει παραπάνω γενικά ως προς τη λειτουργικότητά τους. Το εάν αυτή η λειτουργικότητα υλοποιείται ως υλικό ή λογισμικό εξαρτάται από τους συγκεκριμένους περιορισμούς εφαρμογής και σχεδιασμού που επιβάλλονται στο συνολικό σύστημα. Οι ειδικευμένοι τεχνίτες μπορούν να εφαρμόσουν την περιγραφόμενη λειτουργικότητα με διαφορετικούς τρόπους για κάθε συγκεκριμένη εφαρμογή, αλλά τέτοιες αποφάσεις εφαρμογής δεν θα πρέπει να ερμηνεύονται ότι προκαλούν απόκλιση από το πεδίο εφαρμογής της παρούσας γνωστοποίησης.

Τα διάφορα επεξηγηματικά λογικά μπλοκ, μονάδες και κυκλώματα που περιγράφονται σε σχέση με την αποκάλυψη στο παρόν μπορούν να υλοποιηθούν ή να εκτελεστούν με έναν επεξεργαστή γενικής χρήσης, έναν επεξεργαστή ψηφιακού σήματος (DSP), ένα ολοκληρωμένο κύκλωμα ειδικής εφαρμογής (ASIC), μία συστοιχία προγραμματιζόμενης πύλης πεδίου (FPGA) ή άλλη προγραμματιζόμενη λογική συσκευή, διακριτή λογική πύλη ή τρανζίστορ, διακριτά εξαρτήματα υλικού ή οποιοσδήποτε συνδυασμός τους που έχει σχεδιαστεί για να εκτελεί τις λειτουργίες που περιγράφονται εδώ. Ένας επεξεργαστής γενικής χρήσης μπορεί να είναι ένας μικροεπεξεργαστής, αλλά εναλλακτικά, ο επεξεργαστής μπορεί να είναι οποιοσδήποτε συμβατικός επεξεργαστής, ελεγκτής, μικροελεγκτής ή μηχάνημα κατάστασης. Ένας επεξεργαστής μπορεί επίσης να υλοποιηθεί ως συνδυασμός υπολογιστικών συσκευών, π.χ. ένας συνδυασμός ενός DSP και ενός μικροεπεξεργαστή, ενός πλήθους μικροεπεξεργαστών, ενός ή περισσότερων μικροεπεξεργαστών σε συνδυασμό με έναν πυρήνα DSP ή οποιαδήποτε άλλη τέτοια διαμόρφωση.

Σε μία ή περισσότερες παραδειγματικές υλοποιήσεις, οι λειτουργίες που περιγράφονται μπορούν να υλοποιηθούν σε υλικό, λογισμικό, υλικολογισμικό (firmware) ή οποιονδήποτε συνδυασμό αυτών.

Η προτιμητέες υλοποιήσεις είναι σε υλικό ή σε συνδυασμό υλικού με λογισμικό. Έτσι, όλες οι μονάδες που περιγράφονται και απεικονίζονται στα σχήματα αφορούν σε υλικό (π.χ. μικροεπεξεργαστές ή/και υπομονάδες αυτών οι οποίοι είτε εκτελούν λογισμικό ή firmware είτε χρησιμοποιούν αποκλειστικά ηλεκτρονικά ολοκληρωμένα κυκλώματα συγκεκριμένης εφαρμογής - Application Specific Integrated Circuit (ASIC)). Οι επιμέρους μονάδες και υπομονάδες αυτού του υλικού είναι αυτόνομα γνωστές από τη βιβλιογραφία και κάθε γνώστης της σχετικής τεχνικής γνωρίζει, π.χ. πώς να υλοποιήσει ένα μικροεπεξεργαστή ο οποίος είναι σχεδιασμένος ώστε να υλοποιεί την εύρεση γλωσσικών μοτίβων (250) κλπ. Είναι γνωστή από τη βιβλιογραφία πληθώρα διαφορετικών τεχνικών για π.χ. την εύρεση γλωσσικών μοτίβων και αντίστοιχων υλοποιήσεων σε υλικό ή συνδυασμό υλικού με λογισμικό. Παρότι λοιπόν, είναι γνωστό από τη βιβλιογραφία υλικό για καθεμία από τις μονάδες που περιγράφονται στην παρούσα περιγραφή και απεικονίζονται στα σχήματα, δεν είναι γνωστός ο συνδυασμός όλων αυτών των μονάδων υλικού και πιο συγκεκριμένα με τη συγκεκριμένη σειρά που περιεγράφηκε.

Συνεπώς ο γνώστης της τεχνικής χρειάζεται απλά τη λίστα των μονάδων υλικού και τη σειρά σύνδεσής τους ώστε να μπορέσει να υλοποιήσει την παρούσα εφεύρεση και να παράξει το νέο και μη προφανές τεχνικό αποτέλεσμα της εφεύρεσης. Ο τρόπος υλοποίησης των επιμέρους μονάδων υλικού είναι ήδη γνωστός στο γνώστη της τεχνικής και μπορεί συνεπώς να επιλέξει για καθεμία μονάδα υλικού μία από τις γνωστές υλοποιήσεις, οι οποίες περιγράφονται στην βιβλιογραφία.

Έχοντας υλοποιήσει την εφεύρεση, ο γνώστης της τεχνικής, θα είναι πλέον σε θέση να χρησιμοποιήσει τα συναισθήματα που η εφεύρεση θα παρέχει στην έξοδο του συστήματος, με τρόπο ο οποίος είναι ήδη γνωστός από τη βιβλιογραφία. Δηλαδή χρήση συναισθήματος σε εξωτερικά συστήματα για σχεδίασμά και υλοποίηση καμπάνιας μάρκετινγκ ή/και χρήση σε εξωτερικά συστήματα για σχεδίασμά προϊόντων.

Ένα επίσης γνωστό από τη βιβλιογραφία (π.χ. Cambria Ε. et al. , 2017, “Affective Computing and Sentiment Analysis”, Socio-Affective Computing, SAC Vol.5, ISSN 2509-5714) παράδειγμα χρήσης συναισθήματος σε εξωτερικό σύστημα περιλαμβάνει π.χ. τον σχεδίασμά καμπάνιας μάρκετινγκ η οποία π.χ. προβάλει την αξιοπιστία ενός αυτοκινήτου έναντι της αισθητικής του καθώς τα εξαχθέντα συναισθήματα των πιθανών αγοραστών του είναι θετικά για την αξιοπιστία και αρνητικά για την αισθητική του συγκεκριμένου μοντέλου αυτοκινήτου. Για την ακρίβεια αυτή είναι ακριβώς η δραστηριότητα εταιρειών μάρκετινγκ, οι οποίες είναι γνωστό ότι χρησιμοποιούν εξειδικευμένα συστήματα, εργαλεία, και λογισμικό για την επίτευξη σχεδιασμού καμπανιών μάρκετινγκ με χρήση συναισθημάτων κοινού.

Επίσης γνωστή από τη βιβλιογραφία (π.χ. Ireland R., Lu A., 2018, “Application of data analytics for product design: Sentiment analysis of online product reviews”, CIRP Journal of Manufacturing Science and Technology Vol. 23 (November Issue), pp. 128-144) είναι η χρήση των ίδιων εξαχθέντων συναισθημάτων σε εξωτερικό σύστημα σχεδιασμού του ίδιου π.χ. αυτοκινήτου με το πιο πάνω παράδειγμα, ώστε η νέα σχεδίαση να περιλαμβάνει διαφορετική αισθητική η οποία αντιστοιχεί σε θετικότερα συναισθήματα, κλπ. Αυτός ακριβώς είναι ο τρόπος που εδώ και πλέον του ενός αιώνα οι αυτοκινητοβιομηχανίες σχεδιάζουν οχήματα, δηλαδή να προσαρμόζουν την σχεδίαση των οχημάτων τους βασισμένες στα συναισθήματα των πιθανών αγοραστών τους ώστε να αυξήσουν τις πωλήσεις των οχημάτων τους. Είναι γνωστό ότι όλες αυτές οι λειτουργίες γίνονται με εξειδικευμένα υπολογιστικά συστήματα.

Τα πιο πάνω παραδείγματα από τη βιβλιογραφία, περιγράφουν ταυτόχρονα και παραδείγματα χρήσης της παρούσας εφεύρεσης - συστήματος. Δεν περιορίζουν την εφεύρεση απλά παρατίθενται για την πληρέστερη κατανόησή της.

Εναλλακτικά, αν οι μονάδες υλοποιούνταν σε λογισμικό, οι λειτουργίες θα μπορούσαν να αποθηκευτούν ή να μεταδοθούν ως μία ή περισσότερες οδηγίες ή κώδικας σε ένα αναγνώσιμο μέσο από υπολογιστή. Τα αναγνώσιμα από υπολογιστή μέσα περιλαμβάνουν τόσο μέσα αποθήκευσης υπολογιστή όσο και μέσα επικοινωνίας, συμπεριλαμβανομένων οποιουδήποτε μέσου που διευκολύνει τη μεταφορά ενός προγράμματος υπολογιστή από το ένα μέρος στο άλλο. Ένα μέσο αποθήκευσης μπορεί να είναι οποιοδήποτε διαθέσιμο μέσο στο οποίο μπορεί να προσπελαστεί ένας υπολογιστής. Ως παράδειγμα, και όχι περιοριστικά, αυτά τα αναγνώσιμα από υπολογιστή μέσα μπορούν να περιλαμβάνουν RAM, ROM, EEPROM, CD-ROM ή άλλο χώρο αποθήκευσης οπτικού δίσκου, αποθήκευση μαγνητικού δίσκου ή άλλες μαγνητικές συσκευές αποθήκευσης ή οποιοδήποτε άλλο μέσο που μπορεί να χρησιμοποιηθεί για τη μεταφορά ή αποθήκευση του επιθυμητού κώδικα προγράμματος με τη μορφή οδηγιών ή δομών δεδομένων και στον οποίο μπορείτε να έχετε πρόσβαση από υπολογιστή ή οποιαδήποτε άλλη συσκευή ή συσκευή που λειτουργεί ως υπολογιστής. Επίσης, οποιαδήποτε σύνδεση ονομάζεται σωστά μέσο αναγνώσιμο από υπολογιστή. Για παράδειγμα, εάν το λογισμικό μεταδίδεται από ιστότοπο, διακομιστή ή άλλη απομακρυσμένη πηγή χρησιμοποιώντας ομοαξονικό καλώδιο, καλώδιο οπτικών ινών, συνεστραμμένο ζεύγος, ψηφιακή γραμμή συνδρομητών (DSL) ή ασύρματες τεχνολογίες όπως υπέρυθρες, ραδιόφωνο και μικροκύματα, τότε το ομοαξονικό καλώδιο, το καλώδιο οπτικών ινών, το συνεστραμμένο ζεύγος, το DSL ή οι ασύρματες τεχνολογίες όπως οι υπέρυθρες, το ραδιόφωνο και ο φούρνος μικροκυμάτων περιλαμβάνονται στον ορισμό του μέσου. Ο δίσκος και ο δίσκος, όπως χρησιμοποιείται εδώ, περιλαμβάνει συμπαγή δίσκο (CD), δίσκο λέιζερ, οπτικό δίσκο, ψηφιακό ευέλικτο δίσκο (DVD), δισκέτα και δίσκο blu-ray όπου οι δίσκοι συνήθως αναπαράγουν δεδομένα μαγνητικά, ενώ οι δίσκοι αναπαράγουν δεδομένα οπτικά με λέιζερ. Οι συνδυασμοί των παραπάνω θα πρέπει επίσης να περιλαμβάνονται στο πεδίο των αναγνώσιμων μέσων από υπολογιστή.

Ένα παράδειγμα μέσου αποθήκευσης συνδέεται με τον επεξεργαστή έτσι ώστε ο επεξεργαστής να μπορεί να διαβάζει πληροφορίες από και να γράφει πληροφορίες στο μέσο αποθήκευσης. Εναλλακτικά, το μέσο αποθήκευσης μπορεί να είναι ενσωματωμένο στον επεξεργαστή. Ο επεξεργαστής και το μέσο αποθήκευσης ενδέχεται να βρίσκονται σε ένα ASIC. To ASIC μπορεί να βρίσκεται σε τερματικό χρήστη. Εναλλακτικά, ο επεξεργαστής και το μέσο αποθήκευσης μπορεί να βρίσκονται ως διακριτά στοιχεία σε ένα τερματικό χρήστη.

Η προηγούμενη περιγραφή των αποκαλυπτόμενων παραδειγματικών εφαρμογών παρέχεται για να επιτρέψει σε οποιοδήποτε άτομο έμπειρο στην τέχνη να κατασκευάσει ή να χρησιμοποιήσει την παρούσα εφεύρεση. Διάφορες τροποποιήσεις σε αυτά τα παραδείγματα υλοποίησης θα είναι εύκολα προφανείς στους έμπειρους της τέχνης και οι γενικές αρχές που ορίζονται εδώ μπορούν να εφαρμοστούν σε άλλες υλοποιήσεις χωρίς να απομακρυνόμαστε από το πνεύμα ή το πλαίσιο της εφεύρεσης. Έτσι, η παρούσα εφεύρεση δεν προορίζεται να περιοριστεί στις υλοποιήσεις που φαίνονται εδώ, αλλά πρέπει να της αποδοθεί το ευρύτερο πεδίο σύμφωνο με τις αρχές και τα νέα χαρακτηριστικά που αποκαλύπτονται εδώ.

Claims

ΑΞΙΩΣΕΙΣ

1. Σύστημα (100) για βελτίωση ακρίβειας και ταχύτητας συστήματος εξαγωγής συναισθήματος από περιεχόμενο ιστού για χρήση σε καμπάνιες μάρκετινγκ και σχεδίασμά νέων προϊόντων, όπου το σύστημα περιλαμβάνει:

έναν αγωγό επεξεργασίας δεδομένων (130) ο οποίος είναι διαμορφωμένος για επεξεργασία ενός συνόλου σχολιασμένων στοιχείων δεδομένων;

μια μονάδα βελτιστοποίησης υπερπαραμέτρων Bayes (140) συνδεδεμένη με τον αγωγό επεξεργασίας δεδομένων (130) και διαμορφωμένη για εύρεση ενός καθολικού ελάχιστου για μια πλειάδα υπερπαραμέτρων μιας συνάρτησης κόστους;

ένα νευρωνικό δίκτυο (ΝΝ) συνδεδεμένο στη μονάδα βελτιστοποίησης υπερπαραμέτρων Bayes (140) και στον αγωγό επεξεργασίας δεδομένων (130) και διαμορφωμένο για βελτίωση πληροφοριών στοιχείων δεδομένων στο σύνολο στοιχείων σχολιασμένων δεδομένων για εξαγωγή συναισθήματος, χρησιμοποιώντας μια έξοδο της επεξεργασίας δεδομένων αγωγού (130) και της μονάδας βελτιστοποίησης υπερπαραμέτρων Bayes (140);

το οποίο χαρακτηρίζεται από το ότι:

ο αγωγός επεξεργασίας δεδομένων (130) περιλαμβάνει (α) μια μονάδα αποδιπλότυπου (133) διαμορφωμένη για την αφαίρεση διπλότυπων στοιχείων από το σύνολο σχολιασμένων στοιχείων δεδομένων, μέσω της διαγραφής δημοσιεύσεων ίδιου περιεχομένου σε περισσότερες από μία πηγές, για παραγωγή ενός συνόλου μη-διπλότυπων στοιχείων δεδομένων, (β) μια επεξηγηματική ενότητα ανάλυσης δεδομένων (136) διαμορφωμένη για στατιστική ανάλυση συνόλου μη-διπλότυπων στοιχείων δεδομένων και διαχωρισμό μη διπλότυπων στοιχείων στο σύνολο στοιχείων δεδομένων σε διαχωρισμένα στοιχεία σε ένα σύνολο δεδομένων εκπαίδευσης, ένα σύνολο δεδομένων επικύρωσης και ένα σύνολο δεδομένων δοκιμής και (γ) μια ενότητα επαύξησης δεδομένων (139) διαμορφωμένη για, εάν η στατιστική ανάλυση δείχνει ανισορροπία δεδομένων προς μια κατηγορία δεδομένων, να βρίσκει κορυφαία N-gram σε ένα σύνολο εκπαίδευσης και εάν N-gram μιας μειοψηφίας συνυπάρχουν σε μια πλειοψηφική τάξη, να λαμβάνει δεδομένα από την πλειοψηφική τάξη και να τα σχολιάζει ως μειοψηφία για δημιουργία δεδομένων επαυξημένης εκπαίδευσης; και το ΝΝ περιλαμβάνει (δ) ένα στρώμα ενσωμάτωσης λέξεων (151) διαμορφωμένο για λήψη ενός συνόλου ενσωματώσεων λέξεων, δεδομένων επικύρωσης, δεδομένων δοκιμής και επαυξημένης εκπαίδευσης από τον αγωγό επεξεργασίας δεδομένων (130) και για τη δημιουργία διανυσμάτων ενσωμάτωσης λέξεων που περιέχουν αριθμούς οι οποίοι υπολογίζεται από έναν τύπο ομοιότητας συνημίτονου που εφαρμόζεται σε αυτά, (ε) ένα στρώμα θορύβου Gaussian (152) συνδεδεμένο με το στρώμα ενσωματώσεων λέξης (151) και διαμορφωμένο για να προσθέτει θορύβο Gaussian (μ=0,σ=1) στα διανύσματα ενσωμάτωσης λέξεων και να παρέχει σε έξοδό του θορυβώδη στοιχεία δεδομένων, (στ) ένα 1ο επίπεδο εγκατάλειψης (153) συνδεδεμένο με το επίπεδο θορύβου Gaussian (152) και διαμορφωμένο για τυχαία ρύθμιση θορυβωδών στοιχείων δεδομένων σε Ο με μια συχνότητα που ορίζεται από τη μονάδα βελτιστοποίησης υπερπαραμέτρων Bayes (140) κατά διάρκεια χρόνου εκπαίδευσης, (ζ) ένα 1ο επίπεδο BiLSTM (154) συνδεδεμένο με το 1ο επίπεδο εγκατάλειψης (153) και διαμορφωμένο για παροχή σε έξοδό του πρώτων συνδυασμένων χαρακτηριστικών τελευταίας κρυφής κατάστασης του 1ου επιπέδου BiLSTM (154) για όλα τα στοιχεία δεδομένων σε είσοδό του ως πραγματικούς αριθμούς, (η) ένα 2ο στρώμα εγκατάλειψης (155) συνδεδεμένο στο 1ο επίπεδο BiLSTM (154) και διαμορφωμένο για τυχαία ρύθμιση στοιχείων δεδομένων στο 0 με μια συχνότητα που έχει οριστεί από τη μονάδα βελτιστοποίησης υπερπαραμέτρων Bayes (140) κατά τη διάρκεια του χρόνου εκπαίδευσης, (θ) ένα 2ο επίπεδο BiLSTM (156) συνδεδεμένο με το 2ο dropout στρώμα (155) και διαμορφωμένο για να παρέχει σε έξοδό του δεύτερα συνδυασμένα χαρακτηριστικά τελευταίας κρυφής κατάστασης του 2ου επιπέδου BiLSTM (156) για όλα τα στοιχεία δεδομένων σε είσοδό του ως πραγματικούς αριθμούς, (ι) ένα 3ο επίπεδο εγκατάλειψης (157) συνδεδεμένο με το 2ο επίπεδο BiLSTM (156) και διαμορφωμένο για τυχαία ρύθμιση στοιχείων δεδομένων στο Ο με μια συχνότητα που έχει οριστεί από τη μονάδα βελτιστοποίησης υπερπαραμέτρων Bayes (140) κατά τη διάρκεια του χρόνου εκπαίδευσης, (κ) ένα συνελικτικό στρώμα (158) συνδεδεμένο με το 3ο επίπεδο εγκατάλειψης (157) και διαμορφωμένο για συνέλιξη μίας εξόδου του 3ου στρώματος εγκατάλειψης (157) με ένα φίλτρο και ένα 1D συνελικτικό παράθυρο με kernel_size για εύρεση αριθμητικών μοτίβων σε γλωσσικές ομάδες ανά kernel_size, (λ) ένα μέγιστο επίπεδο συγκέντρωσης (159) συνδεδεμένο με το συνελικτικό επίπεδο (158) και διαμορφωμένο για μείωση δειγματοληψίας μιας εξόδου του συνελικτικού στρώματος (158), (μ) ένα επίπεδο προσοχής (160) συνδεδεμένο με το μέγιστο επίπεδο συγκέντρωσης (159) και διαμορφωμένο για εύρεση πλαισίου για ανακάλυψη πότε είναι σχετική μια ακολουθία διακριτικών και για υπολογισμό αποτελέσματος μιας συνάρτησης ενεργοποίησης tanh σε βάρη προσοχής, όπου τα βάρη προσοχής υπολογίζονται ως γινόμενο dot συνάρτησης softmax βαθμολογιών με μια κρυφή κατάσταση πηγής, (ν) ένα 1ο κρυφό πυκνό στρώμα (161) συνδεδεμένο με το επίπεδο προσοχής (160) και διαμορφωμένο για εύρεση χαρακτηριστικών από μοτίβα δεδομένων και λέξεις που φέρουν συναίσθημα, (ξ ) ένα 2ο κρυφό πυκνό στρώμα (162) συνδεδεμένο με το 1ο κρυφό πυκνό στρώμα (161) και διαμορφωμένο για λήψη ενός διανύσματος emoji για εύρεση χαρακτηριστικών από μοτίβα δεδομένων συνδυάζοντας σε κόμβους μια πληθώρα σημασιών λέξεων και τιμών emoji στο διάνυσμα emoji, και (ο) ένα πυκνό στρώμα ταξινόμησης (163) συνδεδεμένο με το 2ο κρυφό πυκνό στρώμα (162) και διαμορφωμένο για υπολογισμό πιθανοτήτων ανά κατηγορία στοιχείων δεδομένων και για παροχή σε έξοδο του υψηλότερης πιθανότητας μιας άλλης συνάρτησης ενεργοποίησης ανά κατηγορία στοιχείου δεδομένων ως συναίσθημα ενός στοιχείου δεδομένων στην κατηγορία του στοιχείου δεδομένων.

2. Σύστημα (100) για βελτίωση ακρίβειας και ταχύτητας συστήματος εξαγωγής συναισθήματος από περιεχόμενο ιστού σύμφωνα με την αξίωση 1, όπου η μονάδα βελτιστοποίησης υπερπαραμέτρων Bayes (140) χρησιμοποιεί τουλάχιστον ένα από λέξεις εγκατάλειψης, RNN εγκατάλειψης, πυκνή εγκατάλειψη, προσοχή, l2_regularization, loss_l2 και ρυθμό εκμάθησης.

3. Σύστημα (100) για βελτίωση ακρίβειας και ταχύτητας συστήματος εξαγωγής συναισθήματος από περιεχόμενο ιστού σύμφωνα με οποιαδήποτε από τις προηγούμενες αξιώσεις, όπου το φίλτρο του συνελικτικού στρώματος (158) έχει μήκος 64 και το kernel_size είναι 5.

4. Σύστημα (100) για βελτίωση ακρίβειας και ταχύτητας συστήματος εξαγωγής συναισθήματος από περιεχόμενο ιστού σύμφωνα με οποιαδήποτε από τις προηγούμενες αξιώσεις, όπου η συνάρτηση ενεργοποίησης του πυκνού στρώματος ταξινόμησης (163) είναι sotfmax, και οι κατηγορίες των στοιχείων δεδομένων είναι αρνητικές, ουδέτερες και θετικές.

5. Σύστημα (100) για βελτίωση ακρίβειας και ταχύτητας συστήματος εξαγωγής συναισθήματος από περιεχόμενο ιστού σύμφωνα με οποιαδήποτε από τις προηγούμενες αξιώσεις, όπου το 1ο κρυφό πυκνό στρώμα (161) έχει 1024 νευρώνες.

6. Σύστημα (100) για βελτίωση ακρίβειας και ταχύτητας συστήματος εξαγωγής συναισθήματος από περιεχόμενο ιστού σύμφωνα με οποιαδήποτε από τις προηγούμενες αξιώσεις, όπου το 2ο κρυφό πυκνό στρώμα (162) έχει 128 νευρώνες.

7. Σύστημα (100) για βελτίωση ακρίβειας και ταχύτητας συστήματος εξαγωγής συναισθήματος από περιεχόμενο ιστού σύμφωνα με οποιαδήποτε από τις προηγούμενες αξιώσεις, όπου τα μη διπλότυπα στοιχεία δεδομένων διαχωρίζονται κατά 80%, 10%, 10% σε σετ εκπαίδευσης, σετ επικύρωσης και σετ δοκιμής, αντίστοιχα.

8. Μέθοδος (200) για βελτίωση ακρίβειας και ταχύτητας μεθόδου εξαγωγής συναισθήματος από περιεχόμενο ιστού για χρήση σε καμπάνιες μάρκετινγκ και σχεδίασμά νέων προϊόντων, όπου η μέθοδος περιλαμβάνει τα ακόλουθα βήματα:

λήψη σχολιασμένων στοιχείων δεδομένων (210) από βάση δεδομένων (110) η οποία αποθηκεύει δεδομένα ανιχνευμένα στον ιστό; και

επεξεργασία των σχολιασμένων στοιχείων δεδομένων (210) με ένα σύστημα (100) σύμφωνα με οποιαδήποτε από τις αξιώσεις 1 έως 7;

η οποία χαρακτηρίζεται από το ότι η μέθοδος (200) περιλαμβάνει επίσης τα ακόλουθα βήματα:

επεξεργασία (212) των σχολιασμένων στοιχείων δεδομένων με μια μονάδα αποδιπλότυπου (133) για αφαίρεση διπλότυπων στοιχείων δεδομένων, μέσω της διαγραφής δημοσιεύσεων ίδιου περιεχομένου σε περισσότερες από μία πηγές, και για παραγωγή συνόλου μη-διπλότυπων στοιχείων δεδομένων;

στατιστική ανάλυση (214) του συνόλου μη-διπλότυπων στοιχείων δεδομένων για διαχωρισμό μη-διπλότυπων στοιχείων δεδομένων στο σύνολο μη-διπλότυπων στοιχείων δεδομένων σε διαχωρισμένα στοιχεία σε ένα σύνολο δεδομένων εκπαίδευσης, ένα σύνολο δεδομένων επικύρωσης και ένα σύνολο δεδομένων δοκιμής, και εάν η στατιστική ανάλυση δείξει ανισορροπία δεδομένων προς μια κατηγορία δεδομένων, εύρεση κορυφαίων N-grams σε ένα σετ εκπαίδευσης και εάν τα N-grams μιας μειοψηφίας συνυπάρχουν σε μια πλειοψηφική τάξη, λήψη δεδομένων από την πλειοψηφική τάξη και σημείωσή τους ως μειοψηφική τάξη για δημιουργία επαυξημένων δεδομένων εκπαίδευσης;

λήψη ενός συνόλου ενσωματώσεων λέξεων, δεδομένων επικύρωσης, δεδομένων δοκιμής και επαυξημένης εκπαίδευσης και δημιουργία διανυσμάτων ενσωμάτωσης λέξεων τα οποία περιέχουν αριθμούς που υπολογίζονται με έναν τύπο ομοιότητας συνημιτόνου ο οποίος εφαρμόζεται σε αυτά;

προσθήκη θορύβου Gaussian (μ=0,σ=1) στα διανύσματα ενσωμάτωσης λέξης και παροχή σε έξοδο θορυβωδών στοιχείων δεδομένων;

τυχαία ρύθμιση θορυβωδών στοιχείων δεδομένων σε 0 με μια συχνότητα που ορίζεται από μια μονάδα βελτιστοποίησης υπερπαραμέτρων Bayes (140) κατά τη διάρκεια χρόνου εκπαίδευσης;

εξαγωγή πρώτων συνδυασμένων χαρακτηριστικών τελευταίας κρυφής κατάστασης 1ου επιπέδου BiLSTM (154) για όλα τα στοιχεία δεδομένων σε είσοδό του ως πραγματικούς αριθμούς;

τυχαία ρύθμιση των στοιχείων δεδομένων στο 0 με μια συχνότητα που ορίζεται από τη μονάδα βελτιστοποίησης υπερπαραμέτρων Bayes (140) κατά τη διάρκεια του χρόνου εκπαίδευσης;

εξαγωγή δεύτερων συνδυασμένων χαρακτηριστικών τελευταίας κρυφής κατάστασης ενός 2ου επιπέδου BiLSTM (156) για όλα τα στοιχεία δεδομένων σε είσοδό του ως πραγματικούς αριθμούς;

τυχαία ρύθμιση στοιχείων δεδομένων στο 0 με μια συχνότητα που ορίζεται από μια μονάδα βελτιστοποίησης υπερπαραμέτρων Bayes (140) κατά τη διάρκεια χρόνου εκπαίδευσης για παραγωγή ενός συνόλου επεξεργασμένων δεδομένων;

συνέλιξη του συνόλου επεξεργασμένων δεδομένων με ένα φίλτρο και με ένα 1D συνελικτικό παράθυρο με kernel_size για εύρεση αριθμητικών μοτίβων σε γλωσσικές ομάδες ανά kernel_size;

μείωση δειγματοληψίας των αριθμητικών μοτίβων;

εύρεση πλαισίου για ανακάλυψη πότε είναι σχετική μια ακολουθία διακριτικών και υπολογισμός του αποτελέσματος μιας συνάρτησης ενεργοποίησης tanh σε βάρη προσοχής, όπου τα βάρη προσοχής υπολογίζονται ως γινόμενο dot της συνάρτησης softmax βαθμολογιών με μια κρυφή κατάσταση πηγής;

εύρεση χαρακτηριστικών από μοτίβα δεδομένων και λέξεις που φέρουν συναίσθημα;

λήψη ενός διανύσματος emoji για εύρεση χαρακτηριστικών από μοτίβα δεδομένων συνδυάζοντας σε κόμβους μια πληθώρα σημασιών λέξεων και τιμών emoji στο διάνυσμα emoji; και

υπολογισμός πιθανοτήτων ανά κατηγορία στοιχείων δεδομένων και παροχή σε έξοδο υψηλότερης πιθανότητας άλλης συνάρτησης ενεργοποίησης ανά κατηγορία στοιχείων δεδομένων ως συναίσθημα ενός στοιχείου δεδομένων στην κατηγορία στοιχείων δεδομένων.

9. Μέθοδος (200) για βελτίωση ακρίβειας και ταχύτητας μεθόδου εξαγωγής συναισθήματος από περιεχόμενο ιστού σύμφωνα με την αξίωση 8, όπου τιμές υπερπαραμέτρων επιλέγονται από ένα σύνολο υπερπαραμέτρων Bayes το οποίο περιέχει λέξεις εγκατάλειψης, RNN εγκατάλειψης, πυκνή εγκατάλειψη, προσοχή εγκατάλειψης, 12_κανονικοποίηση, απώλεια_12 και ρυθμό μάθησης.

10. Μέθοδος (200) για βελτίωση ακρίβειας και ταχύτητας μεθόδου εξαγωγής συναισθήματος από περιεχόμενο ιστού σύμφωνα με οποιαδήποτε από τις αξιώσεις 8-9, όπου το φίλτρο έχει μήκος 64 και το kernel_size είναι 5.

11. Μέθοδος (200) για βελτίωση ακρίβειας και ταχύτητας μεθόδου εξαγωγής συναισθήματος από περιεχόμενο ιστού σύμφωνα με οποιαδήποτε από τις αξιώσεις 8-10, όπου η συνάρτηση ενεργοποίησης του πυκνού στρώματος ταξινόμησης (163) είναι sotfmax, και οι κατηγορίες των στοιχείων δεδομένων είναι αρνητικές, ουδέτερες και θετικές.

12. Μέθοδος (200) για βελτίωση ακρίβειας και ταχύτητας μεθόδου εξαγωγής συναισθήματος από περιεχόμενο ιστού σύμφωνα με οποιαδήποτε από τις αξιώσεις 8-11 , όπου το βήμα μείωσης δειγματοληψίας (252) περιλαμβάνει χρήση ενός παραθύρου συγκέντρωσης μήκους 5.

13. Μέθοδος (200) για βελτίωση ακρίβειας και ταχύτητας μεθόδου εξαγωγής συναισθήματος από περιεχόμενο ιστού σύμφωνα με οποιαδήποτε από τις αξιώσεις 8-12, όπου η ανισορροπία δεδομένων βασίζεται σε κριτήριο ανισορροπίας το οποίο είναι ένα όριο που χρησιμοποιείται για διαχωρισμό κατανομών στοιχείων δεδομένων σε σύνολα.

14. Μέθοδος (200) για βελτίωση ακρίβειας και ταχύτητας μεθόδου εξαγωγής συναισθήματος από περιεχόμενο ιστού σύμφωνα με οποιαδήποτε από τις αξιώσεις 8-13, όπου τα μη-διπλότυπα στοιχεία διαχωρίζονται κατά 80%, 10%, 10% σε σετ εκπαίδευσης, σετ επικύρωσης και σετ δοκιμής, αντίστοιχα..

15. Ένα μη μεταβατικό προϊόν προγράμματος υπολογιστή για βελτίωση ακρίβειας και ταχύτητας μεθόδου εξαγωγής συναισθήματος από περιεχόμενο ιστού, το οποίο περιλαμβάνει οδηγίες διαμορφωμένες ώστε να προκαλούν ένα σύστημα σύμφωνα με οποιαδήποτε από τις αξιώσεις 1-7 να εφαρμόσει μια μέθοδο σύμφωνα με οποιαδήποτε από τις αξιώσεις 8-14.