WO2021070681A1 - 関心度評価システムおよび関心度評価方法 - Google Patents

関心度評価システムおよび関心度評価方法 Download PDF

Info

Publication number
WO2021070681A1
WO2021070681A1 PCT/JP2020/036932 JP2020036932W WO2021070681A1 WO 2021070681 A1 WO2021070681 A1 WO 2021070681A1 JP 2020036932 W JP2020036932 W JP 2020036932W WO 2021070681 A1 WO2021070681 A1 WO 2021070681A1
Authority
WO
WIPO (PCT)
Prior art keywords
interest
users
feature amount
conversation
voice
Prior art date
Application number
PCT/JP2020/036932
Other languages
English (en)
French (fr)
Inventor
善成 石橋
Original Assignee
株式会社村田製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社村田製作所 filed Critical 株式会社村田製作所
Priority to JP2021516848A priority Critical patent/JP6915765B1/ja
Publication of WO2021070681A1 publication Critical patent/WO2021070681A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • the present invention relates to a degree of interest evaluation system and a degree of interest evaluation method.
  • Patent Document 1 uses an ontology to accurately understand conversations between humans, and uses the ontology and meta information to search for and present an appropriate Web page.
  • Patent Document 1 since the user presents the information of interest only based on the text obtained by voice recognition of the conversation, the user cannot provide the information of real interest.
  • an object of the present invention is to provide a degree of interest evaluation system and a degree of interest evaluation method that enable a user to provide information of real interest.
  • the interest evaluation system of the present invention includes a microphone device that acquires voice data of conversations of a plurality of users, a camera device that acquires image data during conversations of a plurality of users, and a plurality of users.
  • a conversation text acquisition unit that acquires conversation text converted from conversation voice data, a voice feature extraction unit that extracts voice features from conversation voice data of multiple users, and a conversation between multiple users.
  • For the keywords included in the conversation text based on the image feature amount extraction unit that extracts the image feature amount from the image data inside, and the audio feature amount and the image feature amount corresponding to the time when the keyword included in the conversation text is issued. It is equipped with an interest level evaluation unit that evaluates the degree of interest.
  • the image feature amount includes the facial emotion level indicating the magnitude of emotions by the faces of a plurality of users.
  • the image feature amount further includes the degree of coincidence of the lines of sight of two of the plurality of users.
  • the voice feature amount includes the voice emotion level indicating the magnitude of the voice emotions of a plurality of users.
  • the microphone device is a microphone array containing a plurality of microphones.
  • the interest level evaluation system includes a speaker identification unit that identifies the speaker of the voice data by estimating the sound source direction of the voice data of the conversation of a plurality of users based on the voice data from the microphone array.
  • the image feature amount extraction unit extracts the image feature amount for each of the plurality of users based on the identification result of the speaker.
  • the voice feature amount extraction unit extracts the voice feature amount for each of the plurality of users based on the identification result of the speaker.
  • the interest level evaluation unit evaluates the interest level for the keyword based on the audio feature amount and the image feature amount for each of the plurality of users.
  • the camera device is an omnidirectional imaging type camera device.
  • the speaker identification unit detects the movement of a plurality of users by using the image data from the omnidirectional camera device, and further uses the detection result to make the voice of the conversation of the previous multiple users. Estimate the sound source direction of the data.
  • the interest evaluation system includes a storage device that stores a plurality of keywords, and a search unit that searches the conversation text for any of the keywords stored in the storage device.
  • the interest level evaluation unit evaluates the degree of interest in the searched keyword.
  • the storage device stores a plurality of keywords related to the topic for each topic.
  • the search unit searches the conversation text for keywords of the selected topic stored in the storage device.
  • the interest evaluation system reads out, for each topic, a storage device that stores a screen that guides the conversation of the topic, a display device, and a screen that guides the conversation of the topic selected from the storage device, and displays the display device. It is further provided with a conversation guidance unit to be displayed on.
  • the storage device for each of the plurality of items related to the topic, the storage device for storing the score information for defining the scores of the plurality of keywords, the display device, and the score information are referred to, and the interest is among the plurality of items. It is further provided with a recommendation unit that identifies the item having the maximum score of the keyword having the maximum degree and displays information indicating the specified item on the display device.
  • the score information is represented by TF (Term Frequency) and IDF (Inverse Document Frequency).
  • the interest evaluation method of the present invention includes a step of acquiring voice data of conversations of a plurality of users, a step of acquiring image data during a conversation of a plurality of users, and a step of acquiring conversations of a plurality of users.
  • FIG. 1 is a diagram showing the configuration of the degree of interest evaluation system of the embodiment.
  • FIG. 2 is a diagram showing an example of a mode of use of the degree of interest evaluation system of the embodiment.
  • the degree of interest evaluation system includes a camera device 1, a microphone device 2, a feature amount extraction device 3, an evaluation device 4, a voice / text conversion device 5, and a display device 6.
  • the feature amount extraction device 3 includes an image feature amount extraction unit 11, a voice feature amount extraction unit 13, a speaker identification unit 12, a conversation text acquisition unit 14, and an operation input unit 15.
  • the evaluation device 4 includes a storage device 20, a search unit 19, an interest level evaluation unit 18, a recommendation unit 17, and a conversation guidance unit 16.
  • the storage device 20 includes a keyword dictionary storage unit 23, a score information storage unit 22, and a conversation guidance screen storage unit 21.
  • the camera device 1 acquires image data during conversations of a plurality of users.
  • the camera device 1 includes an omnidirectional imaging type camera such as a 360-degree panoramic camera or a hemispherical camera.
  • the microphone device 2 acquires voice data of conversations of a plurality of users.
  • the microphone device 2 includes a microphone array including a plurality of microphones.
  • the operation input unit 15 receives inputs from the system administrator and the user.
  • the speaker identification unit 12 identifies the speaker of the voice data by estimating the sound source direction of the voice data of the conversations of a plurality of users based on the voice data from the microphone array included in the microphone device 2.
  • the speaker identification unit 12 detects the movement of a plurality of users by using the image data from the omnidirectional camera included in the camera device 1, and further uses the result of this detection to perform voice data. You may identify the speaker of. As a result, even when the position of the user A and the position of the user B are exchanged, the speaker of the voice data can be identified.
  • the omnidirectional shooting type camera the movement of the speaker can be detected by one camera without using a plurality of cameras.
  • the image feature amount extraction unit 11 extracts the image feature amount from the image data of a plurality of users output from the camera device 1. More specifically, the image feature amount extraction unit 11 extracts the image feature amount for each of the plurality of users based on the identification result of the speaker.
  • the image feature amount includes the facial emotion level indicating the magnitude of emotions caused by the faces of a plurality of users.
  • the facial emotion level includes at least one of a joy component, an anger component, a sadness component, and a calm component.
  • the facial emotional degree can be set to be large.
  • the sadness component is large, the facial emotional degree can be set to be small, and when the calm component is large, the facial emotional degree can be set to be small.
  • the anger component is large, the facial emotion level can be set to be large.
  • the facial emotion level can be extracted using a known commercially available or open source tool or library.
  • the tool or library may be one using a trained deep neural network or one using a rule base.
  • FIG. 3 is a diagram showing an example of time-dependent changes in facial emotions of users A and B. As shown in FIG. 3, the facial emotion level for each user is extracted.
  • the image feature amount further includes the degree of coincidence VE of the line of sight of two of the plurality of users.
  • FIG. 4 shows the time change of the angle formed by the direction of the line of sight of the user A and the direction from the user A to the user B, the direction of the line of sight of the user B, and the direction from the user B to the user A. It is a figure which shows the time change of the angle formed by the eggplant.
  • the image feature amount extraction unit 11 evaluates the degree of coincidence VE of the line of sight based on the relationship between the direction of the line of sight of the user A, the direction of the line of sight of the user B, and ⁇ at a predetermined specific angle. For example, in the image feature amount extraction unit 11, the angle formed by the direction of the line of sight of the user A and the direction from the user A to the user B is within the range of ( ⁇ ) to ⁇ , and the user B When the angle between the direction of the line of sight and the direction from the user B to the user A is within the range of ( ⁇ ) to ⁇ , the degree of line-of-sight VE may be set to “+1”.
  • the image feature amount extraction unit 11 has an angle formed by the direction of the line of sight of the user A and the direction from the user A to the user B within the range of ( ⁇ ) to ⁇ , and the line of sight of the user B.
  • the line-of-sight coincidence VE may be set to “+0.5”.
  • the image feature amount extraction unit 11 has an angle formed by the direction of the line of sight of the user A and the direction from the user A to the user B outside the range of ( ⁇ ) to ⁇ , and the line of sight of the user B.
  • the line-of-sight coincidence VE may be set to “+0.5”.
  • the image feature amount extraction unit 11 has an angle formed by the direction of the line of sight of the user A and the direction from the user A to the user B outside the range of ( ⁇ ) to ⁇ , and the line of sight of the user B.
  • the line-of-sight coincidence VE may be set to “0”.
  • the voice feature amount extraction unit 13 extracts the voice feature amount from the voice data of a plurality of users output from the microphone device 2. More specifically, the voice feature amount extraction unit 13 extracts the voice feature amount for each of the plurality of users based on the identification result of the speaker.
  • the voice feature amount includes the voice emotion level indicating the magnitude of the emotion by the voice of a plurality of users.
  • the voice emotion level includes at least one of a joy component, an anger component, a sadness component, a calm component, and an energy component.
  • the energy component represents the tone and intonation of the voice. The higher the tone of the voice, the larger the energy component. The greater the intonation of the voice, the greater the energy component.
  • the voice emotional degree can be set to be large.
  • the voice emotional degree can be set to be small
  • the voice emotion level can be set to be low.
  • the anger component is large
  • the voice emotional degree can be set to be large.
  • the energy component is large, the voice emotional degree can be set to be small.
  • the voice emotion level can be extracted using a known commercially available or open source tool or library.
  • the tool or library may be one using a trained deep neural network or one using a rule base.
  • Empath® may be used as a tool or library.
  • FIG. 5 is a diagram showing an example of the time change of the voice emotional degree of the user A and the user B. As shown in FIG. 5, the sound emotion level is extracted for each user.
  • the conversation text acquisition unit 14 sends the voice data of conversations of a plurality of users output from the microphone device 2 to the voice / text conversion device 5.
  • the voice / text conversion device 5 converts the voice data of the conversation into the conversation text and sends the conversation text to the conversation text acquisition unit 14.
  • the conversation text acquisition unit 14 acquires the converted conversation text.
  • the voice / text conversion device 5 inputs voice data sent from the conversation text acquisition unit 14 into a neural network learned by deep learning or the like, and uses the text output from the neural network as conversation text in the conversation text acquisition unit 14. It may be sent to.
  • the keyword dictionary storage unit 23 stores keyword information in which a plurality of keywords related to the topic are defined for each topic.
  • keyword information defines multiple keywords (soba, barbecue, sushi, curry, pasta, margherita, grilled fish, tofu, miso soup, izakaya, etc.) in relation to the topic of "meal”.
  • Keyword information defines multiple keywords (lipstick of a specific manufacturer, eye shadow of a specific manufacturer, lotion of a specific manufacturer, etc.) in relation to the topic of "cosmetics”.
  • the conversation guidance screen storage unit 21 stores a conversation guidance screen that guides the conversation of the topic for each topic.
  • FIG. 6 is a diagram showing an example of a conversation guidance screen.
  • FIG. 6 shows a conversation guidance screen on the topic of "meal".
  • the conversation guidance unit 16 reads out the conversation guidance screen that guides the conversation of the topic selected by the system administrator or the like from the conversation guidance screen storage unit 21, and displays it on the display device 6. This can encourage multiple users to talk about the selected topic.
  • the search unit 19 searches the conversation text for any keyword of the selected topic stored in the keyword dictionary storage unit 23. More specifically, in the search unit 19, each of the plurality of words included in the conversation text sent from the conversation text acquisition unit 14 is a plurality of keywords of the selected topic stored in the keyword dictionary storage unit 23. Check if it matches any of them. The search unit 19 sends the matched word as a matching keyword to the interest evaluation unit 18.
  • the interest level evaluation unit 18 evaluates the degree of interest in the matching keyword based on the voice feature amount and the image feature amount corresponding to the time when the matching keyword included in the conversation text is issued. More specifically, the interest level evaluation unit 18 evaluates the interest level for the matching keyword based on the audio feature amount and the image feature amount for each of the plurality of users.
  • the interest evaluation unit 18 is based on the voice emotions of a plurality of users, the voice emotions of a plurality of users, and the degree of coincidence of the lines of sight of two of the users. , Calculate the degree of interest SC of conversations of multiple users.
  • the interest level evaluation unit 18 calculates the degree of interest KC for the matching keyword from the degree of interest SC of the conversation.
  • the interest level evaluation unit 18 obtains the voice emotion level SE based on the voice emotion level SEA of the user A and the voice emotion level SEB of the user B as follows.
  • f f (SEA, SEB) ... (1)
  • f may be expressed as follows using the coefficients f1 and f2.
  • the interest level evaluation unit 18 obtains the facial emotion level FE based on the facial emotion level FEA of the user A and the facial emotion level FE of the user B as follows.
  • FE g (FEA, FEB) ... (3)
  • g may be expressed as follows using the coefficients g1 and g2.
  • the interest level evaluation unit 18 calculates the conversation interest level SC based on the voice emotion level SE, the facial emotion level FE, and the line-of-sight matching degree VE as follows.
  • h (SE, FE, VE) ... (5)
  • h may be expressed as follows using the coefficients h1 and h2.
  • FIG. 7 is a diagram showing an example of a time change of the degree of interest SC in conversation. As shown in FIG. 7, the conversation interest level SC changes with time.
  • the interest level evaluation unit 18 uses the conversation interest level SC to obtain the interest level KC for the matching keyword output from the search unit 19.
  • the interest level evaluation unit 18 calculates the degree of interest KC for the matching keyword based on the degree of interest SC of the conversation in the period corresponding to the time when the matching keyword is issued. For example, the period corresponding to the time when the matching keyword W1 (curry) is issued is the period from the time when the matching keyword W1 (curry) is issued to the time when the next matching keyword W2 is issued. Can be done.
  • the matching keyword W2 may be the same as the matching keyword W1 (curry) or may be separate (sushi).
  • FIG. 8 is a diagram for explaining a procedure for obtaining an interest level KC for a matching keyword from a conversation interest level SC.
  • the keyword W1 (curry) is emitted, at time t2, the keyword W2 (sake) is emitted, at time t3, the keyword W1 (curry) is emitted, and at time t4, the keyword W1 (curry) is emitted.
  • the keyword W3 (sushi) is issued at time t5.
  • the time ⁇ T1 is between time t2 and time t1
  • the time ⁇ T2 is between time t3 and time t2
  • the time ⁇ T3 is between time t4 and time t3
  • the time ⁇ T4 is between time t5 and time t4.
  • the degree of interest KC for the keyword W1 (curry) is expressed by the following formula.
  • KC ⁇ SC (t1) * ⁇ T1 + SC (t3) * ⁇ T3 + SC (t4) * ⁇ T4 ⁇ / ( ⁇ T1 + ⁇ T3 + ⁇ T4) ⁇ ⁇ ⁇ (7)
  • the interest level evaluation unit 18 may display a matching keyword having a large interest level KC from the start of the conversation to the present and the interest level KC on the display device 6 in real time.
  • FIG. 9 is a diagram showing an example of the degree of interest KC of the matching keyword.
  • the degree of interest KC for the keyword (soba) is the highest
  • the degree of interest KC for the keyword (sushi) is the second highest
  • the degree of interest KC for the keyword (barbecue) is the third highest.
  • the score information storage unit 22 stores score information in which scores of a plurality of keywords are defined for each of a plurality of items related to a topic.
  • the score information of a plurality of keywords for the item i related to the selected topic is represented by the TF-IDF of the plurality of keywords related to the selected topic contained in the document Di related to the item i.
  • TF-IDF is expressed as follows. For example, when the topic is "meal", the item can be a place to serve meals, and document D can be web content for promotion of the place to serve meals.
  • TF-IDF TF x IDF ... (8)
  • TF (Term Frequency) is a value obtained by dividing the number of occurrences nx of the keyword X in the document D by the number of occurrences Nk of all the keywords related to the selected topic in the document D.
  • IDF Inverse Document Frequency
  • FIG. 10 is a diagram showing score information of a plurality of keywords for each of a plurality of items related to the topic “meal”.
  • the recommendation unit 17 refers to the score information that defines the scores of a plurality of keywords for each of the plurality of items related to the selected topic, and among all the items related to the selected topic, the degree of interest KC. Identify the item with the highest score (TF-IDF) for keywords with a high score.
  • the recommendation unit 17 displays information representing the specified item on the display device 6 as recommended information.
  • FIG. 11 is a diagram showing an example of recommended information by the recommendation unit 17.
  • the item with the highest score of the keyword "soba” with the highest degree of interest KC is "A soba shop”.
  • the recommendation unit 17 specifies "A soba shop” for the keyword “soba” and displays information representing "A soba shop” on the display device 6.
  • the item with the highest score of the keyword “sushi” with the second highest degree of interest KC is "B sushi restaurant”.
  • the recommendation unit 17 identifies "B sushi restaurant” with respect to the keyword “sushi” and displays information representing "B sushi restaurant” on the display device 6.
  • the item with the highest score of the keyword “barbecue” with the third highest degree of interest KC is "C yakiniku restaurant”.
  • the recommendation unit 17 specifies "C yakiniku restaurant” for the keyword “barbecue” and displays information representing "C yakiniku restaurant” on the display device 6.
  • FIG. 12 is a flowchart showing the procedure for evaluating the degree of interest by the degree of interest evaluation system of the embodiment.
  • step S101 the system administrator or the user selects a topic through the operation input unit 15.
  • step S102 the conversation guidance unit 16 reads out the conversation guidance screen that guides the conversation of the topic selected from the conversation guidance screen storage unit 21, and displays it on the display device 6.
  • step S103 the microphone device 2 acquires voice data of conversations of a plurality of users.
  • step S104 the camera device 1 acquires image data during conversation of a plurality of users.
  • step S105 the conversation text acquisition unit 14 sends the voice data of conversations of a plurality of users output from the microphone device 2 to the voice / text conversion device 5.
  • the voice / text conversion device 5 converts the voice data of the conversation into the conversation text and sends the conversation text to the conversation text acquisition unit 14.
  • the conversation text acquisition unit 14 acquires the converted conversation text.
  • step S106 the speaker identification unit 12 talks about voice data based on the voice data from the microphone array included in the microphone device 2 and the image data from the omnidirectional camera included in the camera device 1. Identify the person.
  • step S107 the voice feature amount extraction unit 13 has voice features for each of the plurality of users from the voice data of the conversations of the plurality of users output from the microphone device 2 based on the identification result of the speaker. Extract the amount.
  • step S108 the image feature amount extraction unit 11 extracts images of each of the plurality of users from the image data during conversation of the plurality of users output from the camera device 1 based on the identification result of the speaker. Extract features.
  • step S109 the interest level evaluation unit 18 determines the voice emotional level of the plurality of users, the voice emotional level of the plurality of users, and the degree of coincidence of the line of sight of two of the plurality of users. Based on this, the interest level SC of the conversation of a plurality of users is calculated.
  • step S110 the search unit 19 sets each of the plurality of words included in the conversation text sent from the conversation text acquisition unit 14 to one of the plurality of keywords of the selected topic stored in the keyword dictionary storage unit 23. Check if they match.
  • the search unit 19 sends the matched word as a matching keyword to the interest evaluation unit 18.
  • the interest level evaluation unit 18 calculates the degree of interest KC for the matching keyword from the degree of interest SC of the conversation.
  • step S111 the interest level evaluation unit 18 displays on the display device 6 in real time a matching keyword having a large interest level KC from the start of the conversation to the present and the interest level KC.
  • the recommendation unit 17 refers to the score information that defines the scores of the plurality of keywords for each of the plurality of items related to the selected topic, and among all the items related to the selected topic. , Identify the item with the highest score (TF-IDF) of the keyword with high interest level KC.
  • step S113 the recommendation unit 17 displays information representing the specified item on the display device 6 as recommended information.
  • the degree of interest in the keyword included in the conversation text is evaluated based on the voice feature amount and the image feature amount corresponding to the time when the keyword included in the conversation text is emitted. Therefore, it is possible to provide information that the user is really interested in.
  • the interest level evaluation unit obtains the conversation interest level SC and then uses the conversation interest level SC to obtain the interest level KC for the matching keyword, but the present invention is not limited to this.
  • the interest level evaluation unit obtains the interest level of each period based on the voice emotion level SE, the facial emotion level FE, and the line-of-sight match degree VE in each period corresponding to the matching keyword, and the interest level of the plurality of periods. May be weighted averaged to obtain the degree of interest in matching keywords.
  • the interest level evaluation unit weights and adds the facial emotion levels of each of the plurality of users to obtain the facial emotion levels of the plurality of users.
  • the interest evaluation unit sets the facial emotions of the multiple users to a high value when all of the facial emotions of the multiple users exceed the threshold, and each of the multiple users When only a part of the facial emotions exceeds the threshold, the facial emotions of multiple users are set to an intermediate value, and all of the facial emotions of each of the multiple users are thresholds. In the following cases, the facial emotions of a plurality of users may be set to a low value. The same applies to the degree of voice emotion.
  • Topic estimation the system administrator or the user selects a topic, and the search unit determines whether the conversation text contains the keywords contained in the selected topic stored in the keyword dictionary. I investigated, but it is not limited to this. Instead of the system administrator or user selecting a topic, the feature extractor may estimate the topic of the conversation based on the words contained in the conversation text.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

会話テキスト取得部(14)は、複数人の利用者の会話の音声データが変換された会話テキストを取得する。音声特徴量抽出部(13)は、複数人の利用者の会話の音声データから音声特徴量を抽出する。画像特徴量抽出部(11)は、複数人の利用者の会話中の画像データから画像特徴量を抽出する。関心度評価部(18)は、会話テキストに含まれるキーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、会話テキストに含まれるキーワードに対する関心度を評価する。

Description

関心度評価システムおよび関心度評価方法
 本発明は、関心度評価システムおよび関心度評価方法に関する。
 従来から、利用者が関心のある情報を提供するシステムが知られている。たとえば、特許文献1のシステムは、オントロジを利用して人間同士の会話を正確に理解し、オントロジとメタ情報とを利用して適切なWebページを検索して提示する。
特開2004-341672号公報
 特許文献1では、会話を音声認識することによって得られるテキストだけに基づいて、利用者が関心のある情報を提示するので、利用者が真に関心のある情報を提供することができない。
 それゆえに、本発明の目的は、利用者が真に関心のある情報を提供することを可能にする関心度評価システムおよび関心度評価方法を提供することである。
 本発明の関心度評価システムは、複数人の利用者の会話の音声データを取得するマイク装置と、複数人の利用者の会話中の画像データを取得するカメラ装置と、複数人の利用者の会話の音声データが変換された会話テキストを取得する会話テキスト取得部と、複数人の利用者の会話の音声データから音声特徴量を抽出する音声特徴量抽出部と、複数人の利用者の会話中の画像データから画像特徴量を抽出する画像特徴量抽出部と、会話テキストに含まれるキーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、会話テキストに含まれるキーワードに対する関心度を評価する関心度評価部とを備える。
 好ましくは、画像特徴量は、複数人の利用者の顔による感情の大きさを表わす顔感情度を含む。
 好ましくは、画像特徴量は、さらに、複数人の利用者のうちの二人の視線の一致度を含む。
 好ましくは、音声特徴量は、複数人の利用者の音声による感情の大きさを表わす音声感情度を含む。
 好ましくは、マイク装置は、複数のマイクを含むマイクロフォンアレイである。関心度評価システムは、マイクロフォンアレイからの音声データに基づき、複数人の利用者の会話の音声データの音源方向を推定することによって、音声データの話者を識別する話者識別部を備える。画像特徴量抽出部は、話者の識別結果に基づいて、複数人の利用者の各々についての画像特徴量を抽出する。音声特徴量抽出部は、話者の識別結果に基づいて、複数人の利用者の各々についての音声特徴量を抽出する。関心度評価部は、複数人の利用者の各々についての音声特徴量および画像特徴量に基づいて、キーワードに対する関心度を評価する。
 好ましくは、カメラ装置は、全方向撮像型のカメラ装置である。話者識別部は、全方向撮影型のカメラ装置からの画像データを用いて、複数人の利用者の移動を検出し、検出の結果をさらに用いて、前複数人の利用者の会話の音声データの音源方向を推定する。
 好ましくは、関心度評価システムは、複数のキーワードを記憶する記憶装置と、会話テキストから記憶装置に記憶されているいずれかのキーワードを検索する検索部とを備える。関心度評価部は、検索されたキーワードに対する関心度を評価する。
 好ましくは、記憶装置は、トピックごとに、トピックに関連する複数のキーワードを記憶する。検索部は、会話テキストから記憶装置に記憶されている選択されたトピックのキーワードを検索する。
 好ましくは、関心度評価システムは、トピックごとに、トピックの会話を誘導する画面を記憶する記憶装置と、表示装置と、記憶装置から選択されたトピックの会話を誘導する画面を読み出して、表示装置に表示する会話誘導部とをさらに備える。
 好ましくは、トピックと関連する複数の項目の各々について、複数のキーワードのスコアを定めたスコア情報を記憶する記憶装置と、表示装置と、スコア情報を参照して、複数の項目の中で、関心度が最大のキーワードのスコアが最大となる項目を特定し、特定した項目を表わす情報を表示装置に表示する推奨部とをさらに備える。
 好ましくは、スコア情報は、TF(Term Frequency)と、IDF(Inverse Document Frequency)とによって表される。
 本発明の関心度評価方法は、複数人の利用者の会話の音声データを取得するステップと、複数人の利用者の会話中の画像データを取得するステップと、複数人の利用者の会話の音声データが変換された会話テキストを取得するステップと、複数人の利用者の会話の音声データから音声特徴量を抽出するステップと、複数人の利用者の会話中の画像データから画像特徴量を抽出するステップと、会話テキストに含まれるキーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、会話テキストに含まれるキーワードに対する関心度を評価するステップとを備える。
 本発明によれば、利用者が真に関心のある情報を提供することができる。
実施の形態の関心度評価システムの構成を表わす図である。 実施の形態の関心度評価システムの利用の形態の例を表わす図である。 利用者Aおよび利用者Bの顔感情度の時間変化の例を表わす図である。 利用者Aの視線の方向の時間変化と、利用者Bの視線の方向の時間変化とを表わす図である。 利用者Aおよび利用者Bの音声感情度の時間変化の例を表わす図である。 会話誘導画面の例を表わす図である。 会話の関心度SCの時間変化の例を表わす図である。 会話の関心度SCから一致キ-ワードに対する関心度KCを求める手順を説明するための図である。 一致キーワードの関心度KCの例を表わす図である。 トピック「食事」に関連する複数の項目の各々についての複数のキーワードのスコア情報を表わす図である。 推奨部17による推奨情報の例を表わす図である。 実施の形態の関心度評価システムによる関心度の評価手順を表わすフローチャートである。
 以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。
 図1は、実施の形態の関心度評価システムの構成を表わす図である。図2は、実施の形態の関心度評価システムの利用の形態の例を表わす図である。
 関心度評価システムは、カメラ装置1と、マイク装置2と、特徴量抽出装置3と、評価装置4と、音声・テキスト変換装置5と、表示装置6とを備える。特徴量抽出装置3は、画像特徴量抽出部11と、音声特徴量抽出部13と、話者識別部12と、会話テキスト取得部14と、操作入力部15とを備える。
 評価装置4は、記憶装置20と、検索部19と、関心度評価部18と、推奨部17と、会話誘導部16と備える。記憶装置20は、キーワード辞書記憶部23と、スコア情報記憶部22と、会話誘導画面記憶部21とを備える。
 カメラ装置1は、複数人の利用者の会話中の画像データを取得する。カメラ装置1は、360度パノラマカメラまたは半円球カメラなどの全方向撮像型のカメラを備える。
 マイク装置2は、複数人の利用者の会話の音声データを取得する。マイク装置2は、複数のマイクを含むマイクロフォンアレイを備える。
 操作入力部15は、システム管理者および利用者からの入力を受け付ける。
 話者識別部12は、マイク装置2に含まれるマイクロフォンアレイからの音声データに基づき、複数人の利用者の会話の音声データの音源方向を推定することによって、音声データの話者を識別する。話者識別部12は、カメラ装置1に含まれる全方向撮影型のカメラからの画像データを用いることによって、複数人の利用者の移動を検出し、この検出の結果もさらに用いて、音声データの話者を識別してもよい。これによって、利用者Aの位置と利用者Bの位置が入れ替わった場合でも、音声データの話者を識別することができる。全方向撮影型のカメラを用いることによって、複数台のカメラを用いなくても、1台のカメラによって話者の移動を検出することができる。
 画像特徴量抽出部11は、カメラ装置1から出力される複数人の利用者の画像データから画像特徴量を抽出する。より、具体的には、画像特徴量抽出部11は、話者の識別結果に基づいて、複数人の利用者の各々についての画像特徴量を抽出する。
 画像特徴量は、複数人の利用者の顔による感情の大きさを表わす顔感情度を含む。顔感情度は、喜び成分、怒り成分、悲しみ成分、および平静成分のうちの少なくとも1つを含む。たとえば、喜び成分が大きいときに、顔感情度が大きくなるように定めることができる。悲しみ成分が大きいときに、顔感情度は小さくなるように定めることができる、平静成分が大きいときに、顔感情度は小さくなるように定めることができる。怒り成分が大きいときに、顔感情度が大きくなるように定めることができる。
 顔感情度は、公知の市販またはオープンソースのツールまたはライブラリなどを用いて抽出することができる。ツールまたはライブラリは、学習済みの深層ニューラルネットワークを用いたもの、あるいはルールベースを用いたものでもよい。
 図3は、利用者Aおよび利用者Bの顔感情度の時間変化の例を表わす図である。図3に示すように、利用者ごとの顔感情度が抽出される。
 画像特徴量は、さらに、複数人の利用者のうちの二人の視線の一致度VEを含む。
 図4は、利用者Aの視線の方向と利用者Aから利用者Bへの方向とのなす角度の時間変化と、利用者Bの視線の方向と利用者Bから利用者Aへの方向とのなす角度の時間変化とを表わす図である。
 画像特徴量抽出部11は、利用者Aの視線の方向、利用者Bの視線の方向、および予め定められた特定の角度のαとの関係に基づいて、視線の一致度VEを評価する。たとえば、画像特徴量抽出部11は、利用者Aの視線の方向と利用者Aから利用者Bへの方向とのなす角度が(-α)~αの範囲内であり、かつ利用者Bの視線の方向と利用者Bから利用者Aへの方向とのなす角度が(-α)~αの範囲内のときに、視線の一致度VEを「+1」に設定してもよい。画像特徴量抽出部11は、利用者Aの視線の方向と利用者Aから利用者Bへの方向とのなす角度が(-α)~αの範囲内であり、かつ利用者Bの視線の方向と利用者Bから利用者Aへの方向とのなす角度が(-α)~αの範囲外のときに、視線の一致度VEを「+0.5」に設定してもよい。画像特徴量抽出部11は、利用者Aの視線の方向と利用者Aから利用者Bへの方向とのなす角度が(-α)~αの範囲外であり、かつ利用者Bの視線の方向と利用者Bから利用者Aへの方向とのなす角度が(-α)~αの範囲内のときに、視線の一致度VEを「+0.5」に設定してもよい。画像特徴量抽出部11は、利用者Aの視線の方向と利用者Aから利用者Bへの方向とのなす角度が(-α)~αの範囲外であり、かつ利用者Bの視線の方向と利用者Bから利用者Aへの方向とのなす角度が(-α)~αの範囲外のときに、視線の一致度VEを「0」に設定してもよい。
 音声特徴量抽出部13は、マイク装置2から出力される複数人の利用者の音声データから音声特徴量を抽出する。より具体的には、音声特徴量抽出部13は、話者の識別結果に基づいて、複数人の利用者の各々についての音声特徴量を抽出する。
 音声特徴量は、複数人の利用者の音声による感情の大きさを表わす音声感情度を含む。音声感情度は、喜び成分、怒り成分、悲しみ成分、平静成分、およびエネルギー成分のうちの少なくとも1つを含む。エネルギー成分は、音声のトーンおよび抑揚を表わす。音声のトーンが高いほど、エネルギー成分が大きくなる。声の抑揚が大きいほど、エネルギー成分が大きくなる。たとえば、喜び成分が大きいときに、音声感情度が大きくなるように定めることができる。悲しみ成分が大きいときに、音声感情度は小さくなるように定めることができる、平静成分が大きいときに、音声感情度は小さくなるように定めることができる。怒り成分が大きいときに、音声感情度が大きくなるように定めることができる。エネルギー成分が大きいときに、音声感情度は小さくなるように定めることができる。
 音声感情度は、公知の市販またはオープンソースのツールまたはライブラリなどを用いて抽出することができる。ツールまたはライブラリは、学習済みの深層ニューラルネットワークを用いたもの、あるいはルールベースを用いたものでもよい。ツールまたはライブラリとして、たとえば、Empath(登録商標)を用いてもよい。
 図5は、利用者Aおよび利用者Bの音声感情度の時間変化の例を表わす図である。図5に示すように、利用者ごとに音感情度が抽出される。
 会話テキスト取得部14は、マイク装置2から出力される複数人の利用者の会話の音声データを音声・テキスト変換装置5へ送る。音声・テキスト変換装置5は、会話の音声データを会話テキストに変換して、会話テキストを会話テキスト取得部14へ送る。会話テキスト取得部14は、変換された会話テキストを取得する。
 音声・テキスト変換装置5は、たとえば、深層学習などによって学習されたニューラルネットワークに会話テキスト取得部14から送られる音声データを入力し、ニューラルネットワークから出力されるテキストを会話テキストとして会話テキスト取得部14に送るものとしてもよい。
 キーワード辞書記憶部23は、トピックごとに、トピックに関連する複数のキーワードを定めたキーワード情報を記憶する。
 たとえば、キーワード情報は、「食事」のトピックに関連して、複数のキーワード(そば、バーベキュー、寿司、カレー、パスタ、マルゲリータ、焼き魚、豆腐、味噌汁、居酒屋、・・・)を定める。
 キーワード情報は、「化粧品」のトピックに関連して、複数のキーワード(特定メーカの口紅、特定メーカのアイシャドウ、特定メーカの化粧水・・・)を定める。
 会話誘導画面記憶部21は、トピックごとに、トピックの会話を誘導する会話誘導画面を記憶する。
 図6は、会話誘導画面の例を表わす図である。図6には、「食事」のトピックについての会話誘導画面が示されている。
 会話誘導部16は、会話誘導画面記憶部21からシステム管理者などによって選択されたトピックの会話を誘導する会話誘導画面を読み出して、表示装置6に表示させる。これによって、複数人の利用者に選択されたトピックについての会話を促すことができる。
 検索部19は、キーワード辞書記憶部23に記憶されている選択されたトピックのいずれかのキーワードを会話テキストから検索する。より具体的には、検索部19は、会話テキスト取得部14から送られる会話テキストに含まれる複数の単語の各々が、キーワード辞書記憶部23に記憶されている選択されたトピックの複数のキーワードのいずれかと一致するか否かを調べる。検索部19は、一致した単語を一致キーワードとして、関心度評価部18へ送る。
 関心度評価部18は、会話テキストに含まれる一致キーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、一致キーワードに対する関心度を評価する。より具体的には、関心度評価部18は、複数人の利用者の各々についての音声特徴量および画像特徴量に基づいて、一致キーワードに対する関心度を評価する。
 以下では、より具体的に関心度の算出方法について説明する。
 まず、関心度評価部18は、複数人の利用者の音声感情度と、複数人の利用者の音声感情度と、複数人の利用者の中の二人の視線の一致度とに基づいて、複数人の利用者の会話の関心度SCを算出する。関心度評価部18は、会話の関心度SCから一致キ-ワードに対する関心度KCを算出する。
 以下において、利用者Aと利用者Bの会話における、一致キーワードに対する関心度の評価の具体例を説明する。
 関心度評価部18は、以下のように、利用者Aの音声感情度SEAと、利用者Bの音声感情度SEBとに基づいて、音声感情度SEを求める。
 SE=f(SEA,SEB)・・・(1)
 たとえば、fは、係数f1、f2を用いて、以下のように表されてもよい。
 f(SEA,SEB)=f1×SEA+f2×SEB・・・(2)
 関心度評価部18は、以下のように、利用者Aの顔感情度FEAと、利用者Bの顔感情度FEBとに基づいて、顔感情度FEを求める。
 FE=g(FEA,FEB)・・・(3)
 たとえば、gは、係数g1、g2を用いて、以下のように表されてもよい。
 g(FEA,FEB)=g1×FEA+f2×FEB・・・(4)
 関心度評価部18は、以下のように、音声感情度SEと、顔感情度FEと、視線の一致度VEとに基づいて、会話の関心度SCを算出する。
 SC=h(SE,FE,VE)・・・(5)
 たとえば、hは、係数h1、h2を用いて、以下のように表されてもよい。
 h(SE,FE,VE)=(h1×SE+h2×FE)×VE・・・(6)
 図7は、会話の関心度SCの時間変化の例を表わす図である。図7に示すように、会話の関心度SCは、時刻とともに変化する。
 関心度評価部18は、会話の関心度SCを用いて、検索部19から出力される一致キーワードに対する関心度KCを求める。
 関心度評価部18は、一致キーワードが発せられた時点に対応する期間における会話の関心度SCに基づいて、一致キーワードに対する関心度KCを算出する。たとえば、一致キーワードW1(カレー)が発せられた時点に対応する期間は、一致キーワードW1(カレー)が発せられた時点から、次の一致キーワードW2が発せされた時点までの間の期間とすることができる。一致キーワードW2は、一致キーワードW1(カレー)と同一であっても、別個(お寿司)であってもよい。
 図8は、会話の関心度SCから一致キ-ワードに対する関心度KCを求める手順を説明するための図である。
 時刻t1において、キーワードW1(カレー)が発せられ、時刻t2において、キーワードW2(日本酒)が発せされ、時刻t3において、キーワードW1(カレー)が発せられ、時刻t4において、キーワードW1(カレー)が発せされ、時刻t5において、キーワードW3(寿司)が発せられたとする。時刻t1、t2、t3、t4、t5における会話の関心度をSC(t1)、SC(t2)、SC(t3)、SC(t4)、SC(t5)とする。時刻t2と時刻t1との間が時間ΔT1、時刻t3と時刻t2との間が時間ΔT2、時刻t4と時刻t3との間が時間ΔT3、時刻t5と時刻t4との間が時間ΔT4とする。
 キーワードW1(カレー)に対する関心度KCは、以下の式で表される。
 KC={SC(t1)*ΔT1+SC(t3)*ΔT3+SC(t4)*ΔT4}/(ΔT1+ΔT3+ΔT4)・・・(7)
 関心度評価部18は、会話の開始から現在までにおける関心度KCが大きな一致キーワードおよびその関心度KCをリアルタイムで表示装置6に表示するものとしてもよい。
 図9は、一致キーワードの関心度KCの例を表わす図である。図9の例では、キーワード(そば)に対する関心度KCが最大で、キーワード(寿司)に対する関心度KCが2番目に大きく、キーワード(バーベキュー)に対する関心度KCが3番目に大きい。
 スコア情報記憶部22は、トピックと関連する複数の項目の各々について、複数のキーワードのスコアを定めたスコア情報を記憶する。
 たとえば、選択されたトピックと関連する項目iについての複数のキーワードのスコア情報は、項目iと関連する文書Diに含まれる選択されたトピックと関連する複数のキーワードのTF-IDFによって表されるものとすることができる。TF-IDFは、以下のように表される。たとえば、トピックが「食事」の場合に、項目は、食事を提供する場所とし、文書Dは、食事を提供する場所の宣伝用のWebコンテンツとすることができる。
 TF-IDF=TF×IDF・・・(8)
 TF(Term Frequency)は、文書D内におけるキーワードXの出現回数nxを文書D内における選択されたトピックと関連するすべてのキーワードの出現回数Nkで除算した値である。
 TF=nx/Nk・・・(9)
 IDF(Inverse Document Frequency)は、選択されたトピックと関連する全文書数Ndと、選択されたトピックと関連する全文書のうちのキーワードXが出現する文書の数dfとを用いて表される。
 IDF={log(Nd/df)}+1・・・(10)
 図10は、トピック「食事」に関連する複数の項目の各々についての複数のキーワードのスコア情報を表わす図である。
 たとえば、各項目について、複数のキーワードである「カレー」、「ハンバーガ」、「寿司」、「パスタ」、「回転」、「和風」、「持ち帰り」、「そば」、「バーベキュー」、「食べ放題」のスコアであるTF-IDFの値が定められている。
 推奨部17は、選択されたトピックと関連する複数の項目の各々についての複数のキーワードのスコアを定めたスコア情報を参照して、選択されたトピックと関連する全項目の中で、関心度KCが高いキーワードのスコア(TF-IDF)が最大となる項目を特定する。推奨部17は、特定した項目を表わす情報を推奨情報として表示装置6に表示する。
 図11は、推奨部17による推奨情報の例を表わす図である。
 トピック「食事」に関連する全項目の中で、関心度KCが最大のキーワード「そば」のスコアが最大の項目が「Aそば店」である。推奨部17は、キーワード「そば」に対して「Aそば店」を特定し、「Aそば店」を表わす情報を表示装置6に表示する。
 トピック「食事」に関連する全項目の中で、関心度KCが2番目に大きなキーワード「寿司」のスコアが最大の項目が「B寿司店」である。推奨部17は、キーワード「寿司」に対して「B寿司店」を特定し、「B寿司店」を表わす情報を表示装置6に表示する。
 トピック「食事」に関連する全項目の中で、関心度KCが3番目に大きなキーワード「バーベキュー」のスコアが最大の項目が「C焼肉店」である。推奨部17は、キーワード「バーベキュー」に対して「C焼肉店」を特定し、「C焼肉店」を表わす情報を表示装置6に表示する。
 図12は、実施の形態の関心度評価システムによる関心度の評価手順を表わすフローチャートである。
 ステップS101において、システム管理者または利用者が、操作入力部15を通じて、トピックを選択する。
 ステップS102において、会話誘導部16は、会話誘導画面記憶部21から選択されたトピックの会話を誘導する会話誘導画面を読み出して、表示装置6に表示させる。
 ステップS103において、マイク装置2は、複数人の利用者の会話の音声データを取得する。
 ステップS104において、カメラ装置1は、複数人の利用者の会話中の画像データを取得する。
 ステップS105において、会話テキスト取得部14は、マイク装置2から出力される複数人の利用者の会話の音声データを音声・テキスト変換装置5へ送る。音声・テキスト変換装置5は、会話の音声データを会話テキストに変換して、会話テキストを会話テキスト取得部14へ送る。会話テキスト取得部14は、変換された会話テキストを取得する。
 ステップS106において、話者識別部12は、マイク装置2に含まれるマイクロフォンアレイからの音声データと、カメラ装置1に含まれる全方向撮影型のカメラからの画像データとに基づいて、音声データの話者を識別する。
 ステップS107において、音声特徴量抽出部13は、話者の識別結果に基づいて、マイク装置2から出力される複数人の利用者の会話の音声データから複数人の利用者の各々についての音声特徴量を抽出する。
 ステップS108において、画像特徴量抽出部11は、話者の識別結果に基づいて、カメラ装置1から出力される複数人の利用者の会話中の画像データから複数人の利用者の各々についての画像特徴量を抽出する。
 ステップS109において、関心度評価部18は、複数人の利用者の音声感情度と、複数人の利用者の音声感情度と、複数人の利用者の中の二人の視線の一致度とに基づいて、複数人の利用者の会話の関心度SCを算出する。
 ステップS110において、検索部19は、会話テキスト取得部14から送られる会話テキストに含まれる複数の単語の各々が、キーワード辞書記憶部23に記憶されている選択されたトピックの複数のキーワードのいずれかと一致するか否かを調べる。検索部19は、一致した単語を一致キーワードとして、関心度評価部18へ送る。関心度評価部18は、会話の関心度SCから一致キ-ワードに対する関心度KCを算出する。
 ステップS111において、関心度評価部18は、会話の開始から現在までにおける関心度KCが大きな一致キーワードおよびその関心度KCをリアルタイムで表示装置6に表示する。
 ステップS112において、推奨部17は、選択されたトピックと関連する複数の項目の各々についての複数のキーワードのスコアを定めたスコア情報を参照して、選択されたトピックと関連する全項目の中で、関心度KCが高いキーワードのスコア(TF-IDF)が最大となる項目を特定する。
 ステップS113において、推奨部17は、特定した項目を表わす情報を推奨情報として表示装置6に表示する。
 以上のように、本実施の形態によれば、会話テキストに含まれるキーワードが発せられた時点に対応する音声特徴量および画像特徴量に基づいて、会話テキストに含まれるキーワードに対する関心度を評価するので、利用者が真に関心のある情報を提供することができる。
 (変形例)
 本発明は、上記の実施形態に限定されるものではなく、たとえば、以下のような変形例も含まれる。
 (1)キーワードに対する関心度KC
 上記の実施形態では、関心度評価部は、会話の関心度SCを求めてから、会話の関心度SCを用いて、一致キーワードに対する関心度KCを求めたが、これに限定するものではない。関心度評価部は、一致キーワードに対応する各期間における音声感情度SEと、顔感情度FEと、視線の一致度VEとに基づいて各期間の関心度を求めて、複数の期間の関心度を重み付き平均して、一致キーワードに対する関心度を求めるものとしてもよい。
 (2)顔感情度、音声感情度
 上記の実施形態では、関心度評価部は、複数人の利用者の各々の顔感情度を重み付け加算して、複数人の利用者の顔感情度を求めたが、これに限定するものではない。関心度評価部は、複数人の利用者の各々の顔感情度のすべてが閾値を超えたときに、複数人の利用者の顔感情度が高い値に設定し、複数人の利用者の各々の顔感情度のうちの一部だけが閾値を超えたときに、複数人の利用者の顔感情度を中間の値に設定し、複数人の利用者の各々の顔感情度のすべてが閾値以下のときに、複数人の利用者の顔感情度を低い値に設定するものとしてもよい。音声感情度についても同様である。
 (3)トピックの推定
 上記の実施形態では、システム管理者または利用者がトピックを選択し、検索部は、キーワード辞書に記憶されている選択されたトピックに含まれるキーワードが会話テキストに含まれるかどうかを調べたが、これに限定されるものではない。システム管理者または利用者がトピックを選択する代わりに、特徴抽出装置が、会話テキストに含まれる単語に基づいて、会話のトピックを推定するものとしてもよい。
 (4)視線の一致度
 上記の実施形態では、2人の利用者の視線の一致度を算出する方法について説明したが、3人以上の利用者が会話するときには、2人の利用者のすべての組み合わせについて視線の一致度を算出し、それらを重み付け加算することによって、トータルの視線の一致度を算出するようにしてもよい。
 今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は、上記した実施の形態の説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
 1 カメラ装置、2 マイク装置、3 特徴量抽出装置、4 評価装置、5 音声・テキスト変換装置、6 表示装置、11 画像特徴量抽出部、12 話者識別部、13 音声特徴量抽出部、14 会話テキスト取得部、15 操作入力部、16 会話誘導部、17 推奨部、18 関心度評価部、19 検索部、20 記憶装置、21 会話誘導画面記憶部、22 スコア情報記憶部、23 キーワード辞書記憶部。

Claims (12)

  1.  複数人の利用者の会話の音声データを取得するマイク装置と、
     前記複数人の利用者の会話中の画像データを取得するカメラ装置と、
     前記複数人の利用者の会話の前記音声データが変換された会話テキストを取得するテキスト取得部と、
     前記複数人の利用者の会話の前記音声データから音声特徴量を抽出する音声特徴量抽出部と、
     前記複数人の利用者の会話中の前記画像データから画像特徴量を抽出する画像特徴量抽出部と、
     前記会話テキストに含まれるキーワードが発せられた時点に対応する前記音声特徴量および前記画像特徴量に基づいて、前記キーワードに対する関心度を評価する関心度評価部とを備えた、関心度評価システム。
  2.  前記画像特徴量は、前記複数人の利用者の顔による感情の大きさを表わす顔感情度を含む、請求項1記載の関心度評価システム。
  3.  前記画像特徴量は、さらに、前記複数人の利用者のうちの二人の視線の一致度を含む、請求項1記載の関心度評価システム。
  4.  前記音声特徴量は、前記複数人の利用者の音声による感情の大きさを表わす音声感情度を含む、請求項1記載の関心度評価システム。
  5.  前記マイク装置は、複数のマイクを含むマイクロフォンアレイであり、
     前記マイクロフォンアレイからの音声データに基づき、複数人の利用者の会話の音声データの音源方向を推定することによって、前記音声データの話者を識別する話者識別部をさらに備え、
     前記画像特徴量抽出部は、前記話者の識別結果に基づいて、前記複数人の利用者の各々についての前記画像特徴量を抽出し、
     前記音声特徴量抽出部は、前記話者の識別結果に基づいて、前記複数人の利用者の各々についての前記音声特徴量を抽出し、
     前記関心度評価部は、前記複数人の利用者の各々についての前記音声特徴量および前記画像特徴量に基づいて、前記キーワードに対する関心度を評価する、請求項1~4のいずれか1項に記載の関心度評価システム。
  6.  前記カメラ装置は、全方向撮像型のカメラ装置であり、
     前記話者識別部は、前記全方向撮影型のカメラ装置からの画像データを用いて、前記複数人の利用者の移動を検出し、前記検出の結果をさらに用いて、前記複数人の利用者の会話の音声データの音源方向を推定する、請求項5に記載の関心度評価システム。
  7.  複数のキーワードを記憶する記憶装置と、
     前記会話テキストから前記記憶装置に記憶されているいずれかのキーワードを検索する検索部とをさらに備え、
     前記関心度評価部は、前記検索されたキーワードに対する関心度を評価する、請求項1記載の関心度評価システム。
  8.  前記記憶装置は、トピックごとに、前記トピックに関連する複数のキーワードを記憶し、
     前記検索部は、前記会話テキストから前記記憶装置に記憶されている選択されたトピックのキーワードを検索する、請求項7記載の関心度評価システム。
  9.  トピックごとに、前記トピックの会話を誘導する画面を記憶する記憶装置と、
     表示装置と、
     前記記憶装置から選択されたトピックの会話を誘導する画面を読み出して、前記表示装置に表示する会話誘導部とをさらに備えた、請求項1記載の関心度評価システム。
  10.  トピックと関連する複数の項目の各々について、複数のキーワードのスコアを定めたスコア情報を記憶する記憶装置と、
     表示装置と、
     前記スコア情報を参照して、前記複数の項目の中で、前記関心度が最大のキーワードのスコアが最大となる項目を特定し、前記特定した項目を表わす情報を前記表示装置に表示する推奨部とをさらに備えた、請求項1記載の関心度評価システム。
  11.  前記スコア情報は、TF(Term Frequency)と、IDF(Inverse Document Frequency)とによって表される、請求項10記載の関心度評価システム。
  12.  複数人の利用者の会話の音声データを取得するステップと、
     前記複数人の利用者の会話中の画像データを取得するステップと、
     前記複数人の利用者の会話の音声データが変換された会話テキストを取得するステップと、
     前記複数人の利用者の会話の音声データから音声特徴量を抽出するステップと、
     前記複数人の利用者の会話中の画像データから画像特徴量を抽出するステップと、
     前記会話テキストに含まれるキーワードが発せられた時点に対応する前記音声特徴量および前記画像特徴量に基づいて、前記会話テキストに含まれるキーワードに対する関心度を評価するステップとを備えた、関心度評価方法。
PCT/JP2020/036932 2019-10-10 2020-09-29 関心度評価システムおよび関心度評価方法 WO2021070681A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021516848A JP6915765B1 (ja) 2019-10-10 2020-09-29 関心度評価システムおよび関心度評価方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-186639 2019-10-10
JP2019186639 2019-10-10

Publications (1)

Publication Number Publication Date
WO2021070681A1 true WO2021070681A1 (ja) 2021-04-15

Family

ID=75437905

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/036932 WO2021070681A1 (ja) 2019-10-10 2020-09-29 関心度評価システムおよび関心度評価方法

Country Status (2)

Country Link
JP (1) JP6915765B1 (ja)
WO (1) WO2021070681A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114971817A (zh) * 2022-07-29 2022-08-30 中国电子科技集团公司第十研究所 基于用户需求画像的产品自适应服务方法、介质及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017130170A (ja) * 2016-01-22 2017-07-27 日本ユニシス株式会社 会話連動システム、会話連動装置、会話連動方法、および、会話連動プログラム
WO2018142686A1 (ja) * 2017-01-31 2018-08-09 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2019146405A1 (ja) * 2018-01-25 2019-08-01 株式会社 資生堂 表情解析技術を用いた商品に対するモニタの反応を評価するための情報処理装置、情報処理システム、プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017130170A (ja) * 2016-01-22 2017-07-27 日本ユニシス株式会社 会話連動システム、会話連動装置、会話連動方法、および、会話連動プログラム
WO2018142686A1 (ja) * 2017-01-31 2018-08-09 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2019146405A1 (ja) * 2018-01-25 2019-08-01 株式会社 資生堂 表情解析技術を用いた商品に対するモニタの反応を評価するための情報処理装置、情報処理システム、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114971817A (zh) * 2022-07-29 2022-08-30 中国电子科技集团公司第十研究所 基于用户需求画像的产品自适应服务方法、介质及装置
CN114971817B (zh) * 2022-07-29 2022-11-22 中国电子科技集团公司第十研究所 基于用户需求画像的产品自适应服务方法、介质及装置

Also Published As

Publication number Publication date
JP6915765B1 (ja) 2021-08-04
JPWO2021070681A1 (ja) 2021-10-28

Similar Documents

Publication Publication Date Title
Wan et al. Towards audio to scene image synthesis using generative adversarial network
JP4736511B2 (ja) 情報提供方法および情報提供装置
KR102386863B1 (ko) 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치
US11355099B2 (en) Word extraction device, related conference extraction system, and word extraction method
CN110990685B (zh) 基于声纹的语音搜索方法、设备、存储介质及装置
EP1709625A1 (en) Method and system for determining the topic of a conversation and obtaining and presenting related content
US20150310877A1 (en) Conversation analysis device and conversation analysis method
CN105960672A (zh) 用于稳健语音识别的变量组件深度神经网络
EP2717176A2 (en) Method for searching for information using the web and method for voice conversation using same
JP2009540414A (ja) メディア識別
KR101571240B1 (ko) 텍스트에 기반한 동영상 생성장치 및 그 생성방법
KR102070197B1 (ko) 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법
US8589159B2 (en) Keyword display system, keyword display method, and program
JP6927318B2 (ja) 情報処理装置、情報処理方法、及びプログラム
KR102100214B1 (ko) 음성 인식 기반의 세일즈 대화 분석 방법 및 장치
JP2010224715A (ja) 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体
JP5730741B2 (ja) 話題推薦装置及び方法及びプログラム
TW201140559A (en) Method and system for identifying emotional voices
US20210012064A1 (en) Recording medium recording complementary program, complementary method, and information processing device
CN109739354A (zh) 一种基于声音的多媒体交互方法及装置
WO2021070681A1 (ja) 関心度評価システムおよび関心度評価方法
Wong et al. A new multi-purpose audio-visual UNMC-VIER database with multiple variabilities
JPWO2020071216A1 (ja) 画像検索装置、画像検索方法及び画像検索用プログラム
JPWO2018061839A1 (ja) 送信装置、送信方法及び送信プログラム
KR20200031959A (ko) 사회 지능 평가 방법 및 이를 위한 장치

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2021516848

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20875525

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20875525

Country of ref document: EP

Kind code of ref document: A1