WO2019142447A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2019142447A1
WO2019142447A1 PCT/JP2018/040995 JP2018040995W WO2019142447A1 WO 2019142447 A1 WO2019142447 A1 WO 2019142447A1 JP 2018040995 W JP2018040995 W JP 2018040995W WO 2019142447 A1 WO2019142447 A1 WO 2019142447A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
input
intent
processing apparatus
information processing
Prior art date
Application number
PCT/JP2018/040995
Other languages
English (en)
French (fr)
Inventor
祐平 滝
広 岩瀬
真一 河野
邦仁 澤井
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP18901611.6A priority Critical patent/EP3742301A1/en
Priority to US16/961,273 priority patent/US20210064640A1/en
Publication of WO2019142447A1 publication Critical patent/WO2019142447A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Definitions

  • the present disclosure relates to an information processing apparatus and an information processing method.
  • NLU Natural Language Understanding
  • Patent Document 1 discloses a technique for enhancing the recognition accuracy of a corrected utterance and reducing the number of corrected utterances of the user when an incorrect input is performed by voice.
  • Patent Document 1 it is not sufficient to appropriately assist the input.
  • the agent device supports voice input
  • the user may not know what kind of speech can be used to realize a desired function.
  • unexpected processing may be performed when the user inputs an incorrect voice.
  • the present disclosure proposes a new and improved information processing apparatus and information processing method that can appropriately assist input to the information processing apparatus.
  • An information processing apparatus comprising:
  • the method includes acquiring text information in the process of being input, and extracting the input candidate based on attribute information extracted based on the text information. And a computer implemented information processing method.
  • FIG. 2 is a block diagram showing an example of a functional configuration of the information processing apparatus 100.
  • FIG. 8 is a diagram showing an image of a first processing example by the information processing apparatus 100.
  • 5 is a flowchart illustrating a first processing example of the information processing apparatus 100.
  • 5 is a flowchart illustrating a first processing example of the information processing apparatus 100.
  • FIG. 18 is a diagram showing an image of a second processing example by the information processing apparatus 100.
  • FIG. 18 is a diagram showing an image of a second processing example by the information processing apparatus 100.
  • FIG. 7 is a flowchart illustrating a second processing example of the information processing apparatus 100.
  • 7 is a flowchart illustrating a second processing example of the information processing apparatus 100.
  • FIG. 18 is a diagram showing an image of a third processing example by the information processing apparatus 100.
  • 15 is a flowchart illustrating a third processing example of the information processing apparatus 100.
  • 15 is a flowchart illustrating a third processing example of the information processing apparatus 100. It is a figure explaining an outline of a 2nd example concerning this indication.
  • FIG. 2 is a diagram illustrating an example of a hardware configuration of the information processing apparatus 100.
  • an agent device or the like capable of voice input can be mentioned.
  • the user can utter voice for voice input to the agent device, and the agent device can analyze voice information and recognize input content to realize a function corresponding to the input.
  • the user may not know an input method for realizing a desired function.
  • the agent device supports voice input
  • the user may not know what kind of speech can be used to realize a desired function.
  • unexpected processing may be performed when the user inputs an incorrect voice.
  • the user can recognize the correct input method by confirming the manual etc., but it is necessary to store the input method for each function, and the input method should be stored as the number of functions increases. Is difficult and the load on the user is high.
  • the information processing apparatus 100 can acquire text information in the process of being input, and output candidates for the input based on attribute information extracted based on the text information.
  • the information processing apparatus 100 can more appropriately assist the input. More specifically, the information processing apparatus 100 can reduce the time and effort (the amount of speech in the case of voice input) input by the user. Further, the information processing apparatus 100 can cause the user to recognize the installed function (which the user has not recognized) by outputting the input candidate.
  • the information processing apparatus 100 is an agent apparatus that receives voice input from a user U1. Then, the information processing apparatus 100 converts the speech information in the middle of the speech input by the user U1 into text information by analyzing the speech information, and analyzes the text information. Then, the information processing apparatus 100 extracts attribute information corresponding to the text information.
  • Attribute information includes an Entity corresponding to Intent indicating an optional function (or process).
  • Entity corresponding to Intent indicating an optional function (or process).
  • Intent is a concept indicating an arbitrary function (or process), and includes, for example, “alarm setting”, “transfer search”, “power off” and the like as shown in 2A of FIG. These functions may be executable by the information processing apparatus 100, or may be executable by an external apparatus that communicates with the information processing apparatus 100. Note that Intent shown in 2A is merely an example, and Intent is not limited to these.
  • Entity is arbitrary attribute information corresponding to the above-mentioned Intent, as shown in 2B of FIG. 2, for example, "time”, “name”, “department station”, “arrival station”, “via” Including “station” etc.
  • Intent may correspond to multiple entities.
  • Intent_01 “alarm setting” corresponds to Entity_01 “time” and Entity_02 “name”
  • Intent_02 “transfer search” corresponds to Entity_03 “departure station”
  • Entity_04 “arrival station” It corresponds to Entity_05 called “Via station”.
  • Entity may also correspond to multiple Intents.
  • Entity_01 “time” may correspond to Intent_02 “transfer search” as well as Intent_01 “alarm setting”. Note that Entity shown in 2B is merely an example, and Entity is not limited to these.
  • the information processing apparatus 100 When the information processing apparatus 100 extracts an Entity as attribute information corresponding to text information in the process of being input, the information processing apparatus 100 recognizes the Intent corresponding to the Entity as a function (or process) that the user intends to realize by input. Then, the information processing apparatus 100 outputs the input candidate.
  • the Intent has one or more example sentences ("Sentence” in the figure) which can call the function (or processing) of the Intent.
  • Intent_01 "set alarm” is “... Set an alarm”, “set an alarm !, “, " as an example sentence that can call the function (or processing).
  • ... to set the alarm.
  • the” alarm and ... set. “ has a” let me know if you become a .... ", and the like.
  • the contents of the example sentences possessed by Intent are not particularly limited.
  • the information processing apparatus 100 can select and output an appropriate example sentence from among the example sentences possessed by the Intent corresponding to the extracted Entity. For example, the information processing apparatus 100 can select an appropriate example sentence based on the content of text information in the middle of input. More specifically, when the user utters a voice halfway by uttering “13 o'clock”, the information processing apparatus 100 sets “... Alarm as an example sentence that matches the context of the utterance. And output. Note that the method of selecting an example sentence is not limited to this.
  • the information processing apparatus 100 may edit and output the example sentence after selecting the example sentence of the Intent so as to output a more suitable input candidate. For example, if the Intent has an example sentence "set alarm to " and the user utters "13 o'clock", the particle "ni" overlaps, so the information processing apparatus 100 You may output "... Set an alarm” in which the particle is deleted from the example sentence. As a result, the text information as a candidate for input becomes more appropriate, which makes it difficult for the user to feel uncomfortable.
  • the user selects a desired input from among the input candidates provided by the information processing apparatus 100, and the information processing apparatus 100 executes a function (or process) based on the selected input.
  • the information processing apparatus 100 can appropriately assist the input by outputting the input candidate based on the text information in the middle of the input and causing the user to select a desired input from the candidates. . More specifically, the information processing apparatus 100 can reduce the time and effort (the amount of speech in the case of voice input) input by the user.
  • an input related to a function that the user does not recognize that it is feasible may be included.
  • the user intends to set an alarm and utters "13 o'clock", and “not only set alarm” as a candidate for input but also "reserve for recording” and "the user did not recognize”
  • the user can recognize the existence of these functions and can use these functions thereafter.
  • the input received by the information processing apparatus 100 is not limited to voice input, and may be any input.
  • the information processing apparatus 100 may be a text input performed by the user using any input device including a keyboard or the like, or may be a gesture input performed by an operation or the like.
  • the subject of the input received by the information processing apparatus 100 is not limited to the user, and may be any subject.
  • the subject of the input received by the information processing apparatus 100 may be another agent apparatus or an external apparatus including a robot.
  • the embodiment is not limited to this.
  • a server that can communicate with the information processing apparatus 100, and the server may execute part of the processing of the information processing apparatus 100. More specifically, the information processing apparatus 100 may execute input processing and output processing, and the server may execute other processing (for example, analysis processing of input information, extraction processing of input candidates, and the like).
  • the information processing apparatus 100 includes a control unit 110, an input unit 120, a sensor unit 130, an imaging unit 140, an output unit 150, a communication unit 160, and a storage unit 170. .
  • the control unit 110 is a functional configuration that generally controls the overall processing performed by the information processing apparatus 100.
  • the control unit 110 can control start and stop of each configuration based on an input performed by the user using the input unit 120, and can control an output unit 150 such as a display or a speaker.
  • the control content of the control part 110 is not limited to these.
  • the control unit 110 may control a process generally performed in a general-purpose computer, a PC, a tablet PC, a smartphone, or the like.
  • control unit 110 includes a voice recognition unit 111, an Entity extraction unit 112, an Intent extraction unit 113, an input candidate extraction unit 114, a context analysis unit 115, an Intent processing unit 116. And.
  • the voice recognition unit 111 is a functional configuration that performs voice recognition of input voice. Specifically, when the speech recognition unit 111 acquires speech information of the user's speech input through the microphone provided in the input unit 120, the speech recognition unit 111 performs an acoustic analysis using an acoustic model, and the phoneme and the word are associated. The speech recognition processing of the input speech is executed using the dictionary information etc. registered and registered. Then, as a result of the speech recognition process, the speech recognition unit 111 converts the speech information of the user's speech into text information (in other words, the speech recognition unit 111 functions as an acquisition unit that acquires the text information). The speech recognition process described above by the speech recognition unit 111 is sequentially performed in parallel with the speech input by the user. Then, the speech recognition unit 111 sequentially provides the text information to the Entity extraction unit 112.
  • the voice recognition unit 111 manages feature quantities of voices of a plurality of users, and may specify a user who made a speech by performing pattern matching between the feature quantities and the input voice information. .
  • the identified user information can be utilized in the subsequent processing.
  • the above-described speech recognition method is not particularly limited, and any known speech recognition technology may be used.
  • the Entity extraction unit 112 is a functional configuration that extracts an Entity based on the text information output by the speech recognition unit 111. More specifically, the Entity extraction unit 112 analyzes text information sequentially output in parallel with the user's voice input, and tries to extract an Entity corresponding to the text information.
  • the extraction method of Entity is not particularly limited.
  • the entity extraction unit 112 may extract an entity based on the meaning, order, particles, or auxiliary verbs of the words included in the text information. More specifically, when text information "13" is output from the speech recognition unit 111, the entity extraction unit 112 can extract an entity "number". After that, when the information is added and the text information “13 o'clock” is output, the entity extraction unit 112 can extract the entity “time” based on the meaning of “13 o'clock”.
  • the Entity extraction unit 112 detects the speech of the user during the speech, Entity may be extracted based on voice tone, accent or intonation.
  • Entity extraction unit 112 searches for the keywords from the text information sequentially output from speech recognition unit 111, and thus, for Entity corresponding to the keywords. Extraction may be performed.
  • the Entity extraction unit 112 may use the user information (for example, attribute information or preference information), such as a situation or environment where the user is placed, a state or action of the user (hereinafter referred to as a “context”). Entity extraction may be performed using etc.) or history information etc. (for example, action history information or position history information etc.) about the user.
  • user information for example, attribute information or preference information
  • context information such as a situation or environment where the user is placed, a state or action of the user (hereinafter referred to as a “context”).
  • entity extraction may be performed using etc.
  • history information etc. for example, action history information or position history information etc.
  • the Entity extraction unit 112 performs weighting based on a context including various information such as the content of the utterance by the user, the time, the position of the user, the action of the user, or another user who is acting together. You may extract Entity by. More specifically, in a case where two entities of “personal name” and “location name” are extracted by the user's utterance, the Entity extracting unit 112 determines between the “location name” and the position of the user based on the context. When it is determined that the relevance is low (for example, when the separation distance between the “place name” and the position of the user is long, etc.), “person's name” may be extracted more preferentially as Entity. By this, the entity extraction unit 112 can extract more appropriate entities according to the context.
  • the Entity extracting unit 112 performs weighting based on user information (for example, attribute information or preference information) or history information on a user (for example, action history information or position history information). Entity extraction processing suitable for individual users can be realized (in other words, Entity extraction processing can be personalized).
  • the entity extraction unit 112 may perform weighting based on the relevance of those entities. For example, it is assumed that the Entity extraction unit 112 extracts Entities named “person's name” and “place name” by voice input, and then extracts Entities named “Railway” by further voice input. In this case, the Entity extraction unit 112 may set the weight on the Entity “Place Name” having higher relevance to the “Railroad” to be larger than the Weight of the Entity “Personal Name”.
  • the entity extraction unit 112 may extract an entity based on the co-occurrence relation of a plurality of extracted entities. For example, when “railway” and “station” have a co-occurrence relation, the Entity extraction unit 112 may set the weight of these entities having the co-occurrence relation to be larger than the weight of the entity “person's name”. As a result, the Entity extraction unit 112 can exclude an impossible combination of Entities from the content of the utterance or can reduce the weight of these Entities, so that the Entity with higher accuracy can be extracted. Entity extraction processing is not limited to the above, and may be changed as appropriate. The Entity extraction unit 112 provides the extracted Entity to the Intent extraction unit 113.
  • the Intent extraction unit 113 is a functional configuration that extracts an Intent based on an Entity. More specifically, the Intent extraction unit 113 searches for Intents corresponding to the Entity extracted by the Entity extraction unit 112. If there are a plurality of Intents corresponding to Entity, the Intent extraction unit 113 extracts a plurality of Intents.
  • the information on the association between Entity and Intent may be included in the software used by Intent extraction unit 113 for processing, or is stored in the table of storage unit 170. It is also good.
  • the Intent extraction unit 113 uses context, user information (for example, attribute information or preference information etc.) or history information for the user (for example, action history information or position history information etc.) Intent extraction may be performed.
  • user information for example, attribute information or preference information etc.
  • history information for the user for example, action history information or position history information etc.
  • the Intent extraction unit 113 performs weighting based on context including various information such as the content of the utterance by the user, the time, the position of the user, the action of the user, or another user who is acting together. May extract Intent. More specifically, when the user intends to transmit a message to another user, the Intent extraction unit 113 estimates the relationship between the user and the other user who is the destination based on the content of the utterance by the user. The software for sending the message may vary depending on whether the destination user is a friend or not.
  • the Intent extraction unit 113 determines whether the user is moving on a car or when the user is moving on foot. The interpretation of “near” may be changed. For example, the Intent extraction unit 113 interprets that “close” means within 10 km when the user is moving on a car, and “close” means within 200 m when the user is moving on foot It may be interpreted as By these processes, the Intent extraction unit 113 can extract more appropriate Intents according to the context.
  • the Intent extraction unit 113 performs weighting based on user information (for example, attribute information or preference information) or history information on the user (for example, action history information or position history information). It is possible to realize the Intent extraction process suitable for the individual user (in other words, the Intent extraction process can be personalized).
  • the Intent extraction process is not limited to the above, and may be changed as appropriate.
  • the Intent extraction unit 113 may extract Intents by weighting based on the type of software being activated.
  • the Intent extraction unit 113 provides the extracted Intent to the input candidate extraction unit 114.
  • the input candidate extraction unit 114 is a functional configuration that extracts an input candidate based on Intent. More specifically, the input candidate extraction unit 114 extracts an appropriate example sentence from among one or more example sentences (see FIG. 3) that can call the Intent extracted by the Intent extraction unit 113. The extracted example sentences are provided to the user by being provided to the output unit 150.
  • the input candidate extraction unit 114 may edit and output the example sentence after selecting the example sentence that the Intent has so that the more suitable input candidate can be output.
  • the context analysis unit 115 is a functional configuration that recognizes a context using voice information recognized by the voice recognition unit 111, various sensor information sensed by the sensor unit 130, captured image information generated by the imaging unit 140, and the like. .
  • the method of context recognition processing described above is not particularly limited, and any known context recognition technology may be used.
  • the context analysis unit 115 provides the entity extraction unit 112 or the Intent extraction unit 113 or the like with information on the recognized context.
  • the Intent processing unit 116 is a functional configuration that executes processing related to Intent. For example, when the user selects a desired input from among the input candidates, the Intent processing unit 116 executes a process related to Intent corresponding to the input. For example, the Intent processing unit 116 generates control information for controlling each functional configuration of the information processing apparatus 100, and executes the processing by providing each functional configuration. Also, the Intent processing unit 116 may execute the processing in cooperation with the external device by providing the generated control information to the external device via the communication unit 160.
  • the Intent processing unit 116 can also execute the processing related to Intent without waiting for the completion of the utterance related to the voice input by the user.
  • the Intent processing unit 116 determines whether to execute the Intent-related processing without waiting for the completion of the utterance related to the voice input by the user based on the execution condition of the Intent-related processing. For example, if the possibility that the processing related to Intent extracted by the utterance is performed in the context where the utterance is performed is higher than a predetermined value, based on the content of the utterance of the user, the context or the user's action history, etc.
  • the processing unit 116 may execute the processing related to the Intent without waiting for the completion of the utterance related to the voice input by the user. A specific example will be described later.
  • the input unit 120 is a functional configuration that receives an input.
  • the input unit 120 is provided with a microphone or the like for collecting voice information, and has a functional configuration for collecting voice information such as an ambient sound generated around the information processing apparatus 100 and an utterance by a user.
  • the speech information collected by the input unit 120 is used for speech recognition processing by the speech recognition unit 111 or context analysis processing by the context analysis unit 115.
  • the input unit 120 may also include various input devices such as a mouse, a keyboard, a touch panel, a button, and a switch, and receives input performed using these input devices.
  • the input unit 120 provides the control unit 110 with the input information (for example, voice information and the like).
  • the input means is not limited to the above.
  • the sensor unit 130 is a functional configuration that collects various sensor information regarding the situation or environment where the user is placed, the state or behavior of the user, and the like.
  • the type of sensor information collected by the sensor unit 130 is not particularly limited.
  • sensor information collected by the sensor unit 130 includes an acceleration sensor, a gyro sensor, a geomagnetic sensor, an air pressure sensor, a temperature sensor, a vibration sensor, a heart rate sensor, a pulse wave sensor, a proximity sensor, an illuminance sensor, a pressure sensor, a position sensor
  • the information output by arbitrary sensors, such as a GNSS (Global Navigation Satellite System) sensor etc.), a perspiration sensor, a pH sensor, a humidity sensor, or an infrared sensor is included.
  • the sensor unit 130 may collect sensor information from an external device provided with these various sensors.
  • the sensor unit 130 provides the collected sensor information to the context analysis unit 115.
  • the imaging unit 140 is a functional configuration that captures an image of the user or the surrounding environment. More specifically, the imaging unit 140 may be an image sensor (e.g., a CCD (Charge-Coupled Device) sensor or a CMOS (Complementary)). (Metal Oxide Semiconductor) sensor or the like, and the sensor is used to capture an image of the user or the surrounding environment. Then, the imaging unit 140 provides the generated captured image information to the context analysis unit 115. Note that the above image includes moving images as well as still images.
  • CCD Charge-Coupled Device
  • CMOS Complementary
  • the imaging unit 140 provides the generated captured image information to the context analysis unit 115. Note that the above image includes moving images as well as still images.
  • the output unit 150 is a functional configuration that outputs various information.
  • the output unit 150 can output various types of information to a display unit such as a display or an audio output unit such as a speaker or an amplifier.
  • the output unit 150 displays on the display the information on the input candidate provided from the input candidate extraction unit 114 or the result of the process on the Intent executed by the Intent processing unit 116, etc. can do.
  • the output means is not limited to the above.
  • the communication unit 160 is a functional configuration that performs various communications between the information processing apparatus 100 and an external apparatus.
  • the communication unit 160 may transmit the control information generated by the Intent processing unit 116 to an external device or the like to cause the external device to execute the process related to Intent.
  • the information which the communication part 160 communicates, and the case where it communicates are not limited to this.
  • the communication method between the communication unit 160 and the external device is not particularly limited.
  • the storage unit 170 is a functional configuration that stores various types of information.
  • the storage unit 170 may include voice information input from the input unit 120, text information output by the voice recognition unit 111, information on Entity (for example, Entity ID as shown in 2B of FIG. 2, Entity Name or Entity).
  • Information related to Intent for example, Intent ID as shown in 2A of FIG. 2, Intent Name, or example sentence information as shown in FIG. 3
  • Context information for example, Intent ID as shown in 2A of FIG. 2, Intent Name, or example sentence information as shown in FIG. 3
  • user information eg, attribute information, feature amount information such as voice, preference information, etc.
  • history information about the user eg, action history information, position history information, etc.
  • the storage unit 170 also stores various programs, various parameters, and the like used for processing of the information processing apparatus 100. Note that the information stored in the storage unit 170 is not limited to these.
  • the functional configuration example of the information processing apparatus 100 has been described above.
  • the above-described functional configuration described using FIG. 4 is merely an example, and the functional configuration of the information processing apparatus 100 is not limited to such an example.
  • the information processing apparatus 100 may not necessarily include all of the configurations shown in FIG.
  • the functional configuration of the information processing apparatus 100 can be flexibly deformed according to the specification and the operation.
  • FIG. 5 is a diagram showing an image of a first processing example by the information processing apparatus 100. As shown in FIG. 5
  • the user U1 When there is a user U1 who is about to set an alarm at 13:00, the user U1 starts voice input to the information processing apparatus 100 as shown in 5A of FIG. The user U1 utters "13 o'clock". Then, the information processing apparatus 100 analyzes the audio information in the middle of the input, and as shown in 5B, “1. set an alarm”, “2. make a recording reservation”, “3. And so on are displayed on the display D1.
  • the information processing apparatus 100 recognizes that “1. set an alarm” of the input candidates is selected by the user U1 uttering “the first one”. The fact is displayed on the display D1, and processing corresponding to the selected input is performed.
  • the information processing apparatus 100 can reduce the amount of speech at the time of voice input by the user.
  • FIG. 5 is merely an example, and the processing content and the content of speech by the user may be changed as appropriate.
  • the selection method is not particularly limited as long as the user's desired input is specified from among the input candidates in some way. More specifically, the user may read the text information displayed on the display D1 as it is, or may make a selection with a pointer or the like using any input device such as a controller.
  • the first processing example illustrated in FIG. 5 is realized by, for example, processing of each functional configuration of the information processing apparatus 100 illustrated in the flowcharts of FIGS. 6A and 6B.
  • step S1000 the user starts speech input by uttering the information processing apparatus 100
  • step S1004 the speech recognition unit 111 of the information processing apparatus 100 starts speech recognition. More specifically, the speech recognition unit 111 sequentially converts speech information into text information in parallel with speech input by the user. Thereafter, in step S1008, the entity extraction unit 112 sequentially acquires text information in the middle of input, and tries to extract an entity corresponding to the text information in step S1012.
  • step S1016 / yes the Intent extraction unit 113 extracts the Intent corresponding to the extracted Entity in Step S1020. If the Entity corresponding to the text information is not extracted at step S1016 (step S1016 / no), the process returns to step S1012, and the Entity extraction process is continued.
  • Step S 1028 an appropriate example sentence from among one or more example sentences which can call the extracted Intent the input candidate extraction unit 114. Extract If the Intent corresponding to the Entity is not extracted at Step S1024 (Step S1024 / no), the process returns to Step S1020, and the Intent extraction process is continued. In step S1032, the input candidate extraction unit 114 outputs the extracted example sentence as an input candidate.
  • step S1036 the user selects one input from the output input candidates.
  • step S1040 the Intent processing unit 116 executes the process related to the Intent selected by the user, and the process ends.
  • FIG. 7 is a view showing an image of a second processing example by the information processing apparatus 100.
  • the second embodiment is an example in the case where information is insufficient for the execution of the process related to Intent only by the selection of the input candidate, and the insufficient information is separately input.
  • the user U1 When there is a user U1 who is about to transmit a message to Mr. Yamada, the user U1 starts voice input to the information processing apparatus 100 as shown in 7A of FIG. 7. The user U1 utters "Mr. Yamada”. Then, the information processing apparatus 100 analyzes the voice information in the middle of the input, as shown in 7B, “send message 1....”, “2. make a call”, “3. contact list And the like are displayed on the display D1.
  • the information processing apparatus 100 selects that “1... It recognizes and displays that on the display D1.
  • the information processing apparatus 100 can not execute the process related to Intent. Therefore, as shown in 7D, the user U1 makes an utterance for inputting the content of the message. For example, the user U1 utters, "Tomorrow, the company is off.” As a result, as shown in 7E, the information processing apparatus 100 recognizes the content of the message and displays it as content S1 on the display D1.
  • the information processing apparatus 100 can cause the user U1 to input information lacking in the execution of the process related to Intent separately from the selection of the input candidate while reducing the amount of speech at the time of voice input.
  • FIG. 7 is merely an example, and the processing content and the content of the utterance by the user may be changed as appropriate.
  • the input method is not particularly limited. More specifically, the user may enter the missing information using any input device such as a keyboard or controller.
  • the order of selection of input candidates (7C in FIG. 7) and input of shortage information (7D in FIG. 7) may be changed as appropriate.
  • the second processing example illustrated in FIG. 7 is realized by, for example, processing of each functional configuration of the information processing apparatus 100 illustrated in the flowcharts of FIGS. 8A and 8B.
  • step S1100 to step S1136 are the same as step S1000 to step S1036 shown to FIG. 6A and FIG. 6B, description is abbreviate
  • step S1140 when there is information lacking in the execution of the Intent processing (step S1140 / yes), in step S1144, the user inputs the missing information by voice. Then, when there is no information insufficient for the execution of the Intent process (step S1140 / no), the Intent processing unit 116 executes the process related to the Intent in step S1148, and the process ends.
  • FIG. 9 is a view showing an image of a third processing example by the information processing apparatus 100.
  • the third embodiment is an example in which processing concerning Intent is performed without waiting for the completion of the utterance related to the voice input by the user.
  • the user U1 When there is a user U1 who is about to send a mail “I'm going back from now” to the user U2, the user U1 starts voice input to the information processing apparatus 100 as shown in 9A of FIG. The user U1 utters "I'm going back from now.” Then, as shown in 9B, the information processing apparatus 100 displays input candidates such as “1. Send mail to U2” on the display D1 by analyzing voice information in the middle of input.
  • the information processing apparatus 100 determines whether to execute the process related to Intent without waiting for the completion of the utterance related to the voice input by the user U1 based on the execution condition of the process related to Intent. For example, based on the content uttered by the user U1, the context, the action history of the user U1, etc., in the context in which the utterance is performed, the possibility that the process related to Intent extracted by the utterance is performed is higher than a predetermined value For example, as shown in 9C, the information processing apparatus 100 determines an input of “1. Send mail to U2”, and executes the process related to the Intent without waiting for the completion of the utterance related to the voice input by the user U1. May be
  • the information processing apparatus 100 can significantly reduce the amount of speech at the time of voice input.
  • FIG. 9 is merely an example, and the processing content and the content of speech by the user may be changed as appropriate.
  • the user U1 may be able to separately set the content of Intent to execute processing without waiting for the completion of the utterance related to the voice input using the information processing apparatus 100, or the user function enables or disables the function.
  • the setting may be performed using the information processing apparatus 100.
  • the third processing example illustrated in FIG. 9 is realized by, for example, processing of each functional configuration of the information processing device 100 illustrated in the flowcharts of FIGS. 10A and 10B.
  • step S1200 to step S1224 are the same as step S1000 to step S1024 shown in FIG. 6A and FIG. 6B, the description will be omitted.
  • step S1228 the Intent processing unit 116 determines whether to execute the Intent-related processing without waiting for the completion of the utterance related to the voice input by the user based on the execution condition of the Intent-related processing. If the execution condition of the process related to Intent is satisfied (Yes at Step S1228), the process is ended by executing the process related to Intent at Step S1232.
  • Step S1228 / No If the execution condition of the process related to Intent is not satisfied (Step S1228 / No), the input candidate extraction unit 114 is appropriate from among one or more example sentences that can call the extracted Intent in Step S1236. An exemplary sentence is extracted, and in step S1240, the extracted exemplary sentence is output as an input candidate.
  • step S1244 the user selects one input from the output input candidates.
  • step S1232 the Intent processing unit 116 executes the processing related to the Intent selected by the user, and the processing ends.
  • Second embodiment> The first embodiment according to the present disclosure has been described above. Subsequently, a second embodiment according to the present disclosure will be described.
  • the Intent extraction unit 113 extracts the Intent based on the Entity extracted by the Entity extraction unit 112.
  • this method may not extract appropriate Intents.
  • an Intent for updating a schedule corresponds to an entity such as "time” and a user who intends to update the schedule utters "calendar”.
  • the Intent extraction unit 113 can not extract Intent relating to the update of the schedule.
  • the Intent extraction unit 113 also uses the reserved word of Intent as attribute information other than Entity for the extraction processing of Intent.
  • Intent's reserved word is a word frequently used to indicate a function related to Intent. For example, when the function related to Intent is "update schedule”, the reserved words of the Intent are “1. schedule”, “2. calendar” or “3. schedule” as shown in FIG. possible.
  • the Intent extraction unit 113 can appropriately extract Intent based on a reserved word, even when Entity is not appropriately extracted.
  • the Intent extraction unit 113 can appropriately extract the Intent having the reserved word “calendar” based on the utterance “calendar”.
  • the reserved word is a synonym or synonym of "schedule” which is a part of the function "update the schedule” related to Intent, but frequently when referring to the function related to Intent.
  • the content of the reserved word is not particularly limited as long as it is a used word.
  • the reserved word may be "schedule", “plan”, “plan” or “schedule” having a close relationship with "schedule” which is part of the function "update schedule” related to Intent
  • it may be a software name (or application name) used to realize the function “update schedule” related to Intent.
  • the reserved word may be editable by the user.
  • the Intent extraction unit 113 interprets the meaning of the utterance, to thereby obtain synonyms, synonyms, or synonyms of the word included in the content of the utterance.
  • the words having deep relevance may be recognized, and these words may be used to extract Intent.
  • the Intent extraction part 113 can improve the extraction accuracy of Intent.
  • FIG. 12 is a diagram showing a hardware configuration of the information processing apparatus 100.
  • the information processing apparatus 100 includes a central processing unit (CPU) 901, a read only memory (ROM) 902, a random access memory (RAM) 903, a host bus 904, a bridge 905, an external bus 906, and an interface 907. ,
  • the CPU 901 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the information processing apparatus 100 according to various programs. Also, the CPU 901 may be a microprocessor.
  • the ROM 902 stores programs used by the CPU 901, calculation parameters, and the like.
  • the RAM 903 temporarily stores programs used in the execution of the CPU 901, parameters and the like that appropriately change in the execution. These are mutually connected by a host bus 904 configured of a CPU bus and the like. By the cooperation of the CPU 901, the ROM 902, and the RAM 903, each function of the control unit 110, the sensor unit 130 or the imaging unit 140 of the information processing apparatus 100 is realized.
  • the host bus 904 is connected to an external bus 906 such as a peripheral component interconnect / interface (PCI) bus via the bridge 905.
  • PCI peripheral component interconnect / interface
  • the input device 908 is an input control circuit such as a mouse, a keyboard, a touch panel, a button, a microphone, an input unit for inputting information such as a switch and a lever, and an input control circuit which generates an input signal based on an input by the user. And so on.
  • the user of the information processing apparatus 100 can input various types of information to the respective apparatuses and instruct processing operations.
  • the input device 908 realizes the function of the input unit 120.
  • the output device 909 includes, for example, a display device such as a cathode ray tube (CRT) display device, a liquid crystal display (LCD) device, an organic light emitting diode (OLED) device and a lamp. Further, the output device 909 includes an audio output device such as a speaker and headphones. The output device 909 outputs, for example, the reproduced content. Specifically, the display device displays various information such as reproduced video data as text or image. On the other hand, the audio output device converts the reproduced audio data etc. into audio and outputs it. The output device 909 realizes the function of the output unit 150.
  • a display device such as a cathode ray tube (CRT) display device, a liquid crystal display (LCD) device, an organic light emitting diode (OLED) device and a lamp.
  • the output device 909 includes an audio output device such as a speaker and headphones.
  • the output device 909 outputs, for example, the reproduced content. Specifically, the display device
  • the storage device 910 is a device for storing data.
  • the storage device 910 may include a storage medium, a recording device that records data in the storage medium, a reading device that reads data from the storage medium, and a deletion device that deletes data recorded in the storage medium.
  • the storage device 910 is configured by, for example, an HDD (Hard Disk Drive).
  • the storage device 910 drives a hard disk and stores programs executed by the CPU 901 and various data.
  • the storage device 910 implements the functions of the storage unit 170.
  • the drive 911 is a reader / writer for a storage medium, and is built in or externally attached to the information processing apparatus 100.
  • the drive 911 reads out information recorded in a removable storage medium 913 such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 903.
  • the drive 911 can also write information in the removable storage medium 913.
  • the communication device 912 is, for example, a communication interface configured of a communication device or the like for connecting to the communication network 914. Each function of the communication unit 160 is realized by the communication device 912.
  • the information processing apparatus 100 acquires text information in the process of being input, and a candidate for the input based on attribute information extracted based on the text information. Can be output.
  • the information processing apparatus 100 can more appropriately assist the input. More specifically, the information processing apparatus 100 can reduce the time and effort (the amount of speech in the case of voice input) input by the user. Further, the information processing apparatus 100 can cause the user to recognize the installed function (which the user has not recognized) by outputting the input candidate.
  • the information processing apparatus 100 can extract an Intent using not only the Entity extracted based on the text information being input but also the reserved word of Intent. Thus, the information processing apparatus 100 can improve the extraction accuracy of the intent.
  • the input is input by a user The information processing apparatus according to (1).
  • the input is voice input by the user.
  • the speech recognition apparatus further includes a speech recognition unit that outputs the text information by analyzing speech information in the middle of the speech input.
  • the attribute information is information indicating an Intent attribute indicating a certain function, The information processing apparatus according to any one of (1) to (4).
  • the input candidate extraction unit extracts an example sentence corresponding to the Intent extracted based on the attribute information as a candidate for the input.
  • the information processing apparatus according to (5).
  • the attribute information is Entity, The information processing apparatus according to (5) or (6).
  • (8) When a plurality of entities are extracted based on the text information, the entities are weighted based on the degree of association between the plurality of entities or the presence or absence of a co-occurrence relation.
  • the information processing apparatus according to (7). (9)
  • the Entity or the Intent is extracted based on any of preference information of the user, history information about the user, a situation or environment where the user is placed, or a context including a state or behavior of the user.
  • the information processing apparatus according to (7) or (8).
  • the attribute information is information on a reserved word indicating the Intent.
  • the information processing apparatus according to (5) or (6).
  • the computer system further comprises an Intent processing unit that executes processing related to the Intent.
  • the information processing apparatus according to any one of (5) to (9).
  • the acquisition unit acquires separately input text information.
  • the information processing apparatus according to (11). (13) The Intent processing unit executes the processing without waiting for the completion of the input.
  • the Intent processing unit executes the process without waiting for the completion of the input when the possibility of executing the process related to the Intent extracted based on the attribute information is higher than a predetermined value.
  • the information processing apparatus according to (13).
  • (15) Obtaining text information in the process of being input, Extracting the candidate of the input based on attribute information extracted based on the text information. An information processing method implemented by a computer.
  • control unit 111 speech recognition unit 112 entity extraction unit 113
  • Intent extraction unit 114 input candidate extraction unit 115 context analysis unit 116
  • Intent processing unit 120 input unit 130 sensor unit 140 imaging unit 150 output unit 160 communication unit 170 storage unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】情報処理装置への入力をより適切に補助することを可能にする。 【解決手段】入力が行われている途中のテキスト情報を取得する取得部と、前記テキスト情報に基づいて抽出される属性情報に基づいて前記入力の候補を抽出する入力候補抽出部と、を備える、情報処理装置が提供される。

Description

情報処理装置および情報処理方法
 本開示は、情報処理装置および情報処理方法に関する。
 近年、自然言語理解(NLU:Natural Language Understanding)に関する技術が適用されたシステム、装置の開発が盛んである。例えば、音声入力が可能なエージェント装置等が挙げられる。ユーザは、エージェント装置に対して音声入力のための発話を行うことで、エージェント装置は音声情報を解析し、入力内容を認識することで当該入力に対応する機能を実現することができる。
 例えば、以下の特許文献1には、音声にて誤った入力が行われた場合、訂正発話の認識精度を高め、ユーザの訂正発話回数を削減する技術が開示されている。
特開2016-062069号公報
 しかし、特許文献1に開示の技術等によっては、入力を適切に補助することは十分ではなかった。例えば、エージェント装置が音声入力に対応している場合、ユーザは、どのような発話を行えば所望の機能を実現させることができるかが分からない場合がある。結果的に、ユーザが間違った音声入力を行うことで、想定外の処理が行われる場合がある。
 そこで、本開示では、情報処理装置への入力をより適切に補助することが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。
 本開示によれば、入力が行われている途中のテキスト情報を取得する取得部と、前記テキスト情報に基づいて抽出される属性情報に基づいて前記入力の候補を抽出する入力候補抽出部と、を備える、情報処理装置が提供される。
 また、本開示によれば、入力が行われている途中のテキスト情報を取得することと、前記テキスト情報に基づいて抽出される属性情報に基づいて前記入力の候補を抽出することと、を有する、コンピュータにより実行される情報処理方法が提供される。
 以上説明したように本開示によれば、情報処理装置への入力をより適切に補助することが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示に係る第1の実施例の概要を説明する図である。 EntityとIntentの関係を説明する図である。 Intentに対応する例文を説明する図である。 情報処理装置100の機能構成例を示すブロック図である。 情報処理装置100による第1の処理例のイメージを示す図である。 情報処理装置100による第1の処理例を示すフローチャートである。 情報処理装置100による第1の処理例を示すフローチャートである。 情報処理装置100による第2の処理例のイメージを示す図である。 情報処理装置100による第2の処理例のイメージを示す図である。 情報処理装置100による第2の処理例を示すフローチャートである。 情報処理装置100による第2の処理例を示すフローチャートである。 情報処理装置100による第3の処理例のイメージを示す図である。 情報処理装置100による第3の処理例を示すフローチャートである。 情報処理装置100による第3の処理例を示すフローチャートである。 本開示に係る第2の実施例の概要を説明する図である。 情報処理装置100のハードウェア構成例を示す図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.第1の実施例
  1.1.背景
  1.2.情報処理装置100の機能概要
  1.3.情報処理装置100の機能構成例
  1.4.情報処理装置100の処理例
 2.第2の実施例
 3.ハードウェア構成例
 4.まとめ
  <1.第1の実施例>
 (1.1.背景)
 まず、本開示の背景について説明する。
 上記のとおり、近年、自然言語理解に関する技術が適用されたシステム、装置の開発が盛んである。例えば、音声入力が可能なエージェント装置等が挙げられる。ユーザは、エージェント装置に対して音声入力のための発話を行うことで、エージェント装置は音声情報を解析し、入力内容を認識することで当該入力に対応する機能を実現することができる。
 ここで、自然言語理解に関する技術が適用されたシステムまたは装置等をユーザが使用する際に、ユーザは、所望の機能を実現させるための入力方法が分からない場合がある。例えば、エージェント装置が音声入力に対応している場合、ユーザは、どのような発話を行えば所望の機能を実現させることができるかが分からない場合がある。結果的に、ユーザが間違った音声入力を行うことで、想定外の処理が行われる場合がある。もちろん、ユーザは、マニュアル等を確認することで正しい入力方法を認識することはできるが、機能毎に入力方法を記憶しておく必要があり、機能数が多いほど入力方法を記憶しておくことは困難であり、ユーザへの負荷が高い。
 そこで、本件の開示者は、上記事情に鑑みて本開示の技術を創作するに至った。本開示に係る情報処理装置100は、入力が行われている途中のテキスト情報を取得し、当該テキスト情報に基づいて抽出される属性情報に基づいて当該入力の候補を出力することができる。
 これによって、情報処理装置100は、入力をより適切に補助することができる。より具体的には、情報処理装置100は、ユーザによる入力の手間(音声入力においては、発話量)を削減することができる。また、情報処理装置100は、入力の候補を出力することで、(ユーザが認識していない)搭載機能をユーザに認識させることができる。
 以下、上記の特徴を実現する情報処理装置100について、詳細に説明する。なお、本開示に係る技術思想は、以下に述べる実施例で挙げる例に限定されず、種々の装置に広く適用され得る。
 (1.2.情報処理装置100の機能概要)
 上記では、本開示の背景について説明した。続いて、第1の実施例に係る情報処理装置100の機能概要について説明する。
 図1に示すように、情報処理装置100は、ユーザU1からの音声入力を受けるエージェント装置である。そして、情報処理装置100は、ユーザU1による音声入力が行われている途中の音声情報を解析することでテキスト情報に変換し、当該テキスト情報を解析する。そして、情報処理装置100は、当該テキスト情報に対応する属性情報を抽出する。
 属性情報は、任意の機能(または処理)を示すIntentに対応するEntityを含む。ここで、図2を参照して、IntentおよびEntityの概要について説明する。
 まず、Intentとは、任意の機能(または処理)を示す概念であり、図2の2Aに示すように、例えば、「アラーム設定」、「乗換検索」、「電源OFF」等を含む。これらの機能は、情報処理装置100が実行可能なものであってもよいし、情報処理装置100と通信を行う外部装置が実行可能なものであってもよい。なお、2Aに示すIntentは、あくまで一例であり、Intentはこれらに限定されない。
 そして、Entityとは、上記のIntentに対応する任意の属性情報であり、図2の2Bに示すように、例えば、「時間」、「名前」、「出発駅」、「到着駅」、「経由駅」等を含む。Intentは、複数のEntityに対応していてもよい。例えば、「アラーム設定」というIntent_01は、「時間」というEntity_01および「名前」というEntity_02に対応しており、「乗換検索」というIntent_02は、「出発駅」というEntity_03、「到着駅」というEntity_04および「経由駅」というEntity_05に対応している。また、図示していないが、Entityも、複数のIntentに対応していてもよい。例えば、「時間」というEntity_01は、「アラーム設定」というIntent_01だけでなく「乗換検索」というIntent_02に対応していてもよい。なお、2Bに示すEntityは、あくまで一例であり、Entityはこれらに限定されない。
 情報処理装置100は、入力途中のテキスト情報に対応する属性情報としてEntityを抽出すると、当該Entityに対応するIntentを、ユーザが入力によって実現しようとする機能(または処理)であると認識する。そして、情報処理装置100は、入力の候補を出力する。
 より具体的には、Intentは、図3に示すように、Intentの機能(または処理)を呼び出すことができる例文(図中の「Sentence」)を1または2以上有している。例えば、「アラーム設定」というIntent_01は、当該機能(または処理)を呼び出すことができる例文として、「・・・アラームを設定して。」、「アラームを・・・設定して。」、「・・・目覚ましを設定して。」、「目覚ましを・・・設定して。」、「・・・になったら教えて。」等を有している。なお、Intentが有する例文の内容は特に限定されない。
 そして、情報処理装置100は、抽出したEntityに対応するIntentが有する例文の中から適切な例文を選択し、出力することができる。例えば、情報処理装置100は、入力途中のテキスト情報の内容に基づいて適切な例文を選択することができる。より具体的には、ユーザが「13時に」と発話をすることで途中まで音声入力を行った場合、情報処理装置100は、当該発話の文脈に合う例文として、「・・・アラームを設定して。」を選択し、出力する。なお、例文の選択方法はこれに限定されない。
 また、情報処理装置100は、より適した入力の候補を出力できるように、Intentが有する例文を選択した上で、当該例文を編集して出力してもよい。例えば、Intentが「・・・にアラームを設定して。」という例文を有し、ユーザが「13時に」と発話した場合、「に」という助詞が重複しているため、情報処理装置100は、例文から助詞を削除した「・・・アラームを設定して。」を出力してもよい。これによって、入力の候補となるテキスト情報がより適切なものとなるため、ユーザが違和感を覚えにくい。
 ユーザは、情報処理装置100が提供する入力の候補の中から所望の入力を選択することで、情報処理装置100は、選択された入力に基づいて機能(または処理)を実行する。
 このように、情報処理装置100は、入力途中のテキスト情報に基づいて入力の候補を出力し、当該候補の中から所望の入力をユーザに選択させることで、入力を適切に補助することができる。より具体的には、情報処理装置100は、ユーザによる入力の手間(音声入力においては、発話量)を削減することができる。
 また、情報処理装置100が提供する入力の候補の中には、実現可能であることをユーザが認識していない機能に関する入力が含まれる場合がある。例えば、ユーザがアラームの設定を意図して「13時に」と発話し、入力の候補として「アラームを設定して」だけでなく、ユーザが認識していなかった「録画予約をして」および「音楽をかけて」等が出力された場合、ユーザはこれらの機能の存在を認識することができ、それ以降、これらの機能を利用することができる。
 なお、情報処理装置100が受ける入力は音声入力に限定されず、任意の入力であり得る。例えば、情報処理装置100は、ユーザがキーボード等を含む何らかの入力装置を用いて行うテキスト入力であってもよいし、動作等によって行うジェスチャ入力等であってもよい。また、情報処理装置100が受ける入力の主体はユーザに限定されず、任意の主体であり得る。例えば、情報処理装置100が受ける入力の主体は、他のエージェント装置またはロボット等を含む外部装置等であってもよい。
 また、本明細書では、上記の処理が情報処理装置100によって実行される場合を一例として説明するが、実施の態様はこれに限定されない。例えば、情報処理装置100と通信可能なサーバが存在し、当該サーバが情報処理装置100の処理の一部を実行してもよい。より具体的には、情報処理装置100が入力処理および出力処理を実行し、サーバがその他の処理(例えば、入力された情報の解析処理、入力候補の抽出処理等)を実行してもよい。
 (1.3.情報処理装置100の機能構成例)
 上記では、情報処理装置100の機能概要について説明した。続いて、図4を参照して、情報処理装置100の機能構成例について説明する。
 図4に示すように、情報処理装置100は、制御部110と、入力部120と、センサ部130と、撮像部140と、出力部150と、通信部160と、記憶部170と、を備える。
 (制御部110)
 制御部110は、情報処理装置100が行う処理全般を統括的に制御する機能構成である。例えば、制御部110は、ユーザによって入力部120を用いて行われる入力に基づいて各構成の起動や停止を制御したり、ディスプレイまたはスピーカ等の出力部150を制御したりすることができる。なお、制御部110の制御内容はこれらに限定されない。例えば、制御部110は、汎用コンピュータ、PC、タブレットPCまたはスマートフォン等において一般的に行われる処理を制御してもよい。
 また、図4に示すように、制御部110は、音声認識部111と、Entity抽出部112と、Intent抽出部113と、入力候補抽出部114と、コンテキスト解析部115と、Intent処理部116と、を備える。
 (音声認識部111)
 音声認識部111は、入力音声の音声認識を行う機能構成である。具体的には、音声認識部111は、入力部120に備えられるマイクロフォンを介して入力されたユーザ発話の音声情報を取得すると、音響モデルを用いて音響分析を行い、音素と単語とが対応付けられて登録されている辞書情報等を用いて入力音声の音声認識処理を実行する。そして、音声認識部111は、音声認識処理の結果、ユーザ発話の音声情報をテキスト情報に変換する(換言すると、音声認識部111は、テキスト情報を取得する取得部として機能する)。音声認識部111による上記の音声認識処理は、ユーザによる音声入力と並行して逐次行われる。そして、音声認識部111は、テキスト情報を逐次Entity抽出部112に提供する。
 また、音声認識部111は、複数のユーザの音声の特徴量を管理しており、当該特徴量と入力された音声情報とのパターンマッチングを行うことによって、発話をしたユーザを特定してもよい。特定されたユーザの情報は、後段の処理に活用され得る。なお、上記の音声認識処理の方法については特に限定されるものではなく、公知の音声認識技術が用いられればよい。
 (Entity抽出部112)
 Entity抽出部112は、音声認識部111によって出力されるテキスト情報に基づいてEntityを抽出する機能構成である。より具体的には、Entity抽出部112は、ユーザによる音声入力と並行して逐次出力されるテキスト情報を解析し、テキスト情報に対応するEntityの抽出を試みる。
 Entityの抽出方法は特に限定されない。例えば、Entity抽出部112は、テキスト情報に含まれる語の意味、順番、助詞または助動詞等に基づいてEntityを抽出してもよい。より具体的には、音声認識部111から「13」というテキスト情報が出力された場合、Entity抽出部112は、単に「数字」というEntityを抽出し得る。その後、情報が追加され「13時」というテキスト情報が出力された場合、Entity抽出部112は、「13時」の意味に基づいて「時間」というEntityを抽出し得る。なお、音声認識部111がユーザの発話における間(語と語の間の空白時間)、声のトーン、アクセントまたはイントネーション等を認識可能であれば、Entity抽出部112は、ユーザの発話における間、声のトーン、アクセントまたはイントネーション等に基づいてEntityを抽出してもよい。
 また、Entityに対応するキーワードが1または2以上存在するならば、Entity抽出部112は、音声認識部111から逐次出力されるテキスト情報から当該キーワードを探索することで、当該キーワードに対応するEntityの抽出を行ってもよい。
 さらに、Entity抽出部112は、ユーザがおかれた状況もしくは環境、ユーザの状態もしくは行動等(以降、これらを含めた概念を「コンテキスト」と呼称する)、ユーザ情報(例えば、属性情報または嗜好情報等)またはユーザに関する履歴情報等(例えば、行動履歴情報または位置履歴情報等)を用いてEntityの抽出を行ってもよい。
 例えば、Entity抽出部112は、ユーザによる発話の内容、時刻、ユーザの位置、ユーザの行動、または、行動を共にしている他のユーザ等の様々な情報を含むコンテキストに基づいて重み付けを施すことによって、Entityを抽出してもよい。より具体的には、ユーザの発話によって「人名」および「地名」という2つのEntityが抽出されるような場合において、Entity抽出部112は、コンテキストに基づいて当該「地名」とユーザの位置との関連性が低いと判断した場合(例えば、当該「地名」とユーザの位置との離隔距離が遠い場合等)、Entityとして「人名」をより優先的に抽出してもよい。これによって、Entity抽出部112は、コンテキストに応じて、より適切なEntityを抽出することができる。
 上記と同様に、Entity抽出部112は、ユーザ情報(例えば、属性情報または嗜好情報等)またはユーザに関する履歴情報等(例えば、行動履歴情報または位置履歴情報等)に基づいて重み付けを施すことによって、ユーザ個人に適した、Entityの抽出処理を実現することができる(換言すると、Entityの抽出処理を個人化することができる)。
 また、Entity抽出部112は、音声入力によって複数のEntityを抽出した場合に、それらのEntityの関連性に基づいて重み付けを施してもよい。例えば、Entity抽出部112は、音声入力によって「人名」、「地名」というEntityを抽出した後に、更なる音声入力によって「鉄道」というEntityを抽出したとする。この場合、Entity抽出部112は、「鉄道」とより高い関連性を有する「地名」というEntityに対する重みを、「人名」というEntityの重みよりも大きくしてもよい。
 また、Entity抽出部112は、抽出された複数のEntityの共起関係に基づいてEntityの抽出を行ってもよい。例えば、「鉄道」と「駅」が共起関係を有する場合、Entity抽出部112は、共起関係を有するこれらのEntityの重みを、「人名」というEntityの重みよりも大きくしてもよい。これによって、Entity抽出部112は、発話の内容から有り得ない組み合せのEntityを除外したり、これらのEntityの重みを小さくしたりすることができるため、より精度の高いEntityを抽出することができる。なお、Entityの抽出処理は、上記に限定されず、適宜変更され得る。Entity抽出部112は、抽出したEntityをIntent抽出部113に提供する。
 (Intent抽出部113)
 Intent抽出部113は、Entityに基づいてIntentを抽出する機能構成である。より具体的には、Intent抽出部113は、Entity抽出部112によって抽出されたEntityに対応するIntentを探索する。仮に、Entityに対応するIntentが複数存在する場合には、Intent抽出部113は、複数のIntentを抽出する。なお、EntityとIntentの対応付けに関する情報(図2の2Bに示した情報等)は、Intent抽出部113が処理に用いるソフトウェアに含まれてもよいし、記憶部170のテーブルに記憶されていてもよい。
 また、Intent抽出部113も、Entity抽出部112と同様に、コンテキスト、ユーザ情報(例えば、属性情報または嗜好情報等)またはユーザに関する履歴情報等(例えば、行動履歴情報または位置履歴情報等)を用いてIntentの抽出を行ってもよい。
 例えば、Intent抽出部113は、ユーザによる発話の内容、時刻、ユーザの位置、ユーザの行動、または、行動を共にしている他のユーザ等の様々な情報を含むコンテキストに基づいて重み付けを施すことによって、Intentを抽出してもよい。より具体的には、ユーザが他のユーザに対してメッセージを送信しようとしている場合、Intent抽出部113は、ユーザによる発話の内容に基づいてユーザと宛先である他のユーザとの関係性を推定し、宛先である他のユーザが友人である場合と、友人でない場合とで、メッセージの送信用のソフトウェアを変えてもよい。
 また、ユーザが近くのスポットを探すために音声入力を行った場合、Intent抽出部113は、ユーザが自動車に乗って移動している場合と、ユーザが徒歩で移動している場合とで、「近く」の解釈を変えてもよい。例えば、Intent抽出部113は、ユーザが自動車に乗って移動している場合において「近く」は10km以内を指すと解釈し、ユーザが徒歩で移動している場合において「近く」は200m以内を指すと解釈してもよい。これらの処理によって、Intent抽出部113は、コンテキストに応じて、より適切なIntentを抽出することができる。
 上記と同様に、Intent抽出部113は、ユーザ情報(例えば、属性情報または嗜好情報等)またはユーザに関する履歴情報等(例えば、行動履歴情報または位置履歴情報等)に基づいて重み付けを施すことによって、ユーザ個人に適した、Intentの抽出処理を実現することができる(換言すると、Intentの抽出処理を個人化することができる)。
 なお、Intentの抽出処理は、上記に限定されず、適宜変更され得る。例えば、Intent抽出部113は、起動中のソフトウェアの種類に基づいて重み付けを施すことによって、Intentを抽出してもよい。Intent抽出部113は、抽出したIntentを入力候補抽出部114に提供する。
 (入力候補抽出部114)
 入力候補抽出部114は、Intentに基づいて入力候補を抽出する機能構成である。より具体的には、入力候補抽出部114は、Intent抽出部113によって抽出されたIntentを呼び出すことができる1または2以上の例文(図3参照)の中から適切な例文を抽出する。抽出された例文は、出力部150に提供されることでユーザに提供される。
 また、上記のように、入力候補抽出部114は、より適した入力の候補を出力できるように、Intentが有する例文を選択した上で、当該例文を編集して出力してもよい。
 (コンテキスト解析部115)
 コンテキスト解析部115は、音声認識部111により認識された音声情報、センサ部130によりセンシングされた各種センサ情報または撮像部140によって生成された撮像画像情報等を用いてコンテキストを認識する機能構成である。なお、上記のコンテキストの認識処理の方法については特に限定されるものではなく、公知のコンテキスト認識技術が用いられればよい。コンテキスト解析部115は、認識したコンテキストに関する情報をEntity抽出部112またはIntent抽出部113等に提供する。
 (Intent処理部116)
 Intent処理部116は、Intentに関する処理を実行する機能構成である。例えば、ユーザが入力候補の中から所望の入力を選択した場合、Intent処理部116は、当該入力に対応するIntentに関する処理を実行する。例えば、Intent処理部116は、情報処理装置100の各機能構成を制御する制御情報を生成し、各機能構成に提供することで処理を実行する。また、Intent処理部116は、生成した制御情報を、通信部160を介して外部装置に提供することで、外部装置と連携して処理を実行してもよい。
 また、Intent処理部116は、ユーザによる音声入力に関する発話の完了を待たずにIntentに関する処理を実行することもできる。この場合、Intent処理部116は、Intentに関する処理の実行条件に基づいて、ユーザによる音声入力に関する発話の完了を待たずにIntentに関する処理を実行するか否かを判断する。例えば、ユーザが発話している内容、コンテキストまたはユーザの行動履歴等に基づいて、発話が行われたコンテキストにおいて発話によって抽出されたIntentに関する処理が実行される可能性が所定値より高ければ、Intent処理部116は、ユーザによる音声入力に関する発話の完了を待たずに当該Intentに関する処理を実行してもよい。具体例については後述する。
 (入力部120)
 入力部120は、入力を受ける機能構成である。例えば、入力部120は、音声情報を収集するためのマイクロフォン等を備えており、情報処理装置100の周囲で発生する周囲音やユーザによる発話などの音声情報を収集する機能構成である。入力部120が収集する音声情報は、音声認識部111による音声認識処理、または、コンテキスト解析部115によるコンテキスト解析処理等に用いられる。
 また、入力部120は、例えば、マウス、キーボード、タッチパネル、ボタンまたはスイッチ等の各種入力機器を備えてもよく、これらの入力機器を用いて行われた入力を受ける。入力部120は、入力された情報(例えば、音声情報等)を制御部110に提供する。なお、入力手段は上記に限定されない。
 (センサ部130)
 センサ部130は、ユーザがおかれた状況もしくは環境、ユーザの状態もしくは行動等に関する種々のセンサ情報を収集する機能構成である。センサ部130が収集するセンサ情報の種類は特に限定されない。例えば、センサ部130が収集するセンサ情報には、加速度センサ、ジャイロセンサ、地磁気センサ、気圧センサ、温度センサ、振動センサ、心拍センサ、脈波センサ、近接センサ、照度センサ、圧力センサ、位置センサ(例えば、GNSS(Global Navigation Satellite System)センサ等)、発汗センサ、pHセンサ、湿度センサまたは赤外線センサ等の任意のセンサによって出力された情報が含まれる。なお、センサ部130は、これらの各種センサを備えている外部装置からセンサ情報を収集してもよい。センサ部130は、収集したセンサ情報をコンテキスト解析部115に提供する。
 (撮像部140)
 撮像部140は、ユーザや周囲環境の画像を撮像する機能構成である。より具体的には、撮像部140は、イメージセンサ(例えば、CCD(Charge-Coupled Device)センサまたはCMOS(Complementary
Metal Oxide Semiconductor)センサ等)を備えており、当該センサを用いてユーザや周囲環境の画像を撮像する。そして、撮像部140は、生成した撮像画像情報をコンテキスト解析部115に提供する。なお、上記の画像には、静止画像のほか動画像が含まれる。
 (出力部150)
 出力部150は、各種情報を出力する機能構成である。例えば、出力部150は、ディスプレイ等の表示手段またはスピーカ、アンプ等の音声出力手段等に各種情報を出力することができる。例えば、出力部150は、入力候補抽出部114から提供された入力候補に関する情報、または、Intent処理部116によって実行されたIntentに関する処理の結果等をディスプレイに表示したり、スピーカから音声出力したりすることができる。なお、出力手段は上記に限定されない。
 (通信部160)
 通信部160は、情報処理装置100と外部装置との各種通信を行う機能構成である。例えば、通信部160は、Intent処理部116によって生成された制御情報を外部装置等に送信することで、外部装置にIntentに関する処理を実行させてもよい。なお、通信部160が通信する情報および通信するケースはこれに限定されない。また、通信部160と外部装置間の通信方式は特に限定されない。
 (記憶部170)
 記憶部170は、各種情報を記憶する機能構成である。例えば、記憶部170は、入力部120から入力される音声情報、音声認識部111によって出力されるテキスト情報、Entityに関する情報(例えば、図2の2Bに示したようなEntity ID、Entity NameまたはEntityに対応するIntent ID等)、Intentに関する情報(例えば、図2の2Aに示したようなIntent ID、Intent Name、または、図3に示したような例文情報等)、コンテキスト解析部115によって出力されるコンテキストに関する情報、ユーザ情報(例えば、属性情報、音声等の特徴量情報または嗜好情報等)、ユーザに関する履歴情報等(例えば、行動履歴情報または位置履歴情報等)を記憶することができる。また、記憶部170は、情報処理装置100の処理に使用される各種プログラムまたは各種パラメータ等を記憶する。なお、記憶部170が記憶する情報はこれらに限定されない。
 以上、情報処理装置100の機能構成例について説明した。なお、図4を用いて説明した上記の機能構成はあくまで一例であり、情報処理装置100の機能構成は係る例に限定されない。例えば、情報処理装置100は、図4に示す構成の全てを必ずしも備えなくてもよい。また、情報処理装置100の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 (1.4.情報処理装置100の処理例)
 上記では、情報処理装置100の機能構成例について説明した。続いて、情報処理装置100の処理例について説明する。
 (1.4.1.第1の処理例)
 まず、図5を参照して、第1の処理例について説明する。図5は、情報処理装置100による第1の処理例のイメージを示す図である。
 13時にアラームを設定しようとしているユーザU1が存在する場合、ユーザU1は、図5の5Aに示すように、情報処理装置100に対して音声入力を開始する。ユーザU1が「13時に」と発話する。すると、情報処理装置100は、入力途中の音声情報を解析することで、5Bに示すように、「1.アラームを設定して」、「2.録画予約をして」、「3.音楽をかけて」等の入力候補をディスプレイD1に表示する。
 そして、5Cに示すように、ユーザU1が「1つ目」と発話することで、情報処理装置100は、入力候補のうちの「1.アラームを設定して」が選択されたことを認識し、その旨をディスプレイD1に表示し、選択された入力に対応する処理を行う。
 これによって、情報処理装置100は、ユーザによる音声入力時の発話量を削減することができる。なお、図5はあくまで一例であり、処理内容およびユーザによる発話内容は適宜変更され得る。例えば、5Cにおいて、何らかの方法で入力候補の中からユーザ所望の入力が特定されれば、選択方法は特に限定されない。より具体的には、ユーザは、ディスプレイD1に表示されたテキスト情報をそのまま読み上げてもよいし、コントローラ等の任意の入力装置を用いてポインタ等で選択を行ってもよい。
 図5に示した第1の処理例は、例えば、図6Aおよび図6Bのフローチャートに示す、情報処理装置100の各機能構成の処理よって実現される。
 より具体的には、ステップS1000では、ユーザが情報処理装置100に対して発話することで音声入力を開始し、ステップS1004では、情報処理装置100の音声認識部111が音声認識を開始する。より具体的には、音声認識部111は、ユーザによる音声入力と並行して、逐次、音声情報をテキスト情報に変換する。その後、Entity抽出部112は、ステップS1008にて、入力途中のテキスト情報を逐次取得し、ステップS1012にて、テキスト情報に対応するEntityの抽出を試みる。
 テキスト情報に対応するEntityが抽出された場合(ステップS1016/yes)、ステップS1020にて、Intent抽出部113が、抽出されたEntityに対応するIntentを抽出する。ステップS1016にて、テキスト情報に対応するEntityが抽出されない場合(ステップS1016/no)、処理がステップS1012に戻り、Entityの抽出処理が継続される。
 Entityに対応するIntentが抽出された場合(ステップS1024/yes)、ステップS1028にて、入力候補抽出部114が、抽出されたIntentを呼び出すことができる1または2以上の例文の中から適切な例文を抽出する。ステップS1024にて、Entityに対応するIntentが抽出されない場合(ステップS1024/no)、処理がステップS1020に戻り、Intentの抽出処理が継続される。ステップS1032では、入力候補抽出部114が、抽出された例文を入力候補として出力する。
 ステップS1036では、ユーザが、出力された入力候補の中から一つの入力を選択する。ステップS1040では、Intent処理部116が、ユーザによって選択されたIntentに関する処理を実行することで処理が終了する。
 (1.4.2.第2の処理例)
 続いて、図7を参照して、第2の処理例について説明する。図7は、情報処理装置100による第2の処理例のイメージを示す図である。第2の実施例は、入力候補の選択だけではIntentに関する処理の実行のために情報が不足している場合において、その不足情報が別途入力される場合の例である。
 山田さんにメッセージを送信しようとしているユーザU1が存在する場合、ユーザU1は、図7の7Aに示すように、情報処理装置100に対して音声入力を開始する。ユーザU1が「山田さん」と発話する。すると、情報処理装置100は、入力途中の音声情報を解析することで、7Bに示すように、「1.・・・とメッセージを送る」、「2.電話をかける」、「3.コンタクトリストから削除する」等の入力候補をディスプレイD1に表示する。
 そして、7Cに示すように、ユーザU1が「1つ目」と発話することで、情報処理装置100は、入力候補のうちの「1.・・・とメッセージを送る」が選択されたことを認識し、その旨をディスプレイD1に表示する。
 7Cでは、メッセージの内容が未入力の状態なので、情報処理装置100は、Intentに関する処理を実行することができない。そこで、7Dに示すように、ユーザU1は、メッセージの内容を入力するための発話を行う。例えば、ユーザU1は、「に明日は会社が休みだよ」と発話する。これによって、情報処理装置100は、7Eに示すように、メッセージの内容を認識し、これを内容S1としてディスプレイD1に表示する。
 これによって、情報処理装置100は、音声入力時の発話量を削減しつつ、Intentに関する処理の実行に不足している情報を、入力候補の選択とは別に、ユーザU1に入力させることができる。なお、図7はあくまで一例であり、処理内容およびユーザによる発話内容は適宜変更され得る。例えば、7Dにおいて、何らかの方法で不足情報が入力されれば、その入力方法は特に限定されない。より具体的には、ユーザは、キーボードまたはコントローラ等の任意の入力装置を用いて不足情報を入力してもよい。また、入力候補の選択(図7においては、7C)と、不足情報の入力(図7においては、7D)の順番は適宜変更されてもよい。
 図7に示した第2の処理例は、例えば、図8Aおよび図8Bのフローチャートに示す、情報処理装置100の各機能構成の処理よって実現される。なお、ステップS1100からステップS1136までは、図6Aおよび図6Bに示したステップS1000からステップS1036と同一であるため、説明を省略する。
 ステップS1140にて、Intentの処理の実行に不足している情報がある場合(ステップS1140/yes)、ステップS1144にて、不足している情報をユーザが音声により入力する。そして、Intentの処理の実行に不足している情報がなくなった場合(ステップS1140/no)、ステップS1148にて、Intent処理部116が、Intentに関する処理を実行することで処理が終了する。
 (1.4.3.第3の処理例)
 続いて、図9を参照して、第3の処理例について説明する。図9は、情報処理装置100による第3の処理例のイメージを示す図である。第3の実施例は、ユーザによる音声入力に関する発話の完了を待たずにIntentに関する処理が行われる場合の例である。
 「今から帰るよ」というメールをユーザU2に送信しようとしているユーザU1が存在する場合、ユーザU1は、図9の9Aに示すように、情報処理装置100に対して音声入力を開始する。ユーザU1が「今から帰るよ」と発話する。すると、情報処理装置100は、入力途中の音声情報を解析することで、9Bに示すように、「1.とメールをU2へ送信」等の入力候補をディスプレイD1に表示する。
 そして、情報処理装置100は、Intentに関する処理の実行条件に基づいてユーザU1による音声入力に関する発話の完了を待たずにIntentに関する処理を実行するか否かを判断する。例えば、ユーザU1が発話している内容、コンテキストまたはユーザU1の行動履歴等に基づいて、発話が行われたコンテキストにおいて、発話によって抽出されたIntentに関する処理が実行される可能性が所定値より高ければ、情報処理装置100は、9Cに示すように、「1.とメールをU2へ送信」という入力を確定し、ユーザU1による音声入力に関する発話の完了を待たずに当該Intentに関する処理を実行してもよい。
 これによって、情報処理装置100は、音声入力時の発話量を大幅に削減することができる。なお、図9はあくまで一例であり、処理内容およびユーザによる発話内容は適宜変更され得る。例えば、ユーザU1は、別途、音声入力に関する発話の完了を待たずに処理を実行させるIntentの内容を、情報処理装置100を用いて設定できてもよいし、当該機能の有効化または無効化を、情報処理装置100を用いて設定できてもよい。
 図9に示した第3の処理例は、例えば、図10Aおよび図10Bのフローチャートに示す、情報処理装置100の各機能構成の処理よって実現される。なお、ステップS1200からステップS1224までは、図6Aおよび図6Bに示したステップS1000からステップS1024と同一であるため、説明を省略する。
 ステップS1228では、Intent処理部116が、Intentに関する処理の実行条件に基づいてユーザによる音声入力に関する発話の完了を待たずにIntentに関する処理を実行するか否かを判断する。Intentに関する処理の実行条件が満たされている場合(ステップS1228/Yes)、ステップS1232にて、Intent処理部116が、Intentに関する処理を実行することで処理が終了する。
 Intentに関する処理の実行条件が満たされていない場合(ステップS1228/No)、入力候補抽出部114が、ステップS1236にて、抽出されたIntentを呼び出すことができる1または2以上の例文の中から適切な例文を抽出し、ステップS1240にて、抽出された例文を入力候補として出力する。
 そして、ステップS1244では、ユーザが、出力された入力候補の中から一つの入力を選択する。ステップS1232では、Intent処理部116が、ユーザによって選択されたIntentに関する処理を実行することで処理が終了する。
 なお、図6A、図6B、図8A、図8B、図10Aおよび図10Bに示したフローチャートにおける各ステップは、必ずしも記載された順序に沿って時系列に処理する必要はない。すなわち、フローチャートにおける各ステップは、記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
  <2.第2の実施例>
 上記では、本開示に係る第1の実施例について説明した。続いて、本開示に係る第2の実施例について説明する。
 第1の実施例において、Intent抽出部113は、Entity抽出部112によって抽出されたEntityに基づいてIntentを抽出していた。しかし、この方法では、適切なIntentが抽出されない可能性がある。
 例えば、予定表の更新に関するIntentが「時間」等のEntityに対応しており、予定表の更新をしようとするユーザが「カレンダー」と発話した場合について考える。このとき、「カレンダー」という発話から「時間」というEntityが抽出されない場合、Intent抽出部113は、予定表の更新に関するIntentを抽出することができない。
 そこで、第2の実施例において、Intent抽出部113は、Entity以外の属性情報としてIntentの予約語も併せて、Intentの抽出処理に用いる。
 ここで、Intentの予約語とは、Intentに関する機能を指し示す際に頻繁に使用される語である。例えば、Intentに関する機能が「予定表の更新」である場合、当該Intentの予約語は、図11に示すように、「1.予定表」、「2.カレンダー」または「3.日程」等であり得る。
 これによって、Intent抽出部113は、Entityが適切に抽出されなかった場合であっても、予約語に基づいてIntentを適切に抽出することができる。上記の例であれば、Intent抽出部113は、「カレンダー」という発話に基づいて「カレンダー」という予約語を有しているIntentを適切に抽出することができる。
 なお、図11に示した例では、予約語が、Intentに関する機能「予定表の更新」の一部である「予定表」の同義語または類義語であるが、Intentに関する機能を指し示す際に頻繁に使用される語であれば予約語の内容は特に限定されない。例えば、予約語は、Intentに関する機能「予定表の更新」の一部である「予定表」と深い関連性を有する「予定」、「計画」、「プラン」または「スケジュール」であってもよいし、Intentに関する機能「予定表の更新」の実現に用いられるソフトウェア名(またはアプリケーション名)であってもよい。また、予約語はユーザによって編集可能なものであってもよい。
 また、ユーザが予約語と同一の内容を発話しなかった場合であっても、Intent抽出部113は、当該発話の意味を解釈することで、発話の内容に含まれる語の同義語、類義語または深い関連性を有する語を認識し、これらの語を用いてIntentを抽出してもよい。これによって、Intent抽出部113は、Intentの抽出精度を向上させることができる。
  <3.ハードウェア構成例>
 上記では、本開示に係る第2の実施例について説明した。続いて、図12を参照して、情報処理装置100のハードウェア構成例について説明する。
 図12は、情報処理装置100のハードウェア構成を示す図である。情報処理装置100は、CPU(Central Processing Unit)901と、ROM(Read Only Memory)902と、RAM(Random Access Memory)903と、ホストバス904と、ブリッジ905と、外部バス906と、インタフェース907と、入力装置908と、出力装置909と、ストレージ装置(HDD)910と、ドライブ911と、通信装置912と、を備える。
 CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置100内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバス904により相互に接続されている。当該CPU901、ROM902およびRAM903の協働により、情報処理装置100の制御部110、センサ部130または撮像部140の各機能が実現される。
 ホストバス904は、ブリッジ905を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス906に接続されている。なお、必ずしもホストバス904、ブリッジ905および外部バス906を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
 入力装置908は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU901に出力する入力制御回路などから構成されている。情報処理装置100の使用者は、該入力装置908を操作することにより、各装置に対して各種情報を入力したり処理動作を指示したりすることができる。当該入力装置908により、入力部120の機能が実現される。
 出力装置909は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。さらに、出力装置909は、スピーカおよびヘッドホンなどの音声出力装置を含む。出力装置909は、例えば、再生されたコンテンツを出力する。具体的には、表示装置は再生された映像データ等の各種情報をテキストまたはイメージで表示する。一方、音声出力装置は、再生された音声データ等を音声に変換して出力する。当該出力装置909により、出力部150の機能が実現される。
 ストレージ装置910は、データ格納用の装置である。ストレージ装置910は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置910は、例えば、HDD(Hard Disk Drive)で構成される。このストレージ装置910は、ハードディスクを駆動し、CPU901が実行するプログラムや各種データを格納する。当該ストレージ装置910により記憶部170の各機能が実現される。
 ドライブ911は、記憶媒体用リーダライタであり、情報処理装置100に内蔵、あるいは外付けされる。ドライブ911は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体913に記録されている情報を読み出して、RAM903に出力する。また、ドライブ911は、リムーバブル記憶媒体913に情報を書き込むこともできる。
 通信装置912は、例えば、通信網914に接続するための通信デバイス等で構成された通信インタフェースである。当該通信装置912により通信部160の各機能が実現される。
  <4.まとめ>
 以上で説明してきたように、本開示に係る情報処理装置100は、入力が行われている途中のテキスト情報を取得し、当該テキスト情報に基づいて抽出される属性情報に基づいて当該入力の候補を出力することができる。
 これによって、情報処理装置100は、入力をより適切に補助することができる。より具体的には、情報処理装置100は、ユーザによる入力の手間(音声入力においては、発話量)を削減することができる。また、情報処理装置100は、入力の候補を出力することで、(ユーザが認識していない)搭載機能をユーザに認識させることができる。
 また、Intentを抽出する際、情報処理装置100は、入力が行われている途中のテキスト情報に基づいて抽出したEntityだけでなくIntentの予約語も用いてIntentを抽出することができる。これによって、情報処理装置100は、Intentの抽出精度を向上させることができる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 入力が行われている途中のテキスト情報を取得する取得部と、
 前記テキスト情報に基づいて抽出される属性情報に基づいて前記入力の候補を抽出する入力候補抽出部と、を備える、
 情報処理装置。
(2)
 前記入力は、ユーザによる入力である、
 前記(1)に記載の情報処理装置。
(3)
 前記入力は、前記ユーザによる音声入力である、
 前記(2)に記載の情報処理装置。
(4)
 前記音声入力が行われている途中の音声情報を解析することで、前記テキスト情報を出力する音声認識部をさらに備える、
 前記(3)に記載の情報処理装置。
(5)
 前記属性情報は、ある機能を示すIntentの属性を示す情報である、
 前記(1)から(4)のいずれか1項に記載の情報処理装置。
(6)
 前記入力候補抽出部は、前記属性情報に基づいて抽出される前記Intentに対応する例文を前記入力の候補として抽出する、
 前記(5)に記載の情報処理装置。
(7)
 前記属性情報は、Entityである、
 前記(5)または(6)に記載の情報処理装置。
(8)
 前記テキスト情報に基づいて複数のEntityが抽出される場合、前記複数のEntity同士の関連性の高さまたは共起関係の有無に基づいて前記Entityに対して重み付けが施される、
 前記(7)に記載の情報処理装置。
(9)
 前記Entityまたは前記Intentは、ユーザの嗜好情報、前記ユーザに関する履歴情報、前記ユーザがおかれた状況もしくは環境または前記ユーザの状態もしくは行動を含むコンテキストのいずれかに基づいて抽出される、
 前記(7)または(8)に記載の情報処理装置。
(10)
 前記属性情報は、前記Intentを示す予約語に関する情報である、
 前記(5)または(6)に記載の情報処理装置。
(11)
 前記Intentに関する処理を実行するIntent処理部をさらに備える、
 前記(5)から(9)のいずれか1項に記載の情報処理装置。
(12)
 前記処理の実行に前記テキスト情報が不足している場合、前記取得部は、別途入力されたテキスト情報を取得する、
 前記(11)に記載の情報処理装置。
(13)
 前記Intent処理部は、前記入力の完了を待つことなく前記処理を実行する、
 前記(11)に記載の情報処理装置。
(14)
 前記属性情報に基づいて抽出された前記Intentに関する処理が実行される可能性が所定値より高い場合、前記Intent処理部は、前記入力の完了を待つことなく前記処理を実行する、
 前記(13)に記載の情報処理装置。
(15)
 入力が行われている途中のテキスト情報を取得することと、
 前記テキスト情報に基づいて抽出される属性情報に基づいて前記入力の候補を抽出することと、を有する、
 コンピュータにより実行される情報処理方法。
 100  情報処理装置
 110  制御部
 111  音声認識部
 112  Entity抽出部
 113  Intent抽出部
 114  入力候補抽出部
 115  コンテキスト解析部
 116  Intent処理部
 120  入力部
 130  センサ部
 140  撮像部
 150  出力部
 160  通信部
 170  記憶部

Claims (15)

  1.  入力が行われている途中のテキスト情報を取得する取得部と、
     前記テキスト情報に基づいて抽出される属性情報に基づいて前記入力の候補を抽出する入力候補抽出部と、を備える、
     情報処理装置。
  2.  前記入力は、ユーザによる入力である、
     請求項1に記載の情報処理装置。
  3.  前記入力は、前記ユーザによる音声入力である、
     請求項2に記載の情報処理装置。
  4.  前記音声入力が行われている途中の音声情報を解析することで、前記テキスト情報を出力する音声認識部をさらに備える、
     請求項3に記載の情報処理装置。
  5.  前記属性情報は、ある機能を示すIntentの属性を示す情報である、
     請求項1に記載の情報処理装置。
  6.  前記入力候補抽出部は、前記属性情報に基づいて抽出される前記Intentに対応する例文を前記入力の候補として抽出する、
     請求項5に記載の情報処理装置。
  7.  前記属性情報は、Entityである、
     請求項5に記載の情報処理装置。
  8.  前記テキスト情報に基づいて複数のEntityが抽出される場合、前記複数のEntity同士の関連性の高さまたは共起関係の有無に基づいて前記Entityに対して重み付けが施される、
     請求項7に記載の情報処理装置。
  9.  前記Entityまたは前記Intentは、ユーザの嗜好情報、前記ユーザに関する履歴情報、前記ユーザがおかれた状況もしくは環境または前記ユーザの状態もしくは行動を含むコンテキストのいずれかに基づいて抽出される、
     請求項7に記載の情報処理装置。
  10.  前記属性情報は、前記Intentを示す予約語に関する情報である、
     請求項5に記載の情報処理装置。
  11.  前記Intentに関する処理を実行するIntent処理部をさらに備える、
     請求項5に記載の情報処理装置。
  12.  前記処理の実行に前記テキスト情報が不足している場合、前記取得部は、別途入力されたテキスト情報を取得する、
     請求項11に記載の情報処理装置。
  13.  前記Intent処理部は、前記入力の完了を待つことなく前記処理を実行する、
     請求項11に記載の情報処理装置。
  14.  前記属性情報に基づいて抽出された前記Intentに関する処理が実行される可能性が所定値より高い場合、前記Intent処理部は、前記入力の完了を待つことなく前記処理を実行する、
     請求項13に記載の情報処理装置。
  15.  入力が行われている途中のテキスト情報を取得することと、
     前記テキスト情報に基づいて抽出される属性情報に基づいて前記入力の候補を抽出することと、を有する、
     コンピュータにより実行される情報処理方法。
PCT/JP2018/040995 2018-01-17 2018-11-05 情報処理装置および情報処理方法 WO2019142447A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP18901611.6A EP3742301A1 (en) 2018-01-17 2018-11-05 Information processing device and information processing method
US16/961,273 US20210064640A1 (en) 2018-01-17 2018-11-05 Information processing apparatus and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-005484 2018-01-17
JP2018005484 2018-01-17

Publications (1)

Publication Number Publication Date
WO2019142447A1 true WO2019142447A1 (ja) 2019-07-25

Family

ID=67302130

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/040995 WO2019142447A1 (ja) 2018-01-17 2018-11-05 情報処理装置および情報処理方法

Country Status (3)

Country Link
US (1) US20210064640A1 (ja)
EP (1) EP3742301A1 (ja)
WO (1) WO2019142447A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6799297B1 (ja) * 2019-10-23 2020-12-16 ソプラ株式会社 情報出力装置、情報出力方法、及び情報出力プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015025856A (ja) * 2013-07-24 2015-02-05 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
WO2016013503A1 (ja) * 2014-07-23 2016-01-28 三菱電機株式会社 音声認識装置及び音声認識方法
JP2016062069A (ja) 2014-09-22 2016-04-25 株式会社日立製作所 音声認識方法、及び音声認識装置
WO2016111881A1 (en) * 2015-01-09 2016-07-14 Microsoft Technology Licensing, Llc Headless task completion within digital personal assistants
WO2016157650A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
JP2017058673A (ja) * 2015-09-17 2017-03-23 三星電子株式会社Samsung Electronics Co.,Ltd. 対話処理装置及び方法と知能型対話処理システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9378740B1 (en) * 2014-09-30 2016-06-28 Amazon Technologies, Inc. Command suggestions during automatic speech recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015025856A (ja) * 2013-07-24 2015-02-05 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
WO2016013503A1 (ja) * 2014-07-23 2016-01-28 三菱電機株式会社 音声認識装置及び音声認識方法
JP2016062069A (ja) 2014-09-22 2016-04-25 株式会社日立製作所 音声認識方法、及び音声認識装置
WO2016111881A1 (en) * 2015-01-09 2016-07-14 Microsoft Technology Licensing, Llc Headless task completion within digital personal assistants
WO2016157650A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
JP2017058673A (ja) * 2015-09-17 2017-03-23 三星電子株式会社Samsung Electronics Co.,Ltd. 対話処理装置及び方法と知能型対話処理システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3742301A4

Also Published As

Publication number Publication date
EP3742301A4 (en) 2020-11-25
US20210064640A1 (en) 2021-03-04
EP3742301A1 (en) 2020-11-25

Similar Documents

Publication Publication Date Title
JP6463825B2 (ja) 多重話者音声認識修正システム
US10777193B2 (en) System and device for selecting speech recognition model
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
US10037758B2 (en) Device and method for understanding user intent
JP4510953B2 (ja) 音声認識におけるノンインタラクティブ方式のエンロールメント
JP3662780B2 (ja) 自然言語を用いた対話システム
KR20190021143A (ko) 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
JP2017058673A (ja) 対話処理装置及び方法と知能型対話処理システム
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP6897677B2 (ja) 情報処理装置及び情報処理方法
US11164584B2 (en) System and method for uninterrupted application awakening and speech recognition
US20200219487A1 (en) Information processing apparatus and information processing method
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
JP4729902B2 (ja) 音声対話システム
JP7036015B2 (ja) 対話制御装置および方法
JP2011504624A (ja) 自動同時通訳システム
JP5189858B2 (ja) 音声認識装置
KR20220128397A (ko) 자동 음성 인식을 위한 영숫자 시퀀스 바이어싱
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
JP2006208486A (ja) 音声入力装置
JP2005249829A (ja) 音声認識を行うコンピュータネットワークシステム
WO2019142447A1 (ja) 情報処理装置および情報処理方法
JP6828741B2 (ja) 情報処理装置
JP5892598B2 (ja) 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム
JP4951422B2 (ja) 音声認識装置、および音声認識方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18901611

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018901611

Country of ref document: EP

Effective date: 20200817

NENP Non-entry into the national phase

Ref country code: JP