WO2005062296A1 - 機器制御装置及び機器制御方法 - Google Patents

機器制御装置及び機器制御方法 Download PDF

Info

Publication number
WO2005062296A1
WO2005062296A1 PCT/IB2004/004006 IB2004004006W WO2005062296A1 WO 2005062296 A1 WO2005062296 A1 WO 2005062296A1 IB 2004004006 W IB2004004006 W IB 2004004006W WO 2005062296 A1 WO2005062296 A1 WO 2005062296A1
Authority
WO
WIPO (PCT)
Prior art keywords
wire
variable
data
specified
controlled
Prior art date
Application number
PCT/IB2004/004006
Other languages
English (en)
French (fr)
Inventor
Rika Koyama
Original Assignee
Kabushikikaisha Kenwood
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kabushikikaisha Kenwood filed Critical Kabushikikaisha Kenwood
Priority to JP2005516407A priority Critical patent/JP4533844B2/ja
Priority to US10/581,822 priority patent/US7505909B2/en
Priority to EP04806317A priority patent/EP1699041B1/en
Priority to CN2004800409681A priority patent/CN1906661B/zh
Priority to DE602004016683T priority patent/DE602004016683D1/de
Publication of WO2005062296A1 publication Critical patent/WO2005062296A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the present invention relates to a device control apparatus and a device control method.
  • Patent Document 1 Japanese Patent Laid-Open No. 43-124312
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a device control device and a device control method capable of controlling a device in response to an instruction issued by a human in the form of a language. To do.
  • the device control apparatus acquires speech data representing speech and performs speech recognition on the speech data, thereby expressing the phrase represented by the speech.
  • Speech recognition means for identifying candidates For identifying candidates,
  • Device control means for controlling the vessel
  • the device control means includes
  • the voice recognition means When there are multiple devices that can be controlled to change the specified variable in the specified direction, among the devices that can be controlled based on the candidates that the voice recognition means further acquires and specifies the voice data! / Identify whether you want to operate the wrong device and control the specified device,
  • the device control means When there are a plurality of devices that can be controlled so that the specified variable is changed in the specified direction, the device control means, among the controllable devices! Data that prompts the user to decide whether or not he / she wants to operate the device may be output.
  • a device control method emphasizing the second aspect of the present invention includes:
  • a device control step for specifying a direction in which a variable should be changed, a device to be controlled in order to change the variable, and controlling the specified device so as to change the specified variable in a specified direction.
  • a computer program according to the third aspect of the present invention provides a computer
  • a variable to be changed to obtain a result desired by the speech speaker, A direction in which the variable is to be changed and a device to be controlled in order to change the variable, and a device control step for controlling the specified device to change the specified variable in the specified direction.
  • the voice recognition means When there are multiple devices that can be controlled to change the specified variable in the specified direction, the voice recognition means further obtains the voice data and identifies the controllable device based on the speculation. ! / Specify whether you want to operate the wrong device and control the specified device,
  • a device control apparatus and a device control method that can control a device in response to an instruction issued by a human in the form of a language are realized.
  • FIG. 1 is a diagram showing an in-vehicle air conditioning system according to an embodiment of the present invention.
  • FIG. 2 is a more detailed configuration diagram of the in-vehicle air conditioning system according to this embodiment.
  • FIG. 3 is a diagram schematically showing a specific example of grouping flags.
  • FIG. 4 is a diagram for explaining trigger acquisition processing.
  • FIG. 5 is a diagram for explaining a discrimination process.
  • FIG. 6 is a diagram for explaining a discrimination process with an inquiry.
  • FIG. 7 is a diagram for explaining input / output processing.
  • FIG. 8 shows a wire.
  • FIG. 9 is a diagram showing a flow of processing items database and wire database as a whole.
  • FIG. 10 is a diagram for explaining setting of weighting factors.
  • FIG. 11 is a flowchart for explaining the operation of the agent processing unit.
  • FIG. 12 is a diagram showing a configuration of an external server (distribution server) and a network configuration.
  • FIG. 13 is a flowchart for explaining download processing.
  • FIG. 14 is a configuration diagram for explaining an application example.
  • FIG. 15 is a flowchart showing an operation example of the system shown in FIG.
  • FIG. 16 is a flowchart showing an operation example of the system shown in FIG.
  • FIG. 17 is a flowchart showing an operation example of the system shown in FIG.
  • FIG. 18 is a flowchart showing an operation example of the system shown in FIG.
  • FIG. 1 is a block diagram showing the configuration of the interior air conditioning system.
  • FIG. 2 is a block diagram illustrating an example of a physical configuration of each unit.
  • this in-vehicle air conditioning system includes a voice input unit 1, a language analysis unit 2, a voice synthesis processing unit 3, a voice output unit 4, an input / output target device group 5, and an agent processing unit. 6 and It is made up of.
  • the voice input unit 1 inputs voice, generates voice data in digital format from the input voice, and supplies the voice data to the language analysis unit 2.
  • the audio input unit 1 includes, for example, a microphone 11, an AF (Audio Frequency) amplifier 12, and an A / D (Analog-to-Digital) converter incorporating a sample hold circuit. 13 and so on.
  • the microphone 11 converts the sound into a sound signal and outputs it.
  • the AF amplifier 12 amplifies and outputs the audio signal from the microphone 11.
  • the AZD converter 13 samples the amplified audio signal from the AF amplifier 12 and A / D converts it to generate digital audio data and supplies it to the language analysis unit 2.
  • the language analysis unit 2, the speech synthesis processing unit 3, and the agent processing unit 6 are each a processor 21, 31, 61 including a CPU (Central Processing Unit), for example. And a nonvolatile memory 22, 32, 62 such as a hard disk device for storing programs executed by the processors 21, 31, 61, and a RAM (Random Access Memory) having a storage area as a work area of the processor. Memory 23, 33 and 63. Note that some or all of the functions of the language analysis unit 2, the speech synthesis processing unit 3, and the agent processing unit 6 may be configured by one processor, one nonvolatile memory, and one volatile memory.
  • the language analysis unit 2 performs voice recognition processing on the voice data supplied from the voice input unit 1.
  • the language analysis unit 2 identifies the word candidate represented by the speech data and the likelihood (score) of the candidate by speech recognition processing.
  • the speech recognition method is arbitrary. Multiple word candidates may be specified.
  • the language analysis unit 2 generates data (hereinafter referred to as word data) indicating the identified candidate and the candidate score, and supplies the data to the agent processing unit 6.
  • the non-volatile memory 32 of the speech synthesis processing unit 3 includes a speech unit database D1 for storing data representing a waveform of a word, and a unit database D2 for storing waveform data for constituting a phoneme waveform.
  • a speech unit database D1 for storing data representing a waveform of a word
  • a unit database D2 for storing waveform data for constituting a phoneme waveform.
  • the sound piece database D1 stores data representing the waveform of a word.
  • the segment database D2 stores waveform data for composing phonemes.
  • the speech synthesis processing unit 3 uses the data stored in the speech database D1 and the speech database D2 Generates digital voice data representing the voice that reads out the text data supplied from the agent processing unit 6.
  • the speech synthesizer 3 supplies the generated speech data to the speech output unit 4.
  • the method of generating digital audio data is arbitrary, but for example, a recording editing method or a rule-based synthesis method can be used.
  • the recording and editing method is, for example, a method in which an announcer reads voices in units of words in advance and connects them together for output.
  • the rule synthesis method is a method in which relatively small units such as phonemes (consonants and vowels) and kana are connected and output.
  • the voice output unit 4 reproduces the voice represented by the digital voice data supplied from the voice synthesis processing unit 3. More specifically, as shown in FIG. 2, the audio output unit 4 has a D / A (
  • Digita to analog converter 41 Digita to analog converter 41, AF amplifier 42 and speaker 43.
  • the D / A converter 41 performs DZA conversion on the digital audio data supplied from the audio synthesis processing unit 3 and converts it into an analog audio signal.
  • the AF amplifier 42 amplifies the analog audio signal.
  • the speaker 43 vibrates according to the analog audio signal, reproduces the sound represented by the analog audio data, and emits the sound.
  • the input / output target device group 5 includes, for example, an air conditioner 51 and a window opening / closing control unit 52.
  • the air conditioner 51 performs cooling, heating, or blowing operation according to the control signal.
  • the air conditioner 51 indicates data indicating its own operation state, for example, whether it is in a cooling operation, a heating operation, a temperature adjustment toward a set temperature, a blowing operation, or a stop state.
  • the status data shown is output.
  • the window opening / closing control unit 52 opens and closes a window according to a control signal, and includes a motor, a control circuit that controls rotation and stop of the motor according to the control signal, a winch that moves the window frame according to the rotation of the motor, and the like. Is provided.
  • the control circuit of the window opening / closing control unit 52 outputs data indicating the operation state of the window opening / closing control unit 52, for example, data indicating the amount of opening (degree: opening).
  • the agent processing unit 6 includes a communication control device 64 including a modem, a packet communication terminal, and the like, and an external network (for example, via a wireless telephone line) via the communication control device. Connected to the distribution server 100 described later via the Internet.
  • the nonvolatile memory 62 of the agent processing unit 6 stores a word database D3.
  • the word database D3 stores a plurality of word data and one or more word grouping flags for indicating the grouping of the plurality of words in association with each other.
  • Each flag associated with one word is grouped in association with a certain concept. If the flag indicates a predetermined value (hereinafter, this value is “1”), the word power associated with this flag is grouped into the group associated with this flag. Yes. On the other hand, when this flag indicates another value (for example, “0”), this word is not grouped in the group associated with the flag.
  • FIG. 3 is a diagram schematically showing a specific example of grouping flags.
  • the word grouping flags are associated with the words “rising”, “hot”, and “opening” by 4 bits each!
  • the most significant (MSB) flag of the 4-bit bit group is associated with the concept of "temperature”. This is associated with the concept of the flag power of the second bit from the top ⁇ air conditioner operation.
  • the third bit flag from the top is associated with the concept of “open / close window”. It is associated with the concept of the lowest flag force S “failure”.
  • the value of the 4-bit flag group associated with the word “up” is the binary number “1110”, and the flag group associated with the word “hot”.
  • the value of the binary number is “1100”, and the value of the flag group corresponding to the word “open” is the binary number “1010”.
  • the word “upper power S”, “hot” and “open” are grouped under the concept “temperature”, and under the concept “air conditioner operation”. Is grouped with the words “rising” and “hot”, the words “hot” and “open” are grouped under the concept “opening and closing the window”, and the word “ It indicates that the upper level is "S”, “Hot” or "Open”! /, And the gap is also grouped! /, N! /.
  • Each word and each concept is used as a “discrimination condition” for each processing item stored in the processing item database D4.
  • the non-volatile memory of the agent processing unit 6 further includes a processing item database D4 Memorize the database D5.
  • the processing item database D4 contains the contents of various processes executed by the agent processing unit 6, such as trigger acquisition processing (TGxx), discrimination processing (CNxx or QBxx), and input / output processing (EXxx to be described later).
  • This is a database that stores data (processing item data) described for each processing item (pointer). “XX” is an identification number.
  • the data describing the contents of the “trigger acquisition process (TGxx)” is the trigger data (data to be acquired as a trigger) that identifies the trigger for starting these processes.
  • a transition constant k for determining the traveling direction described later (which indicates the degree of transition in the traveling direction, and is a constant used as a calculation criterion for the weighting factor 3 ⁇ 4J described later).
  • the trigger data is arbitrary, for example, data indicating whether the air conditioner is in a cooling operation, a heating operation, a temperature adjustment, a blowing operation, or a stop, or a window is open. These are the data indicating the quantity, the data indicating the indoor temperature, and the word data supplied from the language analysis unit 2.
  • the trigger data may be data delivered from processing performed by the agent processing unit 6 itself.
  • the trigger data when the trigger data (data acquired by the trigger acquisition process) is word data, it may be data indicating a “concept” assigned to the groove to which the word represented by the word data belongs. However, the contents of the trigger acquisition process are described so that a plurality of trigger acquisition processes do not acquire word data representing the same word.
  • Fig. 4 (a) shows an example of the trigger acquisition process TGxx.
  • the trigger TG01 is a process for acquiring the word “hot” as a trigger (identifying the word “hot”), and determines whether or not to proceed to the process following that process (transition).
  • the transition constant k is 0.8.
  • Fig. 4 (b) shows a flowchart of the trigger acquisition process TG01.
  • Trigger acquisition process TG02 is a process for acquiring the word "open”.
  • Trigger acquisition process TG03 is a process that acquires a word belonging to the group corresponding to the concept “temperature” (in FIG. 3, it acquires “rising”, “hot”, or “opening”).
  • TG04 is a word that belongs to a group corresponding to the concept “operation of air conditioner” (in FIG. 3, obtains either “rising” or “hot”) processing.
  • the data includes data describing the determination conditions, a list of possible determination results, and a transition constant k in the return direction, which will be described later, for each determination process.
  • the data describing the contents of the discrimination process includes the data describing the transition constant k of the advancing direction for determining the advancing direction for each discrimination result.
  • FIG. 5 (a) shows an example of the discrimination process CNxx.
  • the discrimination process CN01 is “a process for discriminating whether or not the window is open! /”.
  • the transition constant k for determining whether or not to proceed to the subsequent process when it is determined to be 0.3 is determined to determine whether or not to proceed to the subsequent process when it is determined that it is not open. So the transition constant k is 0.4.
  • the flow chart of this example is shown in Fig. 5 (b).
  • Node CN01.1 shown in Fig. 5 (b) is the start point node indicating the start point of processing
  • node CN01.2 is the node in the direction of travel when it is determined that the window is closed. Its transition constant k is 0.4.
  • node CN01.3 is a node in the traveling direction when it is determined that the window is open, and its transition constant k is 0.3.
  • the semi-IJ specific process CN02 is a process for determining whether the status of the air conditioner 51 is ON (whether or not the power is in operation), and for determining whether or not to proceed to the subsequent process when it is determined that the air conditioner is operating.
  • the transition constant k is 0.5, and the transition constant k is 0.3 when it is determined that it is off (not operating).
  • the “discrimination process” may acquire any acquisition source power for data used for discrimination.
  • acquisition sources for example, other processes executed by the language analysis unit 2 and the agent processing unit 6, devices (sensors) belonging to the input / output target device group 5, and other external devices may be considered.
  • the data describing the contents of the discrimination processing further includes, for example, data specifying an acquisition source of data used for discrimination! /.
  • predetermined data may be output to a predetermined output destination prior to discrimination (in this case, a symbol indicating the processing is, for example, QBxx).
  • data representing a predetermined question may be delivered to the speech synthesis processing unit 3 prior to discrimination.
  • the data describing the content of the determination process includes, for example, data specifying the content of the output data and the output destination of this data .
  • Fig. 6 (a) shows an example of the discrimination process QBxx.
  • the discrimination process QB01 is “ Can you open the window? Do you turn on the air conditioner? ”And the response constant (the user's answer) is“ turn on air conditioner ”, the transition constant k for the direction of travel is 0.7, and the direction of travel when the window is“ open ”.
  • the transition constant is 0.4.
  • Node QB01.1 shown in Fig. 6 (b) is the start node indicating the start point of processing, and node QB01.2 is the progress when it is determined that “air conditioner” is specified for the inquiry.
  • node QB01.3 is a node in the direction of travel when it is determined that opening a window is specified, and its transition constant k is 0.4.
  • the discriminating process QB02 inquires the IJ user, “Do you want to close the window?” And the transition constant k in the direction of travel when the response (user's answer) is “close” is 0.5. The transition constant k in the traveling direction when it is “not closed” is 0.3.
  • the data describing the contents of the "input / output process" stored in the process item database D4 is composed of a data force that specifies the contents of data to be input or output.
  • Input data and output data may have arbitrary contents.
  • the output data may be data representing voice reading generated by the voice output unit 4 via the voice synthesis processing unit 3 or a control signal for controlling an external device.
  • the input data is, for example, data supplied from an external device.
  • Fig. 7 (a) shows an example of output processing EXxx.
  • the output process EX01 is an operation of “closing the window and operating the air conditioner”, and the transition constant k in the progress direction for performing the process after the operation is 0.8.
  • the flowchart for this example is shown in Fig. 7 (b).
  • the node EX01.1 shown in Fig. 7 (b) is the start point node indicating the start point of the process
  • the node EX01.2 is the node indicating the end of the process
  • the transition constant k is 0.8.
  • selection of a node indicating the end of the process may be made an essential process without setting the transition constant k.
  • the wire database D5 is configured with a collective force of data (hereinafter, this data is referred to as a wire) describing transitions between a plurality of processes (TG, CNxx, QBxx, EXxx).
  • the wire is composed of data power described in the format shown in Fig. 8, for example.
  • the wire W n (Wl, W2 ) transitions from the preceding process X (From (X)) to the subsequent process Y (To (Y)) (From (X) To (Y) )
  • the preceding process (X) and the subsequent process Data specifying the process (Y) and the weighting factor U given to the transition.
  • the preceding process X is a discrimination process, it is necessary to describe the force that is the transition from which discrimination result of the discrimination process.
  • Transition source process X and transition destination Y are
  • the weighting factor U of each wire is calculated and set as appropriate according to the progress of processing that is not a fixed value.
  • the calculation of the wire weight coefficient 3 ⁇ 4J will be described later with reference to FIG.
  • the agent processing unit 6 executes a flow represented by the processing item database D4 and the wire database D5 as a whole.
  • the processing item database D4 and the wire database D5 can describe a flow as shown in FIG. 9 as a whole based on the examples of FIGS.
  • the agent processing unit 6 waits for the word data indicating the word “hot” to be supplied from the language analysis unit 2 and supplies it. Is acquired and handed over to the discrimination process CN01 (wire W1).
  • the agent processing unit 6 obtains information indicating whether or not the window is open from the window opening / closing control unit 52. If it is determined that the window is open, the agent processing unit 6 moves the process to the input / output process EX01 (wire). W2). In the input / output process EX01, a control signal instructing to close the window is output to the window opening / closing control unit 52, and a control signal instructing to start the cooling operation is output to the air conditioner 51. As a result, the window opening / closing control unit 52 closes the window, and the air conditioner 51 starts the cooling operation.
  • the process proceeds to a determination process QB01 including a question (wire W3).
  • the agent processing unit 6 first supplies the speech synthesis processing unit 3 with data representing the sentence “Do you want to open the window or turn on the air conditioner?”.
  • the voice synthesis processing unit 3 reproduces the voice that reads out the sentence via the voice output unit 4.
  • the agent processing unit 6 next waits for the data representing the word “window” or the word “air conditioner” to be supplied from the language analysis unit 2, and the corresponding data is supplied. When this is done, it is determined whether this data represents the word “window” or the word “air conditioner”. If it is determined that it represents the word “window”, the process proceeds to input / output processing EX03 (wire W5). If it is determined that the word “air conditioner j” is represented, the process proceeds to the input / output process EX02 (wire W6).
  • the agent processing unit 6 In the input / output process EX02, the agent processing unit 6 outputs a control signal instructing the air conditioner 51 to start cooling. On the other hand, in the input / output process EX 03, the agent processing unit 6 outputs a control signal instructing the window opening / closing control unit 52 to open the ventilation window.
  • the agent processing unit 6 waits for the data indicating the word "open window” or "open” to be supplied from the language analysis unit 2 (trigger acquisition processing TG02). When supplied, the processing is transferred to the input / output processing EX03 (wire W4).
  • the agent processing unit 6 performs a plurality of determination processes in parallel, for example, when the language analysis unit 2 supplies a plurality of word data.
  • the agent processing unit 6 has a plurality of processes (for example, input of data in the trigger acquisition process and the discrimination process) that target the same word, and the word data representing the corresponding word is the language analysis unit. When supplied from 2, all these processes are performed in parallel.
  • the weighting factor of the target wire W is the transition constant on the transition path from the current process to the target wire w. It is obtained by sequentially multiplying k.
  • FIG. 10 (a) the processing shown in the flow of FIG. 10 (a) is assumed.
  • the process in Fig. 10 (a) as a whole starts when it detects that the user power S is "hot”, and starts by detecting whether or not the window is open. In this case, it asks the user whether to open the window or turn on the air conditioner, and performs processing according to the user's answer.
  • the transition constant k for determining each traveling direction is 0.5 in the forward direction and the reverse (return) direction in any of the processes TG101, CN101, and QB101. Both directions are 0.1.
  • the wire is' defined, for example, as shown in FIG. 10 (b).
  • the agent processing unit 6 starts from the trigger acquisition process TG101. Sequentially multiply the transition constant k on the path to the wire of interest As a result, the weight coefficients of each of the wires W51 to W55 (including all wires not shown) are calculated, and the calculation results are associated with the wires W51 to W55 and stored in the wire database D5. Write.
  • J is the value of the transition constant k assigned to the connection node in the determination process CN101 of the trigger acquisition process TG101, that is, 0.5.
  • the result of multiplying k 0.5, that is, 0.25.
  • the weight factor 3 ⁇ 4J of the wire W52 becomes 0.5, which is equal to the transition constant k assigned to the wire 3 ⁇ 4 node, and the weight constant of the wire W54.
  • the engagement becomes a value 0.5 equal to the transition constant k assigned to the connection force 3 ⁇ 4 node of the wire W52.
  • the product of 0.5, that is, 0.25
  • the weight coefficient J of the wires W53 and W55 becomes a value 0.5 equal to the transition constant k assigned to the nodes connected to the wires W53 and W55, respectively.
  • the transition constant k 0.5 is 0.05.
  • Fig. 10 (c) shows an example of a change in the weight coefficient 3 ⁇ 4J of each wire Wn.
  • the calculation of the weighting factor s is executed for all the wires of all the flows other than the processing of the related flow, and the calculated weighting factor 3 ⁇ 4J is set for each wire.
  • the transition constant k should be set high to some extent, especially for wires that have the trigger acquisition process as the preceding process. By doing this, it is possible to jump to a conversation whose content is significantly different from that of the conversation that was made just before.
  • the voice input unit 1 and the language analysis unit 2 operate independently to capture and analyze the voice, and provide word data to the agent processing unit 6.
  • the agent processing unit 6 performs the following processing.
  • the agent processing unit 6 recognizes (identifies) the supplied word (step S 11 in FIG. 11), and determines the power / power corresponding to the word registered in the word database D4. (Step S12). If not registered (step SI 2, No), the word input process is terminated.
  • step S12 Yes
  • the word likelihood and the wire weight are related to the processing that is subject to the "concept" of the word or the dulp to which the word belongs.
  • the product of coefficient 3 ⁇ 4J is calculated (step S13).
  • the agent processing unit 6 performs the above-described processing for obtaining the product of the score and the weighting factor for all the wires included in the flow. Subsequently, the agent control unit 6 selects a wire having the maximum calculated product S′J (FIG. 11, step S14). The agent control unit 6 advances the control to the process subsequent to the selected wire (step S15). For example, if the product obtained for wire W51 shows the highest value, the input word data is recognized as indicating the word “hot”, and wire W51 is used as the subsequent process. Transitions to the discrimination process CN101. Usually, starting from the current process, the wire weight coefficient 3 ⁇ 4J is relatively large. For this reason, in general, the process proceeds to the next process, but the likelihood is high with a completely different word from the previous one. When a thing is input, processing corresponding to the word may be started.
  • the agent processing unit 6 recalculates the weighting factor 1 of each wire based on the state after the transition (step S16). Thereafter, the process proceeds according to the contents of the process (step S17).
  • the discrimination process CN101 is executed.
  • the agent processing unit 6 performs processing such as fetching window opening / closing information from the window opening / closing control unit 52.
  • the signal indicating the opening / closing of the window from the window opening / closing control unit 52 may have an opening likelihood of 100% or 0% and a closing likelihood of 0% or 100%. Further, it may be changed according to the opening degree.
  • the process for controlling the air conditioner and the window opening / closing control unit 52 is executed as in the input / output process EX01 in the process, the control to the air conditioner 51 and the window opening / closing control unit 52 is controlled according to the processing content. Do.
  • the user power S pronounces “open window” and the score for the word “open window” is 90, for example. If the word data of% is obtained, the product of this score and the weight coefficient of the wire W5 related to “determining whether the user says“ open the window ”” is 90% X 0.8, 72. If this value is a large value that cannot be obtained from the product of the score calculated for other wires and weight engagement, the input speech is recognized as “open the window” and the agent processing unit There is a high possibility that the process 6 jumps to the discrimination process QB101.
  • the weighting factors of other wires are set to a very low level, the possibility of occurrence of transitions defined by these other wires becomes extremely low, and as a result, a certain level of conversation is expected.
  • the control process can be performed with the recognition rate improved along the flow.
  • a transition in the return direction may also occur.
  • the transition constant k in the return direction may be set to a lower value than the transition constant k in the traveling direction.
  • the agent processing unit 6 excludes a process in which the obtained product value does not meet the predetermined condition (for example, a process in which the product value does not reach the predetermined value) from the target for executing the transition. May be handled.
  • the wire defines the transition in the form of process item force process item. Then, by describing the wire in the form shown in Fig. 8 and storing it in the wire database D5, the relationship between each processing item can be defined as if the force is a macro processing of a computer. It becomes possible. As a result, each processing item can be easily connected.
  • the processing item serving as a trigger is actually a score determination of a recognition target word or the like (which may be input from another input target device group) related to the connected wire.
  • the trigger acquisition processing item is not defined as the start point of the wire, but the wire itself is defined as the transition source.
  • a wire can be easily added. For example, if there are many opportunities for the user to enter a voice saying “Find a family restaurant” with the intention of taking a break after the voice input “Hot”, a wire is automatically connected to the search processing item of the family restaurant. to add. Then, after the wire is added automatically, the weight coefficient of the wire connected to the family restaurant search processing item is increased to some extent, so that the input “Find family restaurant” is appropriately handled. Will be able to. (However, in this case, the agent processing unit 6 stores, for example, map data including information indicating the location of the family restaurant, or accesses external map data.)
  • This automatic addition of wires measures the number of jumps to a certain process item. Count and do this automatically when it reaches a certain number of times.
  • the agent processing unit 6 has a function of updating the contents of the processing item database D4 and the wire database D5 to new processing item data and wires supplied from the outside. Specifically, for example, when the content of an external server that stores processing item data and Z or wire is updated, the processing unit data and Z or wire are sent to the agent processing unit 6 via the network. Notify that there is an update. Then, in response to this notification, the agent processing unit 6 accesses this server via the network and downloads new processing item data and Z or wire. Then, the old process item data and / or wire stored in its own process item database D4 and wire database D5 are updated to the new process item data and / or wire downloaded.
  • agent processing unit 6 accesses an external server and the database is updated! If you want, you can download it.
  • FIG. 12 shows a configuration example of the external server.
  • This external server 100 is for delivering word data, processing item data and / or wire data to the agent processing units 6 of a plurality of vehicles via a communication network.
  • the external server 100 includes a control unit 110, a communication control unit 120, a word Database 130, processing item database 140, wire base 150, input unit 160, output unit 170, force.
  • the control unit 110 is configured by, for example, a CPU (Central Processing Unit) and the like, and controls each unit of the distribution server 100 and executes each process described later by executing a predetermined program. Realize.
  • a CPU Central Processing Unit
  • the communication control unit 120 includes, for example, a communication device such as a modem and a router, and controls communication between the distribution server 100 and the vehicle agent processing unit 6 (communication control unit) via the network. To do.
  • a communication device such as a modem and a router
  • the configuration of the network is arbitrary.
  • a dedicated line a public line network, a cable television (CATV) network, a wireless communication network, a cable broadcasting network, and the like can be employed.
  • CATV cable television
  • the word database 130 is composed of a rewritable storage device such as a hard disk device, for example, and the word data distributed by the distribution server 100 is version information (for example, a tag). (Im Stamp).
  • the processing item database 140 is configured from a rewritable storage device such as a hard disk device, for example, and stores processing item data to be distributed together with version information (for example, a time stamp).
  • the wire database 150 is composed of a rewritable storage device such as a hard disk device, for example, and stores wire data to be distributed together with version information (eg, time stamp).
  • version information eg, time stamp
  • the administrator of the distribution server 100 operates the input unit 160 as appropriate to update the information in each DB 130-150.
  • the agent processing unit 6 of each vehicle receives the update notification from the distribution server 100 via the communication control unit (CCU) 64, for example, the agent processing unit 6 starts the processing of FIG. Is established (step S21), the updated data is downloaded, and its own database is updated (step S22).
  • the agent processing unit 6 of each vehicle establishes a session by accessing the distribution server 100 via the communication control unit (CCU) 64 periodically or appropriately (step S31), and version information ( Update date, etc.) (step S32). Then, the versions of both data are compared (step S33), and newer data than the data stored in the memory is downloaded and set in its own database (step S34).
  • the data of all vehicle control systems that can use the distribution server 100 can be updated as appropriate simply by updating the information recorded in the distribution server 100; Monkey.
  • data may be stored in the distribution server 100 after being compressed and encrypted, and the agent processing unit 6 may download and decompress and decrypt the data and set it in the database. desirable. By doing so, the amount of communication can be suppressed and information leakage can be prevented.
  • the timing at which the agent processing unit 6 downloads the data of the distribution server 100 is not limited to the above-described example, and is arbitrary, for example, processing items and / or wires corresponding to user requests are not stored. If this is detected, it will be distributed over the network.
  • the server 100 may be accessed to download new process item data and / or wires. Furthermore, when an input / output target device 5 connected to the agent processing unit 6 is newly added or a new function is added, this is automatically detected, and the network is the same as described above. It is also possible to access the distribution server 100 via, and download new processing item data and / or wires.
  • the present invention has been described by taking the case of controlling the air conditioner 51 and the window opening / closing control unit 52 as an example.
  • the control target is arbitrary, and the scene to be controlled is also arbitrary.
  • another example of controlling the air conditioner, the audio device, and the window opening / closing control unit will be described.
  • the control target device 5 includes an audio device 53.
  • the audio device 53 operates in accordance with an instruction from the agent processing unit 6 and supplies a status signal indicating its own operation status to the agent processing unit 6.
  • words meaning the concept “rising J and concept“ descending ” are grouped in the word database D3.
  • the words “raise”, “rise”, “raise”, “up” etc. are grouped into the concept “rise”, and the words “lower”, “fall”, “lower”, “lower” etc. "Down” is grouped.
  • the processing represented by the flow of FIG. 15 is defined by the processing item data stored in the processing item database D4 and the wire stored in the wire database D5.
  • each wire W is set with a weight J that becomes smaller as the reference position force is moved away from the position indicated by the processing pointer PP at that time.
  • the agent processing unit 6 determines, for each candidate, whether or not it matches the determination of all target acquisition processing TGs and determination processing CN or QB. .
  • the agent processing unit 6 multiplies the wire W corresponding to the suitable symptom of the process determined to be compatible! /, And the weight J of each wire at that time and the score S of each word. Find the multiplication value S 'J for each wire. Then, the obtained products S′J of the respective wires are compared with each other, and the process of leading the wire W having the largest value and the multiplication value S′J is executed.
  • the agent control unit 6 determines in the target acquisition process TG101 that the input word “raise” matches the concept “rise”. Then, for wire W101, find the tree 'S with the weight J and the score S of the word "raise”. And the product of V over wire W101 is larger than that of other wires!
  • the agent processing unit 6 takes in status information from the audio device 53 and takes in information indicating the opening / closing state of the window from the window opening / closing control unit 52. If the agent processing unit 6 determines in the determination process CN101 that the audio device 53 is not operating and the window is closed, the process is performed using the wire W102 and the determination process with inquiry QB101. Proceed to, and output a message to the speech synthesis processing unit 3 that prompts the user to specify the target and content of the operation, such as “What to give? Turn on the audio?”. The voice synthesis processing unit 3 and the voice output unit 4 generate corresponding sounds and emit the sounds.
  • the process proceeds to the wire W104.
  • the process proceeds to QB102 and outputs a message prompting the user to specify the operation target, such as “What to raise? Volume or Window?”.
  • the audio device 53 is the only device that corresponds to the concept “rising” and can be controlled. It is. For this reason, the control proceeds to the input / output processing EX102 through the wire W107, outputs a message such as “Raise volume”, and increases the volume of the audio device 53 by a predetermined amount in the input / output processing EX103. .
  • the control turns on the wire W108 and outputs a message such as “Close window” in the input / output process EX104, and then turns on the wire W109 and raises and closes the window in the input / output process EX105.
  • the process moves to the determination process CN201 by holding the wire W201.
  • the agent processing unit 6 fetches status information from the air conditioner 51 in the discrimination process CN201.
  • the agent processing unit 6 determines in the determination process CN201 that the air conditioner 51 is not operating and the window is closed, the process is performed using the wire W202 to determine with an inquiry. Proceed to processing QB201, and output a message to the speech synthesis processing unit 3 that prompts the user to specify the target and content of the operation, such as “What to give? Heating?”. voice The synthesis processing unit 3 and the audio output unit 4 generate corresponding sounds and emit the sounds.
  • the control proceeds to the input / output processing EX202 through the wire “W209”, outputs a message “increase the set temperature of the air conditioner”, and increases the set temperature by a predetermined amount in the input / output processing EX203.
  • the device corresponding to the concept “rising” and controllable is the window opening / closing control unit. Only 52. For this reason, after controlling the wire 210 via the I / O processing EX204 to output a message such as “Close window”, control the wire W208 to close the window using the I / O processing EX205 (raise the window glass). ). Next, an operation for controlling the air conditioner 51 and the audio device 53 will be described.
  • the process starts with the wire W301 being moved to the discrimination process CN301.
  • the agent processing unit 6 takes in information indicating the operation state from the air conditioner 51 and the audio device 53 in the discrimination process CN301.
  • the processing is performed through the wire W302. Proceed to appending determination process QB301, and output a message to the speech synthesis processing unit 3 prompting the user to specify the target and contents of the operation, such as “What to give? Heating? Turn on the audio?”.
  • the voice synthesis processing unit 3 and the voice output unit 4 generate corresponding voices and emit them.
  • the device corresponding to the concept "rising” and controllable is the audio. Only device 53. For this reason, after controlling the wire 311 to output a message such as “Increase volume” by the input / output processing EX305, the control increases the volume of the audio device 53 by inputting the wire W309 and the input / output processing EX306.
  • processing item data stored in the processing item database D4 and the wire stored in the wire database D5 define the processing represented by the flow in FIG. To do.
  • the target acquisition process TG401 determines that the input word "raise” matches the concept "raise”. Then, the product of the score S and the weight coefficient for the wire W401 is larger than the product for the other wires (assumed to be).
  • the agent processing unit 6 the discrimination processing CN 401 receives information indicating the operation state from the devices 51 to 53, respectively. Capture.
  • the agent processing unit 6 determines that the air conditioner 51 is not operating, the window is closed, and the audio device 53 is not operating in the J state in the determination processing CN401, the processing is performed by the wire W402.
  • the process proceeds to QB401 with inquiry, and a message that prompts the user to specify the subject and content of the operation, such as “What to give? Heating? Turn on the audio switch?” Output to.
  • the speech synthesis processing unit 3 and the speech output unit 4 generate corresponding speech and emit it.
  • the control proceeds to the input / output process EX403 through the wire W 405, and the message “Increase the set temperature of the air conditioner” is displayed.
  • the wire W406 is connected and the set temperature is increased by a predetermined amount by the input / output processing EX404.
  • the device corresponds to the concept "rising” and can be controlled. There is only the window opening / closing control unit 51. For this reason, the control proceeds to the input / output process EX405 through the wire W407, outputs the message “close window”, receives the wire W408, and closes the window in the input / output process EX406 (opens the window glass). Raise to home position)
  • the discrimination process CN401 if it is discriminated that "the audio device 53 is operating, the air conditioner 51 is stopped, and the window is closed", it corresponds to the concept "rising” and can be controlled. Only the audio device 53 is the only device. For this reason, after controlling the wire 410 via the input / output processing EX408, the wire W411 is connected after outputting a message such as “Raise the volume”. Then, increase the volume of the audio device 53 with the input / output processing EX408.
  • Judgment processing When the CN 401 determines that the operation state is other than the above, the processing is performed by holding the wire W412 and confirming "What to raise? Set temperature of air conditioner? Close window? A message prompting the user to specify the operation target is output. In response to this message, when the user speaks, for example, “air conditioner”, “temperature” or “setting”, “window”, “close”, “glass”, “audio”, “sound”, etc., these words In accordance with the contents, control proceeds to the above-described input / output processes EX403, EX405, and EX shelves, for example, through the wheels W413 to W415 as appropriate.
  • the variable to be changed (the set temperature of the air conditioner, the position of the window glass or the volume of the audio device 53) and the variable to be changed in order to obtain the result instructed verbally by the user. Identify the direction (rising) to be performed and the device (air conditioner 51, window opening / closing control unit 52 or audio device 53) to be controlled to change the variable, and change the specified variable in the specified direction.
  • the device air conditioner 51, window opening / closing control unit 52 or audio device 53
  • the voice recognition means When there are a plurality of devices that can be controlled to change the direction, based on the candidates identified by the voice recognition means further acquiring voice data, And determine whether wants work to control the identified device, it becomes possible. Note that when the operation target is specified again by voice after outputting the above message for specifying the operation target, the target variable of the specified operation target is increased by a predetermined amount.
  • the agent processing unit 6 can cope with an instruction whose content is different from an instruction scheduled for the process indicated by the pointer PP. That is, as described above, the wire weighting factor corresponding to the trigger acquisition processing is set to a predetermined value higher than the weighting factors of the other wires, so the processing corresponding to the above-described “raising” is performed. Even during execution, other unrelated voice instructions such as “What time is it now?” Can be handled appropriately.
  • the relationship between the wire and the processing item described in the flowchart shown in FIG. 5, the conditions set for the wire, the transition constant k, etc. Applies as appropriate.
  • the language analysis unit 2 refers to the word database and calculates a score for each word.
  • the calculated score is output to the agent processing unit 6 as word data, and the score is set to the wire in which the corresponding word is set.
  • the caches to which the score is supplied multiply the corresponding weighting factor and the score, respectively, to obtain a final discrimination result.
  • the word having the highest value is recognized as the input voice.
  • the input voice is recognized as “raise”. Then, the corresponding wire is selected, and the state is changed to the process indicated by the wire. The process proceeds in the same way.
  • a plurality of similar words having different meanings are set for the wire, it is possible to appropriately cope with the words that the user utters in the mood. For example, set a word as a condition for one wire, such as “Take up J ⁇ up”. By doing so, the wire is appropriately selected regardless of which voice is instructed, and this control can be performed in a natural conversation.
  • the above-described interior air conditioning system described above is not necessarily required to completely identify the device to be controlled and the content of the control to be applied if the data and wires indicating the content of the processing are appropriately described.
  • the agent processing unit 6 has a function of automatically generating a new wire. However, any relationship wire is set for a new processing item that has been downloaded and an existing processing item. You may want to download a program that describes this as well.
  • the configuration of the vehicle interior air conditioning system is not limited to that described above.
  • the devices belonging to the input / output target device group 5 do not necessarily have to directly satisfy the user's desire.
  • an external display device is controlled to take a specific action to the user.
  • a device that outputs a message prompting you to do so for example, a display device such as a liquid crystal display).
  • the word database does not necessarily store data indicating words but also data indicating words composed of a plurality of words as elements of the word database. You can also store the phoneme data as an element of the word database.
  • the data used for grouping does not necessarily have to take the form of a set of flags. .
  • the agent processing unit 6 may download new processing item data and wires spontaneously without waiting for a notification from an external supply source, or may be supplied from the language analysis unit 2. In response to the word data, download of new process item data or wire may be started. [0134] Further, the agent processing unit 6 changes the weighting factor described in the wire according to a predetermined criterion based on the number of transitions represented by the wire in the past, and the transition constant k is changed to the value after the change. The wire may be rewritten so that Specifically, for example, for each wire, the number of times the transition represented by the wire is executed is stored in the wire database.
  • the agent processing unit 6 rewrites the value of the number of times, thereby incrementing the value of the number of times by 1, and sets the transition constant k described in each wire to, for example, Rewrite with a value proportional to the number of times stored for that wire.
  • the agent processing unit 6 changes the data output in the discrimination processing and the input / output processing according to the data handed over to these processings, the data input accompanying these processings, and other arbitrary conditions. You may make it make it.
  • the vehicle interior air conditioning system may include a display device (for example, a liquid crystal display) for outputting an image according to the control of the agent processing unit 6.
  • the display device may be controlled to display a predetermined image for each process.
  • the agent processing unit 6 may collectively acquire a plurality of word data that are continuously spoken in one input process or one discrimination process. In addition, the agent processing unit 6 identifies under which concept the plurality of word data acquired in a batch is grouped within the same group, and only when the identified concept matches a predetermined concept. Some or all of the acquired word data may be used for processing.
  • trigger acquisition processing and discrimination processing may be activated (trigger acquisition, condition establishment) only when a common concept represented by multiple words is obtained! /.
  • the agent processing unit 6 also includes a plurality of mutually connected data processing devices that perform various processes such as trigger acquisition processing, discrimination processing, and input / output processing and the flow formed as a whole.
  • each data processing device that constitutes the analysis processing unit 3 uses the processing item data to represent data that represents a portion that the analysis processing unit 3 may execute in the entire flow that the analysis processing unit 3 can execute. It is sufficient to store them as elements of the database or wire database. Then, if the data stored in each data processing device is data that macro-defines the processing of the part executed by the data processing device, a plurality of data processing devices are caused to perform distributed processing. It is also easy.
  • the in-vehicle air conditioning system may also include a plurality of voice input units 1, language analysis units 2, or voice output units 4.
  • the audio input unit 1 is, for example, a recording medium (for example, floppy (registered trademark) disk, CD (Compact Disc), MO (Magneto-Optical Disk), etc.)) on which data representing audio is recorded.
  • a recording medium drive device for example, a floppy (registered trademark) disk drive, a CD-ROM drive, an MO drive, etc. may be provided.
  • the device control apparatus can be realized using a normal computer system, not a dedicated system.
  • the program By installing the program from the recording medium storing the information, it is possible to configure an in-vehicle air conditioning system that executes the above-described processing. As a process corresponding to the operation of the in-vehicle air conditioning system in FIG. 1, for example, the flow shown in FIG. 4 is executed.
  • a program for causing a personal computer to perform the functions of the above-described in-vehicle air conditioning system may be uploaded to a bulletin board (BBS) of a communication line and distributed via the communication line.
  • the carrier wave may be modulated by a signal representing the program, the obtained modulated wave may be transmitted, and the apparatus that has received the modulated wave may demodulate the modulated wave to restore the program.
  • the above-described processing can be executed by starting this program and executing it under the control of the OS in the same manner as other application programs.
  • the recording medium is a program excluding that part. May be stored. Also in this case, according to the present invention, the recording medium is a computer. A program for executing each function or step to be executed is stored

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

言語解析部(2)は、音声入力部1が入力した音声に音声認識を施して、この音声が表している可能性のある単語とそのスコアとを特定し、これらを表す単語データをエージェント処理部(6)に供給する。エージェント処理部(6)は、単語データ等を取得するデータ取得処理や、判別処理、入出力処理を定義する処理項目データと、ひとつの処理から次の処理への遷移を定義しこの遷移に重み係数を与えるデータであるワイヤとを記憶しており、処理項目データとワイヤとが全体として表すフローを実行することにより、入出力対象機器群(5)に属する機器を制御する。フロー内のどの処理へと遷移するかは、処理が進んだ地点とワイヤの接続関係とにより決まる各ワイヤの重み係数と、単語データのスコアとにより決まる。ワイヤや処理項目データは外部サーバよりダウンロード可能である。

Description

明 細 書
機器制御装置及び機器制御方法
技術分野
[0001] この発明は、機器制御装置及び機器制御方法に関する。
背景技術
[0002] 近年、音声認識の技術を用いて音声を認識し、認識結果に応答して電気機器など を制御する手法が用いられている。この手法は、例えば、特許文献 1に記載されてい るように、入力した音声が表す単語を識別し、識別された単語が所定のキーワードに 合致するか否かを判別して、判別結果に基づいて外部の機器を制御するものである 特許文献 1 :特開平 4一 324312号公報
発明の開示
発明が解決しょうとする課題
[0003] しかし、人間が言語の形で発する指示を完全に認識するのは困難である。このため 、上述の手法では、人間が言語の形で発する指示に適切に応答することができない 場合があった。
課題を解決するための手段
[0004] この発明は上記実状に鑑みてなされたものであり、人間が言語の形で発する指示 に適切に応答して機器を制御できる機器制御装置及び機器制御方法を提供するこ とを目的とする。
[0005] 上記目的を達成するため、この発明の第 1の観点にかかる機器制御装置は、 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識手段と、
前記音声認識手段が特定した候捕と、制御する対象である外部の複数の機器の状 態'を示すデータとに基づき、前記音声の発話者が欲する結果を得るために変化させ るべき変量、当該変量を変化させるべき方向、及び当該変量を変化させるために制 御すべき機器を特定し、特定した変量を特定した方向に変化させるよう、特定した機 器を制御する機器制御手段と、を備え、
前記機器制御手段は、
特定した変量を特定した方向に変化させるよう制御可能な機器の個数が 1個である ときは当該 1個の機器を制御し、
特定した変量を特定した方向に変化させるよう制御可能な機器が複数存在するとき は、前記音声認識手段が音声データを更に取得して特定した候補に基づいて、制 御可能な各機器のうち!/ヽずれの機器の操作を欲するかを特定し、特定した機器を制 御する、
ことを特 ί敷とする。
[0006] 前記機器制御手段は、特定した変量を特定した方向に変化させるよう制御可能な 機器が複数存在するとき、制御可能な各機器のうち!ヽずれの機器の操作を欲するか を決定することを促すデータを出力するものであってもよい。
[0007] また、この発明の第 2の観点に力かる機器制御方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された候補と、制御する対象である外部の複数の機 器の状態を示すデータとに基づき、前記音声の発話者が欲する結果を得るために変 化させるべき変量、当該変量を変化させるべき方向、及び当該変量を変化させるた めに制御すべき機器を特定し、特定した変量を特定した方向に変化させるよう、特定 した機器を制御する機器制御ステップと、より構成されており、
前記機器制御ステップでは、
特定した変量を特定した方向に変化させるよう制御可能な機器の個数力 個である ときは当該 1個の機器を制御し、
特定した変量を特定した方向に変化させるよう制御可能な機器が複数存在するとき は、前記音声認識手段が音声データを更に取得して特定した候補に基づいて、制 御可能な各機器のうち!/ヽずれの機器の操作を欲するかを特定し、特定した機器を制 御する、
ことを特 ί敫とする。 [0008] また、この発明の第 3の観点に力かるコンピュータプログラムは、 コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された候補と、制御する対象である外部の複数の機 器の状態を示すデータとに基づき、前記音声の発話者が欲する結果を得るために変 化させるべき変量、当該変量を変化させるべき方向、及び当該変量を変化させるた めに制御すべき機器を特定し、特定した変量を特定した方向に変化させるよう、特定 した機器を制御する機器制御ステップと、を実行させ、
前記機器制御ステップでは、
特定した変量を特定した方向に変化させるよう制御可能な機器の個数力 ^個である ときは当該 1個の機器を制御し、
特定した変量を特定した方向に変化させるよう制御可能な機器が複数存在するとき は、前記音声認識手段が音声データを更に取得して特定した候捕に基づいて、制 御可能な各機器のうち!/ヽずれの機器の操作を欲するかを特定し、特定した機器を制 御する、
ように動作させる。
発明の効果 .
[0009] この発明によれば、人間が言語の形で発する指示に適切に応答して機器を制御で きる機器制御装置及び機器制御方法が実現される。
図面の簡単な説明
[0010] [図 1]この発明の実施の形態に係る車内空調システムを示す図である。
[図 2]この実施の形態に係る車内空調システムのより詳細な構成図である。
[図 3]グルーピング用のフラグの具体例を模式的に示す図である。
[図 4]トリガ取得処理を説明するための図である。
[図 5]判別処理を説明するための図である。
[図 6]問い合わせ付きの判別処理を説明するための図である。
[図 7]入出力処理を説明するための図である。 [図 8]ワイヤを示す図である。
[図 9]処理項目データベース及びワイヤデータベースが全体として表してレ、るフロー を示す図である。
[図 10]重み係数の設定を説明するための図である。
園 11]エージヱント処理部の動作を説明するためのフローチャートである。
[図 12]外部サーバ (配信サーバ)の構成と、ネットワーク構成とを示す図である。
[図 13]ダウンロード処理を説明するためのフローチャートである。
[図 14]応用例を説明するための構成図である。
[図 15]図 14に示すシステムの動作例を示すフローチャートである。
[図 16]図 14に示すシステムの動作例を示すフローチャートである。
[図 17]図 14に示すシステムの動作例を示すフローチャートである。
[図 18]図 14に示すシステムの動作例を示すフローチャートである。
符号の説明 ·
1 音声入力部
2 言語解析部
3 音声合成処理部
4 音声出力部
5 入出力対象機器群
51 エアコン
52 窓開閉制御部
6 エージェント処理部
発明を実施するための最良の形態
以下、図面を参照して、この発明の実施の形態を、車両内に設置された車内空調 システムを例として説明する。
図 1は、この車内空調システムの構成を示すブロック図である。また、図 2は、各部 の物理的な構成の例を示すブロック図である。
図 1に示すように、この車内空調システムは、音声入力部 1と、言語解析部 2と、音 声合成処理部 3と、音声出力部 4と、入出力対象機器群 5と、エージェント処理部 6と より構成されている。
[0013] 音声入力部 1は、音声を入力し、入力した音声からデジタル形式の音声データを生 成し、この音声データを言語解析部 2へと供給する。具体的には、音声入力部 1は、 図 2に示すように、例えば、マイクロフォン 11と、 AF (Audio Frequency)増幅器 12と、 サンプルホールド回路を内蔵する A/D (Analog- to- Digital)コンバータ 13などより構 成されている。マイクロフォン 11は音声を音声信号に変換して出力する。 AF増幅器 12は、マイクロフォン 11からの音声信号を増幅して出力する。 AZDコンバータ 13は 、 AF増幅器 12からの増幅された音声信号をサンプリング、 A/D変換することにより 、デジタル音声データを生成し、言語解析部 2へと供給する。
[0014] 言語解析部 2と音声合成処理部 3とエージェント処理部 6とは、図 2に示すように、そ れぞれ、例えば、 CPU (Central Processing Unit)等からなるプロセッサ 21、 31、 61と 、このプロセッサ 21、 31、 61が実行するプログラムを記憶するハードディスク装置等 の不揮発性メモリ 22、 32、 62と、プロセッサのワークエリアとなる記憶領域を有する R AM (Random Access Memory)等の揮発性メモリ 23、 33、 63とより構成されている。 なお、言語解析部 2、音声合成処理部 3及ぴエージェント処理部 6の一部又は全部 の機能を 1つのプロセッサや 1つの不揮発性メモリや 1つの揮発性メモリで構成しても よい。
[0015] 言語解析部 2は、音声入力部 1より供給された音声データに音声認識処理を行う。
言語解析部 2は、音声認識処理により、音声データが表している単語の候補と、この 候補の尤度 (スコア)とを特定する。音声認識の手法は任意である。また、単語の候 捕は複数特定されてよい。言語解析部 2は、特定した候捕とその候補のスコアとを示 すデータ (以下、単語データと呼ぶ)を生成し、エージェント処理部 6へと供給する。
[0016] 音声合成処理部 3の不揮発性メモリ 32は、単語の波形を表すデータを記憶する音 片データベース D1と、音素の波形を構成するための波形データを記憶する素片デ ータベース D2とを記憶する。
[0017] 音片データベース D1は、単語の波形を表すデータを記憶する。素片データベース D2は、音素を構成するための波形データを記憶する。音声合成処理部 3は、音片デ ータベース D1及ぴノ又は素片データベース D2に格納されてレ、るデータを用いて、 エージェント処理部 6より供給された文章データを読み上げる音声を表すデジタル音 声データを生成する。
[0018] 音声合成部 3は、生成した音声データを音声出力部 4に供給する。デジタル音声デ ータを生成する手法は任意であるが、例えば、録音編集方式や規則合成方式 (Rule-based synthesis)を使用できる。なお、録音編集方式は、例えば、単語単位の 音声を予めアナウンサーに読んでもらい、それらをつなぎあわせて出力する方式であ る。また、規則合成方式は、音韻 (子音や母音)や仮名のような比較的小さな単位を つなぎあわせて出力する方式である。
[0019] 音声出力部 4は、音声合成処理部 3から供給されたデジタル音声データが表す音 声を再生する。より詳細には、音声出力部 4は、図 2に示すように、 D/A(
Digitaト to- Analog)コンバータ 41、 AF増幅器 42及びスピーカ 43を備える。 D/Aコ ンバータ 41は、音声合成処理部 3より供給されたデジタル音声データを DZA変換し て、アナログ音声信号に変換する。 AF増幅器 42は、アナログ音声信号を増幅する。 スピーカ 43は、アナログ音声信号に従って振動し、アナログ音声データが表す音声 を再生し、放音する。
[0020] 入出力対象機器群 5は、例えば、エアコン (エアコンディショナ) 51や、窓開閉制御 部 52などより構成されている。
[0021] エアコン 51は、制御信号に従って、冷房、暖房又は送風の動作を行う。また、エア コン 51は、自己の動作状態を表すデータ、例えば、自己が冷房動作中、暖房動作中 、設定温度へ向けた温度調整中、送風動作中及び停止中のうちどの状態にあるかを 示すステータスデータを出力する。
[0022] 窓開閉制御部 52は、制御信号に従って窓の開閉を行うものであり、モータ、制御信 号に従ってモータの回転及ぴ停止を制御する制御回路、モータの回転に従って窓 枠を動かすウィンチ等を備える。また、窓開閉制御部 52の制御回路は、窓開閉制御 部 52の動作状態を表すデータ、例えば、窓が開いている量 (程度;開度)を示すデ ータを出力する。
[0023] エージェント処理部 6は、モデムやパケット通信端末等からなる通信制御装置 64を 備え、この通信制御装置を介して外部のネットワーク (例えば、無線電話回線を介し たインターネット)を介して後述する配信サーバ 100に接続している。
[0024] エージェント処理部 6の不揮発性メモリ 62は、単語データベース D3を記憶する。単 語データベース D3は、複数の単語のデータと、複数の単語のグルーピングを示すた めの単語グルーピング用のフラグ 1個以上とを、互いに対応付けて格納する。
[0025] 1個の単語に対応付けられている各フラグは、ある概念に対応付けられてグルーピ ングされている。そして、フラグが所定の値 (以下では、この値は" 1"であるとする)を 示す場合は、このフラグに対応付けられた単語力 このフラグに対応付けられたグル ープにグルーピングされている。一方、このフラグが他の値 (例えば" 0")を示す場合 は、この単語は、そのフラグに対応付けられたグループにはグルーピングされていな い。
[0026] 図 3は、グルーピング用のフラグの具体例を模式的に示す図である。
図 3の例では、単語「上がる」、「暑い」及び「開ける」に、単語グルーピング用のフラ グが 4ビットずつ対応付けられて!/、る。
[0027] 4ビットビット群の最上位 (MSB)のフラグは「温度」という概念に対応付けられている 。上位から 2ビット目のフラグ力 ^エアコンの操作」という概念に対応付けられている。 上位から 3ビット目のフラグが「窓の開閉」という概念に対応付けられている。最下位 のフラグ力 S「故障」という概念に対応付けられている。一方、図示するように、単語「上 がる」に対応付けられてレ、る 4ビットのフラグ群の値が 2進数" 1110"であり、単語「暑 い」に対応付けられているフラグ群の値が 2進数" 1100"であり'、単語「開ける」に対 応付けられてレ、るフラグ群の値力 ½進数" 1010"である。
[0028] この場合、このフラグ群は、概念「温度」の下には単語「上力 Sる」、「暑い」及び「開け る」がグルーピングされており、概念「エアコンの操作」の下には単語「上がる」及ぴ「 暑い」がグルーピングされており、概念「窓の開閉」の下には単語「暑い」及び「開ける 」がグルーピングされており、概念「故障」の下には単語「上力 Sる」、「暑い」又は「開け る」の!/、ずれもグルーピングされて!/、な!/、ことを示す。
なお、各単語及ぴ各概念は、処理項目データベース D4に格納されている各処理 項目の「判別条件」として使用される。
[0029] エージェント処理部 6の不揮発性メモリは、更に、処理項目データベース D4及ぴヮ ィャデータベース D5を記憶してレ、る。
[0030] 処理項目データベース D4は、エージェント処理部 6が実行する様々な処理、例え ば、トリガ取得処理 (TGxx)、判別処理 (CNxx又は QBxx)及ぴ入出力処理 (後述 する EXxx)の内容を、処理項目(ポインタ)毎に記述するデータ(処理項目データ)を 格納したデータベースである。なお、「XX」は識別番号である。
[0031] 処理項目データベース D4に格納される処理項目のうち、「トリガ取得処理 (TGxx) 」の内容を記述するデータは、これらの処理を開始させるトリガを特定するトリガデー タ(トリガとして取得するデータの内容を指定するデータ)と、後述する進行方向決定 用の遷移定数 k (その進行方向に遷移する程度を示すもので、後述する重み係 ¾Jの 算出基準となる定数)とを含む。
[0032] トリガデータは任意であり、例えば、エアコンが冷房動作中、暖房動作中、温度調 整中、送風動作中及び停止中のうちどの状態にあるかを示すデータや、窓が開いて いる量を示すデータや、室内の温度を示すデータや、言語解析部 2より供給される上 述の単語データである。あるいは、トリガデータは、エージェント処理部 6自身が行う 処理から引き渡されるデータであってもよい。また、トリガデータ(トリガ取得処理で取 得されるデータ)が単語データである場合は、当該単語データが表す単語が属すグ ルービングに割り当てられている「概念」を示すデータでもよい。ただし、トリガ取得処 理の内容は、後述するように、複数のトリガ取得処理が互いに同一の単語を表す単 語データを取得することがないように記述されるものとする。
[0033] 図 4 (a)にトリガ取得処理 TGxxの例を示す。この例では、トリガ TG01は、トリガとし ての単語「暑レヽ」を取得する(単語「暑い」を識別する)処理であり、その処理に後続 する処理に進む (遷移する)か否かを決定するための遷移定数 kは 0. 8である。図 4 ( b)には、トリガ取得処理 TG01のフローチャートを示す。トリガ取得処理 TG02は単語 「開けて」を取得する処理である。トリガ取得処理 TG03は概念「温度」に対応するグ ループに属す単語を取得する(図 3では、「上がる」、「暑い」、「開ける」のいずれかを 取得する)処理である。 TG04は、概念「エアコンの操作」に対応するグループに属す 単語(図 3では、「上がる」、「暑い」のいずれかを取得する)処理である。
[0034] 処理項目データベース D4に格納されてレ、る「判別処理 (CNxx)」の内容を記述す るデータは、判別条件と、判別結果としてとり得る結果のリストと、後述する戻り方向の 遷移定数 kとを、判別処理別に記述したデータを含んでいる。判別処理の内容を記 述するデータは、進行方向を決定するための進行方向の遷移定数 kを、判別結果毎 に記述したデータを含んでレ、る。
[0035] 図 5 (a)に判別処理 CNxxの例を示す。この例では、判別処理 CN01は、「窓が開 レヽて!/、るか否かを判別する処理」であり、開いて!/、ると判別したときに後続する処理に 進むか否かを決定するための遷移定数 kが 0. 3、開いていないと判別したときにそれ に後続する処理に進むか否かを決定するため遷移定数 kが 0. 4である。この例のフ ローチャートを図 5 (b)に示す。図 5 (b)に示すノード CN01. 1は、処理の開始点を示 す始点ノード、ノード CN01. 2は、「窓が閉じている」と判別したときの進行方向のノ ードであり、その遷移定数 kは 0. 4である。さらに、ノード CN01. 3は、窓が開いてい ると判別したときの進行方向のノードであり、その遷移定数 kは 0. 3である。また、半 IJ 別処理 CN02は、エアコン 51のステータスがオン (動作中力 否かを判別する処理で あり、動作中であると判別したときに後続する処理に進むか否かを決定するための遷 移定数 kが 0. 5、オフである(動作していない)と判別したときの遷移定数 kが 0. 3で ある。 '
[0036] 「判別処理」は、判別に用いるデータを任意の取得源力 取得する場合があっても よいとする。取得源としては、例えば、言語解析部 2や、エージェント処理部 6が実行 する他の処理や、入出力対象機器群 5に属する機器 (センサ)や、その他外部の機 器などが考えられる。そしてこの場合、判別処理の内容を記述するデータは、例えば 、判別に用いるデータの取得源を指定するデータを更に含んで!/、ればよレ、。
[0037] また、「判別処理」では、所定のデータを、判別に先立って所定の出力先に出力す るようにしてもよい (この場合は、処理を示す記号を例えば QBxxとする)。例えば、所 定の質問を表すデータを、判別に先立って音声合成処理部 3に引き渡す、等が考え られる。判別処理において所定のデータを判別に先立って所定のデータを出力する 場合、判別処理の内容を記述するデータは、例えば、出力するデータの内容と、この データの出力先とを指定するデータを含む。
[0038] 図 6 (a)に判別処理 QBxxの例を示す。この例では、例えば、判別処理 QB01は、「 窓を開けますか?エアコンをつけますか?」と利用者に問い合わせ、その応答 (利用 者の回答)が「エアコンをつける」であったときの進行方向の遷移定数 kが 0. 7、「窓を 開ける」であったときの進行方向の遷移定数が 0. 4である。この例のフローチャートを 図 6 (b)に示す。図 6 (b)に示すノード QB01. 1は、処理の開始点を示す始点ノード、 ノード QB01. 2は、問い合わせに対して、「エアコン」をつけることが指定されたことを 判別したときの進行方向のノードであり、その遷移定数 kは 0. 7である。さらに、ノード QB01. 3は、窓を開けることが指定されたことを判別したときの進行方向のノードであ り、その遷移定数 kは 0. 4である。また、判別処理 QB02は、「窓を閉じますか?」と禾 IJ 用者に問い合わせ、その応答 (利用者の回答)が「閉じる」であったときの進行方向の 遷移定数 kが 0. 5、「閉じない」であったときの進行方向の遷移定数 kが 0. 3である。
[0039] 処理項目データベース D4に格納されている「入出力処理」の内容を記述するデー タは、入力あるいは出力するデータの内容を指定するデータ力 構成されている。入 力データ及ぴ出力データは任意の内容を有していてよい。例えば、出力データは、 音声合成処理部 3を介して音声出力部 4に発生させる音声の読みを表すデータや外 部の機器を制御する制御信号であってもよい。また、入力データは、例えば、外部の 機器から供給されるデータであっても 、。
[0040] 図 7 (a)に出力処理 EXxxの例を示す。この例では、例えば、出力処理 EX01は、「 窓を閉める且つエアコンを動作させる」という動作であり、動作後の処理を行う進行方 向の遷移定数 kが 0. 8である。この例のフローチャートを図 7 (b)に示す。図 7 (b)に 示すノード EX01. 1は、処理の開始点を示す始点ノード、ノード EX01. 2は、処理の 終了を示すノードであり、遷移定数 kは 0. 8である。なお、出力処理 EXxxについては 、遷移定数 kの設定を行わずに、処理の終了を示すノードの選択を必須の処理として あよい。
[0041] ワイヤデータベース D5は、複数の処理 (TG、 CNxx、 QBxx, EXxx)間の遷移を 記述するデータ (以下、このデータをワイヤと呼ぶ)の集合力 構成されている。ワイ ャは、例えば図 8に示すような書式で記述されたデータ力 構成されている。ワイヤ W n(Wl、 W2...)は図示するように、先行する処理 X (From (X))から後続する処理 Y (To(Y))への遷移 (From (X) To (Y))について、当該先行の処理 (X)と、当該後続の 処理 (Y)と、当該遷移に対して与えられた重み係 Uと、を指定するデータである。な お、先行の処理 Xが判別処理である場合は、当該判別処理のどの判別結果からの遷 移である力 まで記述される必要がある。また、遷移元処理 Xと遷移先 Yは、それぞれ
、各処理のノード番号で特定される。
[0042] 各ワイヤの重み係 Uは、固定値ではなぐ処理の進行に応じて、適宜計算され、設 定されるものである。ワイヤの重み係 ¾Jの計算は図 10を参照して後述する。
[0043] エージェント処理部 6は、処理項目データベース D4及びワイヤデータベース D5が 全体として表しているフローを実行する。処理項目データベース D4及びワイヤデー タベース D5は、例えば、図 3〜図 8の例に基づくと、全体として図 9に示すようなフロ 一を記述することができる。
[0044] 図 9に示すフローにおいては、エージェント処理部 6は、トリガ取得処理 TG01では 、「暑い」と ヽぅ単語を示す単語データを言語解析部 2より供給されるのを待機して、 供給されるとこれを取得して判別処理 CN01に引き渡す (ワイヤ W1)。
[0045] エージェント処理部 6は、判別処理 CN01では、窓が開いているか否かを示す情報 を窓開閉制御部 52より取得し、開いていると判別すると入出力処理 EX01に処理を 移す (ワイヤ W2)。入出力処理 EX01では、窓開閉制御部 52に、窓を閉めることを指 示する制御信号を出力し、エアコン 51に、冷房動作を開始することを指示する制御 信号を出力する。この結果、窓開閉制御部 52は窓を閉め、エアコン 51は冷房動作を 開始する。
[0046] 一方、判別処理 CN01で、窓が閉じていると判別すると、質問を含む判別処理 QB 01に処理を移す(ワイヤ W3)。判別処理 QB01でエージェント処理部 6は、まず、「窓 を開けますか。それともエアコンをつけますか。」という文章を表すデータを音声合成 処理部 3に供給する。音声合成処理部 3は、音声出力部 4を介して、この文章を読み 上げる音声を再生させる。
[0047] 判別処理 QB01でエージェント処理部 6は、次に、言語解析部 2から、単語「窓」又 は単語「エアコン」を表すデータが供給されるのを待機し、該当するデータが供給さ れると、このデータが単語「窓」又は単語「エアコン」のどちらを表すかを判別する。そ して、単語「窓」を表すと判別すると入出力処理 EX03に処理を移し (ワイヤ W5)、単 語「エアコン jを表すと判別すると、入出力処理 EX02に処理を移す (ワイヤ W6)。
[0048] エージェント処理部 6は、入出力処理 EX02では、エアコン 51に、冷房を開始する ことを指示する制御信号を出力する。一方、エージェント処理部 6は、入出力処理 EX 03では、窓開閉制御部 52に、換気用の窓を開けることを指示する制御信号を出力 する。
[0049] —方、エージヱント処理部 6は、「窓を開けて」或いは「開けて」という単語を示すデ ータを言語解析部 2より供給されるのを待機して (トリガ取得処理 TG02)、供給される と、入出力処理 EX03へと処理を移す(ワイヤ W4)。
[0050] エージェント処理部 6は、例えば言語解析部 2が単語データを複数供給した場合な どにおいては、複数の判別処理を並行して行う。この場合、エージェント処理部 6は 同一の単語を入力の対象とする処理 (例えば、トリガ取得処理や、判別処理における データの入力)が複数があって、該当する単語を表す単語データが言語解析部 2より 供給された場合は、これらの処理すベてを並行して行う。
[0051] 次に、各ワイヤの重み係對を計算する方法を説明する。
複数の処理がワイヤ Wにより連結されている場合には、注目するワイヤ Wの重み係 は、現在処理中の処理を起点として、注目しているワイヤ wに至るまでの遷移の 経路上の遷移定数 kを順次乗算することにより求められる。
[0052] 理解を容易にするため、図 10 (a)にフローを示す処理を想定する。図 10 (a)の処 理は、全体としては、ユーザ力 S「暑い」と発話すると、これを検出してスタートし、まず、 窓が開いているか否かを判別し、閉まってレ、る場合に、窓を開けるかエアコンを入れ るかをユーザに問い合わせて、ユーザの回答に応じた処理を行うものである。
[0053] 図 10 (a)に示す処理では、処理 TG101、 CN101, QB101のいずれについても 、各進行方向決定用の遷移定数 kは、順方向についてはいずれも 0. 5、逆 (戻り)方 向については、いずれも 0. 1である。この場合、ワイヤは、例えば、図 10 (b)に示すよ うに、'定義される。
[0054] 例えば、エージェント処理部 6は、処理 (又は制御)がトリガ取得処理 TG101に位置 するとき(処理ポインタ PPがトリガ取得処理 TG101を指しているとき)、トリガ取得処 理 TG101を起点として、注目するワイヤまでの経路上の遷移定数 kを順次乗算する ことにより、ワイヤ W51〜W55 (図示していないワイヤが存在する場合にはそれらを 含むすべて)のそれぞれの重み係對を計算し、計算結果をワイヤ W51〜W55に対 応付けてワイヤデータベース D5に書き込む。
[0055] 具体的には、処理がトリガ取得処理 TG101に位置するとき、ワイヤ W51の重み係
Jは、トリガ取得処理 TG101の判別処理 CN101に繋力 ノードに割り当てられて いる遷移定数 kの値すなわち 0. 5となる。
判別処理 CN101のワイヤ W52の重み係對は、トリガ取得処理 TG101のワイヤ W 51に係る遷移定数 k=0. 5に判別処理 CN101のワイヤ W52に繋力 Sるノードに割り 当てられている遷移定数 k=0. 5を乗じた結果すなわち 0. 25となる。同様に、判別 処理 CN101のワイヤ W54の重み係 は、トリガ取得処理 TG101のワイヤ W51に 繋がるノードに割り当てられている遷移定数 k=0. 5に判別処理 CN101のワイヤ W 54に繋がるノードの遷移定数 k=0. 5を乗じた結果すなわち 0. 25となる。
[0056] また、ワイヤ W53の重み係 は、トリガ取得処理 TG101のワイヤ W51に繋がるノ ードに割り当てられている遷移定数 k=0. 5に、判別処理 CN101のワイヤ W52に繋 力 ¾ノードに割り当てられてレ、る遷移定数 k=0. 5を乗じた結果に更に判別処理 QB 101のワイヤ W53に繋がるノードに割り当てられている遷移定数 k=0. 5を乗じた結 果、すなわち 0. 125となる。同様に、ワイヤ W55の重み係 は、トリガ取得処理 TG 101のワイヤ W51に繋がるノードに割り当てられている遷移定数 k=0. 5に、判別処 理 CN101のワイヤ W52に繋がるノードに割り当てられている遷移定数 k=0. 5を乗 じた結果に、更に判別処理 QB101のワイヤ W55に繋がるノードに割り当てられてい る遷移定数 k=0. 5を乗じた結果、すなわち 0. 125となる。
[0057] 処理が判別処理 CN101に遷移すると、ワイヤ W52の重み係 ¾Jは、ワイヤ W52に 繋力 ¾ノードに割り当てられてレ、る遷移定数 kに等しい値 0. 5となり、ワイヤ W54の重 み係對は、ワイヤ W52に繋力 ¾ノードに割り当てられている遷移定数 kに等しい値 0 . 5となる。また、ワイヤ W53の重み係 #Jはワイヤ W52に繋力 ¾ノードに害 ijり当てられ ている遷移定数 k=0. 5と判別処理 QB101のワイヤ W53に繋がるノードに割り当て られている遷移定数 k=0. 5との積すなわち 0. 25となり、ワイヤ W55の重み係 Uは ワイヤ W52に繋がるノードに割り当てられている遷移定数 k=0. 5と判別処理 QB10 1のワイヤ W55に繋力 ¾ノードに割り当てられてレ、る遷移定数 k=0. 5との積すなわ ち 0. 25となる。さらに、逆方向(トリガ取得処理 TG101に戻る方向に係るワイヤ W51 の重み係銜は、ワイヤ W51に繋がるノードに割り当てられている戻り方向のノードの 遷移定数 k=0, 1に等しい値 0. 1となる。
[0058] さらに、処理が判別処理 QB101に遷移すると、ワイヤ W53と W55の重み係 ¾Jは、 ワイヤ W53と W55にそれぞれ繋がるノードに割り当てられている遷移定数 kに等しい 値 0. 5となる。さらに、ワイヤ W52の重み係 ¾Jは、それに繋がる戻り方向のノードに 害 ijり当てられている戻り方向の遷移定数 k=0. 1となる。さらに、ワイヤ W51の重み係 娄奵は、判別処理 QB101のワイヤ W52に繋がるノードに害り当てられている戻り方向 の遷移定数 k=0. 1に、判別処理 CN101のワイヤ W51に繋がれている戻り方向の ノードに害 |Jり当てられている戻り方向の遷移定数 k=0. 1の積の 0. 01となる。ワイヤ W54の重み係 ¾1は、判別処理 QB101のワイヤ W52に繋がるノードに割り当てられ ている戻り方向の遷移定数 k=0. 1に、判別処理 CN101のワイヤ W54に繋がれて いるノードに害 当てられている遷移定数 k=0. 5の積の 0. 05となる。
[0059] 各ワイヤ Wnの重み係 ¾Jの変化の例を図 10 (c)に示す。
[0060] 重み係 s の計算は、関連するフローの処理のみではなぐ全てのフローの全ての ワイヤについて実行され、計算された重み係 ¾Jが各ワイヤに設定される。ここで現在 の処理に関連のなレ、ワイヤについては、予め定められた低レ、計数値を割り当てるよう にすればよい。しかし、特にトリガ取得処理を先行の処理とするワイヤについては、遷 移定数 kをある程度高く設定するようにする。こうすることによって、直前までなされて いた会話と著しく異なる内容の会話にもジャンプすることが可能になる。
[0061] 次に、このように構成されたシステム全体の動作を、図 11を参照して説明する。
音声入力部 1と言語解析部 2とは、独自に動作して、音声を取り込み、解析し、単語 データをエージェント処理部 6に提供する。
[0062] そして、エージェント処理部 6は、判別条件に係る(1個又は複数個の)単語データ が言語解析部 2より供給されると、以下の処理を行う。
[0063] まず、エージェント処理部 6は、供給された単語を認識 (識別)し (図 11ステップ S 11 )、それが、単語データベース D4に登録されている単語に相当する力否力を判別す る (ステップ S12)。登録されていなければ (ステップ SI 2, No)、単語入力処理を終 了する。
[0064] 一方、登録されていれば (ステップ S12, Yes)、その単語又はその単語の属すダル ープの「概念」が条件となってレ、る処理に関し、単語の尤度とワイヤの重み係 ¾Jの積 を計算する (ステップ S 13)。
例えば、図 10 (a)に示すフローを実行している場合において、処理ポインタ PPがト リガ取得処理 TG101を指示しているとする。この場合の、各ワイヤの重み計 ¾1は図 10 (c_ l)に示す通りである。
[0065] この状態で、スコア力 ½0%の単語「暑い」と、スコアが 50%の単語「窓」を示す単語 データが入力されたと仮定する。図 10 (a)に示す例では、トリガ取得処理 TG101で は、単語「暑い」が判別に関連し、判別処理 QB101では、単語「窓」が判別に関連す る。図 10 (c— 1)示すように、単語「暑い」を示す単語データを入力する処理を先行の 処理とするワイヤ W51の重み係 SJが 0. 5、単語「窓」を示す単語データを入力する 処理を先行の処理とするワイヤ W53の重み係 ¾Jが 0. 125である。この場合、ワイヤ W51及ひ^ W53について求められる尤度 Sと重み係 の積は、数式 1及ぴ 2に示すと おりとなる。
[0066] (数 1) ワイヤ W51についての尤度 Sと重み係 ¾Jの樹' S :「暑レ、」のスコア 80% Xヮ ィャ W51の重み係 #J ( = 0. 5) =40
(数 2) ワイヤ W53についての尤度 Sと重み係 ¾Jの窗 'S :「窓」のスコア 50% Xワイ ャ W53の重み係数 0· 125 = 6. 25
[0067] エージェント処理部 6は、スコアと重み係数との積を求める上述の処理を、フローが 有するすべてのワイヤについて行う。続いて、エージェント制御部 6は、計算された積 S 'Jが最大のワイヤを選択する(図 11,ステップ S14)。エージェント制御部 6は、選択 したワイヤに後続する処理に制御を進める (ステップ S15)。例えばワイヤ W51につ レ、て求めた積が最も高い値を示した場合、入力された単語データは単語「暑レ、」を示 すものであつたと認識して、ワイヤ W51が後続の処理としている判別処理 CN101に 遷移する。通常、現在の処理中の処理を起点するとワイヤの重み係 ¾Jが比較的大き い。このため、一般的には、次の処理に移るが、従前と全く異なる単語で尤度の高い ものが入力された場合には、その単語に対応する処理が開始されることもある。
[0068] エージェント処理部 6は、処理が遷移すると、遷移後の状態に基づいて、各ワイヤ の重み係 ¾1を再計算する (ステップ S 16)。以後は、その処理の内容に従って処理 を進める(ステップ S17)。
この例では、判別処理 CN101を実行する。すなわち、エージェント処理部 6は、窓 開閉制御部 52から窓の開閉の情報を取り込む等の処理を行う。
[0069] なお、窓開閉制御部 52からの窓の開閉を示す信号は、開の尤度が 100%又は 0% 、閉の尤度が 0%又は 100%でもよく。また、開度に応じて変化させるようにしてもよい 。そして、処理の過程で、入出力処理 EXxxがあり、エージェント処理部 6がその処理 を実行して音声データを出力すれば、それが音声として放音される。また、処理の過 程で、入出力処理 EX01のように、エアコンや窓開閉制御部 52への制御を行う処理 を実行すると、その処理内容に従って、エアコン 51や窓開閉制御部 52への制御を 行う。
[0070] なお、図 8、図 9では、「単語」に基づく判別処理を主に説明した力 概念に基づく 判別処理でも同様になされる。また、単語或いは概念に基づくトリガ取得処理からの ワイヤも判断の対象となる。トリガ取得処理からの遷移に対しては、ある程度高い重み 係数を設定しておくとよい。具体的には、例えば図 8のワイヤ群、すなわち、図 9のフ ローにおいて、「窓を開けて」と!/、う単語を示す単語データを取得するトリガ取得処理 TG02からの遷移に対しては、例えば重み係数 0. 8を与えておく。そうすると、例え ば、エージェント処理部 6の処理がトリガ取得処理 TG01に係属している場合におい て、ユーザ力 S「窓を開けて」と発音し、例えば単語「窓を開けて」に対するスコアが 90 %である単語データが得られれば、このスコアと、「ユーザが「窓を開けて」と言ったか 否かの判断」に係るワイヤ W5の重み係数との積は、 90% X 0. 8すなわち 72となる。 この値が他のワイヤに関して計算されたスコアと重み係慰の積では得られないような 大きな値であれば、入力された音声は「窓を開けて」であったと認識され、エージェン ト処理部 6の処理が判別処理 QB101にジャンプする可能性が高くなる。一方で、他 のワイヤの重み係数を極めて低く設定しておけば、これら他のワイヤにより定義され てレ、る遷移が起こる可能性は極めて低くなり、結果として、ある程度想定される会話 の流れに沿って認識率を向上させて制御処理を行うことができる。
[0071] この実施の形態では、戻り方向への遷移も起こり得る。しかし、現実的には会話を 戻すことは好ましくないことが多い。そこで、戻り方向の遷移定数 kは、進行方向の遷 移定数 kに比べて低い値に設定するようにすればよい。そうすると、入力された音声 力 高いスコアの音声データが仮に得られても、戻り方向の遷移定数 kに基づいて得 られた重み係 Uが書き込まれたワイヤについて求めた積 S 'Jは小さい値となるため、 戻り方向への遷移の可能性を低く抑えることができる。また、エージェント処理部 6は 、求めた積の値が所定の条件に合致しないような処理 (たとえば、積の値が所定値に 達しないような処理)は、遷移を実行する対象から除外するよう取り扱ってもよい。
[0072] なお、例えば図 8に示しているように、ワイヤは、処理項目力 処理項目へという形 で遷移を定義する。そして、ワイヤを図 8に示すような形態で記述してワイヤデータべ ース D5に格納することにより、各処理項目同士の関係を、あた力もコンピュータのマ クロ処理のように定義することが可能になる。これによつて、各処理項目を容易に接 続することがでさる。
[0073] また、トリガとなる処理項目は、実際には接続されるワイヤに係る認識対象単語等( 他の入力対象機器群からの入力の場合もあり得る)のスコアの判定になるので、ワイ ャにおいてトリガ取得処理項目はワイヤの開始点として定義されず、ワイヤそのもの が遷移元として定義されることになる。
[0074] 更に、上述のように各処理項目の接続関係をワイヤによって定義することによって、 簡単にワイヤを追加することができる。例えば、「暑い」という音声入力の後に、ユーザ が休憩することを意図して「ファミリーレストランを探して」という音声を入力する機会が 多い場合、ファミリーレストランの検索処理項目に対して自動でワイヤを追加する。そ うすると、ワイヤが自動で追加された後には、ファミリーレストラン検索処理項目に接 続されたワイヤの重み係数をある程度大きくすることで、当該入力「ファミリーレストラ ンを探して」に適切に対応することができるようになる。(ただしこの場合、エージェント 処理部 6は、例えばファミリーレストランの位置を示す情報を含んだ地図データ等を 記憶し、あるいは外部の地図データ等にアクセスするものとする。 )
このワイヤの自動追加は、ある処理項目力 ある処理項目へのジャンプの回数を計 数し、これが所定回数に達したときに自動で行うようにすればょレ、。
[0075] 前述のように、エージェント処理部 6は、処理項目データベース D4やワイヤデータ ベース D5の内容を、外部から供給される新たな処理項目データやワイヤへと更新す • る機能を有する。具体的には、例えば、処理項目データ及び Z又はワイヤを記憶す る外部のサーバが、その内容が更新されると、ネットワークを介し、エージェント処理 部 6に、処理項目データ及ぴ Z又はワイヤの更新がある旨を通知する。すると、エー ジェント処理部 6はこの通知に応答して、ネットワークを介し、このサーバにアクセスし て、新たな処理項目データ及び Z又はワイヤをダウンロードする。そして、自己の処 理項目データベース D4やワイヤデータベース D5に格納されている、古い処理項目 データ及び/又はワイヤを、ダウンロードした新たな処理項目データ及び/又はワイ ャへと更新する。
また、エージェント処理部 6が、外部サーバにアクセスし、データベースが更新され て!/、れば、これをダウンロードするようにしてもょレ、。
[0076] 外部サーバの構成例を図 12に示す。
この外部サーバ 100は、単語データ、処理項目データ及び/又はワイヤデータを 通信ネットワークを介して複数の車両のエージヱント処理部 6に配信するためのもの であり、制御部 110、通信制御部 120、単語データベース 130、処理項目データべ ース 140、ワイヤベース 150、入力部 160、出力部 170、力 構成される。
[0077] 制御部 110は、例えば CPU (Central Processing Unit :中央演算処理装置)などか ら構成され、配信サーバ 100の各部を制御するとともに、所定のプログラムを実行す ることで後述する各処理を実現する。
[0078] 通信制御部 120は、例えば、モデム、ルータなどの通信装置から構成され、配信サ ーバ 100と車両のエージェント処理部 6 (通信制御部)との間のネットワークを介した 通信を制御する。
[0079] ネットワークの構成は任意である。例えば、専用線、公衆回線網、ケーブルテレビ( CATV)網、無線通信網、有線放送網、などを採用することができる。
[0080] 単語データベース 130は、例えば、ハードディスク装置などの書換可能な記憶装置 から構成され、配信サーバ 100が配信する単語データをバージョン情報 (例えば、タ ィムスタンプ)共に蓄積する。
[0081] 処理項目データベース 140は、例えば、ハードディスク装置などの書換可能な記憶 装置から構成され、配信対象の処理項目データをバージョン情報 (例えば、タイムス タンプ)共に蓄積する。
[0082] ワイヤデータベース 150は、例えば、ハードディスク装置などの書換可能な記憶装 置から構成され、配信対象のワイヤデータをバージョン情報 (例えば、タイムスタンプ) 共に蓄積している。
[0083] 配信サーバ 100の管理者は、適宜、入力部 160を操作して、各 DB130〜150の 情報を更新する。
[0084] 各車両のエージェント処理部 6は、通信制御部(CCU) 64を介して、配信サーバ 10 0力らの更新通知を受信すると、例えば、図 13 (a)の処理を開始し、セッションを確立 し (ステップ S21)、更新されたデータをダウンロードし、自己のデータベースを更新 する(ステップ S22)。或いは、各車両のエージェント処理部 6は、定期的或いは適宜 、この配信サーバ 100に通信制御部(CCU) 64を介してアクセスしてセッションを確 立し (ステップ S31)、各データベースのバージョン情報 (更新日付など)を取得する( ステップ S32)。そして、両データのバージョンを比較し (ステップ S33)、自己が記憶 しているデータよりも新しいデータをダウンロードして、自己のデータベースにセットす る(ステップ S 34)。
[0085] このような構成とすれば、配信サーバ 100に記録されてレ、る情報を更新するだけで 、配信サーバ 100を利用可能なすべての車両制御システムのデータを適宜更新する こと; ^でさる。
[0086] なお、配信サーバ 100には、データを圧縮及び暗号ィ匕して格納しておき、エージェ ント処理部 6がダウンロードしてデータを伸張及び復号ィヒしてデータベースにセットす ることが望ましい。このようにすることにより、通信の量を抑え、情報漏洩を防止できる
[0087] エージェント処理部 6が配信サーバ 100力 データをダウンロードするタイミングは 上述の例に限定されず任意であり、例えば、ユーザの要求に对応する処理項目及ぴ /又はワイヤが記憶されていない場合、これを検出してネットワークを介して配信サ ーバ 100にアクセスし、新たな処理項目データ及び/又はワイヤをダウンロードする ようにしてもよい。更には、エージェント処理部 6に接続される入出力対象機器 5が新 たに追加された場合や、新たな機能が追加された場合に、自動でこれを検出して、 上述と同様に、ネットワークを介して配信サーバ 100にアクセスし、新たな処理項目 データ及び/又はワイヤをダウンロードするようにしてもよい。
[0088] (実際の制御への応用例)
以上の説明では、エアコン 51と窓開閉制御部 52を制御する場合を例にこの発明を 説明したが、制御対象は任意であり、また、制御する場面も任意である。以下、ェアコ ンと、オーディオ装置と、窓開閉制御部とを制御する他の例を説明する。
[0089] 図 14に示すように、この例では、制御対象機器 5にオーディオ装置 53が含まれて いる。このオーディオ装置 53は、エージェント処理部 6からの指示に従って動作し、ま た、自己の動作状況を示すステータス信号をエージェント処理部 6に供給する。 また、この実施例では、単語データベース D3では、概念「上昇 Jおよび概念「下降」 を意味する単語がそれぞれグルーピングされているものとする。例えば、単語「上げ る」、「上昇」、「高める」、「上」などが概念「上昇」にグルーピングされ、単語「下げる」、 「下降」、「低くする」、「下」などが概念「下降」にグルーピングされている。
まず、オーディオ装置 53と窓開閉制御部 52とを制御対象とする動作 (エアコン 51 の制御について触れない)について説明する。
なお、この例では、処理項目データベース D4に格納されている処理項目データと ワイヤデータベース D5に格納されているワイヤにより、図 15のフローで表される処理 が規定されてレ、るものとする。
[0090] · ユーザが「上げて」等の上昇を意味する音声を努すると、音声入力部 1と言語解析 部 2とが、音声認識処理を行って、候捕「上げて」とそのスコア、さらに、その他の候捕 とそれらのスコアとをエージェント処理部 6に提供する。
前述したように、各ワイヤ Wには、その時点の処理ポインタ PPが示している位置を 基準として、基準位置力 遠ざかるに従って小さくなるような重み Jが設定されている。
[0091] エージェント処理部 6は、図 11を参照して前述したように、各候補について、全ての ターゲット取得処理 TGと判別処理 CN又は QBの判別に適合するか否力を判別する 。エージェント処理部 6は、適合すると判別された処理の、適合した候捕に対応する ワイヤ Wにつ!/、て、その時点での各ワイヤの重み Jと各単語のスコア Sとを乗算して、 各ワイヤについて乗算値 S 'Jを求める。そして、求めた各ワイヤの積 S 'Jを互いに比 較し、最も大きレ、乗算値 S 'Jを有するワイヤ Wが導く処理を実行する。
[0092] 図 15の例では、エージェント制御部 6は、ターゲット取得処理 TG101において、入 力された単語「上げて」が概念の「上昇」に適合すると判別する。そして、ワイヤ W101 について-重み Jと単語「上げて」のスコア Sとの樹 'Sを求める。そして、ワイヤ W101 につ Vヽての積が他のワイヤにつ!/、ての積よりも大きな値となる(と仮定する)。
すると、処理は、ワイヤ W101を迪つて判別処理 CN101に移る。
[0093] エージェント処理部 6は、判別処理 CN101において、オーディオ装置 53からステ 一タス情報を取り込み、窓開閉制御部 52から窓の開閉状態を示す情報を取り込む。 エージェント処理部 6は、判別処理 CN101で「オーディオ装置 53が動作しておら ず且つ窓が閉まっている」状態であると判断した場合、その処理は、ワイヤ W102を 迪つて、問い合わせ付き判別処理 QB101に進み、「何をあげるの?オーディオの電 源を入れる?」等、操作の対象と内容を特定することを促すメッセージを音声合成処 理部 3に出力する。音声合成処理部 3と音声出力部 4とは、対応する音声を生成し、 これを放音する。
[0094] このメッセージに応答して、ユーザが例えば「オーディオ」や「入れる」と発話すると、 この単語が認識され、制御は、ワイヤ W103を迪つて入出力処理 EX101に移り、ェ ージェント処理部 6は、オーディオ 53を制御してその電源をオンする。
[0095] 判断処理 CN101で、オーディオ装置 53が動作中であり且つ窓も開いている(ガラ スがホームポジションよりも下がった状態)であると判別された場合には、処理は、ワイ ャ W104を迪つて判別処理 QB102に進み、「何を上げる?ポリューム?それとも窓 ?」等、操作対象を特定することを促すメッセージを出力する。
[0096] このメッセージに応答して、ユーザが、例えば「オーディオ」、「ボリューム」、「音」等 と発話すると、これらの単語力 S認識され、制御は、ワイヤ W105を迪つて、入出力処理 EX102に移る。入出力処理 EX102では、音量を上げる(大きくする)旨のメッセージ が出力される。制御は、ワイヤ W106を迪つて、入出力処理 EX103に至り、オーディ ォ装置 53に音量を所定量増加することを指示する。また、このメッセージに応答して 、ユーザが、例えば「窓」、「ウィンドウ」、等と発話すると、これらの単語が認識され、制 御は、ワイヤ W110を迪つて、入出力処理 EX104に移る。
[0097] 一方、判別処理 CN101で、オーディオ装置 53が動作中で且つ窓が閉じた状態で あると判別された場合には、概念「上昇」に対応し且つ制御可能な機器がオーディオ 装置 53だけである。このため、制御は、ワイヤ W107を迪つて入出力処理 EX102に 進み、「ボリュームを上げます」等のメッセージを出力し、入出力処理 EX103で、ォー ディォ装置 53のボリュームを所定量だけ上昇させる。
[0098] また、判別処理 CN101で、オーディオ装置 53が停止中で、窓が開いた状態である と判別された場合、概念「上昇」に対応し且つ制御可能な機器は窓開閉制御部 52だ けである。このため、制御は、ワイヤ W108を迪つて入出力処理 EX104で「窓を閉め る」等のメッセージを出力した後に、ワイヤ W109を迪つて入出力処理 EX105で窓を 上昇させて閉じる。
[0099] 次に、エアコン 51と窓開閉制御部 52とを制御する処理について説明する。
なお、この例では、処理項目データベース D4に格納されて!/、る処理項目データと ワイヤデータベース D5に格納されているワイヤにより、図 16のフローで表される処理 が規定されているものとする。
[0100] ユーザが「上げて」等の上昇を意味する音声を発すると、ターゲット取得処理 TG20
1が、入力された単語「上げて」が概念の「上昇」に適合すると判別する。そして、ワイ ャ W201につ V、ての認識結果の尤度(スコア) Sと重み係 Uの積 S が他のワイヤに つ!/、ての積よりも大きな値となる(と仮定する)。
[0101] すると、処理は、ワイヤ W201を迪つて判別処理 CN201に移る。エージェント処理 部 6は、判別処理 CN201において、エアコン装置 51からステータス情報を取り込み
、窓開閉制御部 52から窓の開閉状態を示す情報を取り込む。
[0102] エージェント処理部 6は、判別処理 CN201で「エアコン 51が動作しておらず且つ 窓が閉まっている」状態であると判断した場合、その処理は、ワイヤ W202を迪つて、 問い合わせ付き判別処理 QB201に進み、「何をあげるの?暖房にする?」等、操作 の対象と内容を特定することを促すメッセージを音声合成処理部 3に出力する。音声 合成処理部 3と音声出力部 4とは、対応する音声を生成し、これを放音する。
[0103] このメッセージに応答して、ユーザが例えば「暖房」、「エアコン」、「温度」、「入れる」 と発話すると、この単語が認識され、制御は、ワイヤ W203を迪つて入出力処理 EX2 01に移り、エージェント処理部 6は、エアコン装置 51を制御してその電源をオンする
[0104] 判断処理 CN201で、「エアコン装置 51が動作中であり且つ窓が開いている(ホー ムポジションよりも下がった状態)である」と判別された場合には、処理は、ワイヤ W20 4を迪つて「何を上げる?エアコンの設定温度?それとも窓?」等、操作対象を特定 することを促すメッセージを出力する。このメッセージに応答して、ユーザが、例えば「 エアコン」、「温度」又は「設定」等と発話すると、これらの単語が認識され、制御は、ヮ ィャ W205を迪つて、入出力処理 EX202に移る。入出力処理 EX202では、エアコン の設定温度を上げる旨のメッセージが出力される。続いて、制御は、ワイヤ W206を 迪つて、入出力処理 EX203に至り、エアコン装置 51に設定温度の上昇を指示する。
[0105] 一方、処理 QB202で出力されたメッセージに応答して、ユーザが、例えば「窓」、「 閉める」等と発話すると、これらの単語が認識され、制御は、ワイヤ W207を迪つて、 入出力処理 EX204に移る。入出力処理 EX204では、窓を閉める旨のメッセージが 出力される。制御は、ワイヤ W208を迪つて、入出力処理 EX204に至り、窓開閉制 御部 52に窓の上昇(窓ガラスの上昇)を指示する。
[0106] 一方、判別処理 CN201で、「エアコン装置 51が動作中で且つ窓が閉じた状態で ある」と判別された場合には、概念「上昇」に対応し且つ制御可能な機器がエアコン 装置 51だけである。このため、制御は、ワイヤ" W209を迪つて入出力処理 EX202に 進み、「エアコンの設定温度を上げる」旨のメッセージを出力し、入出力処理 EX203 で、設定温度を所定量だけ上昇させる。 '
[0107] また、判別処理 CN201で、「エアコン装置 51が停止中で、窓が開いた状態である」 と判別された場合、概念「上昇」に対応し且つ制御可能な機器は窓開閉制御部 52だ けである。このため、制御は、ワイヤ 210を迪つて入出力処理 EX204で「窓を閉めま す」等のメッセージを出力した後に、ワイヤ W208を迪つて入出力処理 EX205で窓を 閉じる(窓ガラスを上昇させる)。 [0108] 次に、エアコン 51とオーディオ装置 53とを制御する動作について説明する。
なお、この例では、処理項目データベース D4に格納されている処理項目データと ワイヤデータベース D5に格納されているワイヤにより、図 17のフローで表される処理 が規定されているものとする。
[0109] ユーザが「上げて」等の上昇を意味する音声を発すると、ターゲット取得処理 TG30
1が、入力された単語「上げて」が概念の「上昇」に適合すると判別する。そして、ワイ ャ W301についてのスコア Sと重み Jの積が他のワイヤについての積よりも大きな値と なる(と仮定する)。
[0110] すると、処理は、ワイヤ W301を迪つて判別処理 CN301に移る。エージェント処理 部 6は、判別処理 CN301において、エアコン 51とオーディオ装置 53とから動作状態 を示す情報をそれぞれ取り込む。エージェント処理部 6が、判別処理 CN301で「エア コン 51が動作しておらず且つオーディオ装置 53が動作していない」状態であると判 断した場合、その処理は、ワイヤ W302を迪つて、問い合わせ付き判別処理 QB301 に進み、「何をあげるの?暖房にする?オーディオのスィッチを入れる?」等、操作の 対象と内容を特定することを促すメッセージを音声合成処理部 3に出力する。音声合 成処理部 3と音声出力部 4とは、対応する音声を生成し、これを放音する。
[0111] このメッセージに応答して、ユーザが例えば「暖房」、「エアコン」、「温度」、等と発話 すると、この単語が認識され、制御は、ワイヤ W303を迪つて入出力処理 EX301に 移り、エージェント処理部 6は、エアコン装置 51を制御してその電源をオンする。また 、メッセージに応答して、ユーザが例えば「オーディオ」、「音楽」等と発話すると、この 単語が認識され、制御は、ワイヤ W304を迪つて入出力処理 EX302に移り、エージ ェント処理部 6は、オーディオ装置 53を制御してその電源をオンする。
[0112] 判断処理 CN301で、「エアコン装置 51とオーディオ装置 53が共に動作中である」 と半 IJ別された場合には、処理は、ワイヤ W305を迪つて「何を上げる?エアコンの設 定温度?オーディオのボリューム?」等、操作対象を特定することを促すメッセージを 出力する。このメッセージに応答して、ユーザが、例えば「エアコン」、「温度」又は「設 定」等と発話すると、これらの単語が認識され、制御は、ワイヤ W306を迪つて、入出 力処理 EX303に移る。入出力処理 EX303では、エアコン 51の設定温度を上げる旨 のメッセージが出力される。制御は、ワイヤ W307を迪つて、入出力処理 EX304に至 り、エアコン装置 51に設定温度の上昇を指示する。一方、処理 QB302で出力された メッセージに応答して、ユーザが、例えば「オーディオ」、「音」等と発話すると、これら の単語が認識され、制御は、ワイヤ W308を迪つて、入出力処理 EX305に移る。入 出力処理 EX305では、オーディオのボリュームを大きくする旨のメッセージが出力さ れる。制御は、ワイヤ W309を迪つて、入出力処理 EX306に至り、オーディオ装置 5 3に音ボリュームの上昇 (音を大きくする)を指示する。
[0113] 一方、判別処理 CN301で、「エアコン装置 51が動作中で且つオーディオ装置 53 がオフした状態である」と判別された場合には、概念「上昇」に対応し且つ制御可能 な機器がエアコン装置 51だけである。このため、制御は、ワイヤ W310を迪つて入出 力処理 EX303に進み、「エアコンの設定温度を上げる」旨のメッセージを出力し、入 出力処理 EX304で、エアコン装置 51の設定温度を所定量だけ上昇させる。
[0114] また、判別処理 CN301で、「エアコン装置 51が停止中で、オーディオ装置 53が動 作中である」と判別された場合、概念「上昇」に対応し且つ制御可能な機器はオーデ ィォ装置 53だけである。このため、制御は、ワイヤ 311を迪つて入出力処理 EX305 で「音量を上げます」等のメッセージを出力した後に、ワイヤ W309を迪つて入出力処 理 EX306でオーディオ装置 53の音量を上げる。
[0115] 次に、エアコン 51と窓開閉部 52とオーディオ装置 53を全て制御対象とする場合の 制御について説明する。
なお、この例では、処理項目データベース D4に格納されている処理項目データと ワイヤデータベース D5に格納されてレ、るワイヤにより、図 18のフローで表される処理 が規定されてレ、るものとする。
[0116] ユーザが「上げて」等の上昇を意味する音声を発すると、ターゲット取得処理 TG40 1が、入力された単語「上げて」が概念の「上昇」に適合すると判別する。そして、ワイ ャ W401についてのスコア Sと重み係對の積が他のワイヤについての積よりも大きな 値となる(と仮定する)。
[0117] すると、処理は、ワイヤ W401を迪つて判別処理 CN401に移る。エージェント処理 部 6は;判別処理 CN401において、装置 51〜53から動作状態を示す情報をそれぞ れ取り込む。エージェント処理部 6は、判別処理 CN401で「エアコン 51が動作してお らず、窓は閉まっており且つオーディオ装置 53が動作していない J状態であると判断 した場合、その処理は、ワイヤ W402を迪つて、問い合わせ付き判別処理 QB401に 進み、「何をあげるの?暖房にする?オーディオのスィッチを入れる?」等、操作の対 象と内容を特定することを促すメッセージを音声合成処理部 3に出力する。音声合成 処理部 3と音声出力部 4とは、对応する音声を生成し、これを放音する。
[0118] このメッセージに応答して、ユーザが例えば「暖房」、「エアコン」、「温度 j、等と発話 すると、この単語が認識され、制御は、ワイヤ W403を迪つて入出力処理 EX401に . 移り、エージェント処理部 6は、エアコン装置 51を制御してその電源をオンする。また 、メッセージに応答して、ユーザが例えば「オーディオ」、「音楽」等と発話すると、この 単語が認識され、制御は、ワイヤ W404を迪つて入出力処理 EX402に移り、エージ ェント処理部 6は、オーディオ装置 53を制御してその電源をオンする。
[0119] 判別処理 CN401で、「エアコン装置 51が動作中で、窓が閉まった状態であり且つ オーディオ装置 53がオフした状態である」と判另 (Jされた場合には、概念「上昇」に対 応し且つ制御可能な機器がエアコン装置 51だけである。このため、制御は、ワイヤ W 405を迪つて入出力処理 EX403に進み、「エアコンの設定温度を上げる」旨のメッセ ージを出力し、さらに、ワイヤ W406を迪つて、入出力処理 EX404で、設定温度を所 定量だけ上昇させる。
[0120] 判別処理 CN401で、「窓が開いた状態で、エアコン装置 51とオーディオ装置 53が オフした状態である」と判別された場合には、概念「上昇」に対応し且つ制御可能な 機器が窓開閉制御部 51だけである。このため、制御は、ワイヤ W407を迪つて入出 力処理 EX405に進み、「窓を閉める」旨のメッセージを出力し、ワイヤ W408を迪っ て、入出力処理 EX406で、窓を閉める(窓ガラスをホームポジションまで上昇させる)
[0121] また、判別処理 CN401で、「オーディオ装置 53が動作中で、エアコン装置 51が停 止中で、窓が閉まっている」と判別された場合、概念「上昇」に対応し且つ制御可能 な機器はオーディオ装置 53だけである。このため、制御は、ワイヤ 410を迪つて入出 力処理 EX408で「音量を上げます」等のメッセージを出力した後に、ワイヤ W411を 迪つて入出力処理 EX408でオーディオ装置 53の音量を上げる。
[0122] 判断処理 CN401で、上述の場合以外の動作状態であると判別された場合には、 処理は、ワイヤ W412を迪つて「何を上げる?エアコンの設定温度?窓を閉じる?ォ 一ディォのボリューム?」等、操作対象を特定することを促すメッセージを出力する。 このメッセージに応答して、ユーザが、例えば「エアコン」、「温度」又は「設定」、「窓」 、「閉じる」、「ガラス」、「オーディオ」、「音」等と発話すると、これらの単語が認識され、 制御は、その内容に応じて、適宜、ヮィャW413〜W415を迪って、例えば、前述の 入出力処理 EX403, EX405, EX棚に移る。
[0123] 以上説明した構成によれば、ユーザが口頭で指示した結果を得るために、変化さ せるべき変量 (エアコンの設定温度、窓ガラスの位置又はオーディオ装置 53の音量) 、当該変量を変化させるべき方向(上昇)、及ぴ当該変量を変化させるために制御す べき機器 (エアコン装置 51、窓開閉制御部 52又はオーディオ装置 53)を特定し、特 定した変量を特定した方向に変化させるよう、特定した機器を制御する場合において 、特定した変量を特定した方向に変化させるよう制御可能な機器の個数が 1個である ときは当該 1個の機器を制御し、特定した変量を特定した方向に変化させるよう制御 可能な機器が複数存在するときは、前記音声認識手段が音声データを更に取得し て特定した候補に基づいて、制御可能な各機器のうちいずれの機器の操作を欲する かを特定し、特定した機器を制御する、ことが可能となる。尚、上述の操作対象を特 定することを促すメッセージを出力後、改めて音声によって操作対象が特定されると 、特定された操作対象の対象変量を所定量上昇させる。
[0124] なお、上述の処理のいずれにおいて、エージェント処理部 6は、ポインタ PPが指示 している処理が予定している指示と内容の異なる指示に対しても、対応可能である。 すなわち、上述のように、トリガー取得処理に対応するワイヤの重み係数は、他のワイ ャの重み係数よりも高い所定値に設定されるので、上述のような「あげて」に対応する 処理を実行中であっても、他の関係ない音声指示、例えば「今何時?」等にも適切に 対応することができる。
[0125] 上述の「あげて」と同様、「下げて」も上述と同様に制御を行うことができる。これら「 上げて」「下げて」等概念によるグルーピングは、図 3に示したグルーピング用フラグ が使用される。つまり、言語解析部 2で得られた単語データに対応する概念を有する 機器が複数存在する場合には、そのいずれも制御対象機器として抽出し、これらの 制御対象機器のうち、いずれの機器を制御するかを、改めて特定するように促すの である。このとき、抽出された機器をやみくもに制御対象機器とするのではなぐそれ ぞれの動作状態を検出することでより精度の高い対応を行うことができる。上記では、 オーディオ装置と窓、エアコンと窓等、 2つ又は 3つの制御対象機器が存在する場合 について説明した力 4つ以上の制御対象機器に対しても同様に処理を行うことがで きる。
[0126] 以上説明した機器制御装置では、入力される音声等に対して、図 5に示したフロー チャートで説明したワイヤと処理項目の関係、ワイヤに設定される条件、また、遷移定 数 kが適宜適用される。具体的には、例えば、ユーザが「上げて」と音声入力部 1に音 声入力すると、言語解析部 2は単語データベースを参照して、それぞれの単語に対 するスコアを算出する。算出したスコアは単語データとしてエージェント処理部 6に出 力され、該当する単語が設定されたワイヤにスコアを設定する。スコアが供給されたヮ ィャは、それぞれ対応する重み係数とスコアを乗算し、最終的な判別結果を得る。得 られた判別結果のうち、最も高い値を示す単語が入力された音声であると認識する。 つまり、ここで得られた判別結果のうち、最も高い値を示す単語が「あげて」であった 場合に、入力された音声は「あげて」であったと認識することになる。そして、対応する ワイヤが選択され、当該ワイヤが指示する処理に状態が遷移される。以下、同様にし て処理が進められる。尚、ワイヤに対して、同様の意味の異なる単語を複数設定して おけば、ユーザがそのときの気分で発した言葉でも適切に対応することができる。例 えば、「あげて J Γアップ」などを 1つのワイヤに条件としての単語を設定しておく。そう すれば、いずれの音声で指示がなされても、適切に当該ワイヤが選択されることにな り、自然な会話でこの制御を行うことができる。
[0127] 以上説明したこの車内空調システムは、処理の内容を示すデータやワイヤが適切 に記述されれば、制御する対象である機器や加える制御の内容を完全に特定するこ とを必ずしも必要とせずに、ユーザが発した言語に応答し、この言語力 ユーザの欲 求を推測し、この欲求を満たすためにどの機器にどのような制御をカ卩えればよいかを 適切に判断して、判断結果に従った制御を機器に加えることができるようになる。
[0128] エージ-ント処理部 6は、新たなワイヤを自動で生成する機能を有するが、ダウン口 ードした新たな処理項目及び既存の処理項目に対して、どのような関係のワイヤを設 定するかについて、これを記述したプログラムを一緒にダウンロードするようにしてもよ い。
[0129] 以上説明したこの車内空調システムは、処理の内容を示すデータやワイヤが適切 に記述されれば、制御する対象である機器や加える制御の内容を完全に特定するこ とを必ずしも必要とせずに、ユーザが発した言語に応答し、この言語からユーザの欲 求を推測し、この欲求を満たすためにどの機器にどのような制御を加えればよ!/、かを 適切に判断して、判断結果に従った制御を機器に加えることができるようになる。
[0130] また、処理項目データやワイヤは随時新たなものへと更新されるので、エージェント 処理部 6の応答の仕方を変化させる余地が常にあり、ユーザはこの車内空調システ ムとの対話に飽きにくい。
[0131] なお、この車内空調システムの構成は上述のものに限られない。
例えば、入出力対象機器群 5に属する機器は、必ずしも直接にユーザの欲求を満 たす結果をもたらす機器である必要はなぐ例えば、外部の表示装置等を制御して ユーザに特定の行動をとるよう促すメッセージを出力する機器 (例えば、液晶ディスプ レイ等の表示装置)力 なってレ、てもよ!/、。
[0132] また、単語データベースは、必ずしも単語を示すデータのみならず、複数の単語か らなる語句を示すデータを単語データベースの要素として記憶するようにしてもょレヽ し、単語の一部ある!/、は音素を示すデータを単語データベースの要素として記憶す るようにしてもよレ、。また、単語等は必ずしも特定の概念の下にグルーピングされてい る必要はなぐグルーピングを行う場合も、グルーピングを行うために用いられるデー タは、必ずしもフラグの集合の形をとつていなくてもよい。
[0133] また、エージェント処理部 6は、新たな処理項目データやワイヤを、外部の供給元か らの通知を待たずに自発的にダウンロードしてもよいし、言語解析部 2から供給される 単語データに応答して新たな処理項目データやワイヤのダウンロードを開始するよう にしてもよい。 [0134] また、エージェント処理部 6は、ワイヤに記述された重み係数を、過去に当該ワイヤ が表す遷移を実行した数などに基づき所定の基準に従って変化させ、遷移定数 kが 変化後の値となるようにワイヤを書き換えてもよい。具体的には、例えば、ワイヤデー タベースに、それぞれのワイヤについて、当該ワイヤが表す遷移が実行された回数を 記憶しておく。そしてエージェント処理部 6は、当該遷移が新たに行われる毎に、この 回数の値を書き換えることにより、この回数の値を 1ずつインクリメントし、それぞれの ワイヤに記述された遷移定数 kを、例えば、当該ワイヤについて記憶された回数に比 例した値と書さ換える。
[0135] また、エージェント処理部 6は、判別処理や入出力処理において出力するデータを 、これらの処理に引き渡されたデータや、これらの処理に伴って入力したデータや、 その他任意の条件に従って変化させるようにしてもよい。
[0136] また、この車内空調システムは、エージェント処理部 6の制御に従って画像を出力 するための表示装置 (例えば、液晶ディスプレイ等)を備えていてもよぐェ ジェント 処理部 6は、入出力処理や判別処理において、処理毎に所定の画像を表示させるよ うこの表示装置を制御してもよい。
[0137] また、エージェント処理部 6は、 1個の入力処理や 1個の判別処理において、連続し て発話される等した複数の単語データを一括して取得するようにしてもよい。また、ェ ージェント処理部 6は、一括して取得した複数の単語データがどの概念の下で同一 のグループ内にグノレーピングされているかを特定し、特定した概念が所定の概念に 合致する場合にのみ、取得した単語データの一部または全部を処理に用いるものと してもよい。
また、複数の単語が示す共通の概念が得られたときだけトリガ取得処理や判別処 理が動作(トリガの取得、条件の成立)するようにしてもよ!/、。
[0138] また、エージェント処理部 6は、トリガ取得処理、判別処理、入出力処理等の各種処 理とワイヤとが全体として形成するフローを分担して行う、互いに接続された複数の データ処理装置 (例えば、コンピュータ等)から構成されていてもよい。この場合、解 析処理部 3を構成するそれぞれのデータ処理装置は、解析処理部 3が実行し得るフ ロー全体のうち、自己が実行する可能性がある部分を表すデータを、処理項目デー タベースやワイヤデータベースの要素として記憶すれば十分である。そして、それぞ れのデータ処理装置が記憶するデータが、当該データ処理装置が実行する部分の 処理をマクロ定義するようなデータとなっていれば、複数のデータ処理装置に分散処 理を行わせることも容易である。
[0139] また、この車内空調システムは、音声入力部 1や言語解析部 2あるいは音声出力部 4も複数備えていてよい。また、音声入力部 1は、たとえば、音声を表すデータが記録 された記録媒体 (たとえば、フロッピー(登録商標)ディスクや、 CD (Compact Disc)や 、 MO (Magneto-Optical Disk)など)力 波形信号を読み出して言語解析部 2に供給 する記録媒体ドライブ装置 (たとえば、フロッピー(登録商標)ディスクドライブや、 CD 一 ROMドライブや、 MOドライブなど)を備えていてもよい。
[0140] 以上、この発明の実施の形態を説明したが、この発明にかかる機器制御装置は、 専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。 例えば、入出力対象機器群 5に接続されたパーソナルコンピュータに上述の音声 入力部 1、言語解析部 2、音声合成処理部 3、音声出力部 4及びエージェント処理部 6の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインス トールすることにより、上述の処理を実行する車内空調システムを構成することができ る。そして、このプログラムを実行するパーソナルコンピュータ力 図 1の車内空調シ ステムの動作に相当する処理として、例えば、図 4に示すフローを実行するものとする
[0141] なお、パーソナルコンピュータに上述の車内空調システムの機能を行わせるプログ ラムは、例えば、通信回線の掲示板 (BBS)にアップロードし、これを通信回線を介し て配信してもよぐまた、このプログラムを表す信号により搬送波を変調し、得られた変 調波を伝送し、この変調波を受信した装置が変調波を復調してこのプログラムを復元 するようにしてもよい。そして、このプログラムを起動し、 OSの制御下に、他のアプリケ ーシヨンプログラムと同様に実行することにより、上述の処理を実行することができる。
[0142] なお、 OSが処理の一部を分担する場合、あるいは、 OSが本願発明の 1つの構成 要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラム を格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実 行する各機能又はステップを実行するためのプログラムが格納されているものとする

Claims

請求の範囲
[1] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候捕を特定する音声認識手段と、
前記音声認識手段が特定した候捕と、制御する対象である外部の複数の機器の状 態を示すデータとに基づき、前記音声の発話者が欲する結果を得るために変化させ るべき変量、当該変量を変化させるべき方向、及び当該変量を変化させるために制 御すべき機器を特定し、特定した変量を特定した方向に変化させるよう、特定した機 器を制御する機器制御手段と、を備え、
前記機器制御手段は、
特定した変量を特定した方向に変化させるよう制御可能な機器の個数が 1個である ときは当該 1個の機器を制御し、
特定した変量を特定した方向に変化させるよう制御可能な機器が複数存在するとき は、前記音声認識手段が音声データを更に取得して特定した候補に基づいて、制 御可能な各機器のうち!/ヽずれの機器の操作を欲するかを特定し、特定した機器を制 御する、
ことを特徴とする機器制御装置。
[2] 前記機器制御手段は、特定した変量を特定した方向に変化させるよう制御可能な 機器が複数存在するとき、制御可能な各機器のうちレヽずれの機器の操作を欲するか を決定することを促すデータを出力する、
ことを特徴とする請求項 1に記載の機器制御装置。
[3] 前記音声認識手段が特定した候補が、上昇若しくは下降を意味するものであり、 前記制御可能な複数の機器のうち、一の機器はオーディオ装置であって変化される 変量はボリュームであり、
また、他の機器はパワーウィンドウであって変化される変量は窓の開閉量である、 ことを特徴とする請求項 1に記載の機器制御装置。
[4] 前記音声認識手段が特定した候補が、上昇若しくは下降を意味するものであり、 前記制御可能な複数の機器のうち、一の機器はエアコンであって変化される変量は 温度であり、 また、他の機器はパワーウィンドウであって変化される変量は窓の開閉量である、 ことを特徴とする請求項 1に記載の機器制御装置。
[5] 前記音声認識手段が特定した候捕が、上昇若しくは下降を意味するものであり、 前記制御可能な複数の機器のうち、一の機器はエアコンであって変化される変量は 温度であり、
また、他の機器はオーディオ装置であって変化される変量はボリュームである、 ことを特徴とする請求項 1に記載の機器制御装置。
[6] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された候補と、制御する対象である外部の複数の機 器の状態を示すデータとに基づき、前記音声の発話者が欲する結果を得るために変 化させるべき変量、当該変量を変化させるべき方向、及び当該変量を変化させるた めに制御すべき機器を特定し、特定した変量を特定した方向に変化させるよう、特定 した機器を制御する機器制御ステップと、より構成されており、
前記機器制御ステップでは、
特定した変量を特定した方向に変化させるよう制御可能な機器の個数が 1個である ときは当該 1個の機器を制御し、
特定した変量を特定した方向に変化させるよう制御可能な機器が複数存在するとき は、前記音声認識手段が音声データを更に取得して特定した候補に基づいて、制 御可能な各機器のうち!/、ずれの機器の操作を欲する力を特定し、特定した機器を制 御する、
ことを特徴とする機器制御方法。
[7] コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された候補と、制御する対象である外部の複数の機 器の状態を示すデータとに基づき、前記音声の発話者が欲する結果を得るために変 ィ匕させるべき変量、当該変量を変化させるべき方向、及び当該変量を変化させるた めに制御すべき機器を特定し、特定した変量を特定した方向に変化させるよう、特定 した機器を制御する機器制御ステップと、より構成されており、
前記機器制御ステップでは、
特定した変量を特定した方向に変化させるよう制御可能な機器の個数が 1個である ときは当該 1個の機器を制御し、
特定した変量を特定した方向に変化させるよう制御可能な機器が複数存在するとき は、前記音声認識手段が音声データを更に取得して特定した候補に基づいて、制 御可能な各機器のうち V、ずれの機器の操作を欲する力を特定し、特定した機器を制 御する、
ように動作させるコンピュータプログラム。
PCT/IB2004/004006 2003-12-05 2004-12-06 機器制御装置及び機器制御方法 WO2005062296A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2005516407A JP4533844B2 (ja) 2003-12-05 2004-12-06 機器制御装置、機器制御方法及びプログラム
US10/581,822 US7505909B2 (en) 2003-12-05 2004-12-06 Device control device and device control method
EP04806317A EP1699041B1 (en) 2003-12-05 2004-12-06 Device control device and device control method
CN2004800409681A CN1906661B (zh) 2003-12-05 2004-12-06 设备控制装置和设备控制方法
DE602004016683T DE602004016683D1 (de) 2003-12-05 2004-12-06 Einrichtungssteuereinrichtung und einrichtungssteuerverfahren

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003406712 2003-12-05
JP2003-406712 2003-12-05

Publications (1)

Publication Number Publication Date
WO2005062296A1 true WO2005062296A1 (ja) 2005-07-07

Family

ID=34708668

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2004/004006 WO2005062296A1 (ja) 2003-12-05 2004-12-06 機器制御装置及び機器制御方法

Country Status (6)

Country Link
US (1) US7505909B2 (ja)
EP (1) EP1699041B1 (ja)
JP (1) JP4533844B2 (ja)
CN (1) CN1906661B (ja)
DE (1) DE602004016683D1 (ja)
WO (1) WO2005062296A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
WO2020026511A1 (ja) * 2018-07-30 2020-02-06 株式会社日立製作所 音声操作支援システム及び音声操作支援方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102896996A (zh) * 2003-12-05 2013-01-30 株式会社建伍 空调控制装置及空调控制方法
CN102538143B (zh) * 2012-02-06 2014-02-26 美的集团股份有限公司 语音智能搜索引擎空调***及其控制方法
US10088853B2 (en) 2012-05-02 2018-10-02 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
US10145579B2 (en) 2013-05-01 2018-12-04 Honeywell International Inc. Devices and methods for interacting with a control system that is connected to a network
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
WO2015026933A2 (en) 2013-08-21 2015-02-26 Honeywell International Inc. Devices and methods for interacting with an hvac controller
US10030878B2 (en) 2013-08-21 2018-07-24 Honeywell International Inc. User interaction with building controller device using a remote server and a duplex connection
US10514677B2 (en) 2014-04-11 2019-12-24 Honeywell International Inc. Frameworks and methodologies configured to assist configuring devices supported by a building management system
CN104007678A (zh) * 2014-05-26 2014-08-27 邯郸美的制冷设备有限公司 家用电器语音控制的方法、终端和***
KR102453603B1 (ko) * 2015-11-10 2022-10-12 삼성전자주식회사 전자 장치 및 그 제어 방법
CN105529029A (zh) * 2015-12-28 2016-04-27 歌尔声学股份有限公司 音频控制装置、耳机以及便携式设备
CN105446159B (zh) * 2016-01-08 2018-07-27 北京光年无限科技有限公司 智能家居***及其数据处理方法
CN109410929A (zh) * 2017-08-17 2019-03-01 上海擎感智能科技有限公司 车辆部件控制方法及装置、计算机可读存储介质、终端
US20190390866A1 (en) 2018-06-22 2019-12-26 Honeywell International Inc. Building management system with natural language interface

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249685A (ja) * 2000-03-03 2001-09-14 Alpine Electronics Inc 音声対話装置
JP2002258892A (ja) * 2001-03-05 2002-09-11 Alpine Electronics Inc 音声認識機器操作装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04324312A (ja) 1991-04-24 1992-11-13 Sharp Corp ナビゲーション装置
DE69712485T2 (de) * 1997-10-23 2002-12-12 Sony Int Europe Gmbh Sprachschnittstelle für ein Hausnetzwerk
JP3708747B2 (ja) * 1999-04-16 2005-10-19 アルパイン株式会社 音声認識方法
US6584439B1 (en) * 1999-05-21 2003-06-24 Winbond Electronics Corporation Method and apparatus for controlling voice controlled devices
US7127401B2 (en) * 2001-03-12 2006-10-24 Ge Medical Systems Global Technology Company, Llc Remote control of a medical device using speech recognition and foot controls
JP2002273036A (ja) * 2001-03-19 2002-09-24 Canon Inc 電子ゲーム装置および電子ゲーム装置における処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249685A (ja) * 2000-03-03 2001-09-14 Alpine Electronics Inc 音声対話装置
JP2002258892A (ja) * 2001-03-05 2002-09-11 Alpine Electronics Inc 音声認識機器操作装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1699041A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
WO2020026511A1 (ja) * 2018-07-30 2020-02-06 株式会社日立製作所 音声操作支援システム及び音声操作支援方法
JPWO2020026511A1 (ja) * 2018-07-30 2021-06-03 株式会社日立製作所 音声操作支援システム及び音声操作支援方法
JP7101247B2 (ja) 2018-07-30 2022-07-14 株式会社日立製作所 音声操作支援システム及び音声操作支援方法

Also Published As

Publication number Publication date
CN1906661A (zh) 2007-01-31
JP4533844B2 (ja) 2010-09-01
JPWO2005062296A1 (ja) 2007-07-19
DE602004016683D1 (de) 2008-10-30
US7505909B2 (en) 2009-03-17
CN1906661B (zh) 2011-06-29
EP1699041B1 (en) 2008-09-17
EP1699041A4 (en) 2007-08-29
EP1699041A1 (en) 2006-09-06
US20070239443A1 (en) 2007-10-11

Similar Documents

Publication Publication Date Title
JP4533844B2 (ja) 機器制御装置、機器制御方法及びプログラム
JP4533845B2 (ja) オーディオ機器制御装置、オーディオ機器制御方法及びプログラム
JP6236303B2 (ja) 制御装置、制御方法およびプログラム
JP4260788B2 (ja) 音声認識機器制御装置
JP4166153B2 (ja) 鳴声の音声的特徴分析に基づく犬の感情判別装置及びその方法
JP4640178B2 (ja) エアコン制御装置及びエアコン制御方法
JP4905522B2 (ja) 機器制御装置、機器制御方法及びプログラム
CN110767240B (zh) 儿童口音识别的设备控制方法、设备、存储介质及装置
JP2001125588A (ja) 音声認識装置及び方法ならびに記録媒体
JP4516919B2 (ja) 機器制御装置、機器制御方法及びプログラム
KR102485339B1 (ko) 차량의 음성 명령 처리 장치 및 방법
KR101888059B1 (ko) 문맥 기반 음성 모델 관리 장치 및 그 방법
JP6998289B2 (ja) 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム
US11527247B2 (en) Computing device and method of operating the same
US20230197079A1 (en) Electronic device and method to control external apparatus
JP7373348B2 (ja) 音声対話装置、音声対話用学習済みモデル、及び音声対話方法
JP6787957B2 (ja) 発話制御装置、発話制御方法、および発話制御プログラム
JP2003228393A (ja) 音声対話装置及び方法、音声対話プログラム並びにその記録媒体
JP2005165901A (ja) データ利用装置及びデータ利用方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005516407

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2004806317

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 200480040968.1

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2004806317

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10581822

Country of ref document: US

Ref document number: 2007239443

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 10581822

Country of ref document: US

WWG Wipo information: grant in national office

Ref document number: 2004806317

Country of ref document: EP