WO2022003879A1 - 音声操作装置、音声操作方法および音声操作プログラム - Google Patents

音声操作装置、音声操作方法および音声操作プログラム Download PDF

Info

Publication number
WO2022003879A1
WO2022003879A1 PCT/JP2020/025914 JP2020025914W WO2022003879A1 WO 2022003879 A1 WO2022003879 A1 WO 2022003879A1 JP 2020025914 W JP2020025914 W JP 2020025914W WO 2022003879 A1 WO2022003879 A1 WO 2022003879A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
command
unit
text data
existing system
Prior art date
Application number
PCT/JP2020/025914
Other languages
English (en)
French (fr)
Inventor
英毅 小矢
真実 小宮山
明 片岡
将志 田所
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2022532931A priority Critical patent/JP7452652B2/ja
Priority to US18/013,451 priority patent/US20230260508A1/en
Priority to PCT/JP2020/025914 priority patent/WO2022003879A1/ja
Publication of WO2022003879A1 publication Critical patent/WO2022003879A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the present invention relates to a voice control device, a voice control method, and a voice control program.
  • VUI Voice User Interface
  • Home Automation Home Automation
  • Patent Document 1 Non-Patent Documents 1 and 2
  • the present invention has been made in view of the above, and an object of the present invention is to add an arbitrary voice operation function to an existing system.
  • the voice operation device has a business determination unit that determines a processing type during operation based on the operation status of an existing system, and a HID (Human Interface Device). ) Is converted into text data, and a conversion unit that determines whether the text data is used for command determination or setting parameters according to the operation content of the HID, and a command.
  • a command determination unit that determines a command using the text data and the processing type being operated when it is determined to be used for determination, and the text data is used as a parameter when it is determined to be used as a setting parameter. It is characterized by comprising an operation unit for executing an operation corresponding to the determined command to the existing system.
  • FIG. 1 is a schematic diagram illustrating a schematic configuration of the voice operation device of the present embodiment.
  • FIG. 2 is a diagram illustrating the data structure of the rule.
  • FIG. 3 is a diagram for explaining the rules.
  • FIG. 4 is a diagram for explaining key operation settings.
  • FIG. 5 is a diagram for explaining the processing of the operation unit.
  • FIG. 6 is a flowchart showing a voice operation processing procedure.
  • FIG. 7 is a flowchart showing the voice operation processing procedure.
  • FIG. 8 is a flowchart showing a voice operation processing procedure.
  • FIG. 9 is a flowchart showing the voice operation processing procedure.
  • FIG. 10 is a flowchart showing a voice operation processing procedure.
  • FIG. 11 is a diagram showing an example of a computer that executes a voice operation program.
  • FIG. 1 is a schematic diagram illustrating a schematic configuration of the voice operation device of the present embodiment.
  • the voice operation device 10 of the present embodiment is realized by a general-purpose computer such as a personal computer, and includes an input unit 11, an output unit 12, a communication control unit 13, a storage unit 14, and a control unit 15. ..
  • the input unit 11 is realized by using an input device such as a keyboard, a mouse, and a microphone, and inputs various instruction information such as processing start to the control unit 15 in response to an input operation by the operator. Further, the input unit 11 inputs the voice of the user who operates the existing system 2 via the HID 3.
  • the output unit 12 is realized by a display device such as a liquid crystal display, a printing device such as a printer, or the like.
  • the output unit 12 displays text data or the like converted from the user's utterance in the voice operation process described later.
  • the communication control unit 13 is realized by a NIC (Network Interface Card) or the like, and controls communication between an external device and the control unit 15 via a telecommunication line such as a LAN (Local Area Network) or the Internet.
  • a NIC Network Interface Card
  • the communication control unit 13 controls communication between the existing system 2 which is the target of voice operation processing described later, the HID (Human Interface Device) 3 used by the user who operates the existing system 2, and the control unit 15.
  • the storage unit 14 is realized by a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • the storage unit 14 stores in advance a processing program for operating the voice operation device 10, data used during execution of the processing program, and the like, or temporarily stores each time the processing is performed.
  • the storage unit 14 may be configured to communicate with the control unit 15 via the communication control unit 13.
  • the storage unit 14 stores, for example, the rule 14a and the key operation setting 14b. These information are created by the user, for example, prior to the voice operation processing described later, and are stored in the storage unit 14 via the input unit 11 or the communication control unit 13.
  • FIG. 2 is a diagram illustrating the data structure of the rule 14a.
  • FIG. 3 is a diagram for explaining the rule 14a.
  • the rule 14a is information for determining a processing type and a command corresponding to the processing type.
  • the processing type means the work being operated by the user.
  • rule 14a includes business conditions and command conditions.
  • the business conditions include, for example, business A and its judgment condition A
  • the command conditions corresponding to business A include command ⁇ , command ⁇ , command ⁇ , and judgment condition ⁇ , judgment condition ⁇ , and judgment of each command.
  • the rule 14a includes an operation setting which is information for specifying a parameter to be set corresponding to the command.
  • the operation settings A- ⁇ are included corresponding to the command ⁇ .
  • each element of rule 14a is set as shown in FIG.
  • the business is "customer information registration” and "service information registration”.
  • "" Customer information "is displayed in the pull-down menu” is set as a determination condition for the business "customer information registration”.
  • "" service "is displayed in the pull-down menu” is set.
  • the command corresponding to the business "customer information registration” is, for example, "post a form”, and "voice text matches the command name” is set as a judgment condition of this command "post a form”.
  • the command corresponding to the business "service information registration” is also "post form”, and "voice text matches the command name” is set as the determination condition of this command.
  • FIG. 3 illustrates, for example, an operation setting for specifying a parameter to be set in the command "post form" of the business "customer information registration". It is shown that this operation setting is “set the next utterance in the UI” zip code "" and “set the next utterance in the UI” address "".
  • the key operation setting 14b is information for specifying the operation content of the HID for determining whether the text data converted by the conversion unit 15c described later is used for the command determination or the setting parameter.
  • FIG. 4 is a diagram for explaining key operation settings.
  • the key operation setting 14b it is specified by the key operation setting 14b that, for example, the voice input from the time the control key is pressed twice to the time the control key is released is converted into text data and used for the command determination described later. ing. Further, it is specified that the voice input from the time the control key is pressed once to the time it is released is converted into text data and used as a setting parameter described later.
  • the control unit 15 is realized by using a CPU (Central Processing Unit) or the like, and executes a processing program stored in a memory. As a result, as illustrated in FIG. 1, the control unit 15 functions as a monitoring unit 15a, a business determination unit 15b, a conversion unit 15c, a command determination unit 15d, a parameter acquisition unit 15e, and an operation unit 15f. It should be noted that these functional parts may be implemented in different hardware, respectively or in part. For example, the monitoring unit 15a and the business determination unit 15b may be mounted on hardware different from other functional units. Further, the control unit 15 may include other functional units.
  • a CPU Central Processing Unit
  • the monitoring unit 15a monitors the operation status of the existing system 2. For example, the monitoring unit 15a monitors the window title, pull-down display, and the like of the software being operated by the user. Then, the monitoring unit 15a notifies the business determination unit 15b of the operation status periodically or at an appropriate timing such as the timing when the voice operation process described later is started.
  • the business determination unit 15b determines the processing type being operated based on the operation status of the existing system 2. Specifically, the business determination unit 15b determines the business being operated by the user by using the operation status notified from the monitoring unit 15a and the business conditions of the rule 14a.
  • the business determination unit 15b has a determination condition "pull-down" for the business "customer information registration” when the operation status "display of pull-down is” customer information "" is notified from the monitoring unit 15a. "Customer information” is displayed in “.” Then, since the operation status matches the business determination condition, the business determination unit 15b determines that the business being operated is "customer information registration".
  • the business determination unit 15b matches the determination condition "" service “is displayed in the pull-down" of the business "service information registration” when the operation status "display of pull-down is” service "" is notified. Therefore, the business being operated is determined to be "service information registration".
  • the conversion unit 15c converts the voice data input during the predetermined operation of the HID 3 into text data, and determines whether the text data is used for the command determination or the setting parameter according to the operation content of the HID 3. .. Specifically, when the conversion unit 15c refers to the key operation setting 14b and detects the operation content of the HID 3 specified by the key operation setting 14b, the conversion unit 15c inputs the voice data input via the input unit 11. For example, it is converted into text data using an existing API or the like. Further, the conversion unit 15c determines whether the converted text data is used for command determination or setting parameter according to the detected operation content of HID3.
  • the conversion unit 15c converts the voice data "post form” input from the time the control key is pressed twice to the time it is released into text data, and uses this as command determination. It is determined to be used. Further, the conversion unit 15c converts the voice data "1001234" input from the time the control key is pressed once to the time it is released into text data, and determines that this is used as the setting parameter. Further, it is determined that the voice data "Hikarinooka 1-1" input from the time the control key is pressed once to the time it is released is converted into text data, and this is used for the next setting parameter.
  • the conversion unit 15c determines that it is used for command determination, it transmits text data to the command determination unit 15d, which will be described later. Also. When the conversion unit 15c determines that the setting parameter is used, the conversion unit 15c transmits text data to the parameter acquisition unit 15e described later.
  • the command determination unit 15d determines a command using the text data and the processing type being operated. Specifically, the command determination unit 15d refers to the rule 14a and determines the command by using the determination conditions and the text data of the command corresponding to the operation determined by the operation determination unit 15b.
  • the command determination unit 15d sets the determination condition "voice text matches the command name” and the text data "form” for the command "post form” corresponding to the business "customer information registration”. If "Posting" matches, the text data command is determined to be "Posting form”.
  • the parameter acquisition unit 15e acquires text data as a parameter when it is determined to be used as a setting parameter. Further, the operation unit 15f executes an operation corresponding to the determined command on the existing system 2 by using the acquired parameters.
  • the parameter acquisition unit 15e holds the text data acquired from the conversion unit 15c in a queue format data structure, and the operation unit 15f responds to the operation "acquire the next utterance" by FIFO (First). Return the value with In First Out). Further, the operation unit 15f operates the existing system 2 with the text data acquired by the parameter acquisition unit 15e as the parameter of the determined command according to the operation setting of the rule 14a.
  • FIG. 5 is a diagram for explaining the processing of the operation unit.
  • the operation setting includes operations such as "acquire the next utterance", "UI designation”, and "UI operation”. Then, it is specified to acquire the text data determined to be used as the setting parameter (corresponding to the "next utterance” in FIG. 5A) and perform the UI operation of "setting" to the UI "zip code”. Has been done. In addition, it is specified that the next text data (next utterance) is set in the UI "address".
  • the operation unit 15f uses the text data "1001234" determined to be used as the setting parameter by the operation of the HID 3 shown in FIG. 4 as the UI "zip code” of the screen of the business "customer information registration” of the existing system 2. Set to. Further, the operation unit 15f sets the next text data "Hikarinooka 1-1" as the UI "address” of the same screen.
  • the operation unit 15f sets the text data "network” to the UI "service” on the screen of the business "service information registration" of the existing system 2. Further, the operation unit 15f sets the next text data "bandwidth guarantee” to the UI “option” of the same screen. Further, the operation unit 15f sets the next text data "site survey required” in the UI "remarks” of the same screen.
  • the operation unit 15f operates the UI of the existing system 2 according to the operation settings defined in the rule 14a. Further, in FIGS. 5 (a) and 5 (b), even if the same command "post form” is used, different operations from “customer information registration” and “service information registration” are supported as shown in FIG. The operation is performed properly according to the different operation settings.
  • FIGS. 6 to 10 are flowcharts showing the voice operation processing procedure.
  • the flowchart of FIG. 6 is started at the timing when, for example, the user performs an operation input for starting a voice operation using HID3.
  • the business determination unit 15b determines the business being operated by the user using the operation status notified from the monitoring unit 15a and the business conditions of the rule 14a (step S1).
  • the conversion unit 15c converts the voice data input during the predetermined operation of the HID 3 into text data, and depending on the operation content of the HID 3, the text data is used for command determination or setting parameter. Is determined (steps S2 to S3).
  • the command determination unit 15d determines the command using the text data and the processing type being operated (step S4).
  • step S3 if it is determined that the conversion unit 15c is used as the setting parameter (step S3, No), the parameter acquisition unit 15e acquires the text data as a parameter (step S5). Further, the operation unit 15f executes an operation corresponding to the determined command to the existing system 2 using the acquired parameters (step S6). As a result, a series of voice operation processing is completed.
  • FIG. 7 shows a detailed procedure of the process of the above step S1.
  • the business determination unit 15b acquires the business condition of the rule 14a (step S11) and waits for the reception of the operation status of the existing system 2 (step S12, No).
  • the business determination unit 15b refers to the business of the business condition of the rule 14a in order, and acquires the judgment condition corresponding to the business (step S13).
  • step S14 If the acquired determination condition is empty (step S14, Yes), the business determination unit 15b returns the process to step S12. On the other hand, when the determination condition is not empty (step S14, No), the business determination unit 15b confirms whether or not the operation status matches the business determination condition (step S15).
  • step S15, No If they do not match (step S15, No), the business determination unit 15b returns the process to step S13. On the other hand, if they match (step S15, Yes), the business determination unit 15b determines that the matched business is the current business being operated by the user (step S16), and returns the processing to step S12.
  • FIG. 8 shows a detailed procedure of the processing of the above steps S2 to S3.
  • the conversion unit 15c reads the key operation setting 14b (step S21) and waits for the occurrence of the key operation in HID 3 (step S22, No).
  • step S22, Yes the conversion unit 15c acquires the user's voice data (step S23) and waits for the end of the key operation in HID3 (step S24, Yes). No).
  • step S24 When the key operation is completed (step S24, Yes), the conversion unit 15c converts the acquired voice data into text data (voice text) (step S25).
  • step S26 If the key operation is an operation that specifies that the voice text is used for the command determination (step S26, Yes), the conversion unit 15c transmits the voice text to the command determination unit 15d (step S27). ), Return the process to step S22.
  • step S26 when the key operation is an operation specifying that the voice text is used as the setting parameter (step S26, No), the conversion unit 15c transmits the voice text to the parameter acquisition unit 15e (step S28). ), Return the process to step S22.
  • FIG. 9 shows a detailed procedure of the process of the above step S4.
  • the command determination unit 15d acquires the business condition, the command condition, and the operation setting of the rule 14a (step S41), and waits for the reception of the voice text (step S42, No).
  • the command determination unit 15d acquires the user's current operation from the operation determination unit 15b (step S43).
  • command determination unit 15d sequentially refers to the commands of the command conditions corresponding to the business of the rule 14a, and acquires the determination conditions corresponding to the commands (step S44).
  • step S45 If the acquired determination condition is empty (step S45, Yes), the command determination unit 15d returns the process to step S42. On the other hand, when the determination condition is not empty (step S45, No), the command determination unit 15d confirms whether or not the voice text matches the command determination condition (step S46).
  • step S46, No If they do not match (step S46, No), the command determination unit 15d returns the process to step S44. On the other hand, if they match (step S46, Yes), the command determination unit 15d transmits the operation setting corresponding to the matched command to the operation unit 15f (step S47), and returns the process to step S42.
  • FIG. 10 shows a detailed procedure of the process of the above step S6.
  • the operation unit 15f waits for the command operation setting to be received from the command determination unit 15d (step S61, No). When the operation setting is received (step S61, Yes), the operation unit 15f acquires the operation of the operation setting of the command in order (step S62).
  • step S63, Yes If the acquired operation is empty (step S63, Yes), the operation unit 15f returns the process to step S61. On the other hand, when the operation is not empty (step S63, No), the operation unit 15f confirms the type of operation (step S64) and executes the operation according to the type.
  • the operation unit 15f acquires the voice text from the parameter acquisition unit 15e (step S65), and returns the process to step S62.
  • the operation unit 15f acquires the object reference of the existing system 2 based on the name (step S66), and returns the process to step S62.
  • the object reference is information that uniquely identifies the UI such as a button or a text box of the existing system 2.
  • the object reference is the DOM (Document Object Model) Element.
  • the object reference is the Operation Element of UI Operation.
  • the operation unit 15f can execute an operation on the existing system 2 by using the object reference.
  • the operation unit 15f operates the UI of the existing system 2 using the object reference (step S67), and returns the process to step S62.
  • step S68 When the operation type is "notification by sound", the operation unit 15f outputs a voice (step S68) and returns the process to step S62.
  • the business determination unit 15b determines the processing type being operated based on the operation status of the existing system 2. Further, the conversion unit 15c converts the voice data input during the predetermined operation of the HID 3 into text data, and determines whether the text data is used for the command determination or the setting parameter according to the operation content of the HID 3. judge. Further, when the command determination unit 15d determines that the command is to be used for the command determination, the command determination unit 15d determines the command by using the text data and the processing type being operated. Further, when the operation unit 15f is determined to be used as a setting parameter, the text data is used as a parameter to execute an operation corresponding to the determined command to the existing system 2.
  • the voice operation device 10 can be retrofitted with any voice operation function without being limited to the predetermined voice command set in advance.
  • the voice operation is performed starting from the operation of HID3
  • the voice command is determined in consideration of the situation of the user's business, it is possible to suppress the increase in the types of voice commands and efficiently realize the voice operation function.
  • the correspondence between the command and a large number of parameters can be flexibly set, it can be easily realized.
  • the voice operation device 10 it is possible to add an arbitrary voice operation function to the existing system without the need for hard coating of the program.
  • the storage unit 14 stores the rule 14a for determining the processing type and the command corresponding to the processing type. Further, the rule 14a includes information for designating a parameter to be set corresponding to the command. This makes it easy for the user to add a voice operation function in detail.
  • the storage unit 14 stores the key operation setting 14b for specifying the operation content of the HID for determining whether the text data obtained by converting the voice is used for the command determination or the setting parameter. This makes it possible to easily extract the voice used for the voice operation without using morphological analysis or the like.
  • the monitoring unit 15a monitors the operation status of the existing system 2. As a result, the user can quickly grasp the processing status of the existing system 2 and perform highly accurate voice operation.
  • the voice operation device 10 can be implemented by installing a voice operation program for executing the above voice operation processing as package software or online software on a desired computer.
  • the information processing device can be made to function as the voice operation device 10.
  • the information processing device referred to here includes a desktop type or notebook type personal computer.
  • the information processing device includes smartphones, mobile communication terminals such as mobile phones and PHS (Personal Handyphone System), and slate terminals such as PDAs (Personal Digital Assistants).
  • the function of the voice operation device 10 may be implemented in the cloud server.
  • FIG. 11 is a diagram showing an example of a computer that executes a voice operation program.
  • the computer 1000 has, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1031.
  • the disk drive interface 1040 is connected to the disk drive 1041.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041.
  • a mouse 1051 and a keyboard 1052 are connected to the serial port interface 1050.
  • a display 1061 is connected to the video adapter 1060.
  • the hard disk drive 1031 stores, for example, the OS 1091, the application program 1092, the program module 1093, and the program data 1094. Each of the information described in the above embodiment is stored in, for example, the hard disk drive 1031 or the memory 1010.
  • the voice operation program is stored in the hard disk drive 1031 as, for example, a program module 1093 in which a command executed by the computer 1000 is described.
  • the program module 1093 in which each process executed by the voice operating device 10 described in the above embodiment is described is stored in the hard disk drive 1031.
  • the data used for information processing by the voice operation program is stored as program data 1094 in, for example, the hard disk drive 1031.
  • the CPU 1020 reads the program module 1093 and the program data 1094 stored in the hard disk drive 1031 into the RAM 1012 as needed, and executes each of the above-mentioned procedures.
  • the program module 1093 and program data 1094 related to the voice operation program are not limited to the case where they are stored in the hard disk drive 1031. For example, they are stored in a removable storage medium and read by the CPU 1020 via the disk drive 1041 or the like. It may be issued. Alternatively, the program module 1093 and the program data 1094 related to the voice operation program are stored in another computer connected via a network such as a LAN or WAN (Wide Area Network), and read by the CPU 1020 via the network interface 1070. May be done.
  • a network such as a LAN or WAN (Wide Area Network)

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

業務判定部(15b)が、既存システム(2)の操作状況に基づいて、操作中の処理種別を判定する。変換部(15c)が、HID(3)の所定の操作中に入力された音声データをテキストデータに変換し、該HID(3)の操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する。コマンド判定部(15d)が、コマンド判定に用いると判定された場合に、テキストデータと操作中の処理種別とを用いて、コマンドを判定する。操作部(15f)が、設定パラメータに用いると判定された場合に、テキストデータをパラメータとして用いて、判定されたコマンドに対応した操作を既存システム(2)に対して実行する。

Description

音声操作装置、音声操作方法および音声操作プログラム
 本発明は、音声操作装置、音声操作方法および音声操作プログラムに関する。
 近年、音声認識や自然言語処理の飛躍的な向上により、VUI(Voice User Interface)が注目されている。例えばVUIは、音声による自宅の家電操作(Home Automation)や、運転中の車載機能の操作などに活用されている(特許文献1、非特許文献1、2参照)。
特開2017-87950号公報
"Windows音声認識コマンド"、[online]、Microsoft、[2020年5月8日検索]、インターネット<URL:https://support.microsoft.com/ja-jp/help/12427/windows-speech-recognition-commands> "Alexaで最新情報を聞いてみよう"、[online]、amazon、[2020年5月8日検索]、インターネット<URL:https://www.amazon.co.jp/b?ie=UTF8&node=4788676051>
 しかしながら、従来の技術では、既存システムに任意の音声操作の機能を追加することが困難な場合がある。例えば、従来のVUIの多くは、既定の音声コマンドを呼び出すだけであり、ユーザの業務に合わせて独自の音声操作を行うためには、プログラムをハードコーディングする必要がある。また、発話したユーザの状況を考慮せずに、発話とアプリケーションが合致した音声コマンドを実行するだけである。そのため、異なる業務にはそれぞれ異なる音声コマンドを定義する必要があり、音声コマンドが乱立してしまう。
 本発明は、上記に鑑みてなされたものであって、既存システムに任意の音声操作の機能を追加することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る音声操作装置は、既存システムの操作状況に基づいて、操作中の処理種別を判定する業務判定部と、HID(Human Interface Device)の所定の操作中に入力された音声データをテキストデータに変換し、該HIDの操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する変換部と、コマンド判定に用いると判定された場合に、前記テキストデータと前記操作中の処理種別とを用いて、コマンドを判定するコマンド判定部と、設定パラメータに用いると判定された場合に、前記テキストデータをパラメータとして用いて、判定された前記コマンドに対応した操作を前記既存システムに対して実行する操作部と、を備えることを特徴とする。
 本発明によれば、既存システムに任意の音声操作の機能を追加することが可能となる。
図1は、本実施形態の音声操作装置の概略構成を例示する模式図である。 図2は、ルールのデータ構成を例示する図である。 図3は、ルールを説明するための図である。 図4は、キー操作設定を説明するための図である。 図5は、操作部の処理を説明するための図である。 図6は、音声操作処理手順を示すフローチャートである。 図7は、音声操作処理手順を示すフローチャートである。 図8は、音声操作処理手順を示すフローチャートである。 図9は、音声操作処理手順を示すフローチャートである。 図10は、音声操作処理手順を示すフローチャートである。 図11は、音声操作プログラムを実行するコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[音声操作装置の構成]
 図1は、本実施形態の音声操作装置の概略構成を例示する模式図である。図1に例示するように、本実施形態の音声操作装置10は、パソコン等の汎用コンピュータで実現され、入力部11、出力部12、通信制御部13、記憶部14、および制御部15を備える。
 入力部11は、キーボードやマウス、マイク等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部15に対して処理開始などの各種指示情報を入力する。また、入力部11は、HID3を介して既存システム2を操作するユーザの音声を入力する。
 出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。例えば、出力部12は、後述する音声操作処理において、ユーザの発話を変換したテキストデータ等を表示する。
 通信制御部13は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した外部の装置と制御部15との通信を制御する。例えば、通信制御部13は、後述する音声操作処理の対象である既存システム2や、既存システム2を操作するユーザが用いるHID(Human Interface Device)3と、制御部15との通信を制御する。
 記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14には、音声操作装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。なお、記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。
 本実施形態において、記憶部14は、例えば、ルール14aと、キー操作設定14bとを記憶する。これらの情報は、例えば、後述する音声操作処理に先立って、ユーザによって作成され、入力部11あるいは通信制御部13を介して、記憶部14に蓄積される。
 ここで、図2は、ルール14aのデータ構成を例示する図である。また、図3は、ルール14aを説明するための図である。図2に示すように、ルール14aは、処理種別と、該処理種別に対応するコマンドとを判定する情報である。本実施形態において、処理種別とは、ユーザが操作中の業務を意味する。
 具体的には、ルール14aは、業務条件、コマンド条件を含む。図2に示す例では、業務条件として、例えば業務Aとその判定条件A、業務Aに対応するコマンド条件として、コマンドα、コマンドβ、コマンドγと各コマンドの判定条件α、判定条件β、判定条件γとが含まれている。
 また、ルール14aは、コマンドに対応して設定するパラメータを指定する情報である操作設定を含む。図2に示す例では、コマンドαに対応して、操作設定A-αが含まれている。
 具体的には、ルール14aの各要素は、図3に示すように設定される。図3に示す例において、例えば、業務は「お客様情報登録」「サービス情報登録」である。業務「お客様情報登録」の判定条件として、例えば「プルダウンに“お客様情報”が表示されている」が設定される。また、業務「サービス情報登録」の判定条件として、「プルダウンに“サービス”が表示されている」が設定される。
 また、業務「お客様情報登録」に対応するコマンドは、例えば「帳票を転記」であり、このコマンド「帳票を転記」の判定条件として、「音声テキストがコマンド名と一致」が設定される。また、業務「サービス情報登録」に対応するコマンドも、「帳票を転記」であり、このコマンドの判定条件として、「音声テキストがコマンド名と一致」が設定される。
 また、図3には、例えば、業務「お客様情報登録」のコマンド「帳票を転記」に設定するパラメータを指定する操作設定が例示されている。この操作設定は、「次の発話をUI「郵便番号」に設定する」「次の発話をUI「住所」に設定する」であることが示されている。
 図1の説明に戻る。キー操作設定14bは、後述する変換部15cが変換したテキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定するための、HIDの操作内容を特定する情報である。
 ここで、図4は、キー操作設定を説明するための図である。図4に示す例では、キー操作設定14bにより、例えば、コントロールキーが2回押されてから離されるまでに入力された音声をテキストデータに変換し、後述するコマンド判定に使用することが指定されている。また、コントロールキーが1回押されてから離されるまでに入力された音声をテキストデータに変換し、後述する設定パラメータとして使用することが指定されている。
 図1の説明に戻る。制御部15は、CPU(Central Processing Unit)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部15は、図1に例示するように、監視部15a、業務判定部15b、変換部15c、コマンド判定部15d、パラメータ取得部15eおよび操作部15fとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。例えば、監視部15aおよび業務判定部15bは、その他の機能部とは異なるハードウェアに実装されてもよい。また、制御部15は、その他の機能部を備えてもよい。
 監視部15aは、既存システム2の操作状況を監視する。例えば、監視部15aは、ユーザが操作中のソフトウェアのウィンドウタイトル、プルダウンの表示等を監視している。そして、監視部15aは、定期的に、あるいは後述する音声操作処理を開始したタイミング等の適宜なタイミングに、業務判定部15bに操作状況を通知する。
 業務判定部15bは、既存システム2の操作状況に基づいて、操作中の処理種別を判定する。具体的には、業務判定部15bは、監視部15aから通知された操作状況と、ルール14aの業務条件とを用いて、ユーザが操作中の業務を判定する。
 例えば、業務判定部15bは、図3に示した例では、監視部15aから操作状況「プルダウンの表示は“お客様情報”」が通知された場合に、業務「お客様情報登録」の判定条件「プルダウンに“お客様情報”が表示されている」と対比する。そして、業務判定部15bは、操作状況が業務の判定条件と一致することから、操作中の業務が「お客様情報登録」であると判定する。
 同様に、業務判定部15bは、操作状況「プルダウンの表示は“サービス”」が通知された場合に、業務「サービス情報登録」の判定条件「プルダウンに“サービス”が表示されている」と一致することから、操作中の業務は「サービス情報登録」と判定する。
 変換部15cは、HID3の所定の操作中に入力された音声データをテキストデータに変換し、該HID3の操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する。具体的には、変換部15cは、キー操作設定14bを参照し、キー操作設定14bで特定されているHID3の操作内容を検知した場合に、入力部11を介して入力された音声データを、例えば既存のAPI等を用いてテキストデータに変換する。また、変換部15cは、検知したHID3の操作内容に応じて、変換したテキストデータを、コマンド判定または設定パラメータのいずれに用いるかを判定する。
 例えば、変換部15cは、図4に示した例では、コントロールキーが2回押されてから離されるまでに入力された音声データ「帳票を転記」をテキストデータに変換し、これをコマンド判定に用いると判定している。また、変換部15cは、コントロールキーが1回押されてから離されるまでに入力された音声データ「1001234」をテキストデータに変換し、これを設定パラメータに用いると判定している。さらに、コントロールキーが1回押されてから離されるまでに入力された音声データ「光の丘1-1」をテキストデータに変換し、これを次の設定パラメータに用いると判定している。
 変換部15cは、コマンド判定に用いると判定した場合には、後述するコマンド判定部15dにテキストデータを送信する。また。変換部15cは、設定パラメータに用いると判定した場合は、後述するパラメータ取得部15eにテキストデータを送信する。
 コマンド判定部15dは、コマンド判定に用いると判定された場合に、テキストデータと操作中の処理種別とを用いて、コマンドを判定する。具体的には、コマンド判定部15dは、ルール14aを参照し、業務判定部15bが判定した業務に対応するコマンドの判定条件とテキストデータとを用いて、コマンドを判定する。
 例えば、コマンド判定部15dは、図3に示した例では、業務「お客様情報登録」に対応するコマンド「帳票を転記」の判定条件「音声テキストがコマンド名と一致」と、テキストデータ「帳票を転記」とが一致する場合に、テキストデータのコマンドを「帳票を転記」と判定する。
 パラメータ取得部15eは、設定パラメータに用いると判定された場合に、テキストデータをパラメータとして取得する。また、操作部15fは、取得されたパラメータを用いて、判定されたコマンドに対応した操作を既存システム2に対して実行する。
 具体的には、パラメータ取得部15eは、変換部15cから取得したテキストデータをキュー形式のデータ構造で保持し、操作部15fに対し、操作「次の発話を取得」に対応してFIFO(First In First Out)で値を返却する。また、操作部15fは、ルール14aの操作設定に従って、パラメータ取得部15eが取得したテキストデータを、判定されたコマンドのパラメータとして、既存システム2に対してコマンドの操作を行う。
 ここで、図5は、操作部の処理を説明するための図である。図5(a)に示した例では、操作設定は、「次の発話を取得」「UI指定」「UI操作」等の操作を含んでいる。そして、設定パラメータに用いると判定されたテキストデータ(図5(a)の「次の発話」に相当)を取得して、UI「郵便番号」に「設定する」というUI操作を行うことが指定されている。また、その次のテキストデータ(次の発話)をUI「住所」に設定することが指定されている。
 そして、操作部15fは、図4に示したHID3の操作により、設定パラメータに用いると判定されたテキストデータ「1001234」を、既存システム2の業務「お客様情報登録」の画面のUI「郵便番号」に設定する。また、操作部15fは、次のテキストデータ「光の丘1-1」を同一の画面のUI「住所」に設定する。
 同様に、操作部15fは、図5(b)に示した例では、テキストデータ「ネットワーク」を既存システム2の業務「サービス情報登録」の画面のUI「サービス」に設定する。また、操作部15fは、次のテキストデータ「帯域保障」を同一の画面のUI「オプション」に設定する。また、操作部15fは、その次のテキストデータ「現場調査要」を同一の画面のUI「備考」に設定する。
 このように、操作部15fは、ルール14aに定義された操作設定に従って、既存システム2のUIを操作する。また、図5(a)(b)とでは、同一のコマンド「帳票を転記」を用いても、図3に示したように「お客様情報登録」「サービス情報登録」との異なる業務に対応した異なる操作設定に従って、適切に操作が実行される。
[音声操作処理]
 次に、図6~図10を参照して、本実施形態に係る音声操作装置10による音声操作処理について説明する。図6~図10は、音声操作処理手順を示すフローチャートである。まず、図6のフローチャートは、例えば、ユーザがHID3を用いて音声操作を開始する操作入力を行ったタイミングで開始される。
 まず、業務判定部15bが、監視部15aから通知された操作状況と、ルール14aの業務条件とを用いて、ユーザが操作中の業務を判定する(ステップS1)。
 次に、変換部15cが、HID3の所定の操作中に入力された音声データをテキストデータに変換し、該HID3の操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する(ステップS2~S3)。
 変換部15cがコマンド判定に用いると判定した場合には(ステップS3、Yes)、コマンド判定部15dが、テキストデータと操作中の処理種別とを用いて、コマンドを判定する(ステップS4)。
 一方、変換部15cが設定パラメータに用いると判定した場合は(ステップS3、No)、パラメータ取得部15eが、テキストデータをパラメータとして取得する(ステップS5)。また、操作部15fが、取得されたパラメータを用いて、判定されたコマンドに対応した操作を既存システム2に対して実行する(ステップS6)。これにより、一連の音声操作処理が終了する。
 次に、図7は、上記のステップS1の処理の詳細な手順を示す。業務判定部15bは、ルール14aの業務条件を取得し(ステップS11)、既存システム2の操作状況の受信を待機する(ステップS12、No)。操作状況を受信した場合に(ステップS12、Yes)、業務判定部15bは、ルール14aの業務条件の業務を順に参照し、業務に対応する判定条件を取得する(ステップS13)。
 取得した判定条件が空の場合には(ステップS14、Yes)、業務判定部15bは、ステップS12に処理を戻す。一方、判定条件が空ではない場合には(ステップS14、No)、業務判定部15bは、操作状況が業務の判定条件と一致するか否かを確認する(ステップS15)。
 一致しない場合には(ステップS15、No)、業務判定部15bは、ステップS13に処理を戻す。一方、一致する場合には(ステップS15、Yes)、業務判定部15bは、一致した業務をユーザが操作中の現在の業務と判定し(ステップS16)、ステップS12に処理を戻す。
 また、図8は、上記のステップS2~S3の処理の詳細な手順を示す。変換部15cは、キー操作設定14bを読み込んで(ステップS21)、HID3におけるキーとなる操作の発生を待機する(ステップS22、No)。キーとなる操作が発生した場合には(ステップS22、Yes)、変換部15cは、ユーザの音声データを取得して(ステップS23)、HID3におけるキーとなる操作の終了を待機する(ステップS24、No)。
 キーとなる操作が終了した場合には(ステップS24、Yes)、変換部15cは、取得した音声データをテキストデータ(音声テキスト)に変換する(ステップS25)。
 また、キーとなる操作が、音声テキストをコマンド判定に用いることを指定する操作だった場合には(ステップS26、Yes)、変換部15cは、音声テキストをコマンド判定部15dに送信し(ステップS27)、ステップS22に処理を戻す。
 一方、キーとなる操作が、音声テキストを設定パラメータに用いることを指定する操作だった場合には(ステップS26、No)、変換部15cは、音声テキストをパラメータ取得部15eに送信し(ステップS28)、ステップS22に処理を戻す。
 図9は、上記のステップS4の処理の詳細な手順を示す。コマンド判定部15dは、ルール14aの業務条件、コマンド条件および操作設定を取得し(ステップS41)、音声テキストの受信を待機する(ステップS42、No)。音声テキストを受信した場合に(ステップS42、Yes)、コマンド判定部15dは、業務判定部15bから、ユーザの現在の業務を取得する(ステップS43)。
 また、コマンド判定部15dは、ルール14aの業務に対応するコマンド条件のコマンドを順に参照し、コマンドに対応する判定条件を取得する(ステップS44)。
 取得した判定条件が空の場合には(ステップS45、Yes)、コマンド判定部15dは、ステップS42に処理を戻す。一方、判定条件が空ではない場合には(ステップS45、No)、コマンド判定部15dは、音声テキストがコマンドの判定条件と一致するか否かを確認する(ステップS46)。
 一致しない場合には(ステップS46、No)、コマンド判定部15dは、ステップS44に処理を戻す。一方、一致する場合には(ステップS46、Yes)、コマンド判定部15dは、一致したコマンドに対応する操作設定を操作部15fに送信し(ステップS47)、ステップS42に処理を戻す。
 図10は、上記のステップS6の処理の詳細な手順を示す。操作部15fは、コマンド判定部15dからコマンドの操作設定の受信を待機する(ステップS61、No)。操作設定を受信した場合に(ステップS61、Yes)、操作部15fは、コマンドの操作設定の操作を順に取得する(ステップS62)。
 取得した操作が空の場合には(ステップS63、Yes)、操作部15fは、ステップS61に処理を戻す。一方、操作が空ではない場合には(ステップS63、No)、操作部15fは、操作の種別を確認し(ステップS64)、種別に応じた操作を実行する。
 操作の種別が「次の発話を取得」である場合には、操作部15fは、パラメータ取得部15eから音声テキストを取得し(ステップS65)、ステップS62に処理を戻す。
 操作の種別が「UI指定」である場合には、操作部15fは、名前をもとに既存システム2のオブジェクト参照を取得し(ステップS66)、ステップS62に処理を戻す。
 ここで、オブジェクト参照は、既存システム2のボタンやテキストボックス等のUIを一意に特定する情報である。例えば、既存システム2がWebベースのシステムである場合には、オブジェクト参照はDOM(Document Object Model)のElementである。また、既存システム2がWindows(登録商標)の電卓アプリ等のネイティブアプリケーションである場合には、オブジェクト参照はUI AutmationのAutmationElementである。操作部15fは、オブジェクト参照を用いることにより、既存システム2に対する操作を実行することが可能となる。
 操作の種別が「UI操作」である場合には、操作部15fは、オブジェクト参照を用いて既存システム2のUIを操作し(ステップS67)、ステップS62に処理を戻す。
 操作の種別が「音による通知」である場合には、操作部15fは、音声を出力し(ステップS68)、ステップS62に処理を戻す。
 以上、説明したように、本実施形態の音声操作装置10において、業務判定部15bが、既存システム2の操作状況に基づいて、操作中の処理種別を判定する。また、変換部15cが、HID3の所定の操作中に入力された音声データをテキストデータに変換し、該HID3の操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する。また、コマンド判定部15dが、コマンド判定に用いると判定された場合に、テキストデータと操作中の処理種別とを用いて、コマンドを判定する。また、操作部15fが、設定パラメータに用いると判定された場合に、テキストデータをパラメータとして用いて、判定されたコマンドに対応した操作を既存システム2に対して実行する。
 これにより、音声操作装置10は、予め設定された規定の音声コマンドに限定されることなく、任意の音声操作の機能を後付けで適用可能となる。特に、HID3の操作を起点として音声操作を行うため、操作中に音声を起点とした音声操作を併用する場合のように操作中の業務の流れに支障を来すことなく、音声操作を実現可能となる。また、ユーザの業務等の状況を考慮して音声コマンドを判定するので、音声コマンドの種類の増加を抑えて、効率よく音声操作の機能を実現できる。また、コマンドと多数のパラメータとの対応付けを柔軟に設定できるので、容易に実現できる。
 例えば、印刷された紙帳票の手書き入力欄を上から読み上げることにより、対応するシステムの入力欄にテキストを入力することが可能となる。あるいは、印刷された紙帳票の手書き入力欄を上から読み上げて、対応するシステムの入力欄に設定された内容と比較することにより、齟齬があればエラーを通知することが可能となる。このように、音声操作装置10によれば、プログラムのハードコーティング等を不要として、既存システムに任意の音声操作の機能を追加することが可能となる。
 また、記憶部14に、処理種別と、該処理種別に対応するコマンドとを判定するルール14aを記憶する。また、ルール14aは、コマンドに対応して設定するパラメータを指定する情報を含む。これにより、ユーザがきめ細かく音声操作機能を追加することが容易に可能となる。
 また、記憶部14は、音声を変換したテキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定するための、HIDの操作内容を特定するキー操作設定14bを記憶する。これにより、音声操作に用いる音声の抽出が、形態素解析等によらずに容易に可能となる。
 また、監視部15aが、既存システム2の操作状況を監視する。これにより、迅速にユーザによる既存システム2の処理状況を把握して、高精度な音声操作が可能となる。
[プログラム]
 上記実施形態に係る音声操作装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、音声操作装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声操作処理を実行する音声操作プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音声操作プログラムを情報処理装置に実行させることにより、情報処理装置を音声操作装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistant)などのスレート端末などがその範疇に含まれる。また、音声操作装置10の機能を、クラウドサーバに実装してもよい。
 図11は、音声操作プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
 ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
 また、音声操作プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した音声操作装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
 また、音声操作プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
 なお、音声操作プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、音声操作プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
 10 音声操作装置
 11 入力部
 12 出力部
 13 通信制御部
 14 記憶部
 14a ルール
 14b キー操作設定
 15 制御部
 15a 監視部
 15b 業務判定部
 15c 変換部
 15d コマンド判定部
 15e パラメータ取得部
 15f 操作部

Claims (7)

  1.  既存システムの操作状況に基づいて、操作中の処理種別を判定する業務判定部と、
     HID(Human Interface Device)の所定の操作中に入力された音声データをテキストデータに変換し、該HIDの操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する変換部と、
     コマンド判定に用いると判定された場合に、前記テキストデータと前記操作中の処理種別とを用いて、コマンドを判定するコマンド判定部と、
     設定パラメータに用いると判定された場合に、前記テキストデータをパラメータとして用いて、判定された前記コマンドに対応した操作を前記既存システムに対して実行する操作部と、
     を備えることを特徴とする音声操作装置。
  2.  前記処理種別と、該処理種別に対応する前記コマンドとを判定するルールを記憶する記憶部を、さらに備えることを特徴とする請求項1に記載の音声操作装置。
  3.  前記ルールは、前記コマンドに対応して設定するパラメータを指定する情報をさらに含むことを特徴とする請求項2に記載の音声操作装置。
  4.  前記HIDの操作内容を特定するキー操作設定を記憶する記憶部を、さらに備えることを特徴とする請求項1に記載の音声操作装置。
  5.  前記既存システムの操作状況を監視する監視部を、さらに備えることを特徴とする請求項1に記載の音声操作装置。
  6.  音声操作装置で実行される音声操作方法であって、
     既存システムの操作状況に基づいて、操作中の処理種別を判定する業務判定工程と、
     HID(Human Interface Device)の所定の操作中に入力された音声データをテキストデータに変換し、該HIDの操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する変換工程と、
     コマンド判定に用いると判定された場合に、前記テキストデータと前記操作中の処理種別とを用いて、コマンドを判定するコマンド判定工程と、
     設定パラメータに用いると判定された場合に、前記テキストデータをパラメータとして用いて、判定された前記コマンドに対応した操作を前記既存システムに対して実行する操作工程と、
     を含んだことを特徴とする音声操作方法。
  7.  コンピュータを請求項1~5のいずれか1項に記載の音声操作装置として機能させるための音声操作プログラム。
PCT/JP2020/025914 2020-07-01 2020-07-01 音声操作装置、音声操作方法および音声操作プログラム WO2022003879A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022532931A JP7452652B2 (ja) 2020-07-01 2020-07-01 音声操作装置、音声操作方法および音声操作プログラム
US18/013,451 US20230260508A1 (en) 2020-07-01 2020-07-01 Voice operation device, voice operation method and voice operation program
PCT/JP2020/025914 WO2022003879A1 (ja) 2020-07-01 2020-07-01 音声操作装置、音声操作方法および音声操作プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/025914 WO2022003879A1 (ja) 2020-07-01 2020-07-01 音声操作装置、音声操作方法および音声操作プログラム

Publications (1)

Publication Number Publication Date
WO2022003879A1 true WO2022003879A1 (ja) 2022-01-06

Family

ID=79314987

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/025914 WO2022003879A1 (ja) 2020-07-01 2020-07-01 音声操作装置、音声操作方法および音声操作プログラム

Country Status (3)

Country Link
US (1) US20230260508A1 (ja)
JP (1) JP7452652B2 (ja)
WO (1) WO2022003879A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863330A (ja) * 1994-08-17 1996-03-08 Fujitsu Ltd 音声入力装置
JP2012211932A (ja) * 2011-03-30 2012-11-01 Toshiba Corp 音声認識装置及び音声認識方法
JP2013088535A (ja) * 2011-10-14 2013-05-13 Vri Inc 音声制御システム及びプログラム
JP2019139674A (ja) * 2018-02-15 2019-08-22 京セラドキュメントソリューションズ株式会社 電子機器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863330A (ja) * 1994-08-17 1996-03-08 Fujitsu Ltd 音声入力装置
JP2012211932A (ja) * 2011-03-30 2012-11-01 Toshiba Corp 音声認識装置及び音声認識方法
JP2013088535A (ja) * 2011-10-14 2013-05-13 Vri Inc 音声制御システム及びプログラム
JP2019139674A (ja) * 2018-02-15 2019-08-22 京セラドキュメントソリューションズ株式会社 電子機器

Also Published As

Publication number Publication date
JP7452652B2 (ja) 2024-03-19
JPWO2022003879A1 (ja) 2022-01-06
US20230260508A1 (en) 2023-08-17

Similar Documents

Publication Publication Date Title
US10917369B2 (en) Information processing apparatus, information processing system, and information processing method
US7917365B2 (en) Synchronizing visual and speech events in a multimodal application
US8965772B2 (en) Displaying speech command input state information in a multimodal browser
US20060122836A1 (en) Dynamic switching between local and remote speech rendering
JP6682638B2 (ja) 情報入力方法、情報入力装置、及び情報入力システム
KR20040089677A (ko) 동시 멀티모달 통신을 위한 시스템 및 방법
US20040044523A1 (en) Information processing apparatus and method, and program
JP2002288124A (ja) ワークステーションシステム、コンピュータ装置、データ転送方法、データ編集方法、コンピュータプログラムの作成方法、コンピュータプログラム、記憶媒体
US20060090138A1 (en) Method and apparatus for providing DHTML accessibility
US9886511B2 (en) Provisioning and rendering local language content by a server caching a content presentation engine to a user device
US20100298009A1 (en) Hands free messaging
JP7200533B2 (ja) 情報処理装置およびプログラム
JP5886103B2 (ja) 応答生成装置、応答生成システム、応答生成方法および応答生成プログラム
US11163377B2 (en) Remote generation of executable code for a client application based on natural language commands captured at a client device
JP2019175453A (ja) ユーザ音声入力の処理を含むシステム及びその動作方法並びに電子装置
CN118355435A (zh) Api调用调取和口头响应的语言模型预测
US11036441B1 (en) System and method for creation and invocation of predefined print settings via speech input
WO2022003879A1 (ja) 音声操作装置、音声操作方法および音声操作プログラム
CN110888574A (zh) 页面显示的自适配方法、装置、设备及计算机存储介质
JP2017033052A (ja) 画像形成装置における制御装置およびプログラム
EP3644309A1 (en) System and method for integrated printing of voice assistant search results
JP2002351652A (ja) 音声認識操作支援システム、音声認識操作支援方法、および、音声認識操作支援プログラム
EP3726366A1 (en) Operation receiving apparatus, control method, image forming system, and program
JP6992332B2 (ja) 画像処理システム、画像処理装置、端末装置及びプログラム
WO2021229810A1 (ja) 操作支援装置、操作支援方法および操作支援プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20942877

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022532931

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20942877

Country of ref document: EP

Kind code of ref document: A1