WO2023139770A1 - 文法作成支援装置、及びコンピュータが読み取り可能な記憶媒体 - Google Patents

文法作成支援装置、及びコンピュータが読み取り可能な記憶媒体 Download PDF

Info

Publication number
WO2023139770A1
WO2023139770A1 PCT/JP2022/002285 JP2022002285W WO2023139770A1 WO 2023139770 A1 WO2023139770 A1 WO 2023139770A1 JP 2022002285 W JP2022002285 W JP 2022002285W WO 2023139770 A1 WO2023139770 A1 WO 2023139770A1
Authority
WO
WIPO (PCT)
Prior art keywords
grammar
evaluation
data
support device
recognition
Prior art date
Application number
PCT/JP2022/002285
Other languages
English (en)
French (fr)
Inventor
泰弘 芝▲崎▼
Original Assignee
ファナック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ファナック株式会社 filed Critical ファナック株式会社
Priority to PCT/JP2022/002285 priority Critical patent/WO2023139770A1/ja
Publication of WO2023139770A1 publication Critical patent/WO2023139770A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Definitions

  • the present invention relates to a speech recognition grammar creation support device and a computer-readable storage medium.
  • the operation part of the device has many buttons and operation screens, but the operation is complicated and it may take time to master.
  • a voice input interface allows users to perform desired operations simply by uttering voice commands. Therefore, attempts have been made to improve operability using a voice input interface.
  • the voice commands used to operate the device can be assumed depending on the type of device that uses the voice command, the site where the device is installed, and the operation details of the device. Therefore, expected voice commands can be created in grammar (syntax and words). For example, see Patent Document 1.
  • Evaluation data is used to evaluate whether the accuracy of the created grammar is high.
  • the creator of the speech recognition system checks the accuracy of speech recognition when using the created grammar, and edits the grammar. Grammar for speech recognition is often described in text.
  • a grammar creation support device includes: a grammar storage unit that stores grammars of voice commands for operating industrial equipment; a speech recognition unit that performs speech recognition based on the grammars; an evaluation data storage unit that stores evaluation data including speech data for grammar evaluation and correct data for the evaluation speech data; , provided.
  • a storage medium which is one aspect of the present disclosure, stores a grammar of a voice command for operating an industrial device, performs speech recognition of speech data for evaluation of the grammar based on the grammar by being executed by one or more processors, creates a summary of the recognition result based on the recognition result of the speech recognition and correct data of the speech data for evaluation, presents the summary of the recognition result and the grammar in association with each other, and stores processor-readable instructions for accepting processing of the grammar.
  • grammar creation for speech recognition can be supported.
  • FIG. 1 is a block diagram showing the configuration of a grammar preparation support device
  • FIG. FIG. 10 is a diagram showing examples of syntax definitions and word definitions; It is a figure which shows the combination example of the speaker of the data for evaluation, and a recording place. It is a figure which shows the example of an evaluation result display screen. It is a figure which shows the example of a log
  • FIG. 10 is a diagram showing an example of a grammar image display; It is a figure which shows the processing example of a grammar. 4 is a flowchart for explaining processing of the grammar creation support device; 2 shows the hardware configuration of the grammar preparation support device.
  • the grammar creation support device 100 will be described below.
  • the grammar creation support device 100 is implemented in an information processing device having a calculation unit and a storage unit. Examples of such information processing devices include PCs (personal computers) and mobile terminals, but are not limited to these.
  • Fig. 1 shows the basic configuration of the grammar creation support device 100.
  • the grammar preparation support device 100 comprises an evaluation data storage unit 11 , a target performance registration unit 12 , a speech recognition unit 13 , a grammar storage unit 14 , a recognition result evaluation unit 15 , a grammar processing unit 16 and an evaluation history storage unit 17 .
  • the voice recognition unit 13 inputs voice data and outputs the recognition result of the input voice data in text format.
  • the speech recognition unit 13 is generally composed of an acoustic model, a language model and a decoder.
  • the acoustic model receives speech data and outputs phonemes (senones) that form the speech data based on the feature amount of the speech data.
  • the language model outputs the probability of occurrence of word strings.
  • the language model selects hypothetical word strings based on phonemes and outputs linguistically plausible candidates.
  • the decoder outputs a word string with a high probability as a recognition result based on the outputs of the acoustic model and language model that are statistically created.
  • the grammar storage unit 14 stores the grammar of voice commands.
  • Voice commands are voice commands for operating equipment in the industrial field.
  • a speech recognition unit 13 selects a speech command defined in the grammar.
  • the grammar of voice commands consists of syntax and words.
  • the grammar storage unit 14 includes a syntax storage unit 18 that stores syntax and a word storage unit 19 that stores words. Words include words to be recognized by speech recognition and phoneme representations of the words. Syntax defines the words that make up a voice command and the order of the words.
  • the base grammar is exhaustively created to cover as many voice commands as possible that are expected to be used in the field.
  • the grammar generation support device 100 supports the generation of an appropriate grammar by processing the base grammar based on the recognition result of the evaluation data.
  • the basic grammar is determined by the type of device that recognizes voice commands, the type of work, and so on.
  • FIG. 2 shows an example syntax definition and an example word definition.
  • An example syntax definition defines the words that make up a voice command and the order of the words.
  • “S” is the start symbol of the voice command
  • "NS_B” and “NS_E” are silent sections at the beginning and end of the sentence.
  • the second and third lines define "tags" that go into “COMMAND”.
  • the second line defines that the syntax element "COMMAND” includes tags "ROBOT” and "INTERFACE”
  • the third line defines that the syntax element "COMMAND” includes tags "NAIGAI” and "INTERFACE”.
  • the first and second lines of the word definition define the Japanese notation and phoneme notation of the tag "ROBOT".
  • the Japanese notation of the tag "ROBOT” is "robot” and the phoneme notation is "roboqto”.
  • the 3rd to 5th lines of the word definition define the Japanese notation and the phoneme notation of the Japanese included in the tag "NAIGAI”.
  • the tag "NAIGAI” contains two Japanese words, "external” and "internal.”
  • the "outside” phoneme is "gaibu” and the "inside” phoneme is "naibu”.
  • the 6th to 8th lines of the word definition define the Japanese notation and the phoneme notation of the Japanese included in the tag "INTERFACE".
  • the tag "INTERFACE” contains one Japanese word "interface”.
  • the “interface” has two types of phoneme notation “iNtafe:su” and “iNta:feisu”. "%NS_B” defines a silence section [s] at the beginning of a sentence, and “%NS_E” defines a silence section [/s] at the end of a sentence.
  • the evaluation data storage unit 11 associates and stores voice data containing voice commands recorded by a plurality of speakers at a plurality of recording locations with correct data, which is a correct text for the voice data. For example, voice data of utterances of "external interface" by a plurality of speakers at a plurality of recording locations and correct data (text) of "external interface” are stored in association with each other.
  • the evaluation data includes voice data recorded at different recording locations by speakers with different attributes (gender, age).
  • FIG. 3 is a table showing the relationship between the speaker of the evaluation data and the recording location.
  • the evaluation data in FIG. 3 includes voices recorded by speaker A (male, 60 years old) at factories A and B, voices recorded by speaker B (female, 30 years old) at factories C and D, and the like.
  • the target performance registration unit 12 accepts registration of target performance for speech recognition.
  • the target performance registration unit 12 receives target values such as the accuracy rate of voice commands, the accuracy rate for each type of voice command, and the processing time (average value) of voice recognition.
  • the registered contents of the target performance are reflected on the evaluation result display screen described later.
  • the recognition result evaluation unit 15 compares the correct text stored in the evaluation data storage unit with the speech data recognition result, creates a summary of the grammar evaluation result, and displays the created summary on the display unit.
  • FIG. 4 is an example of a recognition result display screen. In the example of FIG. 4, the evaluation of the entire voice command and the evaluation of each type of voice command are displayed.
  • Types of voice commands include, for example, approval commands, numerical commands, and transition commands.
  • An approval command is a command indicating approval. Assume that the approval commands include "yes”, “no”, “yes”, “no”, “execute”, “abort", and the like.
  • Numerical commands are commands for designating numerical values such as "0.5", "1", "2", and "100".
  • a “transition command” is a command for designating a display screen such as a "home screen” or a "speed setting screen”.
  • a “machine operation command” such as "set a workpiece” may be considered.
  • the processing time of speech recognition may be displayed on the recognition result display screen.
  • the target performance registered by the target performance registration unit may be displayed.
  • the recognition result evaluation unit 15 may display a history of recognition results.
  • FIG. 5 shows a history display screen. On the history display screen, past voice recognition data can be selected.
  • the identification number of the evaluation result and the execution time of speech recognition are displayed. Selecting a time or identification number displays the selected speech recognition rating and the grammar used for speech recognition. Note that the history display screen is not limited to the arrangement shown in FIG.
  • the grammar processing unit 16 accepts grammar processing (editing).
  • the creator of the grammar can process (edit) the grammar while confirming the evaluation result of speech recognition and the grammar corresponding to the evaluation result.
  • the grammar may be displayed as text or as an image.
  • the acoustic distance of the voice command is calculated, and the words and word paths are connected by links.
  • the acoustic distance may be calculated from the speech data or the correct answer data of the evaluation data, or may be calculated from the phoneme notation of the grammar.
  • FIG. 6 shows an image display example of the grammar.
  • FIG. 6 is an image display example of the syntax definitions and word definitions of FIG.
  • the words defined by 'ROBOT', 'INTERFACE', and 'NAIGAI' and 'INTERFACE' are included in the grammatical element 'COMMAND'.
  • the grammar processor 16 finds the acoustic distances of these words.
  • naibu and “gaibu”, and “iNtafe:su” and “iNta:feisu” are acoustically close, so they are displayed at close positions.
  • "roboqto” is displayed in a distant position because it is acoustically distant from any other word.
  • the grammar processing unit 16 arranges words that can be included in the syntax on the screen and connects the paths between the words with links. For example, in the example of FIG. 6, the words in "ROBOT” and the words in "INTERFACE”, and the words in "NAIGAI” and the words in "INTERFACE” are connected by links.
  • a well-known network visualization method is used for arranging words.
  • a spring model is exemplified as one of network visualization methods.
  • the spring model of the present disclosure treats words as nodes and calculates the acoustic distance between any two nodes. Consider the acoustic distance between two nodes as the length of the spring and place the space between the two nodes. After arranging the words in the graph, using the syntax, Connect words with links.
  • the matching portion of the phonemes includes the phoneme “aib” included in “naibu” and "gaibu”.
  • An example of the part where the distance between phonemes is close is the phoneme “afe:” included in “iNta:feisu” and the phoneme “:fei” included in "iNta:feisu”.
  • bold type is used to highlight these.
  • the high appearance rate, the high matching rate, and the like may be expressed by the size of characters.
  • FIG. 7 is a modified example of the grammar of FIG.
  • the "naibu” link is removed.
  • the grammar creator can unlink “naibu” if there is a misrecognition of "naibu” and “gaibu” and there is no problem even if "naibu” is not used according to the specifications. If the specification requires the word “naibu”, "naibu” can be left manually.
  • words and syntax that cannot be removed from the specifications can be left at the creator's discretion.
  • Grammar processing and recognition result evaluation are repeated.
  • the creator of the grammar can confirm the evaluation of the recognition results (for example, accuracy rate) in relation to the processing of the grammar, and can customize the grammar by processing the grammar within a range that complies with the specifications.
  • the evaluation history storage unit 17 stores recognition results and grammars in association with each other.
  • a grammar stored in the evaluation history storage unit 17 is selected, the evaluation result display screen shown in FIG. 4 is displayed.
  • the creator of the grammar processes the grammar while referring to summary information such as the accuracy rate of speech recognition.
  • summary information such as the accuracy rate of speech recognition.
  • approval commands such as "yes” and "no” are used for final confirmation, so a high accuracy rate is required.
  • Numerical commands that specify numerical values also require a high accuracy rate.
  • a transition command specifying a screen transition may have a lower accuracy rate than an approval command or a numerical command.
  • Grammar authors can register such performance targets and refine the grammars while considering the needs of each site.
  • the grammar creation support apparatus 100 receives registration of the target performance of speech recognition (step S1) and registration of the number of saved evaluation histories of speech recognition (step S2).
  • the grammar creation device acquires grammar evaluation data (step S3).
  • the creator of the grammar creates the base grammar based on the site specifications.
  • the base grammar is created as comprehensively as possible according to the requests of the device users.
  • the grammar creation support device 100 stores the base grammar (step S4).
  • the grammar creation support device 100 performs speech recognition of the evaluation data using the registered grammar (step S5).
  • the grammar creation support device 100 summarizes the recognition result of step S5 and presents it to the creator (step S6).
  • step S7 the author confirms the recognition result and determines that the grammar has been completed (step S7; YES)
  • the author finishes creating the grammar.
  • step S7 When the creator checks the recognition result and determines that the grammar needs to be corrected (step S7; NO), the previously created grammar and a summary of the recognition result are stored in the recognition result storage unit, and the grammar is processed (step S8).
  • the grammar creation support device 100 registers the processed grammar in step S8, proceeds to step S5, and performs speech recognition using the registered grammar.
  • the grammar creator compares the previously created grammar with the newly created grammar.
  • Grammar creation support device 100 repeats the processing from step S5 to step S8 until the creator determines that the grammar is complete.
  • the grammar preparation support device 100 of the present disclosure is a device that supports the preparation of voice command grammar, performs speech recognition of evaluation data using the prepared grammar, summarizes the recognition results of the evaluation data, and presents the summary results to the grammar creator.
  • the recognition result of the evaluation data is calculated for all voice commands and for each type of voice command.
  • the target performance differs for each type of voice command.
  • a grammar creator can manipulate the grammar to achieve the target performance for each type of voice command.
  • the grammar can be displayed as text or as an image.
  • the acoustic distance of words is used to connect words (nodes) with links according to the syntax. Because acoustic distance is used to place words, grammatical structure can be visually determined.
  • the acoustic distance may be calculated from the speech data of the evaluation data, or may be calculated from the phonemes expressed in text.
  • a method of calculating the acoustic distance from the speech data includes the inter-distribution distance. Cosine distance, Levenshtein distance, Jaro-Winkler distance, Hamming distance, etc. are available as methods of calculating acoustic distance from phonemes expressed in text. The method of calculating the acoustic distance is not limited. Cosine distance, Euclidean distance, Levenshtein distance, Jaro-Winkler distance, and Hamming distance are known.
  • Industrial equipment is installed in noisy sites such as factories. Noise is characteristic for each site or time period.
  • evaluation data is acquired at the site where the equipment is installed, and evaluation is performed in consideration of noise unique to the site.
  • the hardware configuration of the grammar creation support device 100 will be described with reference to FIG.
  • the CPU 111 included in the grammar creation support device 100 is a processor that controls the grammar creation support device 100 as a whole.
  • the CPU 111 reads the system program processed in the ROM 112 via the bus, and controls the entire grammar creation support apparatus 100 according to the system program.
  • the RAM 113 temporarily stores calculation data, display data, various data input by the user via the input unit 71, and the like.
  • the display unit 70 is a monitor or the like attached to the grammar creation support device 100 .
  • the display unit 70 displays an operation screen, a setting screen, and the like of the grammar creation support device 100 .
  • the input unit 71 is integrated with the display unit 70 or is a keyboard, touch panel, operation button, etc. separate from the display unit 70 .
  • the user operates the input unit 71 to perform input to the screen displayed on the display unit 70 .
  • the display unit 70 and the input unit 71 may be mobile terminals.
  • the non-volatile memory 114 is, for example, a memory that is backed up by a battery (not shown) so that the memory state is maintained even when the power of the grammar creation support device 100 is turned off.
  • the non-volatile memory 114 stores machining programs, system programs, available options, billing tables, and the like.
  • the nonvolatile memory 114 stores a program read from an external device via an interface (not shown), a program input via the input unit 71, and various data obtained from each unit of the grammar creation support device 100, a machine tool, etc. (for example, setting parameters obtained from the machine tool, etc.). Programs and various data stored in the non-volatile memory 114 may be developed in the RAM 113 at the time of execution/use.
  • Various system programs are pre-written in the ROM 112 .
  • grammar creation support device 11 evaluation data storage unit 12 target performance registration unit 13 speech recognition unit 14 grammar storage unit 15 recognition result evaluation unit 16 grammar processing unit 17 evaluation history storage unit 18 syntax storage unit 19 word storage unit 70 display unit 71 input unit 111 CPU 112 ROMs 113 RAM 114 non-volatile memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

産業用機械を操作する音声コマンドの文法を記憶し、1つ又は複数のプロセッサが実行することにより、文法に基づき、文法の評価用の音声データの音声認識を行い、音声認識の認識結果と、評価用の音声データの正解データとを基に、認識結果の要約と前記文法とを関連付けて提示し、前記文法の加工を受け付ける。

Description

文法作成支援装置、及びコンピュータが読み取り可能な記憶媒体
 本発明は、音声認識の文法作成支援装置、及びコンピュータが読み取り可能な記憶媒体に関する。
 現在、製造業などの産業分野では、ロボット、搬送機、工作機械、機械設備などの様々な機器が作動している。このような機器には、操作部を備えたものも多く、PLC(Programmable Logic Controller)、NC(Numerical Controller)、制御盤など、各機器を制御するための機器自体も操作部を備えるものが多い。
 機器の操作部は、ボタンや操作画面が多いが、操作が複雑で習熟に時間を要することがある。音声入力インターフェースは、音声コマンドを発話するだけで目的の操作が実行できる。そのため、音声入力インターフェースを用いた操作性の向上が試みられている。
 機器の操作に使用する音声コマンドは、音声コマンドを使用する機器の種類、機器を設置する現場、機器の操作内容などにより想定することができる。そのため、想定される音声コマンドを文法(構文及び単語)で作成することができる。例えば、特許文献1参照。
特開平9-325787号公報
 作成した文法の精度が高いか否かは、評価データを用いて評価する。音声認識システムの作成者は、作成した文法を使用した場合の音声認識の精度を確認し、文法を編集する。音声認識の文法は、テキストで記載されることが多い。
 産業分野では、音声認識の文法作成を支援する技術が望まれている。
 本開示の一態様である文法作成支援装置は、産業用機器を操作する音声コマンドの文法を記憶する文法記憶部と、文法に基づき音声認識を行う音声認識部と、文法の評価用の音声データと評価用の音声データの正解データとを含む、評価用データを記憶する評価用データ記憶部と、音声認識部による、評価用データの認識結果の要約を、作成する認識結果評価部と、認識結果の評価の要約と文法とを関連付けて提示し、文法の加工を受け付ける文法加工部と、を備える。
 本開示の一態様である記憶媒体は、産業用機器を操作する音声コマンドの文法を記憶し、1つ又は複数のプロセッサが実行することにより、文法に基づき、文法の評価用の音声データの音声認識を行い、音声認識の認識結果と、評価用の音声データの正解データとを基に、認識結果の要約を、作成し、認識結果の要約と前記文法とを関連付けて提示し、文法の加工を受け付ける、プロセッサが読み取り可能な命令を記憶する。
 本発明の一態様により、音声認識の文法作成を支援することができる。
文法作成支援装置の構成を示すブロック図である。 構文定義、及び単語定義の例を示す図である。 評価用データの話者及び収録場所の組み合わせ例を示す図である。 評価結果表示画面の例を示す図である。 履歴表示画面の例を示す図である。 文法の画像表示例を示す図である。 文法の加工例を示す図である。 文法作成支援装置の処理を説明するフローチャートである。 文法作成支援装置のハードウェア構成である。
 以下、文法作成支援装置100について説明する。
 文法作成支援装置100は、演算部及び記憶部を備えた情報処理装置に実装される。このような情報処理装置として、例えば、PC(パーソナルコンピュータ)、携帯端末などがあるが、これに限定しない。
 図1に、文法作成支援装置100の基本構成を示す。文法作成支援装置100は、評価データ記憶部11、目標性能登録部12、音声認識部13、文法記憶部14、認識結果評価部15、文法加工部16、評価履歴記憶部17から構成される。
 音声認識部13は、音声データを入力し、入力した音声データの認識結果をテキスト形式で出力する。音声認識部13は、一般的に、音響モデル、言語モデル、デコーダから構成される。音響モデルは、音声データを入力し、音声データの特徴量に基づき、音声データを構成する音素(セノン)を出力する。言語モデルは、単語列の出現確率を出力する。言語モデルは、音素に基づいて仮説の単語列を選択し、言語的にもっともらしい候補を出力する。デコーダは、統計的に作成した音響モデル及び言語モデルの出力に基づき、確率の高い単語列を認識結果として出力する。
 文法記憶部14は、音声コマンドの文法を記憶する。音声コマンドは、産業分野の機器を操作する音声コマンドである。音声認識部13は、文法に定義された音声コマンドを選択する。音声コマンドの文法は、構文と単語から構成される。文法記憶部14は、構文を記憶する構文記憶部18、単語を記憶する単語記憶部19を備える。単語は、音声認識で認識させる単語と、単語の音素表現を含む。構文は、音声コマンドを構成する単語、及び単語の順序を定義する。本開示では、最初にベースとなる文法を作成する。ベースとなる文法は、現場での使用が想定されるできるだけ多くの音声コマンドをカバーするよう、網羅的に作成される。文法作成支援装置100では、評価用データの認識結果を基にベースとなる文法を加工することで適切な文法を作成する支援を行う。ベースとなる文法は、音声コマンドを認識する機器の種類、作業内容などによって決まる。
 図2に、構文定義の例、及び、単語定義の例を示す。構文定義の例では、音声コマンドを構成する単語、及び単語の順序を定義する。図2の構文定義の1行目「S:NS_B COMMAND NS_E」において、“S”は音声コマンドの開始記号、“NS_B”と“NS_E”は文頭及び文末の無音区間である。無音区間の間に構文の要素「COMMAND」が存在する。
 2行目及び3行目は、「COMMAND」に入る「タグ」を定義している。2行目は構文の要素「COMMAND」にタグ「ROBOT」「INTERFACE」が入ることを定義しており、3行目は構文の要素「COMMAND」にタグ「NAIGAI」「INTERFACE」が入ることを定義している。
 単語定義の1、2行目は、タグ「ROBOT」の日本語表記と、音素表記を定義している。タグ「ROBOT」の日本語表記は「ロボット」であり、音素表記は「roboqto」である。単語定義の3~5行目は、タグ「NAIGAI」に入る日本語の日本語表記と、音素表記を定義している。タグ「NAIGAI」には、「外部」と「内部」の2つの日本語が入る。「外部」の音素表記は「gaibu」であり、「内部」の音素表記は「naibu」である。単語定義の6~8行目は、タグ「INTERFACE」に入る日本語の日本語表記と、音素表記を定義している。タグ「INTERFACE」には、「インターフェース」という1つの日本語が入る。「インターフェース」には2種類の音素表記「iNtafe:su」と「iNta:feisu」がある。「%NS_B」は文頭の無音区間[s]を定義しており、「%NS_E」は文末の無音区間[/s]を定義している。
 評価データ記憶部11は、複数の話者が複数の収録場所で録音した音声コマンドを含む音声データと、音声データに対する正解テキストである正解データとを関連付けて記憶する。例えば、複数の話者が複数の収録場所で「外部インターフェース」と発話した音声データと、「外部インターフェース」という正解データ(テキスト)とを関連付けて記憶する。
 評価用データには、属性(性別、年齢)の異なる話者による、異なる収録場所で収録した音声データが含まれる。図3は、評価用データの話者と収録場所の関係を示す表である。図3の評価用データには、話者A(男、60才)が工場A及び工場Bで収録した音声、話者B(女、30才)が工場C、工場Dで収録した音声などが含まれる。
 目標性能登録部12は、音声認識の目標性能の登録を受け付ける。目標性能登録部12では、音声コマンドの正解率、音声コマンドの種類ごとの正解率、音声認識の処理時間(平均値)などの目標値を受け付ける。目標性能の登録内容は、後述する評価結果表示画面に反映される。
 認識結果評価部15は、評価データ記憶部に記憶する正解のテキストと、音声データの認識結果と比較し、文法の評価結果の要約を作成し、作成した要約を表示部に表示する。図4は、認識結果表示画面の例である。図4の例では、音声コマンド全体の評価と、音声コマンドの種類ごとの評価とを表示する。音声コマンドの種類には、例えば、承認コマンド、数値コマンド、遷移コマンドなどがある。承認コマンドとは、承認を示すコマンドである。承認コマンドには、「はい」「いいえ」「イエス」「ノー」「実行します」「中止します」などがあるものとする。数値コマンドは、「0.5」「1」「2」「100」などの数値を指定するコマンドである。「遷移コマンド」は、「ホーム画面」「速度設定画面」などの表示画面を指定するコマンドである。その他、「ワークをセットして」の様に機器の動きを指示する「機械操作コマンド」も考えられる。認識結果表示画面には、音声認識の処理時間を表示してもよい。また、目標性能登録部で登録した目標性能を表示してもよい。
 認識結果評価部15は、認識結果の履歴を表示するようにしてもよい。図5は履歴表示画面である。履歴表示画面では、過去の音声認識に関するデータが選択できるようになっている。図5の例では、評価結果の識別番号と音声認識を実行した時間が表示されている。時間もしくは識別番号を選択すると、選択された音声認識の評価と、音声認識に使用した文法が表示される。なお、履歴表示画面は、過去の認識結果を比較、選択できる構成であればよく、図5の配置に限定されない。
 文法加工部16は、文法の加工(編集)を受け付ける。文法の作成者は、音声認識の評価結果と、その評価結果に対応する文法を確認しながら文法を加工(編集)することができる。
 文法は、テキストで表示してもよいし、画像で表示してもよい。文法を画像で表示する場合には、音声コマンドの音響的距離を算出し、単語と単語のパスをリンクで接続する。音響的距離は、評価用データの音声データ又は正解データから算出してもよいし、文法の音素表記から算出してもよい。
 文法の画像表示例を図6に示す。図6は、図2の構文定義及び単語定義の画像表示例である。図2の文法では、文法の要素「COMMAND」の中に、「ROBOT」「INTERFACE」と、「NAIGAI」「INTERFACE」で定義した単語が入る。
 文法加工部16は、これらの単語の音響的距離を求める。図6の例では、「naibu」と「gaibu」、「iNtafe:su」と「iNta:feisu」が音響的に近いので近い位置に表示される。「roboqto」は、他のどの単語とも音響的に遠いので遠い位置に表示される。文法加工部16は、構文に含まれ得る単語を画面に配置し、その単語の間のパスをリンクで接続する。例えば、図6の例では、「ROBOT」に入る単語と「INTERFACE」に入る単語、及び「NAIGAI」に入る単語と「INTERFACE」に入る単語を、リンクで接続する。
 単語の配置には、公知のネットワークの可視化手法を用いる。ネットワークの可視化手法の1つとしてばねモデルを例示する。本開示のばねモデルでは、単語をノードとしみなし、任意の2ノード間の音響的距離を算出する。2ノード間の音響的距離をばねの長さとみなし、2ノード間を空間に配置する。単語をグラフに配置したのち、構文を用いて、
単語と単語の間をリンクで接続する。
 音声の誤認識が発生しやすい箇所、音素の距離が近い部分、正解データと音声認識結果の適合率、単語の出現率、音素の一致部分などを視覚的に表現してもよい。音素の一致部分としては、「naibu」と「gaibu」に含まれる音素「aib」がある。音素の距離が近い部分の例としては、「iNta:feisu」に含まれる音素「afe:」と「iNta:feisu」に含まれる音素「:fei」がある。図6の例では、太字を用いて、これらを強調表示している。出現率の高さ、適合率の高さなどは、文字の大きさで表現してもよい。
 図7は、図6の文法の修正例である。図7では、「naibu」のリンクを外している。文法の作成者は、例えば、「naibu」と「gaibu」の誤認識が発生しており、仕様上「naibu」を使わなくても問題がない場合には、「naibu」のリンクを外すことができる。仕様上「naibu」という単語が必要であれば、「naibu」を手動で残すことができる。
 本開示の文法作成支援装置100では、仕様から外せない単語及び構文を、作成者の判断で残すことができる。
 文法の加工と、認識結果の評価は繰り返し行う。文法の作成者は、文法の加工に対する認識結果の評価(例えば、正解率)を確認し、仕様に準拠した範囲で文法を加工し、文法をカスタマイズすることができる。
 評価履歴記憶部17は、認識結果と文法とを関連付けて記憶する。評価履歴記憶部17が記憶する文法を選択すると、図4に示した評価結果表示画面が表示される。文法の作成者は、音声認識の正解率などの要約情報を参照しながら、文法の加工を行う。要約情報の確認方法の例として、「はい」「いいえ」などの承認コマンドは、最終的な確認に用いられるので、高い正解率が要求される。数値を指定する数値コマンドも高い正解率が要求される。画面遷移を指定する遷移コマンドは、承認コマンドや数値コマンドと比較して、低い正解率でもよい。文法の作成者は、このような性能目標を登録し、現場ごとのニーズを考慮しながら文法を加工することができる。
 図8を参照して、文法作成支援装置100の処理を説明する。
 文法作成支援装置100は、準備ステップとして、音声認識の目標性能の登録と(ステップS1)、音声認識の評価履歴の保存数の登録を受け付ける(ステップS2)。文法作成装置は、文法の評価用データを取得する(ステップS3)。
 文法の作成者は、現場の仕様を元にベースとなる文法を作成する。ベースとなる文法は、機器のユーザからの要望に合わせて、できる限り網羅的に作成する。文法作成支援装置100は、ベースとなる文法を記憶する(ステップS4)。
 文法作成支援装置100は、登録した文法を用いて評価用データの音声認識を行う(ステップS5)。文法作成支援装置100は、ステップS5の認識結果を要約して作成者に提示する(ステップS6)。作成者は、認識結果を確認し、文法が完成したと判断した場合には(ステップS7;YES)、文法の作成を終了する。
 作成者が、認識結果を確認し、文法の修正が必要であると判断した場合には(ステップS7;NO)、先に作成した文法と認識結果の要約を認識結果記憶部に記憶し、文法の加工を受け付ける(ステップS8)。文法作成支援装置100は、ステップS8で加工した文法を登録し、ステップS5に移行し、登録した文法を用いて音声認識を行う。文法の作成者は、過去に作成した文法と新たに作成した文法を比較する。文法作成支援装置100は、文法が完成したと作成者が判断するまで、ステップS5からステップS8までの処理を繰り返す。
 以上説明したように、本開示の文法作成支援装置100は、音声コマンドの文法作成を支援する装置であって、作成した文法で評価データの音声認識を行い、評価データの認識結果を要約し、要約結果を文法の作成者に提示する。
 評価データの認識結果は、音声コマンド全体、音声コマンドの種類ごとに算出される。目標性能は、音声コマンドの種類ごとに異なる。文法の作成者は、それぞれの音声コマンドの種類ごとに目標性能を達成するように、文法を加工することができる。
 文法は、テキストで表示してもよいし、画像で表示してもよい。画像で表示する場合には、単語の音響的距離を用いて、構文に従い単語(ノード)をリンクで接続する。音響的距離を用いて単語を配置するため、文法の構造を視覚的に判断することができる。
 音響的距離は、評価データの音声データから算出してもよいし、テキストで表現した音素から算出してもよい。音声データからの音響的距離の算出方法には、分布間距離などがある。テキストで表現した音素から音響的距離の算出方法には、コサイン距離、レーベンシュタイン距離、ジャロ・ウィンクラー距離、ハミング距離などがある。音響的距離の算出方法は限定しない。コサイン距離、ユークリッド距離、レーベンシュタイン距離、ジャロ・ウィンクラー距離、ハミング距離は、公知である。
 産業用機器は、工場などの雑音の発生する現場に設置される。雑音は、現場または時間帯ごとに特性がある。本開示では、機器の設置される現場で評価用データを取得し、現場固有の雑音を考慮した評価を行う。
 産業用機器の操作では、現場固有の専門用語が存在し、特定の決まった用語のみを高頻度で使用することもある。網羅的に作成した文法には、実際には使用しない単語や構文が存在するが、実際に現場で使用される用語を予め知ることは困難である。本開示では、網羅的に文法を作成し、現場で使用しない単語や構文を削除して音声認識の正解率を向上する。また、本開示では、使用頻度が低い文法を全て削除するのではなく、正解率を犠牲にしても、仕様上必要な単語や文法を残すことも可能である。なお、必要に応じて、単語や構文を追加してもよい。
[ハードウェア構成]
 図9を参照して、文法作成支援装置100のハードウェア構成を説明する。文法作成支援装置100が備えるCPU111は、文法作成支援装置100を全体的に制御するプロセッサである。CPU111は、バスを介してROM112に加工されたシステムプログラムを読み出し、該システムプログラムに従って文法作成支援装置100の全体を制御する。RAM113には、一時的な計算データや表示データ、入力部71を介してユーザが入力した各種データ等が一時的に格納される。
 表示部70は、文法作成支援装置100に付属のモニタなどである。表示部70は、文法作成支援装置100の操作画面や設定画面などを表示する。
 入力部71は、表示部70と一体、又は、表示部70とは別のキーボード、タッチパネル、操作ボタンなどである。ユーザは入力部71を操作して、表示部70に表示された画面への入力などを行う。なお、表示部70及び入力部71は、携帯端末でもよい。
 不揮発性メモリ114は、例えば、図示しないバッテリでバックアップされるなどして、文法作成支援装置100の電源がオフされても記憶状態が保持されるメモリである。不揮発性メモリ114は、加工プログラム、システムプログラム、使用可能なオプション、課金表などを記憶する。不揮発性メモリ114には、図示しないインターフェースを介して外部機器から読み込まれたプログラムや入力部71を介して入力されたプログラム、文法作成支援装置100の各部や工作機械等から取得された各種データ(例えば、工作機械から取得した設定パラメータ等)が記憶される。不揮発性メモリ114に記憶されたプログラムや各種データは、実行時/利用時にはRAM113に展開されてもよい。また、ROM112には、各種のシステムプログラムがあらかじめ書き込まれている。
  100 文法作成支援装置
  11  評価データ記憶部
  12  目標性能登録部
  13  音声認識部
  14  文法記憶部
  15  認識結果評価部
  16  文法加工部
  17  評価履歴記憶部
  18  構文記憶部
  19  単語記憶部
  70  表示部
  71  入力部
  111 CPU
  112 ROM
  113 RAM
  114 不揮発性メモリ

Claims (8)

  1.  産業用機器を操作する音声コマンドの文法を記憶する文法記憶部と、
     前記文法に基づき音声認識を行う音声認識部と、
     前記文法の評価用の音声データと前記評価用の音声データの正解データとを含む、評価用データを記憶する評価用データ記憶部と、
     前記音声認識部による、前記評価用データの認識結果の要約を、作成する認識結果評価部と、
     前記認識結果の評価の要約と前記文法とを関連付けて提示し、前記文法の加工を受け付ける文法加工部と、
     を備える文法作成支援装置。
  2.  前記認識結果評価部は、音声データの種類ごとに要約を作成する、請求項1記載の文法作成支援装置。
  3.  前記文法加工部は、前記文法を構成する単語の音響的距離を可視化し、単語間をリンクで接続することにより、請求項1記載の文法作成支援装置。
  4.  前記文法加工部は、前記単語、又は、前記単語間のリンクの削除、又は、追加を受け付ける、請求項3記載の文法作成支援装置。
  5.  前記要約は、音声認識の正解率又は音声認識の処理時間の少なくとも1つを含む、請求項1記載の文法作成支援装置。
  6.  前記認識結果、又は、要約の少なくとも1つの履歴を記憶する評価履歴記憶部を備える、請求項1記載の文法作成支援装置。
  7.  前記評価履歴記憶部に記憶した複数の認識結果、又は、要約を比較可能な形式で提示する、請求項6記載の文法作成支援装置。
  8.  産業用機器を操作する音声コマンドの文法を記憶し、
     1つ又は複数のプロセッサが実行することにより、
     前記文法に基づき、前記文法の評価用の音声データの音声認識を行い、
     前記音声認識の認識結果と、前記評価用の音声データの正解データとを基に、認識結果の要約を、作成し、
     前記認識結果の要約と前記文法とを関連付けて提示し、前記文法の加工を受け付ける、
     前記プロセッサが読み取り可能な命令を記憶する記憶媒体。
PCT/JP2022/002285 2022-01-21 2022-01-21 文法作成支援装置、及びコンピュータが読み取り可能な記憶媒体 WO2023139770A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/002285 WO2023139770A1 (ja) 2022-01-21 2022-01-21 文法作成支援装置、及びコンピュータが読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/002285 WO2023139770A1 (ja) 2022-01-21 2022-01-21 文法作成支援装置、及びコンピュータが読み取り可能な記憶媒体

Publications (1)

Publication Number Publication Date
WO2023139770A1 true WO2023139770A1 (ja) 2023-07-27

Family

ID=87348529

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/002285 WO2023139770A1 (ja) 2022-01-21 2022-01-21 文法作成支援装置、及びコンピュータが読み取り可能な記憶媒体

Country Status (1)

Country Link
WO (1) WO2023139770A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004151547A (ja) * 2002-10-31 2004-05-27 Toshiba Corp 認識文法モデル作成方法及び検査方法
JP2009229529A (ja) * 2008-03-19 2009-10-08 Toshiba Corp 音声認識装置及び音声認識方法
JP2018040906A (ja) * 2016-09-06 2018-03-15 株式会社東芝 辞書更新装置およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004151547A (ja) * 2002-10-31 2004-05-27 Toshiba Corp 認識文法モデル作成方法及び検査方法
JP2009229529A (ja) * 2008-03-19 2009-10-08 Toshiba Corp 音声認識装置及び音声認識方法
JP2018040906A (ja) * 2016-09-06 2018-03-15 株式会社東芝 辞書更新装置およびプログラム

Similar Documents

Publication Publication Date Title
JP3662780B2 (ja) 自然言語を用いた対話システム
US7389235B2 (en) Method and system for unified speech and graphic user interfaces
US6952665B1 (en) Translating apparatus and method, and recording medium used therewith
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
US7260529B1 (en) Command insertion system and method for voice recognition applications
US5668928A (en) Speech recognition system and method with automatic syntax generation
US6801897B2 (en) Method of providing concise forms of natural commands
EP1405169B1 (en) Information processing apparatus and method, and program product
JP2012238017A (ja) 置換コマンドを有する音声認識方法
JP2017058673A (ja) 対話処理装置及び方法と知能型対話処理システム
US6934682B2 (en) Processing speech recognition errors in an embedded speech recognition system
JP4186992B2 (ja) 応答生成装置、方法及びプログラム
JP2007264471A (ja) 音声認識装置および音声認識方法
US6253177B1 (en) Method and system for automatically determining whether to update a language model based upon user amendments to dictated text
KR20060058004A (ko) 일반적인 철자 기억용 코드 언어 모델 생성 방법 및 시스템
WO2006097975A1 (ja) 音声認識プログラム
JP2005321730A (ja) 対話システム、対話システム実行方法、及びコンピュータプログラム
WO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
US20030110040A1 (en) System and method for dynamically changing software programs by voice commands
WO2023139770A1 (ja) 文法作成支援装置、及びコンピュータが読み取り可能な記憶媒体
WO2023139769A1 (ja) 文法調整装置、及びコンピュータが読み取り可能な記憶媒体
JP3762191B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
JP4012228B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
JP4537755B2 (ja) 音声対話システム
JP6452826B2 (ja) ファクトリーオートメーションシステムおよびリモートサーバ

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22921927

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023575015

Country of ref document: JP