JP2022074509A - 差分抽出装置、方法及びプログラム - Google Patents

差分抽出装置、方法及びプログラム Download PDF

Info

Publication number
JP2022074509A
JP2022074509A JP2020184610A JP2020184610A JP2022074509A JP 2022074509 A JP2022074509 A JP 2022074509A JP 2020184610 A JP2020184610 A JP 2020184610A JP 2020184610 A JP2020184610 A JP 2020184610A JP 2022074509 A JP2022074509 A JP 2022074509A
Authority
JP
Japan
Prior art keywords
notation
word
unit
sequence
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020184610A
Other languages
English (en)
Inventor
大貴 田中
Hirotaka Tanaka
岳彦 籠嶋
Takehiko Kagoshima
憲治 岩田
Kenji Iwata
浩司 藤村
Koji Fujimura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2020184610A priority Critical patent/JP2022074509A/ja
Priority to CN202111008156.0A priority patent/CN114519998A/zh
Priority to US17/463,197 priority patent/US20220138420A1/en
Publication of JP2022074509A publication Critical patent/JP2022074509A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】未知語のうち、登録しなくても正しい表記になる未知語の登録を防止すること。【解決手段】 実施形態に係る差分抽出装置は、テキスト取得部と、発音列変換部と、表記列変換部と、比較部と、を備えている。テキスト取得部は、入力表記列が記載されたテキストを取得する。発音列変換部は、入力表記列を発音列に変換する。表記列変換部は、発音列を出力表記列に変換する。比較部は、入力表記列と出力表記列とを比較して差分を抽出する。【選択図】図1

Description

本発明の実施形態は、差分抽出装置、方法及びプログラムに関する。
一般に、辞書に登録されていない未知語を探して辞書登録の候補とすることで、ユーザの辞書登録作業を支援するための技術が開発されている。この種の技術としては、例えば、テキストを形態素解析した結果から複合語を抽出し、当該複合語が構築済み辞書に登録されていなければ未知語とする方式が知られている。
特開2016-164724号公報
上述した方式は、通常は特に問題ないが、本発明者の検討によれば、登録しなくても正しい表記になる未知語についても辞書登録の候補として抽出される場合があり、その場合、登録不要な語を登録することになってしまう。
本発明が解決しようとする課題は、未知語のうち、登録しなくても正しい表記になる未知語の登録を防止できる差分抽出装置、方法及びプログラムを提供することである。
実施形態に係る差分抽出装置は、テキスト取得部と、発音列変換部と、表記列変換部と、比較部と、を備えている。前記テキスト取得部は、入力表記列が記載されたテキストを取得する。前記発音列変換部は、前記入力表記列を発音列に変換する。前記表記列変換部は、前記発音列を出力表記列に変換する。前記比較部は、前記入力表記列と前記出力表記列とを比較して差分を抽出する。
第1の実施形態に係る差分抽出装置の構成を例示するブロック図。 第1の実施形態における発音列から表記列への変換を例示する模式図。 第1の実施形態における比較部を説明するための模式図。 第1の実施形態における表示画面を例示する模式図。 第1の実施形態における動作を説明するためのフローチャート。 第1の実施形態における動作を説明するための模式図。 第1の実施形態における日本語の音節を例示する模式図。 第1の実施形態における発音状態音響スコアベクトルを例示する模式図。 第1の実施形態の変形例に係る特徴量変換部を例示するブロック図。 第1の実施形態の変形例における動作を説明するためのフローチャート。 第2の実施形態に係る差分抽出装置の構成を例示するブロック図。 第2の実施形態における動作を説明するためのフローチャート。 第2の実施形態における単語推定部を説明するための模式図。 第2の実施形態における表示画面を例示する模式図。 第2の実施形態における指示例を示す模式図。 第3の実施形態に係る差分抽出装置の構成を例示するブロック図。 第3の実施形態における動作を説明するためのフローチャート。 第3の実施形態に係る表示画面を例示する模式図。 第3の実施形態に係る単語登録部の登録例を示す模式図。 第3の実施形態に係る登録反映時の表示例を示す模式図。 第3の実施形態に係る表示画面および登録画面を例示する模式図。 第4の実施形態に係る差分抽出装置のHW構成を例示するブロック図。
以下、図面を参照して各実施形態について説明する。以下の説明では、差分抽出装置が音声認識システムに搭載され、音声認識用の単語辞書へ登録する単語を抽出するために用いられる場合を例に挙げて述べる。なお、差分抽出装置は、用途が分かり易いように、単語抽出装置、単語抽出支援装置、辞書登録装置、又は辞書登録支援装置などといった任意の名称に読み替えてもよい。
<第1の実施形態>
図1は、第1の実施形態に係る差分抽出装置の構成を例示するブロック図である。この差分抽出装置1は、テキスト取得部10、発音列変換部20、表記列変換部30、比較部40及び表示制御部70を備えている。
ここで、テキスト取得部10は、入力表記列が記載されたテキストを取得する。取得されたテキストは、発音列変換部20及び比較部40に送出される。例えば、テキスト取得部10は、操作者の操作に応じて、図示しないメモリ内の文書ファイルを選択して開くことにより、入力表記列が記載されたテキストを文書ファイルから取得してもよい。また例えば、テキスト取得部10は、ユーザによるキーボード又はマウス等の操作に応じて、キー入力されたテキスト、又は他の文書ファイルから貼り付けられたテキストを取得してもよい。なお、テキスト取得部10は、入力表記列を取得する表記列取得部としてもよい。
発音列変換部20は、テキスト取得部10により取得された入力表記列を発音列に変換する。例えば、発音列変換部20は、当該取得された入力表記列を解析し、得られた解析結果に基づいて当該入力表記列を発音列に変換する。変換された発音列は、表記列変換部30に送出される。このような発音列変換部20は、例えば、形態素解析部21及び読み付け処理部22を備えてもよい。発音列は、入力表記列の読みを表すテキストである。例えば、入力表記列が“学習”の場合、発音列は“ガクシュウ”となる。
形態素解析部21は、テキスト取得部10により取得された入力表記列を解析する。例えば、形態素解析部21は、入力表記列を単語に分割して、各単語の品詞を推定する形態素解析を行う。なお、形態素解析でいう「単語」は「形態素」と読み替えてもよい。すなわち、形態素解析は、入力表記列を形態素に分割して、各形態素の品詞を推定する処理を含む。形態素解析部21は、「入力表記列解析部」又は「解析部」と呼んでもよい。
読み付け処理部22は、形態素解析の結果に基づき、各単語に読みを付けて発音列に変換する。読み付け処理部22は、例えば、図示しない形態素辞書を用いて、各単語に読みを付けてもよい。形態素辞書は、形態素解析に用いられ、形態素ごとに見出し語(単語)、読み、品詞、及び活用形などが記述された辞書である。なお、これに限らず、読み付け処理部22は、後述する単語辞書35を用いて、各単語に読みを付けてもよい。単語辞書35は、単語の表記、発音列(読み)、及び品詞が互いに関連付けられて記憶された辞書である。
表記列変換部30は、発音列変換部20により変換された発音列を出力表記列に変換する。例えば、表記列変換部30は、発音列変換部20により変換された発音列を解析し、得られた解析結果に基づいて当該発音列を出力表記列に変換する。変換された出力表記列は、比較部40に送出される。このような表記列変換部30は、例えば、特徴量変換部31、変換部32及び記憶部33を備えてもよい。記憶部33は、言語モデル34及び単語辞書35を備えてもよい。
ここで、特徴量変換部31は、発音列を音響スコアベクトルに変換する。ここで、特徴量変換部31は、(1)発音列を直接的に音響スコアベクトルに変換する処理、(2)発音列を音声信号に変換し、当該音声信号を音響スコアベクトルに変換する処理、のいずれを実行してもよい。第1の実施形態では、上記(1)の処理を用いる場合を例に挙げて述べる。なお、上記(2)の処理については第1の実施形態の変形例で述べる。
ここで、音響スコアベクトルは、発音列特徴量ベクトルとも呼ばれ、変換部32で発音系列が正解となるような特徴ベクトルである。なお、特徴量変換部31は音響スコア変換部と呼んでもよい。
変換部32は、言語モデル34及び単語辞書35を用いて、音響スコアベクトルを出力表記列に変換する。詳しくは、変換部32は、音響スコアベクトルから発音列を生成し、生成した発音列を、図2に例示するように言語モデル34及び単語辞書35を用いて、出力表記列に変換する。なお、変換部32は出力表記列変換部と呼んでもよい。
記憶部33は、音声認識用の言語モデル34と単語辞書35とを記憶している。
言語モデル34としては、音声認識結果を確認したい音声認識エンジンと同じ統計情報から作成したモデルを使用する。一例として、言語モデルとしては、言語モデル学習データの1単語の出現確率で決定されるn-gram言語モデルを使用できる(nは、1以上の自然数)。言語モデルとしては、1-gram言語モデル以外であっても、2-gram言語モデル、3-gram言語モデル、4-gram言語モデル、5-gram言語モデル・・・等の他の言語モデルを使用してもよい。図2中、言語モデル34としては、ある単語(第2語)の出現確率を、その直前の既知のn-1単語(第1語)に依存して決定する2-gram言語モデル(n=2)を用いている。なお、リカレント・ニューラル・ネットワーク(RNN:Recurrent Neural Networks)を用いてモデル化した言語モデルを用いてもよい。また、重み付き有限状態トランスデューサ(WFST:Weighted Finite-State Transducer)音声認識技術を用いてもよい。
単語辞書35は、音声認識の対象とする単語の表記、表記に対応する発音列、単語の品詞の情報が対応付けられて登録されている。単語の表記は、例えば「評価」という単語であれば「評価」という表記となる。表記に対応する発音列は、例えば「評価」という単語であれば「ヒョオカ」という発音列となる。
比較部40は、図3に示すように、テキスト取得部10により取得された入力表記列と、この入力表記列から発音列変換部20及び表記列変換部30を介して得られた出力表記列とを比較して差分を抽出する。なお、「差分を抽出する」という用語は、「差分を検出する」又は「差分を特定する」等と言い換えてもよい。比較部40は、差分の抽出結果を表示制御部70に送出する。差分の抽出結果は、例えば、差分を識別可能に含む入力表記列と、差分を識別可能に含む出力表記列とを含んでいる。なお、これに限らず、差分の抽出結果は、入力表記列及び出力表記列と、入力表記列及び出力表記列の中の差分を特定する差分特定情報(例、差分の表記「○○」と位置(テキスト冒頭からxx文字目)など)とを含んでいてもよい。
表示制御部70は、比較部40から送出された入力表記列、出力表記列及び比較結果などをディスプレイに表示させる。詳しくは図4に例示するように、表示制御部70は、テキスト読み込みボタン101と、入力表記列表示画面102と、出力表記列表示画面103とをディスプレイ71に表示させる。テキスト読み込みボタン101は、テキスト取得部10にテキストを取得させるためのボタンである。入力表記列表示画面102は、差分を含む入力表記列を配置した画面である。出力表記列表示画面103は、差分を含む出力表記列を配置した画面である。入力表記列表示画面102及び出力表記列表示画面103は、それぞれ入力表記列表示領域及び出力表記列表示領域と呼んでもよい。差分は、表示属性104により、差分以外の表記列から識別可能に表示される。図4中、表示属性104は実線の下線を表している。但し、表示属性104としては、これに限らず、差分の有無を識別可能な属性が、適宜、使用可能となっている。例えば、表示属性としては、文字の色、フォントの種類やサイズ、背景の色など様々な表示属性を用いてもよい。
次に、以上のように構成された差分抽出装置の動作について、前述した図面、図5のフローチャート、及び図6乃至図8の模式図を用いて説明する。なお、差分抽出装置の動作は、差分抽出方法に対応する。
ステップST10において、テキスト取得部10は、入力表記列が記載されたテキストを取得する。具体的には例えば、表示制御部70は、図6に示すように、テキスト読み込みボタン101と、入力表記列表示画面102と、出力表記列表示画面103とをディスプレイ71に表示させる。なお、テキスト取得前の場合、図6とは異なり、入力表記列表示画面102は空欄である。テキスト読み込みボタン101は、ユーザの操作により、選択可能なファイルのリストと、開くボタン101aとを含むファイル選択画面101bをディスプレイ71に表示させる処理をテキスト取得部10に実行させるためのボタンである。開くボタン101aは、ユーザの操作により、リスト中で選択されたファイルを開くと共に、当該開いたファイル内のテキストを取得する処理をテキスト取得部10に実行させるためのボタンである。
ここで、テキスト取得部10は、テキスト読み込みボタン101の操作により、ファイル選択画面101bをディスプレイ71に表示させる。また、テキスト取得部10は、ユーザの操作により、リスト中でファイルを選択し、開くボタン101aの操作により、当該選択したファイルから入力表記列を記載したテキストを取得する。取得されたテキストは、入力表記列表示画面102に表示されると共に、発音列変換部20に送出される。
ステップST20において、発音列変換部20は、ステップST10で取得した入力表記列を解析して発音列へと変換する。詳しくは、発音列変換部20は、入力表記列を解析し、得られた解析結果に基づいて入力表記列を発音列に変換する。このようなステップST20は、形態素解析部21及び読み付け処理部22により、ステップST21~ST22として実行される。
ステップST21において、形態素解析部21は、当該取得した入力表記列に対して形態素解析を行い、形態素の分割および品詞推定を行う。詳しくは、形態素解析部21は、入力表記列を単語に分割して、各単語の品詞を推定する形態素解析を行う。例えば、取得した表記列が“評価実験”である場合、“評価”と“実験”に分かれ、それぞれ名詞と推定される。
ステップST22において、読み付け処理部22は、形態素解析部21の結果を受け取り、形態素ごとに読み付けを行い、表記列変換部30へ発音列を供給する。詳しくは、読み付け処理部22は、形態素解析の結果に基づき、各単語に読みを付けて発音列に変換する。例えば、形態素解析部21から“評価”と“実験”が結果として出た場合、読み付け処理部22でそれぞれに対して“ヒョオカ”と“ジッケン”の読みを付ける。そして“ヒョオカジッケン”を表記列変換部30へ受け渡す。これにより、ステップST21~ST22からなるステップST20が終了する。
ステップST30において、表記列変換部30は、ステップST20で変換された発音列を入力として受け取り、発音列を解析して出力表記列に変換し、出力表記列を比較部40に送出する。このようなステップST20は、特徴量変換部31及び変換部32により、ステップST31~ST33として実行される。
ステップST31において、特徴量変換部31は、ステップST20で得られた発音列を音響スコアベクトルに変換する。具体的には、特徴量変換部31は、取得された発音列から発音列特徴量ベクトルを生成する。発音列特徴量ベクトルは、後段の変換部32で発音系列が正解となるような特徴ベクトルである。例えば、DNN及びHMMを用いたDNN-HMM音声認識エンジンでは、一定の時間毎に音声区間を1フレームとして切り出す。また、切り出したフレームに対して、DNNを用いて発音系列の発音状態出力確率ベクトル(発音状態音響スコアベクトル)を算出する。なお、DNNは、ディープ・ニューラル・ネットワーク(Deep Neural Network)の略語である。HMMは、隠れマルコフモデル(Hidden Markov Model)の略語である。
ここで、発音状態音響スコアベクトルについて説明する。ここでは、発音の単位を音節として述べる。日本語の場合、いわゆる50音に加えて、濁音(「ガ」、「ザ」など)、半濁音(「パ」など)、拗音(「キャ」、「ジャ」など)の音節がある。なお、撥音「ン」と促音「ッ」も1つの音節として扱い、長音「ー」は直前の母音で置き換えて扱うものとする。ここでは、日本語の音節を、図7に例示する102個として説明する。各発音は、通常は3状態程度のHMMで表現されるが、説明を簡略化するために各発音を1状態として説明する。この場合の発音状態音響スコアベクトルは、ベクトルの各要素の値が対応する音節の尤度を表す102次元のベクトルとなる。すなわち、発音状態音響スコアベクトルとしては、特徴量変換部31に入力された発音列に対して、1音節毎に102次元のベクトルが1個、特徴量変換部31から出力される。但し、これに限らず、各発音を3状態で表現し、1音節毎に306次元の発音状態音響スコアベクトルを用いてもよい。
発音状態音響スコアベクトルへの変換方法としては、変換対象の音節に対応する要素(出力確率)を1とし、その他の要素を0とすればよい。例えば、発音列として「ヒョオカ」が入力された場合、図8に例示するように、入力「ヒョ」に対しては「ヒョ」に対応する要素のみ1で、その他を全て0としたベクトルを出力するようにすればよい。同様に、「オ」に対しては「オ」に対応する要素のみ1で、その他を全て0としたベクトルを出力するようにすればよい。「カ」についても同様である。なお、この発音状態音響スコアベクトル列は、「ヒョ」、「オ」、「カ」という発音列に対して最も尤度が高くなっている。このため、この発音状態音響スコアベクトル列を、変換部32(例、DNN-HMMデコーダ)に供給したとき、変換部32は、音響スコアベクトルを発音列に変換し、発音列を表記列に変換する。詳しくは、変換部32は、入力された発音列と同じ発音列が単語辞書35にあれば、発音列に関しては入力と同じ発音列を出力し、表記列に関しては言語モデル34に依存して決定した表記列を出力する。
なお、発音状態音響スコアベクトルの作成方法はこれに限らず、出力確率ではなく該当状態の要素が10.0、他の要素が5.0等のように、任意の比を用いて出力してもよい。また発音状態音響スコアベクトルに雑音を加え、より厳しい条件で所望の結果が出力されるか否かを判別する構成としてもよい。また、混合ガウスモデル(GMM:Gaussian Mixture Model)を使ったHMM音声認識において、各発音列状態を表すGMMの複数の次元の平均値を要素とするベクトル等を発音状態音響スコアベクトルとしてもよい。ただし、この場合は表記列変換実行時に、GMM-HMM音声認識エンジン用の言語モデルと音響モデルを使用する。
ステップST32において、変換部32は、ステップST31で得られた発音状態音響スコアベクトル列を発音列に変換する。詳しくは、以下に、発音状態音響スコアベクトルの各要素の値が、対応する音節の尤度を表す102次元のベクトルである場合を例に挙げて説明する。また、発音の単位を音節として述べる。
変換部32は、発音状態音響スコアベクトルを基に、対応する音節を推定する。日本語の音節は、いわゆる50音に加え、濁音(「ガ」、「ザ」など)、半濁音(「パ」など)、拗音(「キャ」、「ジャ」など)で表現される。なお、撥音「ン」と促音「ッ」も1つの音節として扱い、長音「ー」は直前の母音で置き換えて扱うものとする。ここでは、日本語の音節を、図7に例示する102個として説明する。なお、本明細書中、音節をカタカナで表現するが、これに限らず、音節を平仮名で表現してもよい。発音状態音響スコアベクトルは、各要素の値が各音節の尤度を示すため、対応する音節の尤度の値が大きい音節へと推定される。例えば、102次元の発音状態音響スコアベクトルの要素が、音節「ヒョ」に対応する要素の値のみが1で、他の全ての要素の値が0である場合、この発音状態音響スコアベクトルは音節「ヒョ」へと変換される。なお、発音状態音響スコアベクトルの要素の値が0と1のみで説明したが、これに限定されない。発音状態音響スコアベクトルとしては、要素の値が尤度を表す任意のベクトルが使用可能となっている。すなわち、この種の発音状態音響ベクトルは、同様の手順で、高い尤度の音節が推定され、音節へと変換される。このように、変換部32は、発音状態音響スコアベクトルを音節へと変換し、発音列を生成する。
ステップST33において、変換部32は、ステップST32で得られた発音列を記憶部33内の言語モデル34と単語辞書35を参照しながら、出力表記列へと変換する。すなわち、変換部32は、単語辞書35を参照し、発音列に対応する表記の候補、つまり単語の候補を推定する。また、変換部32は、言語モデル34を用いて、単語の前後のつながりを考慮しながら、文章として適切になるような単語を単語辞書35で推定した単語候補から選択し、表記列を生成する。
ここで、ステップST33の動作の一例について、前述した図2を用いて詳細に説明する。ここでは、単語辞書35に少なくとも発音列「ヒョオカ」に対して表記「評価」が登録されており、発音列「ジッケン」に対して表記「実験」と「実権」が登録されているものとする。また、2単語の出現確率で表現された2-gram言語モデルを用い、言語モデルの学習データ内に発音列「ヒョオカジッケン」に対して「評価実権」より「評価実験」の組み合わせが多く出現する場合を例に挙げて述べる。
変換部32は、発音列「ヒョオカジッケン」に対して、まず単語辞書35を参照する。その結果、発音列「ヒョオカ」に対して「評価」の一候補が得られ、「ジッケン」に対して「実験」と「実権」の二候補が得られる。
次に、変換部32は、言語モデル34を用いて「ヒョオカ」と「ジッケン」の適切な組み合わせを決定する。図2に例示する言語モデルの場合、「評価実権」よりも「評価実験」の出現確率の方が高いので、発音列「ヒョオカジッケン」に対しては表記列「評価実験」が決定される。この例の場合、決定された表記列「評価実験」は、図4に示したように、入力表記列「評価実験」と同じであり、単語辞書35に登録しなくても正しい表記となっている。なお、これに限らず、図3に示したように、決定された表記列「新装学習」が入力表記列「深層学習」とは異なる場合もある。この場合、後段の比較部40に差分「深層」が抽出されることととなる。
このような発音列から表記列への変換は、入力発音列に対して、n-gram(nは、1以上の自然数)の出現確率を用いたビタビアルゴリズム(Viterbi algorithm)を用いることができる。なお、探索アルゴリズムは、ビタビアルゴリズムに限定されず、ツリートレリス(tree trellis)探索アルゴリズム等の他のアルゴリズムを用いてもよい。また、変換部32は、変換した出力表記列を比較部40へ供給する。これにより、ステップST31~ST33からなるステップST30が終了する。
ステップST40において、比較部40は、ステップST10で取得した入力表記列と、ステップST30で供給された出力表記列とを比較して差分を抽出する。例えば図3に示したように、テキスト取得部10で取得した入力表記列を発音列変換部20にて発音列へ変換し、表記列変換部30で出力表記列へ変換する。そして比較部40で比較を行うと、“深層”が差分として抽出される。
ステップST70において、表示制御部70は、例えば図4に示したように、入力表記列を含む入力表記列表示画面102と、出力表記列を含む出力表記列表示画面103とをディスプレイ71に表示させる。また、表示制御部70は、入力表記列表示画面102と出力表記列表示画面103の両画面において、表示属性104によって差分を他の表記から識別可能な状態にしてディスプレイ71に表示させる。この状態において、差分を含む表記は、適宜、ユーザによるキーボード又はマウス等の操作に応じて、単語辞書35に登録可能となっている。また、後述する単語推定などの処理後に、単語辞書35への登録を行うことも可能である。
上述したように第1の実施形態によれば、テキスト取得部は、入力表記列が記載されたテキストを取得する。発音列変換部は、入力表記列を発音列に変換する。表記列変換部は、発音列を出力表記列に変換する。比較部は、入力表記列と出力表記列とを比較して差分を抽出する。
このような構成により、入力表記列に含まれる未知語のうち、出力表記列にて正しい表記にならない未知語が差分として抽出される。言い換えると、入力表記列に含まれる未知語のうち、出力表記列にて正しい表記になる未知語は、差分として抽出されない。従って、未知語のうち、登録しなくても正しい表記になる未知語の登録を防止することができる。また、少量の入力表記列からでも出力表記列との差分を抽出できる。また、入力表記列と、入力表記列から発音列を介して変換した出力表記列とを比較して、正しい表記にならない部分を差分として抽出するため、音声認識に有用な差分を抽出することができる。また、抽出された差分に対してユーザが辞書登録作業を行うため、表記ゆれなどの不要語の登録を防ぐことができる。また、単語辞書を作成する際、単語辞書に登録すべき単語をユーザにわかりやすく提示することができる。また、ユーザが辞書登録作業を行うため、ユーザ毎に表記列の分野に応じて単語辞書を改良することが可能である。
また、第1の実施形態によれば、表記列変換部は、特徴量変換部と、記憶部と、変換部とを備えてもよい。特徴量変換部は、発音列を音響スコアベクトルに変換してもよい。記憶部は、音声認識用の言語モデルと単語辞書とを記憶してもよい。変換部は、音響スコアベクトルから発音列を生成し、当該生成した発音列を、言語モデル及び単語辞書を用いて、出力表記列に変換してもよい。この場合、前述した効果に加え、音声認識用の言語モデルと単語辞書とを用いて出力表記列を得るため、単語辞書にない未知語を含む表記として、より適切な差分を抽出することができる。
また、第1の実施形態によれば、発音列変換部は、形態素解析部と、読み付け処理部とを備えてもよい。形態素解析部は、入力表記列を単語に分割して、各単語の品詞を推定する形態素解析を行うようにしてもよい。読み付け処理部は、形態素解析の結果に基づき、各単語に読みを付けて発音列に変換してもよい。この場合、前述した効果に加え、例えば、アクセントやポーズの如き、読み以外の情報を用いる発音列に変換する場合に比べ、容易に発音列に変換することができる。
<第1の実施形態の変形例>
第1の実施形態の変形例は、特徴量変換部31が、発音列を直接的に音響スコアベクトルに変換する処理に代えて、発音列を音声信号に変換してから音響スコアベクトルに変換する処理を実行する形態である。
これに伴い、特徴量変換部31は、図9に示すように、音声合成部31a、音響特徴量計算部31b及び音響スコア計算部31cを備えている。
ここで、音声合成部31aは、発音列変換部20により変換された発音列から音声信号を合成する。合成された音声信号は、音響特徴量計算部31bに送出される。なお、「音声信号」は「音声波形信号」ともいう。例えば、音声合成部31aは、入力された発音列にしたがって、音声波形信号を生成する。
音響特徴量計算部31bは、音声合成部31aにより合成された音声信号から音響特徴ベクトルを計算する。例えば、音響特徴量計算部31bは、音声信号から所定のフレーム単位でスペクトルの特徴を表す音響特徴ベクトルを計算する。計算された音響特徴ベクトルは、音響スコア計算部31cに送出される。
音響スコア計算部31cは、音響特徴量計算部31bにより計算された音響特徴ベクトルから音響スコアベクトルを計算する。例えば、音響スコア計算部31cは、音響特徴ベクトルから各音節の尤度を推定して発音状態音響スコアベクトルを計算する。計算された音響スコアベクトルは、前述した変換部32に送出される。
他の構成は、第1の実施形態と同様である。
次に、以上のように構成された変形例の動作について図10のフローチャートを用いて説明する。以下の説明は、発音列を音響スコアベクトルに変換するステップST31の動作について述べる。すなわち、前述同様にステップST10~ST20の処理が実行され、ステップST30において、ステップST31の処理が開始される。ステップST31は、ステップST31-1~ST31-3からなる。
ステップST31-1において、音声合成部31aは、発音列変換部20により変換された発音列から音声信号を合成する。ここで、音声合成部31aは、任意の発音列から音声波形信号を生成可能な、種々の公知の手法を用いることができる。例えば、音節単位の波形データを記憶しておき、入力された発音列に従って波形データを選択・接続する手法を用いることができる。音声の抑揚を表すピッチ情報については変更せずに波形データをそのまま接続してもよいし、公知の技術により自然なピッチ変化を推定して波形データのピッチを修正してもよい。また、波形データの代わりに音節単位のスペクトルパラメータ系列を記憶しておき、音源・フィルタモデルを用いて音声信号を合成するようにしてもよい。あるいは、音節の系列からスペクトルパラメータ系列を予測するDNNを用いてもよい。いずれにしても、音声合成部31aは、発音列から音声信号を合成し、当該音声信号を音響特徴量計算部31bに送出する。
ステップST31-2において、音響特徴量計算部31bは、ステップST31-1で合成された音声信号から音響特徴ベクトルを計算する。例えば、音響特徴量計算部31bでは、音声認識処理で用いられるのと同様の処理によって、音声波形信号から音響特徴ベクトル系列を計算する。始めに、音響特徴量計算部31bは、入力された音声データに対して、例えばフレーム長10ms、フレームシフト5msで短時間フーリエ変換を行ってスペクトルに変換する。次に、音響特徴量計算部31bは、所定の帯域幅の仕様に基づいて帯域毎のパワースペクトルの総和を求め、フィルタバンク特徴ベクトルに変換し、音響特徴ベクトルとして音響スコア計算部31cに送出する。音響特徴ベクトルとしては、これ以外にも、メル周波数ケプストラム係数(MFCC:mel frequency cepstral coefficients)など、種々の音響特徴ベクトルを用いることができる。
ステップST31-3において、音響スコア計算部31cは、ステップST31-2で計算された音響特徴ベクトルから音響スコアベクトルを計算する。例えば、音響スコア計算部31cは、音響特徴ベクトルを入力として、DNNを用いて発音状態音響スコアベクトルを推定して出力する。音響スコア計算部31cの処理についても、音声認識で利用されている種々の公知の手法を用いることができる。全結合によるDNNの代わりに、畳み込みニューラルネットワーク(CNN:convolutional neural network)や、長・短期記憶(LSTM:long short-term memory)などを用いるようにしてもよい。いずれにしても、音響スコア計算部31cは、音響特徴ベクトルから音響スコアベクトルを計算し、当該音響スコアベクトルを変換部32に送出する。以上により、ステップST31-1~ST31-3からなるステップST31が終了する。
以下、前述同様にステップST32以降の処理が実行される。
上述したように第1の実施形態の変形例によれば、特徴量変換部は、音声合成部と、音響特徴量計算部と、音響スコア計算部と、を備えている。音声合成部は、発音列から音声信号を合成する。音響特徴量計算部は、音声信号から音響特徴ベクトルを計算する。音響スコア計算部は、音響特徴ベクトルから音響スコアベクトルを計算する。
従って、発音列を音声信号に変換してから音響スコアベクトルに変換する構成により、第1の実施形態の効果に加え、音声認識用の言語モデルと単語辞書とを用いる変換部に対し、より適した音響スコアベクトルを供給することができる。
補足すると、この変形例によれば、出力される発音状態音響スコアベクトルが実際の音声認識の処理で生成されるベクトルに類似するようになることで、より音声認識結果に近い表記列を生成することが可能となる。変形例の発音状態音響スコアベクトルは、入力音節に対応する要素だけでなく、それに類似する音節に対応する要素も値が大きくなる傾向があり、前述した0と1のみを要素とする発音状態音響スコアベクトル(発音状態出力確率ベクトル)とは異なる。すなわち、第1の実施形態に述べた発音状態音響スコアベクトルは、入力音節に対応する要素の値のみを1とする。これに対し、変形例に述べた音響スコアベクトルは、入力音節に対応する要素の値と、入力音節に類似する音節に対応する要素の値とがそれぞれ大きくなるので、実際の音声認識の処理で生成されるベクトルに類似させることができる。
<第2の実施形態>
次に、第2の実施形態について図11乃至図15を用いて説明する。第2の実施形態は、第1の実施形態又はその変形例と比べ、比較部40で抽出された差分に対し、追加的に処理が行われる。例えば、第2の実施形態は、差分を抽出して表示するのみの第1の実施形態とは異なり、抽出された差分を単語単位の差分へと変換して表示する。また、第2の実施形態は、表示された単語候補の範囲を修正するので、単語抽出の質の向上を期待できる。
図11は、第2の実施形態に係る差分抽出装置1の構成を例示するブロック図であり、前述した構成要素と同様の構成要素については同一符号を付してその詳しい説明を省略し、ここでは、主に、異なる部分について述べる。以下の各実施形態も同様にして重複した説明を省略する。
この差分抽出装置1は、図1に示した構成に比べ、単語推定部50及び指示部80を更に備えている。
ここで、単語推定部50は、形態素解析部21による入力表記列の解析結果に基づいて、入力表記列のうち、比較部40に抽出された差分を含む単語候補の表記を推定する。ここで、入力表記列の解析結果は、例えば、形態素解析部21による形態素解析の結果である。
これに伴い、表示制御部70は、単語推定部50に推定された単語候補を含む入力表記列をディスプレイ71に表示させる。
指示部80は、ディスプレイ71に表示された入力表記列のうち、単語候補の少なくとも一部を含む表記の範囲を指示する。例えば、指示部80は、ユーザによるキーボード又はマウス(図示せず)の操作に応じて、表記の範囲を指示してもよい。なお、これに限らず、指示部80は、タッチパネル等といった他の入力デバイスの操作に応じて、表記の範囲を指示してもよい。
次に、以上のように構成された差分抽出装置の動作について図12のフローチャート及び図13乃至図15の模式図を用いて説明する。
いま、前述同様に、ステップST10~ST40が実行され、入力表記列と出力表記列との差分が抽出されたとする。
ステップST50において、単語推定部50は、入力表記列の解析結果に基づいて、入力表記列のうち、差分を含む単語候補の表記を推定する。詳しくは、単語推定部50は、比較部40で抽出された差分の語の隣接する形態素を連結して単語を構成すると推定できる文字列を抽出して、単語候補として出力する。具体的には、単語推定部50は、図13に例示するように、差分の語が“深層”であるとして、その前後の語と合わせて単語を形成するか確認する。この場合、差分の前に語“は”があり、差分の後に語“学習”であるため、後の語と単語を形成する可能性がある。よって、単語推定部50では“深層学習”が単語候補として推定される。このように単語を構成する文字列の判断として、例えば「『名詞-一般』の連結部分は単語と推定する」などのルールを用いる。また、単語推定部50では、一つの形態素解析結果を用いたルールに限らず、大量の形態素解析の結果に基づいて、高頻度で隣接して現れる複数の形態素を連結して単語候補と推定する別のルールを更に利用してもよい。
ステップST71において、表示制御部70は、図14に例示するように、入力表記列表示画面102にテキスト取得部10で取得した表記列を配置し、出力表記列表示画面103に表記列変換部30で出力した表記列を配置してディスプレイ71に表示させる。また、表示制御部70では、比較部40で抽出された差分と単語推定部50で推定した単語候補を基に、差分を含む表記を表示属性104でディスプレイ71に表示させる。この状態において、差分を含む表記は、適宜、ユーザによるキーボード又はマウス等の操作に応じて、単語辞書35に登録可能となっている。また、次のステップST80の後に、単語辞書35への登録を行うことも可能である。
ステップST80において、指示部80は、カーソル400と単語候補画面401と単語候補402と範囲修正ボタン403とを用いる。指示部80では、ユーザの操作に応じて、表示制御部70の表示属性104の範囲を変更して、単語の範囲を変更できる。
具体的には、指示部80は、図15に例示するように、入力表記列表示画面102の表示属性104の上にカーソル400を合わせると、単語候補画面401が開き、単語候補402が表示される(ステップST80-1)。
指示部80は、カーソル400を単語候補402の上に合わせて候補を選択して、入力表記列表示画面102と出力表記列表示画面103の表示属性104の範囲を変更する(ステップST80-2)。例えば、指示部80は、単語候補の表記“ペンローズ”の上にカーソル400を合わせ、単語候補画面401の中の単語候補402の中から“ムーア・ペンローズ”を選択する。これにより、指示部80は、表示属性104の範囲を単語候補の表記“ペンローズ”から当該表記の全てを含む範囲“ムーア・ペンローズ”に変更する。なお、これに限らず、指示部80は、単語候補の表記“ペンローズ”の上にカーソル400を合わせ、単語候補画面401の中の単語候補402の中から“ペン”又は“ローズ”を選択してもよい。これにより、指示部80は、表示属性104の範囲を単語候補の表記“ペンローズ”から当該表記の一部を含む範囲“ペン”又は“ローズ”に変更する。
あるいは、指示部80は、範囲修正ボタン403を選択して、カーソル400を用いて表示属性104の範囲を変更する。例えば、指示部80は、範囲修正ボタン403を選択し、ユーザによるマウス81の操作に応じて、カーソル400を移動させて“ペンローズ”の範囲を拡張することで“ムーア・ペンローズ”の範囲を選択する。これに限らず、指示部80は、範囲修正ボタン403を選択し、ユーザのマウス81の操作に応じて、カーソル400を移動させて表示属性104の範囲を単語候補の表記“ペンローズ”から当該表記の一部を含む範囲“ペン”又は“ローズ”に縮小してもよい。
ステップST80-2又はST80-2aの結果、例えば、入力表記列表示画面102の表示属性104は“ムーア・ペンローズ”になり(ステップST80-3)、出力表記列表示画面103の表示属性104は“ムーア・Penrose”になる。また、入力表記列表示画面102の表示属性104の範囲が“ペン”又は“ローズ”になった場合、出力表記列表示画面103の表示属性104の範囲は“Pen”又は“rose”になる。
上述したように第2の実施形態によれば、解析部は、入力表記列を解析する。単語推定部は、入力表記列の解析結果に基づいて、入力表記列のうち、差分を含む単語候補の表記を推定する。従って、差分を含む単語候補の表記を推定できる構成により、第1の実施形態の効果に加え、差分と、差分に連結した名詞との複合語が未知語の場合でも、当該未知語を単語候補として推定することができる。
また、第2の実施形態によれば、表示制御部は、単語候補を含む入力表記列をディスプレイに表示させる。指示部は、表示された入力表記列のうち、単語候補の少なくとも一部を含む表記の範囲を指示する。従って、推定した単語候補の範囲を修正できる構成により、単語抽出の質の向上を期待することができる。
<第3の実施形態>
次に、第3の実施形態について図16乃至図21を用いて説明する。第3の実施形態は、第2の実施形態で推定された単語候補に対して単語種類を判定し、単語種類に応じた表示属性を用いて単語候補を表示する。また、第3の実施形態は、表示されている単語候補を単語辞書35へ登録し、登録した結果を表示へ反映させてもよい。
図16は、第3の実施形態に係る差分抽出装置1の処理を表すブロック図である。この差分抽出装置1は、図11に示した構成に加え、単語種類判定部60及び単語登録部90を更に備えている。単語種類判定部60は、未知語判定部61及び表記ゆれ判定部62を備えていてもよい。
ここで、単語種類判定部60は、単語推定部50で推定された単語候補の単語種類を判定する。例えば、単語種類判定部60は、単語推定部50で推定された単語候補の単語種類を、未知語判定部61により未知語と判定してもよい。あるいは、例えば、単語種類判定部60は、単語推定部50で推定された単語候補の単語種類を、表記ゆれ判定部62により表記ゆれと判定してもよい。なお、これに限らず、単語種類判定部60としては、単語表記を示す様々な種類に対して使用可能となっている。例えば、単語種類判定部60は、固有名詞、動詞など様々な種類を推定することができる。
未知語判定部61は、単語推定部50で推定された単語候補の表記が単語辞書35に登録されていなければ、当該単語候補の表記を未知語と判定する。
表記ゆれ判定部62は、単語推定部50で推定された単語候補の表記と、当該単語候補の表記に対応する出力表記列内の表記とが同じ単語の異表記であれば、当該異表記である2つの表記を表記ゆれと判定する。表記ゆれの判定は、例えば、2つの表記が異表記辞書内にあるか否かに応じて実行可能となっている。異表記辞書は、同じ単語の異表記を記述した辞書である。「異表記辞書」は、「異表記情報」又は「表記ゆれ判定情報」と呼んでもよい。
なお、表示制御部70は、単語種類判定部60に判定された単語種類に応じた表示属性を用いて単語候補の表記をディスプレイ71に表示させる。
単語登録部90は、指示部80に指示された範囲の表記を単語辞書35に登録する。
次に、以上のように構成された差分抽出装置の動作について図17のフローチャート及び図18乃至図21の模式図を用いて説明する。
いま、前述同様に、ステップST10~ST50が実行され、差分を含む単語候補の表記が推定されたとする。
ステップST60において、単語種類判定部60は、未知語判定部61と表記ゆれ判定部62とを並列に実行する。未知語判定部61では、ステップST50で推定された単語候補の表記が単語辞書35に登録されていなければ未知語と判定する処理を行う。例えば、入力表記列と出力表記列の差分から“ペンローズ”の表記が単語候補として推定された場合、単語候補の表記“ペンローズ”は、単語辞書35に含まれないため、未知語と判定される。
表記ゆれ判定部62では、ステップST50で推定された単語候補の表記と、単語候補の表記に対応する出力表記列内の表記とが同じ単語の異表記であれば表記ゆれと判定する処理を行う。例えば、入力表記列“所”と、対応する出力表記列“ところ”の場合、両者の差分から単語候補は“所”と推定される。推定された単語候補の表記“所”と、対応する出力表記列内の表記“ところ”との二つが異表記辞書内にあれば、同じ単語の異表記であるため、表記ゆれと判定される。
ステップST72において、表示制御部70は、図18に例示するように、抽出された差分と推定した単語候補、さらに単語種類に基づき、単語種類に応じた表示属性600~602で差分の表記をディスプレイ71に表示させる。この例では、“ペンローズ”が未知語、“所”が表記ゆれと判定されたため、“ペンローズ”は二重線の表示属性600、“所”は点線の表示属性602、その他の語は実線とした表示属性601で表示されている。この例では、表示属性601は二重線の表示属性と点線の表示属性602とその他の表示属性601としたが、これに限らず、単語種類に応じて任意の文字修飾を用いることができる。表示属性の変形例としては、ハイライトの濃さ、文字サイズ、フォント、色、太字、斜体、文字の前後に所定記号(例、黒三角)を配置、などの様々な種類が適宜、使用可能となっている。
ステップST72の後、ステップST80が、適宜、実行される。なお、ステップST80は、ユーザの操作がなければ、省略される。
ステップST90において、単語登録部90は、図19に例示するように、単語候補画面401と、単語登録画面701とを用いて、単語の登録処理を実行する。単語候補画面401は、単語候補402、範囲修正ボタン403及び単語登録ボタン700を含む画面である。単語登録画面701は、単語登録ボタン700の操作により表示され、表記入力ボックス702、発音登録ボックス703、品詞登録ボックス704及び登録ボタン705を含む画面である。例えば、ユーザによるマウス81の操作に応じて、カーソル400を表示属性601の上に合わせると単語候補画面401が開き、単語登録ボタン700を押すと単語登録画面701が開く。単語登録画面701では、表示属性601の範囲の単語に対する表記と発音と品詞をそれぞれ表記入力ボックス702と発音登録ボックス703と品詞登録ボックス704に入力し、登録ボタン705を押すと単語辞書35に単語が登録される。この例では、表記入力ボックス702と発音登録ボックス703と品詞登録ボックス704を入力したが、単語登録ボタン700を押した後、自動的に表記、読み、品詞が入力されても構わない。
また、単語登録部90は、図20に例示するように、登録した単語を表示画面に反映させるため、手動又は自動により、表記列変換部30、比較部40、単語推定部50、単語種類判定部60及び表示制御部70を再度実行してもよい。図20の下段は、更新した入力表記列表示画面102と出力表記列表示画面103を例示している。単語登録部90で単語辞書35に“深層学習”を登録した後、このような単語登録反映処理を実行することで、出力表記列表示画面103では“深層学習”と表示されるようになる。そのため、比較部40で差分抽出が行われず、表示属性601が表示されなくなる。
また、単語登録部90は、図21に例示するように、複数の単語を一括登録するための単語登録画面800をディスプレイ71に表示させてもよい。ここで、単語登録画面800は、単語推定部50で推定された単語候補、および指示部80により指示された範囲の単語候補の差分に対応する入力表記列表示画面102の入力表記列の単語を、単語辞書35に登録すべき複数の単語として表示している。単語登録画面800内の有効表示801では、単語登録する単語を指定できる。単語登録画面800内の登録ボタン802を押すことで、単語登録部90は、有効表示801にて有効にした単語を一括で単語辞書35へ登録することができる。
なお、図21中、有効表示801はチェックボックスであるが、これに限らず、様々な表示形態が使用可能となっている。例えば、チェックボックスに代えて、丸印、バツ印、塗りつぶしなど様々な表示形態を用いてもよい。他にも、図21に示す例では、表記入力ボックス702と発音登録ボックス703と品詞登録ボックス704は自動入力であったが、ユーザが手動入力してもよい。いずれにしても、単語辞書35への登録により、ステップST90が終了する。
上述したように第3の実施形態によれば、単語種類判定部60は、単語候補の単語種類を判定する。従って、第2の実施形態の効果に加え、単語候補を登録する前に、単語候補の登録が必要な単語種類か否かを区別することができる。
また、第3の実施形態によれば、表示制御部70は、単語種類に応じた表示属性を用いて単語候補の表記をディスプレイに表示させてもよい。この場合、ユーザが単語候補を登録する前に、単語候補の登録が必要か否かの判断を支援することができる。
また、第3の実施形態によれば、単語登録部90は、指示された範囲の表記を単語辞書に登録してもよい。この場合、ユーザによる確認後の表記を単語辞書に登録することができる。
また、第3の実施形態によれば、単語種類判定部60における未知語判定部61は、単語候補の表記が単語辞書に登録されていなければ、当該単語候補の表記を未知語と判定してもよい。この場合、単語候補のうち、単語辞書に登録されていない未知語を正確に検出することができる。
また、第3の実施形態によれば、単語種類判定部60における表記ゆれ判定部62は、単語候補の表記と、当該単語候補の表記に対応する出力表記列内の表記とが同じ単語の異表記であれば、当該異表記である2つの表記を表記ゆれと判定してもよい。この場合、単語候補のうち、単語辞書に新たに登録する必要のない表記ゆれの単語を検出することができる。
<第4の実施形態>
図22は、第4の実施形態に係る差分抽出装置のハードウェア構成を例示するブロック図である。第4の実施形態は、第1乃至第3の実施形態の具体例であり、差分抽出装置1をコンピュータにより実現した形態となっている。
この差分抽出装置1は、ハードウェアとして、CPU(Central Processing Unit)2、RAM(Random Access Memory)3、プログラムメモリ4、補助記憶装置5及び入出力インタフェース6を備えている。CPU2は、バスを介して、RAM3、プログラムメモリ4、補助記憶装置5、および入出力インタフェース6と通信する。すなわち、本実施形態の差分抽出装置1は、このようなハードウェア構成のコンピュータにより実現されている。
CPU2は、汎用プロセッサの一例である。RAM3は、ワーキングメモリとしてCPU2に使用される。RAM3は、SDRAM(Synchronous Dynamic Random Access Memory)などの揮発性メモリを含む。プログラムメモリ4は、各実施形態に応じた各部を実現するためのプログラムを記憶する。このプログラムは、例えば、次の各機能をコンピュータに実現させるためのプログラムとしてもよい。[1]入力表記列が記載されたテキストを取得する機能。[2]入力表記列を発音列に変換する機能。[3]発音列を出力表記列に変換する機能。[4]入力表記列と出力表記列とを比較して差分を抽出する機能。また、プログラムメモリ4として、例えば、ROM(Read-Only Memory)、補助記憶装置5の一部、またはその組み合わせが使用される。補助記憶装置5は、データを非一時的に記憶する。補助記憶装置5は、HDD(hard disc drive)またはSSD(solid state drive)などの不揮発性メモリを含む。
入出力インタフェース6は、他のデバイスと接続するためのインタフェースである。入出力インタフェース6は、例えば、キーボード、マウス81及びディスプレイ71との接続に使用される。
プログラムメモリ4に記憶されているプログラムはコンピュータ実行可能命令を含む。プログラム(コンピュータ実行可能命令)は、処理回路であるCPU2により実行されると、CPU2に所定の処理を実行させる。例えば、プログラムは、CPU2により実行されると、CPU2に図1、図9、図11及び図16の各部に関して説明された一連の処理を実行させる。例えば、プログラムに含まれるコンピュータ実行可能命令は、CPU2により実行されると、CPU2に差分抽出方法を実行させる。差分抽出方法は、上記[1]~[4]の各機能に対応する各ステップを含んでもよい。また、差分抽出方法は、図5、図10、図12及び図17に示した各ステップを適宜、含んでもよい。
プログラムは、コンピュータ読み取り可能な記憶媒体に記憶された状態でコンピュータである差分抽出装置1に提供されてよい。この場合、例えば、差分抽出装置1は、記憶媒体からデータを読み出すドライブ(図示せず)をさらに備え、記憶媒体からプログラムを取得する。記憶媒体としては、例えば、磁気ディスク、光ディスク(CD-ROM、CD-R、DVD-ROM、DVD-Rなど)、光磁気ディスク(MOなど)、半導体メモリなどが適宜、使用可能である。記憶媒体は、非一時的なコンピュータ読み取り可能な記憶媒体(non-transitory computer readable storage medium)と呼んでもよい。また、プログラムを通信ネットワーク上のサーバに格納し、差分抽出装置1が入出力インタフェース6を使用してサーバからプログラムをダウンロードするようにしてもよい。
プログラムを実行する処理回路は、CPU2などの汎用ハードウェアプロセッサに限らず、ASIC(Application Specific Integrated Circuit)などの専用ハードウェアプロセッサを用いてもよい。処理回路(処理部)という語は、少なくとも1つの汎用ハードウェアプロセッサ、少なくとも1つの専用ハードウェアプロセッサ、または少なくとも1つの汎用ハードウェアプロセッサと少なくとも1つの専用ハードウェアプロセッサとの組み合わせを含む。図22に示す例では、CPU2、RAM3、およびプログラムメモリ4が処理回路に相当する。
以上述べた少なくとも一つの実施形態によれば、未知語のうち、登録しなくても正しい表記になる未知語の登録を防止することができる。
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…差分抽出装置、10…テキスト取得部、20…発音列変換部、21…形態素解析部、22…読み付け処理部、30…表記列変換部、31…特徴量変換部、31a…音声合成部、31b…音響特徴量計算部、31c…音響スコア計算部、32…変換部、33…記憶部、34…言語モデル、35…単語辞書、40…比較部、50…単語推定部、60…単語種類判定部、61…未知語判定部、62…表記ゆれ判定部、70…表示制御部、71…ディスプレイ、80…指示部、81…マウス、90…単語登録部、101…テキスト読み込みボタン、101a…開くボタン、102…入力表記列表示画面、103…出力表記列表示画面、104、600~602…表示属性、400…カーソル、401…単語候補画面、402…単語候補、403…範囲修正ボタン、700…単語登録ボタン、701,800…単語登録画面、702…表記入力ボックス、703…発音登録ボックス、704…品詞登録ボックス、705,802…登録ボタン、801…有効表示。

Claims (13)

  1. 入力表記列が記載されたテキストを取得するテキスト取得部と、
    前記入力表記列を発音列に変換する発音列変換部と、
    前記発音列を出力表記列に変換する表記列変換部と、
    前記入力表記列と前記出力表記列とを比較して差分を抽出する比較部と、
    を備えた差分抽出装置。
  2. 前記入力表記列を解析する解析部と、
    前記入力表記列の解析結果に基づいて、前記入力表記列のうち、前記差分を含む単語候補の表記を推定する単語推定部、を更に備えた請求項1に記載の差分抽出装置。
  3. 前記単語候補を含む前記入力表記列をディスプレイに表示させる表示制御部と、
    前記表示された前記入力表記列のうち、前記単語候補の少なくとも一部を含む表記の範囲を指示する指示部と、
    を更に備えた請求項2に記載の差分抽出装置。
  4. 前記単語候補の単語種類を判定する単語種類判定部、を更に備えた請求項2に記載の差分抽出装置。
  5. 前記単語候補を含む前記入力表記列をディスプレイに表示させる表示制御部、
    を更に備え、
    前記表示制御部は、前記単語種類に応じた表示属性を用いて前記単語候補の表記をディスプレイに表示させる、請求項4に記載の差分抽出装置。
  6. 前記指示された範囲の表記を単語辞書に登録する単語登録部、を更に備えた請求項3に記載の差分抽出装置。
  7. 前記単語種類判定部は、前記単語候補の表記が単語辞書に登録されていなければ、当該単語候補の表記を未知語と判定する未知語判定部、を備えた請求項4に記載の差分抽出装置。
  8. 前記単語種類判定部は、前記単語候補の表記と、当該単語候補の表記に対応する前記出力表記列内の表記とが同じ単語の異表記であれば、当該異表記である2つの表記を表記ゆれと判定する表記ゆれ判定部、を備えた請求項4に記載の差分抽出装置。
  9. 前記表記列変換部は、
    前記発音列を音響スコアベクトルに変換する特徴量変換部と、
    音声認識用の言語モデルと単語辞書とを記憶した記憶部と、
    前記音響スコアベクトルから発音列を生成し、当該生成した発音列を、前記言語モデル及び前記単語辞書を用いて、前記出力表記列に変換する変換部と、
    を備えた請求項1に記載の差分抽出装置。
  10. 前記特徴量変換部は、
    前記発音列から音声信号を合成する音声合成部と、
    前記音声信号から音響特徴ベクトルを計算する音響特徴量計算部と、
    前記音響特徴ベクトルから音響スコアベクトルを計算する音響スコア計算部と、
    を備えた請求項9に記載の差分抽出装置。
  11. 前記発音列変換部は、
    前記入力表記列を単語に分割して、各単語の品詞を推定する形態素解析を行う形態素解析部と、
    前記形態素解析の結果に基づき、前記各単語に読みを付けて前記発音列に変換する読み付け処理部と、
    を備えた請求項1に記載の差分抽出装置。
  12. 入力表記列が記載されたテキストを取得することと、
    前記入力表記列を発音列に変換することと、
    前記発音列を出力表記列に変換することと、
    前記入力表記列と前記出力表記列とを比較して差分を抽出することと、
    を備えた差分抽出方法。
  13. 入力表記列が記載されたテキストを取得する機能、
    前記入力表記列を発音列に変換する機能、
    前記発音列を出力表記列に変換する機能、
    前記入力表記列と前記出力表記列とを比較して差分を抽出する機能、
    をコンピュータに実現させるためのプログラム。
JP2020184610A 2020-11-04 2020-11-04 差分抽出装置、方法及びプログラム Pending JP2022074509A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020184610A JP2022074509A (ja) 2020-11-04 2020-11-04 差分抽出装置、方法及びプログラム
CN202111008156.0A CN114519998A (zh) 2020-11-04 2021-08-31 差分抽取装置、方法以及程序
US17/463,197 US20220138420A1 (en) 2020-11-04 2021-08-31 Difference extraction device, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020184610A JP2022074509A (ja) 2020-11-04 2020-11-04 差分抽出装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2022074509A true JP2022074509A (ja) 2022-05-18

Family

ID=81380140

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020184610A Pending JP2022074509A (ja) 2020-11-04 2020-11-04 差分抽出装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20220138420A1 (ja)
JP (1) JP2022074509A (ja)
CN (1) CN114519998A (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01154199A (ja) * 1987-12-11 1989-06-16 Ricoh Co Ltd 発声用パターン登録方式
JPH0785040A (ja) * 1993-09-13 1995-03-31 Hitachi Ltd 表記不統一検出方法およびかな漢字変換方法
US7684988B2 (en) * 2004-10-15 2010-03-23 Microsoft Corporation Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models
WO2011068170A1 (ja) * 2009-12-04 2011-06-09 ソニー株式会社 検索装置、検索方法、及び、プログラム
JP6413659B2 (ja) * 2014-11-06 2018-10-31 日本電気株式会社 ゆれ語判定装置、ゆれ語判定方法、ゆれ語判定プログラム、及び、文書分析装置
JP6495850B2 (ja) * 2016-03-14 2019-04-03 株式会社東芝 情報処理装置、情報処理方法、プログラムおよび認識システム
KR102498667B1 (ko) * 2020-08-27 2023-02-10 네오사피엔스 주식회사 합성 음성을 화자 이미지에 적용하는 방법 및 시스템

Also Published As

Publication number Publication date
US20220138420A1 (en) 2022-05-05
CN114519998A (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
Schuster et al. Japanese and korean voice search
Le et al. Automatic speech recognition for under-resourced languages: application to Vietnamese language
US20090204401A1 (en) Speech processing system, speech processing method, and speech processing program
WO2016067418A1 (ja) 対話制御装置および対話制御方法
JPWO2007097176A1 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US20070179779A1 (en) Language information translating device and method
Ekpenyong et al. Statistical parametric speech synthesis for Ibibio
Alsharhan et al. Evaluating the effect of using different transcription schemes in building a speech recognition system for Arabic
KR102580904B1 (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
JP2020060642A (ja) 音声合成システム、及び音声合成装置
JP2010169973A (ja) 外国語学習支援システム、及びプログラム
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
Tjalve et al. Pronunciation variation modelling using accent features
JP2022074509A (ja) 差分抽出装置、方法及びプログラム
Möbius Word and syllable models for German text-to-speech synthesis.
JP3589972B2 (ja) 音声合成装置
JP2009282330A (ja) 音声認識及び合成システム、プログラム及び方法
Saychum et al. Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling.
JP2004294542A (ja) 音声認識装置及びそのプログラム
Lyes et al. Building a pronunciation dictionary for the Kabyle language
JP2001117583A (ja) 音声認識装置および音声認識方法、並びに記録媒体
KR100322743B1 (ko) 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240402