JP2022074509A

JP2022074509A - 差分抽出装置、方法及びプログラム

Info

Publication number: JP2022074509A
Application number: JP2020184610A
Authority: JP
Inventors: 大貴田中; Hirotaka Tanaka; 岳彦籠嶋; Takehiko Kagoshima; 憲治岩田; Kenji Iwata; 浩司藤村; Koji Fujimura
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2022-05-18
Also published as: US20220138420A1; CN114519998A

Abstract

【課題】未知語のうち、登録しなくても正しい表記になる未知語の登録を防止すること。【解決手段】実施形態に係る差分抽出装置は、テキスト取得部と、発音列変換部と、表記列変換部と、比較部と、を備えている。テキスト取得部は、入力表記列が記載されたテキストを取得する。発音列変換部は、入力表記列を発音列に変換する。表記列変換部は、発音列を出力表記列に変換する。比較部は、入力表記列と出力表記列とを比較して差分を抽出する。【選択図】図１

Description

本発明の実施形態は、差分抽出装置、方法及びプログラムに関する。

一般に、辞書に登録されていない未知語を探して辞書登録の候補とすることで、ユーザの辞書登録作業を支援するための技術が開発されている。この種の技術としては、例えば、テキストを形態素解析した結果から複合語を抽出し、当該複合語が構築済み辞書に登録されていなければ未知語とする方式が知られている。

特開２０１６－１６４７２４号公報

上述した方式は、通常は特に問題ないが、本発明者の検討によれば、登録しなくても正しい表記になる未知語についても辞書登録の候補として抽出される場合があり、その場合、登録不要な語を登録することになってしまう。

本発明が解決しようとする課題は、未知語のうち、登録しなくても正しい表記になる未知語の登録を防止できる差分抽出装置、方法及びプログラムを提供することである。

実施形態に係る差分抽出装置は、テキスト取得部と、発音列変換部と、表記列変換部と、比較部と、を備えている。前記テキスト取得部は、入力表記列が記載されたテキストを取得する。前記発音列変換部は、前記入力表記列を発音列に変換する。前記表記列変換部は、前記発音列を出力表記列に変換する。前記比較部は、前記入力表記列と前記出力表記列とを比較して差分を抽出する。

第１の実施形態に係る差分抽出装置の構成を例示するブロック図。第１の実施形態における発音列から表記列への変換を例示する模式図。第１の実施形態における比較部を説明するための模式図。第１の実施形態における表示画面を例示する模式図。第１の実施形態における動作を説明するためのフローチャート。第１の実施形態における動作を説明するための模式図。第１の実施形態における日本語の音節を例示する模式図。第１の実施形態における発音状態音響スコアベクトルを例示する模式図。第１の実施形態の変形例に係る特徴量変換部を例示するブロック図。第１の実施形態の変形例における動作を説明するためのフローチャート。第２の実施形態に係る差分抽出装置の構成を例示するブロック図。第２の実施形態における動作を説明するためのフローチャート。第２の実施形態における単語推定部を説明するための模式図。第２の実施形態における表示画面を例示する模式図。第２の実施形態における指示例を示す模式図。第３の実施形態に係る差分抽出装置の構成を例示するブロック図。第３の実施形態における動作を説明するためのフローチャート。第３の実施形態に係る表示画面を例示する模式図。第３の実施形態に係る単語登録部の登録例を示す模式図。第３の実施形態に係る登録反映時の表示例を示す模式図。第３の実施形態に係る表示画面および登録画面を例示する模式図。第４の実施形態に係る差分抽出装置のＨＷ構成を例示するブロック図。

以下、図面を参照して各実施形態について説明する。以下の説明では、差分抽出装置が音声認識システムに搭載され、音声認識用の単語辞書へ登録する単語を抽出するために用いられる場合を例に挙げて述べる。なお、差分抽出装置は、用途が分かり易いように、単語抽出装置、単語抽出支援装置、辞書登録装置、又は辞書登録支援装置などといった任意の名称に読み替えてもよい。

＜第１の実施形態＞
図１は、第１の実施形態に係る差分抽出装置の構成を例示するブロック図である。この差分抽出装置１は、テキスト取得部１０、発音列変換部２０、表記列変換部３０、比較部４０及び表示制御部７０を備えている。

ここで、テキスト取得部１０は、入力表記列が記載されたテキストを取得する。取得されたテキストは、発音列変換部２０及び比較部４０に送出される。例えば、テキスト取得部１０は、操作者の操作に応じて、図示しないメモリ内の文書ファイルを選択して開くことにより、入力表記列が記載されたテキストを文書ファイルから取得してもよい。また例えば、テキスト取得部１０は、ユーザによるキーボード又はマウス等の操作に応じて、キー入力されたテキスト、又は他の文書ファイルから貼り付けられたテキストを取得してもよい。なお、テキスト取得部１０は、入力表記列を取得する表記列取得部としてもよい。

発音列変換部２０は、テキスト取得部１０により取得された入力表記列を発音列に変換する。例えば、発音列変換部２０は、当該取得された入力表記列を解析し、得られた解析結果に基づいて当該入力表記列を発音列に変換する。変換された発音列は、表記列変換部３０に送出される。このような発音列変換部２０は、例えば、形態素解析部２１及び読み付け処理部２２を備えてもよい。発音列は、入力表記列の読みを表すテキストである。例えば、入力表記列が“学習”の場合、発音列は“ガクシュウ”となる。

形態素解析部２１は、テキスト取得部１０により取得された入力表記列を解析する。例えば、形態素解析部２１は、入力表記列を単語に分割して、各単語の品詞を推定する形態素解析を行う。なお、形態素解析でいう「単語」は「形態素」と読み替えてもよい。すなわち、形態素解析は、入力表記列を形態素に分割して、各形態素の品詞を推定する処理を含む。形態素解析部２１は、「入力表記列解析部」又は「解析部」と呼んでもよい。

読み付け処理部２２は、形態素解析の結果に基づき、各単語に読みを付けて発音列に変換する。読み付け処理部２２は、例えば、図示しない形態素辞書を用いて、各単語に読みを付けてもよい。形態素辞書は、形態素解析に用いられ、形態素ごとに見出し語（単語）、読み、品詞、及び活用形などが記述された辞書である。なお、これに限らず、読み付け処理部２２は、後述する単語辞書３５を用いて、各単語に読みを付けてもよい。単語辞書３５は、単語の表記、発音列（読み）、及び品詞が互いに関連付けられて記憶された辞書である。

表記列変換部３０は、発音列変換部２０により変換された発音列を出力表記列に変換する。例えば、表記列変換部３０は、発音列変換部２０により変換された発音列を解析し、得られた解析結果に基づいて当該発音列を出力表記列に変換する。変換された出力表記列は、比較部４０に送出される。このような表記列変換部３０は、例えば、特徴量変換部３１、変換部３２及び記憶部３３を備えてもよい。記憶部３３は、言語モデル３４及び単語辞書３５を備えてもよい。

ここで、特徴量変換部３１は、発音列を音響スコアベクトルに変換する。ここで、特徴量変換部３１は、（１）発音列を直接的に音響スコアベクトルに変換する処理、（２）発音列を音声信号に変換し、当該音声信号を音響スコアベクトルに変換する処理、のいずれを実行してもよい。第１の実施形態では、上記（１）の処理を用いる場合を例に挙げて述べる。なお、上記（２）の処理については第１の実施形態の変形例で述べる。

ここで、音響スコアベクトルは、発音列特徴量ベクトルとも呼ばれ、変換部３２で発音系列が正解となるような特徴ベクトルである。なお、特徴量変換部３１は音響スコア変換部と呼んでもよい。

変換部３２は、言語モデル３４及び単語辞書３５を用いて、音響スコアベクトルを出力表記列に変換する。詳しくは、変換部３２は、音響スコアベクトルから発音列を生成し、生成した発音列を、図２に例示するように言語モデル３４及び単語辞書３５を用いて、出力表記列に変換する。なお、変換部３２は出力表記列変換部と呼んでもよい。

記憶部３３は、音声認識用の言語モデル３４と単語辞書３５とを記憶している。

言語モデル３４としては、音声認識結果を確認したい音声認識エンジンと同じ統計情報から作成したモデルを使用する。一例として、言語モデルとしては、言語モデル学習データの１単語の出現確率で決定されるｎ－ｇｒａｍ言語モデルを使用できる（ｎは、１以上の自然数）。言語モデルとしては、１－ｇｒａｍ言語モデル以外であっても、２－ｇｒａｍ言語モデル、３－ｇｒａｍ言語モデル、４－ｇｒａｍ言語モデル、５－ｇｒａｍ言語モデル・・・等の他の言語モデルを使用してもよい。図２中、言語モデル３４としては、ある単語（第２語）の出現確率を、その直前の既知のｎ－１単語（第１語）に依存して決定する２－ｇｒａｍ言語モデル（ｎ＝２）を用いている。なお、リカレント・ニューラル・ネットワーク（ＲＮＮ：Recurrent Neural Networks）を用いてモデル化した言語モデルを用いてもよい。また、重み付き有限状態トランスデューサ（ＷＦＳＴ：Weighted Finite-State Transducer）音声認識技術を用いてもよい。

単語辞書３５は、音声認識の対象とする単語の表記、表記に対応する発音列、単語の品詞の情報が対応付けられて登録されている。単語の表記は、例えば「評価」という単語であれば「評価」という表記となる。表記に対応する発音列は、例えば「評価」という単語であれば「ヒョオカ」という発音列となる。

比較部４０は、図３に示すように、テキスト取得部１０により取得された入力表記列と、この入力表記列から発音列変換部２０及び表記列変換部３０を介して得られた出力表記列とを比較して差分を抽出する。なお、「差分を抽出する」という用語は、「差分を検出する」又は「差分を特定する」等と言い換えてもよい。比較部４０は、差分の抽出結果を表示制御部７０に送出する。差分の抽出結果は、例えば、差分を識別可能に含む入力表記列と、差分を識別可能に含む出力表記列とを含んでいる。なお、これに限らず、差分の抽出結果は、入力表記列及び出力表記列と、入力表記列及び出力表記列の中の差分を特定する差分特定情報（例、差分の表記「○○」と位置（テキスト冒頭からｘｘ文字目）など）とを含んでいてもよい。

表示制御部７０は、比較部４０から送出された入力表記列、出力表記列及び比較結果などをディスプレイに表示させる。詳しくは図４に例示するように、表示制御部７０は、テキスト読み込みボタン１０１と、入力表記列表示画面１０２と、出力表記列表示画面１０３とをディスプレイ７１に表示させる。テキスト読み込みボタン１０１は、テキスト取得部１０にテキストを取得させるためのボタンである。入力表記列表示画面１０２は、差分を含む入力表記列を配置した画面である。出力表記列表示画面１０３は、差分を含む出力表記列を配置した画面である。入力表記列表示画面１０２及び出力表記列表示画面１０３は、それぞれ入力表記列表示領域及び出力表記列表示領域と呼んでもよい。差分は、表示属性１０４により、差分以外の表記列から識別可能に表示される。図４中、表示属性１０４は実線の下線を表している。但し、表示属性１０４としては、これに限らず、差分の有無を識別可能な属性が、適宜、使用可能となっている。例えば、表示属性としては、文字の色、フォントの種類やサイズ、背景の色など様々な表示属性を用いてもよい。

次に、以上のように構成された差分抽出装置の動作について、前述した図面、図５のフローチャート、及び図６乃至図８の模式図を用いて説明する。なお、差分抽出装置の動作は、差分抽出方法に対応する。

ステップＳＴ１０において、テキスト取得部１０は、入力表記列が記載されたテキストを取得する。具体的には例えば、表示制御部７０は、図６に示すように、テキスト読み込みボタン１０１と、入力表記列表示画面１０２と、出力表記列表示画面１０３とをディスプレイ７１に表示させる。なお、テキスト取得前の場合、図６とは異なり、入力表記列表示画面１０２は空欄である。テキスト読み込みボタン１０１は、ユーザの操作により、選択可能なファイルのリストと、開くボタン１０１ａとを含むファイル選択画面１０１ｂをディスプレイ７１に表示させる処理をテキスト取得部１０に実行させるためのボタンである。開くボタン１０１ａは、ユーザの操作により、リスト中で選択されたファイルを開くと共に、当該開いたファイル内のテキストを取得する処理をテキスト取得部１０に実行させるためのボタンである。

ここで、テキスト取得部１０は、テキスト読み込みボタン１０１の操作により、ファイル選択画面１０１ｂをディスプレイ７１に表示させる。また、テキスト取得部１０は、ユーザの操作により、リスト中でファイルを選択し、開くボタン１０１ａの操作により、当該選択したファイルから入力表記列を記載したテキストを取得する。取得されたテキストは、入力表記列表示画面１０２に表示されると共に、発音列変換部２０に送出される。

ステップＳＴ２０において、発音列変換部２０は、ステップＳＴ１０で取得した入力表記列を解析して発音列へと変換する。詳しくは、発音列変換部２０は、入力表記列を解析し、得られた解析結果に基づいて入力表記列を発音列に変換する。このようなステップＳＴ２０は、形態素解析部２１及び読み付け処理部２２により、ステップＳＴ２１～ＳＴ２２として実行される。

ステップＳＴ２１において、形態素解析部２１は、当該取得した入力表記列に対して形態素解析を行い、形態素の分割および品詞推定を行う。詳しくは、形態素解析部２１は、入力表記列を単語に分割して、各単語の品詞を推定する形態素解析を行う。例えば、取得した表記列が“評価実験”である場合、“評価”と“実験”に分かれ、それぞれ名詞と推定される。

ステップＳＴ２２において、読み付け処理部２２は、形態素解析部２１の結果を受け取り、形態素ごとに読み付けを行い、表記列変換部３０へ発音列を供給する。詳しくは、読み付け処理部２２は、形態素解析の結果に基づき、各単語に読みを付けて発音列に変換する。例えば、形態素解析部２１から“評価”と“実験”が結果として出た場合、読み付け処理部２２でそれぞれに対して“ヒョオカ”と“ジッケン”の読みを付ける。そして“ヒョオカジッケン”を表記列変換部３０へ受け渡す。これにより、ステップＳＴ２１～ＳＴ２２からなるステップＳＴ２０が終了する。

ステップＳＴ３０において、表記列変換部３０は、ステップＳＴ２０で変換された発音列を入力として受け取り、発音列を解析して出力表記列に変換し、出力表記列を比較部４０に送出する。このようなステップＳＴ２０は、特徴量変換部３１及び変換部３２により、ステップＳＴ３１～ＳＴ３３として実行される。

ステップＳＴ３１において、特徴量変換部３１は、ステップＳＴ２０で得られた発音列を音響スコアベクトルに変換する。具体的には、特徴量変換部３１は、取得された発音列から発音列特徴量ベクトルを生成する。発音列特徴量ベクトルは、後段の変換部３２で発音系列が正解となるような特徴ベクトルである。例えば、ＤＮＮ及びＨＭＭを用いたＤＮＮ－ＨＭＭ音声認識エンジンでは、一定の時間毎に音声区間を１フレームとして切り出す。また、切り出したフレームに対して、ＤＮＮを用いて発音系列の発音状態出力確率ベクトル（発音状態音響スコアベクトル）を算出する。なお、ＤＮＮは、ディープ・ニューラル・ネットワーク（Deep Neural Network）の略語である。ＨＭＭは、隠れマルコフモデル（Hidden Markov Model）の略語である。

ここで、発音状態音響スコアベクトルについて説明する。ここでは、発音の単位を音節として述べる。日本語の場合、いわゆる５０音に加えて、濁音（「ガ」、「ザ」など）、半濁音（「パ」など）、拗音（「キャ」、「ジャ」など）の音節がある。なお、撥音「ン」と促音「ッ」も１つの音節として扱い、長音「ー」は直前の母音で置き換えて扱うものとする。ここでは、日本語の音節を、図７に例示する１０２個として説明する。各発音は、通常は３状態程度のＨＭＭで表現されるが、説明を簡略化するために各発音を１状態として説明する。この場合の発音状態音響スコアベクトルは、ベクトルの各要素の値が対応する音節の尤度を表す１０２次元のベクトルとなる。すなわち、発音状態音響スコアベクトルとしては、特徴量変換部３１に入力された発音列に対して、１音節毎に１０２次元のベクトルが１個、特徴量変換部３１から出力される。但し、これに限らず、各発音を３状態で表現し、１音節毎に３０６次元の発音状態音響スコアベクトルを用いてもよい。

発音状態音響スコアベクトルへの変換方法としては、変換対象の音節に対応する要素（出力確率）を１とし、その他の要素を０とすればよい。例えば、発音列として「ヒョオカ」が入力された場合、図８に例示するように、入力「ヒョ」に対しては「ヒョ」に対応する要素のみ１で、その他を全て０としたベクトルを出力するようにすればよい。同様に、「オ」に対しては「オ」に対応する要素のみ１で、その他を全て０としたベクトルを出力するようにすればよい。「カ」についても同様である。なお、この発音状態音響スコアベクトル列は、「ヒョ」、「オ」、「カ」という発音列に対して最も尤度が高くなっている。このため、この発音状態音響スコアベクトル列を、変換部３２（例、ＤＮＮ－ＨＭＭデコーダ）に供給したとき、変換部３２は、音響スコアベクトルを発音列に変換し、発音列を表記列に変換する。詳しくは、変換部３２は、入力された発音列と同じ発音列が単語辞書３５にあれば、発音列に関しては入力と同じ発音列を出力し、表記列に関しては言語モデル３４に依存して決定した表記列を出力する。

なお、発音状態音響スコアベクトルの作成方法はこれに限らず、出力確率ではなく該当状態の要素が１０．０、他の要素が５．０等のように、任意の比を用いて出力してもよい。また発音状態音響スコアベクトルに雑音を加え、より厳しい条件で所望の結果が出力されるか否かを判別する構成としてもよい。また、混合ガウスモデル（ＧＭＭ：Gaussian Mixture Model）を使ったＨＭＭ音声認識において、各発音列状態を表すＧＭＭの複数の次元の平均値を要素とするベクトル等を発音状態音響スコアベクトルとしてもよい。ただし、この場合は表記列変換実行時に、ＧＭＭ－ＨＭＭ音声認識エンジン用の言語モデルと音響モデルを使用する。

ステップＳＴ３２において、変換部３２は、ステップＳＴ３１で得られた発音状態音響スコアベクトル列を発音列に変換する。詳しくは、以下に、発音状態音響スコアベクトルの各要素の値が、対応する音節の尤度を表す１０２次元のベクトルである場合を例に挙げて説明する。また、発音の単位を音節として述べる。

変換部３２は、発音状態音響スコアベクトルを基に、対応する音節を推定する。日本語の音節は、いわゆる５０音に加え、濁音（「ガ」、「ザ」など）、半濁音（「パ」など）、拗音（「キャ」、「ジャ」など）で表現される。なお、撥音「ン」と促音「ッ」も１つの音節として扱い、長音「ー」は直前の母音で置き換えて扱うものとする。ここでは、日本語の音節を、図７に例示する１０２個として説明する。なお、本明細書中、音節をカタカナで表現するが、これに限らず、音節を平仮名で表現してもよい。発音状態音響スコアベクトルは、各要素の値が各音節の尤度を示すため、対応する音節の尤度の値が大きい音節へと推定される。例えば、１０２次元の発音状態音響スコアベクトルの要素が、音節「ヒョ」に対応する要素の値のみが１で、他の全ての要素の値が０である場合、この発音状態音響スコアベクトルは音節「ヒョ」へと変換される。なお、発音状態音響スコアベクトルの要素の値が０と１のみで説明したが、これに限定されない。発音状態音響スコアベクトルとしては、要素の値が尤度を表す任意のベクトルが使用可能となっている。すなわち、この種の発音状態音響ベクトルは、同様の手順で、高い尤度の音節が推定され、音節へと変換される。このように、変換部３２は、発音状態音響スコアベクトルを音節へと変換し、発音列を生成する。

ステップＳＴ３３において、変換部３２は、ステップＳＴ３２で得られた発音列を記憶部３３内の言語モデル３４と単語辞書３５を参照しながら、出力表記列へと変換する。すなわち、変換部３２は、単語辞書３５を参照し、発音列に対応する表記の候補、つまり単語の候補を推定する。また、変換部３２は、言語モデル３４を用いて、単語の前後のつながりを考慮しながら、文章として適切になるような単語を単語辞書３５で推定した単語候補から選択し、表記列を生成する。

ここで、ステップＳＴ３３の動作の一例について、前述した図２を用いて詳細に説明する。ここでは、単語辞書３５に少なくとも発音列「ヒョオカ」に対して表記「評価」が登録されており、発音列「ジッケン」に対して表記「実験」と「実権」が登録されているものとする。また、２単語の出現確率で表現された２－ｇｒａｍ言語モデルを用い、言語モデルの学習データ内に発音列「ヒョオカジッケン」に対して「評価実権」より「評価実験」の組み合わせが多く出現する場合を例に挙げて述べる。

変換部３２は、発音列「ヒョオカジッケン」に対して、まず単語辞書３５を参照する。その結果、発音列「ヒョオカ」に対して「評価」の一候補が得られ、「ジッケン」に対して「実験」と「実権」の二候補が得られる。

次に、変換部３２は、言語モデル３４を用いて「ヒョオカ」と「ジッケン」の適切な組み合わせを決定する。図２に例示する言語モデルの場合、「評価実権」よりも「評価実験」の出現確率の方が高いので、発音列「ヒョオカジッケン」に対しては表記列「評価実験」が決定される。この例の場合、決定された表記列「評価実験」は、図４に示したように、入力表記列「評価実験」と同じであり、単語辞書３５に登録しなくても正しい表記となっている。なお、これに限らず、図３に示したように、決定された表記列「新装学習」が入力表記列「深層学習」とは異なる場合もある。この場合、後段の比較部４０に差分「深層」が抽出されることととなる。

このような発音列から表記列への変換は、入力発音列に対して、ｎ－ｇｒａｍ（ｎは、１以上の自然数）の出現確率を用いたビタビアルゴリズム（Viterbi algorithm）を用いることができる。なお、探索アルゴリズムは、ビタビアルゴリズムに限定されず、ツリートレリス（tree trellis）探索アルゴリズム等の他のアルゴリズムを用いてもよい。また、変換部３２は、変換した出力表記列を比較部４０へ供給する。これにより、ステップＳＴ３１～ＳＴ３３からなるステップＳＴ３０が終了する。

ステップＳＴ４０において、比較部４０は、ステップＳＴ１０で取得した入力表記列と、ステップＳＴ３０で供給された出力表記列とを比較して差分を抽出する。例えば図３に示したように、テキスト取得部１０で取得した入力表記列を発音列変換部２０にて発音列へ変換し、表記列変換部３０で出力表記列へ変換する。そして比較部４０で比較を行うと、“深層”が差分として抽出される。

ステップＳＴ７０において、表示制御部７０は、例えば図４に示したように、入力表記列を含む入力表記列表示画面１０２と、出力表記列を含む出力表記列表示画面１０３とをディスプレイ７１に表示させる。また、表示制御部７０は、入力表記列表示画面１０２と出力表記列表示画面１０３の両画面において、表示属性１０４によって差分を他の表記から識別可能な状態にしてディスプレイ７１に表示させる。この状態において、差分を含む表記は、適宜、ユーザによるキーボード又はマウス等の操作に応じて、単語辞書３５に登録可能となっている。また、後述する単語推定などの処理後に、単語辞書３５への登録を行うことも可能である。

上述したように第１の実施形態によれば、テキスト取得部は、入力表記列が記載されたテキストを取得する。発音列変換部は、入力表記列を発音列に変換する。表記列変換部は、発音列を出力表記列に変換する。比較部は、入力表記列と出力表記列とを比較して差分を抽出する。

このような構成により、入力表記列に含まれる未知語のうち、出力表記列にて正しい表記にならない未知語が差分として抽出される。言い換えると、入力表記列に含まれる未知語のうち、出力表記列にて正しい表記になる未知語は、差分として抽出されない。従って、未知語のうち、登録しなくても正しい表記になる未知語の登録を防止することができる。また、少量の入力表記列からでも出力表記列との差分を抽出できる。また、入力表記列と、入力表記列から発音列を介して変換した出力表記列とを比較して、正しい表記にならない部分を差分として抽出するため、音声認識に有用な差分を抽出することができる。また、抽出された差分に対してユーザが辞書登録作業を行うため、表記ゆれなどの不要語の登録を防ぐことができる。また、単語辞書を作成する際、単語辞書に登録すべき単語をユーザにわかりやすく提示することができる。また、ユーザが辞書登録作業を行うため、ユーザ毎に表記列の分野に応じて単語辞書を改良することが可能である。

また、第１の実施形態によれば、表記列変換部は、特徴量変換部と、記憶部と、変換部とを備えてもよい。特徴量変換部は、発音列を音響スコアベクトルに変換してもよい。記憶部は、音声認識用の言語モデルと単語辞書とを記憶してもよい。変換部は、音響スコアベクトルから発音列を生成し、当該生成した発音列を、言語モデル及び単語辞書を用いて、出力表記列に変換してもよい。この場合、前述した効果に加え、音声認識用の言語モデルと単語辞書とを用いて出力表記列を得るため、単語辞書にない未知語を含む表記として、より適切な差分を抽出することができる。

また、第１の実施形態によれば、発音列変換部は、形態素解析部と、読み付け処理部とを備えてもよい。形態素解析部は、入力表記列を単語に分割して、各単語の品詞を推定する形態素解析を行うようにしてもよい。読み付け処理部は、形態素解析の結果に基づき、各単語に読みを付けて発音列に変換してもよい。この場合、前述した効果に加え、例えば、アクセントやポーズの如き、読み以外の情報を用いる発音列に変換する場合に比べ、容易に発音列に変換することができる。

＜第１の実施形態の変形例＞
第１の実施形態の変形例は、特徴量変換部３１が、発音列を直接的に音響スコアベクトルに変換する処理に代えて、発音列を音声信号に変換してから音響スコアベクトルに変換する処理を実行する形態である。

これに伴い、特徴量変換部３１は、図９に示すように、音声合成部３１ａ、音響特徴量計算部３１ｂ及び音響スコア計算部３１ｃを備えている。

ここで、音声合成部３１ａは、発音列変換部２０により変換された発音列から音声信号を合成する。合成された音声信号は、音響特徴量計算部３１ｂに送出される。なお、「音声信号」は「音声波形信号」ともいう。例えば、音声合成部３１ａは、入力された発音列にしたがって、音声波形信号を生成する。

音響特徴量計算部３１ｂは、音声合成部３１ａにより合成された音声信号から音響特徴ベクトルを計算する。例えば、音響特徴量計算部３１ｂは、音声信号から所定のフレーム単位でスペクトルの特徴を表す音響特徴ベクトルを計算する。計算された音響特徴ベクトルは、音響スコア計算部３１ｃに送出される。

音響スコア計算部３１ｃは、音響特徴量計算部３１ｂにより計算された音響特徴ベクトルから音響スコアベクトルを計算する。例えば、音響スコア計算部３１ｃは、音響特徴ベクトルから各音節の尤度を推定して発音状態音響スコアベクトルを計算する。計算された音響スコアベクトルは、前述した変換部３２に送出される。

他の構成は、第１の実施形態と同様である。

次に、以上のように構成された変形例の動作について図１０のフローチャートを用いて説明する。以下の説明は、発音列を音響スコアベクトルに変換するステップＳＴ３１の動作について述べる。すなわち、前述同様にステップＳＴ１０～ＳＴ２０の処理が実行され、ステップＳＴ３０において、ステップＳＴ３１の処理が開始される。ステップＳＴ３１は、ステップＳＴ３１－１～ＳＴ３１－３からなる。

ステップＳＴ３１－１において、音声合成部３１ａは、発音列変換部２０により変換された発音列から音声信号を合成する。ここで、音声合成部３１ａは、任意の発音列から音声波形信号を生成可能な、種々の公知の手法を用いることができる。例えば、音節単位の波形データを記憶しておき、入力された発音列に従って波形データを選択・接続する手法を用いることができる。音声の抑揚を表すピッチ情報については変更せずに波形データをそのまま接続してもよいし、公知の技術により自然なピッチ変化を推定して波形データのピッチを修正してもよい。また、波形データの代わりに音節単位のスペクトルパラメータ系列を記憶しておき、音源・フィルタモデルを用いて音声信号を合成するようにしてもよい。あるいは、音節の系列からスペクトルパラメータ系列を予測するＤＮＮを用いてもよい。いずれにしても、音声合成部３１ａは、発音列から音声信号を合成し、当該音声信号を音響特徴量計算部３１ｂに送出する。

ステップＳＴ３１－２において、音響特徴量計算部３１ｂは、ステップＳＴ３１－１で合成された音声信号から音響特徴ベクトルを計算する。例えば、音響特徴量計算部３１ｂでは、音声認識処理で用いられるのと同様の処理によって、音声波形信号から音響特徴ベクトル系列を計算する。始めに、音響特徴量計算部３１ｂは、入力された音声データに対して、例えばフレーム長１０ｍｓ、フレームシフト５ｍｓで短時間フーリエ変換を行ってスペクトルに変換する。次に、音響特徴量計算部３１ｂは、所定の帯域幅の仕様に基づいて帯域毎のパワースペクトルの総和を求め、フィルタバンク特徴ベクトルに変換し、音響特徴ベクトルとして音響スコア計算部３１ｃに送出する。音響特徴ベクトルとしては、これ以外にも、メル周波数ケプストラム係数（ＭＦＣＣ：mel frequency cepstral coefficients）など、種々の音響特徴ベクトルを用いることができる。

ステップＳＴ３１－３において、音響スコア計算部３１ｃは、ステップＳＴ３１－２で計算された音響特徴ベクトルから音響スコアベクトルを計算する。例えば、音響スコア計算部３１ｃは、音響特徴ベクトルを入力として、ＤＮＮを用いて発音状態音響スコアベクトルを推定して出力する。音響スコア計算部３１ｃの処理についても、音声認識で利用されている種々の公知の手法を用いることができる。全結合によるＤＮＮの代わりに、畳み込みニューラルネットワーク（ＣＮＮ：convolutional neural network）や、長・短期記憶（ＬＳＴＭ：long short-term memory）などを用いるようにしてもよい。いずれにしても、音響スコア計算部３１ｃは、音響特徴ベクトルから音響スコアベクトルを計算し、当該音響スコアベクトルを変換部３２に送出する。以上により、ステップＳＴ３１－１～ＳＴ３１－３からなるステップＳＴ３１が終了する。

以下、前述同様にステップＳＴ３２以降の処理が実行される。

上述したように第１の実施形態の変形例によれば、特徴量変換部は、音声合成部と、音響特徴量計算部と、音響スコア計算部と、を備えている。音声合成部は、発音列から音声信号を合成する。音響特徴量計算部は、音声信号から音響特徴ベクトルを計算する。音響スコア計算部は、音響特徴ベクトルから音響スコアベクトルを計算する。

従って、発音列を音声信号に変換してから音響スコアベクトルに変換する構成により、第１の実施形態の効果に加え、音声認識用の言語モデルと単語辞書とを用いる変換部に対し、より適した音響スコアベクトルを供給することができる。

補足すると、この変形例によれば、出力される発音状態音響スコアベクトルが実際の音声認識の処理で生成されるベクトルに類似するようになることで、より音声認識結果に近い表記列を生成することが可能となる。変形例の発音状態音響スコアベクトルは、入力音節に対応する要素だけでなく、それに類似する音節に対応する要素も値が大きくなる傾向があり、前述した０と１のみを要素とする発音状態音響スコアベクトル（発音状態出力確率ベクトル）とは異なる。すなわち、第１の実施形態に述べた発音状態音響スコアベクトルは、入力音節に対応する要素の値のみを１とする。これに対し、変形例に述べた音響スコアベクトルは、入力音節に対応する要素の値と、入力音節に類似する音節に対応する要素の値とがそれぞれ大きくなるので、実際の音声認識の処理で生成されるベクトルに類似させることができる。

＜第２の実施形態＞
次に、第２の実施形態について図１１乃至図１５を用いて説明する。第２の実施形態は、第１の実施形態又はその変形例と比べ、比較部４０で抽出された差分に対し、追加的に処理が行われる。例えば、第２の実施形態は、差分を抽出して表示するのみの第１の実施形態とは異なり、抽出された差分を単語単位の差分へと変換して表示する。また、第２の実施形態は、表示された単語候補の範囲を修正するので、単語抽出の質の向上を期待できる。

図１１は、第２の実施形態に係る差分抽出装置１の構成を例示するブロック図であり、前述した構成要素と同様の構成要素については同一符号を付してその詳しい説明を省略し、ここでは、主に、異なる部分について述べる。以下の各実施形態も同様にして重複した説明を省略する。

この差分抽出装置１は、図１に示した構成に比べ、単語推定部５０及び指示部８０を更に備えている。

ここで、単語推定部５０は、形態素解析部２１による入力表記列の解析結果に基づいて、入力表記列のうち、比較部４０に抽出された差分を含む単語候補の表記を推定する。ここで、入力表記列の解析結果は、例えば、形態素解析部２１による形態素解析の結果である。

これに伴い、表示制御部７０は、単語推定部５０に推定された単語候補を含む入力表記列をディスプレイ７１に表示させる。

指示部８０は、ディスプレイ７１に表示された入力表記列のうち、単語候補の少なくとも一部を含む表記の範囲を指示する。例えば、指示部８０は、ユーザによるキーボード又はマウス（図示せず）の操作に応じて、表記の範囲を指示してもよい。なお、これに限らず、指示部８０は、タッチパネル等といった他の入力デバイスの操作に応じて、表記の範囲を指示してもよい。

次に、以上のように構成された差分抽出装置の動作について図１２のフローチャート及び図１３乃至図１５の模式図を用いて説明する。

いま、前述同様に、ステップＳＴ１０～ＳＴ４０が実行され、入力表記列と出力表記列との差分が抽出されたとする。

ステップＳＴ５０において、単語推定部５０は、入力表記列の解析結果に基づいて、入力表記列のうち、差分を含む単語候補の表記を推定する。詳しくは、単語推定部５０は、比較部４０で抽出された差分の語の隣接する形態素を連結して単語を構成すると推定できる文字列を抽出して、単語候補として出力する。具体的には、単語推定部５０は、図１３に例示するように、差分の語が“深層”であるとして、その前後の語と合わせて単語を形成するか確認する。この場合、差分の前に語“は”があり、差分の後に語“学習”であるため、後の語と単語を形成する可能性がある。よって、単語推定部５０では“深層学習”が単語候補として推定される。このように単語を構成する文字列の判断として、例えば「『名詞－一般』の連結部分は単語と推定する」などのルールを用いる。また、単語推定部５０では、一つの形態素解析結果を用いたルールに限らず、大量の形態素解析の結果に基づいて、高頻度で隣接して現れる複数の形態素を連結して単語候補と推定する別のルールを更に利用してもよい。

ステップＳＴ７１において、表示制御部７０は、図１４に例示するように、入力表記列表示画面１０２にテキスト取得部１０で取得した表記列を配置し、出力表記列表示画面１０３に表記列変換部３０で出力した表記列を配置してディスプレイ７１に表示させる。また、表示制御部７０では、比較部４０で抽出された差分と単語推定部５０で推定した単語候補を基に、差分を含む表記を表示属性１０４でディスプレイ７１に表示させる。この状態において、差分を含む表記は、適宜、ユーザによるキーボード又はマウス等の操作に応じて、単語辞書３５に登録可能となっている。また、次のステップＳＴ８０の後に、単語辞書３５への登録を行うことも可能である。

ステップＳＴ８０において、指示部８０は、カーソル４００と単語候補画面４０１と単語候補４０２と範囲修正ボタン４０３とを用いる。指示部８０では、ユーザの操作に応じて、表示制御部７０の表示属性１０４の範囲を変更して、単語の範囲を変更できる。

具体的には、指示部８０は、図１５に例示するように、入力表記列表示画面１０２の表示属性１０４の上にカーソル４００を合わせると、単語候補画面４０１が開き、単語候補４０２が表示される（ステップＳＴ８０－１）。

指示部８０は、カーソル４００を単語候補４０２の上に合わせて候補を選択して、入力表記列表示画面１０２と出力表記列表示画面１０３の表示属性１０４の範囲を変更する（ステップＳＴ８０－２）。例えば、指示部８０は、単語候補の表記“ペンローズ”の上にカーソル４００を合わせ、単語候補画面４０１の中の単語候補４０２の中から“ムーア・ペンローズ”を選択する。これにより、指示部８０は、表示属性１０４の範囲を単語候補の表記“ペンローズ”から当該表記の全てを含む範囲“ムーア・ペンローズ”に変更する。なお、これに限らず、指示部８０は、単語候補の表記“ペンローズ”の上にカーソル４００を合わせ、単語候補画面４０１の中の単語候補４０２の中から“ペン”又は“ローズ”を選択してもよい。これにより、指示部８０は、表示属性１０４の範囲を単語候補の表記“ペンローズ”から当該表記の一部を含む範囲“ペン”又は“ローズ”に変更する。

あるいは、指示部８０は、範囲修正ボタン４０３を選択して、カーソル４００を用いて表示属性１０４の範囲を変更する。例えば、指示部８０は、範囲修正ボタン４０３を選択し、ユーザによるマウス８１の操作に応じて、カーソル４００を移動させて“ペンローズ”の範囲を拡張することで“ムーア・ペンローズ”の範囲を選択する。これに限らず、指示部８０は、範囲修正ボタン４０３を選択し、ユーザのマウス８１の操作に応じて、カーソル４００を移動させて表示属性１０４の範囲を単語候補の表記“ペンローズ”から当該表記の一部を含む範囲“ペン”又は“ローズ”に縮小してもよい。

ステップＳＴ８０－２又はＳＴ８０－２ａの結果、例えば、入力表記列表示画面１０２の表示属性１０４は“ムーア・ペンローズ”になり（ステップＳＴ８０－３）、出力表記列表示画面１０３の表示属性１０４は“ムーア・Ｐｅｎｒｏｓｅ”になる。また、入力表記列表示画面１０２の表示属性１０４の範囲が“ペン”又は“ローズ”になった場合、出力表記列表示画面１０３の表示属性１０４の範囲は“Ｐｅｎ”又は“ｒｏｓｅ”になる。

上述したように第２の実施形態によれば、解析部は、入力表記列を解析する。単語推定部は、入力表記列の解析結果に基づいて、入力表記列のうち、差分を含む単語候補の表記を推定する。従って、差分を含む単語候補の表記を推定できる構成により、第１の実施形態の効果に加え、差分と、差分に連結した名詞との複合語が未知語の場合でも、当該未知語を単語候補として推定することができる。

また、第２の実施形態によれば、表示制御部は、単語候補を含む入力表記列をディスプレイに表示させる。指示部は、表示された入力表記列のうち、単語候補の少なくとも一部を含む表記の範囲を指示する。従って、推定した単語候補の範囲を修正できる構成により、単語抽出の質の向上を期待することができる。

＜第３の実施形態＞
次に、第３の実施形態について図１６乃至図２１を用いて説明する。第３の実施形態は、第２の実施形態で推定された単語候補に対して単語種類を判定し、単語種類に応じた表示属性を用いて単語候補を表示する。また、第３の実施形態は、表示されている単語候補を単語辞書３５へ登録し、登録した結果を表示へ反映させてもよい。

図１６は、第３の実施形態に係る差分抽出装置１の処理を表すブロック図である。この差分抽出装置１は、図１１に示した構成に加え、単語種類判定部６０及び単語登録部９０を更に備えている。単語種類判定部６０は、未知語判定部６１及び表記ゆれ判定部６２を備えていてもよい。

ここで、単語種類判定部６０は、単語推定部５０で推定された単語候補の単語種類を判定する。例えば、単語種類判定部６０は、単語推定部５０で推定された単語候補の単語種類を、未知語判定部６１により未知語と判定してもよい。あるいは、例えば、単語種類判定部６０は、単語推定部５０で推定された単語候補の単語種類を、表記ゆれ判定部６２により表記ゆれと判定してもよい。なお、これに限らず、単語種類判定部６０としては、単語表記を示す様々な種類に対して使用可能となっている。例えば、単語種類判定部６０は、固有名詞、動詞など様々な種類を推定することができる。

未知語判定部６１は、単語推定部５０で推定された単語候補の表記が単語辞書３５に登録されていなければ、当該単語候補の表記を未知語と判定する。

表記ゆれ判定部６２は、単語推定部５０で推定された単語候補の表記と、当該単語候補の表記に対応する出力表記列内の表記とが同じ単語の異表記であれば、当該異表記である２つの表記を表記ゆれと判定する。表記ゆれの判定は、例えば、２つの表記が異表記辞書内にあるか否かに応じて実行可能となっている。異表記辞書は、同じ単語の異表記を記述した辞書である。「異表記辞書」は、「異表記情報」又は「表記ゆれ判定情報」と呼んでもよい。

なお、表示制御部７０は、単語種類判定部６０に判定された単語種類に応じた表示属性を用いて単語候補の表記をディスプレイ７１に表示させる。

単語登録部９０は、指示部８０に指示された範囲の表記を単語辞書３５に登録する。

次に、以上のように構成された差分抽出装置の動作について図１７のフローチャート及び図１８乃至図２１の模式図を用いて説明する。

いま、前述同様に、ステップＳＴ１０～ＳＴ５０が実行され、差分を含む単語候補の表記が推定されたとする。

ステップＳＴ６０において、単語種類判定部６０は、未知語判定部６１と表記ゆれ判定部６２とを並列に実行する。未知語判定部６１では、ステップＳＴ５０で推定された単語候補の表記が単語辞書３５に登録されていなければ未知語と判定する処理を行う。例えば、入力表記列と出力表記列の差分から“ペンローズ”の表記が単語候補として推定された場合、単語候補の表記“ペンローズ”は、単語辞書３５に含まれないため、未知語と判定される。

表記ゆれ判定部６２では、ステップＳＴ５０で推定された単語候補の表記と、単語候補の表記に対応する出力表記列内の表記とが同じ単語の異表記であれば表記ゆれと判定する処理を行う。例えば、入力表記列“所”と、対応する出力表記列“ところ”の場合、両者の差分から単語候補は“所”と推定される。推定された単語候補の表記“所”と、対応する出力表記列内の表記“ところ”との二つが異表記辞書内にあれば、同じ単語の異表記であるため、表記ゆれと判定される。

ステップＳＴ７２において、表示制御部７０は、図１８に例示するように、抽出された差分と推定した単語候補、さらに単語種類に基づき、単語種類に応じた表示属性６００～６０２で差分の表記をディスプレイ７１に表示させる。この例では、“ペンローズ”が未知語、“所”が表記ゆれと判定されたため、“ペンローズ”は二重線の表示属性６００、“所”は点線の表示属性６０２、その他の語は実線とした表示属性６０１で表示されている。この例では、表示属性６０１は二重線の表示属性と点線の表示属性６０２とその他の表示属性６０１としたが、これに限らず、単語種類に応じて任意の文字修飾を用いることができる。表示属性の変形例としては、ハイライトの濃さ、文字サイズ、フォント、色、太字、斜体、文字の前後に所定記号（例、黒三角）を配置、などの様々な種類が適宜、使用可能となっている。

ステップＳＴ７２の後、ステップＳＴ８０が、適宜、実行される。なお、ステップＳＴ８０は、ユーザの操作がなければ、省略される。

ステップＳＴ９０において、単語登録部９０は、図１９に例示するように、単語候補画面４０１と、単語登録画面７０１とを用いて、単語の登録処理を実行する。単語候補画面４０１は、単語候補４０２、範囲修正ボタン４０３及び単語登録ボタン７００を含む画面である。単語登録画面７０１は、単語登録ボタン７００の操作により表示され、表記入力ボックス７０２、発音登録ボックス７０３、品詞登録ボックス７０４及び登録ボタン７０５を含む画面である。例えば、ユーザによるマウス８１の操作に応じて、カーソル４００を表示属性６０１の上に合わせると単語候補画面４０１が開き、単語登録ボタン７００を押すと単語登録画面７０１が開く。単語登録画面７０１では、表示属性６０１の範囲の単語に対する表記と発音と品詞をそれぞれ表記入力ボックス７０２と発音登録ボックス７０３と品詞登録ボックス７０４に入力し、登録ボタン７０５を押すと単語辞書３５に単語が登録される。この例では、表記入力ボックス７０２と発音登録ボックス７０３と品詞登録ボックス７０４を入力したが、単語登録ボタン７００を押した後、自動的に表記、読み、品詞が入力されても構わない。

また、単語登録部９０は、図２０に例示するように、登録した単語を表示画面に反映させるため、手動又は自動により、表記列変換部３０、比較部４０、単語推定部５０、単語種類判定部６０及び表示制御部７０を再度実行してもよい。図２０の下段は、更新した入力表記列表示画面１０２と出力表記列表示画面１０３を例示している。単語登録部９０で単語辞書３５に“深層学習”を登録した後、このような単語登録反映処理を実行することで、出力表記列表示画面１０３では“深層学習”と表示されるようになる。そのため、比較部４０で差分抽出が行われず、表示属性６０１が表示されなくなる。

また、単語登録部９０は、図２１に例示するように、複数の単語を一括登録するための単語登録画面８００をディスプレイ７１に表示させてもよい。ここで、単語登録画面８００は、単語推定部５０で推定された単語候補、および指示部８０により指示された範囲の単語候補の差分に対応する入力表記列表示画面１０２の入力表記列の単語を、単語辞書３５に登録すべき複数の単語として表示している。単語登録画面８００内の有効表示８０１では、単語登録する単語を指定できる。単語登録画面８００内の登録ボタン８０２を押すことで、単語登録部９０は、有効表示８０１にて有効にした単語を一括で単語辞書３５へ登録することができる。

なお、図２１中、有効表示８０１はチェックボックスであるが、これに限らず、様々な表示形態が使用可能となっている。例えば、チェックボックスに代えて、丸印、バツ印、塗りつぶしなど様々な表示形態を用いてもよい。他にも、図２１に示す例では、表記入力ボックス７０２と発音登録ボックス７０３と品詞登録ボックス７０４は自動入力であったが、ユーザが手動入力してもよい。いずれにしても、単語辞書３５への登録により、ステップＳＴ９０が終了する。

上述したように第３の実施形態によれば、単語種類判定部６０は、単語候補の単語種類を判定する。従って、第２の実施形態の効果に加え、単語候補を登録する前に、単語候補の登録が必要な単語種類か否かを区別することができる。

また、第３の実施形態によれば、表示制御部７０は、単語種類に応じた表示属性を用いて単語候補の表記をディスプレイに表示させてもよい。この場合、ユーザが単語候補を登録する前に、単語候補の登録が必要か否かの判断を支援することができる。

また、第３の実施形態によれば、単語登録部９０は、指示された範囲の表記を単語辞書に登録してもよい。この場合、ユーザによる確認後の表記を単語辞書に登録することができる。

また、第３の実施形態によれば、単語種類判定部６０における未知語判定部６１は、単語候補の表記が単語辞書に登録されていなければ、当該単語候補の表記を未知語と判定してもよい。この場合、単語候補のうち、単語辞書に登録されていない未知語を正確に検出することができる。

また、第３の実施形態によれば、単語種類判定部６０における表記ゆれ判定部６２は、単語候補の表記と、当該単語候補の表記に対応する出力表記列内の表記とが同じ単語の異表記であれば、当該異表記である２つの表記を表記ゆれと判定してもよい。この場合、単語候補のうち、単語辞書に新たに登録する必要のない表記ゆれの単語を検出することができる。

＜第４の実施形態＞
図２２は、第４の実施形態に係る差分抽出装置のハードウェア構成を例示するブロック図である。第４の実施形態は、第１乃至第３の実施形態の具体例であり、差分抽出装置１をコンピュータにより実現した形態となっている。

この差分抽出装置１は、ハードウェアとして、ＣＰＵ（Central Processing Unit）２、ＲＡＭ（Random Access Memory）３、プログラムメモリ４、補助記憶装置５及び入出力インタフェース６を備えている。ＣＰＵ２は、バスを介して、ＲＡＭ３、プログラムメモリ４、補助記憶装置５、および入出力インタフェース６と通信する。すなわち、本実施形態の差分抽出装置１は、このようなハードウェア構成のコンピュータにより実現されている。

ＣＰＵ２は、汎用プロセッサの一例である。ＲＡＭ３は、ワーキングメモリとしてＣＰＵ２に使用される。ＲＡＭ３は、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）などの揮発性メモリを含む。プログラムメモリ４は、各実施形態に応じた各部を実現するためのプログラムを記憶する。このプログラムは、例えば、次の各機能をコンピュータに実現させるためのプログラムとしてもよい。［１］入力表記列が記載されたテキストを取得する機能。［２］入力表記列を発音列に変換する機能。［３］発音列を出力表記列に変換する機能。［４］入力表記列と出力表記列とを比較して差分を抽出する機能。また、プログラムメモリ４として、例えば、ＲＯＭ（Read-Only Memory）、補助記憶装置５の一部、またはその組み合わせが使用される。補助記憶装置５は、データを非一時的に記憶する。補助記憶装置５は、ＨＤＤ（hard disc drive）またはＳＳＤ（solid state drive）などの不揮発性メモリを含む。

入出力インタフェース６は、他のデバイスと接続するためのインタフェースである。入出力インタフェース６は、例えば、キーボード、マウス８１及びディスプレイ７１との接続に使用される。

プログラムメモリ４に記憶されているプログラムはコンピュータ実行可能命令を含む。プログラム（コンピュータ実行可能命令）は、処理回路であるＣＰＵ２により実行されると、ＣＰＵ２に所定の処理を実行させる。例えば、プログラムは、ＣＰＵ２により実行されると、ＣＰＵ２に図１、図９、図１１及び図１６の各部に関して説明された一連の処理を実行させる。例えば、プログラムに含まれるコンピュータ実行可能命令は、ＣＰＵ２により実行されると、ＣＰＵ２に差分抽出方法を実行させる。差分抽出方法は、上記［１］～［４］の各機能に対応する各ステップを含んでもよい。また、差分抽出方法は、図５、図１０、図１２及び図１７に示した各ステップを適宜、含んでもよい。

プログラムは、コンピュータ読み取り可能な記憶媒体に記憶された状態でコンピュータである差分抽出装置１に提供されてよい。この場合、例えば、差分抽出装置１は、記憶媒体からデータを読み出すドライブ（図示せず）をさらに備え、記憶媒体からプログラムを取得する。記憶媒体としては、例えば、磁気ディスク、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ、ＤＶＤ－Ｒなど）、光磁気ディスク（ＭＯなど）、半導体メモリなどが適宜、使用可能である。記憶媒体は、非一時的なコンピュータ読み取り可能な記憶媒体（non-transitory computer readable storage medium）と呼んでもよい。また、プログラムを通信ネットワーク上のサーバに格納し、差分抽出装置１が入出力インタフェース６を使用してサーバからプログラムをダウンロードするようにしてもよい。

プログラムを実行する処理回路は、ＣＰＵ２などの汎用ハードウェアプロセッサに限らず、ＡＳＩＣ（Application Specific Integrated Circuit）などの専用ハードウェアプロセッサを用いてもよい。処理回路（処理部）という語は、少なくとも１つの汎用ハードウェアプロセッサ、少なくとも１つの専用ハードウェアプロセッサ、または少なくとも１つの汎用ハードウェアプロセッサと少なくとも１つの専用ハードウェアプロセッサとの組み合わせを含む。図２２に示す例では、ＣＰＵ２、ＲＡＭ３、およびプログラムメモリ４が処理回路に相当する。

以上述べた少なくとも一つの実施形態によれば、未知語のうち、登録しなくても正しい表記になる未知語の登録を防止することができる。

なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…差分抽出装置、１０…テキスト取得部、２０…発音列変換部、２１…形態素解析部、２２…読み付け処理部、３０…表記列変換部、３１…特徴量変換部、３１ａ…音声合成部、３１ｂ…音響特徴量計算部、３１ｃ…音響スコア計算部、３２…変換部、３３…記憶部、３４…言語モデル、３５…単語辞書、４０…比較部、５０…単語推定部、６０…単語種類判定部、６１…未知語判定部、６２…表記ゆれ判定部、７０…表示制御部、７１…ディスプレイ、８０…指示部、８１…マウス、９０…単語登録部、１０１…テキスト読み込みボタン、１０１ａ…開くボタン、１０２…入力表記列表示画面、１０３…出力表記列表示画面、１０４、６００～６０２…表示属性、４００…カーソル、４０１…単語候補画面、４０２…単語候補、４０３…範囲修正ボタン、７００…単語登録ボタン、７０１，８００…単語登録画面、７０２…表記入力ボックス、７０３…発音登録ボックス、７０４…品詞登録ボックス、７０５，８０２…登録ボタン、８０１…有効表示。

Claims

入力表記列が記載されたテキストを取得するテキスト取得部と、
前記入力表記列を発音列に変換する発音列変換部と、
前記発音列を出力表記列に変換する表記列変換部と、
前記入力表記列と前記出力表記列とを比較して差分を抽出する比較部と、
を備えた差分抽出装置。
前記入力表記列を解析する解析部と、
前記入力表記列の解析結果に基づいて、前記入力表記列のうち、前記差分を含む単語候補の表記を推定する単語推定部、を更に備えた請求項１に記載の差分抽出装置。
前記単語候補を含む前記入力表記列をディスプレイに表示させる表示制御部と、
前記表示された前記入力表記列のうち、前記単語候補の少なくとも一部を含む表記の範囲を指示する指示部と、
を更に備えた請求項２に記載の差分抽出装置。
前記単語候補の単語種類を判定する単語種類判定部、を更に備えた請求項２に記載の差分抽出装置。
前記単語候補を含む前記入力表記列をディスプレイに表示させる表示制御部、
を更に備え、
前記表示制御部は、前記単語種類に応じた表示属性を用いて前記単語候補の表記をディスプレイに表示させる、請求項４に記載の差分抽出装置。
前記指示された範囲の表記を単語辞書に登録する単語登録部、を更に備えた請求項３に記載の差分抽出装置。
前記単語種類判定部は、前記単語候補の表記が単語辞書に登録されていなければ、当該単語候補の表記を未知語と判定する未知語判定部、を備えた請求項４に記載の差分抽出装置。
前記単語種類判定部は、前記単語候補の表記と、当該単語候補の表記に対応する前記出力表記列内の表記とが同じ単語の異表記であれば、当該異表記である２つの表記を表記ゆれと判定する表記ゆれ判定部、を備えた請求項４に記載の差分抽出装置。
前記表記列変換部は、
前記発音列を音響スコアベクトルに変換する特徴量変換部と、
音声認識用の言語モデルと単語辞書とを記憶した記憶部と、
前記音響スコアベクトルから発音列を生成し、当該生成した発音列を、前記言語モデル及び前記単語辞書を用いて、前記出力表記列に変換する変換部と、
を備えた請求項１に記載の差分抽出装置。
前記特徴量変換部は、
前記発音列から音声信号を合成する音声合成部と、
前記音声信号から音響特徴ベクトルを計算する音響特徴量計算部と、
前記音響特徴ベクトルから音響スコアベクトルを計算する音響スコア計算部と、
を備えた請求項９に記載の差分抽出装置。
前記発音列変換部は、
前記入力表記列を単語に分割して、各単語の品詞を推定する形態素解析を行う形態素解析部と、
前記形態素解析の結果に基づき、前記各単語に読みを付けて前記発音列に変換する読み付け処理部と、
を備えた請求項１に記載の差分抽出装置。
入力表記列が記載されたテキストを取得することと、
前記入力表記列を発音列に変換することと、
前記発音列を出力表記列に変換することと、
前記入力表記列と前記出力表記列とを比較して差分を抽出することと、
を備えた差分抽出方法。
入力表記列が記載されたテキストを取得する機能、
前記入力表記列を発音列に変換する機能、
前記発音列を出力表記列に変換する機能、
前記入力表記列と前記出力表記列とを比較して差分を抽出する機能、
をコンピュータに実現させるためのプログラム。