JP2016519370A - データ処理装置、データ処理方法及び電子機器 - Google Patents
データ処理装置、データ処理方法及び電子機器 Download PDFInfo
- Publication number
- JP2016519370A JP2016519370A JP2016508001A JP2016508001A JP2016519370A JP 2016519370 A JP2016519370 A JP 2016519370A JP 2016508001 A JP2016508001 A JP 2016508001A JP 2016508001 A JP2016508001 A JP 2016508001A JP 2016519370 A JP2016519370 A JP 2016519370A
- Authority
- JP
- Japan
- Prior art keywords
- target language
- sequence
- language
- semantic role
- role
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本発明は、従来の言語データ処理技術に存在する処理精度が低い問題を克服するためのデータ処理装置、データ処理方法及び電子機器を提供する。上記データ処理装置は、源言語語句及びその訳文の候補並べ替え結果である複数の目標言語語句に対しそれぞれ語義役割付与を行って、源言語語義役割シーケンス及び複数の目標言語語義役割シーケンスを取得する語義役割付与ユニットと、所定の二言語コーパスに基づき、上記源言語語義役割シーケンスと各上記目標言語語義役割シーケンスそれぞれとの間のマッチング点数を取得するマッチングユニットと、マッチング点数が最も高い目標言語語義役割シーケンスに対応する候補並べ替え結果を最終並べ替え結果として確定する並べ替え結果確定ユニットとを含む。本発明の上記技術はデータ処理分野に応用できる。
Description
本発明はデータ処理分野に関し、特にデータ処理装置、データ処理方法及び電子機器に関する。
データ処理は昨今熱い技術分野である。データ処理分野において、データ情報の種類の豊富さ及び多様性により、処理の目的と要求は同じとは限らない。
言語データは数多い種類のデータ中の一種として、人々の日常生活、仕事によく見られるものである。例えば、電子メール、携帯電話間で交換されるショートメッセージ、及び人々が勉強や仕事において必要とする各種のファイルに含まれる文字情報などはすべて言語データである。現在の言語データ処理技術を用いて上記の言語データを処理する場合、特にあるモデルの言語データを別のモデルに変換する際、処理の正確度及び/又は精度が低いことはしばしばある。
これに鑑み、本発明は少なくとも従来の言語データ処理技術に存在する処理の正確度及び/又は精度が低い問題を解決するため、データ処理装置、データ処理方法及び電子機器を提供する。
以下に述べる本発明の概要は、本発明を幾つかの側面から示し、その基本理解を促すものである。なお、この概要は本発明を全部網羅するものではないことを理解すべきである。この概要は本発明の要点又は重要部分を特定する意図や、本発明の範囲を限定する意図を持たない。その目的は、後の詳細説明に向けて、一部の概念を簡潔に示すことのみである。
本発明の一側面はデータ処理装置を提供し、該データ処理装置は、源言語語句及びその訳文の候補並べ替え結果である複数の目標言語語句に対しそれぞれ語義役割付与を行って、源言語語義役割シーケンス及び複数の目標言語語義役割シーケンスを取得する語義役割付与ユニットと、源言語及び目標言語に対応するとともに語義役割付与された二語句の対を含む所定の二言語コーパスに基づき、上記源言語語義役割シーケンスと各上記目標言語語義役割シーケンスそれぞれとの間のマッチング点数を取得するマッチングユニットと、マッチング点数が最も高い目標言語語義役割シーケンスに対応する候補並べ替え結果を最終並べ替え結果として確定する並べ替え結果確定ユニットとを含む。
本発明のもう一つの側面はデータ処理方法を提供し、該データ処理方法は、源言語語句及びその訳文の候補並べ替え結果である複数の目標言語語句に対しそれぞれ語義役割付与を行って、源言語語義役割シーケンス及び複数の目標言語語義役割シーケンスを取得するステップと、源言語及び目標言語に対応するとともに語義役割付与された二語句の対を含む所定の二言語コーパスに基づき、上記源言語語義役割シーケンスと各上記目標言語語義役割シーケンスそれぞれとの間のマッチング点数を取得するステップと、マッチング点数が最も高い目標言語語義役割シーケンスに対応する候補並べ替え結果を最終並べ替え結果として確定するステップとを含む。
本発明のその他の側面は電子機器を提供し、該電子機器は上記データ処理装置を含む。
本発明の別の側面はマシーンが読み出し可能な指令コードを記憶したプログラム製品を提供し、上記プログラム製品を実行することにより、上記データ処理方法を上記マシーンに実行させることができる。
また、本発明のさらに別の側面は、上記プログラム製品を記憶したコンピュータ読み出し可能な記憶媒体を提供する。
上記本発明の実施例に基づくデータ処理装置、データ処理方法及び電子機器は、源言語語句の訳文の候補並べ替え結果である複数の目標言語語句に対し、所定の二言語コーパスを利用して、上記複数の目標言語語句に対応する複数の目標言語語義役割シーケンスそれぞれと源言語語句に対応する源言語語義役割シーケンスとの間のマッチング点数を取得し、上記複数の目標言語語句の中から最終並べ替え結果を確定することができる。これにより、処理結果の正確度が比較的に高く、算出量が小さく、算出速度が速く、及び処理効率が比較的に高いなどの効果の中から少なくとも一つの効果が得られる。
以下、本発明の上記及びその他の利点をより明確にすべく、図面を参照しながら本発明の好ましい実施例を詳しく説明する。
当業者は、図面における部品が簡単且つ明確に示されており、必ずしも比例通りに作成したものではないことを理解すべきである。例えば、本発明の実施例に対する理解を促すよう、図面におけるある部品の寸法を別の部品に対し拡大することがある。
図面に基づく以下の説明により、本発明をよりよく理解できる。すべての図面において、同一又は類似する図面符号を用いて同一又は類似する部品を示している。図面は以下の詳細説明とともに本明細書に含まれ、本明細書の一部を構成しており、かつ、例示により本発明の好ましい実施例をより詳しく説明し、本発明の原理と利点を解釈するものである。
本発明の実施例に基づくデータ処理装置の例示構成を示す概略ブロック図である。
図1が示すマッチングユニットの実現し得る例示構成を示す概略ブロック図である。
本発明の実施例に基づくデータ処理方法の例示処理を示す概略フローチャートである。
本発明の実施例に基づくデータ処理装置とデータ処理方法を実現し得る情報処理機器のハードウエア配置を示す構成略図である。
以下、図面に基づき本発明の代表的な実施例を説明する。記載の明確且つ簡潔の見地から、明細書において実際の実施形態の特徴を全て含むことはないが、理解すべきなのは、このような実際の実施例を開発するプロセスにおいて、開発者が具体的な目標を実現できるよう、実施形態に特化した決定を数多く行う必要があり、例えば、システム及び業務に関連する制限条件を満たし、かつこれらの制限条件が実施形態によって変化することがある。また、開発作業は非常に複雑で時間を必要とするが、その開示内容により利益が得られる当業者にとって、このような開発作業はルーチン任務であることも理解されたい。
ここで、もう一つ説明すべきなのは、必要のない細部によって本発明が不明確にならないよう、図面において本発明の方案と密接に関連する装置構造及び/又は処理ステップのみを示しており、本発明と関係性の薄いその他の細部を省略する。
本発明の実施例はデータ処理装置を提供し、該データ処理装置は、源言語語句及びその訳文の候補並べ替え結果である複数の目標言語語句に対しそれぞれ語義役割付与を行って、源言語語義役割シーケンス及び複数の目標言語語義役割シーケンスを取得する語義役割付与ユニットと、源言語及び目標言語に対応するとともに語義役割付与された二言語語句を含む所定の二言語コーパスに基づき、上記源言語語義役割シーケンスと各上記目標言語語義役割シーケンスそれぞれとの間のマッチング点数を取得するマッチングユニットと、マッチング点数が最も高い目標言語語義役割シーケンスに対応する候補並べ替え結果を最終並べ替え結果として確定する並べ替え結果確定ユニットとを含む。
本発明の実施例に基づくデータ処理装置の具体的な実現方式において、源言語は例えば英語、中国語、ドイツ語、フランス語、日本語など多言語中の任意の一種であり、かつ目標言語は源言語である言語種類と同じ主述目的語構成(Subject+verb+Object構成、即ちSVO型)を有する上記多言語中の別の一種であってもよい。なお、ここで述べる同じ主述目的語構成中の「主述目的語構成」は「主語+述語+目的語」の順番に限定されず、その他の順番、例えば「主語+目的語+述語」の順番なであってもよいが、選択される源言語と目標言語の「主述目的語構成」は同じである。例えば、源言語と目標言語はいずれも「主語+述語+目的語」の順番の「主述目的語構成」であり、又はいずれも「主語+目的語+述語」の順番の「主述目的語構成」であるなど。
以下、主に源言語が中国語であり、目標言語が英語である場合を例に、本発明の各実施例の関連説明を行い、その他の言語を源言語又は目標言語とする例について詳しく説明しない。なお、中国語と英語はいずれも「主語+述語+目的語」の順番の主述目的語構成の言語である。
一部のデータ処理プロセスにおいて、ある源言語語句に対し複数の候補訳文が存在することが可能であり、この場合、これら複数の候補訳文の中から該源言語語句と一番マッチするものを選択することができる。本発明の実施例において、データ処理装置は、各候補訳文中の各語義役割間の順番と源言語語句間の順番とのマッチング度を確定することにより、どの候補訳文が該源言語語句と一番マッチするかを確定することができる。なお、上記データ処理プロセスにおいて、複数の候補訳文は、源言語語句を源言語モデルから目標言語モデルに変換するプロセスにおいて得られた複数の候補の処理結果に相当する。
以下、図1を参照しながら本発明の実施例に基づくデータ処理装置の一例を詳しく説明する。
図1が示すように、本発明の実施例に基づくデータ処理装置100は語義役割付与ユニット110、マッチングユニット120及び並べ替え結果確定ユニット130を含む。
以下、ある源言語語句及び該源言語語句の候補並べ替え結果である複数の目標言語語句を例に、如何にして複数の目標言語語句の中から該源言語語句と一番マッチするものを選択するかについて説明する。
実際の処理において、複数の源言語語句を処理する場合及び全編源言語文章などを処理する場合は、処理のプロセスが類似するため、詳細を省略する。
図1が示すように、本発明の実施例に基づくデータ処理装置100において、語義役割付与ユニット110は源言語語句に対し語義役割付与を行って、該源言語語句の源言語語義役割シーケンスを取得する。また、語義役割付与ユニット110は上記複数の目標言語語句それぞれに対し語義役割付与を行って、複数の目標言語語句それぞれの目標言語語義役割シーケンス、即、複数の目標言語語義役割シーケンスを取得する。
本発明の実施例に基づくデータ処理装置の具体的な実現方式において、例えばFrameNet、PropBank又はNomBank中の語義役割付与技術を用いて、英語語句(目標言語語句の例として)に対し語義役割付与を行い、及びCPB(Chinese Proposition Bank)中の語義役割付与技術を用いて中国語語句(源言語語句ほ例として)に対し語義役割付与を行うことができる。なお、当業者にとって、当該分野の公知常識に基づいて語義役割付与技術を得ることができるため、ここで省略する。
また、本発明の実施例に基づくデータ処理装置の具体的な実現方式において、源言語語句は完全な語句(例えば、「他就是我昨天看見的那個老師(和訳:彼は私が昨日見たあの先生です」)に限らず、完全な語句中の一部の文書成分(例えば、「我昨天看見的那個老師(和訳:私が昨日見たあの先生)」といった主述目的語構成を有する文書成分)であってもよい。
例として、源言語語句が「我昨天看見的那個老師(和訳:私が昨日見たあの先生)」であり、かつ目標言語語句「The teacher I saw yesterday」及び目標言語語句「I yesterday saw the teacher」が上記源言語語句の二つの候補並べ替え結果とする。この例において、源言語が中国語であり、目標言語が英語である。なお、この例において、上記源言語語句の二つの候補並べ替え結果は、源言語語句を源言語モデルから目標言語モデルに変換するプロセスで得られた候補の処理結果に相当する。
語義役割付与ユニット110により源言語語句「我昨天看見的那個老師(和訳:私が昨日見たあの先生)」に対し語義役割付与を行うと、以下の付与結果が得られる。
[我(和訳:私)]_argLS 昨天(和訳:昨日)[看見(和訳:見た)]_Vs 的(和訳:の) 那個(和訳:あの) [老師(和訳:先生)]_argRS
該付与結果において、[…]_Vsの角括弧中の内容は源言語語句「我昨天看見的那個老師(和訳:私が昨日見たあの先生)」中の源言語述語を示し、[…]_argLSの角括弧中の内容は源言語語句「我昨天看見的那個老師(和訳:私が昨日見たあの先生)」中の源言語述語の左側に位置する一つの語義役割を示し、[…]_argRSの角括弧中の内容は源言語語句「我昨天看見的那個老師(和訳:私が昨日見たあの先生)」中の源言語述語の右側に位置する一つの語義役割を示す。
該付与結果において、[…]_Vsの角括弧中の内容は源言語語句「我昨天看見的那個老師(和訳:私が昨日見たあの先生)」中の源言語述語を示し、[…]_argLSの角括弧中の内容は源言語語句「我昨天看見的那個老師(和訳:私が昨日見たあの先生)」中の源言語述語の左側に位置する一つの語義役割を示し、[…]_argRSの角括弧中の内容は源言語語句「我昨天看見的那個老師(和訳:私が昨日見たあの先生)」中の源言語述語の右側に位置する一つの語義役割を示す。
これにより、源言語語句「我昨天看見的那個老師(和訳:私が昨日見たあの先生)」に対し語義役割付与を行った結果に基づき、各語義役割及び源言語述語が源言語語句「我昨天看見的那個老師(和訳:私が昨日見たあの先生)」における順番に従って、以下のような源言語語義役割シーケンスSを得ることができる。
argLS 看見(和訳:見た) argRS
例えば、argLSが主語を付与し、argRSが目的語を付与しているとすると、上記源言語語義役割シーケンスSは「主語+述語+目的語」の順番の主述目的語構成に対応する。
例えば、argLSが主語を付与し、argRSが目的語を付与しているとすると、上記源言語語義役割シーケンスSは「主語+述語+目的語」の順番の主述目的語構成に対応する。
なお、この例において、源言語述語の左側に一つだけの語義役割があり、その右側にも一つだけの語義役割があるが、本発明の実施例のデータ処理装置のその他の例において、源言語述語の左側及び/又は右側の語義役割が一より多くてもよい。
同じように、語義役割付与ユニット110により目標言語語句「The teacher I saw yesterday」に対し語義役割付与を行うと、以下の付与結果が得られる。
The [teacher]_argLT12 [I]_argLT11 [saw]_Vt1 yesterday
該付与結果において、[…]_Vt1の角括弧中の内容は目標言語語句「The teacher I saw yesterday」中の目標言語述語を示し、[…]_argLT11の角括弧中の内容は目標言語語句「The teacher I saw yesterday」中の目標言語述語の左側に位置する一つの語義役割を示し、[…]_argLT12の角括弧中の内容は目標言語語句「The teacher I saw yesterday」中の目標言語述語の左側に位置するその他の一つの語義役割を示す。
該付与結果において、[…]_Vt1の角括弧中の内容は目標言語語句「The teacher I saw yesterday」中の目標言語述語を示し、[…]_argLT11の角括弧中の内容は目標言語語句「The teacher I saw yesterday」中の目標言語述語の左側に位置する一つの語義役割を示し、[…]_argLT12の角括弧中の内容は目標言語語句「The teacher I saw yesterday」中の目標言語述語の左側に位置するその他の一つの語義役割を示す。
これにより、目標言語語句「The teacher I saw yesterday」に対し語義役割付与を行った結果に基づき、各語義役割及び目標言語述語が目標言語語句「The teacher I saw yesterday」中における順番に従って、以下のような目標言語語義役割シーケンスT1が得られる。
argLT12 argLT11 saw
例えば、argLT12が目的語を付与し、argLT11が主語を付与しているとすると、上記目標言語語義役割シーケンスT1は「目的語+主語+述語」の順番の主述目的語構成に対応する。
例えば、argLT12が目的語を付与し、argLT11が主語を付与しているとすると、上記目標言語語義役割シーケンスT1は「目的語+主語+述語」の順番の主述目的語構成に対応する。
また、目標言語語句「I yesterday saw the teacher」について、同じように以下の付与結果が得られる。
[I]_argLT21 yesterday [saw]Vt2 the [teacher]_argRT21
該付与結果において、[…]_Vt2の角括弧中の内容は目標言語語句「I yesterday saw the teacher」中の目標言語述語を示し、[…]_argLT21の角括弧中の内容は目標言語語句「I yesterday saw the teacher」中の目標言語述語の左側に位置する一つの語義役割を示し、[…]_argRT21の角括弧中の内容は目標言語語句「I yesterday saw the teacher」中の目標言語述語の右側に位置するその他の一つの語義役割を示す。
該付与結果において、[…]_Vt2の角括弧中の内容は目標言語語句「I yesterday saw the teacher」中の目標言語述語を示し、[…]_argLT21の角括弧中の内容は目標言語語句「I yesterday saw the teacher」中の目標言語述語の左側に位置する一つの語義役割を示し、[…]_argRT21の角括弧中の内容は目標言語語句「I yesterday saw the teacher」中の目標言語述語の右側に位置するその他の一つの語義役割を示す。
該付与結果に基づき、各語義役割及び目標言語述語が目標言語語句「I yesterday saw the teacher」中における順番に従って、以下のような目標言語語義役割シーケンスT2が得られる。
argLT21 saw argRT21
例えば、argLT21が主語を付与し、argRT21が目的語を付与しているとすると、上記目標言語語義役割シーケンスT1は「主語+述語+目的語」の順番の主述目的語構成に対応する。
例えば、argLT21が主語を付与し、argRT21が目的語を付与しているとすると、上記目標言語語義役割シーケンスT1は「主語+述語+目的語」の順番の主述目的語構成に対応する。
このように、語義役割付与ユニット110の処理により、ある源言語語句について、該源言語語句の源言語語義役割シーケンスS、及び該源言語語句の候補並べ替え結果である複数の目標言語語句に対応する複数の目標言語語義役割シーケンスT1、T2、…、TNを得ることができて、なお、Nは1より大きい整数である。これにより、所定の二言語コーパスに基づき、マッチングユニット120は上記源言語語義役割シーケンスSと上記複数の目標言語語義役割シーケンスT1、T2、…、TNのそれぞれとの間のマッチング点数を得ることができる。
ここで、上記所定の二言語コーパスは複数の源言語と目標言語に対応する二語句の対を含み、これらの二語句の対は予め語義役割付与されたものである。なお、所定の二言語コーパスは汎用分野の二言語コーパス及び/又は専用分野の二言語コーパス等を含んでもよい。
本発明の実施例に基づくデータ処理装置の一つの実現方式において、マッチングユニット120は図2が示すような例示構成を有することが可能である。図2が示すように、該実現方式において、マッチングユニット120は相関度取得サブユニット210とマッチング点数確定サブユニット220を含んでもよい。
複数の目標言語語義役割シーケンスT1、T2、…、TN中の各目標言語語義役割シーケンスについて、相関度取得サブユニット210は該目標言語語義役割シーケンス中の各目標言語述語に対し、上記所定の二言語コーパスを利用して、該目標言語語義役割シーケンスの該目標言語述語を含む少なくとも一部のサブシーケンスと源言語語義役割シーケンスとの間の相関度を取得することができる。
以下、複数の目標言語語義役割シーケンスT1、T2、…、TN中の任意一つの目標言語語義役割シーケンスを例に、如何にして目標言語語義役割シーケンスと源言語語義役割シーケンスとの間のマッチング点数を取得するかについて説明する。以下において、Tgは上記「任意一つの目標言語語義役割シーケンス」を示し、Tg=T1、T2、…、TNである。
一例として、目標言語語義役割シーケンスTg中に少なくとも一つの目標言語述語が含まれるとした場合、目標言語語義役割シーケンスTg中の各目標言語述語に対し、相関度取得サブユニット210は以下のような複数種の相関度中の任意一種又は複数種を得ることができる。即ち、目標言語語義役割シーケンスTgの該目標言語述語のみを含むサブシーケンス(即ち、該目標言語述語そのもの、以下第一類サブシーケンスと略す)と源言語語義役割シーケンスSとの間の相関度;目標言語語義役割シーケンスTgの該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンス(以下、第二類サブシーケンスと略す)と源言語語義役割シーケンスSとの間の相関度;目標言語語義役割シーケンスTgの該目標言語述語及び該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンス(以下、第三類サブシーケンスと略す)と、源言語語義役割シーケンスSとの間の相関度;及び、目標言語語義役割シーケンスTgの第一類サブシーケンス、第二類サブシーケンス及び第三類サブシーケンス中の少なくとも二種類のシーケンスと源言語語義役割シーケンスSとの間の相関度。
以下、前文に説明した源言語語義役割シーケンスSが「argLS 看見(和訳:見た) argRS」であり、目標言語語義役割シーケンスT1が「argLT12 argLT11 saw」であり、及び目標言語語義役割シーケンスT2が「argLT21 saw argRT21」である場合を例にして説明を行う。
目標言語語義役割シーケンスT1「argLT12 argLT11 saw」について、その対応する第一類サブシーケンスが例えば「saw」であり、第二類サブシーケンスが例えば「argLT12」、「argLT11」と「argLT12 argLT11」中の任意一つであり、第三類サブシーケンスが例えば「argLT11 saw」、「argLT12 saw」と「argLT12 argLT11 saw」中の任意一つであってもよい。
これにより、「saw」と「argLS 看見(和訳:見た) argRS」との間の相関度を、例えば上記第一類サブシーケンスと源言語語義役割シーケンスSとの間の相関度(以下、「第一類相関度」と称す)の一例としてもよい。なお、「saw」と「argLS 看見(和訳:見た) argRS」との間の相関度は、例えば上記所定の二言語コーパスにおいて「saw」と「argLS 看見(和訳:見た) argRS」が一つの二語句の対中に同時に現れる確率によって反映され、又は、上記所定の二言語コーパス中の「argLS 看見(和訳:見た) argRS」構成を含む全ての中文語句に対応する全ての英文語句中に現れる「saw」の確率によって反映されてもよい。
なお、「argLS 看見(和訳:見た) argRS」が一つの二語句の対中に現れるとは、この二語句の対の中国語語句において、その語義役割付与の結果に基づき、例えばこの中国語語句中の各語義役割及び述語が該中国語語句において出現する順番に従って得られた語義役割シーケンスがS0の場合、「argLS 看見(和訳:見た) argRS」がS0のサブシーケンスである。例えば、S0が「W1 W2 W3 W4 W5」である場合、「argLS 看見(和訳:見た) argRS」は例えば「W2 W4 W5」などであってもよい。注意すべきなのは、あるシーケンスのサブシーケンスは該シーケンス自体であってもよい。
例として、argLSが主語を示し、argRSが目的語を示す場合、「argLS 看見(和訳:見た) argRS」の構成は「主語+‘看見(和訳:見た)’+目的語」という構成に対応する。そして、二語句の対C1が「我看見猫(和訳:私は猫を見た)」と「I saw a cat」を含み、別の二語句の対C2が「他看見許多書(和訳:彼はたくさんの本を見た)」と「He found many books」を含む場合、「我看見猫(和訳:私は猫を見た)」と「他看見許多書(和訳:彼はたくさんの本を見た)」の語義役割付与結果に基づき得られた語義役割シーケンスはいずれも「主語+‘看見(和訳:見た)’+目的語」という構成であるため、「主語+‘看見(和訳:見た)’+目的語」即ち「argLS 看見(和訳:見た) argRS」が二語句の対C1中に現れ、二語句の対C2中にも表れたと判断できる。同時に、二語句の対C1の英語語句「I saw a cat」中に上記第一類サブシーケンス「saw」が現れたが、二語句の対C2の英語語句「He found many books」中に上記第一類サブシーケンス「saw」が現れなかった。そのため、上記所定の二言語コーパスにおいて「argLS 看見(和訳:見た) argRS」構成を含む全ての中文語句に対応する全ての英文語句中に「saw」が現れる確率は例えば50%になる(当該所定の二言語コーパス中に二語句の対C1とC2のみを含む場合)。
また、「argLT12」、「argLT11」と「argLT12 argLT11」中の任意一つと「argLS 看見(和訳:見た) argRS」との間の相関度を、例えば上記第二類サブシーケンスと源言語語義役割シーケンスSとの間の相関度(以下、「第二類相関度」と称す)の一例としてもよい。同じく、第二類相関度は、例えば、上記第二類サブシーケンスと源言語語義役割シーケンスSが上記所定の二言語コーパスの一つの二語句の対中に同時に現れる確率によって反映され、又は、上記所定の二言語コーパス中の源言語語義役割シーケンスSを含む全ての中文語句に対応する全ての英文語句中に上記第二類サブシーケンスが現れる確率によって反映されてもよく、確率を算出する方法が前文と類似するため、ここでは省略する。
また、「argLT11 saw」、「argLT12 saw」と「argLT12 argLT11 saw」中の任意一つと「argLS 看見(和訳:見た) argRS」との間の相関度を、例えば上記第三類サブシーケンスと源言語語義役割シーケンスSとの間の相関度(以下、「第三類相関度」と称す)の一例としてもよい。同じく、第三類相関度は、例えば上記第三類サブシーケンスと源言語語義役割シーケンスSが上記所定の二言語コーパスの一つの二語句の対中に同時に現れる確率によって反映され、又は、上記所定の二言語コーパス中の源言語語義役割シーケンスSを含む全ての中文語句に対応する全ての英文語句中に上記第三類サブシーケンスが現れる確率によって反映されてもよく、確率を算出する方法は前文と類似するため、ここで省略する。
同じように、上記第一類サブシーケンス、第二類サブシーケンス及び第三類サブシーケンス中の少なくとも二種類のサブシーケンスと源言語語義役割シーケンスSとの間の相関度を取得することもできる(以下、「第四類相関度」と称す)。
例えば、上記少なくとも二種類のサブシーケンスとして第一類サブシーケンスと第三類サブシーケンスとを選択し、かつ第一類サブシーケンスが「saw」であり、第三類サブシーケンスが「argLT12 saw」である場合、第一類サブシーケンス及び第三類サブシーケンスと源言語語義役割シーケンスSとの間の相関度は、上記第一類サブシーケンス「saw」、第三類サブシーケンス「argLT12 saw」及び源言語語義役割シーケンスSが上記所定の二言語コーパスの一つの二語句の対中に同時に現れる確率によって反映され、又は、上記所定の二言語コーパス中の源言語語義役割シーケンスSを含む全ての中文語句に対応する全ての英文語句中に上記第一類サブシーケンス「saw」と第三類サブシーケンス「argLT12 saw」が同時に現れる確率によって反映されてもよく、なお、確率を算出する方法は前文と類似するため、ここで省略する。
さらに、上記少なくとも二種類のサブシーケンスの例として第一類サブシーケンスと第二類サブシーケンスを選択し、かつ第一類サブシーケンスが「saw」であり、第二類サブシーケンスが「argLT12 argLT11」である場合、第一類サブシーケンス及び第二類サブシーケンスと源言語語義役割シーケンスSとの間の相関度が、上記第一類サブシーケンス「saw」、第二類サブシーケンス「argLT12 argLT11」及び源言語語義役割シーケンスSが上記所定の二言語コーパスの一つの二語句の対中に同時に現れる確率によって反映され、又は、上記所定の二言語コーパス中の源言語語義役割シーケンスSを含む全ての中文語句に対応する全ての英文語句中に上記第一類サブシーケンス「saw」と第二類サブシーケンス「argLT12 argLT11」が同時現れる確率によって反映されてもよく、なお、確率の算出方法は前文と類似するため、ここで省略する。
以上、如何にして第一類ないし第四類相関度を取得するかについて例を挙げて説明したが、相関度取得サブユニット210は上記第一類ないし第四類相関度中の任意一種又は複数種を取得することが可能であり、必ずしも第一類ないし第四類相関度を全て算出する必要がない。また、相関度取得サブユニット210が算出した相関度に複数の同種類の相関度、例えば、二つの第二類相関度(この二つの第二類相関度に対応する第二類サブシーケンスが異なってもよい)などを含んでもよい。
これにより、マッチング点数確定サブユニット220は、相関度取得サブユニット210が各目標言語語義役割シーケンスに対し取得した各種相関度(上記第一類ないし第四類相関度中の任意一種又は複数種)に基づき、各目標言語語義役割シーケンスと源言語語義役割シーケンスとの間のマッチング点数確定することができる。一実現方式において、各目標言語語義役割シーケンスに対し、マッチング点数確定サブユニット220は、該目標言語語義役割シーケンスに関連する相関度の値を掛け合わせ、得られた積を該目標言語語義役割シーケンスと源言語語義役割シーケンスとの間のマッチング点数とすることができる。別の実現方式において、各目標言語語義役割シーケンスについて、マッチング点数確定サブユニット220は該目標言語語義役割シーケンスに関連する相関度の値に対し重み付け算出を行い(例えば、重み付け和を求める)、得られた結果を該目標言語語義役割シーケンスと源言語語義役割シーケンスとの間のマッチング点数としてもよい。
式(1)一において、Sは源言語語義役割シーケンスを示し、Tは源言語語義役割シーケンスSに対応する複数の目標言語語句中の任意一つの目標言語語義役割シーケンスを示し、VTはT中の目標言語述語であり、aiはT中のVTの左側に位置する第i個の語義役割であり、hはVTの左側の語義役割の数であり、bjはT中のVTの右側に位置する第j個の語義役割であり、kはVTの右側の語義役割の数であり、P(VT|S)はSとTのサブシーケンス{VT}との間の相関度を示す条件確率であり、P(a1|VT,S)はSとTのサブシーケンス{VT}及び{a1,VT}との間の相関度を示す条件確率であり、P(ai|ai-1,VT,S)はSとTのサブシーケンス{ai-1,VT}及び{ai,ai-1,VT}との間の相関度を示す条件確率であり、P(b1|VT,S)はSとTのサブシーケンス{VT}及び{VT,b1}との間の相関度を示す条件確率であり、P(bj|VT,bj-1,S)はSとTのサブシーケンス{VT,bj-1}及び{VT,bj-1,bj}との間の相関度を示す条件確率である。
一実現方式において、P(VT|S)は例えば、上記所定の二言語コーパス中の源言語語義役割シーケンスSを含む全ての所定の源言語語句に対応する全ての所定の目標言語語句にサブシーケンス{VT}が現れる確率に相当する。便宜上、以下は「上記所定の二言語コーパス中の源言語語義役割シーケンスSを含む全ての所定の源言語語句に対応する全ての所定の目標言語語句」から成る集合を所定集合と称す。これにより、P(a1|VT,S)は例えば、上記所定集合中の既にサブシーケンス{VT}が現れた所定の目標言語語句中にサブシーケンス{a1,VT}が現れる確率に相当し;P(ai|ai-1,VT,S)は例えば、上記所定集合中の既にサブシーケンス{ai-1,VT}が現れた所定の目標言語語句中にサブシーケンス{ai,ai-1,VT}が現れる確率に相当し;P(b1|VT,S)は例えば,上記所定集合中の既にサブシーケンス{VT}が現れた所定の目標言語語句中にサブシーケンス{VT,b1}が現れる確率に相当し;P(bj|VT,bj-1,S)は例えば、上記所定集合中の既にサブシーケンス{VT,bj-1}が現れた所定目標言語語句中にサブシーケンス{VT,bj-1,bj}が現れる確率である。
なお、式(1)において、距離VTが違いほど、語義役割の順番が小さい。例えば、a1はTにおいてVTの左側に位置し、かつVTに最も近い第一個の語義役割であり、a2はTにおいてVTの左側に位置し、かつVTに最も近い第二個の語義役割であるなど。
ここで、一実現方式において、相関度取得サブユニット210は最尤推定法を用いて式(1)一のP(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)及びP(bj|VT,bj-1,S)を取得してもよい。式(2)ないし式(6)は、式(1)のP(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)及びP(bj|VT,bj-1,S)を算出するための例を示している。
以上の式(2)ないし式(6)において、VSはS中の源言語述語であり、a’h’,・・・,a’1はS中のVSの左側に位置するh’個の語義役割であり、b’1,・・・,b’k’はS中のVSの右側に位置するk’個の語義役割であり、これにより、シーケンス{a’h’,・・・,a’1,VS,b’1,・・・,b’k’}は源言語語義役割シーケンスSである。
C(VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は源言語語義役割シーケンスS(即ち、{a’h’,・・・,a’1,VS,b’1,・・・,b’k’})を含む全ての所定の源言語語句が属する二語句の対中の全ての所定の目標言語語句中にシーケンス{VT}が現れる回数を示す。以下、源言語語義役割シーケンスS(即ち、{a’h’,・・・,a’1,VS,b’1,・・・,b’k’})を含む全ての所定の源言語語句が属する全ての二語句の対を統計待ち語句対と称す。C(a’h’,・・・,a’1,VS,b’1,・・・,b’k’)はシーケンス{a’h’,・・・,a’1,VS,b’1,・・・,b’k’
}を含む全ての所定の源言語語句の数を示し、C(a1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{a1,VT}が現れる回数を示し、C(ai,ai-1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{ai,ai-1,VT}が現れる回数を示し、C(ai-1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{ai-1,VT}が現れる回数を示し、C(VT,b1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{VT,b1}が現れる回数を示し、C(VT,bj-1,bj,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{VT,bj-1,bj}が現れる回数を示し、C(VT,bj-1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{VT,bj-1}が現れる回数を示す。
}を含む全ての所定の源言語語句の数を示し、C(a1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{a1,VT}が現れる回数を示し、C(ai,ai-1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{ai,ai-1,VT}が現れる回数を示し、C(ai-1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{ai-1,VT}が現れる回数を示し、C(VT,b1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{VT,b1}が現れる回数を示し、C(VT,bj-1,bj,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{VT,bj-1,bj}が現れる回数を示し、C(VT,bj-1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{VT,bj-1}が現れる回数を示す。
式(1)と異なり、式(7)中のP(ai|ai-1,ai-2,VT,S)はSとTのサブシーケンス{ai-1,ai-2,VT}及び{ai,ai-1,ai-2,VT}との間の相関度を示す条件確率であり、P(bj|VT,bj-2,bj-1,S)はSとTのサブシーケンス{VT,
bj-2,bj-1}及び{VT,bj-2,bj-1,bj}との間の相関度を示す条件確率である。
bj-2,bj-1}及び{VT,bj-2,bj-1,bj}との間の相関度を示す条件確率である。
ここで、式(7)中のP(VT|S)を例えば式(2)によって算出し、P(a1|VT,S)を例えば式(3)によって算出し、P(a2|a1,VT,S)を例えば式(4)によって算出し、P(b1|VT,S)を例えば式(5)によって算出し、P(b2|VT,b1,S)を例えば式(6)によって算出することができる。また、P(ai|ai-1,ai-2,VT,S)を例えば以下の式(8)によって算出し、P(bj|VT,bj-2,bj-1,S)を例えば以下の式(9)によって算出することができる。
なお、C(ai,ai-1,ai-2,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{ai,ai-1,ai-2,VT}が現れる回数を示し、C(ai-1,ai-2,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{ai-1,ai-2,VT}が現れる回数を示し、C(VT,bj-2,bj-1,bj,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{VT,bj-2,bj-1,bj}が現れる回数を示し、C(VT,bj-2,bj-1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は統計待ち語句対中の所定の目標言語語句においてシーケンス{VT,bj-2,bj-1}が現れる回数を示す。
以上の説明からわかるように、図2に基づいて説明した例において、相関度取得サブユニット210とマッチング点数確定サブユニット220の処理により、源言語語句及び目標言語語句中の述語情報を同時に考慮することが可能であり、従来の技術に比べて、処理で得られる結果がより正確である。
そして、マッチングユニット120の処理のより、複数の目標言語語義役割シーケンスT1、T2、…、TNそれぞれと源言語語義役割シーケンスSとの間のマッチング点数を得ることができる。続いて、並べ替え結果確定ユニット130は、源言語語義役割シーケンスSとのマッチング点数が最も高い目標言語語義役割シーケンスに対応する候補並べ替え結果を最終並べ替え結果として確定することができる。なお、上記最終並べ替え結果は、源言語語句を源言語モデルから目標言語モデルに変換するプロセスにおいて得られた最終の処理結果に相当する。
例えば、源言語語句が「我昨天看見的那個老師(和訳:私が昨日見たあの先生)」であり、目標言語語句「The teacher I saw yesterday」及び目標言語語句「I yesterday saw the teacher」が上記源言語語句の二つの候補並べ替え結果である場合、前文の説明からわかるように、語義役割付与ユニット110は目標言語語義役割シーケンスT1「argLT12 argLT11 saw」及び目標言語語義役割シーケンスT2「argLT21 saw argRT21」を得ることができる。
目標言語語義役割シーケンスT1「argLT12 argLT11 saw」について、式(1)ないし式(6)に基づき、マッチングユニット120は目標言語語義役割シーケンスT1と源言語語義役割シーケンスS「argLS 看見(和訳:見た) argRS」との間のマッチング点数、例えば0.8を得ることができる。
同じように、マッチングユニット120は目標言語語義役割シーケンスT2と源言語語義役割シーケンスS「argLS 看見(和訳:見た) argRS」との間のマッチング点数、例えば0.5を得ることができる。
これにより、並べ替え結果確定ユニット130は目標言語語義役割シーケンスT2に対応する候補並べ替え結果(即ち、「The teacher I saw yesterday」)を最終並べ替え結果として確定することができる。
本発明の実施例に基づくデータ処理装置の別の実現方式において、源言語語句が二つ又は二つ以上の術語を含む場合、語義役割付与ユニット110は各源言語述語及びその関連する語義役割からなるシーケンスを該源言語述語に対応する源言語語義役割シーケンスとし、かつ該源言語述語に対応する目標言語述語及びその関連する語義役割からなるシーケンスを該源言語述語に対応する目標言語語義役割シーケンスとすることができる。この場合、マッチングユニット120は同一源言語述語に対応する源言語語義役割シーケンスと目標言語語義役割シーケンスとの間のマッチング点数を得ることができる。つまり、このような実現方式において、語義役割付与ユニット110とマッチングユニット120は、各述語に対し、前文において図1及び/又は図2を用いて説明した語義役割付与ユニット110及びマッチングユニット120の処理と類似する処理をそれぞれ実行することができる。なお、「同一源言語述語に対応する源言語語義役割シーケンスと目標言語語義役割シーケンス」における二つのシーケンスは、該源言語語義役割シーケンス中に述語Vaaが含まれ、該目標言語語義役割シーケンス中に述語Vbbが含まれる場合、述語Vaaと述語Vbbが互いに訳文である。
例えば、源言語語句S’が二つの述語Vs1とVs2を含み、目標言語語句M1及び目標言語語句M2が上記源言語語句S’の二つの候補並べ替え結果であり、かつ、目標言語語句M1が述語Vta1(Vs1に対応する)とVta2(Vs2に対応する)を含み、目標言語語句M2が述語Vtb1(Vs1に対応する)とVtb2(Vs2に対応する)を含むとする。
源言語語句中の述語Vs1及び述語Vs1に関連する語義役割からなるシーケンスをシーケンスS1’と称し、源言語語句中の述語Vs2及び述語Vs2に関連する語義役割からなるシーケンスをシーケンスS2’と称する。
目標言語語句M1中の述語Vta1及び述語Vta1に関連する語義役割からなるシーケンスをシーケンスT1a’と称し、目標言語語句中の述語Vta2及び述語Vta2に関連する語義役割からなるシーケンスをシーケンスT2a’と称する。
目標言語語句M2中の述語Vtb1及び述語Vtb1に関連する語義役割からなるシーケンスをシーケンスT1b’と称し、目標言語語句中の述語Vtb2及び述語Vtb2に関連する語義役割からなるシーケンスをシーケンスT2b’と称する。
このように、述語Vs1に対し、マッチングユニット120は、シーケンスT1a’とシーケンスS1’との間のマッチング点数(以下、点数一と称する)、及びシーケンスT1b’とシーケンスS1’との間のマッチング点数(以下、点数二と称する)を得ることができる。
同じように、述語Vs2に対し、マッチングユニット120は、シーケンスT2a’とシーケンスS2’との間のマッチング点数(以下、点数三と称する)、及びシーケンスT2b’とシーケンスS2’との間のマッチング点数(以下、点数四と称する)を得ることができる。
ここで、単語の対応関係に基づいて、目標言語語句中の述語が源言語語句中のどの述語に対応するかを確定することができる。例えば、目標言語語句及び源言語語句において互いに訳語(又は訳文)である述語(又は語義役割)を互いに対応すると確定することができる。
並べ替え結果確定ユニット130は、各源言語述語に対するマッチング点数に基づいて、最終並べ替え結果を確定することができる。
例えば、シーケンスT1a’及びシーケンスT2a’が目標言語語句M1に関連するため、並べ替え結果確定ユニット130は点数一と点数三の重み付け和を(例えば、重みはそれぞれ1)、目標言語語句M1中の各語義役割間の順番及び源言語語句間のマッチング度を評価する値とし、該値が大きいほど、両者がよりマッチすることを意味する。
同じように、シーケンスT1b’及びシーケンスT2b’が目標言語語句M2に関連するため、並べ替え結果確定ユニット130は、点数二と点数四の重み付け和(例えば、重みがそれぞれ1)を、目標言語語句M2中の各語義役割間の順番及び源言語語句間のマッチング度を評価する値とし、該値が大きいほど、両者がよりマッチすることを意味する。
このように、並べ替え結果確定ユニット130は、全ての目標言語語句中から源言語語句に最もマッチするものを最終並べ替え結果として選択することができる。
以上の説明からわかるように、上記本発明の実施例に基づくデータ処理装置は、源言語語句の訳文の候補並べ替え結果である複数の目標言語語句に対し、所定の二言語コーパスを利用して、上記複数の目標言語語句に対応する複数の目標言語語義役割シーケンスそれぞれと源言語語句に対応する源言語語義役割シーケンスとの間のマッチング点数を取得し、上記複数の目標言語語句において最終の並べ替え結果を確定することができる。上記本発明の実施例に基づくデータ処理装置は、目標言語と源言語との間の主述目的語構成の一致性に基づいて最終の並べ替え結果を確定するため、従来の方法に比べて、本発明の実施例の上記データ処理装置に利用してより正確な処理結果が得られる。
また、一部の実施例において、式(1)及び/又は式(2)ないし式(6)を用いて上記マッチング点数を取得することにより、より小さい算出量、より速い算出速度、より高い処理効率が得られる。
また、本発明の実施例はさらにデータ処理方法を提供し、該データ処理方法は、源言語語句及びその訳文の候補並べ替え結果である複数の目標言語語句に対し、それぞれ語義役割付与を行って、源言語語義役割シーケンス及び複数の目標言語語義役割シーケンスを取得するステップと、前記源言語及び前記目標言語に対応するとともに語義役割付与された二語句の対を含む所定の二言語コーパスに基づき、前記源言語語義役割シーケンスと各前記目標言語語義役割シーケンスそれぞれとの間のマッチング点数を取得するステップと、前記マッチング点数が最も高い目標言語語義役割シーケンスに対応する候補並べ替え結果を最終並べ替え結果として確定するステップを含む。
本発明の実施例に基づくデータ処理方法の具体的な実現方式において、源言語は例えば英語、中国語、ドイツ語、フランス語、日本語など多言語中の任意の一種であり、かつ目標言語は源言語である言語種類と同じ主述目的語構成を有する上記多言語中の別の一種であってもよい。なお、ここで述べる「主述目的語構成」は前文に説明した「主述目的語構成」と同じ意味を持つため、ここで詳細説明を省略する。以下、主に源言語が中国語であり、目標言語が英語である場合を例に、本発明の各実施例の関連説明を行う。
以下、図3を参照しながら上記データ処理方法の一例である処理を説明する。
図3が示すように、本発明の実施例に基づくデータ処理方法の処理プロセス300はステップS310から始まり、その次にステップS320を実行する。
ステップS320において、源言語語句及びその訳文の候補並べ替え結果である複数目標言語語句に対しそれぞれ語義役割付与を行って、源言語語義役割シーケンス及び複数の目標言語語義役割シーケンスを取得する。その次にステップS330を実行する。なお、ステップS320で実行される処理は、例えば前文において図1を用いて説明した語義役割付与ユニット110の処理と同じく、かつ類似する技術效果が得られるため、ここで省略する。
ステップS330において、源言語及び目標言語に対応するとともに語義役割付与された複数の二語句の対を含む所定の二言語コーパスに基づき、源言語語義役割シーケンスと各目標言語語義役割シーケンスそれぞれとの間のマッチング点数を取得する。その次にステップS340を実行する。なお、ステップS330で実行する処理は、例えば前文において図1を用いて説明したマッチングユニット120の処理と同じく、かつ類似する技術效果が得られるため、ここで省略する。
一実現方式において、例えば以下の方式によりステップS330中の処理を実現してもよい。各目標言語語義役割シーケンス中の各目標言語述語に対し、所定の二言語コーパスを利用して、該目標言語語義役割シーケンスの該目標言語述語を含む少なくとも一部のサブシーケンスと源言語語義役割シーケンスとの間の相関度を取得し、及び、各目標言語語義役割シーケンスに対し、取得された該目標言語語義役割シーケンスに関連する相関度に基づき、該目標言語語義役割シーケンスと源言語語義役割シーケンスとの間のマッチング点数を確定する。
一例として、ステップS330において、各目標言語語義役割シーケンス中の各目標言語述語に対し、例えば、所定の二言語コーパスを利用して、以下の複数種の相関度中の任意一種又は複数種を取得してもよい。即ち、該目標言語語義役割シーケンスの該目標言語述語のみを含むサブシーケンスと源言語語義役割シーケンスとの間の相関度;該目標言語語義役割シーケンスの該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスと源言語語義役割シーケンスとの間の相関度;該目標言語語義役割シーケンスの該目標言語述語及び該目標言語述語の左側の少なくとも一つの語義役割を含むサブシーケンスと源言語語義役割シーケンスとの間の相関度;該目標言語語義役割シーケンスの該目標言語述語のみを含むサブシーケンス、該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンス、及び該目標言語述語と該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンス中の少なくとも二種類のサブシーケンスと源言語語義役割シーケンスとの間の相関度。
一例として、前文に説明した式(1)に基づいて、上記マッチング点数を算出することができる。同じく、式(1)のP(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)及びP(bj|VT,bj-1,S)を、例えば最尤推定法によって取得することができる。一例において、前文で説明した式(2)ないし式(6)に基づいて、P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)及びP(bj|VT,bj-1,S)を算出することが可能であり、ここで省略する。
なお、本発明の実施例に基づくデータ処理方法の一実現方式において、源言語語句が少なくとも二つの源言語述語を含む場合、各源言語述語及びその関連する語義役割からなるシーケンスを該源言語述語に対応する源言語語義役割シーケンスとし、かつ該源言語述語に対応する目標言語述語及びその関連する語義役割からなるシーケンスを該源言語述語に対応する目標言語語義役割シーケンスとしてもよい。そして、同一源言語述語に対応する源言語語義役割シーケンスと目標言語語義役割シーケンスとの間のマッチング点数を取得し、かつ、各源言語述語に対するマッチング点数に基づき、最終並べ替え結果を確定する。
ステップS340において、マッチング点数が最も高い目標言語語義役割シーケンスに対応する候補並べ替え結果を最終並べ替え結果として確定する。その次にステップS350を実行する。なお、ステップS340で実行される処理は、例えば前文において図1を用いて説明した並べ替え結果確定ユニット130の処理同じく、かつ類似する技術效果が得られるため、ここで省略する。
処理プロセス300はステップS350で終了する。
以上の説明からわかるように、上記本発明の実施例に基づくデータ処理方法において、源言語語句の訳文の候補並べ替え結果である複数の目標言語語句に対し、所定の二言語コーパスを利用して、上記複数の目標言語語句に対応する複数の目標言語語義役割シーケンスと源言語語句に対応する源言語語義役割シーケンスとの間のマッチング点数を取得することにより、上記複数の目標言語語句中から最終の並べ替え結果を確定することができる。上記本発明の実施例に基づくデータ処理方法は、目標言語と源言語との間の主述目的語構成の一致性に基づいて最終の並べ替え結果を確定するため、従来の方法に比べて、本発明の実施例の上記データ処理方法を利用してより正確な処理結果が得られる。
また、本発明の実施例はさらに電子機器を提供し、該電子機器は上記のデータ処理装置を含む。本発明の実施例に基づく上記電子機器の具体的な実現方式において、上記電子機器は、コンピュータ(例えば、デスクトップ式コンピュータ、ノート式コンピュータなど)、タブレットコンピュータ、携帯情報端末、マルチメディア放送機器、携帯電話(例えば、スマートフォーン)、電子辞書、及び電子書籍リーダーなどの機器の任意一種であってもよい。なお、該電子機器は上記データ処理装置の各功能と技術效果を有するが、ここで省略する。
上記本発明の実施例に基づくデータ処理装置中の各構成ユニット、サブユニット、モジュールはソフトウエア、ファームウエア、ハードウエア又はこれらの任意の組み合わせによって構成できる。ソフトウエア又はファームウエアによって実現する場合、該ソフトウエア又はファームウエアを構成するプログラムを、記憶媒体又はネットワークから専用ハードウエア構成を有する機器(例えば、図4が示す汎用機器400)にインストールし、該機器に各種プログラムがインストールされた場合、上記各構成ユニット、サブユニットの各種機能を実行できる。
図4は、本発明の実施例に基づくデータ処理装置とデータ処理方法を実現可能な一種の情報処理機器のハードウエア配置を示す構成略図である。
図4において、中央処理ユニット(CPU)401は、読み出し専用メモリ(ROM)402に記憶されたプログラム又は記憶部408からランダムアクセスメモリ(RAM)403に読み込まれたプログラムに基づき、各種処理を実行する。RAM403において、必要であれば、CPU401が各種処理などを実行する際に必要なデータも記憶する。CPU401、ROM402とRAM403はバス404を介して互いに接続されている。入力/出力インターフェース405もバス404に接続される。
入力/出力インターフェース405に、入力部406(キーボード、マウスなどを含む)、出力部407(例えばブラウン管(CRT)、液晶ディスプレイ(LCD)などのディスプレイ、スピーカーなどを含む)、記憶部408(ハードディスクなどを含む)、通信部409(例えばLANカードなどのネットワークインタフェースカード、モデムなどを含む)などの部品も接続される。通信部409は例えばインターネットなどのネットワークを介して通信処理を行う。必要であれば、ドライブ410を入力/出力インターフェース405に接続してもよい。また、必要に応じて、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどの脱着可能な媒体411をドライブ410に取り付けて、その中から読み出したコンピュータプログラムを必要に応じて記憶部408にインストールすることができる。
ソフトウエアによって上記一連の処理を実現する場合、例えばインターネットなどのネットワーク、又は例えば脱着可能な媒体411などの記憶媒体から、ソフトウエアを構成するプログラムをインストールしてもよい。
当業者でれば、この記憶媒体として、図4が示すような、プログラムを記憶し、機器と離れて、ユーザへそれぞれプログラムを提供する脱着可能な媒体411に限らないことを理解すべきである。脱着可能な媒体411の例として、磁気ディスク(フロッピディスク(登録商標)を含む)、光ディスク(光ディスク読み出し専用メモリ(CD-ROM)及びデジタル汎用ディスク(DVD)を含む)、光磁気ディスク(ミニーディスク(MD)(登録商標)を含む)及び半導体メモリなどがある。また、記憶媒体はROM402、記憶部408に含まれるハードディスクなどであり、その中にプログラムが記憶され、かつこれらを含むマシーンと一緒にユーザへ提供されてもよい。
また、本発明はさらに、マシーンが読み出し可能な指令コードを記憶したプログラム製品を提供する。上記指令コードをマシーンが読み出して実行することにより、上記本発明の実施例に基づくデータ処理方法を実行することができる。それに応じて、このようなプログラム製品を記憶した例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなど各種の記憶媒体も本発明に含まれる。
本発明の具体的な実施例に関する以上の説明において、一種の実施方式に記載及び/又は示された特徴に対し、同じ又は類似する方式により、一つ又は複数のその他の実施方式を応用したり、その他の実施方式中の特徴を組み合わせたり、またはその他の実施方式中の特徴で代替することが可能である。
また、本発明の各実施例の方法の実行は明細書に記載された又は図面に示された時間順番に限定されず、その他の時間順番に従って並行又は単特に実行してもよい。従って、本明細書に記載された方法の実行順番は本発明の技術範囲を制限するものではない。
また、明らかに、本発明に基づく上記方法の各操作プロセスを、各種機器が読み出し可能な記憶媒体に記憶された、コンピュータが実行可能なプログラムによって実現することもできる。
さらに、以下の方式によって本発明の目的を実現することも可能である。上記実行可能なプログラムコードを記憶した記憶媒体を直接又は間接にシステム又はマシーンに提供し、かつ該システム又はマシーンの中のコンピュータ又は中央処理ユニット(CPU)によって、上記プログラムコードを読み出して実行する。
ここで、該システム又はマシーンがプログラム実行機能を備えていれば、本発明の実施方式はプログラムに限定されず、かつ該プログラムが任意の形式であってもよい。例えば、目標プログラム、インタプリターが実行するプログラム又は操作システムに提供されたスクリプトプログラムなど。
上記のマシーンが読み出し可能な記憶媒体は、各種のメモリと記憶ユニット;半導体機器:例えば光、磁気と光磁気ディスクなどの磁気ディスクユニット;及び、その他の情報記憶に適した媒体などを含むが、これらに限定されない。
また、ユーザコンピュータがインターネット経由で関連サイトにアクセスし、且つ本発明に基づくコンピュータプログラムコードをダウンロードして、コンピュータにインストールした後に該プログラムを実行することでも、本発明を実現できる。
最後に、説明すべきなのは、本文中の例えば左と右、第一と第二等の関係用語は、ある実体又は操作を別の実体又は操作から区別するためであり、これらの実体又は操作の間にこのような何らの実際関係又は順番が存在することを要求又は示唆するものではない。かつ、用語「含む」、「含まれる」又はその他の表現は、排他的ではない「含有」を意味するため、一連の要素を含むプロセス、方法、物品又は機器は、これらの要素の他に明記されていないその他の要素も含み、又はこのようなプロセス、方法、物品又は機器が固有する要素を含む。多くの制限がない場合、「一つの・・・を含む」という表現によって限定される要素は、上記要素を含むプロセス、方法、物品又は機器においてその他の同一要素が存在することを排除するものではない。
以上により、本発明の実施例において以下の方案を提供するが、本発明はこれらに限定されない。
(付記1)
データ処理装置であって、
源言語語句及びその訳文の候補並べ替え結果である複数の目標言語語句に対し、それぞれ語義役割付与を行って、源言語語義役割シーケンス及び複数の目標言語語義役割シーケンスを取得する語義役割付与ユニットと、
前記源言語及び前記目標言語に対応するとともに語義役割付与された複数の二語句の対を含む所定の二言語コーパスに基づき、前記源言語語義役割シーケンスと各前記目標言語語義役割シーケンスそれぞれとの間のマッチング点数を取得するマッチングユニットと、
前記マッチング点数が最も高い目標言語語義役割シーケンスに対応する候補並べ替え結果を最終並べ替え結果として確定する並べ替え結果確定ユニットとを含むデータ処理装置。
データ処理装置であって、
源言語語句及びその訳文の候補並べ替え結果である複数の目標言語語句に対し、それぞれ語義役割付与を行って、源言語語義役割シーケンス及び複数の目標言語語義役割シーケンスを取得する語義役割付与ユニットと、
前記源言語及び前記目標言語に対応するとともに語義役割付与された複数の二語句の対を含む所定の二言語コーパスに基づき、前記源言語語義役割シーケンスと各前記目標言語語義役割シーケンスそれぞれとの間のマッチング点数を取得するマッチングユニットと、
前記マッチング点数が最も高い目標言語語義役割シーケンスに対応する候補並べ替え結果を最終並べ替え結果として確定する並べ替え結果確定ユニットとを含むデータ処理装置。
(付記2)
前記マッチングユニットは、
各前記目標言語語義役割シーケンス中の各目標言語述語に対し、前記所定の二言語コーパスを利用して、該目標言語語義役割シーケンスの該目標言語述語を含む少なくとも一部のサブシーケンスと前記源言語語義役割シーケンスとの間の相関度を取得する相関度取得サブユニットと、
各前記目標言語語義役割シーケンスに対し、取得した該目標言語語義役割シーケンスに関連する前記相関度に基づき、該目標言語語義役割シーケンスと前記源言語語義役割シーケンスとの間のマッチング点数を確定するマッチング点数確定サブユニットとを含む、付記1に記載のデータ処理装置。
前記マッチングユニットは、
各前記目標言語語義役割シーケンス中の各目標言語述語に対し、前記所定の二言語コーパスを利用して、該目標言語語義役割シーケンスの該目標言語述語を含む少なくとも一部のサブシーケンスと前記源言語語義役割シーケンスとの間の相関度を取得する相関度取得サブユニットと、
各前記目標言語語義役割シーケンスに対し、取得した該目標言語語義役割シーケンスに関連する前記相関度に基づき、該目標言語語義役割シーケンスと前記源言語語義役割シーケンスとの間のマッチング点数を確定するマッチング点数確定サブユニットとを含む、付記1に記載のデータ処理装置。
(付記3)
前記相関度取得サブユニットは、各前記目標言語語義役割シーケンス中の各目標言語述語に対し、
該目標言語語義役割シーケンスの該目標言語述語のみを含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語及び該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語のみを含むサブシーケンス、該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンス、該目標言語述語及び該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスの中の少なくとも二種類のサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、など複数種の相関度のうち任意一種又は複数種を取得する付記2に記載のデータ処理装置。
前記相関度取得サブユニットは、各前記目標言語語義役割シーケンス中の各目標言語述語に対し、
該目標言語語義役割シーケンスの該目標言語述語のみを含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語及び該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語のみを含むサブシーケンス、該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンス、該目標言語述語及び該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスの中の少なくとも二種類のサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、など複数種の相関度のうち任意一種又は複数種を取得する付記2に記載のデータ処理装置。
(付記4)
前記マッチング点数確定サブユニットは、以下の式に基づいて前記マッチング点数を取得し、
なお、Sは前記源言語語義役割シーケンスであり、Tは前記目標言語語義役割シーケンスであり、VTはT中の目標言語述語であり、aiはT中のVTの左側に位置する第i個の語義役割であり、hはVTの左側の語義役割の数であり、bjはT中のVTの右側に位置する第j個の語義役割であり、kはVTの右側の語義役割の数であり、P(VT|S)はSとTのサブシーケンス{VT}との間の相関度を示す条件確率であり、P(a1|VT,S)はSとTのサブシーケンス{VT}及び{a1,VT}との間の相関度を示す条件確率であり、P(ai|ai-1,VT,S)はSとTのサブシーケンス{ai-1,VT}及び{ai,ai-1,VT}との間の相関度を示す条件確率であり、P(b1|VT,S)はSとTのサブシーケンス{VT}及び{VT,b1}との間の相関度を示す条件確率であり、及びP(bj|VT,bj-1,S)はSとTのサブシーケンス{VT,bj-1}及び{VT,bj-1,bj}との間の相関度を示す条件確率である、付記2又は3に記載のデータ処理装置。
前記マッチング点数確定サブユニットは、以下の式に基づいて前記マッチング点数を取得し、
(付記5)
前記相関度取得サブユニットは、最尤推定法に基づいて、P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)及びP(bj|VT,bj-1,S)を取得する、付記4に記載のデータ処理装置。
前記相関度取得サブユニットは、最尤推定法に基づいて、P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)及びP(bj|VT,bj-1,S)を取得する、付記4に記載のデータ処理装置。
(付記6)
前記相関度取得サブユニットは、以下の式に基づいて、P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)及びP(bj|VT,bj-1,S)を取得し、
なお、VSはS中の源言語述語であり、a’h’,・・・,a’1はS中のVSの左側に位置するh’個の語義役割であり、b’1,・・・,b’k’はS中のVSの右側に位置するk’個の語義役割であり、C(VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)はシーケンス{a’h’,・・・,a’1,VS,b’1,・・・,b’k’}を含む所定の源言語語句が属する二語句の対中の所定の目標言語語句においてシーケンス{VT}が出現する回数を示し、C(a’h’,・・・,a’1,VS,b’1,・・・,b’k’)はシーケンス{a’h’,・・・,a’1,VS,b’1,・・・,b’k’
}を含む所定の源言語語句の数を示し、C(a1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{a1,VT}が出現する回数を示し、C(ai,ai-1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{ai,ai-1,VT}が出現する回数を示し、C(ai-1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{ai-1,VT}が出現する回数を示し、C(VT,b1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,b1}が出現する回数を示し、C(VT,bj-1,bj,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,bj-1,bj}が出現する回数を示し、C(VT,bj-1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,bj-1}が出現する回数を示す、付記5に記載のデータ処理装置。
前記相関度取得サブユニットは、以下の式に基づいて、P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)及びP(bj|VT,bj-1,S)を取得し、
}を含む所定の源言語語句の数を示し、C(a1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{a1,VT}が出現する回数を示し、C(ai,ai-1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{ai,ai-1,VT}が出現する回数を示し、C(ai-1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{ai-1,VT}が出現する回数を示し、C(VT,b1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,b1}が出現する回数を示し、C(VT,bj-1,bj,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,bj-1,bj}が出現する回数を示し、C(VT,bj-1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,bj-1}が出現する回数を示す、付記5に記載のデータ処理装置。
(付記7)
前記語義役割付与ユニットは、前記源言語語句が少なくとも二つの源言語述語を含む場合、各源言語述語及びその関連する語義役割からなるシーケンスを該源言語述語に対応する源言語語義役割シーケンスとし、かつ該源言語述語に対応する目標言語述語及びその関連する語義役割からなるシーケンスを該源言語述語に対応する目標言語語義役割シーケンスとし、
前記マッチングユニットは、同じ源言語述語に対応する源言語語義役割シーケンスと目標言語語義役割シーケンスとの間のマッチング点数を取得し、
前記並べ替え結果確定ユニットは、各源言語述語に対応するマッチング点数に基づいて、最終並べ替え結果を確定する、付記2に記載のデータ処理装置。
前記語義役割付与ユニットは、前記源言語語句が少なくとも二つの源言語述語を含む場合、各源言語述語及びその関連する語義役割からなるシーケンスを該源言語述語に対応する源言語語義役割シーケンスとし、かつ該源言語述語に対応する目標言語述語及びその関連する語義役割からなるシーケンスを該源言語述語に対応する目標言語語義役割シーケンスとし、
前記マッチングユニットは、同じ源言語述語に対応する源言語語義役割シーケンスと目標言語語義役割シーケンスとの間のマッチング点数を取得し、
前記並べ替え結果確定ユニットは、各源言語述語に対応するマッチング点数に基づいて、最終並べ替え結果を確定する、付記2に記載のデータ処理装置。
(付記8)
前記源言語は中国語であり、前記目標言語は英語である、付記1から7の何れか一項に記載のデータ処理装置。
前記源言語は中国語であり、前記目標言語は英語である、付記1から7の何れか一項に記載のデータ処理装置。
(付記9)
データ処理方法であって、
源言語語句及びその訳文の候補並べ替え結果である複数の目標言語語句に対し、それぞれ語義役割付与を行って、源言語語義役割シーケンス及び複数の目標言語語義役割シーケンスを取得するステップと、
前記源言語及び前記目標言語に対応するとともに語義役割付与された二語句の対を含む所定の二言語コーパスに基づき、前記源言語語義役割シーケンスと各前記目標言語語義役割シーケンスそれぞれとの間のマッチング点数を取得するステップと、
前記マッチング点数が最も高い目標言語語義役割シーケンスに対応する候補並べ替え結果を最終並べ替え結果として確定するステップとを含む、データ処理方法。
データ処理方法であって、
源言語語句及びその訳文の候補並べ替え結果である複数の目標言語語句に対し、それぞれ語義役割付与を行って、源言語語義役割シーケンス及び複数の目標言語語義役割シーケンスを取得するステップと、
前記源言語及び前記目標言語に対応するとともに語義役割付与された二語句の対を含む所定の二言語コーパスに基づき、前記源言語語義役割シーケンスと各前記目標言語語義役割シーケンスそれぞれとの間のマッチング点数を取得するステップと、
前記マッチング点数が最も高い目標言語語義役割シーケンスに対応する候補並べ替え結果を最終並べ替え結果として確定するステップとを含む、データ処理方法。
(付記10)
前記源言語語義役割シーケンスと各前記目標言語語義役割シーケンスそれぞれとの間のマッチング点数を取得するステップは、
各前記目標言語語義役割シーケンス中の各目標言語述語に対し、前記所定の二言語コーパスを利用して、該目標言語語義役割シーケンスの該目標言語述語を含む少なくとも一部のサブシーケンスと前記源言語語義役割シーケンスとの間の相関度を取得するステップと、
各前記目標言語語義役割シーケンスに対し、取得した該目標言語語義役割シーケンスに関連する前記相関度に基づき、該目標言語語義役割シーケンスと前記源言語語義役割シーケンスとの間のマッチング点数を確定するステップとを含む、付記9に記載のデータ処理方法。
前記源言語語義役割シーケンスと各前記目標言語語義役割シーケンスそれぞれとの間のマッチング点数を取得するステップは、
各前記目標言語語義役割シーケンス中の各目標言語述語に対し、前記所定の二言語コーパスを利用して、該目標言語語義役割シーケンスの該目標言語述語を含む少なくとも一部のサブシーケンスと前記源言語語義役割シーケンスとの間の相関度を取得するステップと、
各前記目標言語語義役割シーケンスに対し、取得した該目標言語語義役割シーケンスに関連する前記相関度に基づき、該目標言語語義役割シーケンスと前記源言語語義役割シーケンスとの間のマッチング点数を確定するステップとを含む、付記9に記載のデータ処理方法。
(付記11)
各前記目標言語語義役割シーケンス中の各目標言語述語に対し、
該目標言語語義役割シーケンスの該目標言語述語のみを含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語及び該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語のみを含むサブシーケンス、該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンス、該目標言語述語及び該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスの中の少なくとも二種類のサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、など複数種の相関度のうち任意一種又は複数種を取得する付記10に記載のデータ処理方法。
各前記目標言語語義役割シーケンス中の各目標言語述語に対し、
該目標言語語義役割シーケンスの該目標言語述語のみを含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語及び該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語のみを含むサブシーケンス、該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンス、該目標言語述語及び該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスの中の少なくとも二種類のサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、など複数種の相関度のうち任意一種又は複数種を取得する付記10に記載のデータ処理方法。
(付記12)
以下の式に基づいて前記マッチング点数を確定し、
なお、Sは前記源言語語義役割シーケンスであり、Tは前記目標言語語義役割シーケンスであり、VTはT中の目標言語述語であり、aiはT中のVTの左側に位置する第i個の語義役割であり、hはVTの左側の語義役割の数であり、bjはT中のVTの右側に位置する第j個の語義役割であり、kはVTの右側の語義役割の数であり、P(VT|S)はSとTのサブシーケンス{VT}との間の相関度を示す条件確率であり、P(a1|VT,S)はSとTのサブシーケンス{VT}及び{a1,VT}との間の相関度を示す条件確率であり、P(ai|ai-1,VT,S)はSとTのサブシーケンス{ai-1,VT}及び{ai,ai-1,VT}との間の相関度を示す条件確率であり、P(b1|VT,S)はSとTのサブシーケンス{VT}及び{VT,b1}との間の相関度を示す条件確率であり、及びP(bj|VT,bj-1,S)はSとTのサブシーケンス{VT,bj-1}及び{VT,bj-1,bj}との間の相関度を示す条件確率である、付記10又は11に記載のデータ処理方法。
以下の式に基づいて前記マッチング点数を確定し、
(付記13)
最尤推定法に基づいて、P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)及びP(bj|VT,bj-1,S)を取得する、付記12に記載のデータ処理装置。
最尤推定法に基づいて、P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)及びP(bj|VT,bj-1,S)を取得する、付記12に記載のデータ処理装置。
(付記14)
以下の式に基づいて、P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)及びP(bj|VT,bj-1,S)を取得し、
なお、VSはS中の源言語述語であり、a’h’,・・・,a’1はS中のVSの左側に位置するh’個の語義役割であり、b’1,・・・,b’k’はS中のVSの右側に位置するk’個の語義役割であり、C(VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)はシーケンス{a’h’,・・・,a’1,VS,b’1,・・・,b’k’}を含む所定の源言語語句が属する二語句の対中の所定の目標言語語句においてシーケンス{VT}が出現する回数を示し、C(a’h’,・・・,a’1,VS,b’1,・・・,b’k’)はシーケンス{a’h’,・・・,a’1,VS,b’1,・・・,b’k’
}を含む所定の源言語語句の数を示し、C(a1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{a1,VT}が出現する回数を示し、C(ai,ai-1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{ai,ai-1,VT}が出現する回数を示し、C(ai-1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{ai-1,VT}が出現する回数を示し、C(VT,b1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,b1}が出現する回数を示し、C(VT,bj-1,bj,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,bj-1,bj}が出現する回数を示し、C(VT,bj-1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,bj-1}が出現する回数を示す、付記13に記載のデータ処理方法。
以下の式に基づいて、P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)及びP(bj|VT,bj-1,S)を取得し、
}を含む所定の源言語語句の数を示し、C(a1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{a1,VT}が出現する回数を示し、C(ai,ai-1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{ai,ai-1,VT}が出現する回数を示し、C(ai-1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{ai-1,VT}が出現する回数を示し、C(VT,b1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,b1}が出現する回数を示し、C(VT,bj-1,bj,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,bj-1,bj}が出現する回数を示し、C(VT,bj-1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,bj-1}が出現する回数を示す、付記13に記載のデータ処理方法。
(付記15)
前記源言語語句が少なくとも二つの源言語述語を含む場合、各源言語述語及びその関連する語義役割からなるシーケンスを該源言語述語に対応する源言語語義役割シーケンスとし、かつ該源言語述語に対応する目標言語述語及びその関連する語義役割からなるシーケンスを該源言語述語に対応する目標言語語義役割シーケンスとするステップと、
同じ源言語述語に対応する源言語語義役割シーケンスと目標言語語義役割シーケンスとの間のマッチング点数を取得するステップと、
各源言語述語に対応するマッチング点数に基づいて、最終並べ替え結果を確定するステップとをさらに含む、付記10に記載のデータ処理方法。
前記源言語語句が少なくとも二つの源言語述語を含む場合、各源言語述語及びその関連する語義役割からなるシーケンスを該源言語述語に対応する源言語語義役割シーケンスとし、かつ該源言語述語に対応する目標言語述語及びその関連する語義役割からなるシーケンスを該源言語述語に対応する目標言語語義役割シーケンスとするステップと、
同じ源言語述語に対応する源言語語義役割シーケンスと目標言語語義役割シーケンスとの間のマッチング点数を取得するステップと、
各源言語述語に対応するマッチング点数に基づいて、最終並べ替え結果を確定するステップとをさらに含む、付記10に記載のデータ処理方法。
(付記16)
前記源言語は中国語であり、前記目標言語は英語である、付記9から15の何れか一項に記載のデータ処理方法。
前記源言語は中国語であり、前記目標言語は英語である、付記9から15の何れか一項に記載のデータ処理方法。
(付記17)
電子機器であって、付記1から8の何れか一項に記載のデータ処理装置を含む電子機器。
電子機器であって、付記1から8の何れか一項に記載のデータ処理装置を含む電子機器。
(付記18)
前記電子機器は、コンピュータ、タブレットコンピュータ、携帯情報端末、マルチ放送機器、携帯電話、電子辞書及び電子書籍リーダーのうち任意一種であり、付記17に記載の電子機器。
前記電子機器は、コンピュータ、タブレットコンピュータ、携帯情報端末、マルチ放送機器、携帯電話、電子辞書及び電子書籍リーダーのうち任意一種であり、付記17に記載の電子機器。
(付記19)
マシーンが読み出し可能な指令コードを記憶したプログラム製品であって、前記プログラム製品を実行することにより、付記9から16の何れか一項に記載のデータ処理方法を前記マシーンに実行させることができるプログラム製品。
マシーンが読み出し可能な指令コードを記憶したプログラム製品であって、前記プログラム製品を実行することにより、付記9から16の何れか一項に記載のデータ処理方法を前記マシーンに実行させることができるプログラム製品。
(付記20)
コンピュータ読み出し可能な記憶媒体であって、付記19に記載のプログラム製品を記憶している記憶媒体。
コンピュータ読み出し可能な記憶媒体であって、付記19に記載のプログラム製品を記憶している記憶媒体。
Claims (10)
- データ処理装置であって、
源言語語句及びその訳文の候補並べ替え結果である複数の目標言語語句に対し、それぞれ語義役割付与を行って、源言語語義役割シーケンス及び複数の目標言語語義役割シーケンスを取得する語義役割付与ユニットと、
源言語及び目標言語に対応するとともに語義役割付与された複数の二語句の対を含む所定の二言語コーパスに基づき、前記源言語語義役割シーケンスと各前記目標言語語義役割シーケンスそれぞれとの間のマッチング点数を取得するマッチングユニットと、
前記マッチング点数が最も高い目標言語語義役割シーケンスに対応する候補並べ替え結果を最終並べ替え結果として確定する並べ替え結果確定ユニットとを含むデータ処理装置。 - 前記マッチングユニットは、
各前記目標言語語義役割シーケンス中の各目標言語述語に対し、前記所定の二言語コーパスを利用して、該目標言語語義役割シーケンスの該目標言語述語を含む少なくとも一部のサブシーケンスと前記源言語語義役割シーケンスとの間の相関度を取得する相関度取得サブユニットと、
各前記目標言語語義役割シーケンスに対し、取得した該目標言語語義役割シーケンスに関連する前記相関度に基づき、該目標言語語義役割シーケンスと前記源言語語義役割シーケンスとの間のマッチング点数を確定するマッチング点数確定サブユニットとを含む、請求項1に記載のデータ処理装置。 - 前記相関度取得サブユニットは、各前記目標言語語義役割シーケンス中の各目標言語述語に対し、
該目標言語語義役割シーケンスの該目標言語述語のみを含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語及び該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、
該目標言語語義役割シーケンスの該目標言語述語のみを含むサブシーケンス、該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンス、該目標言語述語及び該目標言語述語の左側に位置する少なくとも一つの語義役割を含むサブシーケンスの中の少なくとも二種類のサブシーケンスと、前記源言語語義役割シーケンスとの間の相関度、など複数種の相関度のうち任意一種又は複数種を取得する請求項2に記載のデータ処理装置。 - 前記マッチング点数確定サブユニットは、以下の式に基づいて前記マッチング点数を取得し、
- 前記相関度取得サブユニットは、最尤推定法に基づいて、P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)及びP(bj|VT,bj-1,S)を取得する、請求項4に記載のデータ処理装置。
- 前記相関度取得サブユニットは、以下の式に基づいて、P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)及びP(bj|VT,bj-1,S)を取得し、
}を含む所定の源言語語句の数を示し、C(a1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{a1,VT}が出現する回数を示し、C(ai,ai-1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{ai,ai-1,VT}が出現する回数を示し、C(ai-1,VT,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{ai-1,VT}が出現する回数を示し、C(VT,b1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,b1}が出現する回数を示し、C(VT,bj-1,bj,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,bj-1,bj}が出現する回数を示し、C(VT,bj-1,a’h’,・・・,a’1,VS,b’1,・・・,b’k’)は前記所定の目標言語語句においてシーケンス{VT,bj-1}が出現する回数を示す、請求項5に記載のデータ処理装置。 - 前記語義役割付与ユニットは、前記源言語語句が少なくとも二つの源言語述語を含む場合、各源言語述語及びその関連する語義役割からなるシーケンスを該源言語述語に対応する源言語語義役割シーケンスとし、かつ該源言語述語に対応する目標言語述語及びその関連する語義役割からなるシーケンスを該源言語述語に対応する目標言語語義役割シーケンスとし、
前記マッチングユニットは、同じ源言語述語に対応する源言語語義役割シーケンスと目標言語語義役割シーケンスとの間のマッチング点数を取得し、
前記並べ替え結果確定ユニットは、各源言語述語に対応するマッチング点数に基づいて、最終並べ替え結果を確定する、請求項2に記載のデータ処理装置。 - 前記源言語は中国語であり、前記目標言語は英語である、請求項1から7の何れか一項に記載のデータ処理装置。
- データ処理方法であって、
源言語語句及びその訳文の候補並べ替え結果である複数の目標言語語句に対し、それぞれ語義役割付与を行って、源言語語義役割シーケンス及び複数の目標言語語義役割シーケンスを取得するステップと、
源言語及び目標言語に対応するとともに語義役割付与された二語句の対を含む所定の二言語コーパスに基づき、前記源言語語義役割シーケンスと各前記目標言語語義役割シーケンスそれぞれとの間のマッチング点数を取得するステップと、
前記マッチング点数が最も高い目標言語語義役割シーケンスに対応する候補並べ替え結果を最終並べ替え結果として確定するステップとを含む、データ処理方法。 - 電子機器であって、請求項1から8の何れか一項に記載のデータ処理装置を含む電子機器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310138955.9A CN104111917B (zh) | 2013-04-19 | 2013-04-19 | 数据处理装置、数据处理方法以及电子设备 |
CN201310138955.9 | 2013-04-19 | ||
PCT/CN2014/075776 WO2014169857A1 (zh) | 2013-04-19 | 2014-04-21 | 数据处理装置、数据处理方法以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016519370A true JP2016519370A (ja) | 2016-06-30 |
Family
ID=51708713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016508001A Ceased JP2016519370A (ja) | 2013-04-19 | 2014-04-21 | データ処理装置、データ処理方法及び電子機器 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2016519370A (ja) |
CN (1) | CN104111917B (ja) |
WO (1) | WO2014169857A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808521A (zh) * | 2016-03-04 | 2016-07-27 | 北京工业大学 | 一种基于语义特征的语义关系模式获取方法和*** |
CN107451158B (zh) * | 2016-06-01 | 2021-01-19 | 中国科学院地理科学与资源研究所 | 一种网络文本中交通事件语义角色抽取方法 |
CN109256128A (zh) * | 2018-11-19 | 2019-01-22 | 广东小天才科技有限公司 | 一种根据用户语料自动判定用户角色的方法及*** |
CN111460118B (zh) * | 2020-03-26 | 2023-10-20 | 聚好看科技股份有限公司 | 一种人工智能冲突语义识别方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005025474A (ja) * | 2003-07-01 | 2005-01-27 | Advanced Telecommunication Research Institute International | 機械翻訳装置、コンピュータプログラム及びコンピュータ |
US20090106015A1 (en) * | 2007-10-23 | 2009-04-23 | Microsoft Corporation | Statistical machine translation processing |
JP2013054608A (ja) * | 2011-09-05 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム |
JP2013054508A (ja) * | 2011-09-02 | 2013-03-21 | Canon Inc | 端末装置、情報処理方法及びプログラム |
CN103020045A (zh) * | 2012-12-11 | 2013-04-03 | 中国科学院自动化研究所 | 一种基于谓词论元结构的统计机器翻译方法 |
JP2013218524A (ja) * | 2012-04-09 | 2013-10-24 | National Institute Of Information & Communication Technology | 翻訳装置、およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101042692B (zh) * | 2006-03-24 | 2010-09-22 | 富士通株式会社 | 基于语义预测的译文获取方法和设备 |
CN101414310A (zh) * | 2008-10-17 | 2009-04-22 | 山西大学 | 一种自然语言搜索的方法和装置 |
CN101593174A (zh) * | 2009-03-11 | 2009-12-02 | 林勋准 | 一种机器翻译方法及*** |
CN103020040A (zh) * | 2011-09-27 | 2013-04-03 | 富士通株式会社 | 源语言改写处理方法和设备及机器翻译*** |
-
2013
- 2013-04-19 CN CN201310138955.9A patent/CN104111917B/zh not_active Expired - Fee Related
-
2014
- 2014-04-21 JP JP2016508001A patent/JP2016519370A/ja not_active Ceased
- 2014-04-21 WO PCT/CN2014/075776 patent/WO2014169857A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005025474A (ja) * | 2003-07-01 | 2005-01-27 | Advanced Telecommunication Research Institute International | 機械翻訳装置、コンピュータプログラム及びコンピュータ |
US20090106015A1 (en) * | 2007-10-23 | 2009-04-23 | Microsoft Corporation | Statistical machine translation processing |
JP2013054508A (ja) * | 2011-09-02 | 2013-03-21 | Canon Inc | 端末装置、情報処理方法及びプログラム |
JP2013054608A (ja) * | 2011-09-05 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム |
JP2013218524A (ja) * | 2012-04-09 | 2013-10-24 | National Institute Of Information & Communication Technology | 翻訳装置、およびプログラム |
CN103020045A (zh) * | 2012-12-11 | 2013-04-03 | 中国科学院自动化研究所 | 一种基于谓词论元结构的统计机器翻译方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104111917B (zh) | 2017-04-12 |
CN104111917A (zh) | 2014-10-22 |
WO2014169857A1 (zh) | 2014-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10963794B2 (en) | Concept analysis operations utilizing accelerators | |
US10592607B2 (en) | Iterative alternating neural attention for machine reading | |
US11544474B2 (en) | Generation of text from structured data | |
Chen et al. | Automatic ICD-10 coding algorithm using an improved longest common subsequence based on semantic similarity | |
US9286290B2 (en) | Producing insight information from tables using natural language processing | |
US9098488B2 (en) | Translation of multilingual embedded phrases | |
JP5379138B2 (ja) | 領域辞書の作成 | |
US10803241B2 (en) | System and method for text normalization in noisy channels | |
CN110909550B (zh) | 文本处理方法、装置、电子设备和可读存储介质 | |
JP6090531B2 (ja) | 単語訳取得方法 | |
US20110040769A1 (en) | Query-URL N-Gram Features in Web Ranking | |
JP7335300B2 (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
US9940355B2 (en) | Providing answers to questions having both rankable and probabilistic components | |
US20210110111A1 (en) | Methods and systems for providing universal portability in machine learning | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
JP2016519370A (ja) | データ処理装置、データ処理方法及び電子機器 | |
KR20190138623A (ko) | 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램 | |
Duque et al. | Can multilinguality improve biomedical word sense disambiguation? | |
US10699069B2 (en) | Populating spreadsheets using relational information from documents | |
CN108628911A (zh) | 针对用户输入的表情预测 | |
KR102471032B1 (ko) | 외국어 번역 및 학습 서비스 제공 장치, 방법 및 프로그램 | |
JP2017151678A (ja) | トピック推定装置、トピック推定方法、およびプログラム | |
Efremova et al. | A geo-tagging framework for address extraction from web pages | |
JP4953440B2 (ja) | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 | |
Niu et al. | Faithful target attribute prediction in neural machine translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170802 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180306 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20180731 |