JP2020098616A - テキストの意味を自動検出して一義性を自動測定する方法 - Google Patents

テキストの意味を自動検出して一義性を自動測定する方法 Download PDF

Info

Publication number
JP2020098616A
JP2020098616A JP2020015540A JP2020015540A JP2020098616A JP 2020098616 A JP2020098616 A JP 2020098616A JP 2020015540 A JP2020015540 A JP 2020015540A JP 2020015540 A JP2020015540 A JP 2020015540A JP 2020098616 A JP2020098616 A JP 2020098616A
Authority
JP
Japan
Prior art keywords
sentence
word
semantic
text
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020015540A
Other languages
English (en)
Inventor
ツォルツィン・ルチアノ
Zorzin Luciano
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Speech Sensz GmbH
Original Assignee
Speech Sensz GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Speech Sensz GmbH filed Critical Speech Sensz GmbH
Publication of JP2020098616A publication Critical patent/JP2020098616A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

【課題】与えられた文章および文脈における、基本形、可能な意味論的異形を決定して、単語の正しい意味の組み合わせを計算する方法を提供する。【解決手段】複数の入力単語を用いたテキスト内の意味パターンをデータベースシステムで自動的に検出するために、データベースは、一言語の単語と、この単語の特性を記述するための複数の定義済み意味カテゴリと、データベースに保存されたすべての単語に対する意味信号とを含む。各意味信号は、意味カテゴリを用いた単語の意味の固有な数値特徴付けである。【選択図】図3.2

Description

1. 一般的な論点
1.1 概要
請求項に記載のコンピュータにより実現される発明「意味チェック(正確な意味チェック)の方法とは:高級自然言語のテキストの1つの文章ごとに、当該文章を構成する各単語について、コンピュータ的に、文脈において当該単語の唯一かつ妥当な意味が存在するか否か、そしてこの意味が何であるかを自動的に計算(考慮)することで、当該文章が一義的に構築されているか(一義的に表現されているか)否かを自動的かつ断定的に決定することである。
文章が文字で書かれた高級自然言語における、すべての関連する単語の意味と結合された関連付けとが、予め生成され、標準化された特別な数値フィールド(いわゆる意味信号(意味手がかり))内に保存され、自動的に取得可能となる。
本発明では、当該意味信号は自動的かつ算術的に結合され、比較によって解析され(入力文章とその文脈自体によってのみ制御され)、処理の結果、(文章が一義的でない場合は)構築エラーが報告されるか、または各単語がこの文脈において当該単語に有効な唯一かつ関連付けされた意味信号に恒久的にリンクされる。
これは、文章から、当該文章内に明示的ではなく、通常は暗黙的にのみ存在する情報項目を抽出するタスクに相当する。文章のこの暗黙的な情報は、本発明によって文脈から計算可能であり、文章内に存在する単語の意味信号の算術的かつ論理的組み合わせに関する本発明に記載の方法に基づき、文章自体における単語の特別な配列と形態によってのみ制御される。
専門用語に関する注記:
特別な専門用語と本発明固有の新規用語(意味信号、補語、合字など)を表4にリスト化する。言語学およびコンピュータ言語学の一般技術用語を表7にリスト化する。
1.2 基本手順
1.2.1
複数の入力単語を用いたテキストであって、具体的には少なくとも1つの文章を含むテキスト内の意味パターンをデータベースシステムで自動的に検出する方法であって、前記データベースは、一言語の複数の単語(図3.1の1行目)と、上記単語の特性を記述するための複数の定義済み意味カテゴリ(図3.1における1欄〜4欄、図3.1とセクション3.2における同欄の説明を参照すること)と、上記データベースに保存されたすべての上記単語に対する意味信号とを含み、
各意味信号は、上記意味カテゴリを用いた上記単語の意味の固有な数値特徴付け(単語の意味に固有な数値による特徴付け)であり、
少なくとも以下のステップが実行される方法:
a)入力単語を含む上記テキストをデータ処理用装置に読み込むステップと、
b)上記データベースシステム内の上記単語と、すべての上記入力単語とを比較するステップと、
c)各入力単語に少なくとも1つの意味信号を割り当てるステップであって、同形同音異義語の場合は2つ以上の意味信号を割り当てるステップと、
d)上記入力単語に対する上記意味信号の割り当てが一義的である(単一の意味信号が割り当てられる)場合、上記意味パターンの特定が完了するステップと、
e)1つの入力単語に複数の意味信号を割り当てることが可能な場合、関連する上記意味信号が、文脈による制御のみの手法で相互に比較するステップと、
f)上記入力単語の上記意味信号間の組み合わせに基づき、上記入力単語の意味の矛盾または適合が、(特に、同形同音異義語の場合)上記文脈に存在するか否かが決定されるステップと、
g)矛盾を引き起こす意味信号の組み合わせを拒絶され(図3.2とセクション3.3の関連説明を参照すること)、定義済みの適合基準に基づき(セクション3.3を参照すること)、適合度合(意味変調)に従って、適合に関して、意味信号の組み合わせが自動的に数値で評価されて記録されるステップと、
h)ステップd)およびg)による、すべての入力単語の自動コンパイルが、特に上記文章の、上記テキストの上記意味パターンまたは数値的意味交差マトリクス(図3.2)として出力されるステップと、
i)例えば音声認識による異形同音異義語を持つ単語が存在するテキストであって、適切なトリガを伴うテキストの場合、意味信号一致度のチェックだけでなく、存在する上記単語と、さらに上記単語の同音異字綴りとの形態論的な統語的整合性の上記文脈との関連によるチェックも含むステップであって、テスト対象である上記文章の上記文脈における同一の異形同音異義語群の単語の意味信号内における区別が不十分である場合は、場合によって自動置き換えまたはエラー警告を含み得るステップ。
1.2.2 解決課題
「意味チェック」は、特に複数の意味を持つ単語(=同形同音異義語)の場合、そのうちのどの意味で、文章の著者が当該同形同音異義語をテキストにおいて実際に用いたのかが明示的に示されないテキストの自動処理における技術的課題を解決する。
話し言葉では、「意味チェック」によって、異形同音異義語についても、同形同音異義語と同じ課題が解決される。異形同音異義語の場合、テキストを聞いたとき、使用される単語のスペルは決定されない。
同音異字語の例としては:
Lehre - Leere (teaching (教示) - empty (空の));またはDAX - Dachs (DAX - badger (アナグマ));さらに、特にドイツ語では、大文字と小文字(例えば、wagen (be brave (勇敢)) - Wagen (car, vehicle (車、乗り物));wegen (because of (なぜなら)) - Wegen (ways, dative/plural of way (道、与格/道の複数形));
英語では、例えば、to (〜へ) - two (2の) - too (〜も);またはknew (知っていた) - new (新しい) - gnu (ヌー)が挙げられる。
合字(複合語ではない)についても:例えば”an die (その…へ)” - “Andy (アンディ)”;
また、例えばスペイン語では、”del fin (すなわち「端から」)”- “delfi(”i”はアクセント付)n (イルカ)”が挙げられる。
同音異字語の数(一般的な合字は数に入れない)は、例えば:ドイツ語では約8,000語、英語では約15,000語、フランス語では20,000語、日本語では約30,000語である。
このような同形同音異義語や異形同音異義語などに関する文章の情報であって、明示的ではないが、文章および文脈において、使用する単語自体の組み合わせによって、自然言語のあらゆる一義的な文章に暗黙的に存在する情報は、これまで、当該文章が作成された言語を(音声学的に、または英数字によって)習得した人間のみ断定できてきた。
同形同音異義語と異形同音異義語は、あらゆる言語において最も頻繁に使用される単語に属している。例えば、ドイツ語では、最も頻繁に使用される単語2000語のうちの約80%が同形同音異義語で、約15%が異形同音異義語である。高級言語によっては、この数値がはるかに大きいこともある。
例えば、全く知らない言語で文章の各単語の意味を識別したい場合、当該文章の各単語について、その基本形の意味を、例えば辞書を用いて、調べてから、上記未知の言語で文章の他の単語の文脈において、文章の作者が意図したであろう意味を決定しなければならない。これは、文章に含まれる同形同音異義語の数が多ければ多いほど、一層困難になる。
単語数が5語ないし8語の文章の場合、文章の単語の意味の可能な基本組み合わせは、数百通り、または数千通り存在することが既に一般的だが、この可能な組み合わせのうち、文脈において正しいのはわずか1通りである。例えば、図2の文章2.1.A1と2.1.A2を参照すること。
本発明を適用すると、文章2.1.A2では、各単語の意味が特定され、それぞれの単語に付された上付き記号によって認識可能となる(個々の意味については右側のボックスを参照すること)。図2のこの文章に対しては単語の意味の可能な基本意味組み合わせが約200万通り存在するにも関わらず、この文章は一義的である。図2のJ4−J6フィールドおよびJ15−J17フィールドに記載された情報も参照すること。この例の同形同音異義語の他の意味に関するより詳細な情報は表1に示す。
この課題、(すなわち、与えられた文章および文脈における、基本形、可能な意味論的異形を決定すること、そして単語の正しい意味の組み合わせを計算すること)は、本発明に係るデータベースに意味信号と共に保存されるすべての単語に対して、本発明によって自動的に解決される。そして、実際のところ、入力テキスト(文章+文章文脈)自体の意味信号の数値比較と自動解析のみによって上記を達成することで、統計学的に、またはグラフベース手法(例えば、ユークリッドベクトル空間におけるエッジ長の計算)や、人工ニューラルネットワークなどの手段を使って、その他のテキストデータベースや、コーパス、語彙集などを解析する必要がなくなる。
ここで、意味信号をコンピュータ処理するときに選択される構造と算術は、「関連付け」のようなどちらかといえば神経学的な用語とは対照的に、数値パターンのコンピュータベースの処理に相当するため、意味信号について述べることが重要になる。
意味信号は、数値的方法における関連付けを表すものの、意味信号自体が関連付けではない。人間が言語を認知するとき、関連付けの処理中に脳内に存在する電気的な「流れ」にも、通信技術分野における意味信号の相互変調の処理にも類似することから、「意味信号」という新しい表現の使用が推奨される。
1.3 技術的応用/従来技術との比較
意味チェック以外の、本発明の直接的かつ実用的応用例は以下を含む:
● 高品質の自動機械翻訳システム。理由は:
第一に、一義的な文章のみを正確に翻訳できる。第二に、文脈における文章の個々の単語の妥当な意味(のみ)が分かる場合にだけ、一義的な文章に正しい翻訳を割り当てることができる。(無償であろうと有償であろうと)周知の製品に搭載される認知された従来技術では、例えば統計的機械翻訳エンジンの場合、50%は誤訳である。本発明で検索されるデータベースは、従来の統計的機械翻訳システムに搭載されるデータベースと比べて500…1000倍小規模にもかかわらず、95%を上回るまでに翻訳品質を向上させる(参照:表5と表6)。
● 文脈内の各単語の妥当かつ一意的な意味の知識によって、特に、テキストデータベースの意味論的インデックスを、意味に照らして、新規に自動作成できるようになり、検索エンジンによって、従来技術よりもはるかに正確な検索結果(無関係なヒット率を99%から99.99%削減)が可能となる。周知の製品に搭載される認知された従来技術では、検索語が同形同音異義語の場合、当該単語の意図された唯一の意味のヒットだけでなく、すべての意味のヒットが表示される。
● また、音声認識またはヒューマン・マシン・ダイアログでは、こうした文脈における各単語の妥当かつ一意的な意味の知識によって、入力の正確な(意味に関連した)認識とその後の処理とが、これまで存在していなかった、自動的に生成された入力に関連する、合理的に理解できる対話式ダイアログの形式でも、可能となる。
周知の製品に搭載される認知された従来技術では、異形同音異義語は100%誤って解釈され、論理的推論に重要となる単語の信頼性の高い検出は不可能である。例2.2の文章2.2.B1と2.2.B2も参照すること。
1.4 明細書の概要
本発明のコンピュータにより実現される手順は、スペルチェッカーの手順と単純に形式的な方法で比較できる。(新規の)意味チェック(B)のフロー概要図は、(既知の)自動スペルチェッカー(A)のフロー概要図と非常に類似している。図1(B)(本発明)は、単語のすべての可能な関連付けの、意味信号に保存されたその文脈に対する関連性を自動計算する、新しい数値型処理に基づく。
意味信号は、各単語と、その異なる意味1つ1つの基礎となるデータである。意味信号は固定化されており、互いに数値的かつ論理的に比較可能な多次元数値フィールドである。本発明では、意味信号は高級言語の関連するすべての単語について定義され、自動的に取得可能である(図4の4.7)。
単語の意味信号は、その単語が意味信号を1つしか有さない場合、文脈において「有効」になる(図1の上から3つ目の右側のボックス)。その理由としては、その単語がたった1つの意味しか持たないため、または文脈内の少なくとももう1つの単語の意味信号が、文脈内の他の単語と比べて、上記単語と複数の一致、実際にはかなり多くの一致を有するためである。これらの意味の観点からお互いを「有効にする」単語は、本発明の文脈においては「補語」と呼ぶ(セクション2の冒頭で詳細に定義する)。
いかなる文章の単語も、以下の理由から、文脈内で複数の関連付けを持つことができる:
あらゆる言語において、スペルが全く同じで、異なる意味を持つ単語(同形同音異義語と呼ばれる)の数は数万に上る(例えば、ドイツ語では約35,000語、英語では約50,000語)。例えば、ドイツ語では、Lauf[13の意味]、Zug[43]、Geschoss[4]、anziehen[12]が挙げられる。
同形同音異義語は、非同形同音異義語と比較すると、あらゆる言語で非常に頻繁に使用される。
また、文の不変化詞は、通常、割り当てられる単語や句に応じて、大抵の場合は位置依存性である複数の意味と統語的機能とを有する同形同音異義語である。
従って、文の不変化詞だけでも、副詞を含めると(副詞はその機能の観点から、語形変化しない単語である)、合計で約5,300の同形同音異義語が存在する。
自然言語ではテキストのほぼすべての文章に、同形同音異義語が含まれる。従って、EDPの従来技術における単純な語彙(ここで、上付き添え字は参照すべき表番を示す。)解析オプション(実際には、255のASCII文字を含む、グーテンベルク活字ケースと同程度である)は、テキスト内の意味によって単語を処理するタスクには著しく不適当である。
これは、すべての高級自然言語の話し言葉に当てはまる。
テキストの作者によって同形同音異義語に割り当てられた意味は、当該同形同音異義語が現れる文脈によって決定され、テキスト自体からは明示的に得られない。
各同形同音異義語が文章文脈において、妥当な意味を有するか、さらにどの意味を有するかは、意味チェック(B)が適用されて初めて分かる(図2では、テキスト2.1.A1が、インデックス付きの形式2.1.A2に変換される)。
自然言語のこの特性(複数の意味で用いられる単語の一義的な意味は、テキスト自体から明示的に抽出することはできず、言語知識によってのみ文脈に暗黙的に関連付けできる)には、世界的に見ても、広く有効な言語学上の定義は存在しない。
文章意味論の規律において、この特性は「語義曖昧性」、「同形同音異義性」、「両義性」、「多義性」などの用語を用いて、広義で制限されている。従来技術では、「語義の曖昧性解消」または「両義性の低減」という用語が一般的に使用される。しかし、単語の「曖昧性を解消」できる、または「文章の両義性」を低減できるといった表現は、以下の理由から、形式上、論理的に間違っているか、または誤解を招く:
文章内の一単語、または一文は、一義的か一義的でないかのどちらかである。この一義的か一義的でないかは、文章の作者と、文章の文脈とのみが排除できる。
つまり、文章の非一義性は、
(a)人間によってのみ決定され得るか、または
(b)適切な方法(請求項に記載の発明)によってのみ、自動的に計算され得る。
したがって以下では、自然言語には「語義曖昧性」、「同形同音異義性」「非一義性」、「多義性」が常に存在するにもかかわらず、1つの文章内のすべての単語に用いられる意味の数とそのうちのどの意味が用いられているのかを計算可能な、請求項に記載の全く新しい方法には、以下の名称を付与する:「単語間の関連付け可能な、補語の意味関係を計算することによる、文章の暗黙の意味の断定」。
英語では以下のように略される:
SenSzCore - Sentence sense determination by computing of complementary, associative, semantical relationships(補語の関連する意味関係の演算による文章の意義断定)。
意味チェックを行わなければ、すなわちSenSzCoreを用いなければ、例えば音声認識や翻訳において、極めて正確な正意志向の作業をテキスト自体を用いて自動的に実行することは不可能である。意味チェックを行わなければ(従来技術を適用した場合と同様)意味の自動処理においてあからさまな解釈ミスが頻繁に生じることになる。
SenSzCoreによる意味チェックは、単語の意味の検出によるテキストの自動処理に極めて重要であり、従来技術(電子データ処理(EDP))と対照的に、高級自然言語のテキストの電子意義処理(ESP)の動作前提条件となる。
従来技術の翻訳ソフトウェアまたは音声認識ソフトウェアに関する見解は以下の通りである:
文章の意味の基準を(文脈における関連付けではなく、かつ解析した単語量に関係なく)単語自体の解析に置いたあらゆるアプリケーションで、解析した単語の文脈における正確な意味を把握できたのは、全体の約50%にとどまる。
証拠:
例えば、標準的な市販の機械翻訳システムのヒット率は約50%である。
原因:
255のASCII文字の形式で存在する文章の明示的な(従って、単純に語彙的な)データの解析(例えば他の似たような文章による統計的手法による解析)は、(それ自体は)いかなる暗黙の情報も提供できない。なぜなら、この情報は英数字と文字の組み合わせには本質的には存在しないが、テキストの読者が、当該テキストが書かれた言語について十分に優れた語学力を持つことを前提とすると、読者がこのテキストを読むときに、その頭の中に存在するものだからである。
言い換えれば:文章の暗黙の情報は単一言語に限られ、(テキストの読者の頭の中にあるのと同様の)コンピュータを用いた手段によって処理可能な、テキストが書かれた言語の単語間での関連付けを使ってのみコンピュータ的に認識できる。
比喩的に言えば、本発明は、露光した感光性領域を画素に変えるCCDカメラが、コンピュータベースの画像処理にとって必須であるのと同様、文脈における単語の「関連付け可能なようにデジタル化された意味」(意味信号)の適用によって、コンピュータ処理を可能にする新たな方法を示すものである。
しかしながら、意味信号は、感光面から生じる画像画素の短い数値情報と比較すると、論理的かつ構造的にはるかに複雑である。
この事項に関する他の例を、次のセクションで提示する。
1.5 機能原則および従来技術との比較
ドイツ語の文章の文脈において(例えば、”Wir werden die Preise anziehen.”- [We will increase the prices (私たちは価格を上げるだろう)])、ある人が単語(ここでは:Preise [prices (価格)])に遭遇したとき、その同形同音異義語のすべての意味論的な関連付け(ここでは:anziehen [increase (上げる)])に対して、その都度、たった1つの意味を有効にし、それにより当該文章が読者にとって一義的となる。
本発明の主題は(人間では極めて迅速かつ無意識に生じる)この種の判定を、文章自体と、当該文章の文脈と、当該文章に関連付けされた本発明固有の意味信号とのコンピュータ処理によってのみ、自動的に実行することである。
特に翻訳または音声認識の場合、単語の意味の自動定義における欠点がすぐに明らかになる:
従来技術による自動機械翻訳システムで、例えば以下のドイツ語の文章を翻訳すると:
”Ich nahm einen langen Zug aus der Zigarette.” (I took a long draw from the cigarette. (私はタバコを長く吸い込んだ))
以下のように完全に誤って翻訳されるであろう:
”I took a long train from the cigarette (私はタバコから長い列車に乗った)”。
また、次の文章(図2の2.1.A1)は:
”Der Zug im Lauf verleiht dem Geschoss eine Drehung um seine La(ウムラウト付(以下、「ウムラウト付」は、先の一語にウムラウトが付いていることを示す。))ngsachse.” (The groove in the barrel makes the projectile rotate about its longitudinal axis. (銃身の溝によって発射体はその縦軸の周りを回転する))
以下のように完全に誤って翻訳される:
”The train in the course gives the floor a rotation about its longitudinal axis. (走行中の列車は、床に、その縦軸の周りの回転を与える)”(図2の座標H8)。表1における単語の個々の意味も参照すること。
文章とその正しい翻訳が保存済みの例文としてプログラム内で入手可能な場合を除き、従来技術による翻訳プログラムでは、翻訳の約50%にこの種の重大なエラーが見られる。
現在までに、従来技術では、間接的な意味の割り当て方法のみが機械翻訳システム(例えば、US 8548795、US8260605 B2、US 8190423 B2)において知られている。これらのシステムは、大規模なテキストコーパス(大量のテキストコレクション、例えば数百万もの文章を含むEU議事録の翻訳)、いわゆる「世界知識データベース」の解析によって、統計手法やグラフベース手法に基づき、文脈において単語の正しい割り当てを自動的に決定しようと試みるものである。
従来技術では、入力テキスト(それ自体)の実際の関連付け可能な意味を直接的に検出する試みさえしない。
従来技術で正しい翻訳(=間接的な意味の取得)を割り当てるために行うことは、一言語の入力テキストが他言語において(並行して)高頻度で一致する文章または文章の断片を見つけ出し、それらを合わせて組み立てて適度に読みやすい翻訳を形成することを試みるだけである。その結果、品質に関しては明らかに予測不可能となる:従来技術による機械翻訳システムで翻訳した文章のうち、意味的および文法的に正確な文章はわずか50%程度である(表5の例も参照すること)。
図1に示す新たな方法(B)の「意味チェック」によれば、すべての関連する屈折形(文法規則に従った単語の変化、例えば語形変化、複数形など:the train (列車)、trains (複数の列車)… go (行く)、went (行った)、gone (行ってしまった)、going (行く予定である)、on the go (移動中)…)を含む、一言語の単語の関連する意味はすべて数値的に獲得され、コンピュータにより実現されるデータベースに、いわばデジタル意味信号としてそれぞれ恒久的に保存される(例えば、図4の4.7)。
意味信号の作成は、予め行われる1回限りの手動操作である。その結果生成されるデータベースには標準ドイツ語約5,000万語が含まれ、おおよそ単一言語の大辞典20冊の規模に相当し、従って、例えば従来技術における翻訳プログラムで使用されるデータベースと比較すると約1000分の1に過ぎない。
単語を1つの文章と他の文章とで比較することで、上記データベースに保存される当該単語の意味信号すべてを用いて、すべての単語について、その都度、文章文脈内での正確な意味が何であるかを自動的に計算できる。与えられた文章がいかなる文章か、与えられた文脈がいかなる文脈かは問わない。
これは、新しく、直接的かつ断定的手順である。
単なる算術の使用を可能にし、文章や当該文章の一部を大規模コーパスと比較して統計的結論を下すための統計的またはグラフベースのアルゴリズムは不要である。
本発明では(従来技術のように)文章を他の文章と比較せず、当該文章の単語の意味を当該文章自体の他の単語の意味と比較し、場合によっては直前の文脈の意味と比較する。これは、単語や単語連鎖のレベルで、数値的に行われる。
狭義では、本発明で実施するのは、信号源(この場合はデータベースからのデジタル信号を加えることによるデジタル測定装置と同様に)、特定の単語とそのすべての正確な屈折形に対して恒久的に割り当てられる意味信号(図3.1)の取得による、局所測定である(サンプル内容については表1を参照すること)。
1つしか意味を持たない単語の場合、その単語の唯一かつ完全な意味信号と、そのすべての語形変化とがデータベースにリスト化される。”n”の意味を持つ単語(同形同音異義語)の場合、個々の単語の”n”個かつ”n”個に限られた意味信号と、そのすべての語形変化とがデータベースにリスト化される。
1つの単語のすべての意味信号は、その単語がどの語形変化で現れるかに関係なく、(テキストとして書面形式で)データベースから取得可能である。意味信号は、標準化された、算術的に評価可能な英数字による多次元形式で存在する(意味信号の構成要素については図3.1;説明についてはセクション3.2を参照すること)。
文章の文脈内で”n”の意味を持つ同形同音異義語の文脈的に正しい意味信号を決定するには、すべてのカテゴリにおける”n”の意味信号が、文章の単語のすべての他の意味信号に対して、ペアで算術的に追加される(図3.2および表5を参照)。文章内に存在するすべての同形同音異義語と単語の複数の意味組み合わせの数だけ、この追加は何度でも行われる。算術演算によって修正された同形同音異義語の各意味は(後から比較するために)一時的に保存される。例えば、図3.2に示すように行列形式で保存される。
本発明の算術的手順に続いて、文章の計算結果の中に、すべての意味信号において妥当な方法で、文章内の他のどの単語によっても変更されることがない同形同音異義語を局所文脈に見つけることができる場合、当該文章は一義的ではなく、(スペルチェッカーと同様)入力文章には許容可能に構築されたテキストが存在しないというメッセージがユーザに対して自動的に表示される(図1、図4、図6)。従って、本発明はいわば、文章の自動的な「意味チェック」を行っている(スペルチェックとの比較については図1を参照すること)。
意味信号は、個々の単語だけでなく、所定の単語連鎖(いわゆる「イディオム」を含む。例えばドイツ語の”schwer auf Draht sein”(文字通り訳すと”to be heavy on the wire (ワイヤ上に重くのしかかる)”) = “to be fit” (フィットする))にも恒久的に割り当てることができる。以下、「単語」または「複数の単語」という用語を使用する場合、記載されたすべての文言が、当該単語が現れる文章自体よりも短い単語連鎖に対しても適用される。1つの単語が、別の意味信号が存在する単語連鎖に含まれる場合、算術演算ではこの単語連鎖は一単語として扱われる。
非一義的文章は、正確に翻訳することも、正確にインデックス化することもできない;従って、これらの非一義的文章は「電子意義処理」=ESPには無益である。
従って、言語の「インテリジェント」な処理には、文章の一義性を測定できる手順を確保することが重要となる。
2. 理論的背景と本発明固有の用語
本発明は、特に言語学的に言語非依存の以下の事実に基づく:
同形同音異義語を含む文章(またはその直前の文脈)では、同形同音異義語ごとに、同一の高級言語において少なくとももう1つ別の単語が存在しており、各同形同音異義語の唯一の意味信号を有効にすることで、当該文章はこの特定の高級言語において一意的な意味を得る。
(文脈において同形同音異義語の意味信号の1つを「有効にする」)これらの単語を以下、「意味補語」または「補語」と呼ぶ。
言語学では、「補語」という用語は構造統語論においてよく知られているが、ここで新たに定義するその「意味補語」とは全く異なる機能を持つ。さらに、ドイツ語では、商法の用語”der Komplementa(ウムラウト付)r” [general partner (ジェネラル・パートナー)]と区別するため、中性形”das Komplementa(ウムラウト付)r” [Complement (補語)]を選択する。
意味補語は、0よりも大きい個々のカテゴリにおいて、同形同音異義語の意味信号を数値的に変更する。他の単語による、同形同音異義語の意味信号の算術的な変化が大きければ大きいほど、互いの関係における相補性(補完性)がより強くなる。
通信用語では:
文章内の同形同音異義語の”n”の意味信号が、すべての意味異形において、その文脈が原因で> 0となる意味信号の振幅において振幅変調を受けない場合、当該文章は一意的な意味を持たない/一義的でなくなる。
以下、意味信号の重畳を、この処理を最もよく表すため、「変調」と呼ぶ。
各単語は、任意の数の他の単語に対する補語になり得る。従って、SenSzCoreによる意味チェック処理によって検出されるには、言語のすべての単語は独自の意味信号を持つ必要がある。
本発明における意味信号構造は、平均的な教育を受けている人が文章を読むとき、直感的に特定するのと同様に相補性が生じるように、経験的な試みの結果として構造化される。
個々の意味カテゴリの位置と定義における意味信号構造は、すべての単語で等しい(図3.1)。意味信号は個々のカテゴリの値でのみ異なる。
意味信号は、多次元数値フィールドであると考えられ得る。
”thingamajig (何とかというもの)”(ほぼ何でも意味することが可能)のような意味がほとんどない単語の数値は、個々の意味カテゴリのほぼすべてにおいて数値=0となる。
”heroism (勇敢さ)”のような抽象的な単語、または”apprentice (見習い)”のような意味論的に多数の側面を持つ単語は、多くの位置で0よりも大きい値を有する。複合語では、単語の意味信号は、その意味の多くにおいて、その構成要素の意味信号の合計から最大限まで構成され得る。
例えば、ドイツ語の単語”Pferdewagen” (“horse-drawn carriage (馬車)”)の意味信号は、”Pferd 1”(“horse 1 (馬1)”) <zool (動物学)>と”Wagen 3” <2D Gefa(ウムラウト付)hrt mit Roll_Ra(ウムラウト付)dern><kein eigen_Antrieb> (“carriage 3 (台車3)”<2D vehicle with wheels (車輪付きの2D車両)><no intrinsic_drive (非内在_駆動部)>)の意味信号の合計となる。
この例は、単語の定義と意味信号との間の本質的な違いを明らかにすることを意図している。
−意味信号は正規化された関連付けの数値記憶である。
−対照的に、意味論的定義は、読むときに脳内で関連付けを呼び出すことができる単語連鎖である。図3.1の比較を参照すること…
現在、本発明における意味信号は、512の個々の意味カテゴリと15の基礎信号群で構成される(図3.1)。これらの示された数字は、本発明の計算を文章の一意性に関連する人間の知覚と比較するとき、新しい手順において好結果をもたらすとして、経験に基づいて決定された実用的な値に過ぎない。他の値を用いることもできるが、個々のカテゴリが50未満、基礎信号群が3未満だと通常、例えば従来技術による機械翻訳システムとほぼ同じくらい不十分な、使いものにならない結果が生じる。
本発明は、ドイツ語については、約5,000万語(従来技術による統計的翻訳プログラムの単語量と比較すると約0.1%)のデータベースを有しており、このデータベースは約100万の異なる単語の基本形と、その屈折形とで構成されており、ひいては高級言語の約20,000の関連する基本意味信号で形成され得る意味信号から構成される。
この優れた分解能は、日常のビジネス言語使用(技術、商業、科学)に対応する。
より制限された専門的な言語領域、例えば料理学などは、この単語量の1/10程度と少ない単語量でも十分に記述できる。しかし、制限されたオントロジーにおいて優れた結果を出すには、一般言語と制限された言語領域からのすべての同形同音異義語一式が選択に含まれる必要がある。
2.1 SenSzCoreデータベースにおける構造情報:
単語A、A’、…は他の単語Bと同一の意味信号を有するが、Bとはスペルが異なるため、Bの同義語である。
単語A、A’、…は他の単語Bと異なる意味信号を有するが、Bとスペルが同一であるため、Bの同形同音異義語である。
単語A、A’、…は他の単語Bとほぼ同一だが、Bより短い意味信号を有するため、Bの上位語である可能性がある。
単語A、A’、…は他の単語Bとほぼ同一だが、Bより長い意味信号を有するため、Bの下位語である可能性がある。
各高級言語には、平均約8語の同義語を含む、約50,000の関連する同義語群が存在する。
関連する同義語を一切持たない高級言語の単語を以下、「シングルトン」と呼ぶ。
100%同義語は通常、単語の異つづり(例えばphoto/foto (いずれの意味も「写真」))に過ぎない。本発明のデータベースでは、互いに対する重複が85%超の意味信号を持つ単語を同義語として扱う。しかし、その判定はデータ作成時に(事前に)手入力で行い、以下の規則に従う:同義語とは、文章の意味を著しく変えることなく、文章において互いに交換可能な単語のことである。
意味信号のもう1つの重要な特性は、言語不変的であるという点である。このことから、同等の同義語群のすべての単語はすべての言語で同じ意味信号を持つことになる。
従って、意味信号に基づいた「意味チェック」の計算は、ソース言語に関係なく実行できる。
意味信号は特定の領域に付加される。意味信号の中には、個々の意味カテゴリ間での多次元数価参照も可能で利用できる(図3.1、セクション3.2の制約参照(CR)を参照すること)。
2.2 例文に基づいた機能と用語に関する注記
例A1:ドイツ語”Wir werden sie anziehen” (We will tighten/dress/attract... them (私たちは…それらを締め付ける/着せる/引き付けるだろう)):
この場合、上記文章は動詞”anziehen”の他動詞としての意味を持つが、SenSzCoreデータベースには10個の異なる他動詞の意味信号が含まれる。
当該意味信号は以下を含む(大幅に簡略化した表現)。
同形同音異義語 簡単な説明 例
anziehen1 = 服を身に着ける、… (例えばズボン)
anziehen2 = 相互作用力を増す、… (例えばネジ)
anziehen3 = 価値を高める、… (例えば価格)
anziehen4 = フィールド引力を発揮する、… (例えば磁石を用いて)
anziehen5 = 誰か(s.o.)に精神的に引きつけられるように見える、
(例えば言葉によって)
anziehen6 = データを入手可能にする、… (例えば引用)
anziehen7 = 引っ込める、伸ばさない… (例えば足)
anziehen8 = 間接的な引力を発揮する、…
(例えばロープを使って木の切り株に)
例A1:”Wir werden sie anziehen”では、例えば”Hose”(trousers (ズボン))を追加することで一義性が生まれるであろう:
”Wir werden die Hose anziehen”. (We will put on the trousers (私たちはズボンを身に着けるだろう))
”trousers (ズボン)”の意味信号は、複数の意味信号カテゴリの値を持ち、”anziehen1”: “put on clothing (服を身に着ける)”の意味信号が占有するカテゴリとも一致する。
”put on clothing (服を身に着ける)”という意味における”anziehen”の意味信号は従って、文章中の”Hose” (trousers (ズボン))の存在によって著しく変化する。”Hose” (trousers (ズボン))と”anziehen” (“put on (身に着ける)”)は従って、文章”Wir werden die Hose anziehen” (We will put on the trousers (私たちはズボンを身に着けるだろう))における補語である。
”trousers (ズボン)”と”put on (身に着ける)”の意味信号はそれぞれ、その意味可能性のうちの1つにおいて著しく変調されている。その他全ての意味においては、意味信号は互いに変調しないか、かなり弱い程度で変調する。
同様に、以下のように文章を記載した場合、当該文章の一義性は、”anziehen”の他の意味信号によって生成されるであろう:
“Wir werden die Preise anziehen.” (Preise = 'prices (価格)') (=increase (上昇する))、または
“Wir werden die Beine anziehen” (Beine = 'legs (足)') (=bend (曲げる))、または
“Wir werden die Schraube anziehen” (Schraube = 'screw (ネジ)') (=tighten (締め付ける))など。
例A1に追加された単語はそれぞれ、補語として”anziehen”の他の意味を変調し、唯一かつ特定の、別の正しい測定を自動的に有効にし、従って自動的に処理可能とする。同形同音異義語は、補語によって「有効」となる。
”anziehen”を(他動詞的に)含む文章ごとに、SenSzCoreは補語に対して同様の形式で対応するであろう。例えば、Rock (skirt (スカート)) 2 <clothing (衣類)>“、”Geha(ウムラウト付)lter (salaries (給与)) <econ (経済)>“、”Arm (腕) <anat (解剖学)>“、”Dehnschraube (Expansion bolt (開きボルト)) <mech (機械)>“、”Bremse (Brake (ブレーキ)) 3 <mech (機械)>“などによって、例A1で既に記載した補語のように、”anziehen”の局所的な他動詞的意味の正確な自動計算が全く同じ方法で行われる。
上記の補語を先に挙げた文章に書き込むと以下のようになる:
例A2:
“Wir haben die Marktpreise sorgfa(ウムラウト付)ltig gepru(ウムラウト付)ft. Wir werden sie anziehen” (We have carefully examined the market prices. We will increase them. (私たちは市場価格を注意深く検証してきた。私たちはそれらを上昇させるだろう))という文章では、本発明は文章2の”sie”(them (それら))と文章1の”market prices (市場価格)”との関係を認識し、”anziehen”の”erho(ウムラウト付)hen” (increase (上昇させる))という意味を、妥当な意味として自動的に計算する。
以下、この条件を:「文章間の相補性(補完性)」と呼ぶ。この「文章間の相補性」は文章中の「直示的な」参照と共に非常に頻繁に発生する。
文章中に複数の補語が現れる場合、本発明の機能によって、同形同音異義語の正しい意味の自動選択も可能となる:
例A3:
“Er nimmt den Schraubenschlu(ウムラウト付)ssel aus der Hose und wird die Schraube anziehen.” (He takes out the wrench from the trousers and will tighten the screw. (彼はズボンからレンチを取り出し、ネジを締めようとしている))
ここでは、”trousers (ズボン)”ではなく”screw (ネジ)”が”tighten (締め付ける)”の補語である。接続詞”and (〜と)”によって、本発明は第二主節における主語(ドイツ語での主語)「ネジ」を認識し、その結果、この第二主節の補語の検索が制約される。
複数の同形同音異義語が統語的に、互いにはっきりと分離されていない場合(例えば接続詞を伴う場合がそうであろう)、原則的には、文章に含まれる同形同音異義語が1つだけのときと同じ標準的な手順に従う。文章の単語のすべての意味信号は、統語的に定義可能な文章部のすべての他の単語のすべての意味信号と比較される。通常、この種の文章における補語は、その同形同音異義語に極めて接近してのみ現れる。さもなければ、これらの文章を理解するのが非常に困難になるであろう。このため、本発明では、複数の同形同音異義語が連続する場合、文章における同形同音異義語間の距離が計算に含まれる。このアプローチでは通常、主語−目的語の関係も有用になり得る。
1つの同形同音異義語が複数の他の同形同音異義語を変調する場合、当該他の同形同音異義語の意味信号については、それら自体が最も類似する意味信号が好ましい。以下、この条件を「多重(複数)の相補性(補完性)」と呼ぶ。計算終了時、同じ値を有する複数の可能性がある場合、文章の意味は一意的ではなく、「意味チェック」が自動的にエラーメッセージを生成する。
完璧を期するために、ここで別の例文を挙げる。
例A4:
“Er ist am anziehen” (He is tightening/bending/increasing etc. (彼は締める/曲がる/増えるなど))では、”anziehen”の自動詞7としての意味が使われなければならない。
その意味とは:
同形同音異義語 簡単な説明 例
anziehen11 = 駆動依存の力を発揮する、… (例えば機関車)
anziehen12 = 材料構造を積極的に変更する、… (例えば接着剤)
この場合、文章A4は本質的かつ論理的に一義的ではない。本発明では、anziehen11の”The locomotive is being driven (機関車を駆動する)”における”locomotive (機関車)”のような駆動依存の目的語、またはanziehen12の”The adhesive is setting (接着剤が硬化する)”における”adhesive (接着剤)”のような化学的活性材料の意味信号の適切な補語のみによって、正しい意味の割り当てが可能となる。一方で、例えば、”Die Hose ist am anziehen”において”Hose” (trousers (ズボン))を使用すると、(相補性を欠き)「意味チェック」によるエラーメッセージにつながる。
これは、単語'trousers (ズボン)'が意味信号内に、自動詞の統語的機能における'anziehen'を変調する、「駆動依存の力を発揮できる」または「材料構造を積極的に変更できる」といったカテゴリの値を持たないためである。
2.3 従来技術の翻訳による例文に基づく機能と用語に関する注意事項
自動電子意義処理「ESP」の難点と、本発明の正確かつ簡素な機能を実証する特に印象的な方法としては、従来技術による周知の機械翻訳エンジンの典型的なエラーを使用する方法がある。
まず、従来技術における観察結果を以下に挙げる:(表2)
B1とB2において、翻訳では、”Zug”の最も一般的な使い方である”train (列車)”が明らかに使用されている。これは、「意味」を断定する統計的手法の典型的な結果である。例B1においては、3つの同形同音異義語である”train (列車)”、”running (走行)”、”floor (床)”はそれぞれ実際のところ間違った意味で検出され、その結果、間違って翻訳されている。
B1では、”Lauf”に対しては、意味”gun barrel (銃身)”の代わりに、意味”running (走行)”が用いられている。
B1では、”Geschoss”に対しては、単語”projectile (発射物)”ではなく、意味”floor (床)”、すなわち家の床が用いられている。
B3とB4では、”Geschoss”に対して、家の床である”floor (床)”の代わりに、意味”bullet (銃弾)”が用いられている。
この4つの例文で「意味チェック」を用いると、各例文において、各文章の一義性を算術的に決定するのに十分な補語が含まれることから、正しい解釈のみが得られる:
B1では:単語”Geschoss”が”Zug”と”Lauf”の意味に対して、その「武器関連」の意味(英語:”Zug”に対して”groove (溝)”、そして”Feuerwaffen-Lauf”に対して”barrel (銃身)”)に高い優先度を与え、結果として(多重の相補性を用いることで)本発明によって英語への正しい翻訳がもたらされる:”In the groove of the barrel the projectile gets a rotation around his longitudinal axis. (銃身の溝で、発射物が縦軸を中心に回転する)”。表2および表1も参照すること。
B2では、”zigarette” (cigarette (タバコ))が、”Lungenzug”(英語=”puff (息)”)の”Zug”に優先権を与えるため、SenSzCoreによって英語へと正しく翻訳される:”In the course of the last minute I took just one deep puff from the cigarette (直前になって、私はタバコをたった一回深く吸い込んだ)”。
B3では、”Gefahrenausgang” (emergency exit (非常口))と”Geba(ウムラウト付)ude”(building (建物))は、建物の”Geschoss”(“floor (フロア)”)の補語であり、従って本発明によって英語への正しい翻訳がもたらされる:”The floor must have an emergency exit on the rear of the building (建物の背部には、フロアに非常口を設けなければならない)”。
B4では、”Personen” (people (人々))と”sperren”(lock (錠を掛ける))が、建物の”Geschoss”(floor (フロア))の補語である。第二節では、単語”Sturm”(storm (嵐))は、特にその可動性と次元値のために、同義語群”heranziehen”(英語:”be approaching(接近する)”)の相補性を、意味信号において単語群”im Anzug sein”(“be approaching (接近する)”)に付与し、従ってSenSzCoreによって英語への正しい翻訳がもたらされる:”The floor was barred for persons, because a storm was approaching (嵐が接近していたため、フロアへの人々の出入りが禁じられた)”。衣類という意味での”Anzug” (suit (スーツ))に対する相補性は、この文章には存在しないことに注意しなければならない。
重要事項:
翻訳の品質はとりわけ、ターゲット言語における同形同音異義語が文章において他の言語の正しい補語も見つけ出せるという事実によって決定される。これは、本発明の設計および構造によっても自動的に確保される:すべての言語で同一の意味信号に割り当てられた同義語群から翻訳を選択することによって、単語の意味相補性は翻訳後、必然的に維持される。
本発明と比較した、従来技術における意味の割り当てに関する代表的な難点の概要を提供するため、先の例文を表3に改めて要約する。
図面は、本発明の基本構成要素および処理を詳細に説明するものである。
スペルチェック(A)の処理と新たな意味チェック(B)の処理とを(単純に形式的な観点で)比較するフロー簡略図である。 [A]機械翻訳システムおよび[B]音声認識エンジンにおける応用事例を用いた、自動「意味チェック」の大幅に簡略化した形式による概要である。 意味信号の構造と内容の概要を示す。 図3.1Aの続きである。 図3.1Bの続きである。 意味信号を比較するための標準値比較行列を示す。 意味チェックシステムのシステム概要を示す。 単語の意味スコアを計算するためのフロー図(図4の手順を示すボックス4.11)である。 意味チェックシステムのシステム概要を示す。
3. 本発明の詳細な説明
3.1 図4と図6における処理の説明:
例えば表示装置または音声認識システムを用いたデータ入力と、対応する信号変換によって、処理可能なテキストがコンピュータにより実現される意味チェックシステムに到達する(図4のセクション4.5〜4.13)。
本発明は以下のように抽象的な形式で記述することも可能である:
「コンピュータにより実現される、文脈依存の(文脈によって左右される)信号変換器+測定装置」。
これは、本発明では、単純な正字法信号が測定装置によって、以下の意味信号に変換されることを意味する:
a)テキスト入力が一義的か否かを決定し、
b)一義的である場合、スペースを含まない各文字列は、(文章の文脈に関連して)正しい意味信号に関連付けられる。
意味チェックは、文章単位でテキスト文を処理する。
特別な意味論的/統語的機能を持ち、長さ=1_wordである文章でない限り(例えば”Hello! (こんにちは!)”、”please! (お願い!)”などの間投詞や、例えばロマンス言語では:スペイン語:”Llueve.”、イタリア語:”Piove.”…= “It's raining. (雨が降っている)”などの非人称動詞)、単一単語の処理は行われない。
文章のすべての単語の存在がEDPシステム4.7に保持されたデータに対して4.5.1でチェックされ、実在する(すなわち、例えば”haben”または”haken”ではなく”haven”のように、文字の組み合わせ自体が排除につながる例を除く全例)とされた後、文章における各単語の統語的機能を決定する再帰的自動演算が実施される。この処理は、伝統的な「解析木」の使用を必要としない。不変化詞とそれに続く単語の意味信号を用いると、構造上のスペリングエラー(構造上のスペリングエラー=誤字)が存在しなければ、実際の事例の85%超{数千の文章に対して行った独自の実験的評価}で、各単語の統語的機能を決定できる。
各単語の統語的機能を決定できない場合(事例の約15%=すべての単語が存在するが、その統語的機能が一意的に特定できない)、相互に関連する位置だけで統語的機能を決定できない各単語対では意味信号の計算によって支持される。
この処理では、単語の統語的スペリングエラーも既に考慮されている。例えばドイツ語では、単語の大文字と小文字の両方のスペルが可能だが、現在の文章では間違いとなる(例えば、”Wir Karren den Mist vom Hof.” (We cart [noun] the manure from the farm. (私たちは農場から肥料を荷車[名詞](動詞は「運ぶ」))”)。4.5.1と4.5.2の間では、複数の再帰的ループが可能となる。
例えば、”Die liegen am Pool waren Besetzt.” (The lie at the pool were occupied. (プールで横たわるのは占領されていた)”)…は2つのパスが必要となるであろう(構造的には正しくても、完全に間違いであるスペルは言うまでもなく、4.5.1で既に排除されている)。
”Wir Karren den Mist vom Hof.”(文字通り訳すと:We cart [noun] the manure from the farm. (私たちは農場から肥料を荷車[名詞](動詞は「運ぶ」)))のような文章では、SenSzCoreと対照的に、従来技術による一般的なスペルチェッカーでは、(機能原則の結果)エラーを表示できず…実際にエラーを表示しないということに注意しなければならない。
構文自体に一義性がない場合(すなわち、1つの単語を、例えば名詞のみでも成り立つが、副詞を伴って使用する場合)、例えば”I want fast car. (私は速い車が欲しい)”では、自動ユーザダイアログ4.9が呼び出されるか、または図6(7)のユーザ・インタラクション・マネージャーを介してより高いレベルで、文章の基本的な構文上の不適格性が表示される。排除基準は自動的に表示されるが、この場合、修正オプションは示されない。
文章が統語的に一義的である場合、表5に示す自動処理に従って、意味チェック4.11が行われる。
これは、EDPシステム4.7と適切なデータベース、一時記憶設備、算術的計算機能によって支持される(図3.1および図3.2の説明も参照すること)。
SenSzCoreは最初は、単純に論理的性質である非一義性を評価しないということを覚えておくことが重要である:
例えば、”Meine alte Freundin hatte gestern Husten.” (“My old girlfriend had a cough yesterday. (私の古い女友達は昨日、咳をしていた)”)という文章について:意味信号の観点から、当該文章は一義的である。”girlfriend(女友達)”が老齢なのか、「昔からの友人」なのかは、文章の作者だけが知るものであり謎である。この論理的非一義性は、SenSzCoreでは、ターゲット言語における意味論的エラーにはつながらず、翻訳で維持される。これは実際には、とりわけ、文章の論理的内容をターゲット言語で不必要に変更しないという翻訳の品質証明となる。
SenSzCoreでは、計算4.11が完了すると、(文章が一義的である場合)最も頻度の高い同義語もすべての単語に対して利用可能となる。これらの同義語は、自動翻訳4.8では、リクエストに応じて、ユーザに表示される。ユーザが例えば次の文章を入力したとき:”Ich nahm einen tiefen Zug aus der Zigarette” (“I took a deep draw from the cigarette (私はタバコを深く吸い込んだ)”)、ユーザは自動翻訳4.8によって、語形変化する同形同音異義語が、データベース4.7から最も妥当な同義語に置き換えられた文章を得る。この場合、ユーザは以下の文章を得る:”Ich nahm einen tiefen 'Lungenzug', aus der 'Filterzigarette'.” (I took a deep draw from the filter cigarette. (私はフィルター付きタバコを深く吸い込んだ))。これは、意味論的に正しい同義語を代わりに用いることで、SenSzCoreが、ユーザが表現したかった意味を正しく認識したことを、リクエストに応じて、ユーザに(ユーザの言語で)示すことを意図した機能である。
位置1)と2)において、文言4.4(意味チェックの前)と文言4.12(意味チェックの後)との基本的な違いに再度注意しなければならない。
本発明はここまでで、意味論的情報を含まないテキスト、例えば2.1.A1を、文章の単語間の意味信号の比較のみによって計算し、入力文章には予め(明示的に)含まれていなかった意味論的情報を含むテキスト2.1.A2へと変換した。詳細情報については図2も参照すること。
計算が完了すると、単語の意味信号(図4の4.13)に相当するコード化された値であって、統語的および形態論的情報を含み、言うまでもなくSenSzCoreによって決定される値を持つ文章に対して、別の表現がコンピュータによって生成可能となる。この追加情報は従って、さまざまな方法でインデックス化され得る。インデックス化のコード化された値と意味信号との間の数学的な一義性は、コンピュータ的観点から既知であることが重要である。インデックス化は意味信号自体を用いると有利に達成されるが、他のユーザ固有のコードで補うか、または置き換えることも可能であり、この場合はその後の使用においてのみリンクされたデータから意味信号を取得する。
このような方法でコード化された文章は、リスト化機能4.14〜4.19によって有利に追加処理できるようになる。
翻訳(4.14)とユーザダイアログ(4.16)について、さらに検索エンジン(4.17)では、一連の処理が実施される。
他の機能の場合、(4.7)、(4.9)、(4.11)による再帰的処理が事前に必要となることがあるであろう。再帰的ループは、特に音声認識(4.15)、スペルチェック(4.18)または単語認識(4.19)については、予め実施される。ここでは、処理4.5.1および4.5.2もまた、他の機能の場合と比べると、ユーザとの対話においてより重要な役割を果たす。
本発明の非常に重要な動作上の利点は、対話式演算の場合、意味論的な一義性の観点からユーザのテキストがどの程度優れているのかがユーザ自身にとって常に明確であり、ユーザが直接的に介入できるという点である。可解性、文法、統語の意味において文章を上手に書ける人が、このシステムからクエリを受け取ることはほとんどない。
このシステムをオフラインで使用する場合、例えば大量のテキストを翻訳するとき、当該システムは、すべてのクエリをバッチ方式で後処理できるように構成可能である。
表6に対する注記
セクション4の請求項の割り当てに対して、図6の例証が選択された。図6では請求項をより容易に構築可能とするために、ステップ4.5〜4.11の処理の再帰性をより形式的に示し、個々の結果に関連付けている。システム自体における処理の理解を可能にするには、図4を用いることで、当業者に対してより簡単に説明できる。
図6の変調器(2)は実際には複数のパス4.5〜4.11を表しており、このパスは基本的なスペリングエラーを伴う単語がもはや存在しない状態になるまで行われる。図6の変調器(3)は複数の再帰パスを示し、このパスは形態論的かつ統語的意味において、文章そのものの解析と、その一義性の測定とが完了するまで行われる。
この意味で図4は、個々の機能をさらに好ましく説明するために、本発明の高度な動作表現を含む。図6は、本発明を適用した様々な請求範囲をさらに好ましく図解するために、本発明を形式上簡略した表示を含む。図4と図6は従って、表現の抽象度においてのみ異なるが、機能的な差はない。
3.2 図3.1の説明
図3.1の表は比喩的な意味で、3次以上の次元数の空間の2次元模式図として見なされる。この表は、意味信号の構造的、構成的、割り当て原則を説明するが、視覚的に理解しやすい構造そのものではない。
大幅に簡略化した用語を用いて表現すると、意味信号は図3.1の「D」欄以降の欄の内容である。
意味信号は、(現在のテキストと文脈によって自動制御される)本発明のソフトウェアアルゴリズムがテキストから暗黙の情報を抽出できるようにするコンピュータツールを構成する。
図3.1は、2次元で読み取り可能な9語の意味信号の抽出を示す(単語については、座標D1〜M1を参照すること)。図3.1はさらに、図3.2の容易な理解を促進する。文章:”Der Stift schreibt nicht”(The pin/pen/institution etc. does not write/author (ピン/ペン/機関等は書込み/執筆しない))を解析する。これらの単語を図3.1にリスト化する。
C1〜M5の行の項目は、単語に関する一般的な概評を含む。6行目以降は、本発明固有の内容が表示される。なお、3行目の情報については、同形同音異義語と補語間の変調をそれらと共に計算できないため、本発明固有の関連性を持たない標準的な辞書の情報を表す。
9〜42行目は、単語ごとに、意味信号の抽出(総量の約10%)を示す。B欄とC欄(意味信号カテゴリ2と意味信号カテゴリ4)は、各意味信号値の動詞の割り当て(すなわち特徴の説明)を表す。これらの欄は説明目的のためだけに示される。7行目は、単語ごとに、意味信号における占有フィールドの数を含み、スラッシュの右側は制約参照(CR)の数、例えば”schreiben 1”(to write(書く))の場合は86\3を含む。
制約参照は状況属性であり、当該状況属性によって意味信号のカテゴリの値は、文脈に応じて、自動的にオンまたはオフに切り替え可能である。例えば、建設中の建物(I欄、10、37、39、41行目の”Stift 4.1”)には、建設中の建物のみに付与され、その後の使用段階にある建物にはもはや付与されない略語H(ドイツ語では'Herstellung' (= construction (建築)))を伴う特性(=特徴+値)が割り当てられる。
例えば”Stift 1”に対するセルF27の接尾辞Fは、機能要件を示す。規則的な固定面を持たない単語の同形同音異義語は、固定された規則面を有する単語に比べて劣る”Stift 1”で変調するであろう。
他の属性は、意味信号が、6行目の意味信号のトリガワードに割り当てられている単語の環境に現れるとき、例えば制約参照(CR)によって有効になる。
このように、文章における制約参照(CR)のパターンももたらされると、その結果、(補語による同形同音異義語の変調のように)明示的ではない文脈情報もまた生成されることに注意しなければならない。
例えば、文章:”Der Stift (3) ho(ウムラウト付)rt dem Lehrer nicht zu.” (The institution (3) does not listen to the teachers. (機関(3)は教師たちの話に耳を傾けることはない))には、”School 9 (学校9) (institution or building (機関または建物))”を含む(CR)パターンが含まれており、当該(CR)パターンはひいては、意味信号として文章の文脈における他の同形同音異義語の補語になり得る。(CR)パターンの意味信号は計算時に、SenSzCoreによって自動的に取得され、結合され、自動的に保存されるか、または複数の文章を通じて、もしくはテキストの段落の終わりまで継続的に更新される。
こうした効果は、意味信号を伴う文脈からも(CR)を使用して論理的な結論を導き出せるという事実の根拠となる。従って、(CR)は、文章が一意的な場合に、SenSzCoreは自動的に「行間を読む」ことができるという根拠の1つでもある。
特に、例えばあらゆるタイプの副詞、時間的/空間的/位置揃え/もしくは法の前置詞、または論理演算子(not (〜ない)、and (〜と)、or (または)など)と組み合わせると、多くの文章において、論理的推論を特定し、その後の処理に向けて適切な方法で保存することも可能である(態様44−47)。
(CR)に対し、意味信号は既知であるため、(CR)のあらゆる同義語、上位語、下位語、さらにそのすべての語形変化もまた、明示的に指定された(CR)自体と同じように、有効になり得る。例えば、”Geba(ウムラウト付)ude” (building (建物))が単語に(CR)として入力されると、”building site (建設地)”、”high-rise (高層)”、”house (家)”、”government building (政府庁舎)”などと、そのすべての語形変化および複数形もまた「意味チェック」において自動的に有効になる。このとき、より一般的な表現、またはより具体的な表現間の違い、例えば”government building (政府庁舎)”も、意味信号に含まれる。”government building (政府庁舎)”においては、社会的−政治的構成要素を含む意味信号における位置が専有されるため、ひいては職業の制約参照の行使に関連付けられる。
なお、実施可能な態様では、(CR)マーキングは、異なるインデックスレベルで非数値によって行われる。従って、演算部では、意味信号は常に算術的に処理可能な値を含む。すべての他の構成要素は他のインデックス次元に含まれ、自動的に取得または結合可能である。
個々の意味信号値のA、B、C欄における特徴は、単語自体の部分的な定義ではなく、例えば、問題になっている単語を絵を用いた物語で概説するよう求められた場合に提供されるような常識的な関連付けを表す。この絵を用いた物語は、どの特徴が関連付けられているかを(抽象的形式であっても)図解しなければならない。この概略図では、その単語が使用されるとき、どの動作主語タイプ/目的語タイプが、どのトリガが、かつどの次元が、妥当な関連付けを持つかを示すものである。意味信号の構造を理解するには、広義で、設計カタログ{Konstruieren mit Konstruktionskatalogen ISBN 3-540-67026-2}の設計の基本原則が有用であろう。
カテゴリ化は常に任意で相対的であるため、カテゴリ化によって、意味信号に対するいかなる絶対的な主張もできない。達成可能な最善のやり方は、その意図された応用と関連させて各カテゴリ化の有用度を査定することである。単語の意味信号のカテゴリ化をこの形式で行う主なメリットとしては、カテゴリ化が以下の方法で構造化されている点が挙げられる:
1. 必要最小数の特徴を用いなければならない。
2. 一言語のすべての単語について、十分に多くの妥当な関連付けを示し、同形同音異義語が正しい補語によってのみ変調されるように、必要最大数の特徴を含む。
3. 単語の応用環境に応じて、意味信号(=6行目の制約参照(CR))に影響を及ぼし得る関連付けレベルを含む。なお、(CR)のすべてのトリガワードは、同形同音異義語表記(=単語+本発明のデータベースにおける現在の同形同音異義語数)に現れる。従って、1つ1つが、どの語形変化で生じるかにかかわらず、独自の固定された基本的意味信号を持つ。
4. 従って、文章/文脈において、最高頻度の補語による文章の同形同音異義語の変調は最終的に、高級言語の十分な知識を持つ人間が文章の一義性を査定するであろうやり方に相当する。
意味信号カテゴリ自体の派生は、大部分において、感情、成長可能性、トリガ、処理、空間/場所といった特徴によって補完される、物体、情報、エネルギー、時間といった基本要素の上に構築された木構造に基づく。カテゴリ1はカテゴリ2の上流側となる。この図では(紙幅の都合上)カテゴリ3はカテゴリ2に含まれる。カテゴリ4は、意味信号の作者が(本発明のデータベースを作成する際に)読むコメントであって、意味信号に値を割り当てるか否かについてのコメントを表す。意味信号の作成に伴う作業量はおおよそ、大型辞書を極めて特別な数値表記で執筆するような労力に相当する。意味信号における各値の割り当ては、大抵の場合、曖昧(「はい」に近く、「いいえ」に近い)であり、「はい」の場合、「多くの」個々の関連付けが存在する場合は1よりも大きい値が割り当てられる。他の割り当て形式では、例えば水に対する比重(図3.1の17行目)などの材料特性の場合に用いられる。ここでは値1=軽い、2=等しい、3=重いである。同じことが空気にも当てはまる。
これらの値は、例えば文章:”Das Fahrzeug schwebt in der Luft.” (The vehicle floats in the air (乗り物が空中に浮かぶ))では、(CR)”usage (使用)”を伴う飛行船の意味信号が、例えば”car (自動車)”や”aeroplane (飛行機)”と比較すると、”float (浮かぶ)”によってより高い変調を有するという結果がもたらされる。自動車や飛行機の場合、論理的推論プログラムに対する互換性クエリさえも開始可能である。
3.3 図3.2の説明:
ここでは文章:”Der Stift schreibt nicht.” (The pin/pen/institution... does not write/does not author. (ピン/ペン/機関…は書込/執筆しない))に対する計算の抽出を示す。この文章は一意的な意味を持たない。
動詞”schreiben”(to write (書く、書き込む)等)は4つの意味を有し、”Stift”は12の意味を持つ。1.1〜4.20フィールドは、占有フィールドと対称を成すため、追加情報を持たずに無関係である。
斜めの黒いフィールドは、各単語と当該単語自体との比較を表すため、無関係である。
1.1〜4.4フィールドと6.6〜20.20フィールドとは、同形同音異義語の意味を互いに比較するだけであるため、ここでは無関係である。
行列において35個のセルに「XX」が印されている。他のフィールドは30%から100%までの数字を含む。
「XX」は、含まれる意味の意味信号間のコンピュータによる論理的および/または形態論的/統語的比較によって、組み合わせが排除されたことを意味する。
パーセンテージの値は、そのフィールドに交差する単語の意味信号の意味変調の度合いを表す。
この場合、XXが印されたセルは、特に以下の事実を参照する:
a. “schreiben 1”において、文章の主語が物だとすると、動詞はこの主語による運動活動を許可しない:その場合、ここでは”schreiben 3”などの機能のみを用いることができる。
b. “schreiben 3”、すなわちツール/装置の書く機能は、文法的主語としての生物には適用できない(“Stift”)。
c. 例えば”das Stift”(9、10、13、14、15、16行目)では、冠詞(ジェンダー)が例文の冠詞と一致しないということも事実である。
d. 4行目では、異形が完全に欠如しているため、「XX」が入力されていない(この例文では、'schreiben' (to write (書く))の再帰的使用はない)。
ここで、サイズを縮小して保存した変調結果によって自動的にリストを記載することで、意味信号交差ランキング(SSIR)が得られる。
他の可能性の概要を示すために「自動翻訳」機能を用いる:ユーザの入力言語で文脈における同形同音異義語の、最も頻度の高い同義語(一般的な同義語、よくある同義語)の観点から、関連する単語(例文における下線部)を表示することで、別の可能性をそれぞれ示す。
最大値の数と値に従って、SSIRから以下の解析、つまり自動翻訳が自動的に生成される。66%という値は、オントロジーと言語に従って個々に指定可能な経験に基づいて決定された値であり、意味変調に対する相対的関連性の下限値を表す:
1. 文章'Der Stift schreibt nicht.'は一意的な意味を持たず、以下の66%超である、[5]の可能な関連する解釈を認める:
(下線を引いた単語=Stiftまたはschreibenの同義語である。)
i Stift 1 (pen (ペン))を伴うschreiben 3 (as function (機能として))。
自動翻訳:The pen does not work. (そのペンは使いものにならない)
ii Stift 3 (apprentice (見習い))またはStift 5 (nipper (幼児)、brat (子ども))を伴うschreiben 2 (create readable work with text (テキストで読みやすい作品を作成する))。
自動翻訳:The apprentice does not author. (その見習いは執筆しない)
自動翻訳:The nipper does not author. (その幼児は執筆しない)
iii Stift 3 (apprentice (見習い))またはStift 5 (nipper (幼児)、brat (子ども))を伴うschreiben 1 (motor activity (運動活動))
自動翻訳:The apprentice is not writing down. (その見習いは書き留めていない)
自動翻訳:The nipper is not writing down. (その幼児は書き留めていない)
残りの組み合わせでは低い値になる。
例えば、日常のビジネス使用(技術、商業、科学言語)の分野などの機械翻訳システムとして、”Stift 3”が<regional application (局所的な適用)>のみに向けた意味信号内で定義されるのに対し、”Stift 5”は<jocular (冗談)>として定義されるため、上記異形iiおよびiiiは排除されることになる。従って、唯一残った解釈は、そのペンは使いものにならない、である。
2. ユーザは、SenSzCoreによってオプション1を受け入れる選択肢が自動的に与えられ、iiおよびiiiにおいては残りの可能性が自動表示される。
重要事項:数値変調値は、システムに予め手動で「学習させ」、恒久的に保存された意味信号の特性に基づく。意味信号の値は従って、意味信号自体の絶対的な判定ではなく、「一の」人物、すなわち、当該関連する意味信号を作成した人物の関連付けを反映する。その結果、2つの意味信号の変調値は言うまでもなく絶対的ではなく、相対的な文言である。
さらに、iに対する判定を行うとき、(推定ではなく)実際に数えられ、例えば66%の下限未満の代替は廃棄されたため、使用する統計的評価がない。
表5に対する注記
表5では、最良の市販プログラム(2014年1月現在)を、以下の5つの例文に基づいて比較する:
I) Der Stift kauft ein Stift. “The Stift (masc) buys a Stift (neut) (そのStif(男性(本明細書を通して、「男性」は男性名詞であることを指す。))はStift(中性(本明細書を通して、「中性」は中性名詞であることを指す。))を購入する)”
II) Der Stift kauft einen Stift. “The Stift (masc) buys a Stift (masc) (そのStift(男性)はStift(男性)を購入する)”
III) Das Stift kauft einen Stift. “The Stift (neut) buys a Stift (masc) (そのStift(中性)はStift(男性)を購入する)”
IV) Der Stift schreibt nicht. “The Stift (masc) does not author. (そのStift(男性)は執筆しない)”
V) Das Stift wurde in einem Zug gera(ウムラウト付)umt. “The Stift was vacated in one go. (そのStiftは一度で空になった)”
'Stift'の13の異なる意味を図3.2にリスト化する。概して、5つの例文に対して、21の可能な関連性のある意味が存在する。従来技術では、189の可能性のうち、わずか3つが正確に認識/翻訳された。
この比較によって、(無償であろうと有償であろうと)標準的な市販プログラムは、意味検出のための複数の基本的事実を計算できない/滅多に計算しない、ことがはっきり示され、これらの例文で発生する平均ヒット率はわずか1.5%であった:
例えば、従来技術によるプログラムでは、(他の多数の欠点に加えて)以下の場合に障害が発生する:
(a)冠詞が存在している場合であっても、名詞のジェンダーの検出。
(b)無生物/生物/機関の区別。
(c)動作主の許可された動作(例えば、物が何かを「購入」することはできない)。
(d)主語と目的語の相対的な比率の検出:何がどこに収まるか?例えば、”das Stift” (institution(機関))はtrain(列車)には収まらない(文章番号V)。
(e)同形同音異義語の区別とその正しい翻訳。
(f)テキストにエラーまたは非一義性が存在する場合のユーザに対する警告。
など。
例文に基づいた従来技術プログラムの欠点に関するその他の比較について詳しくは、図5の座標C34から始まる下部のボックス「言語学上の比較」を参照すること。
業界最大手企業の翻訳ソフトウェアにおける、従来技術によるその他の典型的な処理関連エラーについては、表6を参照すること。
(25年以上にわたって最適化されてきた)この従来技術によって、重要な作業が可能ではないことは明らかである。
ソース言語とターゲット言語が何であろうと(例えばヨーロッパ言語内であろうと)、上記のことが当てはまる。
以下、本発明の様々な態様の一部を構造化された形式で記述する。
〔態様1〕
最初に、「意味チェック」をコンピュータにより実現する方法であって、
明示的に存在しない、自然言語文における単語の意味論的意味を、数字(意味信号と呼ぶ)に自動的に変換し、文章文脈に対する文章のすべての前記単語の正確な意味を前記意味信号を用いて断定的に計算する方法において、
前記方法は非一時的で機械可読な記憶媒体に保存され、コンピュータによって実行可能な命令を備えており、これらの命令がコンピュータプロセッサによって実行されるとき、自然言語のテキストの解析される文章(自然言語の適用可能な規則に従った始まりと終わり)に対して、本発明に従ったすべての入手可能な前記意味信号を、一単語ごとに、コンピュータにより実現されるメモリ(1)から自動的に抽出し、(解析済みの文章において前記単語自体、さらには前記単語の特別な配列のみによって制御された)前記文章のすべての前記単語の前記意味信号の算術的かつ論理的相互比較を意味変調器(2)および(3)において実行し、
各単語が、この文脈に対して有効であるとして計算された各単語の意味信号を用いて、各単語に対する個々の解析において自動的に作成され、前記単語に割り当て可能で、他の意味信号と相対的に関連付けされた処理関連比較データによって、前記文章の他の単語で機械可読形式にタグ付けされ、続いて情報によって明示的にタグ付けされることで、前記文脈における前記単語が正確に綴られているか否か、前記単語は前記文脈においてたった1つまたは複数の意味信号を持つか否か、これらの意味信号が何であるかを、このタグ付けから自動的に推定できるような手法で、前記相互比較が実行されることを特徴とする方法。
〔態様2〕
態様1に記載の方法において、
前記意味変調器(2)において一文章内のすべての前記単語に対して意味スコアが計算されると、以下の情報が機械可読な形式で入手可能になることを特徴とする方法:
〔態様2.1〕前記文章の1つの単語に対する意味スコア”SW”が0(ゼロ)に等しい場合、前記単語は間違って綴られており、前記文章は文章スコア”SS”= 0を受け取る。
〔態様2.2〕前記文章の1つの単語に対する意味スコア”SW”が1よりも大きい場合、SW > 1であるその単語が前記文章において複数の可能な意味を持つため、前記解析済みの文章は間違いであるか、または非一義的に構築されている。前記文章は文章スコア”SS”= “SW”を受け取る。前記文章の複数の単語が意味スコア> 1を持つ場合、前記文章の前記単語の意味スコアの最大値”SW”に文章スコア”SS”が設定される。
〔態様2.3〕前記文章のすべての前記単語が意味スコア”SW” = 1を持つ場合、前記文章は一義的であり、文章スコア”SS”= 1を受け取る。
〔態様2.4〕単語が意味スコア”SW” = -2を持つ場合、大文字と小文字の両方のスペルが可能となる。”SW”= -2である前記単語の正確な大文字または小文字のスペルが、この文章において、追加の反復ステップを用いて最終的に計算されるまで、文章スコア”SS”は値SS = -2を受け取る。
〔態様3〕
態様1または2に記載の方法において、
SW = 0であるいかなる単語も含まない文章に対して、前記意味信号に存在する制約参照(CR)を用いるときにおける前記文章が持つ文章スコア”SS”を制約変調器(3)において計算し、以下の結果として生じる情報が機械可読な形式で入手可能になることを特徴とする方法:
〔態様3.1〕前記文章の1つの単語に対する意味スコア”SW”が1よりも大きい場合、SW > 1であるその単語が前記文章において複数の可能な意味を持つため、前記解析済みの文章は間違いであるか、または非一義的に構築されている。前記文章は文章スコア”SS”= “SW”を受け取る。
前記文章の複数の単語が意味スコア> 1を持つ場合、前記文章の前記単語の意味スコアの最大値”SW”に文章スコア”SS”が設定される。
〔態様3.2〕前記文章のすべての前記単語が意味スコア”SW” = 1を持つ場合、前記文章は一義的であり、文章スコア”SS”= 1を受け取る。
〔態様4〕
態様1ないし3の少なくとも1態様に記載の方法において、
SW = 0である単語では、保存可能なエラーメッセージであって、具体的には前記文章のすべての前記単語のスペリングエラーを示しながら、前記文章における相対的な単語位置と前記エラーの原因を指定し、さらにデータベースシステム(1)の前記メモリから計算された前記エラーを排除できる可能性を表示するエラーメッセージを立ち上げ、エラーメッセージ記憶装置(4)に順次保存することを特徴とする方法。
〔態様5〕
態様4に記載の方法において、
SW = -2である単語では、保存可能なエラーメッセージであって、具体的には前記文章のすべての前記単語のスペルにおける大文字/小文字のエラーの有無を示しながら、前記文章における単語位置と前記エラーの原因を指定し、さらに前記データベースシステム(1)の前記メモリから計算された前記エラーを排除できる可能性を表示するエラーメッセージを立ち上げ、前記エラーメッセージ記憶装置(4)に順次保存することを特徴とする方法。
〔態様6〕
態様1ないし5の少なくとも1態様に記載の方法において、
現在の文章と共に、可用性に応じて、態様1に従って既に処理され、文章スコア = SS = 1を持つ、直前の最大”n”個の文章を読み込み、その単語の前記意味信号を意味変調器(3)で処理することを特徴とする方法。
〔態様7〕
態様1ないし6の少なくとも1態様に記載の方法において、
前記文章(主節、従属節、挿入された従属節、主語、述語、目的語、ハイフン間のテキスト部、2つの括弧(括弧開き/括弧閉じる)間のテキスト部など)に存在するような統語的文章構成要素を決定し、前記文章構成要素を形成するすべての前記単語を個々に、順次、検索可能に文章部メモリ(6)に保存することを特徴とする方法。
〔態様8〕
態様1ないし7の少なくとも1態様に記載の方法において、
前記意味変調器(3)において、現在の3つの文章の主題を、各文章スコア= 1の場合(ただし、これら文章スコアが存在する限りで)、期間で区切って更新することを特徴とする方法。
〔態様9〕
態様1ないし8の少なくとも1態様に記載の方法において、
前記制約変調器(3)において、(現在の段落の例えばその意味信号の形式においても、最も頻度が高く、有効な(3)からの制約参照(CR)として)前記主題を、前記制約参照の前記意味信号の形式で、期間で区切って更新し、階層的に取得可能とすることを特徴とする方法。
〔態様10〕
態様1ないし9の少なくとも1態様に記載の方法において、
SS > 1である文章の場合、自動翻訳メッセージであって、各単語のまだ存在する#SW意味可能性をリスト化し、その都度、前記単語の有効な意味信号を用いて、各単語の最も頻度の高い同義語を前記データベースシステム(1)から取得し、自動翻訳記憶装置(5)に順次保存する、自動翻訳メッセージを生成することを特徴とする方法。
〔態様11〕
態様1ないし10の少なくとも1態様に記載の方法において、
SWが1に等しくない単語について、書式設定要素であって、影響を受ける各単語について前記自動翻訳記憶装置(5)または前記エラーメッセージ記憶装置(6)からの前記単語の状況を、例えばユーザの表示装置に視覚的に保存したり、前記ユーザの表示装置で例えば「マウスオーバー」情報を生成したりするテキスト編集プログラムにおいて使用可能な書式設定要素を、前記エラーメッセージ記憶装置およびユーザ・インタラクション・マネージャー(7)において指定することを特徴とする方法。
〔態様12〕
態様1ないし11の少なくとも1態様に記載の方法において、
前記自動翻訳記憶装置(5)または前記エラーメッセージ記憶装置(4)が発信する修正提案に関する、前記ユーザ・インタラクション・マネージャー(7)に対する前記ユーザの対話から、前記文章内の前記テキストを更新し、態様1に従って実行される新規計算を前記文章に対して実行し、
前記自動翻訳記憶装置(5)または前記エラーメッセージ記憶装置(4)のすべてのエントリーを前記文章の最新処理状態に一致させるために調整することを特徴とする方法。
〔態様13〕
態様1ないし12の少なくとも1態様に記載の方法において、
前記変調器(3)からの(継続的に更新される)現在の話題構造を、前記ユーザ・インタラクション・マネージャー(7)を介して別ウィンドウで、例えば使用する表示装置において、前記ユーザに対して表示することを特徴とする方法。
〔態様14〕
態様1ないし13の少なくとも1態様に記載の方法において、
前記文章がスコアSS = 1に到達するとき、自動翻訳であって、現時点までに前記データベースシステム(1)から各単語の1つの意味信号を取得し、その都度、有効な意味信号を用いて、データベースシステム(1)から各単語の最も頻度の高い同義語を取得し、両方の情報項目を持つ、または対応する機械可読な代替ラベル(8)を持つ前記文章の各単語をタグ付けする自動翻訳を生成することを特徴とする方法。
〔態様15〕
態様1ないし14の少なくとも1態様に記載の方法において、
前記自動翻訳を有効にすると、前記ユーザは、SW = 1のタグ付けされた前記単語の最も頻度の高い同義語以外の同義語も前記データベースシステム(1)から取得でき、これらの他の同義語から選択した同義語によって前記文章の元の単語を置き換えることを特徴とする方法。
〔態様16〕
態様15に記載の(「自動翻訳」と名付けられた)方法において、
前記ユーザがある文章を(例えば表示装置を介してマウスで)スコア1と印を付けた場合、例えば前記文章の語形変化可能な同形同音異義語が最も頻度の高い同義語で置き換えられて、前記文章のタグ付けされた前記情報から、文法的に正しい文章が自動的に構築されることを特徴とする方法。
〔態様17〕
態様1ないし16の少なくとも1態様に記載の方法において、
前記文章のタグ付けされた前記情報から、前記ユーザが文章スコアSS = 1の一文においてSW = 1の単語を(例えば前記ユーザの表示装置を介してマウスでダブルクリックすることによって)能動的に選択する場合、(現在の文脈において)選択した単語の最も頻度の高い同義語が自動的に表示されることを特徴とする方法。
〔態様18〕
前述の態様1ないし17の少なくとも1態様に記載の方法において、
スコアSWが1に等しくない文章における前記テキストの単語は、前記自動翻訳記憶装置(5)または前記エラーメッセージ記憶装置(4)によってユーザ・インタラクション・マネージャー(7)を介して、これら両方のメモリにおいて各単語の情報が変更されるときはいつでも、各単語の既存情報で再度タグ付けされることを特徴とする方法。
〔態様19〕
態様1ないし18の少なくとも1態様に記載の方法において、
前記文章に対してスコアSS = 1を得るために解析済みの文章に必要となる、先行する文章からのすべての情報を、後から追加処理するためにタグ付けすることを特徴とする方法。
〔態様20〕
態様19に記載の方法において、
変調器1またはエラーメモリ(4)において、前記単語の修正が1つの有効な可能性しか持たないとき、SWが1に等しくない単語に対する前記文章のすべての修正を自動的に実行することを特徴とする方法。
〔態様21〕
少なくとも態様19または20に記載の方法において、
前記文章の処理中に、態様20に従わずに生成されたすべてのメッセージを自動的に削除可能であり、前記メッセージをオフラインモードで前記文章にタグ付けし、文章スコアSS = “unknown (未知)”の状況では、前記方法を次の文章で継続することを特徴とする方法。
〔態様22〕
少なくとも態様1ないし21に記載の「意味チェック」を用いて、1つの自然言語の文章を別の自然言語に翻訳する、コンピュータにより実現される機械翻訳システム。
〔態様23〕
態様22に記載の方法において、
文章スコア= 1の文章が少なくとも一文存在するか、または残りの未処理の文章がなくなるまで、スコアSS = 1の文章を自動的に獲得するか、または前記テキストを態様1に従って処理することを特徴とする方法。
〔態様24〕
少なくとも態様22または23に記載の方法において、
前記テキストを、すべての単語の予め設計された一義的な前記意味信号と、前記意味信号それぞれにタグ付けされたすべての追加情報とを考慮して、前記ユーザが選択したターゲット言語に翻訳することを特徴とする方法。
すべての意味信号を含み、前記意味信号に関連付けされたデータベースシステム(1)のデータベースをこの目的のために使用し、ソース言語とターゲット言語におけるすべての語形変化で有効な意味信号を併用することで、ソース言語とターゲット言語におけるすべての単語が正確に翻訳される。
〔態様25〕
態様1ないし24の少なくとも1態様に記載の方法において、
前記データベースシステム(1)の言語ペア固有の規則であって、形態論および語形変化に関連した前記単語の順序と、前記メモリ(6)内の態様7の前記文章構成要素の順序とを調整することによって、前記ターゲット言語において意味論的、形態論的、文法的、統語的に正確な順序で前記ターゲット言語の文章を配置する規則を適用することを特徴とする方法。そうすることで、例えば態様7の前記ソース言語のタグ付けされた文章構造であって、言語ペア固有の方法で前記ターゲット言語における文章部の新しい正確な順序も指定する文章構造が特に考慮される。
〔態様26〕
態様1ないし21の少なくとも1態様に記載の「意味チェック」を用いた、自然言語の従来技術による自動音声認識に由来するテキストのコンピュータにより実現される処理において、以下を特徴とする処理。
〔態様27〕
態様24に記載の方法において、
従来技術による音声認識システムからの文章のテキストを自動的に獲得することを特徴とする方法。
〔態様28〕
態様26または27に記載の方法において、
前記文章の単語を、前記データベースシステム(1)のデータベースからの前記ユーザの自然言語における周知の異形同音異義語群と比較することによって、一文章内の異形同音異義語の有無の計算を実施することを特徴とする方法。
〔態様29〕
態様24ないし28の少なくとも1態様に記載の方法において、
前記文章内で関連する異形同音異義語の異形を連続的かつ相互的に置換または入替えすることによって、可能な文章の異形をすべて生成することを特徴とする方法。
〔態様30〕
態様29に記載の方法において、
態様1ないし22に記載の少なくとも1つの方法に従って、各文章を評価し、前記自動翻訳記憶装置(5)または前記エラーメッセージ記憶装置(4)からのメッセージによって、オフラインモードでタグ付けすることを特徴とする方法。
〔態様31〕
態様30に記載の方法において、
生成されたすべての文章の文章スコアを評価し、すべての前記文章のうち、たった一文のみがスコアSS = 1を持つ場合、この文章を結果として使用し、態様14に従ってタグ付けすることを特徴とする方法。
〔態様32〕
態様31に記載の方法において、
生成されたすべての文章の文章スコアを評価し、複数の文章がスコア= 1を持つ場合、すべての異形同音異義語の中で算術的な一致が最も高い異形同音異義語を選択することを特徴とする方法。
〔態様33〕
態様1ないし32の少なくとも1態様に記載の方法において、
スコアSS = 1を持つ文章が存在しないために一意的な判定が不可能な場合、入力文章を、解析済みの異形同音異義語に関する情報、すなわち前記自動翻訳記憶装置(5)または前記エラーメッセージ記憶装置(6)からのメッセージ、でタグ付けすることを特徴とする方法。
この従来技術との相違のメリットを以下に挙げる:
従来技術による音声認識は、異形同音異義語、すなわち大文字/小文字のスペルを認識できない。態様26に示した手順によって、前記データベースシステム(1)のデータベースに記録されている、一自然言語におけるすべての周知の異形同音異義語(例えば、ドイツ語では約1,000語で、場合によってはer/eher、ist/isst、ja(ウムラウト付)h/je、sie/sieh、Feld/fa(ウムラウト付)lltなどのように極めて高頻度である。他の言語では、英語が10,000語、日本語が最大25,000語である)においては、前記異形同音異義語の意味信号を介して、文章文脈における正しいスペルが特定される。これにより、ソフトウェア操作のトレーニング費用を削減でき、認識されたテキストの品質が大幅に向上する。
〔態様34〕
従来技術による、例えば背景雑音の存在下での自然言語の自動音声認識で、スペリングエラーはあるものの、完全に欠如する単語はない場合、請求項1ないし21の少なくとも1項に記載の「意味チェック」を用いた、コンピュータにより実現される文字化けしたテキストの処理/復元。
〔態様35〕
態様34に記載の方法において、
自動的に獲得されたテキストにおいて、前記文章の言い換えの可能性を、間違った単語を正しく綴ることによって体系的に決定することを特徴とする方法。この方法は、前記データベースシステム(1)からのデータに基づいて、例えば「サウンズライク」方式、または同様の検索アルゴリズムを用いて達成可能である。まず、異形同音異義語群に類似した単語、または大文字/小文字やアクセント符などを含む、キーボード操作中の典型的なタイピングエラーや、文字の省略に相当する単語が優先される。
〔態様36〕
態様34に記載の方法において、
態様35に記載の機能によって、文章スコアSS = 1の文章がもたらされるか否かを調べることを特徴とする方法。
〔態様37〕
態様34ないし36の少なくとも1態様に記載の方法において、
前記ユーザが指定した時間(例えば5秒)後(基準=毎秒約500…1000回の試行)、使用可能なヒットが特定できない場合、前記手順を終了することを特徴とする方法。
〔態様38〕
態様34ないし37の少なくとも1態様に記載の方法において、
前記入力文章を、解析済みの異形同音異義語に関する情報、すなわち前記自動翻訳記憶装置(5)または前記エラーメッセージ記憶装置(6)からのメッセージ、でタグ付けすることを特徴とする方法。スコアが1に等しくない文章のみが存在する場合は、SW = 0の単語が最も少ない文章のタグ付けを優先する。
〔態様39〕
データベースを検索する検索エンジンの、コンピュータにより実現される操作であって、前記データベースの自然言語テキストを、態様1ないし21の少なくとも1態様に記載の「意味チェック」によってタグ付けし、前記タグ付けに基づいてインデックス化する操作。
〔態様40〕
態様39に記載の方法において、
データベース自動インデックス化は、前記検索処理前の、態様1に記載のすべての前記単語の前記意味信号と、態様1ないし21の少なくとも1態様に記載の文章スコアSS = 1を持ち、前記文章スコアに応じてタグ付けされたすべての文章との前記意味信号に基づいて行うことを特徴とする方法。
〔態様41〕
態様39または40の少なくとも1態様に記載の方法において、
前記検索には、同一言語のすべての同義語を、すべての有効な語形変化で自動的に取り込むことが含まれる(検索語として同一の意味信号)ことを特徴とする方法。
〔態様42〕
態様39ないし41の少なくとも1態様に記載の方法において、
前記検索には、別の言語の同義語を、すべての有効な語形変化(検索語として同一の意味信号)で自動的に取り込むことが含まれることを特徴とする方法。
〔態様43〕
態様39ないし42の少なくとも1態様に記載の方法において、
複数の検索語を使用するとき、前記検索語の関連付けロジックに従った前記意味信号のヒットの組み合わせを実行することを特徴とする方法。
態様39ないし43に記載の手順に従った検索エンジンの操作には、検索によって、検索語の意味信号に対応するヒットのみがもたらされるという計り知れないメリットがある。これにより、検索語が同形同音異義語の場合、検索エンジンにおけるヒット数の削減率は99%を上回る。さらに、検索語の有効な語形変化と、前記検索語のすべての同義語もまた、別の言語で必要な場合は、自動的に検索される。これにより、特にビジネス・インテリジェンス・アプリケーション向けに、検索結果の品質を著しく向上させ、最終的なヒットを選択するユーザに要求される読み取る労力は、品質獲得に反比例して軽減される。
〔態様44〕
態様1ないし21の少なくとも1態様に従った、自然言語におけるテキスト形式の文言の、定義済みの話題に対する関連性の評価であって、コンピュータにより実現される評価。
〔態様45〕
態様44に記載の方法において、
自動的に獲得された文章スコアSS = 1の文章の場合、定義済みの組み合わせによる前記文章の前記単語の前記意味信号、または意味信号のパターンを、態様1に従ってタグ付けされた比較話題の単語で自動的に構成することを特徴とする方法。
〔態様46〕
態様44または45に記載の方法において、
話題指定の前記意味信号と前記入力文章の前記意味信号との定義済み重複パターンに対する重複を、態様1ないし22のうちのいずれか1態様に記載の前記入力文章の文章構造における論理演算子(例えば、”not (〜ない)”、”and (〜と〜)”、”or (または)”など)の意味信号の存在を考慮してランク付けすることを特徴とする方法。
〔態様47〕
態様26、34、39、04に記載の「意味チェック」の請求項を組み合せることで、コンピュータ/またはヒューマンユーザによる「応答コンピュータ」を用いて、コンピュータにより実現される自動対話の実施。
〔態様48〕
態様47に記載の方法において、
態様26、34、39、04を用いた前記応答コンピュータによってユーザの話し言葉入力をテキストとして獲得することを特徴とする方法。
〔態様49〕
態様47または48に記載の方法において、
前記入力テキストの、個々の文章への分解を、前記応答コンピュータによって実行し、前記文章のうち、どれが平叙文で、どれが疑問文であるかについて、例えば前記文章の終わりに疑問符があるか否か、または典型的な文章構造によって、自動評価を行うことを特徴とする方法。
〔態様50〕
態様1ないし49の少なくとも1態様に記載の方法において、
前記ユーザの平叙文および疑問文の前記意味信号を、前記ユーザが対話する自然言語と同一の自然言語に存在する、前記応答/対話参加コンピュータの機械可読テキストオントロジーの平叙文、応答文、標準疑問文を態様47に従ってタグ付けしたデータベースとの一致または対応に基づき、態様1に従って比較することを特徴とする方法。
(応答コンピュータのオントロジーの規模=例えば、提供サービスのFAQデータベースにおける、例えば文章スコアSS = 1の正確な500文)
〔態様51〕
態様1ないし50の少なくとも1態様に記載の方法において、
前記ユーザの前記文章の前記意味信号の値が一定レベルを上回る場合、前記応答コンピュータのコンピュータオントロジーで、前記一致または対応の値における最高値に格付けされた前記応答文および平叙文を、コンピュータオントロジーから特定することを特徴とする方法。
〔態様52〕
態様1ないし51の少なくとも1態様に記載の方法において、
前記応答コンピュータは前記ユーザに対して、例えば以下のパターンに従い、構造化された自動応答を生成することを特徴とする方法:
(a)従来技術による音声出力システムを介した前記応答コンピュータによって、音声形式のコンピュータオントロジーに関して、例えば態様50の最高にランク付けされた、前記ユーザの2つの文章AとBの最高値を確認するパターン(例えば、「私があなたの話を正しく理解したとすると、あなたは…「文章Aの表現」と…さらに「文章Bの表現」を言った」)と、
(b)従来技術による音声出力システムを介した前記応答コンピュータの、態様50に記載のコンピュータオントロジーによって最高にランク付けされた応答文を提供し、態様50から最高にランク付けされた前記応答文を決定するパターンであって、前記ユーザはリクエストに応じて制御された回答、例えば「はい」または「いいえ」のみ許可されるパターンと、
(c)代案として、前記応答コンピューによって(一定規則に従って)リンクを送信することで回答するパターンであって、前記ユーザは前記リンクを受信することで、質問に関するより詳細な情報を読んで、前記応答コンピュータにより的を絞った質問ができるようになり、前記リンクは、前記ユーザが例えば自力での検索によって労力を費した後にコンピュータオントロジーでしか見つけられないものであるパターン。
〔態様53〕
態様1ないし52の少なくとも1態様に記載の方法において、
一致値が一定レベルを下回る場合、前記ユーザがはいまたはいいえのみ回答できるか、または制御された定義済みの英数字による選択肢を音声で発することで回答できる、例えば標準的な対話を前記応答コンピュータにおいて呼び出すことを特徴とする方法。
〔態様54〕
態様1ないし53の少なくとも1態様に記載の方法において、
人間の介入が必要になる時点で、例えば前記ユーザの応答における意味信号のコンテンツベースパターン、または前記対話の冗長性の自動評価によって、自動検出を前記応答コンピュータで実行することを特徴とする方法。
なお、従来技術と比較すると、態様47は極めて高い柔軟性を持つが、態様1ないし21の少なくとも1態様に記載の意味信号を用いるという事実によって、以下が得られる:
−ユーザは比較的自由に話すことができる(制限されるのは、異なる意味信号の数と、コンピュータオントロジーに含まれる文章に関する組み合わせのみである)。
−意味信号を用いた作業によって、プログラミングにおける多大なオーバーヘッドであって、認識された単語の語形変化の許容タイプにおける制限の対象となるか、または現今では特定の単一単語の指定に制限される面倒なオーバーヘッドを発生させずに、コンピュータオントロジーにおいて正確で高い認識率が得られる。
〔態様55〕
態様1ないし22の少なくとも1態様に記載の「意味チェック」を用いた、コンピュータにより実現される高性能スペルチェック。
〔態様56〕
態様55に記載の方法において、
態様1ないし22の少なくとも1態様に記載の自動実行を、文章スコア> 0に達した後、前記文章自体を前記意味信号でタグ付けせずに実行することを特徴とする方法。前記テキストは従って、スペリングエラーに対してチェックされ、前記ユーザによって対話式に修正されるのみであり、追加情報による前記文章のタグ付けは必ずしも行われない。
〔態様57〕
態様1ないし21の少なくとも1態様に記載の「意味チェック」を用いて、多数の割り当てられたキーを含んでもよいキーボードで単語を入力する間にコンピュータにより実現される単語認識。
〔態様58〕
態様57に記載の方法において、
前記テキストを下位システム、例えば前記ユーザのスマートフォンから、従来技術による単語認識によって自動的に獲得し、前記文章内の各単語を入力するときに用いられた、有効化された、例えばキーシーケンスの各々のログファイルでタグ付けすることを特徴とする方法。
〔態様59〕
態様57または58に記載の方法において、
別のシステムを使用した単語の選別を予め行わずに、例えばキー信号を直接取込むことを特徴とする方法。
〔態様60〕
態様57ないし59の少なくとも1態様に記載の方法において、
態様1ないし22の少なくとも1態様に従って既存入力のチェックを実行し、キーの割り当てと押したキーの組み合わせのログファイルからのキーシーケンスを用いて、単語の他のヒットがデータベースシステム(1)のデータベースにおいて、単語であって、文章の既存単語と関連する前記単語の意味スコアがスペル、構文、意味信号の一致の観点から前記既存単語よりも優れた格付けを有する単語のキーの組み合わせに対して、存在するか否かを計算することを特徴とする方法。
〔態様61〕
態様57ないし60の少なくとも1態様に記載の方法において、
既存テキストのスペル、語形変化および構文の観点から前記既存テキストを改良するための提案を、前記ユーザが受け入れるように提供することを特徴とする方法。
〔態様62〕
態様57ないし61の少なくとも1態様に記載の方法において、
テキスト入力であって、前記データベースシステム(1)のデータベースに語頭として含まれないが、例えば典型的なタイピングエラーパターンに従って文字順序大文字/小文字を変更した後、前記データベースに語頭として含まれる文字列として識別できるテキスト入力の間に、前記文章の前記既存単語に関連性がある意味信号の一致および構文を同時に考慮しながら、タイピングエラーの自動修正を実行することを特徴とする方法。
〔態様63〕
態様57ないし62の少なくとも1態様に記載の方法において、
例えばテキストの入力中に、現在の単語の”m”%以下の長さである単語であって、例えば前記単語の意味信号の観点から前記文章の他の既存単語に対して高い一致値も持つ単語に対して、唯一の、または”n”未満の可能性が存在する(”n”>= 1; “m”< 75%)場合は直ちに、一致する単語を提案することを特徴とする方法。
〔態様64〕
態様57ないし63の少なくとも1態様に記載の方法において、
現在書き込んでいる単語に対して提案またはオプションを、前記ユーザの表示装置に、視覚的に、例えば前記現在書き込んでいる単語の上に半透明モードで表示することを特徴とする方法。
〔態様65〕
態様57ないし64の少なくとも1態様に記載の方法において、
態様26または34に記載の音声認識システムを介してテキストをもたらすことを特徴とする方法。
〔態様66〕
態様1ないし21の少なくとも1態様に記載の「意味チェック」を用いた、自然言語の文章の意味論的暗号化に向けたコンピュータにより実現されるシステム。これは請求項35に記載する。
〔態様67〕
態様66に記載の方法において、
文章スコアが必ずしも1ではないテキストの文章であって、各テキストはSW > 0の状況の少なくとも3単語を含むテキストを読み込むことを特徴とする方法。
〔態様68〕
態様66または67に記載の方法において、
各文章において、直近の環境と比較して適切な意味信号を有する単語であって、”m”単語を文法的に適格な手法で置き換えるか、または”n”単語を文法的に適格な手法で追加することにより、例えば挿入、否定、関係詞節化、省略によって、または、前記データベースシステム(1)のデータベースから前記単語の反意語を用いることによって、文章スコアを変えずに、前記文章の意味を著しく変更できることを示すことを特徴とする方法。ただし、”m”>= 1または”n” >= 0とする。
〔態様69〕
態様66ないし68の少なくとも1態様に記載の方法において、
独自の意味信号を有する、適切な名称および/または日付および/または単なる数字であるすべての英数字列、または特に前記ユーザによって予め印を付けられた単一単語を、コード化された数字の組み合わせで置き換えて、各々をテキスト全体にわたってそのまま反復しないことを特徴とする方法。
〔態様70〕
態様67ないし69の少なくとも1態様に記載の方法において、
前記ユーザの始動文を、元の順序を考慮して前記ユーザのシステムに保存し、異形として作成されたすべての変更のログファイルを、変更ごとに、少なくとも個々の文章における位置と前記変更内容の詳述とを含んで、保存することを特徴とする方法。
〔態様71〕
態様67ないし70の少なくとも1態様に記載の方法において、
現在のテキスト以外の、前記ユーザが所有する他のテキストデータベースからの文章であって、例えば態様44を適用して暗号化される前記入力テキストの文章に似た、文章スコアSS = 1の文章を、前記ユーザが特定するのを支援する方法。
〔態様72〕
態様67ないし71の少なくとも1態様に記載の方法において、
前記テキストの文章数が少なくとも7まで増え、態様68に記載の前記入力テキストに異形を加算した数を上回る場合、暗号化される文章は7未満となることを特徴とする方法。これは、例えば態様71を用いて決定される文章に起因して有利に起こり得る。
〔態様73〕
態様67ないし72の少なくとも1態様に記載の方法において、
前記ユーザの始動文に加えて、態様68に従って前記ユーザが作成した異形であり態様69に従って非特定化された、”m”の追加文章を含む、テキストを作成することを特徴とする方法。
〔態様74〕
態様67ないし73の少なくとも1態様に記載の方法において、
既存文章のシーケンスの確率的スクランブリングを実行し、前記スクランブリング前後で前記シーケンスの明示的修正を態様70に記載のログファイルに追加することを特徴とする方法。
〔態様75〕
態様67ないし74の少なくとも1態様に記載の方法において、
態様73による、変更されていないがスクランブリングされた前記テキストと、態様70による前記ログファイルとが存在する場合、前記元のテキストは完璧に復元されることを特徴とする方法。
意味論的に暗号化された(ユーザが自分自身で書いた文章と比較して、形式上、より意味が分からない一文を含まない)テキストにおいて、ユーザの文章の元の始動シーケンスは現時点で、手動読み込みによる莫大な労力を伴ってのみ特定可能である。例えば、10の始動文と10の追加の文章異形に対して、元のシーケンスは20の組み合わせのうち、たった1つの可能性、すなわち20! = 2.4329 * 1018、すなわち約1:2.5百万兆の可能性となる。
しかし、テキストの受信者はそれぞれ、テキストの作者のログファイルからの情報を用いて初めて、容易に始動文を復元できる。
態様65もまた、標準的な市販の暗号化システムに対する拡張として、特に有利に使用できる。
市販の暗号化のコードが解読されたとしても、解読者が誰であろうと、テキスト全体の真意を判断するために手動で解析しなければならない文章量が原因となり、さらに人物や、日付、数字を参照する情報がすべてテキストから欠如し、この情報には元のテキストと比較すると限量詞や論理演算子の修正も含まれるため、事実上解決不可能な時間問題に直面するであろう。
ここでは、標準的な市販の暗号化コードの安全な送信に加えて、上記請求項の少なくとも1項に記載の始動シーケンスに対するコードの安全な送信のみが残存リスクである。
態様1に記載の本発明独自の方法を適用しても、スクランブリングされたテキストには元のテキストの一義性レベルと同様の一義性レベルを有する文章のみが存在するため、暗号解読は不可能であろう。
なお、本発明は、実施態様項として以下の内容を含む。
〔実施態様項1〕
(特に、少なくとも1つの文章を含み、)複数の入力単語を用いたテキスト内の意味パターンをデータベースシステムで自動的に検出する方法であって、
前記データベースは、一言語の単語と、前記単語の特性を記述するための複数の定義済み意味カテゴリと、前記データベースに保存されたすべての前記単語に対する意味信号とを含み、
各意味信号は、前記意味カテゴリを用いた前記単語の意味の固有な数値特徴付けであり、
a)入力単語を含む前記テキストを、データ処理用装置にリンクされたデータエントリー用装置に読み込むステップと、
b)直接もしくはリモートデータ回線を介して、または、直接かつリモートデータ回線を介して、前記データ処理用システムに接続された前記データベースシステム内の前記単語と、すべての前記入力単語とを比較するステップと、
c)前記入力単語のそれぞれに少なくとも1つの意味信号を割り当てるステップであって、同形同音異義語の場合には2つ以上の意味信号を割り当てるステップと、
d)前記入力単語に対する前記意味信号の前記割当てが一義的である場合、前記意味パターンの特定が完了するステップと、
e)1つの入力単語に複数の意味信号を割り当てることが可能な場合、それらの意味信号が、文脈による制御のみの手法で相互に比較されるステップと、
f)前記入力単語の前記意味信号間の組み合わせに基づき、前記入力単語の意味の矛盾または適合が、(特に同形同音異義語の場合)前記文脈に存在するか否かが決定されるステップと、
g)矛盾を引き起こす意味信号の組み合わせは拒絶され、定義済みの適合基準に基づき、前記意味信号の適合度合いに従って、適合に関して、意味信号の組み合わせが自動的に数値で評価されて記録されるステップと、
h)前記ステップd)および前記ステップg)による、すべての入力単語の自動コンパイルが、(特に前記文章の)前記テキストの前記意味パターンとして出力される、ステップとが少なくとも実行される方法。
〔実施態様項2〕
実施態様項1に記載の方法において、
前記定義済みの前記適合基準に従って、前記テキストの少なくとも1つの入力単語に対する前記意味パターンが、複数の残りの意味を有するか否かが自動的に決定され、これにより、前記文章の固有な意味パターンと固有な意味との一方または両方が前記文脈において存在せず、必要に応じて、固有でないことおよびその要因の表示が提供されるか、もしくはユーザ・インタラクション・マネージャー(7)に対して入手可能にされるか、または、必要に応じて、固有でないことおよびその要因の表示が提供され、かつユーザ・インタラクション・マネージャー(7)に対して入手可能にされる方法。
〔実施態様項3〕
実施態様項1または2に記載の方法において、
前記入力単語を含む前記テキストが、文字で書かれたテキストから、もしくは、(音声認識プログラムを用いて音響的に記録されたテキストもしくは撮影されたテキスト、OCRなどの)他のテキスト源から、または、文字で書かれたテキストから、かつ、(音声認識プログラムを用いて音響的に記録されたテキストもしくは撮影されたテキスト、OCRなどの)他のテキスト源からの文字列である方法。
〔実施態様項4〕
実施態様項1ないし3の少なくとも1実施態様項に記載の方法において、
前記ステップe)の後、テキストのすべての入力単語に対する意味信号の残存数が既知である場合には、追加処理可能なテキストの一義性度合いについての信号を生成する方法。
〔実施態様項5〕
実施態様項1ないし4の少なくとも1実施態様項に記載の方法において、
単語意味スコア「SW」であって、前記文章の前記文脈における各単語の前記意味パターンの関連性を加味した、前記データベースシステムにおける各単語のエントリー数である単語意味スコア「SW」と、文章意味スコア「SS」とが、前記テキストの(特に1つの文章の)すべての前記単語に対して意味変調器(2)で計算された後、
a)前記文章の1つの単語に対する意味スコア「SW」が0(ゼロ)に等しい場合、前記単語は間違って綴られており、前記文章は文章スコア「SS」 = 0を受け取り、
b)前記文章の1つの単語に対する意味スコア「SW」が1よりも大きい場合、SW > 1である単語が前記文章およびその文脈において複数の可能な意味を持つため、前記解析済みの文章は、間違いであるかもしくは非一義的に構成されているか、または、間違いでありかつ非一義的に構成されていることになり、文章スコアは「SS」 = 「SW」に設定され、
c)前記文章の複数の単語が意味スコア「SW」 > 1を有する場合、文章スコア「SS」は各文章の前記単語の意味スコアの最大値「SW」に設定され、
d)前記文章のすべての前記単語が意味スコア「SW」 = 1を有する場合、前記文章は一義的であり、文章スコア「SS」 = 1を受け取り、
e)単語が意味スコア「SW」 = -2を有する場合、大文字と小文字の両方のスペルが可能であり、「SW」 = -2である前記単語の正確な大文字または小文字のスペルが、この文章において、さらなる反復ステップを用いて最終的に計算されるまで、文章スコア「SS」は値「SS」 = -2を受け取り、
f)前記テキストが話し言葉入力から生じる場合および単語が1に等しくない意味スコア「SW」を有し、(前記データ処理システム(1)から特定される)異形同音異義語群に属する場合、意味スコア「SW」= -3を受け取り、文章スコア「SS」は、この文章とその文脈における正しい前記異形同音異義語群がさらなる反復ステップを用いて最終的に計算されるまで、値−3を保持し、
g)前記文章の単語が意味スコア「SW」 > 1を有する場合、前記テキストの先行する任意の数「v」の文章または前記テキストの続く「n」の文章の単語を用いて、前記意味信号の変調によって、前記入力文章に「SW」 = 1をもたらす単語がここに含まれるか否かをチェックし、ただし、標準的な音声アプリケーションおよび理解しやすいテキストでは通常、「v」 = 1および「n」 = 0である、方法:
〔実施態様項6〕
実施態様項5に記載の方法において、
SW = 0である単語では、保存可能なエラーメッセージ(であって、具体的には前記テキストのすべての前記単語のスペリングエラーと、具体的には前記エラーを排除できる計算された可能性とを示すエラーメッセージ)が生成されてエラーメッセージ記憶装置(4)に順次保存され、必要に応じて前記ユーザ・インタラクション・マネージャー(7)にとって入手可能となる方法。
〔実施態様項7〕
実施態様項4または5に記載の方法において、
「SW」 = -2である単語では、保存可能なエラーメッセージ(であって、具体的には前記文章のすべての前記単語のスペルにおける大文字/小文字のエラーの有無を示しながら、前記文章における単語位置と前記エラーの原因を指定し、さらに前記データベースシステム(1)の前記記憶装置から計算された前記エラーを排除できる可能性を表示するエラーメッセージ)が立ち上げられて前記エラーメッセージ記憶装置(4)に順次保存され、必要に応じて前記ユーザ・インタラクション・マネージャー(7)にとって入手可能となる方法。
〔実施態様項8〕
実施態様項1ないし7の少なくとも1実施態様項に記載の方法において、
SW = 0である単語がない場合、意味変調器(3)が、現在の段落の主題を、その意味信号の形式において最も頻度が高く、有効な、前記意味変調器(3)からの制約参照(CR)として、前記制約参照の前記意味信号の形式で、期間で区切って更新し、階層的に取得可能とされて、必要に応じて前記ユーザ・インタラクション・マネージャー(7)に対して入手可能となる方法。
〔実施態様項9〕
実施態様項1ないし8の少なくとも1実施態様項に記載の方法において、
SS > 1である文章の場合、自動翻訳メッセージであって、各単語のまだ存在する#SW意味可能性をリスト化し、その都度、その単語の有効な意味信号を用いて、各単語の最も頻度の高い同義語を前記データベースシステム(1)から取得し、自動翻訳記憶装置(5)に順次保存し、必要に応じて前記ユーザ・インタラクション・マネージャー(7)に対して入手可能とする自動翻訳メッセージを生成する方法。
〔実施態様項10〕
実施態様項1ないし9の少なくとも1実施態様項に記載の方法において、
「意味チェック」を用いて、テキスト(特に自然言語の文章)をターゲット言語に翻訳する、コンピュータにより実現される翻訳装置の一部であって、
文章スコア= 1の文章が少なくとも一文存在し、かつ、SSが1に等しくない未処理の文章がなくなるまで、または、文章スコア= 1の文章が少なくとも一文存在するか、もしくは、SSが1に等しくない未処理の文章がなくなるまで、スコアSS = 1の文章が自動的に獲得されるか、または前記テキストが処理される方法。
〔実施態様項11〕
実施態様項10に記載の方法において、
前記テキストが、前記記憶装置(4)、(5)、(6)および前記インタラクション・マネージャー(7)において入手可能である、すべての単語の定義済みの一義的な前記意味信号と、すべての追加情報とを考慮して、選択された前記ターゲット言語に翻訳される方法。
〔実施態様項12〕
実施態様項10または11に記載の方法において、さらに、
前記データベースシステム(1)の言語ペア固有の規則であって、形態論および語形変化に関連した前記入力文章における前記単語の順序と、文章構成要素の順序とを調整することによって、主節、従属節、挿入された従属節、主語、述語、目的語、ハイフン間のテキスト部、2つの括弧(括弧開き/括弧閉じる)間のテキスト部などを決定し、前記メモリ(5)、(6)、(7)内の、すべての文章に関連するエントリーを考慮し、前記ターゲット言語において少なくとも意味論的、形態論的、文法的および統語的に前記入力文章と同じくらい正確な順序で、前記ターゲット言語の前記メモリ(6)内の前記文章を配置する規則を適用することを備えた方法。
〔実施態様項13〕
実施態様項1ないし12の少なくとも1実施態様項に記載の方法において、
前記翻訳の結果として得られた単語は、他の感覚器によって認知可能となるように出力媒体上に示されるか、または、音響的に再現されることと表示されることのいずれか一方もしくは両方が行われる方法。
〔実施態様項14〕
実施態様項1ないし13の少なくとも1実施態様項に記載の方法において、
1つの文章内に異形同音異義語を有する単語と適切な指定が存在する場合、現在の単語と、前記データベースシステム(1)からのすべての他の同音異字の綴りとの前記文脈と関連した意味信号一致の度合いが、自動的に再検討され、前記文脈において同一の異形同音異義語群の前記単語の前記意味信号の中でコンピュータによる区別が十分に行われなかった場合、前記文章において最高意味変調を伴う前記異形同音異義語による自動的な置換が起こり、かつ前記エラーメッセージ記憶装置(4)および前記インタラクション・マネージャー(7)を介してエラーメッセージが出力されるか、または、前記文章において最高意味変調を伴う前記異形同音異義語による自動的な置換が起こるか、もしくは前記エラーメッセージ記憶装置(4)および前記インタラクション・マネージャー(7)を介してエラーメッセージが出力される方法。
〔実施態様項15〕
実施態様項1ないし14の少なくとも1実施態様項に記載の方法において、
背景雑音の存在下での自然言語の自動音声認識による文字化けしたテキストと、タイピングエラーを伴うテキスト、OCRなどを施したテキストとのいずれか一方または両方であって、少なくとも1つの単語がSS = 0であるという条件が与えられたテキストを処理しかつ復元するために、または処理もしくは復元するために、間違った単語を正しく綴ることによって、(特に、前記データベースシステム(1)からのデータに基づいて「サウンズライク」方式もしくは「ルックスライク」方式、または同様の検索アルゴリズムを用いて、)最初に、関連する前記単語の異形同音異義語に類似した単語、または大文字/小文字やアクセント符などを含む、キーボード操作中の典型的なタイピングエラーまたは、文字、スペースの省略に相当する単語を優先して、前記文章を再構築する可能性が自動的かつ体系的に決定される方法。
〔実施態様項16〕
実施態様項15に記載の方法において、
文章スコアSS = 1の文章がもたらされるか否かを調べるように、修正可能な単語の前記意味信号が用いられ、
前記ユーザはその結果を優先出力として受信し、かつ前記ユーザが指定した時間(例えば5秒)後(基準=毎秒約500…1000回のテスト試行)、使用可能なヒットが特定できない場合、前記手順を終了するか、または、前記ユーザはその結果を優先出力として受信するか、もしくは前記ユーザが指定した時間(例えば5秒)後(基準=毎秒約500…1000回のテスト試行)、使用可能なヒットが特定できない場合、前記手順を終了し、
前記入力文章はその後、修正に向けて解析された前記単語の前記情報にタグ付けされ、スコアが1に等しくない文章のみが存在する場合は、SW = 0の単語が最も少ない文章のタグ付けが優先され、
得られた総合結果は、前記エラーメッセージ記憶装置(4)および前記自動翻訳記憶装置(5)を介して、前記ユーザ・インタラクション・マネージャー(7)に入手可能とされる方法。
〔実施態様項17〕
実施態様項1ないし16の少なくとも1実施態様項に記載の方法において、
データベースを検索する検索エンジンについて、前記データベースのテキストコンテンツを「意味チェック」によってタグ付けし、前記タグ付けに基づいて自動のクエリが自動的に実行される方法。
〔実施態様項18〕
実施態様項17に記載の方法において、
データベース自動更新が、前記検索処理前のすべての前記単語の前記意味信号(と、特に(限定はされないが)文章スコアSS = 1を有し、前記文章スコアに応じて自動的にタグ付けされたすべての文章の前記意味信号)に従って行う方法。
〔実施態様項19〕
実施態様項1ないし18の少なくとも1実施態様項に記載の方法において、
前記検索には、同一言語のすべての同義語と、別の言語のすべての同義語とが、すべての有効な語形変化で自動的に取り込まれることが含まれる(検索語として同一の意味信号)方法。
〔実施態様項20〕
実施態様項1ないし19の少なくとも1実施態様項に記載の方法において、
複数の検索語を使用すると、前記意味信号のヒットの組み合わせは、前記検索語のリンクロジックに従って実行される方法。
〔実施態様項21〕
実施態様項1ないし20の少なくとも1実施態様項に記載の方法において、
自然言語におけるテキスト形式の文言同士の関連性であって、書面で指定された話題についての関連性のコンピュータにより実現される評価を、自動的に獲得された文章スコアSS = 1の文章の場合、前記文章の前記単語の前記意味信号によって実施し、定義済みの組み合わせまたは意味信号のパターンが、比較の話題のタグ付けされた単語と自動的に比較される方法。
〔実施態様項22〕
実施態様項21に記載の方法において、
前記話題の指定の前記意味信号と前記入力文章の前記意味信号との定義済み意味変調パターンに対する重複が、前記入力文章の文章構造における論理演算子、離接詞およびその他の文連結詞(例えば、「not (〜ない)」、「also (〜もまた)」、「or (または)」、「always (いつも)」、「never (決して〜ない)」、「seldom (ほとんど〜ない)」、「but not (ではなく)」など)のいずれか1つまたは複数の意味信号の存在を考慮してランク付けされる方法。
〔実施態様項23〕
実施態様項1ないし22の少なくとも1実施態様項に記載の方法において、さらに、
コンピュータとユーザによる「応答コンピュータ」のいずれか一方または両方を用いて、コンピュータにより実現される自動対話の実施であって、
前記応答コンピュータによってユーザの話し言葉入力がテキストとして獲得され、実施態様項1ないし22の少なくとも1実施態様項に記載の「意味チェック」によって処理される実施を備えた方法。
〔実施態様項24〕
実施態様項23に記載の方法において、
前記入力テキストの個々の文章への分解が、前記応答コンピュータによって実行され、前記文章のうち、どれが平叙文、疑問文、感嘆文などであるかについて、例えば前記文章の終わりにおける典型的な句読点の存在と、前記文章の終わり、前記文章の終わりおよび前記文章中のいずれか1つまたは複数における疑問符、引用符、感嘆符、ハイフンなどの典型的な句読点の存在と、それら文章の典型的な文章構造と、意図された意味とのいずれか1つまたは複数によって、自動評価が行われる方法。
〔実施態様項25〕
実施態様項1ないし24の少なくとも1実施態様項に記載の方法において、
前記ユーザの平叙文および疑問文の前記意味信号が、前記ユーザが対話する自然言語と同一の(しかし必ずしも同一とは限らない)自然言語に存在する、前記応答または対話参加のコンピュータの機械可読テキストオントロジーの平叙文、応答文および標準疑問文をタグ付けしたデータベースと、一致または対応に基づいて比較され、
(a)前記ユーザの前記入力文章の前記意味信号の値が一定レベルを上回る場合、前記応答コンピュータのコンピュータオントロジーで、前記一致または対応の値における最高値に格付けされた前記応答文および平叙文などを、使用するコンピュータオントロジーから特定されるステップと、
(b)最新技術による音声出力システムおよび他の知覚的に検出可能な伝送手順のいずれか一方または両方を介して前記応答コンピュータによって、コンピュータオントロジーに関して最高にランク付けされた前記ユーザの文章を確認することによって、前記応答コンピュータが前記ユーザに対して構造化された自動応答を生成するステップと、
(c)従来技術による音声出力システムおよび他の知覚的に検出可能な伝送手順のいずれか一方または両方を介して前記応答コンピュータの前記コンピュータオントロジーによって最高にランク付けされた応答文を提供するステップであって、前記ユーザはリクエストに対して制御された回答(例えば「はい」または「いいえ」)のみ許可されるステップと、
(d)前記応答コンピュータによって(前記ユーザの質問に適切で、オントロジーの一定規則に従っている)リンクおよび知覚的に検出可能な情報のいずれか一方または両方を送信するステップであって、前記ユーザは前記リンクおよび前記情報のいずれか一方または両方を受信することで、質問に関するより詳細な情報の取得および読出しのいずれか一方または両方を行い、その後、前記応答コンピュータに対して、より的を絞った質問ができるようになり、前記リンクおよび前記情報のいずれか一方または両方は、前記ユーザがこれ以外の手法ではコンピュータオントロジーでしか見つけられず、自力での検索によって労力を費した後に読むことができるものであるステップと、
(e)前記意味信号の一致の値が一定の一致レベルを下回る場合、前記ユーザが、「はい」または「いいえ」と、制御された定義済みの(、特に、口頭で、聞き取り可能で、知覚可能で、もしくは視覚的に認知可能な英数字による)選択肢を声に出すこととのいずれか一方または両方でのみ回答できる、事前の質問に基づいた標準的な対話を前記応答コンピュータにおいて呼び出すことと、
人間の介入が必要になる時点で、前記対話中の前記ユーザの口頭による応答と、前記ユーザのデータ入力装置の近傍のカメラを介して前記ユーザの視覚的に認知可能な応答とのいずれか一方または両方における意味信号パターンの(、怒りや焦りといった)コンテンツベースのパターンまたは前記ダイアログの冗長性の自動評価によって、自動検出を前記応答コンピュータで実行することとのいずれか一方または両方であるステップとの少なくとも1ステップが実行される方法。
〔実施態様項26〕
実施態様項1ないし25の少なくとも1実施態様項に記載の方法において、さらに、
「意味チェック」を用いた、コンピュータにより実現される高性能スペルチェックを備え、
(特に、)自動実行を、文章スコア> 0に達した後、前記文章自体を前記意味信号でタグ付けせずに実行し、
これは、前記テキストはスペリングエラーについてチェックされ、前記ユーザによって対話式に修正されるのみであり、(例えば、意味論的または論理的追加情報による)前記文章のタグ付けは必ずしも行われない)という事実に相当する方法。
〔実施態様項27〕
実施態様項1ないし26の少なくとも1実施態様項に記載の方法において、さらに、
「意味チェック」と、現時点で存在する構文および文脈に最も一致する前記データベースシステム(1)からの単語による前記単語の自動補完とを用いて、(例えば多数の割り当てられたキーを含む)キーボードへの単語入力の間にコンピュータにより実現される単語認識を備えた方法。
〔実施態様項28〕
態様1ないし31の少なくとも1態様に記載の「意味チェック」を用いた、自然言語の文章の意味論的暗号化に向けたコンピュータにより実現される方法であって、
各文章において、直近の文脈的環境と比較して適切な意味信号を有する単語であって、「m」の単語を文法的または意味論的に適格な手法で置き換えることと、「n」の単語を文法的または意味論的に適格な手法で追加することとの一方または両方により、挿入、否定、関係詞節化もしくは省略によって、かつ前記データベースシステム(1)のデータベースから前記単語の反意語を用いることによって、または、挿入、否定、関係詞節化もしくは省略によって、もしくは、前記データベースシステム(1)のデータベースから前記単語の反意語を用いることによって、文章スコアを変えずに、前記文章の意味を著しく変更できることを示し、
これは、前記自動修正後、「m」 >=1または「n」 >= 0で、前記テキストは、前記テキストがもたらされる元の文章よりも意味論的にまたは事実上意味が無い追加の文章を含まないという事実に相当し、
a)独自の意味信号を有するか、または自動的に一致する意味信号が自動的に割り当てられた、適切な名称、日付、および単なる数字のいずれか1つまたは複数であるすべての英数字列と、特に前記ユーザによって予め印を付けられた単一単語とのいずれか一方または両方が、非特定化度に合わせて、コード化、非特定化されたキーワードで置き換えられるステップであって、これらキーワードに、短縮された意味信号が自動的に追加される、ステップと、
b)前記ユーザの始動文が、元の順序を考慮して前記ユーザのシステムに保存され、文章異形または非特定化として作成されたすべての変更のログファイルが保存されるステップであって、各変更と、前記変更から導き出せる内容と、前記テキストの個々の文章における位置とが記録されるステップと、
c)現在のテキスト以外の、前記ユーザが使用している前記システム上で取得可能な他のテキストデータベースから、暗号化される前記入力テキストからの文章と論理的ではなく意味論的に似ている文章であって、文章スコアSS = 1の文章を特定するために、前記ユーザが「意味チェック」で支援されるステップと、
d)元のテキストの文章数が少なくとも7まで増え、前記入力テキストに文章異形を加算した数を上回る場合、暗号化される文章は7未満であるステップと、
e)前記ユーザの始動文に加えて、前記ユーザが自動的に作成した異形である、「m」の追加文章を含む、テキストが作成されるステップと、
f)既存文章のシーケンスの確率的スクランブリングが実行され、前記スクランブリング前後に前記シーケンスの明示的修正がログファイルに追加されるステップと、
g)変更されていないがスクランブリングされた前記テキストと、前記生成されたログファイルとが入手可能な場合、前記ユーザが元々入力した前記元のテキストが、原文と一致するように完璧に復元可能であるステップと、
h)前記暗号化されたテキストの可能なシステムクエリが、前記元のテキストの自動翻訳クエリを復元後、前記文章のエラーメッセージと意味論的情報とが自動的に互いに打ち消し合うように、個々の単語および文章にタグ付けされ、これにより、前記スクランブリングによって当初文脈に存在していない文脈関連情報項目が前記元のテキストに自動的に復元され、スクランブリングされていないテキストで要求されなかった場合にはユーザとの対話が行われないステップとの少なくとも1つが実行される方法。
Figure 2020098616
Figure 2020098616
Figure 2020098616
Figure 2020098616
Figure 2020098616
Figure 2020098616
Figure 2020098616
Figure 2020098616
Figure 2020098616
Figure 2020098616
Figure 2020098616
Figure 2020098616
Figure 2020098616
Figure 2020098616
Figure 2020098616
Figure 2020098616
Figure 2020098616

Claims (9)

  1. 複数の入力単語を含むテキスト内の意味パターンをデータベースシステムを用いて自動的に検出する機械翻訳の方法であって、
    前記データベースシステムは、一言語の単語と、前記単語の特性を記述するための複数の定義済み意味カテゴリと、前記データベースシステムに保存されたすべての前記単語に対する意味信号とを含み、
    各意味信号は、前記意味カテゴリを用いた前記単語の意味の固有な数値特徴付けであり、
    a)入力単語を含む前記テキストを、データ処理用装置にリンクされたデータエントリー用装置に読み込むステップと、
    b)前記データ処理用装置が、直接もしくはリモートデータ回線を介して、または、直接かつリモートデータ回線を介して、前記データ処理用装置に接続された前記データベースシステム内の前記単語と、すべての前記入力単語とを比較するステップと、
    c)前記データ処理用装置が、前記入力単語のそれぞれに少なくとも1つの意味信号を割り当てるステップであって、同形同音異義語の場合には2つ以上の意味信号を割り当てるステップと、
    d)前記ステップcにおける前記入力単語に対する前記意味信号の前記割当てが一義的である場合、前記意味パターンの特定が完了してステップhに進むステップと、
    e)前記ステップcにおいて1つの入力単語に複数の意味信号を割り当てる場合、前記データ処理用装置が、前記入力単語に割り当てられた意味信号同士を、文脈のみに基づいて相互に比較するステップと、
    f)前記ステップeの比較に基づき、前記データ処理用装置が、前記入力単語の意味の矛盾または適合が、前記文脈に存在するか否かを決定するステップと、
    g)前記データ処理用装置によって、矛盾を引き起こす意味信号の組み合わせは拒絶され、定義済みの適合基準に基づき、前記意味信号の適合度合いに従って、適合に関して、意味信号の組み合わせが前記データ処理用装置によって自動的に数値で評価されて記録されるステップと、
    h)前記データ処理用装置が、自動的に、前記ステップd)および前記ステップg)による、すべての入力単語を、ターゲット言語の出力単語にコンパイルし、前記テキストの前記意味パターンとして前記出力単語を出力する、ステップとを備え、
    意味スコア「SW」であって、単語それぞれの前記データベースシステムに登録された意味の数である意味スコア「SW」と、前記文章の前記文脈における各2つの単語間の前記意味パターンの関連性に結び付けられた文章スコア「SS」とが、前記テキストのすべての前記単語に対して意味変調器(2)で計算された後、
    前記文章の1つの単語に対する意味スコア「SW」が0(ゼロ)に等しい場合、前記単語は間違って綴られており、前記文章は文章スコア「SS」 = 0を受け取り、
    前記文章の1つの単語に対する意味スコア「SW」が1よりも大きい場合、SW > 1である単語が前記文章およびその文脈において複数の可能な意味を持つため、前記解析済みの文章は、間違いであるかもしくは非一義的に構成されているか、または、間違いでありかつ非一義的に構成されていることになり、文章スコアは「SS」 = 「SW」に設定され、
    前記文章の複数の単語が意味スコア「SW」 > 1を有する場合、文章スコア「SS」は各文章の前記単語の意味スコアの最大値「SW」に設定され、
    前記文章のすべての前記単語が意味スコア「SW」 = 1を有する場合、前記文章は一義的であり、文章スコア「SS」 = 1を受け取り、
    単語が意味スコア「SW」 = -2を有する場合、大文字と小文字の両方のスペルが可能であり、「SW」 = -2である前記単語の正確な大文字または小文字のスペルが、この文章において、さらなる反復ステップを用いて最終的に計算されるまで、文章スコア「SS」は値「SS」 = -2を受け取り、
    前記テキストが話し言葉入力から生じる場合および単語が1に等しくない意味スコア「SW」を有し、(前記データ処理システム(1)から特定される)異形同音異義語群に属する場合、意味スコア「SW」= -3を受け取り、文章スコア「SS」は、この文章とその文脈における正しい前記異形同音異義語群がさらなる反復ステップを用いて最終的に計算されるまで、値−3を保持し、
    前記文章の単語が意味スコア「SW」 > 1を有する場合、前記テキストの先行する任意の数「v」の文章または前記テキストの続く「n」の文章の単語を用いて、前記意味信号の変調によって、前記入力文章に「SW」 = 1をもたらす単語がここに含まれるか否かをチェックする、方法。
  2. 請求項1に記載の方法において、
    前記テキストが少なくとも1つの文章を含む、方法。
  3. 請求項2に記載の方法において、
    前記ステップhにおいて、前記自動コンパイルは、前記テキストの前記文章の前記意味パターンとして出力される、方法。
  4. 請求項1ないし3のいずれか1項に記載の方法において、
    前記入力単語を含む前記テキストが、文字で書かれたテキストから、もしくは、他のテキスト源から、または、文字で書かれたテキストから、かつ、前記他のテキスト源からの文字列である方法。
  5. 請求項4に記載の方法において、
    前記他のテキスト源が、音声認識プログラムを用いて音響的に記録されたテキストと、OCRを施した撮影されたテキストとのいずれか一方または両方である、方法。
  6. 請求項1から5のいずれか1項に記載の方法において、
    前記すべての前記単語が、前記テキストの1つの文章のものである、方法。
  7. 請求項1から6のいずれか1項に記載の方法において、
    SW = 0である単語では、保存可能なエラーメッセージが生成されてエラーメッセージ記憶装置(4)に順次保存され、必要に応じて前記ユーザ・インタラクション・マネージャー(7)にとって入手可能となる方法。
  8. 請求項1から7のいずれか1項に記載の方法において、
    「SW」 = -2である単語では、保存可能なエラーメッセージが立ち上げられて前記エラーメッセージ記憶装置(4)に順次保存され、必要に応じて前記ユーザ・インタラクション・マネージャー(7)にとって入手可能となる方法。
  9. 請求項1ないし8のいずれか1項に記載の方法において、
    前記翻訳の結果として得られた単語は、他の感覚器によって認知可能となるように出力媒体上に示されるか、または、音響的に再現されることと表示されることのいずれか一方もしくは両方が行われる方法。
JP2020015540A 2014-01-28 2020-01-31 テキストの意味を自動検出して一義性を自動測定する方法 Pending JP2020098616A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102014001119 2014-01-28
DE102014001119.4 2014-01-28

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016549324A Division JP2017511914A (ja) 2014-01-28 2014-07-29 テキストの意味を自動検出して一義性を自動測定する方法

Publications (1)

Publication Number Publication Date
JP2020098616A true JP2020098616A (ja) 2020-06-25

Family

ID=51429239

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016549324A Pending JP2017511914A (ja) 2014-01-28 2014-07-29 テキストの意味を自動検出して一義性を自動測定する方法
JP2020015540A Pending JP2020098616A (ja) 2014-01-28 2020-01-31 テキストの意味を自動検出して一義性を自動測定する方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016549324A Pending JP2017511914A (ja) 2014-01-28 2014-07-29 テキストの意味を自動検出して一義性を自動測定する方法

Country Status (7)

Country Link
US (2) US10303769B2 (ja)
EP (1) EP3100174A1 (ja)
JP (2) JP2017511914A (ja)
KR (1) KR102425917B1 (ja)
CA (1) CA2938064C (ja)
IL (1) IL246990B (ja)
WO (1) WO2015113578A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220129618A1 (en) * 2020-10-23 2022-04-28 Saudi Arabian Oil Company Text scrambling/descrambling

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9348812B2 (en) * 2014-03-14 2016-05-24 Splice Software Inc. Method, system and apparatus for assembling a recording plan and data driven dialogs for automated communications
US10019567B1 (en) * 2014-03-24 2018-07-10 Amazon Technologies, Inc. Encoding of security codes
WO2016147034A1 (en) * 2015-03-19 2016-09-22 Yandex Europe Ag Method of and system for processing a text stream
US9672206B2 (en) * 2015-06-01 2017-06-06 Information Extraction Systems, Inc. Apparatus, system and method for application-specific and customizable semantic similarity measurement
CN108463795B (zh) 2016-04-05 2022-03-08 金融及风险组织有限公司 自助分类***
US10891421B2 (en) * 2016-04-05 2021-01-12 Refinitiv Us Organization Llc Apparatuses, methods and systems for adjusting tagging in a computing environment
EP3474275A4 (en) * 2016-06-21 2019-11-06 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US10318640B2 (en) * 2016-06-24 2019-06-11 Facebook, Inc. Identifying risky translations
DE102016114265A1 (de) * 2016-08-02 2018-02-08 Claas Selbstfahrende Erntemaschinen Gmbh Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache
CN110235449A (zh) 2016-09-30 2019-09-13 乐威指南公司 用于校正字幕文本中的错误的***和方法
US10380263B2 (en) * 2016-11-15 2019-08-13 International Business Machines Corporation Translation synthesizer for analysis, amplification and remediation of linguistic data across a translation supply chain
CN106650493B (zh) * 2016-12-14 2019-08-02 咪咕文化科技有限公司 一种行为数据的获取方法和装置
US11151130B2 (en) * 2017-02-04 2021-10-19 Tata Consultancy Services Limited Systems and methods for assessing quality of input text using recurrent neural networks
JP7017027B2 (ja) * 2017-03-17 2022-02-08 富士フイルムビジネスイノベーション株式会社 検索装置、検索プログラム、および検索システム
WO2018175291A1 (en) 2017-03-20 2018-09-27 Ebay Inc. Detection of mission change in conversation
US10796088B2 (en) * 2017-04-21 2020-10-06 International Business Machines Corporation Specifying a conversational computer agent and its outcome with a grammar
US11468234B2 (en) * 2017-06-26 2022-10-11 International Business Machines Corporation Identifying linguistic replacements to improve textual message effectiveness
US10657327B2 (en) * 2017-08-01 2020-05-19 International Business Machines Corporation Dynamic homophone/synonym identification and replacement for natural language processing
CN109558303B (zh) * 2017-09-25 2023-02-28 阿里巴巴集团控股有限公司 一种应用行为分析方法、装置及电子设备
CN110019994A (zh) 2017-11-13 2019-07-16 阿里巴巴集团控股有限公司 数据加密、解密及查询方法、数据加密解密及查询装置
CN108763462B (zh) * 2018-05-28 2021-11-12 深圳前海微众银行股份有限公司 平行语句库的更新方法、设备及计算机可读存储介质
KR102133825B1 (ko) 2018-06-22 2020-07-16 서강대학교 산학협력단 단어자질을 강화한 음성 대화 방법 및 시스템
AU2018433736B2 (en) 2018-07-23 2022-05-12 Fujitsu Limited Generating method, generating program, and information processing apparatus
US10467344B1 (en) 2018-08-02 2019-11-05 Sas Institute Inc. Human language analyzer for detecting clauses, clause types, and clause relationships
US20220164678A1 (en) * 2018-09-26 2022-05-26 Entigenlogic Llc Curing a deficiency of a knowledge database
KR102219189B1 (ko) * 2018-09-28 2021-02-23 주식회사 솔루게이트 버추얼 상담 시스템 및 이를 이용한 상담방법
KR102122560B1 (ko) * 2018-11-22 2020-06-12 삼성생명보험주식회사 글자 인식 모델의 업데이트 방법
US11593561B2 (en) * 2018-11-29 2023-02-28 International Business Machines Corporation Contextual span framework
KR102299001B1 (ko) * 2019-03-25 2021-09-07 김현진 문장의 중의성을 해결하고 생략된 문법 요소를 함께 표시하는 사용자 맞춤형 번역 방법 및 그 장치
US11397731B2 (en) * 2019-04-07 2022-07-26 B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University Method and system for interactive keyword optimization for opaque search engines
US11295080B2 (en) 2019-06-04 2022-04-05 International Business Machines Corporation Automatic detection of context switch triggers
CN110457713B (zh) * 2019-06-19 2023-07-28 腾讯科技(深圳)有限公司 基于机器翻译模型的翻译方法、装置、设备和存储介质
CN110610000A (zh) * 2019-08-12 2019-12-24 央视国际网络无锡有限公司 一种关键人名语境错误检测方法及***
CN112449057B (zh) * 2019-08-15 2022-07-29 腾讯科技(深圳)有限公司 消息的提示方法和装置、存储介质及电子装置
US11620535B2 (en) * 2019-09-25 2023-04-04 International Business Machines Corporation Heuristic ideation
CN110991196B (zh) * 2019-12-18 2021-10-26 北京百度网讯科技有限公司 多义词的翻译方法、装置、电子设备及介质
CN111191459B (zh) * 2019-12-25 2023-12-12 医渡云(北京)技术有限公司 一种文本处理方法、装置、可读介质及电子设备
US11316806B1 (en) * 2020-01-28 2022-04-26 Snap Inc. Bulk message deletion
CN112749251B (zh) * 2020-03-09 2023-10-31 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN111651973B (zh) * 2020-06-03 2023-11-07 拾音智能科技有限公司 一种基于句法感知的文本匹配方法
CN111767733A (zh) * 2020-06-11 2020-10-13 安徽旅贲科技有限公司 一种基于统计分词的文献密级甄别方法
US20230343333A1 (en) * 2020-08-24 2023-10-26 Unlikely Artificial Intelligence Limited A computer implemented method for the aut0omated analysis or use of data
US11687724B2 (en) * 2020-09-30 2023-06-27 International Business Machines Corporation Word sense disambiguation using a deep logico-neural network
KR102398980B1 (ko) * 2020-10-23 2022-05-17 주식회사 아이브랩 사용자 특성에 따른 정보 데이터 변환 방법 및 장치
CN112435651B (zh) * 2020-11-20 2023-05-02 昆明学院 一种语音数据自动标注的质量评估方法
CN112560511B (zh) * 2020-12-14 2024-04-23 北京奇艺世纪科技有限公司 台词翻译方法、装置及翻译模型训练方法、装置
CN117378005A (zh) * 2021-03-26 2024-01-09 谷歌有限责任公司 用于自动语音识别的多语言重新评分模型
US11823427B2 (en) * 2021-06-24 2023-11-21 Accenture Global Solutions Limited Automatic artwork review and validation
US11989527B2 (en) 2021-08-24 2024-05-21 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11977854B2 (en) 2021-08-24 2024-05-07 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11989507B2 (en) 2021-08-24 2024-05-21 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11681878B2 (en) * 2021-11-22 2023-06-20 Ernst & Young U.S. Llp Methods and apparatus for creating domain-specific intended-meaning natural language processing pipelines
CN114218393A (zh) * 2022-02-22 2022-03-22 北京新唐思创教育科技有限公司 数据分类方法、装置、设备和存储介质
DE102022128157A1 (de) 2022-10-25 2024-04-25 Bayerische Motoren Werke Aktiengesellschaft Computerimplementiertes Verfahren zur Standardisierung von Teilenamen
CN116882414B (zh) * 2023-09-05 2023-11-07 深圳爱马奇科技有限公司 基于大规模语言模型的评语自动生成方法及相关装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4330847A1 (de) 1993-09-11 1995-03-16 Sel Alcatel Ag Vorrichtung und Verfahren zur Datenverarbeitung
US20020133347A1 (en) 2000-12-29 2002-09-19 Eberhard Schoneburg Method and apparatus for natural language dialog interface
US7184948B2 (en) 2001-06-15 2007-02-27 Sakhr Software Company Method and system for theme-based word sense ambiguity reduction
US6792323B2 (en) * 2002-06-27 2004-09-14 Openpeak Inc. Method, system, and computer program product for managing controlled residential or non-residential environments
US7302383B2 (en) * 2002-09-12 2007-11-27 Luis Calixto Valles Apparatus and methods for developing conversational applications
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US8548795B2 (en) 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
BG66255B1 (en) * 2007-11-14 2012-09-28 Ivaylo Popov Natural language formalization
US8190423B2 (en) * 2008-09-05 2012-05-29 Trigent Software Ltd. Word sense disambiguation using emergent categories
US8260605B2 (en) 2008-12-09 2012-09-04 University Of Houston System Word sense disambiguation
WO2012000013A1 (en) 2010-06-29 2012-01-05 Springsense Pty Ltd Method and system for determining word senses by latent semantic distance
US8635059B2 (en) * 2010-11-15 2014-01-21 Google Inc. Providing alternative translations
US20140019443A1 (en) * 2012-07-10 2014-01-16 Venor, Inc. Systems and methods for discovering content of predicted interest to a user
US20140067731A1 (en) * 2012-09-06 2014-03-06 Scott Adams Multi-dimensional information entry prediction

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220129618A1 (en) * 2020-10-23 2022-04-28 Saudi Arabian Oil Company Text scrambling/descrambling
US11886794B2 (en) * 2020-10-23 2024-01-30 Saudi Arabian Oil Company Text scrambling/descrambling

Also Published As

Publication number Publication date
KR20160114668A (ko) 2016-10-05
IL246990B (en) 2020-07-30
US20190332670A1 (en) 2019-10-31
WO2015113578A1 (de) 2015-08-06
JP2017511914A (ja) 2017-04-27
KR102425917B1 (ko) 2022-07-26
CA2938064C (en) 2024-05-21
CA2938064A1 (en) 2015-08-06
EP3100174A1 (de) 2016-12-07
US10303769B2 (en) 2019-05-28
IL246990A0 (en) 2016-09-29
US11068662B2 (en) 2021-07-20
US20160357731A1 (en) 2016-12-08

Similar Documents

Publication Publication Date Title
JP2020098616A (ja) テキストの意味を自動検出して一義性を自動測定する方法
CN109271626B (zh) 文本语义分析方法
Khan et al. A novel natural language processing (NLP)–based machine translation model for English to Pakistan sign language translation
Constant et al. MWU-aware part-of-speech tagging with a CRF model and lexical resources
Cetto et al. Graphene: Semantically-linked propositions in open information extraction
JP5356197B2 (ja) 単語意味関係抽出装置
Yang et al. Speculative requirements: Automatic detection of uncertainty in natural language requirements
US11068653B2 (en) System and method for context-based abbreviation disambiguation using machine learning on synonyms of abbreviation expansions
Bashir et al. Arabic natural language processing for Qur’anic research: a systematic review
Fischbach et al. Towards causality extraction from requirements
Gyawali et al. Mapping natural language to description logic
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测***
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
Vadász et al. Winograd schemata and other datasets for anaphora resolution in Hungarian
Curto Automatic generation of multiple-choice tests Geraçao automatica de testes de escolha m ultipla
KR101506757B1 (ko) 자연어로 된 본문의 명확한 모델을 형성하는 방법
Lee Natural Language Processing: A Textbook with Python Implementation
Mohler et al. Applying textual entailment to the interpretation of metaphor
Wiśniewski et al. ReqTagger: A rule-based tagger for automatic Glossary of Terms extraction from ontology requirements
Zuhori et al. Ontological knowledge extraction from natural language text
Prasad et al. Lexicon based extraction and opinion classification of associations in text from Hindi weblogs
Garabík et al. Validation of the Bigger Analogy Test Set Translation into Croatian, Lithuanian and Slovak
Prys et al. Welsh Word2vec model: vector representation of the semantic correlation of Welsh words based on their embeddings within an enormous Welsh corpus, volume 1 of Language and Technology in Wales, book section 8
Ovchinnikova et al. Analysis of Competency Questions for Automatic Generation of Lexico-Syntactic Ontology Design Patterns
Busuioc et al. Romtext: a fundamental instrument for the new edition of the „Dictionary of the romanian language”

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200205

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210413

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211102