JP4960461B2 - ウェブベースのコロケーション誤りの校正 - Google Patents

ウェブベースのコロケーション誤りの校正 Download PDF

Info

Publication number
JP4960461B2
JP4960461B2 JP2009540463A JP2009540463A JP4960461B2 JP 4960461 B2 JP4960461 B2 JP 4960461B2 JP 2009540463 A JP2009540463 A JP 2009540463A JP 2009540463 A JP2009540463 A JP 2009540463A JP 4960461 B2 JP4960461 B2 JP 4960461B2
Authority
JP
Japan
Prior art keywords
collocation
word
query
corpus
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009540463A
Other languages
English (en)
Other versions
JP2010511966A (ja
JP2010511966A5 (ja
Inventor
ガオ チァンフェン
ビー.ドラン ウィリアム
ホン シャオ−ウェン
チョウ ミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2010511966A publication Critical patent/JP2010511966A/ja
Publication of JP2010511966A5 publication Critical patent/JP2010511966A5/ja
Application granted granted Critical
Publication of JP4960461B2 publication Critical patent/JP4960461B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ウェブベースのコロケーション誤りを校正する方法およびシステムに関する。
2つの異なる言語間の翻訳は、個々の単語の意味が使用の文脈によって制約されるという難しい事態をしばしば伴う。人が自分の母国語ではない第二言語を学習するとき、正しく翻訳したように思われるのに、ネイティブスピーカーの間の典型的な使用において、特定のグループまたはコロケーションでは実際は使用されない単語が選択されることが一般的には多い。そのようなコロケーションは、理論的な意味では構文的にまたは文法的に正しいが、通常の使用からは外れており、ネイティブスピーカーにとっては本能的に奇妙にまたはぎこちなく思われるであろう。ある言語における単語の組合せは、しばしば単一の語彙項目を形成する設定パターンに一致し、同様の意味を持ち、同様の文法的関係で並べられる単語のグループでさえ、その言語のネイティブの使用範囲内のどの語彙項目にも入らないことがあり得る。これはその語彙項目が、代替の使用からその言語を制約するものであるとネイティブスピーカーが明確に事前に考えるかどうかに関わらない。
例えば、第二言語として英語を学習する者は、「strong」および「powerful」を自分の母国語では1単語の2つの代替の翻訳とみなし、「to make」および「to do」を異なる単語の2つの代替の翻訳であるとみなすかもしれない。英語の使用にそれほど経験が無い学習者は、「I had a cup of strong tea」よりむしろ「I had a cup of powerful tea」と書くことがあり、また、「I made a plan」の代わりに「I did a plan」と書くことがある。コロケーションの同様の誤りは、自分がネイティブスピーカーでない任意の他の言語を学習中のどの言語のネイティブスピーカーも示す特徴である。そのような誤った単語のコロケーションは、典型的には長期間のその言語での文脈経験および対話実践の後でのみ避けることができ、典型的には辞書または他のタイプの素早く簡単にアクセスできる言語リファレンスを使用して解決することはできない。
上記の説明は、一般的な背景情報のために提供するものであり、請求される主題の範囲を決定する助けとして使用されることは意図していない。
本発明は、ウェブベースのコロケーション誤りを校正する方法およびシステムに関する。
方法、コンピュータシステムおよびコンピュータシステム用の実行可能命令を符号化するソフトウェアを含む様々な実施形態において、コロケーション誤りを、ウェブ等のローカルなコーパスおよびネットワークベースのコーパスを使用して自動的に校正することが可能である。例えば、例示の一方法によると、テキストサンプルからの1つまたは複数のコロケーションをウェブのコンテンツ等のコーパスと比較する。そのコロケーションは、それらがコーパス内で好ましくないかどうかが特定される。また、出力装置を介して、コロケーションがコーパス内で好ましくないかどうかについての表示が提供される。追加のステップとしては、次いで、潜在的に適切な単語コロケーションを検索すること、および、ユーザ出力を介してそれらを提供すること等がある。
上述した説明は、以下の「発明を実施するための形態」でさらに述べる概念を選択して簡略化した形式で紹介するために提供するものである。上述した説明は、請求の主題の重要な特徴または主要な特徴を確認することを意図していない。また、請求の主題の範囲を決定する補助として使用されることを意図してもいない。本請求の主題は、上述した任意のまたは全ての不都合を解決する実施に限定されない。
例示の実施形態による方法を可能にするコンピュータシステムのためのユーザインターフェースを示す図である。 例示の実施形態による方法のフローチャートを示す図である。 例示の実施形態による方法のフローチャートを示す図である。 例示の実施形態による方法を可能にするコンピュータシステムのためのユーザインターフェースを示す図である。 幾つかの実施形態が実施され得るコンピュータ環境のブロック図である。 幾つかの実施形態が実施され得る別のコンピュータ環境のブロック図である。
図1は、例示の実施形態による、コロケーション誤りの校正の方法を可能にするコンピュータシステムのためのコロケーション誤りの校正インターフェース10を示す。コロケーション誤りの校正インターフェース10は、例えば、コンピュータシステム、およびコンピュータシステムにより実行可能に構成される実行可能命令を含む実施形態、ならびに方法の実施形態を可能にするコンテキストを例示する。以下の説明は、種々の例示の実施形態のさらなる詳細を提供する。ある例示の配置および付された名前、ならびにコンピュータ実施方法により比較されるテキストのサンプルが、この図面および後に続く図面に含まれるが、それらは、本明細書および請求の範囲に与えられる、様々な広い意味を例示し表示することを意図するものである。
図1の例示の実施形態において、コロケーション誤りの校正インターフェース10は、ソフトウェアプリケーションに関連するグラフィックディスプレイパネル、すなわちコンピュータのモニタ等の出力装置上で、グラフィカルユーザインターフェースにおいて一度に開くことが出来る多くのグラフィックディスプレイパネルの1つを構成する。第二言語としての英語(ESL)を学習する学習者が入力した、校正用テキストサンプルを対象としている例示の一実施形態を参照すると、コロケーション誤りの校正インターフェース10は、タイトルバー12内で「ESL校正」と名前が付されている。ESLは、コロケーション誤り校正の例示の一実施形態についての典型的なアプリケーションを提供するが、それは、誤りのあるコロケーションが、第二言語としての英語を学習する中級の学習者による誤りの多くを占めることが分かっているためである。
ESL校正アプリケーションの例示の実施形態は、以下の説明において繰り返し参照されるが、単なる例であり、他の実施形態の広い範囲に適用できる広義の原理を示すことが理解されるべきである。例えば、以下に、図1に示すコロケーション誤りの校正インターフェース10を伴わずに動作する他の実施形態が記載され、その一方、さらに他の実施形態は、第二言語として任意の他の言語を学習する学習者を対象とし、また、他の実施形態は、例えば、自分の母国語を習得するために学習する子供に対象をより絞ることができる。
コロケーション誤りの校正インターフェース10は、その上部に、2つの異なるタスクモードに対応する2つのタブを含む。2つのタブとは、「ESL文のロード」と名前が付されたタブ11(この場合も、特定のESL対象実施形態を対象とする)、および「クエリーの実行」と名前が付されたタブ13である。図1は、「ESL文のロード」のタブ11が選択されたユーザインターフェース10を、ディスプレイ上の関連するボタン、見出し、テキストボックス、および他のユーザインターフェース要素(または「ウィジェット」)と共に示す。図4は、「クエリーの実行」のタブ13が選択されたコロケーション誤りの校正インターフェース10と、ディスプレイ上のそのタスクに関連するユーザインターフェース要素とを示すが、その説明はさらに以下で行う。
「ESL文のロード」のタブ11の下のユーザインターフェースパネルは、様々な対話型の入力および出力ユーザインターフェース要素を含み、順次これらについて以下で説明する。これらは、通常、「文の分析」というタイトル見出しを有する上部分と、「コロケーションの分析」というタイトル見出しを有する下部分に分割される。
「文の分析」部分の上部に沿って、インターフェース要素の行があり、「構文解析済みファイルからのロード」ボタン15、「生ファイルからのロード」ボタン17、図では「V−Nコロケーション」(以下で説明する)と現在書かれているコンボ・ボックス19の前に「コロケーションタイプ」と書かれた見出し、および、「コロケーションの抽出」ボタン21がある。それらのウィジェットの下には、左右および上下のスクロールバー22、24、ならびに「元の文」と書かれたタイトルバー20を有する、テキストボックス23がある。その下には、「構文解析済みの文」という見出しのテキストボックス25がある。通常、これらのインターフェース要素は、誤り校正のために、テキストサンプルから文章をロードして、それらをネットワーク上で入手可能なコンテンツのコロケーションとの比較のために準備する、ユーザ機能を可能にする。
テキストボックス23は、ESL学習者により書かれた文書等のテキストサンプルからの多数のサンプル文を含む。テキストボックス23上の上下スクロールバー24のトラフ(trough)内にある圧縮されたサイズのスクロールサム26が示すように、現在表示される文章は、テキストボックスに現在ロードされている文章の全体のリストのごく一部であり、ユーザはこのリストに、スクロールサム26を移動させることによってアクセスできる。テキストボックス23に表示される文章は、第二言語として英語を学習する中級の学習者が犯しやすい典型的な間違いを表す。それらは、「I did a plan」、「I have recognized this person for years」、および「I had a cup of powerful tea」などである。
これらの文章は、「構文解析済みファイルからのロード」ボタン15または「生ファイルからのロード」ボタン17のどちらかを選択することにより、ユーザが処理を開始した後に、別のアプリケーションで開かれた文書から手動でロードされるか、または、別の一文書または多数の文書から、ESLタイプの誤りを有するものとして自動的に選択され、インポートされる。別の実施形態において、ワードプロセッシングアプリケーション等の異なるアプリケーションは、ESL校正トリガ有するが、これはデフォルトでアクティブであり得、ESLタイプの誤りがワードプロセッシングプログラム内に入力されるテキスト内で検出された時に、自動的にコロケーション誤りの校正インターフェース10の利用を推奨するパネルを立ち上げることができる。
ボタン15および17により示唆されるように、テキストサンプルは、アプリケーションにより取り上げられるときには、すでに構文解析はなされているかもしれないし、なされていないかもしれない。テキストサンプルがまだ構文解析されていない場合は、例えば、追加のステップが行われる前のローディングの後に構文解析され得る。構文解析された文が、テキストボックス25に示される。特に、これは、テキストボックス23に示される第二の文の構文解析済みのバージョンであり、周りを局所的にハイライトされ、ユーザにより、例えば、マウスで左クリックすることより、もしくはライトペンでタップすることにより、または何らかの他のユーザ入力機構により、選択されていることを示す。
構文解析は、自然言語処理および自然言語理解における開発の盛んな分野である。構文解析は、例えば、品詞タグ付け、チャンキング、およびセマンティックラベリング等のタスクを含むことが出来る。図1に示される実施形態において、テキストボックス25内の文は、品詞タグ付け、およびチャンキングがなされている。他の実施形態は、何らかの非西欧の言語に対してより絞った対象とするものを含み、単語分割等の構文解析タスクの他の組合せを含むことが出来る。
テキストボックス25内の構文解析済みの文において、元の文の各単語には、そのすぐ後に斜線(すなわち、右上がりスラッシュ)が続き、その単語に割り当てられる2または3文字の品詞タグからその単語を分離する。品詞タグ対して幾つかの例示のオプションを以下に挙げる。文の終わりのピリオドも、自身の斜線を伴い別のピリオドからそれを分離し、品詞タグと同等のタグの働きをし、句読点の機能を示す。1つまたは2つの(若しくは、他の例ではそれ以上の)グループにおける文中の単語も、各括弧で囲まれた組の内部の先頭に2文字のチャンクタイプのラベルを有する、チャンクの境界に対応する括弧で囲まれる。この文において表示された品詞タグは、人称代名詞を表す「PRP」、三人称単数形以外の現在形の動詞を表す「VBP」、過去分詞形の動詞を表す「VBN」、限定詞を表す「DT」、単数形普通名詞または代替可能普通名詞を表す「NN」、前置詞または従属禁止命令(subordinating injunction)を表す「IN」、および複数形の普通名詞を表す「NNS」を含む。例示の実施形態による品詞タグの例示のリストは、以下のように提供されるが、一方で、異なる定義および多かれ少なかれ特異性を伴う品詞タグの他のスキームが、他の実施形態において使用され得る。幾つかのタグを、現在の例示の実施形態について、英語において例示する。
表1:品詞タグの例示のリスト
1.CC − 等位接続詞(例えば、「and」、「but」、「nor」、「or」、「yet」、「plus」、「minus」、「times」、「over」(分割にも同様に使用される))
2.CD − 基数
3.DT − 限定詞(冠詞および不定限定詞、例えば、「a」、「an」、「every」、「no」(冠詞として)、「the」、および、例えば、「another」、「any」、「some」、「each」、「either」、「neither」、「that」、「these」、「this」、「those」、ある使用での「all」、「they」を含む)
4.EX − 存在を表す語「there」
5.FW − 外国語
6.IN − 前置詞または従属禁止命令
7.JJ − 形容詞
8.JJR − 形容詞比較級
9.JJS − 形容詞最上級
10.LS − リスト項目マーカ
11.MD − 法動詞(例えば、「can」、「could」、「may」、「might」、「must」、「shall」、「should」、「will」、「would」)
12.NN − 単数形普通名詞、または代替可能普通名詞
13.NNS − 複数形普通名詞
14.NNP − 単数形固有名詞
15.NNPS − 複数形固有名詞
16.PDT − 前限定詞
17.POS − 所有格語尾
18.PRP − 人称代名詞
19.PRP$ − 所有代名詞(例えば、「’s」、「s’」「’」)
20.RB − 副詞
21.RBR − 副詞比較級
22.RBS − 副詞最上級
23.RP − 不変化詞
24.SYM − 記号
25.TO − 「To」
26.UH − 感嘆詞
27.VB − 動詞、原形
28.VBD − 動詞、過去形
29.VBG − 動詞、動名詞または現在分詞
30.VBN − 動詞、過去分詞
31.VBP − 動詞、三人称単数形以外の現在形
32.VBZ − 動詞、三人称単数形現在形
33.WDT − Wh限定詞
34.WP − Wh代名詞
35.WP$ − Wh代名詞所有格(「whose」)
36.WRB − Wh副詞
テキストボックス25内の構文解析済みの文に表示されるような構文解析されたテキストサンプルも、この図示においてはチャンキングされている。ここでは、括弧の対が、定義された各チャンクを囲み、チャンクタイプが各括弧の組の中身の先頭にラベルで示されている。チャンキングは、表面的で局所的な情報に基づき実行されることが可能な、比較的扱いやすい構文解析タスクである。チャンキングによって、文章を重複しない区分に分割して、各チャンクが1つの重要な主要語をこれに関連する単語と共に含むようにする。チャンキングは、従って、文をフレーズに分割することと考えられるが、具体的には、本例示の実施形態においては、フレーズの重複を防ぐために定義可能な最小のフレーズ単位に文を分割すると考えられる。チャンキングは、テキストの統語構造、並びにフレーズ間の関係または依存を識別可能になるようにする。例えば、1つの名詞句は、動詞句の主語であり得、また、第2の名詞句は動詞句の目的語であり得る。
図1における例示のチャンクは、この良い例を提供する。第1のチャンクは、名詞句を表すNPがラベル付けされ、唯一の重要な主要語、文の主語である「I」に基づいている。第2のチャンクは、動詞句を表すVPがラベル付けされ、「have」および「recognized」を含み、この2つの個々の動詞は一緒になって、動詞「to recognize」の過去分詞形式の統合概念を形成する。第3のチャンクは、別のNPすなわち名詞句であり、主要語「person」を、関連しサポートする単語と共に含み、文の目的語として単一概念「this person」を形成する。前置詞句を表すPPがラベル付けされた第4のチャンク、および別の名詞句を表すNPがラベル付けされた第5のチャンクは、それぞれ単一の単語を含む。ピリオドは、ピリオドとしてタグが付けられるが、チャンクからは除外される。
コロケーション誤りの校正インターフェース10に関連する、またはコロケーション誤りの校正インターフェース10によって利用される構文解析システムは、自然言語処理の当業者にはよく知られるような方法で、正確にまた確実に品詞タグ付けおよびチャンキングを自動的に実行するように作りこむことが可能である。
「ESL文のロード」タブ11の下のユーザインターフェースパネルの下部分は、タイトル見出し「コロケーションの分析」が付けられ、1組のテキストボックス27、29、31および33を含み、それぞれ、タイトルバーおよび少なくとも1つのスクロールバーと共に示される。テキストボックス27のタイトルバーには、「ESLコロケーション」と書かれ、テキストボックスは、テキストボックス25の文からの2つの連語配列されるチャンクである、動詞句「have recognized」、および文の目的語である名詞句「this person」を含むように示される。品詞タグならびにチャンキングラベルおよび括弧と共に示されるように、連語配列されるフレーズは「[VP have/VBP recognized/VBN][NP this/DT person/NN]」と書かれる。コロケーションタイプ・コンボ・ボックス19が、動詞句およびそれに続く名詞句が互いに隣り合うように配置されるコロケーションを表示する選択肢である「V−Nコロケーション」に設定されているため、このコロケーションが、テキストボックス27内に与えられる。この設定に対応するコロケーションは、テキストボックス25の文から抽出されている。
テキストボックス29は、タイトルバーに示されるように、コロケーション候補を含む。コロケーション候補は、テキストボックス27内のコロケーションと同じ名詞句「this person」を有するが、名詞句に先行する様々な異なる過去分詞形の動詞を有する。これらの候補の動詞は、過去分詞の形式で動詞句内の「have」に続けて、動詞の主要語として、「recognized」を置換する候補である。これには、「known」、「admitted」、「thought」等が含まれる。元のコロケーションをコーパスのコンテンツと比較することにより、元のコロケーションがコーパスのコンテンツには少ないかまたは存在せず、従って好ましくなく、誤りであったらしいということが明らかになったため、これらの候補は元のコロケーションを含まない。
コロケーション誤りの校正インターフェース10、または、これに関連するかもしくはこれと共に使用されるアプリケーションは、従って、元のコロケーションがコーパスのコンテンツには好ましくなく、誤りであったらしいということを表示することができる。この表示を、例えば、図1の例示の実施形態のように、ユーザがテキストボックス33で見られるようにすることができる。テキストボックス33は、そのタイトルバーが示唆するように、コロケーションステータスを示す。これは、このコロケーションがコーパスのコンテンツには好ましくないか、または誤りであったらしいということを表示し、好ましくないと判明したコロケーション内の置換される候補である動詞の主要語の下に波線32をつける。ユーザは、例えば、所望の置換コロケーションの上でダブルクリックすることなどにより、テキストボックス29内のコロケーション候補の1つを選択し、好ましくないと表示されたコロケーションと置換することができる。この表示は、また、例えば、別個のワードプロセッシングプログラム、ネットワークナビゲーションプログラム、または他のアプリケーション内で、不適切なコロケーションにマークを付けること等により提供することができる。このようなマーク付けは、好ましくない、または誤ったコロケーションを、明るい色の波線などでハイライトしたり、または下線をつけたりすることにより、ユーザの注意を引くことができる。
テキストボックス29内のコロケーション候補は、テキストボックス27内のコロケーションを大きなコーパス内の利用可能なコンテンツと比較した結果として提供される。これは、ローカルなコーパス、および/または、分散リソース上でホストされるコンテンツ、およびこの例示の実施形態のワールドワイドウェブのようなネットワーク上でアクセス可能なコンテンツを含む、ネットワークベースのコーパスを含むことができる。他の実施形態においては、コーパスは、他の利用可能なネットワークのコンテンツ、例えば、イントラネット、広域ネットワーク、ローカルエリアネットワーク、または何らかの他のタイプのネットワーク等のコンテンツを含むことができる。ウェブをコーパスとして使用するウェブ検索由来のコンテンツは、例えばウォールストリートジャーナルコーパス等の、従来のコーパスの検索と一緒に使用することができる。従来のコーパス内におけるコロケーションの存在は、ウェブコンテンツにおけるコロケーションの存在と比べて特に重きを置かれるが、これはコーパスが、コーパスに比べてより広い様々なソース、およびよりカジュアルな書き物の内包を含み得るウェブコンテンツと比較すると、比較的に一貫して適切な使用を保証するためである。しかし、ウェブコンテンツは、任意の利用可能な従来の言語使用のコーパスに比べて、その膨大な量において十分な利点を提供する。テキストサンプル内の任意の所与のコロケーションに対応する適切なコロケーションは、従来のコーパスにはあまり存在しない。一方、少なくとも英語では、適切な使用で存在し得る任意の単語のコロケーションであればほとんどウェブ上で、または、以下でさらに説明するように、コロケーションに基づく異なるクエリー語の柔軟な検索により明らかになり得る、少なくとも構造的に等価のコロケーションを見出すことが可能であることが分かっている。また、少なくとも、例えば、第二言語としての英語を学習する学習者からの典型的なテキストサンプルに見られる、ほとんどの誤ったコロケーションに対する、適切な置換コロケーションは、ウェブで見出すことが可能であることが分かっている。ウェブ検索において特定の文またはコロケーションが見つからないということは、その文またはコロケーションが誤りであるということのより高い確信をもたらす。類似の代替コロケーションが対象のコロケーションより非常に高い頻度で現れるかどうかを確認して検索結果を評価しても良く、結果として誤りであるにもかかわらずコロケーションがウェブ上に存在する可能性のあることが、そのようにして明らかになるだろう。
本明細書書の作成時においては、ウェブで利用可能なほとんどのテキストのコンテンツは英語である。現在の人の言語の多くは、ウェブ上ではほとんど利用可能でなく、幾つかの共通で話される言語でさえ、ウェブコンテンツ内に現れることは比較的少ない。例えば、ヒンディー語は、現在世界で3番目に広く話されている言語であるが、そのウェブコンテンツは、話す人がその千分の一に満たないアイスランド語のものより少ないことが、少なくとも1つの調査で分かった。コロケーション誤りの校正の有効性は、校正されるべきテキストサンプル内のコロケーションに対する比較の基盤として利用可能な、コーパスのサンプルのサイズに部分的に依存する。従って、英語のテキストサンプルの校正には必要とされないであろう異なる言語において、ウェブベースのコロケーション誤りの校正には、特別な方法が使用されるであろう。
これらには、例えば、特に、テキストサンプルの言語に一致する対象言語のコンテンツに対する、ターゲティングもしくはスクリーニング、または、ウェブもしくはネットワーク上でアクセスされる他のコンテンツに加えて、比較の基盤として使用されるコーパスに対して、特別のネットワーク、コーパス、もしくはデジタル化されたライブラリを使用することが含まれる。これらの方法は、例えば、ユニコードに符号化されていないコンテンツにインデックスを付け、かつ検索することが可能な検索ユーティリティを使用すること、または、特別のキャラクタ符号化スキームもしくは変換フォーマットを使用して非標準符号化フォーマットのコンテンツを読み、インデックを付け、検索できるようにすることを含む。ローマ字(アルファベット)以外の筆記体系を使用する言語の大量のコンテンツは、幾つかの言語のウェブ上の大多数のコンテンツでさえも、非標準符号化フォーマットで存在するため、これらの非標準符号化フォーマットにインデックスをつけて検索することが可能な検索は、他のものよりも非常に多くのコンテンツを生じさせる傾向がある。これらのような方法は、種々の実施形態に従って、可能な最大範囲の言語に適用されるように、ウェブベースのコロケーション校正システムの性能に寄与する。
ウェブコンテンツが検索されることを強制し、またはそれにバイアスをかける追加の方策は、URLのカテゴリまたは分類についての選好を適用することを含み得る。幾つかのURLは、具体的には、そのコンテンツが大量のライブラリまたは信頼できる適切な言語の使用のコーパスを含むことが知られている場合、選好する検索のため、および/または、このコンテンツ内で見出されるコロケーションにより重きを置くため、特別に列記され得る。これは、また、検索に選好的にバイアスをかけること、またはトップレベルドメイン(TLD)に基づき検索結果に重きを置くことを含む。例えば、追加の検索順序、または結果重み付けが、「com」または「org」ではなく、「edu」または「gov」のTLDを有するURLに対して適用され得る。英語以外の言語に対するコロケーション校正に関する検索では、対象の言語のウェブコンテンツについてのスクリーニング検索は、対象の言語が公用語であるかまたは実質的に使用されている国に割り当てられる国コードTLDに基づく検索または重みに、バイアスをかけることまたはそれらを制限することを含み得る。例えば、フランス語のテキストサンプルを校正することを対象とするコロケーション校正アプリケーションは、「fr」、「be」、「ch」もしくは「ca」(それぞれフランス、ベルギー、スイスおよびカナダの国コードTLD)といったTLD、または、他の公式もしくは実質的にフランス語圏の国に属する、他の国コードTLDを伴うウェブサイトで見出されるウェブコンテンツの検索に対して、バイアスをかけまたは制限することが可能である。
テキストボックス31は、コロケーション内で「this person」に先行する動詞句の主要語を形成するコーパスのコンテンツ内において見出される、全ての利用可能な動詞の長いリストの一部を示す。スクロールバーの何分の一かのサイズである、テキストボックス31の右側の上下スクロールバー内のスクロールサムにより示されるように、リストは、現在図1に示すテキストボックス31内に見える、利用可能な動詞の一部分より極めて長い。テキストボックス31にリストアップされる利用可能なコロケーションのほとんどが、テキストボックス29でのリストアップのように、コロケーション候補として選択されなかったが、それはこれらのコロケーションが、元のコロケーションと一致すること、およびそれを修正された形式で元の意味を与えるコロケーションと置換することの、考え得る正当性の基準の組に基づく、ファジーマッチのスコアリングスキームにおいてそれほど高いスコアを取れなかったからである。
テキストボックス27内のコロケーションを比較し、コーパスのコンテンツ内でそのコロケーションが好ましくないかどうかを特定し、およびそのコロケーションに対して推奨する置換を提供する例示の方法が、残りの図面を参照してさらに詳細に説明される。
図2は、図1に示すコロケーション誤りの校正インターフェース10の態様に類似する特定の態様である、例示の実施形態に従って、コロケーション校正方法50のフローチャートを示す。方法50の中心的なステップが、図2のフローチャート内に実線で輪郭を描いて示される。これらは、ウェブ検索のクエリー語として、コロケーションを含むコンテンツを提示することなどによって、テキストサンプルからの1つまたは複数のコロケーションをコーパスと比較するステップ51、コロケーションがコーパスにおいて好ましくないかどうかを特定するステップ53、および、コロケーションが好ましくないかどうかの表示を、出力装置を介して提供するステップ55を含む。再帰的なフローチャートの矢印で示すように、ステップ51および53は繰り返し連続して実行され、テキストサンプルからのコロケーションとコーパスとの異なる種類の比較を実行することができ、その異なる種類の比較により示されるように、コロケーションがコーパスにおいて好ましくないかどうかを特定する。
ステップ51、53、および55は、点線で輪郭を描いて表示されるように、追加のステップを伴い、追加のステップが先行するか、または追加のステップが後に続くことができる。これらは、例えば、ステップ61に示されるように、ユーザ入力もしくは選択または他の形式のテキストサンプルの指示を受け取ることなどにより、テキスト内の単語コロケーションの特定または指示を受け取ることを含む。それはまた、デフォルトの特徴を持ち、人によるテキスト入力を伴うワードプロセッシングアプリケーションまたは何らかの他のソフトウェアアプリケーションにおいて、誤ったコロケーションまたは非ネイティブの使用の他の指示に対して、入力が監視され、かつスクリーニングされ、また、ステップ63に示されるように、そのような指示が見つかれば追加のステップが始動される。テキストサンプルは、また、ステップ65に示されるように、また図1に関連して例示的に説明されるように、構文解析されるが、例えば、本方法の他の実施形態は、既に構文解析済みのテキストサンプルに適用してもよい。
ステップ67に示されるように、特定のタイプのコロケーションは、特に対象とされてコーパスと比較される。このステップは、コーパスと比較すること、および追加のコロケーション誤りの校正ステップを実行することのために、動詞−名詞コロケーション、前置詞−名詞コロケーション、形容詞−名詞コロケーション、または、動詞−副詞コロケーション等のコロケーションを選択することを含む。コロケーションのこれらの個々のカテゴリの任意の1つは、幾つかの実施形態において限定的に使用され得るが、任意のまたは全てのこれらのコロケーションタイプ、および/または追加のコロケーションタイプは、他の実施形態で使用され得る。ステップ67においてリストアップされる4つのコロケーションタイプを使用することが、典型的な非ネイティブの言語ユーザが犯すて全てのコロケーションの誤りの相当な部分を占めるということが分かっている。これらの特定のコロケーションタイプを選択することは、例えば、ステップ65に示されるように、または図1に関連して説明されるように、事前の構文解析ステップによって、テキストサンプル内の品詞を最初に特定することを含む。
コロケーションが、コーパスにおいて好ましくないかどうかを特定するステップ53は,異なるフォーマットのコロケーションに基づく様々な個々のクエリー語に対して、繰り返し実行され使用された全てのクエリー語に基づいて、コーパスと比較されるコロケーションがそのコーパスのコンテンツにおいて好ましくないかどうかの最終的な判定の形式とすることができる。
例示の一実施形態は、図3のフローチャートにおける類似のステップ351および353にさらに示される。この実施形態において、図2のステップ51に示されるようにテキストサンプルからのコロケーションをコーパスと比較することは、ファジーマッチの方策を含めることができる。この比較は、図3においてステップ361、363、365、および367にそれぞれ示されるように、コロケーションを含む完全な文、要約された文(reduced sentence)、一対のチャンク、または一対の単語を含むクエリー語に対してコーパスを検索することを含むものである。要約された文とは、コロケーションを含む文から付属部分を取り除くことによって形成されるものであるが、ここで付属部分とは、例示の実施形態において、文中のコロケーションの保存には必要ではないと事前に定義され、文から選択された単語である。例えば、誤ったコロケーションの文「I have recognized this person for years」に基づく要約された文のクエリー・テンプレートは、「have recognized this person」であり得る。チャンクの対および単語の対のクエリー語は、特定の単語またはコロケーションを含むチャンクが直接隣り合っているか、または、例えばそれらを引き離す1つまたは2つ程度の他の単語を伴う、同一の文内で近接する事前に選択された範囲の中にあるというものである。ファジーマッチ検索における、要約された文の検索、チャンクの対の検索、および単語の対の検索は、異なっているが等価な単語の順番であるという結果も検出し、または特定の機能語および他のタイプの単語に対してプレースホルダを使用する。その結果、例えば、「recognize this person」と「recognize that person」とは、ファジーマッチでは等価とみなされる。
コロケーションを含むクエリー語が、コーパス内にクエリー語のファジーマッチが有意に存在することを示す、事前に選択された閾値一致スコアより上のスコアをとれない場合、コロケーションは、好ましくないと評価され得る。図2のステップ53に示されるように、コロケーションがコーパスにおいて好ましくないかどうかを特定することは、クエリー語に対して異なるタイプの検索を実行することを含むことができ、これは、図3のステップ371およびステップ373のそれぞれに示されるように、文または要約された文の一致を検索すること、または、図3のステップ375およびステップ377のそれぞれに示されるように、チャンクの対もしくは単語の対に対して見出す一致のための閾値のスコアを評価することを含む。文および要約された文が、非常に特有のものであるため、それらの内の1つに対する1つの一致または少数の一致で、コロケーションが好ましいもの、または誤りでないものとして示されるには十分であると考えることができる。チャンクの対または単語の対の一致は、これらがそれほど不自然ではなく、より一般的であるため、その言語の専門家ではないユーザが書いたウェブコンテンツが比較的まれに残っていることにより、誤りである場合でも、少なくとも幾つかの検索結果で見付つかることは大いに予測できる。従って、本実施形態によると、チャンクの対および単語の対の一致に対してより高い閾値を設定することができる。この閾値は、指示されたチャンクまたは単語の対の、相対的な普及(prevalence)を示すのに十分であり、コーパスにおいて相対的に少量の、好ましくない単語コロケーションと予想される指示ではなく、通常の使用に対応する単語コロケーションを示すものである。
一致スコアは、特定の累積スコアを、例えばチャンクの対または単語の対の一致の存在それぞれに割り当てる基本カウンタを含み、十分な一致が見付かり最小合計スコアを達成する場合、好ましくないものよりもより適切なコロケーションを単に示す。異なるクエリーを有する結果についてのスコアは、組み合わせられ、より特定されたクエリー語にさらに重み付けし、例えば、例示として、チャンクの対の一致のカウント当りに、単語の対の一致のカウント当り10倍の重み付けをする。要約された文または全文もまた、コロケーションステータスを判定するのに、それ独自では十分ではなく、一致スコアの評価に含まれ得る。例えば、テキストサンプルからのコロケーションの対を含む要約された文で見付けられた各一致は、チャンクの対当りの20倍の一致重み付けのスコア、および単語の対当り200倍の重み付けのスコアが割り当てられ得る。一致または一致スコアを評価するのにどんな方法が使用されても、その処理は、ステップ355において終了し、そのステップ355はステップ381に示されるように、コロケーションが好ましくないという表示、またはステップ383に示されるように、コロケーションが好ましいという表示を提供する。
異なるクエリー・テンプレートの重み付け、および普通の使用のコロケーションを、好ましくないコロケーションから区別するために使用される閾値一致スコアは、コロケーション校正ソフトウェアの開発者またはユーザオプションとしてエンドユーザにより、より大きいまたはより小さい検出感度に調整または調節することができる。ユーザは、閾値を低く下げて処理を早くしたいかもしれないが、問題のあるまたは不明確な好ましくない少数のコロケーションがくぐり抜ける可能性が大きい。またはユーザは、もっと完璧なものを求め、閾値を高く設定することができる。場合によっては注目すべきコロケーションを調べることに、より多くの時間を費やし、そのコロケーションが任意の可能性のある置換語に比較的類似した使用がなされていることが分かるということにもかかわらず、より良く確実にいかなる誤ったコロケーションもテキストサンプルから取り除くであろう。
図3におけるクエリー語の順番は、より特有のものから、より一般的なもの、およびより制約されないものへと進むため、各連続するステップからの検索結果を収集することに、前のステップより時間がかかりやすい。検索結果を戻す全てのステップは、ほんの一瞬を必要とすると思われるが、システムの性能はさらにより高効率化され、一致の十分な表示が見付かると、すぐに次第に時間がかかってゆく残りのステップを経由することなく、ステップ351およびステップ353の処理を終了することにより、全体の時間を減らす。所定の文または要約された文に対して多くの一致が見付けられた場合、例えば、チャンクの対または単語の対の検索を実行するために必要な比較的長い瞬間を費やすことを、回避することが出来る。異なるクエリー語を使用する同一のコロケーションの検索は、従って、クエリー語の1つが、コロケーションに一致する事前に選択された閾値を満たす検索結果を与えるまで、または、コロケーションを含む全てのクエリー語が、事前に選択された閾値を満たすことなく使用されるまで、連続して続行される。
図2に示されるさらなるステップに戻り、例示の一実施形態によると、特定のコロケーションが好ましくないかどうかの表示が与えられた後、ステップ71、73、75および77に示されるように、コロケーション誤りの校正アプリケーションが作動して、さらに、候補の置換語を検索および提供して、誤ったコロケーションを修正する。これは、ステップ71に示されるように、1つまたは複数の好ましくないコロケーション内の1つまたは複数の単語を置換するワイルドカードを用いて、クエリー語を作成することを含み得る。ワイルドカードは、誤っている可能性があることが示される疑わしい単語の代わりに、クエリー語の中に挿入されるオープンなプレースホルダとして役立つことができ、ここで、プレースホルダは、検索されているコーパス内の、クエリー語の残りの部分の疑わしい単語の位置に挿入される任意の単語に対応する。ワイルドカードは、単語の1つを、誤りが疑われる単語の代わりとなる、アスタリスク等の記号と置き換えることによって検索に使用するができる。
単語コロケーションリファレンスは、ステップ73に示されるように、ワイルドカード要素を含むもの等の、可能性のあるコロケーション候補を提供するクエリー語に対して検索されることができる。単語コロケーションリファレンスは、さらに、ウェブまたは別のネットワークベースのもしくはローカルなコーパスであることが可能であり、また、例えばウェブの検索結果をスクリーニングして単語コロケーション辞書に含まれないコロケーションを削除することなどによって、特別の単語コロケーション辞書リファレンスを含むことができる。
次に、コロケーションリファレンスの検索は、ワイルドカードプレースホルダを表す記号の代わりに、任意の単語またはフレーズを使用するテキストの区分を有する結果を戻すことができる。例えば、図1のコロケーション候補のテキストボックス29を再度参照すると、そこにリストアップされる幾つかのコロケーション候補は、全てフレーズ「this person」に先行するワイルドカード記号を用いたワイルドカード検索から戻されたものである。検索語は、例えば「* this person」であり、ここでアスタリスク「*」はワイルドカードを形成し、検索結果は、「known this person」、「admitted this person」、「thought this person」などを含む。検索ツールによりワイルドカードの単語を示すのに使用される記号の選択は、任意であり、アンパサンド、クエスチョン・マーク、またはその他が適当であろう。
ワイルドカードは、同一のコロケーションに基づく一連のクエリー語のそれぞれに使用され、より大きく制約されたものからより小さく制約されたものへ、コロケーションに基づく一連のクエリー・テンプレートを順次通って進み、元々なされていたのと同様に対象のコロケーションの正当性または好ましくない程度を評価する。例えば、誤ったコロケーションの文「I have recognized this person for years」に対して、一連のワイルドカードクエリー語が含むことができるものは、完全な文であって、ワイルドカードでコロケーション内の動詞を置き換えたもの、すなわち「I have * this person for years」、要約された文の形式に基づく1つまたは複数のクエリー語、すなわち「I have * this person」、「have * this person for years」、「I have * this person」、コロケーションを含有するチャンクの対に基づく1つまたは複数のクエリー語、すなわち「* this person for years」、「* this person」、および、直接隣り合っているもの、または、1つ程度の中間の単語によって引き離されるような近接したもの、例えば「* 〜 person」、として検索されるいずれかの、単語の対としてのコロケーションに対する、1つまたは複数のクエリー語である。ここで波線「〜」は、例示の一実施形態において、任意に選択されているが、検索ツールによって、近接するプレースホルダとして解釈される。このプレースホルダは、ゼロもしくは1つまたは場合によっては複数の単語をその場所において表すことが可能で、ワイルドカードおよび特別の単語を引き離すことを示している。従って、ワイルドカードをクエリー語内で使用することは、テキストサンプルからのコロケーションを、ウェブ上、または他のネットワークベースのもしくはローカルなコーパスで利用可能なコンテンツ内の、潜在的に類似のコロケーションと、様々なレベルで比較するための効果的な方法の1つの例示を提供する。
限定される組の選好的な候補に制限される特別なワイルドカードを使用することもでき、または、結果がスクリーニングされるコロケーションリファレンスが、好ましいコロケーション候補の表示を含むことができる。例えば、特定のコロケーション候補は、好ましくはテキストサンプルの筆者の母国語からの逆翻訳の処理に基づく。ユーザが、自分の母国語を入力するという選択ができるか、または、コロケーション校正ソフトウェアが、筆者の母国語を示すような文章サンプル内の手掛かりを評価するツールを使用することができ、例えば、ソフトウェアはユーザに母国語を確認するよう指示する。他の手掛かりには、例えば、コンピュータ上にインストールされた他のソフトウェアで使用されている言語オプション、またはコンピュータの物理的な場所を示すものが考えられる。例えば、ソフトウェアが、オペレーティングシステムを中国語バージョンで作動させているコンピュータ上で、作動していることを検出した場合、または、ソフトウェアが、物理的には北京にあるものとリファレンスが示すサーバを介して、コンピュータがインターネットに接続していることを検出し、一方でテキストサンプルが英語である場合、ソフトウェアは、選好的な処理または優先処理を、ネイティブの中国語話者に典型的であるコロケーション候補に割り当てる。
筆者の母国語が分かっている場合、コロケーション校正ソフトウェアは、誤ったコロケーションが、筆者の母国語を文章サンプルの母国語でない言語へ不適切にマッピングすることに基づくかどうかを考慮することができる。これには、例えば、母国語の文法規則を母国語でない言語に適用するといったマッピングエラー、偽同族語または間違ったグループの言語(false friend)の誤用、母国語が複数形を区別しない場合に複数形を省略すること等が含まれ得る。
例えば、「I have recognized this person for years」を含むテキストサンプルの筆者が、ネイティブの中国語話者であると表示される。コロケーション校正ソフトウェアは、この表示に応答して、これを中国語に翻訳して入力し英語に戻された候補の翻訳をチェックすることができる。「To recognize」は(漢語ピンイン(hanyu pinyin)で与えると)標準中国語の単語
Figure 0004960461
に翻訳され得るが、英語では「to recognize」または「to know」として翻訳される単語である。従って、逆翻訳は「know」が「recognize」の考え得る置換の候補であることを示し、「I have known this person for years」を与える。別の例として、ネイティブのフランス語話者であると示される筆者による英語のテキストサンプルが、「I commanded the faith and onions」という文を含み、「commanded」および「faith」の両方に好ましくない単語コロケーションのタグが付けられている。これは、フランス語で
Figure 0004960461
と翻訳され、
Figure 0004960461
が適切に「ordered」として逆翻訳され、「le foi」が「le foie」と綴りが直され「the liver」として逆翻訳し、よってソフトウェアは、検索結果により生成される任意の他のものの中のこれらのコロケーション候補を優先させ、追加の重み付けをし、置換のコロケーション候補を示唆し、文「I ordered the liver and onions」を与えることができる。
いずれの場合も、母国語からの逆翻訳を使用して、まず候補置換語の検索を制限し、またはそれをコロケーションリファレンスとして使用して、検索によって生成される可能性のある置換候補の間で評価し、および優先付けする。
ステップ73に示されるように、クエリー語に対して単語コロケーションリファレンスを検索した後、本例示の実施形態においては、ステップ75を実行し、ワイルドカードを置換する候補の単語の割合が比較的高い検索の結果を特定する。これにより、例示の一実施形態において、コロケーションを含む1文全体、要約された文、チャンクの対、または単語の対に対する一致を与える検索結果の間で、異なる重み付けが異なる一致のタイプに対して再度使用される。合計スコアは、各タイプのクエリー語からのスコア成分の重み付けされた和であり得、ここで各スコア成分は、例えばそのクエリー語の検索結果の数と、そのクエリー語に割り当てられる重みの積である。このような方法を使用する比較的高い合計スコアは、本例示の実施形態において、ワイルドカードを置換する候補の単語の比較的高い割合の効果的な基準として解釈され、誤ったコロケーションを修正するための考え得る可能性として役立つ。
ワイルドカードは、特にクエリー語内の品詞またはチャンクタイプのある部分を対象とする。例えば、動詞−名詞コロケーションに基づく1組のクエリー語内で、各コロケーションの動詞は、ある組のクエリー語のワイルドカードで置換され、また各コロケーションの名詞は、別の組のクエリー語のワイルドカードで置換され得る。前置詞−名詞コロケーションでは、特に前置詞は、ワイルドカードでの置換のために選択されるコロケーションの一部であり得るが、それは、意図される文の意味に名詞がより大きく関連し、また選択される特定の前置詞が、より一般的にその言語の中間学習者による誤ったコロケーション使用をされやすいからである。前置詞−名詞コロケーションに基づき、前置詞をクエリー語内のワイルドカードによる置換の対象とすることは、従って、所望の置換コロケーションを生成するために必要な時間を少なくする方策をサポートすることができる。同様に、ワイルドカードは、形容詞−名詞コロケーション内の形容詞および動詞−副詞コロケーション内の副詞として選好的に選択されるが、それは、この場合もやはり、意図される意味に、名詞および動詞がより固定されやすく、一方、形容詞および副詞が、それらが修飾する名詞および動詞よりも誤ったコロケーションに陥りやすいからである。品詞またはチャンクタイプの他の特定の部分は、他の実施形態において、クエリー語内のワイルドカードによる選好的なまたは限定的な置換に対して選択される。
検索結果の中で、疑わしい単語よりも有意に大きな割合を有する可能性のある置換語は、コロケーションの明らかに好ましくない部分に対して置換を示唆するものとして示され得る。これは、適切な単語コロケーションの辞書、または上記で説明したように、筆者の母国語に基づき示唆される逆翻訳との相互参照等のコロケーションリファレンスに含めるための、コロケーションと可能性のある置換語の相互参照の後でなされる。
検索の結果は、1つまたは幾つかの可能性のあるコロケーションの候補の単語であって、最高の一致スコアを有することが判明するような単語を有するが、図2のステップ77に示されるように、潜在的に適切な単語コロケーションとしてユーザ出力を介して与えることができる。これは、図1のテキストボックス29に表示されるコロケーション候補に類似し、例えば、ユーザがコロケーション候補の1つを選択し、誤りであると表示されるコロケーションを置換することが可能になる。時には、単一のコロケーションが、誤ったコロケーションに対する適切な置換としての可能性を十分に良好に示すであろう。これは、図4に示す場合である。
図4は、例示の実施形態による、コロケーション校正方法を可能にするコンピュータシステムのユーザインターフェース410を示す。ユーザインターフェース410は、その上部に図1のコロケーション誤りの校正インターフェース10と同じタブを含む。具体的には、「ESL文のロード」と名前が付されたタブ11(この場合も、例示的に特定のESLの実施形態を対象とする)、および「クエリーの実行」と名前が付されたタブ13である。図1は、「ESL文のロード」のタブ11が選択されたユーザインターフェース10を示すが、図4は、タブ13が選択されたユーザインターフェース410を、ディスプレイ上の関連するボタン、見出し、テキストボックス、および他のユーザインターフェース要素と共に示す。これらは、「ESL構文解析済みの文」と名前が付された上部分と、「クエリーのレベル」と名前が付された下部分に分割される。ユーザインターフェース410は、コロケーション誤りの校正の例示の実施形態をサポートし、特定のタイプのクエリーに関わり、それらのクエリーで実行された検索の結果をユーザインターフェースを介して提供することを対象とする。
上部の「ESL構文解析済みの文」部分は、図1のテキストボックス25と類似のテキストボックス25を含み、テキストボックス25は、ここでは同じ構文解析済みの文を含む。この部分は、また、構文解析済みの文テキストボックス25の下にボタンの行41を含む。これらは、構文解析済みの文に基づき検索を実行する、様々な異なる例示のクエリー・テンプレートのためのボタンを含む。特に、本例示の実施形態においては、上記の説明によると、「クエリーの作成」、例えば完全な文または要約された文に対して、異なる文に基づくクエリーを参照する「S−クエリーIの提示」および「S−クエリーIIの提示」、異なるタイプのチャンクの対のクエリーについての「C−クエリーIの提示」および「C−クエリーIIの提示」、並びに、コロケーションの個々の単語の対に基づくクエリーについての「W−クエリーの提示」、という名前が付されたボタンがある。
ユーザインターフェース410の下部分は、現在の置換コロケーション候補の単語に対して呼び出され得るいくつかのクエリーの結果のテキストボックスの例示として、文レベルのクエリー用のテキストボックス43、チャンクの第1のレベルのクエリー用のテキストボックス45、およびチャンクの第2のレベルのクエリー用のテキストボックス47を含む。各テキストボックス43、45および47は、また、そのコロケーション候補のクエリー検索結果のヒット数、および、右側に、各クエリーのタイプに対応するコーパスからの幾つかのクエリー検索結果を表示する別個のテキストボックスとともに表示されている。その図により示唆されるように、本例示の例においては、校正されているコロケーションにおいて各クエリー・テンプレートのレベルで、「known」が「recognized」の適切な置換語として強く表示される。これは、クエリー・テンプレートの段階的なスキームが与えた冗長性が、この場合は、1つの特定の置換候補に対する説得力のあるケースを提示するには十分すぎたことを例示する。次に、ユーザは、自分の所望の各クエリー・テンプレートのヒット数を考慮し、置換コロケーション候補の1つを選択して、これが対応する好ましくない単語コロケーションを置換することができる。
図1および図4は、専用のアプリケーションの実施形態に関連するグラフィックディスプレイパネルを示すが、別の例示の実施形態は、ワードプロセッシングプログラム、ウェブブラウザ、Eメールアプリケーション、プレゼンテーションプログラム、または、テキストもしくは自然言語の別の形式のユーザ入力を伴う他のアプリケーション等の、別のアプリケーションと接続して機能しえる。そのような他のプログラムまたはアプリケーションは、別個の誤りコロケーション校正プログラムの実施形態と協働するか、または、例えば誤りコロケーション校正の実施形態から成る、それ自身のモジュールを含むことができる。コロケーション誤りの校正ツールは、異なる実施形態においては、例えば他のアプリケーションのツールメニューの下でアクセス可能であり、または別の例として、ユーザが単語の上で右クリックするとポップアップメニュー内の選択肢としてアクセス可能であり得る。
さらに別の動作モードにおいて、他のプログラムは、誤りコロケーション校正モジュールまたはプログラムを、デフォルトの設定で自動的に作動させることができ、また、誤りのある、または好ましくないコロケーションを、モニタ上の単語に付けられるマーキングを用いて自動的に表示することができる。マーキングは、例えばコロケーションの下で青いギザギザの線の形式をとり、そのコロケーションを誤りのあるまたは好ましくないものとして示すことができる。さらに別の動作モードにおいて、別個のモジュールまたはプログラムが作動し、例えば、ユーザ入力が、ユーザがその入力言語のネイティブユーザではないことを示すものを含むかどうかを検出し、非ネイティブの使用の表示は、誤りコロケーションモジュールまたはプログラムの起動のトリガとなる。
図5は、種々の実施形態を実装可能な適切なコンピュータシステム環境100の一例を例示する。例えば、種々の実施形態は、ソフトウェアアプリケーション、モジュール、または、コンピュータシステム環境100により実行可能な、およびコンピュータシステム環境100を構成して異なる実施形態に含まれる種々のタスクまたは方法を実行させる、他の形式の命令として実装される。コロケーション誤りの校正の実施形態を具現化するソフトウェアアプリケーションまたはモジュールは、任意の様々なプログラミング言語もしくはスクリプト言語、またはプログラミング環境もしくはスクリプト環境で開発され得る。例えば、C#、F#、C++、C、Pascal、VisualBasic、Java(登録商標)、Java(登録商標)Script、Delphi、Eiffel、Nemerle、Perl、PHP、Python、Ruby、VisualFoxPro、Lua、または任意の他のプログラミング言語で書くことができる。また新しいプログラミング言語および他の形式の作成可能命令の開発が続けられ、そこではさらなる実施形態が容易に開発され得るということも想定される。
例示の一実施形態によると、コンピュータシステム環境100は、テキスト内の単語コロケーションの表示を受け取るのに応答して、コロケーション誤りの校正タスクを実行するように構成され得る。次に、コンピュータシステム環境100は、表示される単語コロケーションに関連する1つまたは複数のクエリー・テンプレートのそれぞれに対して、ウェブ検索を実行することができる。使用される種々のクエリー・テンプレートは、文、要約された文、チャンクの対、および/または個々の単語の対を含むが、これらの内の任意のものが単語コロケーションを含み得る。コンピュータシステム環境100は、次に、各クエリー・テンプレートに対するウェブ検索の結果が、単語コロケーションが通常の使用に対応していることを示すかどうか、または、それが好ましくないかもしくは考え得る誤りを示しているかどうかを評価することができる。通常の使用がなされているかどうかは、文を含むクエリー・テンプレートが正確に一致すること、または事前に選択された閾値より大きい一致スコアによって示すことができる。次に、システムは、ユーザが認識可能な出力装置を介したコンピュータシステム環境100の出力の一部として、コロケーション誤りの校正方法の実施形態の結果として、単語コロケーションが通常の使用に対応するか、または好ましくないため誤った使用であるとして示されるかどうかを示すことができる。
図5に示すコンピュータシステム環境100は、種々の実施形態を実行し、種々の実施形態からの出力を提供する、適切なコンピュータ環境の一例に過ぎず、請求される主題の使用または機能の範囲に任意の制限を示唆することは意図されていない。コンピュータ環境は、例としての動作環境100に示されるコンポーネントの任意の1つまたは組合せに関して依存も要求も有するものとして解釈されるべきではない。
実施形態は、多数の他の汎用もしくは専用のコンピュータシステム環境または構成で作動する。種々の実施形態の使用に適切な、既知のコンピュータシステム、環境、および/または構成の例は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話技術システム、任意の上記のシステムまたはデバイスを含む分散コンピュータ環境等を含むが、これに限定されない。
実施形態は、プログラムモジュール等の、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで説明され得る。一般に、プログラムモジュールは、特定のタスクを実行し、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含む。幾つかの実施形態は、通信ネットワークを通じてリンクされるリモート処理装置によりタスクが実行される、分散コンピュータ環境において実践されるように設計される。分散コンピュータ環境において、プログラムモジュールは、メモリストレージデバイスを含む、ローカルおよびリモート両方のコンピュータ記憶媒体内に置かれる。本明細書に記載されるように、そのような実行可能命令は、媒体に格納され、コンピュータシステムの1つまたは複数のコンポーネントによって読み込まれ実行されることが可能にであり、それによって新しい能力を有するコンピュータシステム構成する。
図5を参照すると、幾つかの実施形態を実装する例としてのシステムは、コンピュータ110の形式の汎用のコンピューティングデバイスを含む。コンピュータ110のコンポーネントは、プロセシングユニット120、システムメモリ130、および、システムメモリを含む種々のシステムコンポーネントをプロセシングユニット120に連結するシステムバス121を含むことができるが、これに限定されない。システムバス121は、メモリバスまたはメモリコントローラ、周辺機器用バス、および任意の様々なバスアーキテクチャを使用するローカルバスを含む、任意の数タイプのバス構造である。限定ではなく例として、上記アーキテクチャは、業界標準アーキテクチャ(ISA)バス、マイクロ・チャネル・アーキテクチャ(MCA)バス、拡張ISA(EISA)バス、VESA(Video Electronics Standards Association)ローカルバス、および、メザニンバスとしても既知のPCI(Peripheral Component Interconnect)バスを含む。
コンピュータ110は、典型的には、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセスでき、揮発性および不揮発性媒体、着脱可能および着脱不可能な媒体の両方を含む、任意の利用可能な媒体であることが可能である。限定ではなく例として、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータ等の情報を格納する任意の方法または技術で実施される、揮発性および不揮発性、着脱可能なおよび着脱不可能の両方の媒体を含む。コンピュータ記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリ、もしくは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)、もしくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、もしくは他の磁気ストレージデバイス、または、所望の情報を格納するのに使用でき、コンピュータ110によってアクセスできる任意の他の媒体が含まれるが、これに限定されない。通信媒体は、典型的には、搬送波または他の転送機構などの変調されたデータ信号内のコンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを具現化し、任意の情報配信媒体を含む。用語「変調されたデータ信号」は、信号内で情報を符号化する方法でその特性の1つまたは複数を設定または変更された信号を意味する。限定ではなく例として、通信媒体は、有線ネットワークまたは直接配線接続などの有線媒体と、音響、RF、赤外線、および他の無線媒体などの無線媒体を含む。上記の任意の組合せも、コンピュータ可読媒体の範囲に含まれるべきである。
システムメモリ130は、読み出し専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132等の揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動中などに、コンピュータ110内の要素の間での情報の転送を助ける基本ルーチンを含む基本入出力システム133(BIOS)が、典型的にはROM131に格納される。RAM132は、典型的には、プロセシングユニット120に即座にアクセス可能、かつ/またはプロセシングユニット120によって現在作動中のデータおよび/またはプログラムモジュールを含む。限定ではなく例として、図5に、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を例示する。
コンピュータ110は、また、他の着脱可能/着脱不可能の、揮発性/不揮発性のコンピュータ記憶媒体も含むことができる。単に例として、図5は、着脱不可能な不揮発性磁気記憶媒体から読み取りまたはこれに書き込むハードディスクドライブ141、着脱可能な不揮発性磁気ディスク152から読み取りまたはこれに書き込む磁気ディスクドライブ151、および、CD−ROMまたは他の光媒体などの着脱可能な不揮発性光ディスク156から読み取りまたはこれに書き込む光ディスクドライブ155を示す。例示的な動作環境で使用できる他の着脱可能/着脱不可能の、揮発性/不揮発性のコンピュータ記憶媒体は、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROM等を含むが、これに限定されない。ハードディスクドライブ141は、通常は、インターフェース140等の着脱不可能なメモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、典型的には、インターフェース150などの着脱可能なメモリインターフェースによってシステムバス121に接続される。
上で説明し、図5に示されたドライブおよびそれに関連するコンピュータ記憶媒体は、コンピュータ110のコンピュータ可読命令、データ構造、プログラムモジュール、および他のデータのストレージを提供する。図5において、例えば、ハードディスクドライブ141が、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を格納するものとして図示されている。これらのコンポーネントを、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同一のまたは異なるもののいずれかとすることができることに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147は、ここで、最低限でも異なるコピーであることを示すために異なる符号を与えられている。
ユーザは、キーボード162、マイク163、および、一般にマウス、トラックボール、またはタッチパッドのようなポインティングデバイス161などの入力装置を介して、コンピュータ110にコマンドおよび情報を入力することができる。他の入力装置(図示せず)は、ジョイスティック、ゲームパッド、衛星放送用パラボラアンテナ、スキャナ等、を含むことができる。これらおよび他の入力装置は、しばしば、システムバスに連結されるユーザ入力インターフェース160を介してプロセシングユニット120に接続されるが、パラレルポート、ゲームポート、またはUSB(universal serial bus)等の他のインターフェースおよびバス構造によって接続することができる。モニタ191または他のタイプのディスプレイ装置は、また、ビデオインターフェース190等のインターフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータはまた、スピーカー197およびプリンタ196等の他の周辺出力装置を含み得るが、これらは出力周辺インターフェース195を介して接続され得る。
コンピュータ110は、リモートコンピュータ180等の1つまたは複数のリモートコンピュータへの論理接続を使用して、ネットワーク化された環境で動作する。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の一般的なネットワークノードであり得、典型的には、コンピュータ110に関して上記した要素の多くまたはすべてを含む。図5に示される論理接続は、ローカルエリアネットワーク(LAN)171および広域ネットワーク(WAN)173を含むが、他のネットワークを含むこともできる。そのようなネットワーク環境は、オフィス、企業規模のコンピュータネットワーク、イントラネット、およびインターネットでは一般的なものである。
LANネットワーク環境で使用される場合、コンピュータ110は、ネットワークインターフェースまたはネットワークアダプタ170を介してLAN171に接続される。WANネットワーク環境で使用される場合、コンピュータ110は、典型的には、インターネットなどのWAN173を介する通信を確立する、モデム172または他の手段を含む。モデム172は、内蔵または外付けであり得るが、ユーザ入力インターフェース160または他の適正な機構を介してシステムバス121に接続され得る。ネットワーク化された環境では、コンピュータ110に関連して示されるプログラムモジュールまたはその一部を、リモートメモリストレージデバイスに格納することができる。限定ではなく例として、図5は、リモートコンピュータ180に存在するものとしてリモートアプリケーションプログラム185を示す。図示のネットワーク接続は例示的であり、コンピュータの間の通信リンクを確立する他の手段を使用できることは理解されるであろう。
図6は、別の例示の実施形態による、一般的なモバイルコンピューティング環境のブロック図を示す。この環境は、モバイルコンピューティングデバイスと、そのモバイルコンピューティングデバイスにより読み取り可能であり、モバイルコンピューティングデバイスにより実行可能な実行可能命令を含む媒体とを含む。例示の実施形態によると、図6は、モバイルデバイス201を含むモバイルコンピューティングシステム200のブロック図を示す。モバイルデバイス201は、マイクロプロセッサ202、メモリ204、入出力(I/O)コンポーネント206、および、リモートコンピュータまたは他のモバイルデバイスと通信するための通信インターフェース208を含む。一実施形態において、上述の構成コンポーネントは通信のために適切なバス210を介してお互いに連結される。
メモリ204は、バッテリバックアップモジュール(図示せず)を有するランダムアクセスメモリ(RAM)等の不揮発性電子メモリとして実装され、モバイルデバイス200への総電源がシャットダウンされた場合に、メモリ204に格納された情報が消えないようにする。メモリ204の一部は、例示的には、プログラム実行用のアドレス可能メモリとして割り付けられ、メモリ204の他の部分は、例示的には、格納のために使用されディスクドライブ上の格納をシミュレートする。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、ならびにオブジェクトストア216を含む。動作中、オペレーティングシステム212は、例示的には、プロセッサ202によってメモリ204から実行される。オペレーティングシステム212は、例示の一実施形態において、本件特許出願人から市販されているWINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は、例示的には、モバイルデバイス用に設計され、一組の露出されたアプリケーションプログラミングインターフェースおよび方法を介して、アプリケーション214により利用されることが可能なデータベースの特性を実装する。オブジェクトストア216内のオブジェクトは、少なくとも部分的に、露出されたアプリケーションプログラミングインターフェースおよび方法への呼び出しに応答して、アプリケーション214およびオペレーティングシステム212により保持される。
通信インターフェース208は、モバイルデバイス200が情報を送受信することを可能にする多数の装置および技術を表す。その装置には、2、3例を挙げると、有線および無線のモデム、衛星放送受信機、および、放送チューナが含まれる。モバイルデバイス200は、また、直接コンピュータに接続され、これとデータ交換することが可能である。そのような場合、通信インターフェース208は、赤外線トランシーバー、またはシリアルもしくはパラレルの通信接続であり得、それらは全てストリーミング情報を転送することが可能である。
入出力コンポーネント206には、タッチセンサ式スクリーン、ボタン、ローラ、およびマイク等の様々な入力装置が含まれ、同様に、オーディオジェネレータ、バイブレーティングデバイス、およびディスプレイを含む様々な出力装置が含まれる。上記に挙げた装置は、例示のためのものであり、モバイルデバイス200上に全てが存在することが必要なわけではない。加えて、他の入出力装置を、モバイルデバイス200に取り付けるか、またはモバイルデバイス200に見付けることができる。
モバイルコンピューティングシステム200はまた、ネットワーク220を含む。モバイルコンピューティングデバイス201は、例示的には、例えばインターネット、広域ネットワーク、またはローカルエリアネットワークのような、ネットワーク220との無線通信を、通信インターフェース208と無線インターフェース222との間の適切なプロトコルの電磁信号299の送受信により行う。無線インターフェース222は、例えば無線ハブもしくは携帯電話アンテナであり得、または任意の他の信号インターフェースであり得る。無線インターフェース222は、例示的にコンピューティングリソース224および226で表される、多様な追加のコンピューティングリソースへの、ネットワーク220を介したアクセスを提供する。当然、任意の場所の任意の数のコンピューティングデバイスが、ネットワーク220との通信接続を行うことができる。幾つかの例示の実施形態において、コンピューティングデバイス201は、コンピューティングデバイス201が母国語でない言語校正クエリーおよび他のタスクを実行可能にする実行可能命令のような、メモリコンポーネント204の媒体上に格納される実行可能命令の使用が可能にされる。
本主題が、構造の特徴および/または方法論的な動作に特有の言葉で記載されたが、添付の特許請求の範囲で定義される主題は、必ずしも上述の特有の特徴または動作に限定されないことは理解されよう。むしろ、上述の特有の特徴および動作は、本主題を実現するための例示の形として開示される。特別な例として、用語「コンピュータ」、「コンピューティングデバイス」または「コンピュータシステム」は、本明細書において便宜上、時に単独で使用されることがあるが、これらのそれぞれは、任意のコンピューティングデバイス、コンピュータシステム、コンピュータ環境、モバイルデバイス、または他の情報処理コンポーネントもしくはコンテキストに言及し、任意の個々の解釈に限定されないことがよく理解されるであろう。別の特別な例として、多くの実施形態が、特許出願時には広く知られた例示の要素で提示されるが、コンピュータ技術における多くの新しい手法が、ユーザインターフェース、ユーザ入力方法、コンピュータ環境、およびコンピューティング方法等の態様において、異なる実施形態の要素に影響を及ぼすであろうこと、および、特許請求の範囲により定義される要素が、これらおよび他の革新的な進歩に従って具現化される一方で、依然として本明細書の特許請求の範囲により定義される要素に一致しかつその要素に包含されたままであろうことが想定される。

Claims (14)

  1. コンピュータシステムにより実行する方法であって、
    テキストサンプルに品詞タグ付けるステップであって、コーパスと比較される1つまたは複数のコロケーションは、動詞−名詞コロケーション、前置詞−名詞コロケーション、形容詞−名詞コロケーション、および動詞−副詞コロケーションの少なくとも1つを含むものが前記テキストサンプルから選択されるステップと、
    前記テキストサンプルからの前記1つまたは複数のコロケーションをコーパスと比較するステップであって、前記1つまたは複数のコロケーションのそれぞれを含む1つまたは複数のクエリー語を使用して、1つまたは複数のウェブ検索を実行するステップを含み、検索が実行される前記1つまたは複数のコロケーションのそれぞれに対して、前記クエリー語の1つが、前記コロケーションに一致するよう事前に選択された閾値を満たす検索結果を与えるまで、または事前に選択された閾値を満たすことなく、前記コロケーションを含む前記クエリー語の全てが使用されるまで、前記コロケーションを含む前記1つまたは複数のクエリー語のそれぞれに対して検索が実行されるステップと、
    前記コロケーションが、前記コーパス内で好ましくないかどうかを特定するステップであって、前記コロケーションが前記コーパス内で見出されない場合、または、前記コロケーションが、前記コーパス内に前記コロケーションのファジーマッチが有意に存在することを示す、事前に選択された閾値一致スコアより上のスコアを取れない場合、前記コロケーションは好ましくないと特定するステップと、
    前記コロケーションが好ましくないかどうかの表示を、出力装置を介して提供するステップと、
    1つの前記好ましくないコロケーション内の1つの単語を置換するワイルドカードを用いて、1つまたは複数のクエリー語を作成するステップと、
    前記クエリー語に対して単語コロケーションリファレンスを検索するステップと、
    前記ワイルドカードを置換する候補の単語の割合が比較的高い検索結果を特定するステップと、
    前記候補の単語を有する前記検索結果を、前記出力装置を介して潜在的に適切な単語コロケーションとして与えるステップと
    を含むことを特徴とする方法。
  2. 前記コーパスが、ウェブ上のコンテンツを含むことを特徴とする請求項1に記載の方法。
  3. 前記コーパスが、ネットワーク上でアクセス可能なコンテンツを含むことを特徴とする請求項1に記載の方法。
  4. 検索が実行されるコロケーションのそれぞれに対して、前記コロケーションを含むクエリー語が、前記コーパス内に前記クエリー語のファジーマッチが有意に存在することを示す、事前に選択された閾値一致スコアより上のスコアを取れない場合、前記コロケーションは好ましくないことを特徴とする請求項1に記載の方法。
  5. 少なくとも1つの前記クエリー語が、前記コロケーションを含む文を含むことを特徴とする請求項1に記載の方法。
  6. 少なくとも1つの前記クエリー語が、前記コロケーションを含む要約された文を含み、前記要約された文が、前記コロケーションを含む文から付属部分を取り除くことによって形成されることを特徴とする請求項1に記載の方法。
  7. 少なくとも1つのクエリー語が、前記コロケーションを含むチャンクの対を含むことを特徴とする請求項1に記載の方法。
  8. 少なくとも1つのクエリー語が、前記コロケーションを含む単語の対を含むことを特徴とする請求項1に記載の方法。
  9. 前記テキストサンプルは、対象の言語であり、前記方法は、前記コーパスをスクリーニングして前記コロケーションを前記対象の言語で表示されるコンテンツのみと比較するステップをさらに含むことを特徴とする請求項1に記載の方法。
  10. 前記クエリー語が、1つまたは複数の文テンプレート、チャンク・テンプレート、および単語テンプレートを含み、候補の単語を含む検索結果の割合に、文テンプレートに対しては最も高く、チャンク・テンプレートに対してはそれより低く、および単語テンプレートに対しては最も低い、クエリー・テンプレートの重み付けを乗ずることにより、前記ワイルドカードを置換する候補の単語の割合が比較的高い検索の結果を評価することを特徴とする請求項1に記載の方法。
  11. 前記クエリー語が、1つまたは複数の動詞−名詞コロケーション、前置詞−名詞コロケーション、形容詞−名詞コロケーション、および動詞−副詞コロケーションを含み、前記ワイルドカードが、動詞−名詞コロケーション中の動詞、動詞−名詞コロケーション中の名詞、前置詞−名詞コロケーション中の前置詞、形容詞−名詞コロケーション中の形容詞、または動詞−副詞コロケーション中の副詞として選択されることを特徴とする請求項1に記載の方法。
  12. ユーザが、潜在的に適切な単語コロケーションの1つを選択して、これが対応する好ましくない単語コロケーションを置換することを可能にするステップをさらに含むことを特徴とする請求項1に記載の方法。
  13. コンピュータシステムによって実行可能な命令を記憶したコンピュータ読み取り可能記憶媒体であって、前記命令が、請求項1乃至12のいずれかに記載の方法を前記コンピュータシステムに実行させることを特徴とするコンピュータ読み取り可能記憶媒体。
  14. コンピュータシステムであって、前記コンピュータシステムに記憶されたコンピュータ実行可能命令が前記コンピュータシステムの処理装置によって実行されると、請求項1乃至12のいずれかに記載の方法を実行するように構成されたことを特徴とするコンピュータシステム。
JP2009540463A 2006-12-05 2007-12-05 ウェブベースのコロケーション誤りの校正 Active JP4960461B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/633,788 2006-12-05
US11/633,788 US7774193B2 (en) 2006-12-05 2006-12-05 Proofing of word collocation errors based on a comparison with collocations in a corpus
PCT/US2007/086560 WO2008070750A1 (en) 2006-12-05 2007-12-05 Web-based collocation error proofing

Publications (3)

Publication Number Publication Date
JP2010511966A JP2010511966A (ja) 2010-04-15
JP2010511966A5 JP2010511966A5 (ja) 2011-01-27
JP4960461B2 true JP4960461B2 (ja) 2012-06-27

Family

ID=39477012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009540463A Active JP4960461B2 (ja) 2006-12-05 2007-12-05 ウェブベースのコロケーション誤りの校正

Country Status (14)

Country Link
US (1) US7774193B2 (ja)
EP (1) EP2102761A4 (ja)
JP (1) JP4960461B2 (ja)
KR (1) KR101279759B1 (ja)
CN (1) CN101568918B (ja)
AU (1) AU2007329362A1 (ja)
BR (1) BRPI0719257A2 (ja)
CA (1) CA2665600A1 (ja)
IL (1) IL198054A0 (ja)
MX (1) MX2009004891A (ja)
NO (1) NO20092498L (ja)
RU (1) RU2458391C2 (ja)
TW (1) TW200846939A (ja)
WO (1) WO2008070750A1 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080126075A1 (en) * 2006-11-27 2008-05-29 Sony Ericsson Mobile Communications Ab Input prediction
US20110055209A1 (en) * 2007-02-23 2011-03-03 Anthony Novac System and method for delivering content and advertisments
US10176827B2 (en) 2008-01-15 2019-01-08 Verint Americas Inc. Active lab
US8788523B2 (en) * 2008-01-15 2014-07-22 Thomson Reuters Global Resources Systems, methods and software for processing phrases and clauses in legal documents
US7958107B2 (en) 2008-04-10 2011-06-07 Abo Enterprises, Llc Fuzzy keyword searching
US8473278B2 (en) * 2008-07-24 2013-06-25 Educational Testing Service Systems and methods for identifying collocation errors in text
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
US8515950B2 (en) * 2008-10-01 2013-08-20 Microsoft Corporation Combining log-based rankers and document-based rankers for searching
US9449078B2 (en) 2008-10-01 2016-09-20 Microsoft Technology Licensing, Llc Evaluating the ranking quality of a ranked list
US9798720B2 (en) 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation
WO2010061733A1 (ja) * 2008-11-27 2010-06-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 誤訳の検出を支援する装置及び方法
TWI403911B (zh) * 2008-11-28 2013-08-01 Inst Information Industry 中文辭典建置裝置和方法,以及儲存媒體
US10489434B2 (en) * 2008-12-12 2019-11-26 Verint Americas Inc. Leveraging concepts with information retrieval techniques and knowledge bases
JP5337516B2 (ja) * 2009-02-06 2013-11-06 東芝ソリューション株式会社 文書処理装置及びプログラム
US8250072B2 (en) * 2009-03-06 2012-08-21 Dmitri Asonov Detecting real word typos
JP5363178B2 (ja) * 2009-04-22 2013-12-11 Kddi株式会社 修正候補取得装置、修正候補取得システム、修正候補取得方法、修正候補取得プログラム
US8943094B2 (en) 2009-09-22 2015-01-27 Next It Corporation Apparatus, system, and method for natural language processing
US9262397B2 (en) 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US9122744B2 (en) 2010-10-11 2015-09-01 Next It Corporation System and method for providing distributed intelligent assistance
US8521672B2 (en) * 2010-11-22 2013-08-27 Microsoft Corporation Dependency-based query expansion alteration candidate scoring
US20120265784A1 (en) 2011-04-15 2012-10-18 Microsoft Corporation Ordering semantic query formulation suggestions
TWI456411B (zh) * 2011-05-06 2014-10-11 Univ Far East 印表機之利用語言模型自動偵測錯誤之方法
US8855997B2 (en) 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
CN102999483B (zh) * 2011-09-16 2016-04-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
KR101522522B1 (ko) * 2011-10-26 2015-05-27 에스케이텔레콤 주식회사 작문 자동 평가를 위한 예제 기반 오류 검출 시스템 및 방법
US9836177B2 (en) 2011-12-30 2017-12-05 Next IT Innovation Labs, LLC Providing variable responses in a virtual-assistant environment
US9684653B1 (en) 2012-03-06 2017-06-20 Amazon Technologies, Inc. Foreign language translation using product information
US9223537B2 (en) 2012-04-18 2015-12-29 Next It Corporation Conversation user interface
US9536049B2 (en) 2012-09-07 2017-01-03 Next It Corporation Conversational virtual healthcare assistant
US10095692B2 (en) * 2012-11-29 2018-10-09 Thornson Reuters Global Resources Unlimited Company Template bootstrapping for domain-adaptable natural language generation
US10289653B2 (en) 2013-03-15 2019-05-14 International Business Machines Corporation Adapting tabular data for narration
US10445115B2 (en) 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
US9495357B1 (en) * 2013-05-02 2016-11-15 Athena Ann Smyros Text extraction
US9081500B2 (en) 2013-05-03 2015-07-14 Google Inc. Alternative hypothesis error correction for gesture typing
US9164977B2 (en) 2013-06-24 2015-10-20 International Business Machines Corporation Error correction in tables using discovered functional dependencies
US9600461B2 (en) 2013-07-01 2017-03-21 International Business Machines Corporation Discovering relationships in tabular data
US9830314B2 (en) * 2013-11-18 2017-11-28 International Business Machines Corporation Error correction in tables using a question and answer system
US9823811B2 (en) 2013-12-31 2017-11-21 Next It Corporation Virtual assistant team identification
US9530161B2 (en) * 2014-02-28 2016-12-27 Ebay Inc. Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data
US20160071517A1 (en) 2014-09-09 2016-03-10 Next It Corporation Evaluating Conversation Data based on Risk Factors
EP3062212A1 (en) * 2015-02-25 2016-08-31 Kyocera Document Solutions Inc. Text editing apparatus and print data storage apparatus
JP2016194822A (ja) * 2015-03-31 2016-11-17 株式会社エクシング サーバシステム及びそのプログラム、並びにエラーチェック方法
US10095740B2 (en) 2015-08-25 2018-10-09 International Business Machines Corporation Selective fact generation from table data in a cognitive system
RU2632126C1 (ru) * 2016-04-07 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система предоставления контекстуальной информации
US11599709B2 (en) * 2016-05-19 2023-03-07 Palo Alto Research Center Incorporated Natural language web browser
TWI613554B (zh) * 2017-03-24 2018-02-01 Zhuang Shi Cheng 翻譯輔助系統
RU2726009C1 (ru) * 2017-12-27 2020-07-08 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для исправления неверного набора слова вследствие ошибки ввода с клавиатуры и/или неправильной раскладки клавиатуры
JP7170984B2 (ja) * 2018-03-02 2022-11-15 国立研究開発法人情報通信研究機構 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法
US11568175B2 (en) 2018-09-07 2023-01-31 Verint Americas Inc. Dynamic intent classification based on environment variables
US11232264B2 (en) 2018-10-19 2022-01-25 Verint Americas Inc. Natural language processing with non-ontological hierarchy models
US11196863B2 (en) 2018-10-24 2021-12-07 Verint Americas Inc. Method and system for virtual assistant conversations
CN109614621B (zh) * 2018-12-11 2023-09-19 ***通信集团江苏有限公司 一种校正文本的方法、装置及设备
US11379662B2 (en) * 2019-10-29 2022-07-05 Karmen Langlotz Data entry capitalization error correction system and word processing system with second language facility
US11544458B2 (en) * 2020-01-17 2023-01-03 Apple Inc. Automatic grammar detection and correction
CN111310457B (zh) * 2020-02-27 2024-02-02 河北省讯飞人工智能研究院 词语搭配不当识别方法、装置、电子设备和存储介质
CN111522909B (zh) * 2020-04-10 2024-04-02 海信视像科技股份有限公司 一种语音交互方法及服务器
CN112597753A (zh) * 2020-12-22 2021-04-02 北京百度网讯科技有限公司 文本纠错处理方法、装置、电子设备和存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4456973A (en) 1982-04-30 1984-06-26 International Business Machines Corporation Automatic text grade level analyzer for a text processing system
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
US5060154A (en) 1989-01-06 1991-10-22 Smith Corona Corporation Electronic typewriter or word processor with detection and/or correction of selected phrases
JPH08501166A (ja) * 1992-09-04 1996-02-06 キャタピラー インコーポレイテッド 総合オーサリング及び翻訳システム
US5799276A (en) 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5956739A (en) * 1996-06-25 1999-09-21 Mitsubishi Electric Information Technology Center America, Inc. System for text correction adaptive to the text being corrected
US5909667A (en) 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错***中的应用
KR100474824B1 (ko) 1998-02-27 2005-03-16 삼성전자주식회사 연어정보를이용한원시언어의목적언어로의언어번역장치및방법
US6081772A (en) 1998-03-26 2000-06-27 International Business Machines Corporation Proofreading aid based on closed-class vocabulary
US6064961A (en) 1998-09-02 2000-05-16 International Business Machines Corporation Display for proofreading text
US6611802B2 (en) 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
JP2001101186A (ja) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd 機械翻訳装置
US6676412B1 (en) 1999-10-08 2004-01-13 Learning By Design, Inc. Assessment of spelling and related skills
KR20010097365A (ko) 2000-04-21 2001-11-08 김영택 영한기계번역 시스템 및 방법
KR100398344B1 (ko) 2000-05-13 2003-09-19 주식회사 전유시스템 분해적 표현에 의한 순차 통역식 영한번역 시스템
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
US20040030540A1 (en) * 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing
US7249012B2 (en) 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
US20060206806A1 (en) * 2004-11-04 2006-09-14 Motorola, Inc. Text summarization
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
US7574348B2 (en) * 2005-07-08 2009-08-11 Microsoft Corporation Processing collocation mistakes in documents
US20070164782A1 (en) * 2006-01-17 2007-07-19 Microsoft Corporation Multi-word word wheeling

Also Published As

Publication number Publication date
US7774193B2 (en) 2010-08-10
RU2458391C2 (ru) 2012-08-10
WO2008070750A1 (en) 2008-06-12
AU2007329362A1 (en) 2008-06-12
KR20090084818A (ko) 2009-08-05
IL198054A0 (en) 2009-12-24
EP2102761A4 (en) 2010-03-31
EP2102761A1 (en) 2009-09-23
CN101568918A (zh) 2009-10-28
MX2009004891A (es) 2009-05-19
TW200846939A (en) 2008-12-01
US20080133444A1 (en) 2008-06-05
NO20092498L (no) 2009-07-03
JP2010511966A (ja) 2010-04-15
BRPI0719257A2 (pt) 2014-04-29
RU2009121432A (ru) 2010-12-10
CN101568918B (zh) 2012-04-04
CA2665600A1 (en) 2008-06-12
KR101279759B1 (ko) 2013-07-04

Similar Documents

Publication Publication Date Title
JP4960461B2 (ja) ウェブベースのコロケーション誤りの校正
US8170868B2 (en) Extracting lexical features for classifying native and non-native language usage style
JP5362353B2 (ja) 文書中のコロケーション誤りを処理すること
US7991609B2 (en) Web-based proofing and usage guidance
Derczynski et al. Microblog-genre noise and impact on semantic annotation accuracy
US9075793B2 (en) System and method of providing autocomplete recommended word which interoperate with plurality of languages
US8606826B2 (en) Augmenting queries with synonyms from synonyms map
US8812301B2 (en) Linguistically-adapted structural query annotation
US7835903B2 (en) Simplifying query terms with transliteration
US20070288450A1 (en) Query language determination using query terms and interface language
US20120297294A1 (en) Network search for writing assistance
US20070288449A1 (en) Augmenting queries with synonyms selected using language statistics
JPWO2008146583A1 (ja) 辞書登録システム、辞書登録方法および辞書登録プログラム
KR102552811B1 (ko) 클라우드 기반 문법 교정 서비스 제공 시스템
WO2007124385A2 (en) Processing of query terms
US8977538B2 (en) Constructing and analyzing a word graph
Baishya et al. Present state and future scope of Assamese text processing
Grobbelaar et al. A spell checker and corrector for the native South African language, South Sotho
Leacock et al. Different approaches for different errors
Grobbelaar et al. A Spell Ghecker and Corrector for the Native South African Language, South Sotho
Liu et al. Evaluating the Quality of Web-Mined Bilingual Sentence Pairs.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101203

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101203

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20110609

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20110629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110826

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120322

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150330

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4960461

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250