JP6594534B2 - テキスト情報処理方法およびデバイス - Google Patents

テキスト情報処理方法およびデバイス Download PDF

Info

Publication number
JP6594534B2
JP6594534B2 JP2018518610A JP2018518610A JP6594534B2 JP 6594534 B2 JP6594534 B2 JP 6594534B2 JP 2018518610 A JP2018518610 A JP 2018518610A JP 2018518610 A JP2018518610 A JP 2018518610A JP 6594534 B2 JP6594534 B2 JP 6594534B2
Authority
JP
Japan
Prior art keywords
word
training corpus
candidate new
probability
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018518610A
Other languages
English (en)
Other versions
JP2018536920A (ja
Inventor
全▲チェン▼ 林
黎春 ▲劉▼
建春 ▲趙▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2018536920A publication Critical patent/JP2018536920A/ja
Application granted granted Critical
Publication of JP6594534B2 publication Critical patent/JP6594534B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Description

本出願は、2016年2月18日に中国専利局に出願した、「TEXT INFORMATION PROCESSING METHOD, APPARATUS AND SYSTEM」と題された中国特許出願第201610091229.X号の優先権を主張するものであり、この特許出願は、その全体が参照により組み込まれる。
本出願は、通信テクノロジーの分野に関し、特に、テキスト情報処理方法および装置に関する。
科学およびテクノロジーの継続的な発展によって、ユーザによって生成されるテキストコーパスが、急激に増やされ、「SARS」などの多くの新造語(neologism)が、進行中の新しい事柄から生じる。通常、新造語の生起は、単語分割などのいくつかのテキスト処理モデルを対応不能にする。単語分割は、中国語の自然言語処理の最も基本的なリンクであり、理想的でない単語分割の結果は、テキストの分類およびクラスタリングおよび話題の特定などのよくあるテキスト処理タスクに必ず影響を与える。したがって、自動的な新造語の発見が、大いに必要とされている。
通常、新造語の発見方法は、統計に基づく方法および規則に基づく方法に分類され得る。統計に基づく方法は、通常、隠れマルコフモデル、最大エントロピー、サポートベクターマシンなどを含む。通常、統計情報が、単語分割モデルを生成するために使用される。規則に基づく方法は、テンプレートの特徴ライブラリおよびラベル付けされた文脈的なコロケーションの特徴の訓練セットからいくつかの規則を学習し、それから、学習された規則を発見対象の新造語コーパスに適用することである。たとえば、単語構築規則(word-building rule)は、よくある規則である。
研究および実践の過程で、本出願の発明者は、単語分割が上述のソリューションのすべてにおいてテキストコーパスに対して実行される必要があり、単語分割に基づく新造語発見ソリューションにおいて、訓練コーパスおよび発見対象の新造語コーパスが単語分割モデルの訓練コーパスを再び生成するために継続的に組み合わされる必要があることを発見する。新造語は、雪だるま式に拡大すること(snowballing)によって継続的に発見され、複雑なプロセスを生じ、より多くの計算リソースを消費する。加えて、新造語は確たる定義を持たないので、新造語の境界も決定しづらく、通常の辞書および規則を使用することによって新造語を定義することによって好ましい効果は通常得られず、比較的低い新造語発見率をもたらす。
本出願の実施形態は、手順を簡単にし、計算リソースを節約することができるだけでなく、新造語の発見率を改善し、処理の効果を高めることもできるテキスト情報処理方法および装置を提供する。
本出願の実施形態は、テキスト情報処理方法であって、
テキスト情報に従って訓練コーパスを決定するステップと、
訓練コーパスを単語および単語列(string)に分割するステップと、
各単語および各単語列が訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率(joint probability)を取得するステップと、
独立した確率および同時確率に従って単語列内で選択を実行し、選択された単語列を候補新造語として使用するステップと、
候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定するステップとを含む、方法を提供する。
それに対応して、本出願の実施形態は、テキスト情報処理装置であって、
テキスト情報に従って訓練コーパスを決定するように構成された取得ユニットと、
訓練コーパスを単語および単語列に分割するように構成された分割ユニットと、
各単語および各単語列が訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得するように構成された統計収集ユニットと、
独立した確率および同時確率に従って単語列内で選択を実行し、選択された単語列を候補新造語として使用するように構成された選択ユニットと、
候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定するように構成された決定ユニットとを含む、装置をさらに提供する。
さらに、本出願の実施形態は、1つまたは複数のプロセッサおよびメモリを含むテキスト情報処理装置をさらに提供する。メモリは、プログラム命令を記憶し、命令は、プロセッサによって実行されるときに装置に上述の実施形態による方法を実行させる。
さらに、本出願の実施形態は、プログラム命令を含むコンピュータ可読記憶媒体であって、命令が、コンピューティング装置のプロセッサによって実行されるときに装置に上述の実施形態による方法を実行させる、コンピュータ可読記憶媒体をさらに提供する。
本出願の実施形態によれば、訓練コーパスが単語および単語列に分割され、各単語の独立した確率および各単語列の同時確率を取得するために、各単語および各単語列が訓練コーパスに現れる確率についての統計が別々に集められ、独立した確率および同時確率に従って候補新造語が選択され、候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいと判定されるときに候補新造語が新造語と決定される。このソリューションにおいては、単語分割を実行するかまたは単語分割モデルを継続的に更新する必要がないので、手順が大幅に単純化される可能性があり、計算リソースが節約される可能性がある。加えて、単語分割の境界を指定する必要がないので、はっきりしない新造語の境界によって引き起こされる新造語が発見され得ない場合が避けられる可能性があり、それによって、新造語の発見率を大きく改善し、処理の効果を高める。
本出願の実施形態の技術的なソリューションをより明瞭に説明するために、以下で、実施形態を説明するために必要とされる添付の図面を簡単に紹介する。明らかに、以下の説明の添付の図面は、本出願の一部の実施形態のみを示しており、当業者は、創造的な努力なしにこれらの添付の図面からその他の図面を導き出すことがやはり可能である。
本出願の実施形態によるテキスト情報を処理する概略的な筋書きの図である。 本出願の実施形態によるテキスト情報処理方法の流れ図である。 本出願の別の実施形態によるテキスト情報処理方法の流れ図である。 本出願の実施形態によるテキスト情報処理装置の概略的な構造図である。 本出願の別の実施形態によるテキスト情報処理装置の概略的な構造図である。 本発明の実施形態によるサーバの概略的な構造図である。
以下で、本出願の実施形態の技術的なソリューションを本出願の実施形態の添付の図面を参照して明瞭および完全に説明する。明らかに、説明される実施形態は、本出願の実施形態のすべてではなく一部の実施形態である。創造的な努力なしに本出願の実施形態に基づいて当業者によって得られたすべてのその他の実施形態は、本出願の保護範囲内に入る。
本出願の実施形態は、テキスト情報処理方法および装置を提供する。テキスト情報処理方法は、サーバなどの様々なコンピューティング装置によって実行され得る。テキスト情報処理装置は、サーバなどの様々なコンピューティング装置に組み込まれ得る。図1aに示されるように、サーバは、テキスト情報を取得する可能性があり、たとえば、ニュース、映画およびテレビドラマについての情報、ならびにネットワークからのユーザによって公開された記事、マイクロブログ、および/またはブログなどのユーザ生成コンテンツ(UGC:user generated content)を取得し、テキスト情報に従って訓練コーパスを決定し、訓練コーパスを単語および単語列に分割し、各単語および各単語列が訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得し、独立した確率および同時確率に従って候補新造語を選択し、候補新造語を予め設定された辞書とマッチングし、候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定する可能性がある。
詳細な説明が、下で別に与えられる。
実施形態1
この実施形態は、テキスト情報処理方法の観点で説明される。テキスト情報処理方法は、サーバなどの装置によって実行され得る。
テキスト情報処理方法は、テキスト情報に従って訓練コーパスを決定するステップと、訓練コーパスを単語および単語列に分割するステップと、各単語および各単語列が訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得するステップと、独立した確率および同時確率に従って単語列内で選択を実行し、選択された単語列を候補新造語として使用するステップと、候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定するステップとを含む。
図1bに示されるように、テキスト情報処理方法の特定の手順は、以下の通りである可能性がある。
101:テキスト情報に従って訓練コーパスを決定する。
テキスト情報に従って訓練コーパスを決定する前に、テキスト情報が、まず取得され得る。
テキスト情報は、ネットワーク内の様々なテキスト情報、たとえば、ニュース、映画およびテレビドラマについての情報、ならびにUGCである可能性がある。UGCは、ユーザによって公開されたムード(mood)、コメント、記事、マイクロブログ、および/またはブログなどのテキスト情報を含み得る。
テキスト情報が取得された後、取得されたテキスト情報のすべてが訓練コーパスとして使用される可能性があり、またはテキスト情報の一部が訓練コーパスとして選択される可能性がある。たとえば、テキスト情報は、何らかの役に立たない情報、たとえば、エモティコンを削除するために予め設定されたポリシーに従ってスクリーニングされる可能性があり、それから、スクリーニングされたテキスト情報が、訓練コーパスとして使用される。
102:訓練コーパスを単語および単語列に分割する。
単語列は、2つ以上の連続する単語を含み、通常、たとえば、2つ、3つ、または4つの連続する単語を含む可能性がある。特定の数が、実際の応用の筋書きに応じて設定され得る。
本出願のこの実施形態において言及される単語は、漢字、日本語などを含み得ることに留意されたい。説明を容易にするために、本出願のこの実施形態は、例として漢字を使用することによって説明される。
103:各単語および各単語列が訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得する。たとえば、特定の説明は、以下のようになる可能性がある。
(1)各単語が訓練コーパスに現れる回数、各単語列が訓練コーパスに現れる回数、および訓練コーパス内の単語の総数についての統計を別々に集める。
(2)各単語が訓練コーパスに現れる回数および訓練コーパス内の単語の総数に従って各単語の確率を計算して、各単語の独立した確率を取得する。
たとえば、単語が訓練コーパスに現れる回数は、単語の独立した確率を取得するために訓練コーパス内の単語の総数によって割られる可能性がある、単語の独立した確率は、下のような式を使用することによって表され、
Figure 0006594534
p(Wk)は、単語の独立した確率であり、count(Wk)は、単語が訓練コーパスに現れる回数であり、
Figure 0006594534
は、訓練コーパス内の単語の総数である。
(3)各単語列が訓練コーパスに現れる回数および訓練コーパス内の単語の総数に従って各単語列の確率を計算して、各単語列の同時確率を取得する。
たとえば、単語列が訓練コーパスに現れる回数は、単語の同時確率を取得するために訓練コーパス内の単語の総数によって割られる可能性がある。これは、下のような式を使用することによって表され、
Figure 0006594534
p(Wj...Wj+k)は、単語列の同時確率であり、count(Wj...Wj+k)は、単語列が訓練コーパスに現れる回数であり、
Figure 0006594534
は、訓練コーパス内の単語の総数である。
104:独立した確率および同時確率に従って単語列内で選択を実行し、選択された単語列を候補新造語として使用する。
このステップにおいては、ステップ102における分割によって得られた各単語列に関して、単語列の同時確率が単語列内のすべての単語の独立した確率の積よりも大きいかどうかが判定される可能性があり、単語列は、単語列の同時確率が単語列内のすべての単語の独立した確率の積よりも大きい場合、候補新造語と決定される。取得された候補新造語は、候補新造語の集合を形成する可能性がある。
たとえば、単語列の同時確率が、単語列内のすべての単語の独立した確率の積と比較される可能性があり、同時確率が積よりも大きい場合、単語列は、候補新造語と決定される可能性がある。つまり、特定の説明は、以下の通り、すなわち、
現在処理される必要がある単語列を決定して現在の単語列を取得すること、現在の単語列の同時確率および現在の単語列内のすべての単語の独立した確率を取得すること、ならびに現在の単語列の同時確率が現在の単語列内のすべての単語の独立した確率の積よりも大きいときに現在の単語列を候補新造語と決定することである可能性がある。これは、下のような式を使用することによって表される。
p(Wj)p(Wj+1)...p(Wj+k)<p(Wj...Wj+k)であるときに現在の単語列を候補新造語と決定する。決定された候補新造語は、候補新造語の集合に追加される可能性がある。
単語列(候補新造語)がコーパスに継続的に現れる場合、単語列は、新造語により強く結びつけられる。したがって、任意で、新造語の発見の正確性を高めるために、訓練コーパスのサイズは、ユーザの読む速度に従って時間の長さに変換される可能性がある。そのとき、学習が特定の規則(たとえば、エビングハウスの記憶の法則(Ebbinghaus' memory law))に従って継続的に実行され、同時確率が更新される。つまり、「独立した確率および同時確率に従って単語列内で選択を実行し、選択された単語列を候補新造語として使用する」ステップの後、テキスト情報処理方法は、特定の規則に従って候補新造語に対応する同時確率を更新するステップをさらに含み得る。
たとえば、候補新造語に対応する同時確率は、以下の方法を使用することによってエビングハウスの記憶の法則に従って更新され得る。
(1)候補新造語の集合内の現在処理される必要がある候補新造語を決定する。
(2)訓練コーパス内の訓練開始位置から現在処理される必要がある候補新造語の位置まで読むために必要とされる時間を推定して順方向時間(forward time)を取得する。
たとえば、訓練コーパス内の訓練開始位置および訓練コーパス内の現在処理される必要がある候補新造語の位置(たとえば、順序を表す位置)が、決定される可能性があり、それから、訓練開始位置と順序を表す位置との間の距離が、第1の距離を取得するために計算され、第1の距離が、順方向時間を取得するために予め設定された読む速度によって割られる。これは、下のような式を使用することによって表され、
Figure 0006594534
Tpreは、順方向時間を示し、POSiは、コーパス内の第iの候補新造語の位置を示し、δは、読む速度を示し、定数であり、実際の応用の要件に応じて設定される。たとえば、δは、8、すなわち、8語/秒に設定される可能性がある。
(3)現在処理される必要がある候補新造語の位置から訓練コーパス内の訓練終了位置まで読むために必要とされる時間を推定して逆方向時間(backward time)を取得する。
たとえば、訓練コーパス内の訓練終了位置および訓練コーパス内の現在処理される必要がある候補新造語の位置(たとえば、逆位置(reverse position))が、決定される可能性があり、それから、逆位置と訓練終了位置と間の距離が、第2の距離を取得するために計算され、第2の距離が、逆方向時間を取得するために予め設定された読む速度によって割られる。これは、下のような式を使用することによって表され、
Figure 0006594534
Tbckは、逆方向時間を示し、POSiは、コーパス内の第iの候補新造語の位置を示し、Lenは、訓練コーパスの全長を示し、δは、読む速度を示し、定数であり、実際の応用の要件に応じて設定される。たとえば、δは、8、すなわち、8語/秒に設定される可能性がある。
(4)現在処理される必要がある候補新造語の同時確率を、順方向時間および逆方向時間に従って予め設定された指数減衰関数(exponential decay function)を使用することによってリアルタイムで更新して、更新された同時確率を取得する。
指数減衰関数は、エビングハウスの記憶の法則に従って構築され得る。たとえば、式は、下の通りである可能性があり、
Figure 0006594534
f(Seqi)は、候補新造語が新造語である確率を示し、αは、減衰定数であり、減衰の大きさを示し、実際の応用の要件に応じて調整され、Tpreは、順方向時間であり、Tbckは、逆方向時間である。
候補新造語の単語作成確率(word-making probability)が計算されるとき、各繰り返しに関して計算される異なる開始位置を保証し、TpreおよびTbckの生成が開始位置によって影響を受けないことを最大限に保証するために、対応する訓練開始位置が、順序に応じておよび繰り返しの回数に応じて訓練コーパス内で均一に生成され得ることに留意されたい。つまり、「エビングハウスの記憶の法則に従って候補新造語に対応する同時確率を更新する」ステップの前に、テキスト情報処理方法は、
必要とされる繰り返しの回数を取得するステップと、各繰り返しに関して異なる訓練開始位置を保証するために、順序に応じておよび繰り返しの回数に応じて訓練コーパス内で均一に対応する訓練開始位置を生成するステップと、訓練開始位置に応じて対応する訓練終了位置を決定するステップとをさらに含み得る。
この場合、「訓練コーパス内で訓練開始位置を決定する」ステップは、特に、現在の繰り返しの順序に従って対応する訓練開始位置を決定することである可能性がある。
「訓練コーパス内で訓練終了位置を決定する」ステップは、特に、現在の繰り返しの順序に従って対応する訓練終了位置を決定することである可能性がある。
必要とされる繰り返しの回数は、実際の応用の要件に応じて設定される可能性があり、たとえば、100に設定される可能性がある。
さらに、エビングハウスの記憶の法則に加えて、指数減衰関数は、「指数減衰規則(exponential decay rule)をシミュレートすることができる」別の関数、たとえば、ニュートンの冷却の法則を使用することによってさらに構築され得ることにさらに留意されたい。
(5)候補新造語の集合内のすべての候補新造語の同時確率が更新されるまで、候補新造語の集合内の現在処理される必要がある候補新造語を決定するステップに戻る、つまり、ステップ(1)に戻る。
105:候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定する。
候補新造語に対応する同時確率は、ステップ104において選択された単語列の同時確率である可能性がある。同時確率が更新された場合、更新された同時確率が、比較のために使用される必要がある。つまり、候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定するステップは、特に、
候補新造語が予め設定された辞書内になく、更新された同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定することである可能性がある。
予め設定された閾値および予め設定された辞書は、実際の応用の要件に応じて設定され得る。
この実施形態においては、訓練コーパスが単語および単語列に分割され、各単語の独立した確率および各単語列の同時確率を取得するために、各単語および各単語列が訓練コーパスに現れる確率についての統計が別々に集められ、独立した確率および同時確率に従って候補新造語が選択され、候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに候補新造語が新造語と決定されることが、上の内容から学習され得る。このソリューションにおいては、単語分割を実行するかまたは単語分割モデルを継続的に更新する必要がないので、手順が大幅に単純化される可能性があり、計算リソースが節約される可能性がある。加えて、単語分割の境界を指定する必要がないので、はっきりしない新造語の境界によって引き起こされる新造語が発見され得ない場合が避けられる可能性があり、それによって、新造語の発見率を大きく改善し、処理の効果を高める。
実施形態2
実施形態1において説明された方法に従って、以下で、例を用いることによって詳細な説明をさらに与える。
この実施形態において、説明は、テキスト情報処理装置が特にサーバに統合される、漢字の例を使用することによって与えられる。
図2に示されるように、テキスト情報処理方法の特定の手順は、以下の通りである可能性がある。
201:サーバが、テキスト情報を取得し、テキスト情報に従って訓練コーパスを決定する。
テキスト情報は、ネットワーク内の様々なテキスト情報、たとえば、ニュース、映画およびテレビドラマについての情報、ならびにUGCである可能性がある。UGCは、ユーザによって公開されたムード、コメント、記事、マイクロブログ、および/またはブログなどのテキスト情報を含み得る。
テキスト情報が取得された後、取得されたテキスト情報のすべてが訓練コーパスとして使用される可能性があり、またはテキスト情報の一部が訓練コーパスとして選択される可能性がある。たとえば、テキスト情報は、何らかの役に立たない情報、たとえば、エモティコンを削除するために予め設定されたポリシーに従ってスクリーニングされる可能性があり、それから、スクリーニングされたテキスト情報が、訓練コーパスとして使用される。
202:サーバが、訓練コーパスを単語および単語列に分割する。
単語列は、2つ以上の連続する単語を含み、通常、たとえば、2つ、3つ、または4つの連続する単語を含む可能性がある。特定の数が、実際の応用の筋書きに応じて設定され得る。
203:サーバが、各単語が訓練コーパスに現れる回数、各単語列が訓練コーパスに現れる回数、および訓練コーパス内の単語の総数についての統計を集める。
204:サーバが、各単語が訓練コーパスに現れる回数および訓練コーパス内の単語の総数に従って各単語の確率を計算して、各単語の独立した確率を取得する。
たとえば、単語が訓練コーパスに現れる回数は、単語の独立した確率を取得するために訓練コーパス内の単語の総数によって割られる可能性がある。これは、下のような式を使用することによって表され、
Figure 0006594534
p(Wk)は、単語の独立した確率であり、count(Wk)は、単語が訓練コーパスに現れる回数であり、
Figure 0006594534
は、訓練コーパス内の単語の総数である。
たとえば、単語「美」が訓練コーパスに現れる回数が100であり、訓練コーパス内の単語の総数が100000である場合、単語「美」の独立した確率は、1/1000であり、同様に、単語「好」が訓練コーパスに現れる回数が1000であり、訓練コーパス内の単語の総数が100000である場合、単語「好」の独立した確率は、1/100であり、アナログによる。
205:サーバが、各単語列が訓練コーパスに現れる回数および訓練コーパス内の単語の総数に従って各単語列の確率を計算して、各単語列の同時確率を取得する。
たとえば、単語列が訓練コーパスに現れる回数は、単語列の同時確率を取得するために訓練コーパス内の単語の総数によって割られる可能性がある。これは、下のような式を使用することによって表され、
Figure 0006594534
p(Wj...Wj+k)は、単語列の同時確率であり、count(Wj...Wj+k)は、単語列が訓練コーパスに現れる回数であり、
Figure 0006594534
は、訓練コーパス内の単語の総数である。
たとえば、単語列「美好」が訓練コーパスに現れる回数が50であり、訓練コーパス内の単語の総数が100000である場合、単語列「美好」の同時確率は、1/2000であり、同様に、単語列「美麗」が訓練コーパスに現れる回数が10であり、訓練コーパス内の単語の総数が100000である場合、単語列「美麗」の同時確率は、1/10000であり、アナログによる。
ステップ204およびステップ205は、特定の順序で実施されない可能性があることに留意されたい。
206:サーバが、各単語列の同時確率を単語列内のすべての単語の独立した確率の積と比較し、同時確率が積よりも大きい場合、単語列を候補新造語と決定する。つまり、p(Wj)p(Wj+1)...p(Wj+k)<p(Wj...Wj+k)であるとき、現在の単語列が、候補新造語と決定される。そして、候補新造語は、候補新造語の集合に追加される可能性がある。たとえば、特定の説明は、以下の通り、すなわち、
現在処理される必要がある単語列を決定して現在の単語列を取得すること、現在の単語列の同時確率および現在の単語列内のすべての単語の独立した確率を取得すること、現在の単語列の同時確率が現在の単語列内のすべての単語の独立した確率の積よりも大きいときに現在の単語列を候補新造語と決定すること、ならびに候補新造語を候補新造語の集合に追加することである可能性がある。
たとえば、単語列「美好」の同時確率が1/2000であり、単語「美」の独立した確率が1/1000であり、単語「好」の独立した確率が1/100である場合、単語列「美好」の同時確率は、単語「美」および「好」の独立した確率の積よりも大きい。したがって、単語列「美好」は、候補新造語と決定される可能性があり、アナログによる。
207:サーバが、候補新造語の集合内の候補新造語に対応する同時確率を、エビングハウスの記憶の法則に従ってリアルタイムで更新して、更新された同時確率を取得する。たとえば、説明は、以下のようになる可能性がある。
(1)候補新造語の集合内の現在処理される必要がある候補新造語を決定する。
候補新造語の集合は、複数の候補新造語を含む可能性があり、候補新造語の同時確率は、1つずつ更新される可能性がある。
(2)訓練コーパス内の訓練開始位置から現在処理される必要がある候補新造語の位置まで読むために必要とされる時間を推定して順方向時間を取得する。
たとえば、訓練コーパス内の訓練開始位置および訓練コーパス内の現在処理される必要がある候補新造語の順序を表す位置が、決定される可能性があり、それから、訓練開始位置と順序を表す位置との間の距離が、第1の距離を取得するために計算され、第1の距離が、順方向時間を取得するために予め設定された読む速度によって割られる。これは、下のような式を使用することによって表され、
Figure 0006594534
Tpreは、順方向時間を示し、POSiは、コーパス内の第iの候補新造語の位置を示し、δは、読む速度を示し、定数であり、実際の応用の要件に応じて設定される。たとえば、δは、8、すなわち、8語/秒に設定される可能性がある。
たとえば、訓練コーパス内の候補新造語「美好」の順序を表す位置と訓練開始位置との間の距離内に80000語があり、読む速度δが8語/秒である場合、候補新造語「美好」の順方向時間は、80000/8=10000秒として計算され得る。
(3)現在処理される必要がある候補新造語の位置から訓練コーパス内の訓練終了位置まで読むために必要とされる時間を推定して逆方向時間を取得する。
たとえば、訓練コーパス内の訓練終了位置および訓練コーパス内の現在処理される必要がある候補新造語の逆位置が、決定される可能性があり、それから、逆位置と訓練終了位置と間の距離が、第2の距離を取得するために計算され、第2の距離が、逆方向時間を取得するために予め設定された読む速度によって割られる。これは、下のような式を使用することによって表され、
Figure 0006594534
Tbckは、逆方向時間を示し、POSiは、コーパス内の第iの候補新造語の位置を示し、Lenは、訓練コーパスの全長を示し、δは、読む速度を示し、定数であり、実際の応用の要件に応じて設定される。たとえば、δは、8、すなわち、8語/秒に設定される可能性がある。
たとえば、訓練コーパス内の候補新造語「美好」の逆位置と訓練終了位置との間の距離内に20000語(すなわち、訓練コーパスの全長100000引く単語列「美好」の順方向位置80000)があり、読む速度δが8語/秒である場合、候補新造語「美好」の逆方向時間は、20000/8=2500秒として計算され得る。
(4)現在処理される必要がある候補新造語に対応する同時確率を、順方向時間および逆方向時間に従って予め設定された指数減衰関数を使用することによってリアルタイムで更新して、更新された同時確率を取得する。
指数減衰関数は、エビングハウスの記憶の法則に従って構築され得る。たとえば、式は、下の通りである可能性があり、
Figure 0006594534
f(Seqi)は、候補新造語が新造語である確率を示し、αは、減衰定数であり、減衰の大きさを示し、実際の応用の要件に応じて調整され、Tpreは、順方向時間であり、Tbckは、逆方向時間である。
候補新造語の単語作成確率が計算されるとき、各繰り返しに関して計算される異なる開始位置を保証し、TpreおよびTbckの生成が開始位置によって影響を受けないことを最大限に保証するために、対応する訓練開始位置が、順序に応じておよび繰り返しの回数に応じて訓練コーパス内で均一に生成され得ることに留意されたい。つまり、「エビングハウスの記憶の法則に従って候補新造語の集合内の候補新造語に対応する同時確率をリアルタイムで更新して更新された同時確率を取得する」ステップの前に、テキスト情報処理方法は、
必要とされる繰り返しの回数を取得するステップと、各繰り返しに関して異なる訓練開始位置を保証するために、順序に応じておよび繰り返しの回数に応じて訓練コーパス内で均一に対応する訓練開始位置を生成するステップと、訓練開始位置に応じて対応する訓練終了位置を決定するステップとをさらに含み得る。
この場合、「訓練コーパス内で訓練開始位置を決定する」ステップは、特に、現在の繰り返しの順序に従って対応する訓練開始位置を決定することである可能性がある。
「訓練コーパス内で訓練終了位置を決定する」ステップは、特に、現在の繰り返しの順序に従って対応する訓練終了位置を決定することである可能性がある。
必要とされる繰り返しの回数は、実際の応用の要件に応じて設定される可能性があり、たとえば、100に設定される可能性がある。
たとえば、訓練対象のコーパス内に100000個のコーパスがあり、繰り返しの回数が100に設定されると仮定される。この場合、一回り目の繰り返しに関する開始位置は、第1のテキストであり、終了位置は、第100000のテキストであり、二回り目の繰り返しに関する開始位置は第1001のテキストであり、対応する終了位置は、第999のテキストであり、k(k<100)回り目の繰り返しに関する開始位置は、第(1000*(k-1)+1)のテキストであり、終了位置は、第(1000*(k-1)-1)のテキストである。
(5)候補新造語の集合内のすべての候補新造語の同時確率が更新されるまで、候補新造語の集合内の現在処理される必要がある候補新造語を決定するステップに戻る、つまり、ステップ(1)に戻る。
208:サーバが、候補新造語が予め設定された辞書内になく、更新された同時確率が予め設定された閾値よりも大きいときに候補新造語の集合内の候補新造語を新造語と決定する。
たとえば、候補新造語の集合内の候補新造語は、予め設定された辞書内の単語とマッチングされる可能性がある。候補新造語が辞書内になく、候補新造語の現在の同時確率(すなわち、更新された同時確率)が予め設定された閾値よりも大きい場合、候補新造語は新造語であると判定される。そうではなく、候補新造語が辞書内にある場合、または候補新造語が辞書内にないが候補新造語の現在の同時確率(すなわち、更新された同時確率)が予め設定された閾値以下である場合、候補新造語は新造語ではないと判定される。
予め設定された閾値および予め設定された辞書は、実際の応用の要件に応じて設定され得る。
たとえば、候補新造語「美好」が辞書内にあった場合、候補新造語「美好」は新造語として使用されず、候補新造語「猿賽雷」が辞書内になく、「猿賽雷」の同時確率が予め設定された閾値よりも大きい場合、「猿賽雷」は新造語であると判定され得る。
この実施形態においては、訓練コーパスが単語および単語列に分割され、各単語の独立した確率および各単語列の同時確率を取得するために、各単語および各単語列が訓練コーパスに現れる確率についての統計が別々に集められ、候補新造語の集合を取得するために独立した確率および同時確率に従って候補新造語が選択され、候補新造語が予め設定された辞書内になく、対応する同時確率が予め設定された閾値よりも大きいと判定されるときに候補新造語の集合内の候補新造語が新造語と決定されることが、上の内容から学習され得る。このソリューションにおいては、単語分割を実行するかまたは単語分割モデルを継続的に更新する必要がないので、手順が大幅に単純化される可能性があり、計算リソースが節約される可能性がある。加えて、単語分割の境界を指定する必要がないので、はっきりしない新造語の境界によって引き起こされる新造語が発見され得ない場合が避けられる可能性があり、それによって、新造語の発見率を大きく改善し、処理の効果を高める。
このソリューションは、大規模なコーパスの類語辞典の生成、単語の重み値の計算(キーワードまたはトピックワードの抽出)、および拡張された辞書の生成のために使用される可能性があり、悪意のあるコメントの検出などの単語検出のためにさらに使用される可能性がある。
実施形態3
上述の方法をより上手く実装するために、本出願のこの実施形態は、テキスト情報処理装置をさらに提供する。図3aに示されるように、テキスト情報処理装置は、取得ユニット301、分割ユニット302、統計収集ユニット303、選択ユニット304、および決定ユニット305を含み得る。説明は、以下の通りである。
(1)取得ユニット301
取得ユニット301は、テキスト情報に従って訓練コーパスを決定するように構成される。
テキスト情報は、ネットワーク内の様々なテキスト情報、たとえば、ニュース、映画およびテレビドラマについての情報、ならびにUGCである可能性がある。UGCは、ユーザによって公開されたムード、コメント、記事、マイクロブログ、および/またはブログなどのテキスト情報を含み得る。
テキスト情報が取得された後、取得されたテキスト情報のすべてが訓練コーパスとして使用される可能性があり、またはテキスト情報の一部が訓練コーパスとして選択される可能性がある。たとえば、テキスト情報は、何らかの役に立たない情報、たとえば、エモティコンを削除するために予め設定されたポリシーに従ってスクリーニングされる可能性があり、それから、スクリーニングされたテキスト情報が、訓練コーパスとして使用される。
(2)分割ユニット302
分割ユニット302は、訓練コーパスを単語および単語列に分割するように構成される。
単語列は、2つ以上の連続する単語を含み、通常、たとえば、2つ、3つ、または4つの連続する単語を含む可能性がある。特定の数が、実際の応用の筋書きに応じて設定され得る。
(3)統計収集ユニット303
統計収集ユニット303は、各単語および各単語列が訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得するように構成される。たとえば、統計収集ユニット303は、
各単語が訓練コーパスに現れる回数、各単語列が訓練コーパスに現れる回数、および訓練コーパス内の単語の総数についての統計を別々に集め、
各単語が訓練コーパスに現れる回数および単語の総数に従って各単語の確率を計算して、各単語の独立した確率を取得し、
各単語が訓練コーパスに現れる回数および単語の総数に従って各単語列の確率を計算して、各単語列の同時確率を取得するように特に構成される可能性がある。
詳細に関しては、上述の方法の実施形態を参照されたい。詳細は、本明細書において再度説明されない。
(4)選択ユニット304
選択ユニット304は、独立した確率および同時確率に従って単語列内で選択を実行し、選択された単語列を候補新造語として使用するように構成される。
たとえば、単語列の同時確率が、単語列内のすべての単語の独立した確率の積と比較される可能性があり、同時確率が積よりも大きい場合、単語列は、候補新造語と決定される可能性がある。つまり、
選択ユニット304は、分割によって得られた各単語列に関して、単語列の同時確率が単語列内のすべての単語の独立した確率の積よりも大きいかどうかを判定し、単語列の同時確率が単語列内のすべての単語の独立した確率の積よりも大きい場合、単語列を候補新造語と決定するように特に構成される可能性がある。
(5)決定ユニット305
決定ユニット305は、候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定するように構成される。
予め設定された閾値および辞書は、実際の応用の要件に応じて設定され得る。
単語列(候補新造語)がコーパスに継続的に現れるので、単語列は、新造語により強く結びつけられる。したがって、新造語の発見の正確性を高めるために、訓練コーパスのサイズは、ユーザの読む速度に従って時間の長さに変換される可能性がある。そのとき、学習がエビングハウスの記憶の法則に従って継続的に実行され、同時確率が更新される。つまり、任意で、図3bに示されるように、テキスト情報処理装置は、更新ユニット306をさらに含み得る。説明は、以下の通りである。
更新ユニット306は、特定の規則に従って候補新造語に対応する同時確率を更新するように構成される可能性がある。
この場合、決定ユニット305は、候補新造語が予め設定された辞書内になく、更新された同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定するように構成される可能性がある。
たとえば、更新ユニット306は、訓練コーパス内の訓練開始位置から候補新造語の位置まで読むために必要とされる時間を推定して順方向時間を取得し、候補新造語の位置から訓練コーパス内の訓練終了位置まで読むために必要とされる時間を推定して逆方向時間を取得し、候補新造語に対応する同時確率を、順方向時間および逆方向時間に従って予め設定された指数減衰関数を使用することによって更新して、更新された同時確率を取得するように特に構成される可能性がある。特定の規則は、エビングハウスの記憶の法則である可能性があり、指数減衰関数は、エビングハウスの記憶の法則に従って構築される可能性がある。
加えて、更新ユニット306は、訓練コーパス内の訓練開始位置および訓練コーパス内の現在処理される必要がある候補新造語の位置(たとえば、順序を表す位置)を決定するように特に構成される可能性がある。さらに、更新ユニット306は、訓練開始位置と候補新造語の位置との間の距離を計算して第1の距離を取得し、第1の距離を予め設定された読む速度によって割って順方向時間を取得するように特に構成される可能性がある。
更新ユニット306は、訓練コーパス内の訓練終了位置および訓練コーパス内の現在処理される必要がある候補新造語の位置(たとえば、逆位置)を決定するように特に構成される可能性がある。さらに、更新ユニット306は、候補新造語の位置と訓練終了位置との間の距離を計算して第2の距離を取得し、第2の距離を予め設定された読む速度によって割って逆方向時間を取得するように特に構成される可能性がある。
特定の実装中に、上述のユニットは、独立したエンティティとして実装される可能性があり、または任意に組み合わされる可能性があり、または同じエンティティもしくはいくつかのエンティティとして実装される可能性がある。上述のユニットの特定の実装に関しては、上述の方法の実施形態を参照されたい。詳細は、本明細書において再度説明されない。
テキスト情報処理装置は、サーバなどのネットワークデバイスに特に統合される可能性がある。
この実施形態のテキスト情報処理装置の分割ユニット302は訓練コーパスを単語および単語列に分割する可能性があり、統計収集ユニット303は各単語および各単語列が訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得する可能性があり、選択ユニット304は独立した確率および同時確率に従って候補新造語を選択し、決定ユニット305は候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定することが、上の内容から学習され得る。このソリューションにおいては、単語分割を実行するかまたは単語分割モデルを継続的に更新する必要がないので、手順が大幅に単純化される可能性があり、計算リソースが節約される可能性がある。加えて、単語分割の境界を指定する必要がないので、はっきりしない新造語の境界によって引き起こされる新造語が発見され得ない場合が避けられる可能性があり、それによって、新造語の発見率を大きく改善し、処理の効果を高める。
実施形態4
対応して、本出願のこの実施形態は、本出願の実施形態による任意のテキスト情報処理装置を含むテキスト情報処理システムをさらに提供する。詳細に関しては、実施形態3を参照されたい。たとえば、説明は、以下のようになる可能性がある。
テキスト情報処理装置は、テキスト情報に従って訓練コーパスを決定し、訓練コーパスを単語および単語列に分割し、各単語および各単語列が訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得し、独立した確率および同時確率に従って単語列内で選択を実行し、選択された単語列を候補新造語として使用し、候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定するように構成される。
テキスト情報は、ネットワーク内の様々なテキスト情報、たとえば、ニュース、映画およびテレビドラマについての情報、ならびにUGCである可能性がある。UGCは、ユーザによって公開されたムード、コメント、記事、マイクロブログ、および/またはブログなどのテキスト情報を含み得る。
テキスト情報処理システムは、データを記憶するように構成されたストレージサーバおよびテキスト情報を公開するように構成された端末デバイスなどのその他のデバイスをさらに含み得る。詳細は、本明細書において再度説明されない。
上述のデバイスの特定の実装に関しては、上述の方法の実施形態を参照されたい。詳細は、本明細書において再度説明されない。
テキスト情報処理システムは、本発明の実施形態において提供される任意のテキスト情報処理装置を含む可能性があり、したがって、本発明の実施形態において提供される任意のテキスト情報処理装置によって達成され得る有益な効果を達成する可能性がある。詳細に関しては、上述の実施形態を参照されたい。詳細は、本明細書において再度説明されない。
実施形態5
本出願のこの実施形態は、コンピューティング装置をさらに提供する。図4に示されるように、本出願のこの実施形態のコンピューティング装置は、例としてサーバを使用することによって示される。特に、
サーバは、1つまたは複数の処理コアを含むプロセッサ401、1つまたは複数のコンピュータ可読記憶媒体を含むメモリ402、無線周波数(RF)回路403、電源404、入力ユニット405、およびディスプレイユニット406を含み得る。当業者は、図4に示されるサーバの構造がサーバへの限定を定めないことを理解し得る。サーバは、図に示された部分より多くのまたはより少ない部分を含む可能性があり、いくつかの部分を組み合わせる可能性があり、または異なる部分の構成を有する可能性がある。
プロセッサ401は、サーバの制御の中心であり、様々なインターフェースおよび線を使用することによってサーバ全体の様々な部分に接続される。メモリ402に記憶されたソフトウェアプログラムおよび/またはモジュールを走らせるかまたは実行し、メモリ402に記憶されたデータを呼び出すことによって、プロセッサ401は、サーバの様々な機能を実行し、データ処理を実行し、それによって、サーバ全体を監視する。任意で、プロセッサ401は、1つまたは複数の処理コアを含み得る。好ましくは、プロセッサ401は、アプリケーションプロセッサおよびモデムを組み込む可能性がある。アプリケーションプロセッサは、主として、オペレーティングシステム、ユーザインターフェース、アプリケーションプログラムなどを処理する。モデムは、主として、ワイヤレス通信を処理する。上述のモデムはプロセッサ401に組み込まれない可能性もあることが理解され得る。
メモリ402は、ソフトウェアプログラムおよびモジュールを記憶するように構成され得る。プロセッサ401は、様々な機能アプリケーションおよびデータ処理を実施するためにメモリ402に記憶されたソフトウェアプログラムおよびモジュールを実行する。メモリ402は、主に、プログラムストレージエリアおよびデータストレージエリアを含み得る。プログラムストレージエリアは、オペレーティングシステム、(音声再生機能および画像表示機能などの)少なくとも1つの機能によって必要とされるアプリケーションプログラムなどを記憶する可能性がある。データストレージエリアは、サーバの使用によって生成されたデータなどを記憶する可能性がある。加えて、メモリ402は、高速なランダムアクセスメモリを含む可能性があり、少なくとも1つの磁気ディスクストレージデバイスなどの不揮発性メモリ、フラッシュメモリ、または別の揮発性ソリッドステートストレージデバイスも含む可能性がある。それに対応して、メモリ402は、プロセッサ401のメモリ402へのアクセスを提供するためのメモリコントローラをさらに含み得る。
RF回路403は、情報の送信および受信中に信号を受信および送信するように構成される可能性がある。特に、RF回路403は、基地局のダウンリンク情報を受信した後、処理のために1つまたは複数のプロセッサ401に情報を送信し、関係するアップリンクデータを基地局に送信する。概して、RF回路403は、アンテナ、少なくとも1つの増幅器、チューナー、1つまたは複数の発振器、加入者識別モジュール(SIM)カード、トランシーバ、カプラ、低雑音増幅器(LNA)、デュプレクサなどを含むがこれらに限定されない。加えて、RF回路403は、ワイヤレス通信によってネットワークおよび別のデバイスと通信する可能性もある。ワイヤレス通信は、移動体通信用グローバルシステム(GSM(登録商標):Global System of Mobile communication)、汎用パケット無線サービス(GPRS:General Packet Radio Service)、符号分割多元接続(CDMA)、広帯域符号分割多元接続(WCDMA(登録商標))、ロングタームエボリューション(LTE)、電子メール、およびショートメッセージングサービス(SMS)などを含むがこれらに限定されない任意の通信規格またはプロトコルを使用する可能性がある。
サーバは、各構成要素に電力を供給する電源404(たとえば、バッテリ)をさらに含む。好ましくは、電源404は、充電、放電、および電力消費の管理などの機能が電源管理システムを使用することによって実施されるように、電源管理システムを使用することによってプロセッサ401に論理的に接続される可能性がある。電源404は、直流または交流電源、再充電システム、電源異常検出回路、電源コンバータまたはインバータ、電源状態インジケータ、および任意のその他の構成要素のうちの1つまたは複数をさらに含み得る。
サーバは、入力ユニット405をさらに含み得る。入力ユニット405は、入力された数字または文字情報を受け取り、ユーザ設定および機能の制御に関連するキーボード、マウス、ジョイスティック、光、またはトラックボールの信号入力を生成する可能性がある。特に、特定の実施形態において、入力ユニット405は、タッチ感知表面および別の入力デバイスを含む可能性がある。タッチスクリーンまたはタッチパネルとも呼ばれる可能性があるタッチ感知表面は、(指またはスタイラスなどの任意の好適な物体またはアクセサリを使用することによるタッチ感知表面の上または近くのユーザの操作などの)タッチ感知表面の上または近くのユーザのタッチ操作を受け取り、予め設定されたプログラムに従って対応する接続装置を駆動し得る。任意で、タッチ感知表面は、2つの部分、すなわち、タッチ検出装置およびタッチコントローラを含み得る。タッチ検出装置は、ユーザのタッチ位置を検出し、タッチ操作によって生成された信号を検出し、タッチコントローラに信号を転送する。タッチコントローラは、タッチ検出装置からタッチ情報を受信し、タッチ情報をタッチ点の座標に変換し、タッチ点の座標をプロセッサ401に送信する。さらに、タッチコントローラは、プロセッサ401から送信されたコマンドを受信し、実行することができる。加えて、タッチ感知表面は、抵抗式、静電容量式、赤外線式、および表面音波式などの複数の形式で実装される可能性がある。タッチ感知表面に加えて、入力ユニット405は、別の入力デバイスをさらに含み得る。特に、別の入力デバイスは、物理的なキーボード、機能キー(たとえば、音量制御キーもしくは電源オン/オフキー)、トラックボール、マウス、またはジョイスティックのうちの1つまたは複数を含み得るがこれらに限定されない。
サーバは、ディスプレイユニット406をさらに含み得る。ディスプレイユニット406は、ユーザによって入力された情報またはユーザに与えられた情報およびサーバのグラフィカルユーザインターフェースを表示するように構成され得る。グラフィカルユーザインターフェースは、それぞれ、画像、テキスト、アイコン、ビデオ、またはこれらの任意の組合せを含み得る。ディスプレイユニット406は、ディスプレイパネルを含み得る。任意で、ディスプレイパネルは、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)などの形態で構成される可能性がある。さらに、タッチ感知表面が、ディスプレイパネルを覆う可能性がある。タッチ感知表面の上または近くのタッチ操作を検出した後、タッチ感知表面は、タッチイベントの種類を判定するためにタッチ操作をプロセッサ401に転送し、そして、プロセッサ401は、タッチイベントの種類に応じてディスプレイパネル上の対応する視覚的な出力を提供する。図4においてタッチ感知表面およびディスプレイパネルは入力および出力機能を実装するための2つの別々の部分として使用されるが、一部の実施形態において、タッチ感知表面およびディスプレイパネルは、入力および出力機能を実装するために統合される可能性がある。
示されていないが、サーバは、カメラ、Bluetooth(登録商標)モジュールなどをさらに含み得る。詳細は、本明細書においてさらに与えられない。特に、この実施形態において、サーバのプロセッサ401は、以降の命令に従って、1つまたは複数のアプリケーションプログラムのプロセスに対応する実行可能ファイルをメモリ402にロードする可能性がある。プロセッサ401は、メモリ402に記憶されたアプリケーションプログラムを実行して、様々な機能、すなわち、
テキスト情報に従って訓練コーパスを決定することと、訓練コーパスを単語および単語列に分割することと、各単語および各単語列が訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得することと、独立した確率および同時確率に従って候補新造語を選択することと、候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定することとを実施する。
上述の操作の特定の実装および対応する有益な効果に関しては、上述の実施形態を参照されたい。詳細は、本明細書において再度説明されない。
当業者は、上述の実施形態の方法のステップのすべてまたは一部が、関連するハードウェアに指示を与えるプログラムによって実装され得ることを理解するであろう。プログラムは、コンピュータ可読記憶媒体に記憶され得る。ストレージ媒体は、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク、光ディスクなどを含み得る。
本出願の実施形態において提供されたテキスト情報処理方法、装置、およびシステムが、上で詳細に説明されている。本明細書は、特定の例を使用することによって本出願の原理および実装を説明する。上述の実施形態の説明は、本出願の方法および本出願の中心となる考え方を理解する助けとなるように意図されているに過ぎない。加えて、当業者は、本出願の考え方に従って特定の実装および応用の範囲の様々な変更を行い得る。したがって、本明細書は、本出願に対する限定とみなされない。
301 取得ユニット
302 分割ユニット
303 統計収集ユニット
304 選択ユニット
305 決定ユニット
306 更新ユニット
401 プロセッサ
402 メモリ
403 無線周波数(RF)回路
404 電源
405 入力ユニット
406 ディスプレイユニット

Claims (20)

  1. コンピューティング装置によって実行されるテキスト情報処理方法であって、
    テキスト情報に従って訓練コーパスを決定するステップと、
    前記訓練コーパスを単語および単語列に分割するステップと、
    各単語および各単語列が前記訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得するステップと、
    前記独立した確率および前記同時確率に従って前記単語列内で選択を実行し、選択された単語列を候補新造語として使用するステップと、
    前記候補新造語が予め設定された辞書内になく、前記候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに前記候補新造語を新造語と決定するステップと
    を含む、方法。
  2. 各単語および各単語列が前記訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得する前記ステップが、
    各単語が前記訓練コーパスに現れる回数、各単語列が前記訓練コーパスに現れる回数、および前記訓練コーパス内の単語の総数についての統計を別々に集めるステップと、
    各単語が前記訓練コーパスに現れる前記回数および前記訓練コーパス内の単語の前記総数に従って前記独立した確率を計算するステップと、
    各単語列が前記訓練コーパスに現れる前記回数および前記訓練コーパス内の単語の前記総数に従って前記同時確率を計算するステップと
    を含む請求項1に記載の方法。
  3. 前記独立した確率および前記同時確率に従って前記単語列内で選択を実行し、選択された単語列を候補新造語として使用する前記ステップが、
    分割によって得られた各単語列に関して、前記単語列の同時確率が前記単語列内のすべての単語の独立した確率の積よりも大きいかどうかを判定し、前記単語列の前記同時確率が前記単語列内のすべての前記単語の前記独立した確率の前記積よりも大きい場合、前記単語列を候補新造語と決定するステップを含む請求項1に記載の方法。
  4. 分割によって得られた各単語列が、少なくとも2つの隣接した単語を含む請求項1に記載の方法。
  5. 前記候補新造語に対応する前記同時確率が、前記選択された単語列の同時確率であり、
    前記独立した確率および前記同時確率に従って前記単語列内で選択を実行し、選択された単語列を候補新造語として使用した後、前記方法が、
    特定の規則に従って前記候補新造語に対応する前記同時確率を更新するステップをさらに含む請求項1から3のいずれか一項に記載の方法。
  6. 特定の規則に従って前記候補新造語に対応する前記同時確率を更新する前記ステップが、
    前記訓練コーパス内の訓練開始位置から前記候補新造語の位置まで読むために必要とされる時間を推定して順方向時間を取得するステップと、
    前記候補新造語の前記位置から前記訓練コーパス内の訓練終了位置まで読むために必要とされる時間を推定して逆方向時間を取得するステップと、
    前記候補新造語に対応する前記同時確率を、前記順方向時間および前記逆方向時間に従って予め設定された指数減衰関数を使用することによって更新して、更新された同時確率を取得するステップと
    を含む請求項5に記載の方法。
  7. 前記特定の規則が、エビングハウスの記憶の法則であり、前記指数減衰関数が、前記エビングハウスの記憶の法則に従って構築される請求項6に記載の方法。
  8. 前記訓練コーパス内の訓練開始位置から前記候補新造語の位置まで読むために必要とされる時間を推定して順方向時間を取得する前記ステップが、
    前記訓練コーパス内の前記訓練開始位置と前記候補新造語の前記位置との間の距離を計算して第1の距離を取得するステップと、
    前記第1の距離を予め設定された読む速度によって割って前記順方向時間を取得するステップと
    を含む請求項6に記載の方法。
  9. 前記候補新造語の前記位置から前記訓練コーパス内の訓練終了位置まで読むために必要とされる時間を推定して逆方向時間を取得する前記ステップが、
    前記候補新造語の前記位置から前記訓練コーパス内の前記訓練終了位置との間の距離を計算して第2の距離を取得するステップと、
    前記第2の距離を予め設定された読む速度によって割って前記逆方向時間を取得するステップと
    を含む請求項6に記載の方法。
  10. テキスト情報処理装置であって、
    テキスト情報に従って訓練コーパスを決定するように構成された取得ユニットと、
    前記訓練コーパスを単語および単語列に分割するように構成された分割ユニットと、
    各単語および各単語列が前記訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得するように構成された統計収集ユニットと、
    前記独立した確率および前記同時確率に従って前記単語列内で選択を実行し、選択された単語列を候補新造語として使用するように構成された選択ユニットと、
    前記候補新造語が予め設定された辞書内になく、前記候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに前記候補新造語を新造語と決定するように構成された決定ユニットと
    を含む、装置。
  11. 前記統計収集ユニットが、
    各単語が前記訓練コーパスに現れる回数、各単語列が前記訓練コーパスに現れる回数、および前記訓練コーパス内の単語の総数についての統計を別々に集め、
    各単語が前記訓練コーパスに現れる前記回数および前記訓練コーパス内の単語の前記総数に従って前記独立した確率を計算し、
    各単語列が前記訓練コーパスに現れる前記回数および前記訓練コーパス内の単語の前記総数に従って前記同時確率を計算するようにさらに構成される請求項10に記載の装置。
  12. 前記選択ユニットが、
    分割によって得られた各単語列に関して、前記単語列の同時確率が前記単語列内のすべての単語の独立した確率の積よりも大きいかどうかを判定し、前記単語列の前記同時確率が前記単語列内のすべての前記単語の前記独立した確率の前記積よりも大きい場合、前記単語列を候補新造語と決定するようにさらに構成される請求項10に記載の装置。
  13. 分割によって得られた各単語列が、少なくとも2つの隣接した単語を含む請求項10に記載の装置。
  14. 前記候補新造語に対応する前記同時確率が、前記選択された単語列の同時確率であり、
    前記装置が、更新ユニットをさらに含み、
    前記更新ユニットが、特定の規則に従って前記候補新造語に対応する前記同時確率を更新するように構成される請求項10から12のいずれか一項に記載の装置。
  15. 前記更新ユニットが、前記訓練コーパス内の訓練開始位置から前記候補新造語の位置まで読むために必要とされる時間を推定して順方向時間を取得し、前記候補新造語の前記位置から前記訓練コーパス内の訓練終了位置まで読むために必要とされる時間を推定して逆方向時間を取得し、前記候補新造語に対応する前記同時確率を、前記順方向時間および前記逆方向時間に従って予め設定された指数減衰関数を使用することによって更新して、更新された同時確率を取得するようにさらに構成される請求項14に記載の装置。
  16. 前記特定の規則が、エビングハウスの記憶の法則であり、前記指数減衰関数が、前記エビングハウスの記憶の法則に従って構築される請求項15に記載の装置。
  17. 前記更新ユニットが、前記訓練コーパス内の前記訓練開始位置と前記候補新造語の前記位置との間の距離を計算して第1の距離を取得し、前記第1の距離を予め設定された読む速度によって割って前記順方向時間を取得するようにさらに構成される請求項15に記載の装置。
  18. 前記更新ユニットが、前記候補新造語の前記位置から前記訓練コーパス内の前記訓練終了位置との間の距離を計算して第2の距離を取得し、前記第2の距離を予め設定された読む速度によって割って前記逆方向時間を取得するようにさらに構成される請求項15に記載の装置。
  19. テキスト情報処理装置であって、
    1つまたは複数のプロセッサと、
    プログラム命令を記憶するメモリであって、前記命令が、前記プロセッサによって実行されるときに装置に請求項1から9のいずれか一項に記載の方法を実行させる、メモリと
    を含む、装置。
  20. プログラム命令を含むコンピュータ可読記憶媒体であって、前記命令が、コンピューティング装置のプロセッサによって実行されるときに前記装置に請求項1から9のいずれか一項に記載の方法を実行させる、コンピュータ可読記憶媒体。
JP2018518610A 2016-02-18 2017-02-07 テキスト情報処理方法およびデバイス Active JP6594534B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610091229.XA CN107092588B (zh) 2016-02-18 2016-02-18 一种文本信息处理方法、装置和***
CN201610091229.X 2016-02-18
PCT/CN2017/073020 WO2017140221A1 (zh) 2016-02-18 2017-02-07 文本信息处理方法和装置

Publications (2)

Publication Number Publication Date
JP2018536920A JP2018536920A (ja) 2018-12-13
JP6594534B2 true JP6594534B2 (ja) 2019-10-23

Family

ID=59624796

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018518610A Active JP6594534B2 (ja) 2016-02-18 2017-02-07 テキスト情報処理方法およびデバイス

Country Status (5)

Country Link
US (1) US10496747B2 (ja)
EP (1) EP3418906A4 (ja)
JP (1) JP6594534B2 (ja)
CN (1) CN107092588B (ja)
WO (1) WO2017140221A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020120B (zh) * 2017-10-10 2023-11-10 腾讯科技(北京)有限公司 内容投放***中的特征词处理方法、装置及存储介质
CN110245345A (zh) * 2018-03-08 2019-09-17 普天信息技术有限公司 适用于网络新词的分词处理方法及装置
CN110765271B (zh) * 2018-07-09 2024-02-09 株式会社理光 一种实体发现与实体链接的联合处理方法及装置
CN109344396A (zh) * 2018-08-31 2019-02-15 阿里巴巴集团控股有限公司 文本识别方法、装置、及计算机设备
CN109408818B (zh) * 2018-10-12 2023-04-07 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质
CN109472022A (zh) * 2018-10-15 2019-03-15 平安科技(深圳)有限公司 基于机器学习的新词识别方法及终端设备
CN109670170B (zh) * 2018-11-21 2023-04-07 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN111444710B (zh) * 2019-01-15 2023-04-18 阿里巴巴集团控股有限公司 分词方法及分词装置
CN110147435B (zh) * 2019-01-24 2023-08-22 腾讯科技(深圳)有限公司 对话生成方法、装置、设备及存储介质
CN111832310B (zh) * 2019-04-23 2024-04-16 北京嘀嘀无限科技发展有限公司 一种文本处理方法及装置
CN111859948B (zh) * 2019-04-28 2024-06-11 北京嘀嘀无限科技发展有限公司 语言识别、语言模型训练、字符预测方法及装置
CN110705254B (zh) * 2019-09-27 2023-04-07 科大讯飞股份有限公司 文本断句方法、装置、电子设备和存储介质
CN112818210B (zh) * 2019-11-15 2024-06-21 上海连尚网络科技有限公司 用于推送信息的方法和设备
CN111259985B (zh) * 2020-02-19 2023-06-30 腾讯云计算(长沙)有限责任公司 基于业务安全的分类模型训练方法、装置和存储介质
CN111339753B (zh) * 2020-02-25 2023-06-16 北京林业大学 一种自适应中文新词识别方法与***
CN111597822B (zh) * 2020-05-19 2024-03-08 北京奇艺世纪科技有限公司 一种对象名称识别方法及装置
CN111813941A (zh) * 2020-07-23 2020-10-23 北京来也网络科技有限公司 结合rpa和ai的文本分类方法、装置、设备及介质
CN112000794B (zh) * 2020-07-30 2023-08-22 北京百度网讯科技有限公司 文本语料筛选方法、装置、电子设备及存储介质
CN112818686B (zh) * 2021-03-23 2023-10-31 北京百度网讯科技有限公司 领域短语挖掘方法、装置和电子设备
CN113780007A (zh) * 2021-10-22 2021-12-10 平安科技(深圳)有限公司 语料筛选方法、意图识别模型优化方法、设备及存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161340A (ja) * 1994-12-12 1996-06-21 Ricoh Co Ltd 連語自動抽出装置
JP3748322B2 (ja) * 1997-10-29 2006-02-22 富士通株式会社 単語登録装置及び記録媒体
US20070078644A1 (en) * 2005-09-30 2007-04-05 Microsoft Corporation Detecting segmentation errors in an annotated corpus
WO2008004663A1 (fr) * 2006-07-07 2008-01-10 Nec Corporation Dispositif de mise à jour de modèle de langage, procédé de mise à jour de modèle de langage, et programme de mise à jour de modèle de langage
JP4446313B2 (ja) * 2006-12-15 2010-04-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理用の辞書に登録するべき新規語句を検索する技術
CN101004737A (zh) * 2007-01-24 2007-07-25 贵阳易特软件有限公司 基于关键词的个性化文档处理***
CN100504851C (zh) * 2007-06-27 2009-06-24 腾讯科技(深圳)有限公司 一种中文分词方法及***
CN101706807B (zh) * 2009-11-27 2011-06-01 清华大学 一种中文网页新词自动获取方法
CN101976233B (zh) * 2010-09-30 2012-11-14 北京新媒传信科技有限公司 基于序列模式的新词发现方法
CN102681981A (zh) * 2011-03-11 2012-09-19 富士通株式会社 自然语言词法分析方法、装置及分析器训练方法
CN102955771A (zh) * 2011-08-18 2013-03-06 华东师范大学 中文单字串模式和词缀模式的新词自动识别技术及***
CN102708147B (zh) * 2012-03-26 2015-02-18 北京新发智信科技有限责任公司 一种科技术语的新词识别方法
US9229924B2 (en) * 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
CN102930055B (zh) * 2012-11-18 2015-11-04 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN104102658B (zh) * 2013-04-09 2018-09-07 腾讯科技(深圳)有限公司 文本内容挖掘方法及装置
CN103413478A (zh) * 2013-07-09 2013-11-27 复旦大学 记忆单词智能学习方法与***
CN103678282B (zh) * 2014-01-07 2016-05-25 苏州思必驰信息科技有限公司 一种分词方法及装置
CN104915327B (zh) * 2014-03-14 2019-01-29 腾讯科技(深圳)有限公司 一种文本信息的处理方法及装置
US9594741B1 (en) * 2016-06-12 2017-03-14 Apple Inc. Learning new words
US10460038B2 (en) * 2016-06-24 2019-10-29 Facebook, Inc. Target phrase classifier
TWI640877B (zh) * 2017-06-14 2018-11-11 財團法人資訊工業策進會 語意分析裝置、方法及其電腦程式產品

Also Published As

Publication number Publication date
CN107092588A (zh) 2017-08-25
US10496747B2 (en) 2019-12-03
EP3418906A1 (en) 2018-12-26
EP3418906A4 (en) 2019-09-04
CN107092588B (zh) 2022-09-09
JP2018536920A (ja) 2018-12-13
US20180217979A1 (en) 2018-08-02
WO2017140221A1 (zh) 2017-08-24

Similar Documents

Publication Publication Date Title
JP6594534B2 (ja) テキスト情報処理方法およびデバイス
US11169827B2 (en) Resource loading at application startup using attributes of historical data groups
US20190087490A1 (en) Text classification method and apparatus
US20190371299A1 (en) Question Answering Method and Apparatus
CN113284142B (zh) 图像检测方法、装置、计算机可读存储介质及计算机设备
US10204164B2 (en) Systems and methods for filtering microblogs
CN107784034B (zh) 页面类别识别方法及装置、用于页面类别识别的装置
CN112163405A (zh) 问题的生成方法和装置
CN107885718B (zh) 语义确定方法及装置
CN109543014B (zh) 人机对话方法、装置、终端及服务器
CN111967569A (zh) 神经网络结构的生成方法、装置、存储介质及电子设备
US20220027575A1 (en) Method of predicting emotional style of dialogue, electronic device, and storage medium
CN114861889A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN114357278B (zh) 一种话题推荐方法、装置及设备
CN112528641A (zh) 建立信息抽取模型的方法、装置、电子设备和可读存储介质
CN110069769A (zh) 应用标签生成方法、装置及存储设备
CN110825863A (zh) 一种文本对融合方法及装置
CN110427622A (zh) 语料标注的评估方法、装置及存储介质
CN112580723B (zh) 多模型融合方法、装置、电子设备和存储介质
CN111611369A (zh) 基于人工智能的交互方法和相关装置
CN111666417A (zh) 生成同义词的方法、装置、电子设备以及可读存储介质
CN111680599A (zh) 人脸识别模型处理方法、装置、设备和存储介质
EP4053713A1 (en) Question and answer method and apparatus based on knowledge graph
CN111340222B (zh) 神经网络模型搜索方法、装置以及电子设备
CN113408632A (zh) 提高图像分类准确性的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20180718

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190924

R150 Certificate of patent or registration of utility model

Ref document number: 6594534

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250