JP5927955B2 - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP5927955B2 JP5927955B2 JP2012023498A JP2012023498A JP5927955B2 JP 5927955 B2 JP5927955 B2 JP 5927955B2 JP 2012023498 A JP2012023498 A JP 2012023498A JP 2012023498 A JP2012023498 A JP 2012023498A JP 5927955 B2 JP5927955 B2 JP 5927955B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- probability coefficient
- delimiter
- probability
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/224—Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
Description
また、特許文献2は、分かち書きされていない文字列を単語毎に分割する技術を提案している。
特許文献2は、分かち書きされていない文字列を単語毎に分割する技術を開示しているが、文字列がどの単語と単語との間で区切れるか判別する方法を開示していない。
複数の単語列を集めた教師データの中に現れる連続する単語を含む部分列が、前記教師データの中で前記部分列の複数の単語の区切り方を定義する複数の区切パターンで区切られている確率を示す区切確率係数を、各前記部分列の区切パターン毎に記憶している区切確率係数記憶部と、
解析対象となる単語列を取得する単語列取得部と、
前記単語列取得部が取得した解析対象となる単語列の語間のそれぞれで区切れるか区切れないかの区切り方を定義する複数の単語列区切パターンを生成する単語列区切パターン生成部と、
前記単語列取得部が取得した単語列から連続する複数の単語からなる部分列を抽出する部分列抽出部と、
前記部分列抽出部が抽出した部分列のそれぞれについて、部分列の区切り方を定義する各区切パターンに対応する区切確率係数を前記区切確率係数記憶部から取得する区切確率係数取得部と、
前記連続する複数の単語の語間で前記解析対象となる単語列が前記単語列区切パターンで定義される区切り方で区切れる確からしさである確率係数を、前記区切確率係数取得部が取得した区切確率係数に基づいて求める語間確率係数獲得部と、
前記単語列区切パターン生成部で生成された各前記単語列区切パターンの確率係数を前記語間確率係数獲得部が求めた区切確率係数に基づいて算出するパターン確率係数算出部と、
前記パターン確率係数算出部が算出した各前記単語列区切パターンの確率係数に基づいて1つの単語列区切パターンを選択し、選択された単語列区切パターンで定義される区切り方で前記単語列取得部が取得した単語列を区切って出力する出力部と、
を備えることを特徴とする。
実施形態1にメニュー表示装置1は、i)解析対象となる特定のカテゴリに属する文字列(メニュー、献立等)を記載した紙等を撮影する撮影機能、ii)撮影した画像から解析対象となる文字列を認識して抽出する機能、iii)抽出した文字列を解析して単語列に変換する機能、iv)文字列の所定部分(単語間)でメニューが区切れる確率を示す係数を出力する機能、v)区切る確率に基づいて単語列を区切る機能、vi)区切った単語列をそれぞれ表示データに変換する機能、vii)表示データを表示する機能、等を備える。
なお、情報処理部701と、データ記憶部702と、プログラム記憶部703と、入出力部704と、通信部705と、は内部バス706によってそれぞれ接続され、情報の送信が可能である。
メニュー解析部30は、単語列Wを構成する単語と単語との間である語間(注目語間)に対して、語間を構成する単語を少なくとも一つ含む部分単語列(nグラム)を抽出する。そして、そのnグラムと、そのnグラムの語間で単語列Wが区切れる場合と区切れない場合に対応する区切パターンを指定する情報と、を確率係数出力部40に伝達する。nグラムと区切パターンと区切確率係数については後述する。
メニュー解析部30は、確率係数出力部40が出力する、nグラムがその区切パターンで区切れる確からしさを示す係数(区切確率係数、区切パターン確率係数)を受け取る。メニュー解析部30は、確率係数出力部40から受け取った区切確率係数を用いて、単語列Wを分割して部分列を抽出し、部分列(分割した単語列W)を変換部50に出力する。メニュー解析部30が実行する具体的な処理については後述する。
確率係数出力部40が実行する具体的な処理については後述する。
変換部50は、部分列のそれぞれに含まれる単語又は単語列を、用語辞書記憶部60に伝達し、用語辞書記憶部60からその単語の解説データを取得する。変換部50は、部分列ごとに、原文であるメニューの単語と、その単語の解説データを並べて、表示データを生成する。
変換部50は、生成した表示データを表示部80に伝達する。
用語辞書記憶部60は、変換部50から単語又は単語列を送信されると、その単語又は単語列が登録されていた場合、用語辞書でその単語又は単語列と対応付けて記録されている解説データを変換部50に伝達する。また、その単語又は単語列を登録していなかった場合には、その旨を示すemptyデータを送信する。
メニュー表示装置1は、ユーザが画像入力部10を用いてレストランのメニュー等を撮影すると、図2(a)に示すような画像I1を取得する。
そして、画像I1からOCR20が文字列を抽出し、メニュー解析部30が単語単位で分割して、図2(b)に示すように分割された単語列(部分列)として変換部50に伝達される。そして、図2(c)に示すような部分列ごとに解説文をつけた表示データに変換して表示する。
本実施形態で解析対象となる文字列は、図3(a)の上に示されるようなメニューを示す文字列である。図3に示すメニュー「豚バラ肉の赤ワイン煮温野菜添え」にタグを付し、単語毎・固まり毎に分割したデータがタグ付文字列(教師データ、図3(a)下)である。図3(a)の例では、タグ付文字列は「<m><c><s><w>豚</w>バラ肉</w><w>の</w></s><s><w>赤ワイン</w><w>煮</w></s><s><w></c>温野菜</w><w>添え</w></s></m>」である。
なお、どのタグがある部分で区切れていると判断するかの判断基準は、自由に設定可能である。例えば、<s></s>タグがある部分のみで区切れていると判断して区切フラグを配置する設定等の任意の設定が可能である。
例えば、トライグラムを構成する3つの単語(単語A、単語B、単語C)について、単語Aの前、単語Cの後ろを含むいずれの語間でも教師データが区切れて居ない場合に対応する区切パターンは「0A0B0C0」、全ての語間で区切れている場合に対応する区切パターンは「1A1B1C1」、である。
なお、分かち書き部320は、解析対象となるメニューが英語やフランス語等の単語毎にスペースで区切られる言語であった場合は、スペースを認識して上記分かち書き処理を実行する。
分かち書き部320は、分かち書き処理によりメニューの文字列を単語列Wに変換して区切パターン生成部330へ伝達する。
解析対象となる単語列Wの区切り方を定めることは、単語列Wをnグラムとし、単語列Wであるnグラムについて定義できる区切りパターンを一つ選択することと考えることが出来る。そこで、本実施形態では単語列Wについて定義できる全ての区切り方(単語列Wの区切パターン)を定義し、各区切りパターンでその単語列が区切れる確からしさを表す係数を算出して、当該係数を用いて区切パターン生成部330が生成した区切パターンのうち一つを選択する。
区切パターン生成部330は、生成した区切パターンを語間選択部340に伝達する。
区切確率パターン生成部330、語間選択部340、nグラム抽出部350、確率係数取得部360及び語間確率係数算出部370は、注目区切パターンの語間それぞれについて上記処理を行って語間確率係数Piwを求める。
語間確率係数算出部370は語間確率係数Piwを注目区切パターンの全ての語間について算出すると、算出した語間区切係数Piwをパターン確率係数算出部380に伝達する。
区切パターン生成部330は、単語列Wの各語間(語間IW1〜語間IW7)で単語列が区切れる場合(区切フラグ1)と区切れない場合(区切フラグ0)について、区切パターンを生成する(図6(a)の(1))。語間の数をNiwとすると、区切パターンは2のNiw乗個定義できる。
例えば、バイグラム「豚−バラ」において、注意語間の区切フラグ(注目区切フラグ)は0であり、対応区切パターンとして「0豚0バラ0」、「0豚1バラ0」、「1豚0バラ0」、「1豚1バラ0」、の4つが抽出できる。
また、対応区切パターンの区切確率係数と注目語間nグラム確率係数Pnとを対応付けて登録したデータ記憶部702に記憶しておき、該テーブルを参照して注目語間nグラム確率係数Pnを求めても良い。
注目区切パターンの確率係数Pを算出する方法はこれに限らず、語間確率係数Piwのそれぞれについて、少なくとも一つの語間確率係数Piwが大きくなり、その他の語間確率係数Piwが同じである場合は、確率係数Pも大きくなるような任意の方法で求めてよい。
例えば、語間確率係数Piwの累乗平均によってPを求めても良く、語間確率係数Piwと確率係数Pとを対応付けて登録したテーブルをデータ記憶部702に記憶しておき、該テーブルを参照して確率係数Pを求めても良い。
メニュー表示装置1は、ユーザが画像入力部10を用いてメニューの画像を取得する操作を実行すると、図7に示すメニュー表示処理を開始する。
そして、取得した画像から、OCR20が文字を認識して文字列を取得する(ステップS102)。
メニュー分割処理1では、まず単語列Wについて定義できる区切パターンを生成する(ステップS201、図6(a)の(1))。
nグラム確率係数取得処理1では、まずnグラム抽出部350が注目nグラムの対応区切パターンを、図6(b)の(3)で例示したように生成する(ステップS401)。
そして、nグラム確率係数算出処理1を終了する。
全nグラムについて注目語間nグラム確率係数Pnを算出していない場合(ステップS304;NO)、カウンタ変数lをインクリメントし(ステップS305)、次のnグラムについてステップS302から処理を繰り返す。
そして、語間確率係数算出処理1は終了する。
即ち、i番目の部分列に含まれる各単語の解説データを用語辞書記憶部60から取得して、図2(c)に示すような表示データに変換する(ステップS105)。
そのため、メニュー表示装置1を用いてメニューを分割すると、メニューを分割する精度が高い。
次に、本発明の実施形態2に係るメニュー表示装置2について説明する。
メニュー表示装置2は、各語間の区切フラグを語間確率係数に基づいて順に決定していく処理によって単語列を区切ることを特徴とする。
確率係数出力部41は、教師データ402を記憶し、教師データ402を検索して注目語間nグラム確率係数Pn(nグラム,IWx,y)を取得する。
確率係数出力部41が実行する具体的な処理については後述する。
nグラム確率係数取得部361は取得した注目語間nグラム確率係数Pnを語間確率係数取得部371に伝達する。
単語列Wの各語間(語間IW1〜IW7)について、語間選択部341が注目語間を順次選択する。図13の例では、注目語間IW3が記号*で示されている。
メニュー表示装置2の情報処理部70は、ユーザが画像入力部10を用いてメニューの画像を取得する操作を実行すると、実施形態1に係るメニュー表示装置1と同様に、図7に示すメニュー表示処理を開始する。
メニュー分割処理2では、まずカウンタ変数kについて、単語列Wのk番目の語間を注目語間として選択する(ステップS501)。
ステップS502で実行される語間確率係数算出処理は、そのステップS303で実行されるnグラム確率係数算出処理が図15に示すnグラム確率係数算出処理2であることを除けば、実施形態1に係る語間確率係数算出処理1と同様に実行される。
具体的には、現在の注目nグラムから(n−1)グラムを2つ抽出して新たな注目nグラム(n=n−1)とする(ステップS605)。そして、部分列である新たな注目nグラムのそれぞれについて、nグラム確率係数取得処理2を再帰的に実行し、部分列の注目語間nグラム確率係数Pnを求める(ステップS606)。そして、求めた二つの部分列の注目語間nグラム確率係数Pnを加算平均して、注目nグラムの注目語間nグラム確率係数Pnとする(ステップS607)。
さらに、確率係数出力部41が教師データの代わりにnグラムと注目語間nグラム確率係数Pnとを対応づけて記憶するリスト(nグラム確率係数リスト)を記憶しており、このリストを参照して注目語間nグラム確率係数Pnを求めても良い。
例えば、図16のバイグラム「豚−バラ」の行の「p2」の列に数値0.12が登録されていることは、豚−バラを注目nグラムとした場合の注目語間nグラム確率係数Pn(?豚1バラ?)が0.12であることを示す。また、その行のデータ数が2830であることは、p2の数値が2830の教師データから得られた数値であることを示す。
次に、本発明の実施形態3に係るメニュー表示装置3について説明する。
本実施形態のメニュー表示装置は、図17に示すように、画像入力部10と、OCR(Optical Character Reader)20とメニュー解析部32と確率係数出力部40と変換部50と用語辞書記憶部60とを含む情報処理部72と、表示部80と、操作入力部90と、を備える。本実施形態のメニュー表示装置3は、メニュー解析部32が実行する各語間の区切フラグを決定していく処理が実施形態1及び2のメニュー表示装置と異なる。その他の各部は実施形態1のメニュー表示装置1の同名の部位と同様である。
全nグラムについて選択していない場合(ステップS706;NO)、カウンタ変数k2をインクリメントし(ステップS707)、次のnグラム(隣接するnグラム)についてステップS702から処理を繰り返す。
以上、本願発明の実施形態について説明したが、本願発明の実施形態はこれに限られない。
例えば、上記実施形態1乃至3では、画像入力部10が撮影した画像から単語列Wを抽出したが、ユーザがキーボードを用いて入力した文字列から単語列Wを抽出してもよい。また、音声データから音声認識により文字列を取得しても良い。
しかし、本願発明において、分割された単語列を用いて表示データを作成する方法はこれに限られない。例えば、分割された単語列を部分列毎に任意の翻訳器を用いて翻訳し、翻訳結果を表示データとしてもよい。このようなメニュー表示装置によれば、入力されたメニューが例えば中国語であった場合に、日本語だけを理解し、中国語の文字列をキーボードを用いて入力できないユーザであっても、メニューを撮影する操作を実行すれば日本語でメニューの概要を表示することが出来る。
さらに、分割された部分列をキーワードとして画像検索し、得られた画像を表示データとして表示しても良い。
このような構成により、例えば部分列が「茎」「ワカメ」や「白ワイン」「蒸し」で有った場合、「茎」と「ワカメ」、「白ワイン」と「蒸し」がひとくくりであることと共に、「茎ワカメ」及び「白ワイン蒸し」についての解説を表示することが出来る。
解析対象となる単語列を取得する単語列取得部と、
前記単語列取得部が取得した単語列の隣接する単語と単語との間である語間について、当該語間を構成する単語の少なくとも一方を含む前記単語列の部分列を抽出する部分列抽出部と、
前記部分列抽出部が抽出した部分列のそれぞれについて、当該部分列を含む教師データにおいて、前記語間に対応する部位で教師データが区切れる確からしさを示す区切係数を取得する区切係数取得部と、
前記語間で前記解析対象の単語列が区切れる確からしさである確率係数を、前記区切係数取得部が取得した区切係数に基づいて求める確率係数獲得部と、
前記確率係数獲得部が求めた確率係数に基づいて、前記語間で前記解析対象の単語列が区切れるか否か判別する判別部と、
前記単語列取得部が取得した単語列を、前記判別部が区切れると判別した語間で区切って出力する出力部と、
を備えることを特徴とする情報処理装置。
前記確率係数獲得部は、前記確率係数を前記区切係数取得部が取得した区切係数のそれぞれについて、少なくとも所定の定義域において増加関数となるように求める、
ことを特徴とする付記1に記載の情報処理装置。
前記単語列取得部が取得した解析対象となる単語列の語間のそれぞれで、該単語列が区切れるか否かそれぞれの区切り方に対応する区切パターンを生成する区切りパターン生成部と、
前記確率係数獲得部が求めた確率係数に基づいて、前記区切パターンで前記解析対象となる単語列が区切れる確率であるパターン区切確率係数を求めるパターン区切係数獲得部と、
をさらに備え、
前記判別部は、前記語間が、前記パターン区切係数獲得部が求めたパターン区切確率係数が所定の閾値よりも大きい区切パターンにおいて区切れるとされている場合に、該語間で前記解析対象の単語列が区切れると判別する、
ことを特徴とする付記1又は2に記載の情報処理装置。
前記パターン区切係数獲得部は前記パターン確率係数を、前記確率係数のそれぞれに対して少なくとも所定の定義域において増加関数となるように求める、
ことを特徴とする付記3に記載の情報処理装置。
前記判別部は、前記語間について前記確率係数獲得部が求めた確率係数が所定の閾値よりも大きい場合に、当該語間で前記解析対象の単語列が区切れると判別する、
ことを特徴とする付記1又は2に記載の情報処理装置。
前記部分列抽出部が抽出した部分列の語間のそれぞれで、前記単語列が区切れるか否かそれぞれの区切り方に対応する部分区切パターンを生成する部分区切パターン生成部と、
前記部分区切パターンの区切り方で教師データが区切れる確率係数を記憶する確率係数記憶部と、
を更に備え、
前記区切係数取得部は、前記区切確率係数として前記確率係数記憶部が記憶する前記部分区切パターンの確率係数を取得し、
前記判別部は、前記部分区切パターン生成部が生成した部分区切パターンから、前記確率係数取得部が取得した区切確率係数が大きい部分区切パターンを選択することにより、前記語間で単語列が区切れるか否か判別し、
前記部分区切パターン生成部は、前記判別部が区切れるか否か判別した語間に対応する語間については同じ区切り方の部分区切パターンを生成する、
ことを特徴とする付記1に記載の情報処理装置。
前記教師データは、前記解析対象となる単語列と同一カテゴリに属する単語列であって、当該単語列の語間のそれぞれで単語列が区切れるか否かを定義した単語列である、
ことを特徴とする付記1乃至6の何れか一つに記載の情報処理装置。
前記解析対象となる単語列と前記教師データとが献立を表現する単語列である、
ことを特徴とする付記1乃至7の何れか一つに記載の情報処理装置。
文字列の画像を撮影する撮影部と、
前記撮影部が撮影した画像から文字列を抽出する文字列抽出部と、
前記文字列抽出部が抽出した文字列から単語列を生成する単語列生成部と、
前記単語列生成部が生成した単語列の隣接する単語と単語との間である語間について、当該語間を構成する単語の少なくとも一方を含む前記単語列の部分列を抽出する部分列抽出部と、
前記部分列抽出部が抽出した部分列のそれぞれについて、当該部分列を含む教師データにおいて、前記語間に対応する部位で教師データが区切れる確からしさを示す区切係数を取得する区切係数取得部と、
前記語間で前記単語列生成部が生成した単語列が区切れる確からしさである確率係数を、前記区切係数取得部が取得した区切係数に基づいて求める確率係数獲得部と、
前記確率係数獲得部が求めた確率係数に基づいて、前記語間で前記解析対象の単語列が区切れるか否か判別する判別部と、
前記単語列生成部が生成した単語列を、前記判別部が区切れると判別した語間で分割する分割部と、
前記分割部が分割した単語列のそれぞれについて、当該分割した単語列に含まれる単語又は単語列の少なくとも一方の意味を示す表示データに変換する変換部と、
前記変換部が変換した表示データを表示する表示部と、
を備えることを特徴とするデータ表示装置。
コンピュータに、
解析対象となる単語列を取得する処理、
前記取得した単語列の隣接する単語と単語との間である語間について、当該語間を構成する単語の少なくとも一方を含む前記単語列の部分列を抽出する処理、
前記抽出した部分列のそれぞれについて、当該部分列を含む教師データにおいて、前記語間に対応する部位で教師データが区切れる確からしさを示す区切係数を取得する処理、
前記語間で前記解析対象の単語列が区切れる確からしさである確率係数を、前記取得した区切係数に基づいて求める処理、
前記求めた確率係数に基づいて、前記語間で前記解析対象の単語列が区切れるか否か判別する処理、
前記取得した解析対象となる単語列を、前記判別する処理で区切れると判別した語間で区切って出力する処理、
を実行させることを特徴とするプログラム。
Claims (6)
- 複数の単語列を集めた教師データの中に現れる連続する単語を含む部分列が、前記教師データの中で前記部分列の複数の単語の区切り方を定義する複数の区切パターンで区切られている確率を示す区切確率係数を、各前記部分列の区切パターン毎に記憶している区切確率係数記憶部と、
解析対象となる単語列を取得する単語列取得部と、
前記単語列取得部が取得した解析対象となる単語列の語間のそれぞれで区切れるか区切れないかの区切り方を定義する複数の単語列区切パターンを生成する単語列区切パターン生成部と、
前記単語列取得部が取得した単語列から連続する複数の単語からなる部分列を抽出する部分列抽出部と、
前記部分列抽出部が抽出した部分列のそれぞれについて、部分列の区切り方を定義する各区切パターンに対応する区切確率係数を前記区切確率係数記憶部から取得する区切確率係数取得部と、
前記連続する複数の単語の語間で前記解析対象となる単語列が前記単語列区切パターンで定義される区切り方で区切れる確からしさである確率係数を、前記区切確率係数取得部が取得した区切確率係数に基づいて求める語間確率係数獲得部と、
前記単語列区切パターン生成部で生成された各前記単語列区切パターンの確率係数を前記語間確率係数獲得部が求めた区切確率係数に基づいて算出するパターン確率係数算出部と、
前記パターン確率係数算出部が算出した各前記単語列区切パターンの確率係数に基づいて1つの単語列区切パターンを選択し、選択された単語列区切パターンで定義される区切り方で前記単語列取得部が取得した単語列を区切って出力する出力部と、
を備えることを特徴とする情報処理装置。 - 前記語間確率係数獲得部は、前記確率係数を、前記区切確率係数取得部が取得した区切確率係数の加算平均あるいは積により求める、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記パターン確率係数算出部は、前記単語列区切パターンの確率係数を、前記語間確率係数獲得部が求めた区切確率係数の積により求める、
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 複数の単語列を集めた教師データの中に現れる連続する単語を含む部分列が、前記教師データの中で前記部分列の複数の単語の区切り方を定義する複数の区切パターンで区切られている確率を示す区切確率係数を、各前記部分列の区切パターン毎に記憶している区切確率係数記憶部を有するコンピュータに、
解析対象となる単語列を取得する単語列取得処理、
前記単語列取得処理が取得した解析対象となる単語列の語間のそれぞれで区切れるか区切れないかの区切り方を定義する複数の単語列区切パターンを生成する単語列区切パターン生成処理、
前記単語列取得処理が取得した単語列から連続する複数の単語からなる部分列を抽出する部分列抽出処理、
前記部分列抽出処理が抽出した部分列のそれぞれについて、部分列の区切り方を定義する各区切パターンに対応する区切確率係数を前記区切確率係数記憶部から取得する区切確率係数取得処理、
前記連続する複数の単語の語間で前記解析対象となる単語列が前記単語列区切パターンで定義される区切り方で区切れる確からしさである確率係数を、前記区切確率係数取得処理が取得した区切確率係数に基づいて求める語間確率係数獲得処理、
前記単語列区切パターン生成処理で生成された各前記単語列区切パターンの確率係数を前記語間確率係数獲得処理が求めた区切確率係数に基づいて算出するパターン確率係数算出処理、
前記パターン確率係数算出処理が算出した各前記単語列区切パターンの確率係数に基づいて1つの単語列区切パターンを選択し、選択された単語列区切パターンで定義される区切り方で前記単語列取得処理が取得した単語列を区切って出力する出力処理、
を実行させることを特徴とするプログラム。 - 前記語間確率係数獲得処理は、前記確率係数を、前記区切確率係数取得処理が取得した区切確率係数の加算平均あるいは積により求める、
ことを特徴とする請求項4に記載のプログラム。 - 前記パターン確率係数算出処理は、前記単語列区切パターンの確率係数を、前記語間確率係数獲得処理が求めた区切確率係数の積により求める、
ことを特徴とする請求項4又は5に記載のプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012023498A JP5927955B2 (ja) | 2012-02-06 | 2012-02-06 | 情報処理装置及びプログラム |
US13/752,896 US20130202208A1 (en) | 2012-02-06 | 2013-01-29 | Information processing device and information processing method |
CN201310048447.1A CN103246642B (zh) | 2012-02-06 | 2013-02-06 | 信息处理装置以及信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012023498A JP5927955B2 (ja) | 2012-02-06 | 2012-02-06 | 情報処理装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013161304A JP2013161304A (ja) | 2013-08-19 |
JP5927955B2 true JP5927955B2 (ja) | 2016-06-01 |
Family
ID=48902941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012023498A Active JP5927955B2 (ja) | 2012-02-06 | 2012-02-06 | 情報処理装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20130202208A1 (ja) |
JP (1) | JP5927955B2 (ja) |
CN (1) | CN103246642B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140331124A1 (en) * | 2013-05-02 | 2014-11-06 | Locu, Inc. | Method for maintaining common data across multiple platforms |
JP6815184B2 (ja) * | 2016-12-13 | 2021-01-20 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
JP7197971B2 (ja) * | 2017-08-31 | 2022-12-28 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法及びプログラム |
CN109359274B (zh) * | 2018-09-14 | 2023-05-02 | 蚂蚁金服(杭州)网络技术有限公司 | 一种对批量生成的字符串进行识别的方法、装置及设备 |
JP2022170175A (ja) * | 2021-04-28 | 2022-11-10 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
JP3992348B2 (ja) * | 1997-03-21 | 2007-10-17 | 幹雄 山本 | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 |
JP3938234B2 (ja) * | 1997-12-04 | 2007-06-27 | 沖電気工業株式会社 | 自然言語処理装置 |
JP4290817B2 (ja) * | 1999-07-29 | 2009-07-08 | 株式会社金門製作所 | ガスメータ |
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
CN102023969A (zh) * | 2009-09-10 | 2011-04-20 | 株式会社东芝 | 获得加权语言模型概率及构建加权语言模型的方法和装置 |
JP5834772B2 (ja) * | 2011-10-27 | 2015-12-24 | カシオ計算機株式会社 | 情報処理装置及びプログラム |
-
2012
- 2012-02-06 JP JP2012023498A patent/JP5927955B2/ja active Active
-
2013
- 2013-01-29 US US13/752,896 patent/US20130202208A1/en not_active Abandoned
- 2013-02-06 CN CN201310048447.1A patent/CN103246642B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN103246642A (zh) | 2013-08-14 |
CN103246642B (zh) | 2016-12-28 |
JP2013161304A (ja) | 2013-08-19 |
US20130202208A1 (en) | 2013-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
WO2017177809A1 (zh) | 语言文本的分词方法和*** | |
JP5927955B2 (ja) | 情報処理装置及びプログラム | |
EP2806336A1 (en) | Text prediction in a text input associated with an image | |
JP2008077163A (ja) | 検索システム、検索方法及び検索プログラム | |
JP2011248596A (ja) | 画像入り文書の検索システム及び検索方法 | |
JP5834772B2 (ja) | 情報処理装置及びプログラム | |
WO2019163642A1 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
JP2020106880A (ja) | 情報処理装置、モデル作成方法及びプログラム | |
JP5697648B2 (ja) | 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム | |
JP4900947B2 (ja) | 略語抽出方法、略語抽出装置およびプログラム | |
JP5870744B2 (ja) | 情報処理装置及びプログラム | |
JP2009295052A (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
JP2007052700A (ja) | 機械翻訳装置および機械翻訳プログラム | |
JP6106489B2 (ja) | 語義解析装置、及びプログラム | |
US20130110499A1 (en) | Information processing device, information processing method and information recording medium | |
JP6056291B2 (ja) | 情報処理装置、データ表示装置及びプログラム | |
JP2009086979A (ja) | 組織名抽出装置、方法及びプログラム | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
JP2017091024A (ja) | 入力支援装置 | |
JP2014199476A (ja) | 機械翻訳装置、機械翻訳方法およびプログラム | |
JP5978645B2 (ja) | 情報処理装置、データ表示装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160411 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5927955 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |