JP5927955B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP5927955B2
JP5927955B2 JP2012023498A JP2012023498A JP5927955B2 JP 5927955 B2 JP5927955 B2 JP 5927955B2 JP 2012023498 A JP2012023498 A JP 2012023498A JP 2012023498 A JP2012023498 A JP 2012023498A JP 5927955 B2 JP5927955 B2 JP 5927955B2
Authority
JP
Japan
Prior art keywords
word
probability coefficient
delimiter
probability
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012023498A
Other languages
English (en)
Other versions
JP2013161304A (ja
Inventor
井手 博康
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2012023498A priority Critical patent/JP5927955B2/ja
Priority to US13/752,896 priority patent/US20130202208A1/en
Priority to CN201310048447.1A priority patent/CN103246642B/zh
Publication of JP2013161304A publication Critical patent/JP2013161304A/ja
Application granted granted Critical
Publication of JP5927955B2 publication Critical patent/JP5927955B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。
複数の単語を含む単語列を意味単位ごとに区切り、その区切った単位ごとに翻訳・意味解析等を実行して結果をユーザに提示する表示装置が知られている。このような表示装置に関連して、解析対象となる単語列がどの単語と単語との間(語間)で区切れるか推測する技術が提案されている。
例えば、特許文献1は予め解析対象となる単語列が属する言語の文法規則をプログラミングした構文解析器を用いて文書の区切れ方を推測する技術を提案している。
また、特許文献2は、分かち書きされていない文字列を単語毎に分割する技術を提案している。
特開平6−309310号公報 特開平10−254874号公報
特許文献1の技術では、原文がどの単語と単語との間で区切れるかを推測するために、原文が属する言語の文法規則をプログラミングした構文解析器を用いる。そのため、区切り方の推測精度が構文解析器の精度に依存してしまう。しかし、精度の高い構文解析器を制作することは困難であり、また精度の高い構文解析を実行するためには計算量が大きくなってしまうという問題があった。
特許文献2は、分かち書きされていない文字列を単語毎に分割する技術を開示しているが、文字列がどの単語と単語との間で区切れるか判別する方法を開示していない。
本発明は上記事情に鑑みてなされたもので、解析対象となる単語列を、構文解析器を用いず区切ることができる情報処理装置及びプログラムを提供することを目的とする。
上記目的を達成するため、本願発明に係る情報処理装置は、
複数の単語列を集めた教師データの中に現れる連続する単語を含む部分列が、前記教師データの中で前記部分列の複数の単語の区切り方を定義する複数の区切パターンで区切られている確率を示す区切確率係数を、各前記部分列の区切パターン毎に記憶している区切確率係数記憶部と、
解析対象となる単語列を取得する単語列取得部と、
前記単語列取得部が取得した解析対象となる単語列の語間のそれぞれで区切れるか区切れないかの区切り方を定義する複数の単語列区切パターンを生成する単語列区切パターン生成部と、
前記単語列取得部が取得した単語列から連続する複数の単語からなる部分列を抽出する部分列抽出部と、
前記部分列抽出部が抽出した部分列のそれぞれについて、部分列の区切り方を定義する各区切パターンに対応する区切確率係数を前記区切確率係数記憶部から取得する区切確率係数取得部と、
前記連続する複数の単語の語間で前記解析対象となる単語列が前記単語列区切パターンで定義される区切り方で区切れる確からしさである確率係数を、前記区切確率係数取得部が取得した区切確率係数に基づいて求める語間確率係数獲得部と、
前記単語列区切パターン生成部で生成された各前記単語列区切パターンの確率係数を前記語間確率係数獲得部が求めた区切確率係数に基づいて算出するパターン確率係数算出部と、
前記パターン確率係数算出部が算出した各前記単語列区切パターンの確率係数に基づいて1つの単語列区切パターンを選択し、選択された単語列区切パターンで定義される区切り方で前記単語列取得部が取得した単語列を区切って出力する出力部と、
を備えることを特徴とする。
本発明によれば、解析対象となる単語列を、構文解析器を用いず区切ることができる情報処理装置及びプログラムを提供することができる。
本発明の実施形態1に係るメニュー表示装置の構成を示すブロック図であり、(a)は機能構成を、(b)は物理構成を、それぞれ示す。 実施形態1に係るメニュー表示装置が実行する処理を説明するための図であり、(a)は撮影した画像を、(b)は単語列を分割した結果を、(c)は表示データを、それぞれ示す。 実施形態1に係るメニュー表示装置が実行する処理を説明するための図であり、(a)は文字列とタグ付き文字列との関係を、(b)は単語列と区切フラグとnグラム(トライグラム)と区切パターンとの関係を、それぞれ示す。 実施形態1に係る確率係数リスト(バイグラム区切パターン確率係数リスト)の例を示す図である。 実施形態1に係るメニュー解析部の機能構成を示すブロック図である。 実施形態1に係るメニュー表示装置が実行する処理例を説明するための図であり、(a)は単語列から区切パターンを生成する処理例を、(b)は語間確率係数を算出する処理の例を、それぞれ示す。 実施形態1に係るメニュー表示装置が実行するメニュー表示処理を示すフローチャートである。 実施形態1に係るメニュー表示装置が実行するメニュー分割処理を示すフローチャートである。 実施形態1に係るメニュー表示装置が実行する語間確率係数算出処理を示すフローチャートである。 実施形態1に係るメニュー表示装置が実行するnグラム確率係数取得処理を示すフローチャートである。 本発明の実施形態2に係るメニュー表示装置の機能構成を示すブロック図である。 実施形態2に係るメニュー解析部の機能構成を示すブロック図である。 実施形態2に係るメニュー表示装置が実行する語間確率係数を算出する処理の例を説明するための図である。 実施形態2に係るメニュー表示装置が実行するメニュー分割処理を示すフローチャートである。 実施形態2に係るメニュー表示装置が実行するnグラム確率係数取得処理を示すフローチャートである。 実施形態2の変形例に係るバイグラム確率係数リストの例を示す図である。 本発明の実施形態3に係るメニュー表示装置の機能構成を示すブロック図である。 実施形態3に係るメニュー解析部の機能構成を示すブロック図である。 実施形態3に係るメニュー表示装置が実行する処理を説明するための図である。 実施形態3に係るメニュー表示装置が実行するメニュー分割処理を示すフローチャートである。
以下、本発明を実施するための形態に係るメニュー表示装置を、図を参照して説明する。なお、図中同一又は相当する部分には同一符号を付す。
(実施形態1)
実施形態1にメニュー表示装置1は、i)解析対象となる特定のカテゴリに属する文字列(メニュー、献立等)を記載した紙等を撮影する撮影機能、ii)撮影した画像から解析対象となる文字列を認識して抽出する機能、iii)抽出した文字列を解析して単語列に変換する機能、iv)文字列の所定部分(単語間)でメニューが区切れる確率を示す係数を出力する機能、v)区切る確率に基づいて単語列を区切る機能、vi)区切った単語列をそれぞれ表示データに変換する機能、vii)表示データを表示する機能、等を備える。
メニュー表示装置1は図1(a)に示すように画像入力部10と、OCR(Optical Character Reader)20とメニュー解析部30と確率係数出力部40と変換部50と用語辞書記憶部60とを含む情報処理部70と、表示部80と、操作入力部90と、を備える。
画像入力部10は、カメラと画像処理部とから構成され、このような物理構成によりメニューを撮影した画像を取得する。画像入力部10は、取得した画像をOCR20に伝達する。
情報処理部70は、物理的には、図1(b)に示すように情報処理部701と、データ記憶部702と、プログラム記憶部703と、入出力部704と、通信部705と、内部バス706と、から構成される。
情報処理部701は、CPU(Central Processing Unit)、DSP(Digital Signal Processing)、等から構成され、プログラム記憶部703に記憶されている制御プログラム707に従って、後述するメニュー装置1に係る処理を実行する。
データ記憶部702は、RAM(Random−Access Memory)等から構成され、情報処理部701の作業領域として用いられる。
プログラム記憶部703は、フラッシュメモリ、ハードディスク、等の不揮発性メモリから構成され、情報処理部701の動作を制御する制御プログラム707と、下記に示す処理を実行するためのデータを記憶する。
通信部705は、LAN(Local Area Network)デバイス、モデム等から構成され、LAN回線や通信回線を介して接続された外部機器に情報処理部701の処理結果を送信する。また、外部機器から情報を受信して、情報処理部701に伝達する。
なお、情報処理部701と、データ記憶部702と、プログラム記憶部703と、入出力部704と、通信部705と、は内部バス706によってそれぞれ接続され、情報の送信が可能である。
入出力部704は、USB(Universal Serial Bus)やシリアルポートによって情報処理部70に接続された画像入力部10、表示部80、操作入力部90、外部装置等との情報の入出力を制御するI/O部である。
情報処理部70は、上記物理構成によりOCR20と、メニュー解析部30と、確率係数出力部40と、変換部50と、用語辞書記憶部60と、として機能する。
OCR20は、画像入力部10から伝達された画像の文字を認識し、メニューに記された文字列(料理名等)を取得する。OCR20は、取得した文字列をメニュー解析部30に伝達する
メニュー解析部30は、OCR20から伝達された文字列を単語に分割して単語列Wに変換する。
メニュー解析部30は、単語列Wを構成する単語と単語との間である語間(注目語間)に対して、語間を構成する単語を少なくとも一つ含む部分単語列(nグラム)を抽出する。そして、そのnグラムと、そのnグラムの語間で単語列Wが区切れる場合と区切れない場合に対応する区切パターンを指定する情報と、を確率係数出力部40に伝達する。nグラムと区切パターンと区切確率係数については後述する。
メニュー解析部30は、確率係数出力部40が出力する、nグラムがその区切パターンで区切れる確からしさを示す係数(区切確率係数、区切パターン確率係数)を受け取る。メニュー解析部30は、確率係数出力部40から受け取った区切確率係数を用いて、単語列Wを分割して部分列を抽出し、部分列(分割した単語列W)を変換部50に出力する。メニュー解析部30が実行する具体的な処理については後述する。
確率係数出力部40は、メニュー解析部30からn個の単語(nグラム)と、そのnグラムで区切確率係数が必要な区切パターンを示す情報とを伝達される。確率係数出力部40は、確率係数リスト401を記憶している。確率係数出力部40は、メニュー解析部30からnグラムと区切パターンを示す情報を伝達されると、区切パターンを引数として確率係数リスト401を参照し、区切確率係数を取得して、メニュー解析部30に伝達する。
確率係数出力部40が実行する具体的な処理については後述する。
変換部50は、メニュー解析部30から伝達された分割された単語列Wを、部分列ごとに用語辞書記憶部60を参照して表示用データに変換する。
変換部50は、部分列のそれぞれに含まれる単語又は単語列を、用語辞書記憶部60に伝達し、用語辞書記憶部60からその単語の解説データを取得する。変換部50は、部分列ごとに、原文であるメニューの単語と、その単語の解説データを並べて、表示データを生成する。
変換部50は、生成した表示データを表示部80に伝達する。
用語辞書記憶部60は、教師データであるメニューに含まれる単語又は単語列と、その単語の解説のためのデータと、を対応付けて登録した用語辞書を記憶する。
用語辞書記憶部60は、変換部50から単語又は単語列を送信されると、その単語又は単語列が登録されていた場合、用語辞書でその単語又は単語列と対応付けて記録されている解説データを変換部50に伝達する。また、その単語又は単語列を登録していなかった場合には、その旨を示すemptyデータを送信する。
表示部80は、液晶ディスプレイ等から構成され、変換部50から伝達された情報を表示する。
操作入力部90は、タッチパネル、キーボード、ボタン、ポインティングデバイス等の、ユーザの操作を受付ける操作受付装置と、操作受付装置が受け付けた操作の情報を情報処理部70に伝達する伝達部と、から構成され、このような物理構成によりユーザの操作を情報処理部70に伝達する。
ここで、メニュー表示装置1がメニューを撮影した画像と、分割された文字列と、表示用データと、の関係を、図2を参照して説明する。
メニュー表示装置1は、ユーザが画像入力部10を用いてレストランのメニュー等を撮影すると、図2(a)に示すような画像I1を取得する。
そして、画像I1からOCR20が文字列を抽出し、メニュー解析部30が単語単位で分割して、図2(b)に示すように分割された単語列(部分列)として変換部50に伝達される。そして、図2(c)に示すような部分列ごとに解説文をつけた表示データに変換して表示する。
ここで、本実施形態に係る解析対象となる文字列(メニュー)と、教師データであるタグ付文字列と、確率係数リスト401と、nグラムと、区切フラグと、区切パターンと、について、図3と図4とを参照して説明する。
本実施形態で解析対象となる文字列は、図3(a)の上に示されるようなメニューを示す文字列である。図3に示すメニュー「豚バラ肉の赤ワイン煮温野菜添え」にタグを付し、単語毎・固まり毎に分割したデータがタグ付文字列(教師データ、図3(a)下)である。図3(a)の例では、タグ付文字列は「<m><c><s><w>豚</w>バラ肉</w><w>の</w></s><s><w>赤ワイン</w><w>煮</w></s><s><w></c>温野菜</w><w>添え</w></s></m>」である。
このタグ付文字列では、メニューが単語を示すタグ<w></w>によって、「豚」、「バラ肉」、…、「添え」、の7つの単語に分割されている。さらに、材料名、料理方法、等等の単位に分割するタグ<s></s>により、「豚バラ肉の」、「赤ワイン煮」、「温野菜添え」、という三つに分割されている。また、材料名と料理方法とその他の修飾語(例えば「プロバンス風」、「特選」、等)を含む一つの料理の単位に分割するタグ<c><c/>により、「豚バラ肉の赤ワイン煮」と「温野菜添え」との二つに分割されている。タグ<m></m>は文字列を一つのメニュー(献立)ごとに区切るタグである。ここで、タグ付文字列は文字列をタグ<w>、<s>、<c>、<m>で区切っているが、区切り方を定義する形式はこれに限られない。例えば、所定のカテゴリに含まれる文字列を、単語単位に区切るユニークなマーク(半角スペースでも可)と、さらに単語以外の少なくとも一つの区切り方で区切るユニークなマークと、を含む任意の文字列によって区切り方を定めても良い。なお、タグ付文字列は、予め特定の言語(ここでは日本語)の特定のカテゴリ(ここでは献立や料理名)に属する文字列を収集して、人手でタグ付けされたデータである。なお、タグ付文字列をタグ付けする方法は人手に限らず、構文解析器等の既知の任意のタグ付け方法であって良い。
タグ付文字列と、nグラムと、区切フラグの関係を図3(b)に示す。タグ付文字列の単語列から、最初の単語からn個目の単語、2つの目の単語からn+1個目の単語、…のようにn個の単語を含む単語列の集合を抽出したものがnグラム列である。nグラム列を構成するそれぞれのn個の単語を含む単語列をnグラムと呼ぶ。さらに、n=3のnグラムをトライグラム、n=2のnグラムをバイグラム、n=1のnグラムをモノグラム、と呼ぶ。
「豚バラ肉の赤ワイン煮温野菜添え」から、トライグラム「豚バラ肉の」、「バラ肉の赤ワイン」、…、「煮温野菜添え」、から構成されるトライグラム列を得ることが出来る(図3(b))。メニューの単語列は図3(b)の上部に示すように、タグ構造によってツリー状に区切られる。そして、システムの設計上定められたツリーの所定の高さ(タグ付文字列の所定のタグに対応)で、単語と単語との間のどこで区切れるか、その区切り方を定めることが出来る。
図3(b)上のツリーの例では、タグ<m>又は</m>がある部位、タグ<s>及び</s>がある部位、タグ<c>及び</c>がある部位、のそれぞれ(区切ライン)でメニューが区切れている。単語列の語間のそれぞれで、区切れている場合に1、区切れて居ない場合を0で示した情報を区切フラグと呼ぶ。
なお、どのタグがある部分で区切れていると判断するかの判断基準は、自由に設定可能である。例えば、<s></s>タグがある部分のみで区切れていると判断して区切フラグを配置する設定等の任意の設定が可能である。
nグラムについて、そのnグラムの語間のそれぞれで単語列が区切れているか否かを、単語と区切フラグを並べて定義したパターンを区切パターンという。
例えば、トライグラムを構成する3つの単語(単語A、単語B、単語C)について、単語Aの前、単語Cの後ろを含むいずれの語間でも教師データが区切れて居ない場合に対応する区切パターンは「0A0B0C0」、全ての語間で区切れている場合に対応する区切パターンは「1A1B1C1」、である。
あるnグラムを含む教師データ全体(例えばM個)と、そのnグラムの区切りパターンで区切れている教師データの数(例えばm個)と、から算出される係数m/Mを、教師データにおいてそのnグラムに該当する部分がその区切りパターンで区切れている確からしさを示す係数(区切確率係数、あるいは区切パターン確率係数)として定義できる。教師データとなるタグ付文字列を十分な数だけ、偏り無く用意すれば(Mが十分大きければ)、区切確率係数はその言語でそのnグラムを含むメニュー全体でそのnグラムに対応する部位がその区切パターンに対応する区切方で区切れている確からしさを示す係数とみなすことができる。
nグラムの区切パターンと区切確率係数とを対応付けて記憶するリストが確率係数リスト(区切パターン確率係数リスト)である。図4は、n=2の場合の確率係数リストであるバイグラム区切パターン確率係数リストの例を示す。例えば、パターン「010」の列、「豚−バラ肉」の行、に数値0.02が登録されていることは、区切パターン「0豚1バラ肉0」の区切確率係数が0.02であることを示す。確率係数出力部40は、モノグラム〜nグラム(nは設定上定められた値)についてそれぞれ定義された区切パターン確率係数リストを記録している。確率係数出力部40は、メニュー解析部30から確率係数リスト401に登録されていないnグラムの区切確率係数を求められると、そのnグラムの部分列である(n−1)グラム〜モノグラムの対応する区切確率係数を、そのnグラムの確率係数として出力する。モノグラム区切パターン確率係数リストに登録されていない単語は、未知語であるため、未知語を含むnグラムの区切確率係数を求められると、対応するデフォルト値を返す。
次に、メニュー解析部30の構成について、図5を参照して説明する。メニュー解析部30は、図5に示すように、文字列取得部310、分かち書き部320、区切パターン生成部330、語間選択部340、nグラム抽出部350、確率係数取得部360、語間確率係数算出部370、パターン確率係数算出部380、パターン選択部390、出力部311、から構成される。
文字列取得部310は、OCR20が抽出した文字列を受け取り、分かち書き部320に伝達する。
分かち書き部320は、文字列取得部310が取得した文字列を単語単位に分割する分かち書き処理を実行する。分かち書き部320は文字列から単語を抽出する任意の既知の方法を用いて上記分かち書き処理を実行してよいが、ここでは特許文献2が例示する方法を用いることとする。
なお、分かち書き部320は、解析対象となるメニューが英語やフランス語等の単語毎にスペースで区切られる言語であった場合は、スペースを認識して上記分かち書き処理を実行する。
分かち書き部320は、分かち書き処理によりメニューの文字列を単語列Wに変換して区切パターン生成部330へ伝達する。
区切パターン生成部330は、分かち書き部320からメニューの単語列Wを伝達されると、単語列Wの語間それぞれでメニューが区切れる場合と区切れない場合のそれぞれの区切り方に対応する区切パターンを、定義できる区切り方のそれぞれについて生成する。
解析対象となる単語列Wの区切り方を定めることは、単語列Wをnグラムとし、単語列Wであるnグラムについて定義できる区切りパターンを一つ選択することと考えることが出来る。そこで、本実施形態では単語列Wについて定義できる全ての区切り方(単語列Wの区切パターン)を定義し、各区切りパターンでその単語列が区切れる確からしさを表す係数を算出して、当該係数を用いて区切パターン生成部330が生成した区切パターンのうち一つを選択する。
区切パターン生成部330は、生成した区切パターンを語間選択部340に伝達する。
語間選択部340は、伝達された区切パターンから未処理の一つを注目区切パターンとして選択する。さらに、注目区切パターンの未処理の語間のうち最も前にある語間を注目語間として選択する。そして、注目区切パターンと、選択した語間(注目語間)を示す情報と、注目区切パターンにおけるその語間の区切フラグと、をnグラム抽出部350に伝達する。
nグラム抽出部350は、語間選択部340から注目区切パターンと、選択した注目語間を示す情報と、注目区切パターンにおけるその語間の区切フラグと、を伝達されると、その語間の前後の単語の何れかを含むnグラムを抽出する。そして、そのnグラムについて、注目語間に対応する区切フラグが伝達された注目区切パターンにおけるその語間の区切フラグと同じ区切パターン(対応区切パターン)を生成する。そして、生成した対応区切パターンを確率係数取得部360に伝達する。なお、nの値は任意に設定可能であるが、以下n=2であるとして説明する。
確率係数取得部360は、nグラム抽出部350から対応区切パターンを伝達されると、各対応区切パターンについて区切確率係数を取得する。具体的には、対応区切パターンを確率係数出力部40に伝達して、確率係数出力部40から対応区切パターンの区切確率係数を受け取る。確率係数取得部360は、対応区切パターンと取得した区切確率係数とを対応付けて語間確率係数算出部370に伝達する。
語間確率係数算出部370は、確率係数取得部360から対応区切パターンとその区切確率係数とを伝達されると、その語間が注目区切パターンの区切り方で区切れる確率(語間確率係数Piw)を算出する。語間確率係数算出部370が語間確率係数Piwを算出する処理の具体的内容については後述する。
区切確率パターン生成部330、語間選択部340、nグラム抽出部350、確率係数取得部360及び語間確率係数算出部370は、注目区切パターンの語間それぞれについて上記処理を行って語間確率係数Piwを求める。
語間確率係数算出部370は語間確率係数Piwを注目区切パターンの全ての語間について算出すると、算出した語間区切係数Piwをパターン確率係数算出部380に伝達する。
ここで、区切確率パターン生成部330、語間選択部340、nグラム抽出部340、確率係数取得部360、語間確率係数算出部370が実行する処理について、図6を参照して説明する。
区切パターン生成部330は、分かち書き部320から単語列W(豚−バラ−肉−の−赤ワイン−煮−温野菜−添え)を伝達される(図6(a)上)。各単語と単語との間には語間(語間IW1〜語間IW7)が定義できる。
区切パターン生成部330は、単語列Wの各語間(語間IW1〜語間IW7)で単語列が区切れる場合(区切フラグ1)と区切れない場合(区切フラグ0)について、区切パターンを生成する(図6(a)の(1))。語間の数をNiwとすると、区切パターンは2のNiw乗個定義できる。
生成した区切パターンのうち、現在の処理に係る区切パターンが注目区切パターンである。図6(a)では、注目区切パターン(豚0バラ0肉0の1赤ワイン0煮1温野菜0添え)が記号*で示されている。
注目区切パターンの語間(注目語間)について語間確率係数を算出する処理の例を図6(b)を参照して説明する。図6(b)の例では、語間IW2に対応する語間が注目語間(記号*で示された語間)である。注目語間を構成する単語として「バラ」と「肉」とが抽出できる。そこで、単語列Wにおいて、「バラ」と「肉」とを含むnグラム(バイグラム)として「豚−バラ」、「バラ−肉」、「肉−の」、を抽出する(図6(b)の(2))。
そして、抽出したバイグラムの対応区切パターンとして、バイグラムに対して定義できる区切パターンのうち、注目語間の区切フラグが注目区切パターンと共通する区切パターン(対応区切パターン)を抽出する(図6(b)の(3))。
例えば、バイグラム「豚−バラ」において、注意語間の区切フラグ(注目区切フラグ)は0であり、対応区切パターンとして「0豚0バラ0」、「0豚1バラ0」、「1豚0バラ0」、「1豚1バラ0」、の4つが抽出できる。
対応区切パターンについて、確率係数取得部40から区切確率係数を取得し、取得した区切確率係数から、nグラムを含む教師データが、注目語間に対応する語間で、注目区切フラグ(区切れる、区切れない)に対応する区切れ方である確率である注目語間nグラム確率係数Pnを算出する(図6(b)の(4))。注目語間nグラム確率係数Pnは、注目区切パターンの注目語間以外の区切フラグを0と1とのどちらでも良いことを示す?とした区切パターンを変数とした関数(図6(b)の例ではPn(?豚?バラ0))として標記できる。
注目語間nグラム確率係数Pnは、対応区切パターンの区切確率係数の少なくとも一つが大きくなり、その他の区切確率係数が同じ場合に、注目語間nグラム確率係数Pnも大きくなるという性質をもつ係数である。本実施形態では、Pnは対応区切パターンの区切確率係数の加算平均である。注目語間nグラム確率係数Pnを算出する方法はこれに限らず、対応区切パターンの区切確率係数の積であってもよく、重み付き和であってもよい。
また、対応区切パターンの区切確率係数と注目語間nグラム確率係数Pnとを対応付けて登録したデータ記憶部702に記憶しておき、該テーブルを参照して注目語間nグラム確率係数Pnを求めても良い。
そして、図6(b)の(2)で抽出したnグラムのそれぞれについて注目語間nグラム確率係数Pnを算出すると、算出した注目語間nグラム確率係数Pnを用いて語間確率係数Piwを算出する。語間確率係数Piwは、第1変数を単語列W、第2変数を注目語間を示す符号、第3変数を注目区切フラグとする関数(図6(b)の例ではPiw(W,IW2,0))として標記する。
語間確率係数Piwは、注目語間nグラム確率係数Pnの少なくとも一つが大きくなり、その他が同じ場合に大きくなる係数である。本実施形態では、語間確率係数Piwは注目語間nグラム確率係数Pnの加算平均である。語間確率係数Piwを算出する方法はこれに限らず、各注目語間nグラム確率係数Pnの積であってもよく、重み付き和であってもよい。また、Pnと語間確率係数Piwとを対応付けて登録したテーブルをデータ記憶部702に記憶しておき、該テーブルを参照して語間確率係数Piwを求めても良い。
パターン確率係数算出部380は、語間確率係数算出部370から注目区切パターンの全ての語間について語間確率係数Piwを伝達されると、伝達された語間確率係数Piwから、注目区切パターンの確率係数Pを算出する。
注目区切パターンの確率係数Pは、語間確率係数Piwの積である。
注目区切パターンの確率係数Pを算出する方法はこれに限らず、語間確率係数Piwのそれぞれについて、少なくとも一つの語間確率係数Piwが大きくなり、その他の語間確率係数Piwが同じである場合は、確率係数Pも大きくなるような任意の方法で求めてよい。
例えば、語間確率係数Piwの累乗平均によってPを求めても良く、語間確率係数Piwと確率係数Pとを対応付けて登録したテーブルをデータ記憶部702に記憶しておき、該テーブルを参照して確率係数Pを求めても良い。
語間選択部340、nグラム抽出部350、確率係数取得部360、語間確率係数算出部370及びパターン確率係数算出部380は、区切パターン生成部330が生成した各区切パターンについて確率係数Pを求め、各区切パターンとその確率係数Pを対応付けてパターン選択部390に伝達する。
各区切パターンとその確率係数Pとを伝達されると、パターン選択部390は確率係数Pがもっとも大きい区切パターンを選択する。そして、選択した区切パターンが示す区切り方で単語列Wを分割して、分割後の部分列を出力部311に伝達する。
出力部311は、伝達された部分列を変換部50に伝達する。
次に、メニュー表示装置1が実行する処理を、フローチャートを参照して説明する。
メニュー表示装置1は、ユーザが画像入力部10を用いてメニューの画像を取得する操作を実行すると、図7に示すメニュー表示処理を開始する。
メニュー表示処理では、まず画像入力部10を用いてメニューが印刷された画像を取得する(ステップS101)。
そして、取得した画像から、OCR20が文字を認識して文字列を取得する(ステップS102)。
OCR20が文字列を取得してメニュー解析部30に伝達すると、まずメニュー解析部30の分かち書き部320が、文字列を単語単位に分割する分かち書き処理を実行して、文字列を単語列Wに変換する。(ステップS103)。
そして、メニュー解析部30は、メニューが単語列のどの部位で区切れるか推測し、メニューを分割する処理(メニュー分割処理、ここではメニュー分割処理1)を実行する(ステップS104)。
ステップS104で実行されるメニュー分割処理1について、図8を参照して説明する。
メニュー分割処理1では、まず単語列Wについて定義できる区切パターンを生成する(ステップS201、図6(a)の(1))。
次に、カウンタ変数jについて、生成した区切パターンのj番目の区切パターンを注目区切パターンとして選択する(ステップS202)。
そして、カウンタ変数kについて、注目区切パターンのk番目の語間を注目語間として選択する(ステップS203)。
ステップS203で注目語間を選択すると、注目語間について語間確率係数Piwを算出する処理(語間確率係数算出処理、ここでは語間確率係数算出処理1)を実行する(ステップS204)。
ステップS204で実行される語間確率係数算出処理1を、図9を参照して説明する。語間確率算出処理1では、まず注目語間を形成する単語の何れかを含むnグラム(ここではバイグラム)を、図6(b)の(2)で例示したように生成する(ステップS301)。
次に、lをカウンタ変数として、l番目のバイグラムを注目nグラムとする(ステップS302)。
そして、注目nグラムについて、注目語間nグラム確率係数Pnを算出する処理(nグラム確率係数取得処理、ここではnグラム確率係数取得処理1)を実行する(ステップS303)。
ステップS303で実行されるnグラム確率係数取得処理1について、図10を参照して説明する。
nグラム確率係数取得処理1では、まずnグラム抽出部350が注目nグラムの対応区切パターンを、図6(b)の(3)で例示したように生成する(ステップS401)。
そして、確率係数取得部360が確率係数出力部40から各対応区切パターンの区切確率係数を取得する(ステップS402)。
次に、語間確率係数算出部370がステップS402で取得した区切確率係数を加算平均して、図6(b)の(4)で例示したように、注目語間nグラム確率係数Pnを算出する(ステップS403)。
そして、nグラム確率係数算出処理1を終了する。
図9に戻って、注目語間nグラム確率係数Pnを算出すると、次にS301で生成したnグラムの全てについて注目語間nグラム確率係数Pnを算出したか判別する(ステップS304)。
全nグラムについて注目語間nグラム確率係数Pnを算出していない場合(ステップS304;NO)、カウンタ変数lをインクリメントし(ステップS305)、次のnグラムについてステップS302から処理を繰り返す。
一方、全nグラムについて注目語間nグラム確率係数Pnを算出した場合(ステップS304;YES)、図6(b)の(5)で例示したように、語間確率係数算出部370が算出した注目語間nグラム確率係数Pnを加算平均して語間確率係数Piwを算出する(ステップS306)。
そして、語間確率係数算出処理1は終了する。
図8に戻って、語間確率係数算出処理(ステップS204)が終了して注目語間の語間確率係数Piwを算出すると、次に注目区切パターンの全ての語間について語間確率係数Piwを算出したか判別する(ステップS205)。全ての語間について語間確率係数Piwを算出していない場合には(ステップS205;NO)、カウンタ変数kをインクリメントし(ステップS206)、次の語間についてステップS203から処理を繰り返す。
一方、全ての語間について語間確率係数Piwを算出した場合には(ステップS205;YES)、現在の注目区切パターンの全ての語間について語間確率係数Piwを算出したと判断できる。そこで、パターン確率係数算出部380が語間確率係数Piwを乗算して、注目区切パターンの確率係数Pを算出する(ステップS207)。
次にステップS201で生成した全ての区切パターンの確率係数Pを算出したか判別する(ステップS208)。未処理の区切パターンがある場合には(ステップS208;NO)、カウンタ変数jをインクリメントし(ステップS209)、次の区切パターンについてステップS202から処理を繰り返す。
一方、全ての区切パターンの確率係数Pを算出した場合は(ステップS208;YES)、パターン選択部390がもっとも確率係数Pが高い区切パターンを選択する(ステップS210)。ステップS210では、さらに選択した区切パターンが示す区切り方で解析対象となる単語列を区切り、各分割単位を部分列に分割する。そして、メニュー分割処理1を終了する。
図7に戻って、メニュー分割処理(ステップS104)で、ステップS103で取得した単語列を部分列に分割すると、カウンタ変数をiとして、i番目の部分列について変換部50が表示データを生成する処理を実行する。
即ち、i番目の部分列に含まれる各単語の解説データを用語辞書記憶部60から取得して、図2(c)に示すような表示データに変換する(ステップS105)。
そして、ステップS104で得られた部分列の全てについて表示データに変換する処理が終わったかを判別し(ステップS106)、終わっていない場合は(ステップS106;NO)、カウンタ変数iをインクリメントして(ステップS107)次の部分列についてステップS105から処理を繰り返す。
一方、全ての部分列について表示データに変換したと判別した場合は(ステップS106;YES)、得られた表示データを表示部80が部分列単位で表示する(ステップS108)。そして、メニュー表示処理1は終了する。
以上説明したように、本実施形態に係るメニュー表示装置1によれば、教師データに基づいてメニューを表現する単語列を分割することが出来るため、構文解析プログラムを言語ごとに用意しなくても単語列を区切ることが出来る。
また、語間ごとに、その語間を構成する単語の何れか一つを含む複数のnグラムの区切確率係数から語間が区切れるか否かに係る係数を算出するため、nの値が小さくても、区切り方を定めるにあたって参酌されるデータ量が大きく減少することなく、区切り方の推測の精度の劣化が少ない。nの値を大きくすると、信頼できる確率係数を求めるために必要な教師データ量が膨大になってしまうが、本実施形態ではnの値を小さくすることができる。そのため最低限必要な教師データ量を抑えることが出来る。
本実施形態では、注目語間nグラム確率係数Pnは、対応区切パターンの区切確率係数のそれぞれに対して少なくとも所定の定義域内では増加関数になるように定義されている。そして、語間確率係数Piwも、対応する注目語間nグラム確率係数Pnのそれぞれについて、少なくとも所定の定義域において増加関数となるように定義されている。そのため、本実施形態のメニュー表示装置1は、nグラムを含む教師データでその区切り方で区切れている確からしさの大きさを、語間確率係数に反映して解析対象となる単語列の区切り方を推測することが出来る。
また、本実施形態に係るメニュー表示装置1によれば、教師データが所定のカテゴリの文字列(ここではメニュー)から生成されているため、広範なカテゴリ(例えば日本語全体)の教師データを用いて区切パターンの確率係数を求めた場合よりも、カテゴリに合致した確率係数を求めることが出来る。
そのため、メニュー表示装置1を用いてメニューを分割すると、メニューを分割する精度が高い。
また、語間確率係数Piwのいずれかが大きくなると、注目区切パターンの確率係数Pも大きくなるため、区切パターンの語間ごとの区切り方で学習用データが区切れる確からしさが大きい区切パターンを選択してその区切り方で単語列を区切ることができる。そのため、教師データの単語ごとの区切り方を反映した区切り方で単語列を区切ることができる。
本実施形態に係るメニュー表示装置1によれば、メニューを画像入力部10を用いて撮影し、OCR20を用いて文字列を認識してメニューを解析・表示することが出来る。そのため、ユーザがメニューの文字列をわざわざ手で入力せずともメニューの文字列を取り込み、解説データを付加して表示することが出来る。そのため、メニューがユーザが知らない言語で書かれているなど、手入力が困難である場合でも解説データを表示することができる。
なお、本実施形態に係るメニュー表示装置1のパターン選択部390は、確率係数Pが一番大きい区切パターンを一つ選択して、その区切り方で単語列Wを分割して表示するとした。本実施形態の変形例として、単語列Wを、区切パターンの確率係数Pが所定の条件を満たす複数の区切り方で分割し、それぞれの分割結果を変換して表示する構成も可能である。このような構成によれば、可能性の高い複数の区切り方で解説データを表示してユーザに提示できるため、最も確率計数Pが高い区切り方が間違った区切り方であった場合でも、正しい区切り方を提示できる可能性が増す。
(実施形態2)
次に、本発明の実施形態2に係るメニュー表示装置2について説明する。
メニュー表示装置2は、各語間の区切フラグを語間確率係数に基づいて順に決定していく処理によって単語列を区切ることを特徴とする。
メニュー表示装置2は、図11に示すように画像入力部10と、OCR20とメニュー解析部31と確率係数出力部41と変換部50と用語辞書記憶部60とを含む情報処理部71と、表示部80と、操作入力部90と、を備える。
メニュー表示装置2の画像入力部10と、OCR20と、変換部50と、用語辞書記憶部60と、表示部80と、の機能及び物理構成は実施形態1に係るメニュー表示装置1の対応する構成と同様である。また、情報処理部71の物理構成は実施形態1に係るメニュー表示装置1の対応する構成と同様であるが、メニュー解析部31の機能が、実施形態1のメニュー解析部30と異なる。
メニュー解析部31は、OCR20から伝達された単語列を区切って変換部50に伝達する。また、nグラムと、語間(語間IWx)を指定する情報と、その語間の区切フラグ(y、y=0又は1)と、を指定する情報とを確率係数出力部41に伝達して、注目語間nグラム確率係数Pn(nグラム,IWx,y)を取得する。メニュー解析部31は、機能構成及び単語列を区切るために実行する処理の内容が、実施形態1に係るメニュー解析部30と異なる。
確率係数出力部41は、メニュー解析部31からnグラムと、語間(語間IWx)を指定する情報と、その語間の区切フラグ(y、y=0又は1)と、を伝達され、注目語間nグラム確率係数Pn(nグラム,IWx,y)をメニュー解析部31に伝達する。
確率係数出力部41は、教師データ402を記憶し、教師データ402を検索して注目語間nグラム確率係数Pn(nグラム,IWx,y)を取得する。
確率係数出力部41が実行する具体的な処理については後述する。
次に、メニュー解析部31の構成について、図12を参照して説明する。メニュー解析部31は、図12に示すように、文字列取得部310、分かち書き部320、語間選択部341、nグラム抽出部351、nグラム確率係数取得部361、語間確率係数算出部371、区切フラグ決定部381、出力部311、から構成される。
文字列取得部310と、分かち書き部320と、の機能は実施形態1のメニュー解析部30の対応する構成と同一である。
語間選択部341は、分かち書き部320から解析対象となる単語列を伝達されると、その単語列の語間を順次注目語間として選択し、単語列と、注目語間を示す情報と、をnグラム抽出部351に伝達する。
nグラム抽出部351は、語間選択部341からnグラムと注目語間を示す情報とを受け取ると、注目語間の前後の単語の何れかを含むnグラムを抽出する。そして、抽出したnグラムと、注目語間を示す情報と、をnグラム確率係数取得部361に伝達する。
nグラム確率係数取得部361は、nグラム抽出部351からnグラムと、注目語間を示す情報と、を受け取る。nグラム確率係数取得部361は、受け取ったそれぞれのnグラムについて、確率係数出力部41にnグラムと、注目語間を示す情報と、区切フラグ1と、を示す情報を伝達する。そして、確率係数出力部41から注目語間nグラム確率係数Pn(nグラム,IWx,1)とを取得する。
nグラム確率係数取得部361は取得した注目語間nグラム確率係数Pnを語間確率係数取得部371に伝達する。
語間確率係数取得部371は、nグラム抽出部351が抽出したそれぞれのnグラムについて、nグラム確率係数取得部361から注目語間nグラム確率係数Pn(nグラム,IWx,1)を伝達されると、それぞれの注目語間nグラム確率係数Pn(nグラム,IWx,1)を加算平均して語間確率係数Piw(W,IWx,1)を算出する。語間確率係数取得部371は、算出した語間確率係数Piwを区切フラグ決定部381に伝達する。
区切フラグ決定部381は語間確率係数取得部371から語間確率係数Piwを伝達されると、語間確率係数Piwとデータ記憶部702に記憶された閾値の大きさを比較する。比較の結果、語間確率係数Piwが閾値以上であった場合、注目語間の区切フラグを1とする。一方、語間確率係数Piwが閾値より小さい場合、注目語間の区切フラグを0とする。
語間選択部341、nグラム抽出部351、nグラム確率係数取得部361、語間確率係数算出部371及び区切フラグ決定部381は、協働して単語列Wの各語間について区切フラグを決定し、決定した区切フラグが示す区切り方で単語列Wを区切って部分列に分割する。区切フラグ決定部381は、部分列を出力部311に出力する。
次に、メニュー解析部31と確率係数出力部41が実行する処理の概要を、図13を参照して説明する。
単語列Wの各語間(語間IW1〜IW7)について、語間選択部341が注目語間を順次選択する。図13の例では、注目語間IW3が記号*で示されている。
nグラム抽出部351が、注目語間IW3を構成する単語「茎」と「ワカメ」とを含むnグラム(バイグラム)である「と−茎」、「茎−ワカメ」、「ワカメ−の」を抽出する(図13の(1))。
そして、確率係数出力部41が、教師データ402のうち、抽出したバイグラムを含む対応教師データを抽出し(図13の(2))、その数Mを求める。図13の例では、「と−茎」に対して対応教師データが100個抽出されている。
抽出された対応教師データのうち、注目語間の区切フラグが1である数m(図13の例では69個)を求める。そして、m/Mを注目語間nグラム確率係数Pn(nグラム、IW3、1)とする(図13の(3))。
そして、抽出したnグラムのそれぞれについて同様に注目語間nグラム確率係数Pnを求め、加算平均して語間確率係数Piwを求める(図13の(4))。
次に、メニュー表示装置2が実行する処理について、フローチャート(図14、図15)を参照して説明する。
メニュー表示装置2の情報処理部70は、ユーザが画像入力部10を用いてメニューの画像を取得する操作を実行すると、実施形態1に係るメニュー表示装置1と同様に、図7に示すメニュー表示処理を開始する。
メニュー表示装置2の情報処理部70は、ステップS104で実行するメニュー分割処理が、図14に示すメニュー分割処理2であることを除けば、実施形態1に係るメニュー表示装置1の情報処理部70と同様にメニュー表示処理を実行する。メニュー表示装置2は、このメニュー表示処理によって、メニューの画像から表示データを生成して表示する。
メニュー表示装置2がメニュー表示処理のステップS104で実行するメニュー分割処理2について、図14を参照して説明する。
メニュー分割処理2では、まずカウンタ変数kについて、単語列Wのk番目の語間を注目語間として選択する(ステップS501)。
次に、注目語間について、図9に示した語間確率係数算出処理1を実行して、注目語間の語間確率係数Piw(W,IWk、1)を算出する(ステップS502)。
ステップS502で実行される語間確率係数算出処理は、そのステップS303で実行されるnグラム確率係数算出処理が図15に示すnグラム確率係数算出処理2であることを除けば、実施形態1に係る語間確率係数算出処理1と同様に実行される。
nグラム確率係数算出処理2について、図15を参照して説明する。nグラム確率係数算出処理2では、まず語間確率算出処理1(図9)のステップS302で選択した注目nグラムを含む教師データを、図13の(2)で例示したように、教師データ401から抽出する(ステップS601)。併せて、このとき抽出したデータの数Mを取得する。
次に、ステップS602で抽出した教師データの数Mが、データ記憶部701に記憶されている、必要データ数を示す閾値以上であるか判別する(ステップS602)。この閾値は実験的に定められた任意の数値であって良いが、ここでは区切れている確率が区切れていない確率より高い場合に区切れていると判別するために0.5とする。
判別の結果、閾値以上であると判別すると(ステップS602;YES)、現在のnグラムについて、注目語間nグラム確率係数Pnを算出するに十分な数の教師データを集めることが出来たと判断できる。そこで、抽出した教師データのうち、注目語間で区切れている教師データを抽出してその数mを取得する(ステップS608)。そして、図13の(3)で例示したように、m/Mを注目語間nグラム確率係数Pnとして算出する(ステップS609)。
一方、教師データの数Mが閾値より小さいと判別すると(ステップS602;NO)、現在のnグラムについて、注目語間nグラム確率係数Pnを算出するに十分な数の教師データを集めることが出来たと判断できるため、部分列(n=n−1)の注目語間nグラム確率係数Pn又はデフォルト値から注目語間nグラム確率係数Pnを算出する。
具体的には、まず現在のnが1でないか判別する(ステップS603)。そして、n=1であった場合(ステップS603;YES)は、現在の注目nグラムはモノグラムであるので、さらに部分列を抽出することが出来ないと判断できる。そこで、モノグラムは未知語であるとして、未知語に対して定義されたデフォルト値をその注目nグラムの注目語間nグラム確率係数Pnとする(ステップS604)。
一方、n=1で無い場合(ステップS603;NO)、現在の注目nグラムから部分列を抽出して、その部分列について確率係数を取得する。
具体的には、現在の注目nグラムから(n−1)グラムを2つ抽出して新たな注目nグラム(n=n−1)とする(ステップS605)。そして、部分列である新たな注目nグラムのそれぞれについて、nグラム確率係数取得処理2を再帰的に実行し、部分列の注目語間nグラム確率係数Pnを求める(ステップS606)。そして、求めた二つの部分列の注目語間nグラム確率係数Pnを加算平均して、注目nグラムの注目語間nグラム確率係数Pnとする(ステップS607)。
上記のように、ステップS607,ステップS604,ステップS609の何れかで注目nグラムの注目語間nグラム確率係数Pnを定めると、nグラム確率係数取得処理2は終了する。
図14に戻って、nグラム確率係数取得処理2で注目語間nグラム確率係数Pnを求め、求めた注目語間nグラム確率係数Pnを用いての語間確率係数算出処理で語間確率係数Piw(W,IWk,1)を算出すると(ステップS502)、次に区切フラグ決定部381は語間確率係数Piw(W,IWk,1)が所定のデータ記憶部702に記録された閾値以上であるか判別する(ステップS503)。
語間確率係数Piw(W,IWk、1)が所定の閾値以上と判別した場合(ステップS503;YES)、その語間は、語間を構成するnグラムを有する教師データで区切れる確率が高く、単語列Wでも区切れていると推測できるので、区切フラグ決定部381が対応する区切フラグを1とする(ステップS504)。
一方、所定の閾値より小さいと判別した場合(ステップS503;NO)には、単語列Wはその語間では区切れていないと推測できるので、区切フラグ決定部381が対応する区切フラグを0とする(ステップS505)。
次に単語列Wの全ての語間について区切フラグを定めたか判別する(ステップS506)。全ての語間について区切フラグを定めていない場合には(ステップS506;NO)、カウンタ変数kをインクリメントし(ステップS507)、次の語間についてステップS501から処理を繰り返す。
一方、全ての語間について処理済みの場合は(ステップS506;YES)、全ての語間について区切フラグを定めたと判断できるので、メニュー分割処理を終了する。
以上説明したように、本実施形態のメニュー表示装置2は、各語間について順次区切フラグを設定する。このため、各語間について区切れる場合と区切れない場合とに対応する区切パターンのそれぞれについて区切確率を計算する場合と比べて、少ない計算量で単語列Wを区切ることが出来る。
なお、上記説明では、教師データは確率係数出力部41が記憶するとしたが、教師データは外部サーバに記憶されており、通信部705を用いて必要に応じて取得するとしてもよい。
さらに、確率係数出力部41が教師データの代わりにnグラムと注目語間nグラム確率係数Pnとを対応づけて記憶するリスト(nグラム確率係数リスト)を記憶しており、このリストを参照して注目語間nグラム確率係数Pnを求めても良い。
このようなnグラム確率係数リストの例を、図16を参照して説明する。図16の例では、バイグラム(n=2のnグラム)と、nグラムの各語間に対応する注目語間nグラム確率係数Pnと、その確率係数を算出した根拠となる教師データの数Mと、が対応づけて記憶されている。
例えば、図16のバイグラム「豚−バラ」の行の「p2」の列に数値0.12が登録されていることは、豚−バラを注目nグラムとした場合の注目語間nグラム確率係数Pn(?豚1バラ?)が0.12であることを示す。また、その行のデータ数が2830であることは、p2の数値が2830の教師データから得られた数値であることを示す。
(実施形態3)
次に、本発明の実施形態3に係るメニュー表示装置3について説明する。
本実施形態のメニュー表示装置は、図17に示すように、画像入力部10と、OCR(Optical Character Reader)20とメニュー解析部32と確率係数出力部40と変換部50と用語辞書記憶部60とを含む情報処理部72と、表示部80と、操作入力部90と、を備える。本実施形態のメニュー表示装置3は、メニュー解析部32が実行する各語間の区切フラグを決定していく処理が実施形態1及び2のメニュー表示装置と異なる。その他の各部は実施形態1のメニュー表示装置1の同名の部位と同様である。
本実施形態のメニュー解析部32は、図18に示すように、文字列取得部310、分かち書き部320、nグラム列生成部352、区切パターン生成部331、確率係数取得部362、パターン選択部391、単語列分割部392、出力部311、から構成される。
文字列取得部310,分かち書き部320は、実施形態1にかかる同名の部位と同様である。
nグラム列生成部352は、単語列Wからnグラム(ここではバイグラム)の列を抽出する(図19(1))。なお、単語列Wから、最初の単語からn個目の単語、2つの目の単語からn+1個目の単語、…のようにn個の単語を含む単語列の集合を抽出したものがここで言うnグラム列である。
そして、区切パターン生成部331が、nグラム列生成部352が生成した各nグラム(バイグラム)について、対応区切パターンを生成する。まず、先頭のバイグラムについて定義できる全ての区切パターンを作成し、対応区切パターンとする。その上で、確率係数取得部362が確率係数出力部40から対応区切パターンの区切確率係数を取得する(図19(2))。さらに、パターン選択部391が最も区切確率係数が高い区切パターン(ここでは「1豚0バラ0」)を選択する。
そして、メニュー解析部32は隣接するバイグラムに注目し、区切パターン生成部331が対応する語間については同じ区切りフラグを持つ区切パターン(対応区切パターン)を生成する(図19(3))。ここでは、「1豚0バラ0」に対して「0バラ0肉0」と「0バラ0肉1」が対応区切パターンである。そして、パターン選択部391が、対応区切パターンのうちより区切確率係数が大きい区切パターンを選択する。以下、次のバイグラムについても同様に選択する(図19(4))。このようにして、各語間の区切り方(区切りフラグ)を決定してゆく。
全てのnグラムについて区切パターンを選択すると、単語列分割部392が選択された区切パターンの区切り方で単語列Wを区切る。そして、出力部311が区切った結果である部分列を出力する。
次に本実施形態で実行される処理を、フローチャートを参照して説明する。本実施形態のメニュー表示装置3は、図7に示すメニュー表示処理を、実施形態1と同様に実行する。ただし、本実施形態ではステップS104で実行されるメニュー分割処理は図20に示すメニュー分割処理3である。
本実施形態のメニュー分割処理3を、図20を参照して説明する。メニュー分割処理3では、nグラム列生成部352が単語列Wからnグラムの列を生成する(ステップS701)。そして、k2をカウンタ変数とし、k2番目のnグラムを注目nグラムとして選択する(ステップS702)。なお、注目nグラムは先頭(又は最後尾)のnグラムから順に隣接するnグラムへと移行する。
そして、区切パターン生成部331が注目nグラムの対応区切パターンを生成する(ステップS703)。最初のループでは、注目nグラムについて定義できる全ての区切パターンを生成する。2度目以降のループでは、注目nグラムについて定義できる区切パターンのうち、前回のループで選択された区切パターンと、共通する語間の区切フラグが同じ区切パターンを二つ生成する。
そして、確率係数取得部362が生成した対応区切パターンについて、図10のステップS402と同様に確率係数出力部40から区切確率係数を取得する(ステップS704)。
次に、パターン選択部391がステップS704で取得した区切確率係数を比較して、ステップS703で生成した対応区切パターンのうち最も区切確率係数が高い区切パターンを選択する(ステップS705)。
パターン選択部391が区切パターンを選択すると、次に全てのnグラムについて区切パターンを選択したか判別する(ステップS706)。
全nグラムについて選択していない場合(ステップS706;NO)、カウンタ変数k2をインクリメントし(ステップS707)、次のnグラム(隣接するnグラム)についてステップS702から処理を繰り返す。
一方、全nグラムについて選択していた場合(ステップS706;YES)、メニュー分割処理は終了する。その後、単語列分割部392が選択された区切り方で単語列を分割して、分割結果を出力部311が変換部50に出力する。
以上説明したように、本実施形態のメニュー表示装置3によれば、各語間の区切り方を、それまでに定めた区切り方を参考にして決定する。そのため、区切り方を精度良く推定することが出来る。
(変形例)
以上、本願発明の実施形態について説明したが、本願発明の実施形態はこれに限られない。
例えば、上記実施形態1乃至3では、画像入力部10が撮影した画像から単語列Wを抽出したが、ユーザがキーボードを用いて入力した文字列から単語列Wを抽出してもよい。また、音声データから音声認識により文字列を取得しても良い。
また、上記実施形態1乃至3では、変換部は単語毎に用語辞書に登録された解説文を付して表示データを作成した。
しかし、本願発明において、分割された単語列を用いて表示データを作成する方法はこれに限られない。例えば、分割された単語列を部分列毎に任意の翻訳器を用いて翻訳し、翻訳結果を表示データとしてもよい。このようなメニュー表示装置によれば、入力されたメニューが例えば中国語であった場合に、日本語だけを理解し、中国語の文字列をキーボードを用いて入力できないユーザであっても、メニューを撮影する操作を実行すれば日本語でメニューの概要を表示することが出来る。
また、部分列を検索キーワードとして用語辞書等のデータベースを検索し、検索結果を表示データとしてもよい。
さらに、分割された部分列をキーワードとして画像検索し、得られた画像を表示データとして表示しても良い。
このような構成により、例えば部分列が「茎」「ワカメ」や「白ワイン」「蒸し」で有った場合、「茎」と「ワカメ」、「白ワイン」と「蒸し」がひとくくりであることと共に、「茎ワカメ」及び「白ワイン蒸し」についての解説を表示することが出来る。
また、上記実施形態1乃至3では、解析対象となる単語列はメニューであったが、本発明はメニュー以外の任意のカテゴリの単語列について応用可能である。本発明の解析対象となる単語列は、現れる単語が限られていること、単語と単語との区切り方のルールが限定されていること、を特徴とするカテゴリの単語列であることが好ましい。このようなカテゴリの単語列の例として、メニューの他に住所、薬品の効能書き・説明書、等があげられる。
また、情報処理部701、データ記憶部702,プログラム記憶部703、等から構成されるメニュー表示装置のための処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する情報端末を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで情報処理装置を構成してもよい。
また、メニュー表示装置の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS:Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
また、上記メニュー表示装置が実行する処理の一部を、メニュー表示装置とは独立したコンピュータを用いて実現しても良い。
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
(付記1)
解析対象となる単語列を取得する単語列取得部と、
前記単語列取得部が取得した単語列の隣接する単語と単語との間である語間について、当該語間を構成する単語の少なくとも一方を含む前記単語列の部分列を抽出する部分列抽出部と、
前記部分列抽出部が抽出した部分列のそれぞれについて、当該部分列を含む教師データにおいて、前記語間に対応する部位で教師データが区切れる確からしさを示す区切係数を取得する区切係数取得部と、
前記語間で前記解析対象の単語列が区切れる確からしさである確率係数を、前記区切係数取得部が取得した区切係数に基づいて求める確率係数獲得部と、
前記確率係数獲得部が求めた確率係数に基づいて、前記語間で前記解析対象の単語列が区切れるか否か判別する判別部と、
前記単語列取得部が取得した単語列を、前記判別部が区切れると判別した語間で区切って出力する出力部と、
を備えることを特徴とする情報処理装置。
(付記2)
前記確率係数獲得部は、前記確率係数を前記区切係数取得部が取得した区切係数のそれぞれについて、少なくとも所定の定義域において増加関数となるように求める、
ことを特徴とする付記1に記載の情報処理装置。
(付記3)
前記単語列取得部が取得した解析対象となる単語列の語間のそれぞれで、該単語列が区切れるか否かそれぞれの区切り方に対応する区切パターンを生成する区切りパターン生成部と、
前記確率係数獲得部が求めた確率係数に基づいて、前記区切パターンで前記解析対象となる単語列が区切れる確率であるパターン区切確率係数を求めるパターン区切係数獲得部と、
をさらに備え、
前記判別部は、前記語間が、前記パターン区切係数獲得部が求めたパターン区切確率係数が所定の閾値よりも大きい区切パターンにおいて区切れるとされている場合に、該語間で前記解析対象の単語列が区切れると判別する、
ことを特徴とする付記1又は2に記載の情報処理装置。
(付記4)
前記パターン区切係数獲得部は前記パターン確率係数を、前記確率係数のそれぞれに対して少なくとも所定の定義域において増加関数となるように求める、
ことを特徴とする付記3に記載の情報処理装置。
(付記5)
前記判別部は、前記語間について前記確率係数獲得部が求めた確率係数が所定の閾値よりも大きい場合に、当該語間で前記解析対象の単語列が区切れると判別する、
ことを特徴とする付記1又は2に記載の情報処理装置。
(付記6)
前記部分列抽出部が抽出した部分列の語間のそれぞれで、前記単語列が区切れるか否かそれぞれの区切り方に対応する部分区切パターンを生成する部分区切パターン生成部と、
前記部分区切パターンの区切り方で教師データが区切れる確率係数を記憶する確率係数記憶部と、
を更に備え、
前記区切係数取得部は、前記区切確率係数として前記確率係数記憶部が記憶する前記部分区切パターンの確率係数を取得し、
前記判別部は、前記部分区切パターン生成部が生成した部分区切パターンから、前記確率係数取得部が取得した区切確率係数が大きい部分区切パターンを選択することにより、前記語間で単語列が区切れるか否か判別し、
前記部分区切パターン生成部は、前記判別部が区切れるか否か判別した語間に対応する語間については同じ区切り方の部分区切パターンを生成する、
ことを特徴とする付記1に記載の情報処理装置。
(付記7)
前記教師データは、前記解析対象となる単語列と同一カテゴリに属する単語列であって、当該単語列の語間のそれぞれで単語列が区切れるか否かを定義した単語列である、
ことを特徴とする付記1乃至6の何れか一つに記載の情報処理装置。
(付記8)
前記解析対象となる単語列と前記教師データとが献立を表現する単語列である、
ことを特徴とする付記1乃至7の何れか一つに記載の情報処理装置。
(付記9)
文字列の画像を撮影する撮影部と、
前記撮影部が撮影した画像から文字列を抽出する文字列抽出部と、
前記文字列抽出部が抽出した文字列から単語列を生成する単語列生成部と、
前記単語列生成部が生成した単語列の隣接する単語と単語との間である語間について、当該語間を構成する単語の少なくとも一方を含む前記単語列の部分列を抽出する部分列抽出部と、
前記部分列抽出部が抽出した部分列のそれぞれについて、当該部分列を含む教師データにおいて、前記語間に対応する部位で教師データが区切れる確からしさを示す区切係数を取得する区切係数取得部と、
前記語間で前記単語列生成部が生成した単語列が区切れる確からしさである確率係数を、前記区切係数取得部が取得した区切係数に基づいて求める確率係数獲得部と、
前記確率係数獲得部が求めた確率係数に基づいて、前記語間で前記解析対象の単語列が区切れるか否か判別する判別部と、
前記単語列生成部が生成した単語列を、前記判別部が区切れると判別した語間で分割する分割部と、
前記分割部が分割した単語列のそれぞれについて、当該分割した単語列に含まれる単語又は単語列の少なくとも一方の意味を示す表示データに変換する変換部と、
前記変換部が変換した表示データを表示する表示部と、
を備えることを特徴とするデータ表示装置。
(付記10)
コンピュータに、
解析対象となる単語列を取得する処理、
前記取得した単語列の隣接する単語と単語との間である語間について、当該語間を構成する単語の少なくとも一方を含む前記単語列の部分列を抽出する処理、
前記抽出した部分列のそれぞれについて、当該部分列を含む教師データにおいて、前記語間に対応する部位で教師データが区切れる確からしさを示す区切係数を取得する処理、
前記語間で前記解析対象の単語列が区切れる確からしさである確率係数を、前記取得した区切係数に基づいて求める処理、
前記求めた確率係数に基づいて、前記語間で前記解析対象の単語列が区切れるか否か判別する処理、
前記取得した解析対象となる単語列を、前記判別する処理で区切れると判別した語間で区切って出力する処理、
を実行させることを特徴とするプログラム。
1…メニュー表示装置、2…メニュー表示装置、3…メニュー表示装置、10…画像入力部、20…OCR、30…メニュー解析部、31…メニュー解析部、32…メニュー解析部、40…確率係数出力部、41…確率係数出力部、50…変換部、60…用語辞書記憶部、70…情報処理部、71…情報処理部、72…情報処理部、80…表示部、90…操作入力部、701…情報処理部、702…データ記憶部、703…プログラム記憶部、704…入出力部、705…通信部、706…内部バス、707…制御プログラム、310…文字列取得部、311…出力部、320…分かち書き部、330…区切パターン生成部、331…区切パターン生成部、340…語間選択部、341…語間選択部、350…nグラム抽出部、351…nグラム抽出部、352…nグラム生成部、360…確率係数取得部、361…nグラム確率係数取得部、362…確率係数取得部、370…語間確率係数算出部、371…語間確率係数算出部、380…パターン確率係数算出部、381…区切フラグ決定部、390…パターン選択部、391…パターン選択部、392…単語列分割部、401…確率係数リスト、402…教師データ

Claims (6)

  1. 複数の単語列を集めた教師データの中に現れる連続する単語を含む部分列が、前記教師データの中で前記部分列の複数の単語の区切り方を定義する複数の区切パターンで区切られている確率を示す区切確率係数を、各前記部分列の区切パターン毎に記憶している区切確率係数記憶部と、
    解析対象となる単語列を取得する単語列取得部と、
    前記単語列取得部が取得した解析対象となる単語列の語間のそれぞれで区切れるか区切れないかの区切り方を定義する複数の単語列区切パターンを生成する単語列区切パターン生成部と、
    前記単語列取得部が取得した単語列から連続する複数の単語からなる部分列を抽出する部分列抽出部と、
    前記部分列抽出部が抽出した部分列のそれぞれについて、部分列の区切り方を定義する各区切パターンに対応する区切確率係数を前記区切確率係数記憶部から取得する区切確率係数取得部と、
    前記連続する複数の単語の語間で前記解析対象となる単語列が前記単語列区切パターンで定義される区切り方で区切れる確からしさである確率係数を、前記区切確率係数取得部が取得した区切確率係数に基づいて求める語間確率係数獲得部と、
    前記単語列区切パターン生成部で生成された各前記単語列区切パターンの確率係数を前記語間確率係数獲得部が求めた区切確率係数に基づいて算出するパターン確率係数算出部と、
    前記パターン確率係数算出部が算出した各前記単語列区切パターンの確率係数に基づいて1つの単語列区切パターンを選択し、選択された単語列区切パターンで定義される区切り方で前記単語列取得部が取得した単語列を区切って出力する出力部と、
    を備えることを特徴とする情報処理装置。
  2. 前記語間確率係数獲得部は、前記確率係数を、前記区切確率係数取得部が取得した区切確率係数の加算平均あるいは積により求める、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記パターン確率係数算出部前記単語列区切パターン確率係数を、前記語間確率係数獲得部が求めた区切確率係数の積により求める、
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 複数の単語列を集めた教師データの中に現れる連続する単語を含む部分列が、前記教師データの中で前記部分列の複数の単語の区切り方を定義する複数の区切パターンで区切られている確率を示す区切確率係数を、各前記部分列の区切パターン毎に記憶している区切確率係数記憶部を有するコンピュータに、
    解析対象となる単語列を取得する単語列取得処理、
    前記単語列取得処理が取得した解析対象となる単語列の語間のそれぞれで区切れるか区切れないかの区切り方を定義する複数の単語列区切パターンを生成する単語列区切パターン生成処理、
    前記単語列取得処理が取得した単語列から連続する複数の単語からなる部分列を抽出する部分列抽出処理、
    前記部分列抽出処理が抽出した部分列のそれぞれについて、部分列の区切り方を定義する各区切パターンに対応する区切確率係数を前記区切確率係数記憶部から取得する区切確率係数取得処理、
    前記連続する複数の単語の語間で前記解析対象となる単語列が前記単語列区切パターンで定義される区切り方で区切れる確からしさである確率係数を、前記区切確率係数取得処理が取得した区切確率係数に基づいて求める語間確率係数獲得処理、
    前記単語列区切パターン生成処理で生成された各前記単語列区切パターンの確率係数を前記語間確率係数獲得処理が求めた区切確率係数に基づいて算出するパターン確率係数算出処理、
    前記パターン確率係数算出処理が算出した各前記単語列区切パターンの確率係数に基づいて1つの単語列区切パターンを選択し、選択された単語列区切パターンで定義される区切り方で前記単語列取得処理が取得した単語列を区切って出力する出力処理、
    を実行させることを特徴とするプログラム。
  5. 前記語間確率係数獲得処理は、前記確率係数を、前記区切確率係数取得処理が取得した区切確率係数の加算平均あるいは積により求める、
    ことを特徴とする請求項4に記載のプログラム。
  6. 前記パターン確率係数算出処理は、前記単語列区切パターンの確率係数を、前記語間確率係数獲得処理が求めた区切確率係数の積により求める、
    ことを特徴とする請求項4又は5に記載のプログラム。
JP2012023498A 2012-02-06 2012-02-06 情報処理装置及びプログラム Active JP5927955B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012023498A JP5927955B2 (ja) 2012-02-06 2012-02-06 情報処理装置及びプログラム
US13/752,896 US20130202208A1 (en) 2012-02-06 2013-01-29 Information processing device and information processing method
CN201310048447.1A CN103246642B (zh) 2012-02-06 2013-02-06 信息处理装置以及信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012023498A JP5927955B2 (ja) 2012-02-06 2012-02-06 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2013161304A JP2013161304A (ja) 2013-08-19
JP5927955B2 true JP5927955B2 (ja) 2016-06-01

Family

ID=48902941

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012023498A Active JP5927955B2 (ja) 2012-02-06 2012-02-06 情報処理装置及びプログラム

Country Status (3)

Country Link
US (1) US20130202208A1 (ja)
JP (1) JP5927955B2 (ja)
CN (1) CN103246642B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140331124A1 (en) * 2013-05-02 2014-11-06 Locu, Inc. Method for maintaining common data across multiple platforms
JP6815184B2 (ja) * 2016-12-13 2021-01-20 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
JP7197971B2 (ja) * 2017-08-31 2022-12-28 キヤノン株式会社 情報処理装置、情報処理装置の制御方法及びプログラム
CN109359274B (zh) * 2018-09-14 2023-05-02 蚂蚁金服(杭州)网络技术有限公司 一种对批量生成的字符串进行识别的方法、装置及设备
JP2022170175A (ja) * 2021-04-28 2022-11-10 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
JP3992348B2 (ja) * 1997-03-21 2007-10-17 幹雄 山本 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP3938234B2 (ja) * 1997-12-04 2007-06-27 沖電気工業株式会社 自然言語処理装置
JP4290817B2 (ja) * 1999-07-29 2009-07-08 株式会社金門製作所 ガスメータ
JP2001249922A (ja) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd 単語分割方式及び装置
CN102023969A (zh) * 2009-09-10 2011-04-20 株式会社东芝 获得加权语言模型概率及构建加权语言模型的方法和装置
JP5834772B2 (ja) * 2011-10-27 2015-12-24 カシオ計算機株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
CN103246642A (zh) 2013-08-14
CN103246642B (zh) 2016-12-28
JP2013161304A (ja) 2013-08-19
US20130202208A1 (en) 2013-08-08

Similar Documents

Publication Publication Date Title
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
WO2017177809A1 (zh) 语言文本的分词方法和***
JP5927955B2 (ja) 情報処理装置及びプログラム
EP2806336A1 (en) Text prediction in a text input associated with an image
JP2008077163A (ja) 検索システム、検索方法及び検索プログラム
JP2011248596A (ja) 画像入り文書の検索システム及び検索方法
JP5834772B2 (ja) 情報処理装置及びプログラム
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP2020106880A (ja) 情報処理装置、モデル作成方法及びプログラム
JP5697648B2 (ja) 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム
JP4900947B2 (ja) 略語抽出方法、略語抽出装置およびプログラム
JP5870744B2 (ja) 情報処理装置及びプログラム
JP2009295052A (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP2007052700A (ja) 機械翻訳装置および機械翻訳プログラム
JP6106489B2 (ja) 語義解析装置、及びプログラム
US20130110499A1 (en) Information processing device, information processing method and information recording medium
JP6056291B2 (ja) 情報処理装置、データ表示装置及びプログラム
JP2009086979A (ja) 組織名抽出装置、方法及びプログラム
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP2017091024A (ja) 入力支援装置
JP2014199476A (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP5978645B2 (ja) 情報処理装置、データ表示装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160411

R150 Certificate of patent or registration of utility model

Ref document number: 5927955

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150