JP5927955B2

JP5927955B2 - 情報処理装置及びプログラム

Info

Publication number: JP5927955B2
Application number: JP2012023498A
Authority: JP
Inventors: 井手　博康; 博康井手
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2012-02-06
Filing date: 2012-02-06
Publication date: 2016-06-01
Anticipated expiration: 2032-02-06
Also published as: CN103246642A; CN103246642B; JP2013161304A; US20130202208A1

Description

本発明は、情報処理装置及びプログラムに関する。

複数の単語を含む単語列を意味単位ごとに区切り、その区切った単位ごとに翻訳・意味解析等を実行して結果をユーザに提示する表示装置が知られている。このような表示装置に関連して、解析対象となる単語列がどの単語と単語との間（語間）で区切れるか推測する技術が提案されている。

例えば、特許文献１は予め解析対象となる単語列が属する言語の文法規則をプログラミングした構文解析器を用いて文書の区切れ方を推測する技術を提案している。
また、特許文献２は、分かち書きされていない文字列を単語毎に分割する技術を提案している。

特開平６−３０９３１０号公報特開平１０−２５４８７４号公報

特許文献１の技術では、原文がどの単語と単語との間で区切れるかを推測するために、原文が属する言語の文法規則をプログラミングした構文解析器を用いる。そのため、区切り方の推測精度が構文解析器の精度に依存してしまう。しかし、精度の高い構文解析器を制作することは困難であり、また精度の高い構文解析を実行するためには計算量が大きくなってしまうという問題があった。
特許文献２は、分かち書きされていない文字列を単語毎に分割する技術を開示しているが、文字列がどの単語と単語との間で区切れるか判別する方法を開示していない。

本発明は上記事情に鑑みてなされたもので、解析対象となる単語列を、構文解析器を用いず区切ることができる情報処理装置及びプログラムを提供することを目的とする。

上記目的を達成するため、本願発明に係る情報処理装置は、
複数の単語列を集めた教師データの中に現れる連続する単語を含む部分列が、前記教師データの中で前記部分列の複数の単語の区切り方を定義する複数の区切パターンで区切られている確率を示す区切確率係数を、各前記部分列の区切パターン毎に記憶している区切確率係数記憶部と、
解析対象となる単語列を取得する単語列取得部と、
前記単語列取得部が取得した解析対象となる単語列の語間のそれぞれで区切れるか区切れないかの区切り方を定義する複数の単語列区切パターンを生成する単語列区切パターン生成部と、
前記単語列取得部が取得した単語列から連続する複数の単語からなる部分列を抽出する部分列抽出部と、
前記部分列抽出部が抽出した部分列のそれぞれについて、部分列の区切り方を定義する各区切パターンに対応する区切確率係数を前記区切確率係数記憶部から取得する区切確率係数取得部と、
前記連続する複数の単語の語間で前記解析対象となる単語列が前記単語列区切パターンで定義される区切り方で区切れる確からしさである確率係数を、前記区切確率係数取得部が取得した区切確率係数に基づいて求める語間確率係数獲得部と、
前記単語列区切パターン生成部で生成された各前記単語列区切パターンの確率係数を前記語間確率係数獲得部が求めた区切確率係数に基づいて算出するパターン確率係数算出部と、
前記パターン確率係数算出部が算出した各前記単語列区切パターンの確率係数に基づいて１つの単語列区切パターンを選択し、選択された単語列区切パターンで定義される区切り方で前記単語列取得部が取得した単語列を区切って出力する出力部と、
を備えることを特徴とする。

本発明によれば、解析対象となる単語列を、構文解析器を用いず区切ることができる情報処理装置及びプログラムを提供することができる。

本発明の実施形態１に係るメニュー表示装置の構成を示すブロック図であり、（ａ）は機能構成を、（ｂ）は物理構成を、それぞれ示す。実施形態１に係るメニュー表示装置が実行する処理を説明するための図であり、（ａ）は撮影した画像を、（ｂ）は単語列を分割した結果を、（ｃ）は表示データを、それぞれ示す。実施形態１に係るメニュー表示装置が実行する処理を説明するための図であり、（ａ）は文字列とタグ付き文字列との関係を、（ｂ）は単語列と区切フラグとｎグラム（トライグラム）と区切パターンとの関係を、それぞれ示す。実施形態１に係る確率係数リスト（バイグラム区切パターン確率係数リスト）の例を示す図である。実施形態１に係るメニュー解析部の機能構成を示すブロック図である。実施形態１に係るメニュー表示装置が実行する処理例を説明するための図であり、（ａ）は単語列から区切パターンを生成する処理例を、（ｂ）は語間確率係数を算出する処理の例を、それぞれ示す。実施形態１に係るメニュー表示装置が実行するメニュー表示処理を示すフローチャートである。実施形態１に係るメニュー表示装置が実行するメニュー分割処理を示すフローチャートである。実施形態１に係るメニュー表示装置が実行する語間確率係数算出処理を示すフローチャートである。実施形態１に係るメニュー表示装置が実行するｎグラム確率係数取得処理を示すフローチャートである。本発明の実施形態２に係るメニュー表示装置の機能構成を示すブロック図である。実施形態２に係るメニュー解析部の機能構成を示すブロック図である。実施形態２に係るメニュー表示装置が実行する語間確率係数を算出する処理の例を説明するための図である。実施形態２に係るメニュー表示装置が実行するメニュー分割処理を示すフローチャートである。実施形態２に係るメニュー表示装置が実行するｎグラム確率係数取得処理を示すフローチャートである。実施形態２の変形例に係るバイグラム確率係数リストの例を示す図である。本発明の実施形態３に係るメニュー表示装置の機能構成を示すブロック図である。実施形態３に係るメニュー解析部の機能構成を示すブロック図である。実施形態３に係るメニュー表示装置が実行する処理を説明するための図である。実施形態３に係るメニュー表示装置が実行するメニュー分割処理を示すフローチャートである。

以下、本発明を実施するための形態に係るメニュー表示装置を、図を参照して説明する。なお、図中同一又は相当する部分には同一符号を付す。

（実施形態１）
実施形態１にメニュー表示装置１は、ｉ）解析対象となる特定のカテゴリに属する文字列（メニュー、献立等）を記載した紙等を撮影する撮影機能、ｉｉ）撮影した画像から解析対象となる文字列を認識して抽出する機能、ｉｉｉ）抽出した文字列を解析して単語列に変換する機能、ｉｖ)文字列の所定部分（単語間）でメニューが区切れる確率を示す係数を出力する機能、ｖ)区切る確率に基づいて単語列を区切る機能、ｖｉ)区切った単語列をそれぞれ表示データに変換する機能、ｖｉｉ)表示データを表示する機能、等を備える。

メニュー表示装置１は図１（ａ）に示すように画像入力部１０と、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）２０とメニュー解析部３０と確率係数出力部４０と変換部５０と用語辞書記憶部６０とを含む情報処理部７０と、表示部８０と、操作入力部９０と、を備える。

画像入力部１０は、カメラと画像処理部とから構成され、このような物理構成によりメニューを撮影した画像を取得する。画像入力部１０は、取得した画像をＯＣＲ２０に伝達する。

情報処理部７０は、物理的には、図１（ｂ）に示すように情報処理部７０１と、データ記憶部７０２と、プログラム記憶部７０３と、入出力部７０４と、通信部７０５と、内部バス７０６と、から構成される。

情報処理部７０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ）、等から構成され、プログラム記憶部７０３に記憶されている制御プログラム７０７に従って、後述するメニュー装置１に係る処理を実行する。

データ記憶部７０２は、ＲＡＭ（Ｒａｎｄｏｍ−ＡｃｃｅｓｓＭｅｍｏｒｙ）等から構成され、情報処理部７０１の作業領域として用いられる。

プログラム記憶部７０３は、フラッシュメモリ、ハードディスク、等の不揮発性メモリから構成され、情報処理部７０１の動作を制御する制御プログラム７０７と、下記に示す処理を実行するためのデータを記憶する。

通信部７０５は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）デバイス、モデム等から構成され、ＬＡＮ回線や通信回線を介して接続された外部機器に情報処理部７０１の処理結果を送信する。また、外部機器から情報を受信して、情報処理部７０１に伝達する。
なお、情報処理部７０１と、データ記憶部７０２と、プログラム記憶部７０３と、入出力部７０４と、通信部７０５と、は内部バス７０６によってそれぞれ接続され、情報の送信が可能である。

入出力部７０４は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）やシリアルポートによって情報処理部７０に接続された画像入力部１０、表示部８０、操作入力部９０、外部装置等との情報の入出力を制御するＩ／Ｏ部である。

情報処理部７０は、上記物理構成によりＯＣＲ２０と、メニュー解析部３０と、確率係数出力部４０と、変換部５０と、用語辞書記憶部６０と、として機能する。

ＯＣＲ２０は、画像入力部１０から伝達された画像の文字を認識し、メニューに記された文字列（料理名等）を取得する。ＯＣＲ２０は、取得した文字列をメニュー解析部３０に伝達する

メニュー解析部３０は、ＯＣＲ２０から伝達された文字列を単語に分割して単語列Ｗに変換する。
メニュー解析部３０は、単語列Ｗを構成する単語と単語との間である語間（注目語間）に対して、語間を構成する単語を少なくとも一つ含む部分単語列(ｎグラム)を抽出する。そして、そのｎグラムと、そのｎグラムの語間で単語列Ｗが区切れる場合と区切れない場合に対応する区切パターンを指定する情報と、を確率係数出力部４０に伝達する。ｎグラムと区切パターンと区切確率係数については後述する。
メニュー解析部３０は、確率係数出力部４０が出力する、ｎグラムがその区切パターンで区切れる確からしさを示す係数（区切確率係数、区切パターン確率係数）を受け取る。メニュー解析部３０は、確率係数出力部４０から受け取った区切確率係数を用いて、単語列Ｗを分割して部分列を抽出し、部分列（分割した単語列Ｗ）を変換部５０に出力する。メニュー解析部３０が実行する具体的な処理については後述する。

確率係数出力部４０は、メニュー解析部３０からｎ個の単語（ｎグラム）と、そのｎグラムで区切確率係数が必要な区切パターンを示す情報とを伝達される。確率係数出力部４０は、確率係数リスト４０１を記憶している。確率係数出力部４０は、メニュー解析部３０からｎグラムと区切パターンを示す情報を伝達されると、区切パターンを引数として確率係数リスト４０１を参照し、区切確率係数を取得して、メニュー解析部３０に伝達する。
確率係数出力部４０が実行する具体的な処理については後述する。

変換部５０は、メニュー解析部３０から伝達された分割された単語列Ｗを、部分列ごとに用語辞書記憶部６０を参照して表示用データに変換する。
変換部５０は、部分列のそれぞれに含まれる単語又は単語列を、用語辞書記憶部６０に伝達し、用語辞書記憶部６０からその単語の解説データを取得する。変換部５０は、部分列ごとに、原文であるメニューの単語と、その単語の解説データを並べて、表示データを生成する。
変換部５０は、生成した表示データを表示部８０に伝達する。

用語辞書記憶部６０は、教師データであるメニューに含まれる単語又は単語列と、その単語の解説のためのデータと、を対応付けて登録した用語辞書を記憶する。
用語辞書記憶部６０は、変換部５０から単語又は単語列を送信されると、その単語又は単語列が登録されていた場合、用語辞書でその単語又は単語列と対応付けて記録されている解説データを変換部５０に伝達する。また、その単語又は単語列を登録していなかった場合には、その旨を示すemptyデータを送信する。

表示部８０は、液晶ディスプレイ等から構成され、変換部５０から伝達された情報を表示する。

操作入力部９０は、タッチパネル、キーボード、ボタン、ポインティングデバイス等の、ユーザの操作を受付ける操作受付装置と、操作受付装置が受け付けた操作の情報を情報処理部７０に伝達する伝達部と、から構成され、このような物理構成によりユーザの操作を情報処理部７０に伝達する。

ここで、メニュー表示装置１がメニューを撮影した画像と、分割された文字列と、表示用データと、の関係を、図２を参照して説明する。
メニュー表示装置１は、ユーザが画像入力部１０を用いてレストランのメニュー等を撮影すると、図２（ａ）に示すような画像Ｉ１を取得する。
そして、画像Ｉ１からＯＣＲ２０が文字列を抽出し、メニュー解析部３０が単語単位で分割して、図２（ｂ）に示すように分割された単語列（部分列）として変換部５０に伝達される。そして、図２（ｃ）に示すような部分列ごとに解説文をつけた表示データに変換して表示する。

ここで、本実施形態に係る解析対象となる文字列（メニュー）と、教師データであるタグ付文字列と、確率係数リスト４０１と、ｎグラムと、区切フラグと、区切パターンと、について、図３と図４とを参照して説明する。
本実施形態で解析対象となる文字列は、図３（ａ）の上に示されるようなメニューを示す文字列である。図３に示すメニュー「豚バラ肉の赤ワイン煮温野菜添え」にタグを付し、単語毎・固まり毎に分割したデータがタグ付文字列（教師データ、図３（ａ）下）である。図３（ａ）の例では、タグ付文字列は「<m><c><s><w>豚</w>バラ肉</w><w>の</w></s><s><w>赤ワイン</w><w>煮</w></s><s><w></c>温野菜</w><w>添え</w></s></m>」である。

このタグ付文字列では、メニューが単語を示すタグ<w></w>によって、「豚」、「バラ肉」、…、「添え」、の７つの単語に分割されている。さらに、材料名、料理方法、等等の単位に分割するタグ<s></s>により、「豚バラ肉の」、「赤ワイン煮」、「温野菜添え」、という三つに分割されている。また、材料名と料理方法とその他の修飾語（例えば「プロバンス風」、「特選」、等）を含む一つの料理の単位に分割するタグ<c><c/>により、「豚バラ肉の赤ワイン煮」と「温野菜添え」との二つに分割されている。タグ<m></m>は文字列を一つのメニュー（献立）ごとに区切るタグである。ここで、タグ付文字列は文字列をタグ<w>、<s>、<c>、<m>で区切っているが、区切り方を定義する形式はこれに限られない。例えば、所定のカテゴリに含まれる文字列を、単語単位に区切るユニークなマーク（半角スペースでも可）と、さらに単語以外の少なくとも一つの区切り方で区切るユニークなマークと、を含む任意の文字列によって区切り方を定めても良い。なお、タグ付文字列は、予め特定の言語（ここでは日本語）の特定のカテゴリ（ここでは献立や料理名）に属する文字列を収集して、人手でタグ付けされたデータである。なお、タグ付文字列をタグ付けする方法は人手に限らず、構文解析器等の既知の任意のタグ付け方法であって良い。

タグ付文字列と、ｎグラムと、区切フラグの関係を図３（ｂ）に示す。タグ付文字列の単語列から、最初の単語からｎ個目の単語、２つの目の単語からｎ＋１個目の単語、…のようにｎ個の単語を含む単語列の集合を抽出したものがｎグラム列である。ｎグラム列を構成するそれぞれのｎ個の単語を含む単語列をｎグラムと呼ぶ。さらに、ｎ＝３のｎグラムをトライグラム、ｎ＝２のｎグラムをバイグラム、ｎ＝１のｎグラムをモノグラム、と呼ぶ。

「豚バラ肉の赤ワイン煮温野菜添え」から、トライグラム「豚バラ肉の」、「バラ肉の赤ワイン」、…、「煮温野菜添え」、から構成されるトライグラム列を得ることが出来る（図３（ｂ））。メニューの単語列は図３（ｂ）の上部に示すように、タグ構造によってツリー状に区切られる。そして、システムの設計上定められたツリーの所定の高さ（タグ付文字列の所定のタグに対応）で、単語と単語との間のどこで区切れるか、その区切り方を定めることが出来る。

図３（ｂ）上のツリーの例では、タグ<m>又は</m>がある部位、タグ<s>及び</s>がある部位、タグ<c>及び</c>がある部位、のそれぞれ（区切ライン）でメニューが区切れている。単語列の語間のそれぞれで、区切れている場合に１、区切れて居ない場合を０で示した情報を区切フラグと呼ぶ。
なお、どのタグがある部分で区切れていると判断するかの判断基準は、自由に設定可能である。例えば、<s></s>タグがある部分のみで区切れていると判断して区切フラグを配置する設定等の任意の設定が可能である。

ｎグラムについて、そのｎグラムの語間のそれぞれで単語列が区切れているか否かを、単語と区切フラグを並べて定義したパターンを区切パターンという。
例えば、トライグラムを構成する３つの単語（単語Ａ、単語Ｂ、単語Ｃ）について、単語Ａの前、単語Ｃの後ろを含むいずれの語間でも教師データが区切れて居ない場合に対応する区切パターンは「０Ａ０Ｂ０Ｃ０」、全ての語間で区切れている場合に対応する区切パターンは「１Ａ１Ｂ１Ｃ１」、である。

あるｎグラムを含む教師データ全体（例えばＭ個）と、そのｎグラムの区切りパターンで区切れている教師データの数（例えばｍ個）と、から算出される係数ｍ／Ｍを、教師データにおいてそのｎグラムに該当する部分がその区切りパターンで区切れている確からしさを示す係数（区切確率係数、あるいは区切パターン確率係数）として定義できる。教師データとなるタグ付文字列を十分な数だけ、偏り無く用意すれば（Ｍが十分大きければ）、区切確率係数はその言語でそのｎグラムを含むメニュー全体でそのｎグラムに対応する部位がその区切パターンに対応する区切方で区切れている確からしさを示す係数とみなすことができる。

ｎグラムの区切パターンと区切確率係数とを対応付けて記憶するリストが確率係数リスト（区切パターン確率係数リスト）である。図４は、ｎ＝２の場合の確率係数リストであるバイグラム区切パターン確率係数リストの例を示す。例えば、パターン「０１０」の列、「豚−バラ肉」の行、に数値０．０２が登録されていることは、区切パターン「０豚１バラ肉０」の区切確率係数が０．０２であることを示す。確率係数出力部４０は、モノグラム〜ｎグラム（ｎは設定上定められた値）についてそれぞれ定義された区切パターン確率係数リストを記録している。確率係数出力部４０は、メニュー解析部３０から確率係数リスト４０１に登録されていないｎグラムの区切確率係数を求められると、そのｎグラムの部分列である（ｎ−１）グラム〜モノグラムの対応する区切確率係数を、そのｎグラムの確率係数として出力する。モノグラム区切パターン確率係数リストに登録されていない単語は、未知語であるため、未知語を含むｎグラムの区切確率係数を求められると、対応するデフォルト値を返す。

次に、メニュー解析部３０の構成について、図５を参照して説明する。メニュー解析部３０は、図５に示すように、文字列取得部３１０、分かち書き部３２０、区切パターン生成部３３０、語間選択部３４０、ｎグラム抽出部３５０、確率係数取得部３６０、語間確率係数算出部３７０、パターン確率係数算出部３８０、パターン選択部３９０、出力部３１１、から構成される。

文字列取得部３１０は、ＯＣＲ２０が抽出した文字列を受け取り、分かち書き部３２０に伝達する。

分かち書き部３２０は、文字列取得部３１０が取得した文字列を単語単位に分割する分かち書き処理を実行する。分かち書き部３２０は文字列から単語を抽出する任意の既知の方法を用いて上記分かち書き処理を実行してよいが、ここでは特許文献２が例示する方法を用いることとする。
なお、分かち書き部３２０は、解析対象となるメニューが英語やフランス語等の単語毎にスペースで区切られる言語であった場合は、スペースを認識して上記分かち書き処理を実行する。
分かち書き部３２０は、分かち書き処理によりメニューの文字列を単語列Ｗに変換して区切パターン生成部３３０へ伝達する。

区切パターン生成部３３０は、分かち書き部３２０からメニューの単語列Ｗを伝達されると、単語列Ｗの語間それぞれでメニューが区切れる場合と区切れない場合のそれぞれの区切り方に対応する区切パターンを、定義できる区切り方のそれぞれについて生成する。
解析対象となる単語列Ｗの区切り方を定めることは、単語列Ｗをｎグラムとし、単語列Ｗであるｎグラムについて定義できる区切りパターンを一つ選択することと考えることが出来る。そこで、本実施形態では単語列Ｗについて定義できる全ての区切り方（単語列Ｗの区切パターン）を定義し、各区切りパターンでその単語列が区切れる確からしさを表す係数を算出して、当該係数を用いて区切パターン生成部３３０が生成した区切パターンのうち一つを選択する。
区切パターン生成部３３０は、生成した区切パターンを語間選択部３４０に伝達する。

語間選択部３４０は、伝達された区切パターンから未処理の一つを注目区切パターンとして選択する。さらに、注目区切パターンの未処理の語間のうち最も前にある語間を注目語間として選択する。そして、注目区切パターンと、選択した語間（注目語間）を示す情報と、注目区切パターンにおけるその語間の区切フラグと、をｎグラム抽出部３５０に伝達する。

ｎグラム抽出部３５０は、語間選択部３４０から注目区切パターンと、選択した注目語間を示す情報と、注目区切パターンにおけるその語間の区切フラグと、を伝達されると、その語間の前後の単語の何れかを含むｎグラムを抽出する。そして、そのｎグラムについて、注目語間に対応する区切フラグが伝達された注目区切パターンにおけるその語間の区切フラグと同じ区切パターン（対応区切パターン）を生成する。そして、生成した対応区切パターンを確率係数取得部３６０に伝達する。なお、ｎの値は任意に設定可能であるが、以下ｎ＝２であるとして説明する。

確率係数取得部３６０は、ｎグラム抽出部３５０から対応区切パターンを伝達されると、各対応区切パターンについて区切確率係数を取得する。具体的には、対応区切パターンを確率係数出力部４０に伝達して、確率係数出力部４０から対応区切パターンの区切確率係数を受け取る。確率係数取得部３６０は、対応区切パターンと取得した区切確率係数とを対応付けて語間確率係数算出部３７０に伝達する。

語間確率係数算出部３７０は、確率係数取得部３６０から対応区切パターンとその区切確率係数とを伝達されると、その語間が注目区切パターンの区切り方で区切れる確率（語間確率係数Ｐｉｗ）を算出する。語間確率係数算出部３７０が語間確率係数Ｐｉｗを算出する処理の具体的内容については後述する。
区切確率パターン生成部３３０、語間選択部３４０、ｎグラム抽出部３５０、確率係数取得部３６０及び語間確率係数算出部３７０は、注目区切パターンの語間それぞれについて上記処理を行って語間確率係数Ｐｉｗを求める。
語間確率係数算出部３７０は語間確率係数Ｐｉｗを注目区切パターンの全ての語間について算出すると、算出した語間区切係数Ｐｉｗをパターン確率係数算出部３８０に伝達する。

ここで、区切確率パターン生成部３３０、語間選択部３４０、ｎグラム抽出部３４０、確率係数取得部３６０、語間確率係数算出部３７０が実行する処理について、図６を参照して説明する。

区切パターン生成部３３０は、分かち書き部３２０から単語列Ｗ（豚−バラ−肉−の−赤ワイン−煮−温野菜−添え）を伝達される（図６（ａ）上）。各単語と単語との間には語間（語間ＩＷ１〜語間ＩＷ７）が定義できる。
区切パターン生成部３３０は、単語列Ｗの各語間（語間ＩＷ１〜語間ＩＷ７）で単語列が区切れる場合（区切フラグ１）と区切れない場合（区切フラグ０）について、区切パターンを生成する（図６（ａ）の（１））。語間の数をＮｉｗとすると、区切パターンは２のＮｉｗ乗個定義できる。

生成した区切パターンのうち、現在の処理に係る区切パターンが注目区切パターンである。図６（ａ）では、注目区切パターン（豚０バラ０肉０の１赤ワイン０煮１温野菜０添え）が記号＊で示されている。

注目区切パターンの語間（注目語間）について語間確率係数を算出する処理の例を図６（ｂ）を参照して説明する。図６（ｂ）の例では、語間ＩＷ２に対応する語間が注目語間（記号＊で示された語間）である。注目語間を構成する単語として「バラ」と「肉」とが抽出できる。そこで、単語列Ｗにおいて、「バラ」と「肉」とを含むｎグラム（バイグラム）として「豚−バラ」、「バラ−肉」、「肉−の」、を抽出する（図６（ｂ）の（２））。

そして、抽出したバイグラムの対応区切パターンとして、バイグラムに対して定義できる区切パターンのうち、注目語間の区切フラグが注目区切パターンと共通する区切パターン（対応区切パターン）を抽出する（図６（ｂ）の（３））。
例えば、バイグラム「豚−バラ」において、注意語間の区切フラグ（注目区切フラグ）は０であり、対応区切パターンとして「０豚０バラ０」、「０豚１バラ０」、「１豚０バラ０」、「１豚１バラ０」、の４つが抽出できる。

対応区切パターンについて、確率係数取得部４０から区切確率係数を取得し、取得した区切確率係数から、ｎグラムを含む教師データが、注目語間に対応する語間で、注目区切フラグ（区切れる、区切れない）に対応する区切れ方である確率である注目語間ｎグラム確率係数Ｐｎを算出する（図６（ｂ）の（４））。注目語間ｎグラム確率係数Ｐｎは、注目区切パターンの注目語間以外の区切フラグを０と１とのどちらでも良いことを示す？とした区切パターンを変数とした関数（図６（ｂ）の例ではＰｎ（？豚？バラ０））として標記できる。

注目語間ｎグラム確率係数Ｐｎは、対応区切パターンの区切確率係数の少なくとも一つが大きくなり、その他の区切確率係数が同じ場合に、注目語間ｎグラム確率係数Ｐｎも大きくなるという性質をもつ係数である。本実施形態では、Ｐｎは対応区切パターンの区切確率係数の加算平均である。注目語間ｎグラム確率係数Ｐｎを算出する方法はこれに限らず、対応区切パターンの区切確率係数の積であってもよく、重み付き和であってもよい。
また、対応区切パターンの区切確率係数と注目語間ｎグラム確率係数Ｐｎとを対応付けて登録したデータ記憶部７０２に記憶しておき、該テーブルを参照して注目語間ｎグラム確率係数Ｐｎを求めても良い。

そして、図６（ｂ）の（２）で抽出したｎグラムのそれぞれについて注目語間ｎグラム確率係数Ｐｎを算出すると、算出した注目語間ｎグラム確率係数Ｐｎを用いて語間確率係数Ｐｉｗを算出する。語間確率係数Ｐｉｗは、第１変数を単語列Ｗ、第２変数を注目語間を示す符号、第３変数を注目区切フラグとする関数（図６（ｂ）の例ではＰｉｗ（Ｗ，ＩＷ２，０））として標記する。

語間確率係数Ｐｉｗは、注目語間ｎグラム確率係数Ｐｎの少なくとも一つが大きくなり、その他が同じ場合に大きくなる係数である。本実施形態では、語間確率係数Ｐｉｗは注目語間ｎグラム確率係数Ｐｎの加算平均である。語間確率係数Ｐｉｗを算出する方法はこれに限らず、各注目語間ｎグラム確率係数Ｐｎの積であってもよく、重み付き和であってもよい。また、Ｐｎと語間確率係数Ｐｉｗとを対応付けて登録したテーブルをデータ記憶部７０２に記憶しておき、該テーブルを参照して語間確率係数Ｐｉｗを求めても良い。

パターン確率係数算出部３８０は、語間確率係数算出部３７０から注目区切パターンの全ての語間について語間確率係数Ｐｉｗを伝達されると、伝達された語間確率係数Ｐｉｗから、注目区切パターンの確率係数Ｐを算出する。

注目区切パターンの確率係数Ｐは、語間確率係数Ｐｉｗの積である。
注目区切パターンの確率係数Ｐを算出する方法はこれに限らず、語間確率係数Ｐｉｗのそれぞれについて、少なくとも一つの語間確率係数Ｐｉｗが大きくなり、その他の語間確率係数Ｐｉｗが同じである場合は、確率係数Ｐも大きくなるような任意の方法で求めてよい。
例えば、語間確率係数Ｐｉｗの累乗平均によってＰを求めても良く、語間確率係数Ｐｉｗと確率係数Ｐとを対応付けて登録したテーブルをデータ記憶部７０２に記憶しておき、該テーブルを参照して確率係数Ｐを求めても良い。

語間選択部３４０、ｎグラム抽出部３５０、確率係数取得部３６０、語間確率係数算出部３７０及びパターン確率係数算出部３８０は、区切パターン生成部３３０が生成した各区切パターンについて確率係数Ｐを求め、各区切パターンとその確率係数Ｐを対応付けてパターン選択部３９０に伝達する。

各区切パターンとその確率係数Ｐとを伝達されると、パターン選択部３９０は確率係数Ｐがもっとも大きい区切パターンを選択する。そして、選択した区切パターンが示す区切り方で単語列Ｗを分割して、分割後の部分列を出力部３１１に伝達する。

出力部３１１は、伝達された部分列を変換部５０に伝達する。

次に、メニュー表示装置１が実行する処理を、フローチャートを参照して説明する。
メニュー表示装置１は、ユーザが画像入力部１０を用いてメニューの画像を取得する操作を実行すると、図７に示すメニュー表示処理を開始する。

メニュー表示処理では、まず画像入力部１０を用いてメニューが印刷された画像を取得する（ステップＳ１０１）。
そして、取得した画像から、ＯＣＲ２０が文字を認識して文字列を取得する（ステップＳ１０２）。

ＯＣＲ２０が文字列を取得してメニュー解析部３０に伝達すると、まずメニュー解析部３０の分かち書き部３２０が、文字列を単語単位に分割する分かち書き処理を実行して、文字列を単語列Ｗに変換する。（ステップＳ１０３）。

そして、メニュー解析部３０は、メニューが単語列のどの部位で区切れるか推測し、メニューを分割する処理（メニュー分割処理、ここではメニュー分割処理１）を実行する（ステップＳ１０４）。

ステップＳ１０４で実行されるメニュー分割処理１について、図８を参照して説明する。
メニュー分割処理１では、まず単語列Ｗについて定義できる区切パターンを生成する（ステップＳ２０１、図６（ａ）の（１））。

次に、カウンタ変数ｊについて、生成した区切パターンのｊ番目の区切パターンを注目区切パターンとして選択する（ステップＳ２０２）。

そして、カウンタ変数ｋについて、注目区切パターンのｋ番目の語間を注目語間として選択する（ステップＳ２０３）。

ステップＳ２０３で注目語間を選択すると、注目語間について語間確率係数Ｐｉｗを算出する処理（語間確率係数算出処理、ここでは語間確率係数算出処理１）を実行する（ステップＳ２０４）。

ステップＳ２０４で実行される語間確率係数算出処理１を、図９を参照して説明する。語間確率算出処理１では、まず注目語間を形成する単語の何れかを含むｎグラム（ここではバイグラム）を、図６（ｂ）の（２）で例示したように生成する（ステップＳ３０１）。

次に、ｌをカウンタ変数として、ｌ番目のバイグラムを注目ｎグラムとする（ステップＳ３０２）。

そして、注目ｎグラムについて、注目語間ｎグラム確率係数Ｐｎを算出する処理（ｎグラム確率係数取得処理、ここではｎグラム確率係数取得処理１）を実行する（ステップＳ３０３）。

ステップＳ３０３で実行されるｎグラム確率係数取得処理１について、図１０を参照して説明する。
ｎグラム確率係数取得処理１では、まずｎグラム抽出部３５０が注目ｎグラムの対応区切パターンを、図６（ｂ）の（３）で例示したように生成する（ステップＳ４０１）。

そして、確率係数取得部３６０が確率係数出力部４０から各対応区切パターンの区切確率係数を取得する（ステップＳ４０２）。

次に、語間確率係数算出部３７０がステップＳ４０２で取得した区切確率係数を加算平均して、図６（ｂ）の（４）で例示したように、注目語間ｎグラム確率係数Ｐｎを算出する（ステップＳ４０３）。
そして、ｎグラム確率係数算出処理１を終了する。

図９に戻って、注目語間ｎグラム確率係数Ｐｎを算出すると、次にＳ３０１で生成したｎグラムの全てについて注目語間ｎグラム確率係数Ｐｎを算出したか判別する（ステップＳ３０４）。
全ｎグラムについて注目語間ｎグラム確率係数Ｐｎを算出していない場合（ステップＳ３０４；ＮＯ）、カウンタ変数ｌをインクリメントし（ステップＳ３０５）、次のｎグラムについてステップＳ３０２から処理を繰り返す。

一方、全ｎグラムについて注目語間ｎグラム確率係数Ｐｎを算出した場合（ステップＳ３０４；ＹＥＳ）、図６（ｂ）の（５）で例示したように、語間確率係数算出部３７０が算出した注目語間ｎグラム確率係数Ｐｎを加算平均して語間確率係数Ｐｉｗを算出する（ステップＳ３０６）。
そして、語間確率係数算出処理１は終了する。

図８に戻って、語間確率係数算出処理（ステップＳ２０４）が終了して注目語間の語間確率係数Ｐｉｗを算出すると、次に注目区切パターンの全ての語間について語間確率係数Ｐｉｗを算出したか判別する（ステップＳ２０５）。全ての語間について語間確率係数Ｐｉｗを算出していない場合には（ステップＳ２０５；ＮＯ）、カウンタ変数ｋをインクリメントし（ステップＳ２０６）、次の語間についてステップＳ２０３から処理を繰り返す。

一方、全ての語間について語間確率係数Ｐｉｗを算出した場合には（ステップＳ２０５；ＹＥＳ）、現在の注目区切パターンの全ての語間について語間確率係数Ｐｉｗを算出したと判断できる。そこで、パターン確率係数算出部３８０が語間確率係数Ｐｉｗを乗算して、注目区切パターンの確率係数Ｐを算出する（ステップＳ２０７）。

次にステップＳ２０１で生成した全ての区切パターンの確率係数Ｐを算出したか判別する（ステップＳ２０８）。未処理の区切パターンがある場合には（ステップＳ２０８；ＮＯ）、カウンタ変数ｊをインクリメントし（ステップＳ２０９）、次の区切パターンについてステップＳ２０２から処理を繰り返す。

一方、全ての区切パターンの確率係数Ｐを算出した場合は（ステップＳ２０８；ＹＥＳ）、パターン選択部３９０がもっとも確率係数Ｐが高い区切パターンを選択する（ステップＳ２１０）。ステップＳ２１０では、さらに選択した区切パターンが示す区切り方で解析対象となる単語列を区切り、各分割単位を部分列に分割する。そして、メニュー分割処理１を終了する。

図７に戻って、メニュー分割処理（ステップＳ１０４）で、ステップＳ１０３で取得した単語列を部分列に分割すると、カウンタ変数をｉとして、ｉ番目の部分列について変換部５０が表示データを生成する処理を実行する。
即ち、ｉ番目の部分列に含まれる各単語の解説データを用語辞書記憶部６０から取得して、図２（ｃ）に示すような表示データに変換する（ステップＳ１０５）。

そして、ステップＳ１０４で得られた部分列の全てについて表示データに変換する処理が終わったかを判別し（ステップＳ１０６）、終わっていない場合は（ステップＳ１０６；ＮＯ）、カウンタ変数ｉをインクリメントして（ステップＳ１０７）次の部分列についてステップＳ１０５から処理を繰り返す。

一方、全ての部分列について表示データに変換したと判別した場合は（ステップＳ１０６；ＹＥＳ）、得られた表示データを表示部８０が部分列単位で表示する（ステップＳ１０８）。そして、メニュー表示処理１は終了する。

以上説明したように、本実施形態に係るメニュー表示装置１によれば、教師データに基づいてメニューを表現する単語列を分割することが出来るため、構文解析プログラムを言語ごとに用意しなくても単語列を区切ることが出来る。

また、語間ごとに、その語間を構成する単語の何れか一つを含む複数のｎグラムの区切確率係数から語間が区切れるか否かに係る係数を算出するため、ｎの値が小さくても、区切り方を定めるにあたって参酌されるデータ量が大きく減少することなく、区切り方の推測の精度の劣化が少ない。ｎの値を大きくすると、信頼できる確率係数を求めるために必要な教師データ量が膨大になってしまうが、本実施形態ではｎの値を小さくすることができる。そのため最低限必要な教師データ量を抑えることが出来る。

本実施形態では、注目語間ｎグラム確率係数Ｐｎは、対応区切パターンの区切確率係数のそれぞれに対して少なくとも所定の定義域内では増加関数になるように定義されている。そして、語間確率係数Ｐｉｗも、対応する注目語間ｎグラム確率係数Ｐｎのそれぞれについて、少なくとも所定の定義域において増加関数となるように定義されている。そのため、本実施形態のメニュー表示装置１は、ｎグラムを含む教師データでその区切り方で区切れている確からしさの大きさを、語間確率係数に反映して解析対象となる単語列の区切り方を推測することが出来る。

また、本実施形態に係るメニュー表示装置１によれば、教師データが所定のカテゴリの文字列（ここではメニュー）から生成されているため、広範なカテゴリ（例えば日本語全体）の教師データを用いて区切パターンの確率係数を求めた場合よりも、カテゴリに合致した確率係数を求めることが出来る。
そのため、メニュー表示装置１を用いてメニューを分割すると、メニューを分割する精度が高い。

また、語間確率係数Ｐｉｗのいずれかが大きくなると、注目区切パターンの確率係数Ｐも大きくなるため、区切パターンの語間ごとの区切り方で学習用データが区切れる確からしさが大きい区切パターンを選択してその区切り方で単語列を区切ることができる。そのため、教師データの単語ごとの区切り方を反映した区切り方で単語列を区切ることができる。

本実施形態に係るメニュー表示装置１によれば、メニューを画像入力部１０を用いて撮影し、ＯＣＲ２０を用いて文字列を認識してメニューを解析・表示することが出来る。そのため、ユーザがメニューの文字列をわざわざ手で入力せずともメニューの文字列を取り込み、解説データを付加して表示することが出来る。そのため、メニューがユーザが知らない言語で書かれているなど、手入力が困難である場合でも解説データを表示することができる。

なお、本実施形態に係るメニュー表示装置１のパターン選択部３９０は、確率係数Ｐが一番大きい区切パターンを一つ選択して、その区切り方で単語列Ｗを分割して表示するとした。本実施形態の変形例として、単語列Ｗを、区切パターンの確率係数Ｐが所定の条件を満たす複数の区切り方で分割し、それぞれの分割結果を変換して表示する構成も可能である。このような構成によれば、可能性の高い複数の区切り方で解説データを表示してユーザに提示できるため、最も確率計数Ｐが高い区切り方が間違った区切り方であった場合でも、正しい区切り方を提示できる可能性が増す。

（実施形態２）
次に、本発明の実施形態２に係るメニュー表示装置２について説明する。
メニュー表示装置２は、各語間の区切フラグを語間確率係数に基づいて順に決定していく処理によって単語列を区切ることを特徴とする。

メニュー表示装置２は、図１１に示すように画像入力部１０と、ＯＣＲ２０とメニュー解析部３１と確率係数出力部４１と変換部５０と用語辞書記憶部６０とを含む情報処理部７１と、表示部８０と、操作入力部９０と、を備える。

メニュー表示装置２の画像入力部１０と、ＯＣＲ２０と、変換部５０と、用語辞書記憶部６０と、表示部８０と、の機能及び物理構成は実施形態１に係るメニュー表示装置１の対応する構成と同様である。また、情報処理部７１の物理構成は実施形態１に係るメニュー表示装置１の対応する構成と同様であるが、メニュー解析部３１の機能が、実施形態１のメニュー解析部３０と異なる。

メニュー解析部３１は、ＯＣＲ２０から伝達された単語列を区切って変換部５０に伝達する。また、ｎグラムと、語間（語間ＩＷｘ）を指定する情報と、その語間の区切フラグ（ｙ、ｙ＝０又は１）と、を指定する情報とを確率係数出力部４１に伝達して、注目語間ｎグラム確率係数Ｐｎ（ｎグラム，ＩＷｘ，ｙ）を取得する。メニュー解析部３１は、機能構成及び単語列を区切るために実行する処理の内容が、実施形態１に係るメニュー解析部３０と異なる。

確率係数出力部４１は、メニュー解析部３１からｎグラムと、語間（語間ＩＷｘ）を指定する情報と、その語間の区切フラグ（ｙ、ｙ＝０又は１）と、を伝達され、注目語間ｎグラム確率係数Ｐｎ（ｎグラム，ＩＷｘ，ｙ）をメニュー解析部３１に伝達する。
確率係数出力部４１は、教師データ４０２を記憶し、教師データ４０２を検索して注目語間ｎグラム確率係数Ｐｎ（ｎグラム，ＩＷｘ，ｙ）を取得する。
確率係数出力部４１が実行する具体的な処理については後述する。

次に、メニュー解析部３１の構成について、図１２を参照して説明する。メニュー解析部３１は、図１２に示すように、文字列取得部３１０、分かち書き部３２０、語間選択部３４１、ｎグラム抽出部３５１、ｎグラム確率係数取得部３６１、語間確率係数算出部３７１、区切フラグ決定部３８１、出力部３１１、から構成される。

文字列取得部３１０と、分かち書き部３２０と、の機能は実施形態１のメニュー解析部３０の対応する構成と同一である。

語間選択部３４１は、分かち書き部３２０から解析対象となる単語列を伝達されると、その単語列の語間を順次注目語間として選択し、単語列と、注目語間を示す情報と、をｎグラム抽出部３５１に伝達する。

ｎグラム抽出部３５１は、語間選択部３４１からｎグラムと注目語間を示す情報とを受け取ると、注目語間の前後の単語の何れかを含むｎグラムを抽出する。そして、抽出したｎグラムと、注目語間を示す情報と、をｎグラム確率係数取得部３６１に伝達する。

ｎグラム確率係数取得部３６１は、ｎグラム抽出部３５１からｎグラムと、注目語間を示す情報と、を受け取る。ｎグラム確率係数取得部３６１は、受け取ったそれぞれのｎグラムについて、確率係数出力部４１にｎグラムと、注目語間を示す情報と、区切フラグ１と、を示す情報を伝達する。そして、確率係数出力部４１から注目語間ｎグラム確率係数Ｐｎ（ｎグラム，ＩＷｘ，１）とを取得する。
ｎグラム確率係数取得部３６１は取得した注目語間ｎグラム確率係数Ｐｎを語間確率係数取得部３７１に伝達する。

語間確率係数取得部３７１は、ｎグラム抽出部３５１が抽出したそれぞれのｎグラムについて、ｎグラム確率係数取得部３６１から注目語間ｎグラム確率係数Ｐｎ（ｎグラム，ＩＷｘ，１）を伝達されると、それぞれの注目語間ｎグラム確率係数Ｐｎ（ｎグラム，ＩＷｘ，１）を加算平均して語間確率係数Ｐｉｗ（Ｗ，ＩＷｘ，１）を算出する。語間確率係数取得部３７１は、算出した語間確率係数Ｐｉｗを区切フラグ決定部３８１に伝達する。

区切フラグ決定部３８１は語間確率係数取得部３７１から語間確率係数Ｐｉｗを伝達されると、語間確率係数Ｐｉｗとデータ記憶部７０２に記憶された閾値の大きさを比較する。比較の結果、語間確率係数Ｐｉｗが閾値以上であった場合、注目語間の区切フラグを１とする。一方、語間確率係数Ｐｉｗが閾値より小さい場合、注目語間の区切フラグを０とする。

語間選択部３４１、ｎグラム抽出部３５１、ｎグラム確率係数取得部３６１、語間確率係数算出部３７１及び区切フラグ決定部３８１は、協働して単語列Ｗの各語間について区切フラグを決定し、決定した区切フラグが示す区切り方で単語列Ｗを区切って部分列に分割する。区切フラグ決定部３８１は、部分列を出力部３１１に出力する。

次に、メニュー解析部３１と確率係数出力部４１が実行する処理の概要を、図１３を参照して説明する。
単語列Ｗの各語間（語間ＩＷ１〜ＩＷ７）について、語間選択部３４１が注目語間を順次選択する。図１３の例では、注目語間ＩＷ３が記号＊で示されている。

ｎグラム抽出部３５１が、注目語間ＩＷ３を構成する単語「茎」と「ワカメ」とを含むｎグラム（バイグラム）である「と−茎」、「茎−ワカメ」、「ワカメ−の」を抽出する（図１３の（１））。

そして、確率係数出力部４１が、教師データ４０２のうち、抽出したバイグラムを含む対応教師データを抽出し（図１３の（２））、その数Ｍを求める。図１３の例では、「と−茎」に対して対応教師データが１００個抽出されている。

抽出された対応教師データのうち、注目語間の区切フラグが１である数ｍ（図１３の例では６９個）を求める。そして、ｍ／Ｍを注目語間ｎグラム確率係数Ｐｎ（ｎグラム、ＩＷ３、１）とする（図１３の（３））。

そして、抽出したｎグラムのそれぞれについて同様に注目語間ｎグラム確率係数Ｐｎを求め、加算平均して語間確率係数Ｐｉｗを求める（図１３の（４））。

次に、メニュー表示装置２が実行する処理について、フローチャート（図１４、図１５）を参照して説明する。
メニュー表示装置２の情報処理部７０は、ユーザが画像入力部１０を用いてメニューの画像を取得する操作を実行すると、実施形態１に係るメニュー表示装置１と同様に、図７に示すメニュー表示処理を開始する。

メニュー表示装置２の情報処理部７０は、ステップＳ１０４で実行するメニュー分割処理が、図１４に示すメニュー分割処理２であることを除けば、実施形態１に係るメニュー表示装置１の情報処理部７０と同様にメニュー表示処理を実行する。メニュー表示装置２は、このメニュー表示処理によって、メニューの画像から表示データを生成して表示する。

メニュー表示装置２がメニュー表示処理のステップＳ１０４で実行するメニュー分割処理２について、図１４を参照して説明する。
メニュー分割処理２では、まずカウンタ変数ｋについて、単語列Ｗのｋ番目の語間を注目語間として選択する（ステップＳ５０１）。

次に、注目語間について、図９に示した語間確率係数算出処理１を実行して、注目語間の語間確率係数Ｐｉｗ（Ｗ，ＩＷｋ、１）を算出する（ステップＳ５０２）。
ステップＳ５０２で実行される語間確率係数算出処理は、そのステップＳ３０３で実行されるｎグラム確率係数算出処理が図１５に示すｎグラム確率係数算出処理２であることを除けば、実施形態１に係る語間確率係数算出処理１と同様に実行される。

ｎグラム確率係数算出処理２について、図１５を参照して説明する。ｎグラム確率係数算出処理２では、まず語間確率算出処理１（図９）のステップＳ３０２で選択した注目ｎグラムを含む教師データを、図１３の（２）で例示したように、教師データ４０１から抽出する（ステップＳ６０１）。併せて、このとき抽出したデータの数Ｍを取得する。

次に、ステップＳ６０２で抽出した教師データの数Ｍが、データ記憶部７０１に記憶されている、必要データ数を示す閾値以上であるか判別する（ステップＳ６０２）。この閾値は実験的に定められた任意の数値であって良いが、ここでは区切れている確率が区切れていない確率より高い場合に区切れていると判別するために０．５とする。

判別の結果、閾値以上であると判別すると（ステップＳ６０２；ＹＥＳ）、現在のｎグラムについて、注目語間ｎグラム確率係数Ｐｎを算出するに十分な数の教師データを集めることが出来たと判断できる。そこで、抽出した教師データのうち、注目語間で区切れている教師データを抽出してその数ｍを取得する（ステップＳ６０８）。そして、図１３の（３）で例示したように、ｍ／Ｍを注目語間ｎグラム確率係数Ｐｎとして算出する（ステップＳ６０９）。

一方、教師データの数Ｍが閾値より小さいと判別すると（ステップＳ６０２；ＮＯ）、現在のｎグラムについて、注目語間ｎグラム確率係数Ｐｎを算出するに十分な数の教師データを集めることが出来たと判断できるため、部分列（ｎ＝ｎ−１）の注目語間ｎグラム確率係数Ｐｎ又はデフォルト値から注目語間ｎグラム確率係数Ｐｎを算出する。

具体的には、まず現在のｎが１でないか判別する（ステップＳ６０３）。そして、ｎ＝１であった場合（ステップＳ６０３；ＹＥＳ）は、現在の注目ｎグラムはモノグラムであるので、さらに部分列を抽出することが出来ないと判断できる。そこで、モノグラムは未知語であるとして、未知語に対して定義されたデフォルト値をその注目ｎグラムの注目語間ｎグラム確率係数Ｐｎとする（ステップＳ６０４）。

一方、ｎ＝１で無い場合（ステップＳ６０３；ＮＯ）、現在の注目ｎグラムから部分列を抽出して、その部分列について確率係数を取得する。
具体的には、現在の注目ｎグラムから（ｎ−１）グラムを２つ抽出して新たな注目ｎグラム（ｎ＝ｎ−１）とする（ステップＳ６０５）。そして、部分列である新たな注目ｎグラムのそれぞれについて、ｎグラム確率係数取得処理２を再帰的に実行し、部分列の注目語間ｎグラム確率係数Ｐｎを求める（ステップＳ６０６）。そして、求めた二つの部分列の注目語間ｎグラム確率係数Ｐｎを加算平均して、注目ｎグラムの注目語間ｎグラム確率係数Ｐｎとする（ステップＳ６０７）。

上記のように、ステップＳ６０７，ステップＳ６０４，ステップＳ６０９の何れかで注目ｎグラムの注目語間ｎグラム確率係数Ｐｎを定めると、ｎグラム確率係数取得処理２は終了する。

図１４に戻って、ｎグラム確率係数取得処理２で注目語間ｎグラム確率係数Ｐｎを求め、求めた注目語間ｎグラム確率係数Ｐｎを用いての語間確率係数算出処理で語間確率係数Ｐｉｗ（Ｗ，ＩＷｋ，１）を算出すると（ステップＳ５０２）、次に区切フラグ決定部３８１は語間確率係数Ｐｉｗ（Ｗ，ＩＷｋ，１）が所定のデータ記憶部７０２に記録された閾値以上であるか判別する（ステップＳ５０３）。

語間確率係数Ｐｉｗ（Ｗ，ＩＷｋ、１）が所定の閾値以上と判別した場合（ステップＳ５０３；ＹＥＳ）、その語間は、語間を構成するｎグラムを有する教師データで区切れる確率が高く、単語列Ｗでも区切れていると推測できるので、区切フラグ決定部３８１が対応する区切フラグを１とする（ステップＳ５０４）。

一方、所定の閾値より小さいと判別した場合（ステップＳ５０３；ＮＯ）には、単語列Ｗはその語間では区切れていないと推測できるので、区切フラグ決定部３８１が対応する区切フラグを０とする（ステップＳ５０５）。

次に単語列Ｗの全ての語間について区切フラグを定めたか判別する（ステップＳ５０６）。全ての語間について区切フラグを定めていない場合には（ステップＳ５０６；ＮＯ）、カウンタ変数ｋをインクリメントし（ステップＳ５０７）、次の語間についてステップＳ５０１から処理を繰り返す。

一方、全ての語間について処理済みの場合は（ステップＳ５０６；ＹＥＳ）、全ての語間について区切フラグを定めたと判断できるので、メニュー分割処理を終了する。

以上説明したように、本実施形態のメニュー表示装置２は、各語間について順次区切フラグを設定する。このため、各語間について区切れる場合と区切れない場合とに対応する区切パターンのそれぞれについて区切確率を計算する場合と比べて、少ない計算量で単語列Ｗを区切ることが出来る。

なお、上記説明では、教師データは確率係数出力部４１が記憶するとしたが、教師データは外部サーバに記憶されており、通信部７０５を用いて必要に応じて取得するとしてもよい。
さらに、確率係数出力部４１が教師データの代わりにｎグラムと注目語間ｎグラム確率係数Ｐｎとを対応づけて記憶するリスト（ｎグラム確率係数リスト）を記憶しており、このリストを参照して注目語間ｎグラム確率係数Ｐｎを求めても良い。

このようなｎグラム確率係数リストの例を、図１６を参照して説明する。図１６の例では、バイグラム（ｎ＝２のｎグラム）と、ｎグラムの各語間に対応する注目語間ｎグラム確率係数Ｐｎと、その確率係数を算出した根拠となる教師データの数Ｍと、が対応づけて記憶されている。
例えば、図１６のバイグラム「豚−バラ」の行の「ｐ２」の列に数値０．１２が登録されていることは、豚−バラを注目ｎグラムとした場合の注目語間ｎグラム確率係数Ｐｎ（？豚１バラ？）が０．１２であることを示す。また、その行のデータ数が２８３０であることは、ｐ２の数値が２８３０の教師データから得られた数値であることを示す。

（実施形態３）
次に、本発明の実施形態３に係るメニュー表示装置３について説明する。
本実施形態のメニュー表示装置は、図１７に示すように、画像入力部１０と、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）２０とメニュー解析部３２と確率係数出力部４０と変換部５０と用語辞書記憶部６０とを含む情報処理部７２と、表示部８０と、操作入力部９０と、を備える。本実施形態のメニュー表示装置３は、メニュー解析部３２が実行する各語間の区切フラグを決定していく処理が実施形態１及び２のメニュー表示装置と異なる。その他の各部は実施形態１のメニュー表示装置１の同名の部位と同様である。

本実施形態のメニュー解析部３２は、図１８に示すように、文字列取得部３１０、分かち書き部３２０、ｎグラム列生成部３５２、区切パターン生成部３３１、確率係数取得部３６２、パターン選択部３９１、単語列分割部３９２、出力部３１１、から構成される。

文字列取得部３１０，分かち書き部３２０は、実施形態１にかかる同名の部位と同様である。

ｎグラム列生成部３５２は、単語列Ｗからｎグラム（ここではバイグラム）の列を抽出する（図１９（１））。なお、単語列Ｗから、最初の単語からｎ個目の単語、２つの目の単語からｎ＋１個目の単語、…のようにｎ個の単語を含む単語列の集合を抽出したものがここで言うｎグラム列である。

そして、区切パターン生成部３３１が、ｎグラム列生成部３５２が生成した各ｎグラム（バイグラム）について、対応区切パターンを生成する。まず、先頭のバイグラムについて定義できる全ての区切パターンを作成し、対応区切パターンとする。その上で、確率係数取得部３６２が確率係数出力部４０から対応区切パターンの区切確率係数を取得する（図１９（２））。さらに、パターン選択部３９１が最も区切確率係数が高い区切パターン（ここでは「１豚０バラ０」）を選択する。

そして、メニュー解析部３２は隣接するバイグラムに注目し、区切パターン生成部３３１が対応する語間については同じ区切りフラグを持つ区切パターン（対応区切パターン）を生成する（図１９（３））。ここでは、「１豚０バラ０」に対して「０バラ０肉０」と「０バラ０肉１」が対応区切パターンである。そして、パターン選択部３９１が、対応区切パターンのうちより区切確率係数が大きい区切パターンを選択する。以下、次のバイグラムについても同様に選択する（図１９（４））。このようにして、各語間の区切り方（区切りフラグ）を決定してゆく。

全てのｎグラムについて区切パターンを選択すると、単語列分割部３９２が選択された区切パターンの区切り方で単語列Ｗを区切る。そして、出力部３１１が区切った結果である部分列を出力する。

次に本実施形態で実行される処理を、フローチャートを参照して説明する。本実施形態のメニュー表示装置３は、図７に示すメニュー表示処理を、実施形態１と同様に実行する。ただし、本実施形態ではステップＳ１０４で実行されるメニュー分割処理は図２０に示すメニュー分割処理３である。

本実施形態のメニュー分割処理３を、図２０を参照して説明する。メニュー分割処理３では、ｎグラム列生成部３５２が単語列Ｗからｎグラムの列を生成する（ステップＳ７０１）。そして、ｋ２をカウンタ変数とし、ｋ２番目のｎグラムを注目ｎグラムとして選択する（ステップＳ７０２）。なお、注目ｎグラムは先頭（又は最後尾）のｎグラムから順に隣接するｎグラムへと移行する。

そして、区切パターン生成部３３１が注目ｎグラムの対応区切パターンを生成する（ステップＳ７０３）。最初のループでは、注目ｎグラムについて定義できる全ての区切パターンを生成する。２度目以降のループでは、注目ｎグラムについて定義できる区切パターンのうち、前回のループで選択された区切パターンと、共通する語間の区切フラグが同じ区切パターンを二つ生成する。

そして、確率係数取得部３６２が生成した対応区切パターンについて、図１０のステップＳ４０２と同様に確率係数出力部４０から区切確率係数を取得する（ステップＳ７０４）。

次に、パターン選択部３９１がステップＳ７０４で取得した区切確率係数を比較して、ステップＳ７０３で生成した対応区切パターンのうち最も区切確率係数が高い区切パターンを選択する（ステップＳ７０５）。

パターン選択部３９１が区切パターンを選択すると、次に全てのｎグラムについて区切パターンを選択したか判別する（ステップＳ７０６）。
全ｎグラムについて選択していない場合（ステップＳ７０６；ＮＯ）、カウンタ変数ｋ２をインクリメントし（ステップＳ７０７）、次のｎグラム（隣接するｎグラム）についてステップＳ７０２から処理を繰り返す。

一方、全ｎグラムについて選択していた場合（ステップＳ７０６；ＹＥＳ）、メニュー分割処理は終了する。その後、単語列分割部３９２が選択された区切り方で単語列を分割して、分割結果を出力部３１１が変換部５０に出力する。

以上説明したように、本実施形態のメニュー表示装置３によれば、各語間の区切り方を、それまでに定めた区切り方を参考にして決定する。そのため、区切り方を精度良く推定することが出来る。

（変形例）
以上、本願発明の実施形態について説明したが、本願発明の実施形態はこれに限られない。
例えば、上記実施形態１乃至３では、画像入力部１０が撮影した画像から単語列Ｗを抽出したが、ユーザがキーボードを用いて入力した文字列から単語列Ｗを抽出してもよい。また、音声データから音声認識により文字列を取得しても良い。

また、上記実施形態１乃至３では、変換部は単語毎に用語辞書に登録された解説文を付して表示データを作成した。
しかし、本願発明において、分割された単語列を用いて表示データを作成する方法はこれに限られない。例えば、分割された単語列を部分列毎に任意の翻訳器を用いて翻訳し、翻訳結果を表示データとしてもよい。このようなメニュー表示装置によれば、入力されたメニューが例えば中国語であった場合に、日本語だけを理解し、中国語の文字列をキーボードを用いて入力できないユーザであっても、メニューを撮影する操作を実行すれば日本語でメニューの概要を表示することが出来る。

また、部分列を検索キーワードとして用語辞書等のデータベースを検索し、検索結果を表示データとしてもよい。
さらに、分割された部分列をキーワードとして画像検索し、得られた画像を表示データとして表示しても良い。
このような構成により、例えば部分列が「茎」「ワカメ」や「白ワイン」「蒸し」で有った場合、「茎」と「ワカメ」、「白ワイン」と「蒸し」がひとくくりであることと共に、「茎ワカメ」及び「白ワイン蒸し」についての解説を表示することが出来る。

また、上記実施形態１乃至３では、解析対象となる単語列はメニューであったが、本発明はメニュー以外の任意のカテゴリの単語列について応用可能である。本発明の解析対象となる単語列は、現れる単語が限られていること、単語と単語との区切り方のルールが限定されていること、を特徴とするカテゴリの単語列であることが好ましい。このようなカテゴリの単語列の例として、メニューの他に住所、薬品の効能書き・説明書、等があげられる。

また、情報処理部７０１、データ記憶部７０２，プログラム記憶部７０３、等から構成されるメニュー表示装置のための処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体（フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等）に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する情報端末を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで情報処理装置を構成してもよい。

また、メニュー表示装置の機能を、ＯＳ（オペレーティングシステム）とアプリケーションプログラムの分担、またはＯＳとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。

また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS：Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。

また、上記メニュー表示装置が実行する処理の一部を、メニュー表示装置とは独立したコンピュータを用いて実現しても良い。

以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。

（付記１）
解析対象となる単語列を取得する単語列取得部と、
前記単語列取得部が取得した単語列の隣接する単語と単語との間である語間について、当該語間を構成する単語の少なくとも一方を含む前記単語列の部分列を抽出する部分列抽出部と、
前記部分列抽出部が抽出した部分列のそれぞれについて、当該部分列を含む教師データにおいて、前記語間に対応する部位で教師データが区切れる確からしさを示す区切係数を取得する区切係数取得部と、
前記語間で前記解析対象の単語列が区切れる確からしさである確率係数を、前記区切係数取得部が取得した区切係数に基づいて求める確率係数獲得部と、
前記確率係数獲得部が求めた確率係数に基づいて、前記語間で前記解析対象の単語列が区切れるか否か判別する判別部と、
前記単語列取得部が取得した単語列を、前記判別部が区切れると判別した語間で区切って出力する出力部と、
を備えることを特徴とする情報処理装置。

（付記２）
前記確率係数獲得部は、前記確率係数を前記区切係数取得部が取得した区切係数のそれぞれについて、少なくとも所定の定義域において増加関数となるように求める、
ことを特徴とする付記１に記載の情報処理装置。

（付記３）
前記単語列取得部が取得した解析対象となる単語列の語間のそれぞれで、該単語列が区切れるか否かそれぞれの区切り方に対応する区切パターンを生成する区切りパターン生成部と、
前記確率係数獲得部が求めた確率係数に基づいて、前記区切パターンで前記解析対象となる単語列が区切れる確率であるパターン区切確率係数を求めるパターン区切係数獲得部と、
をさらに備え、
前記判別部は、前記語間が、前記パターン区切係数獲得部が求めたパターン区切確率係数が所定の閾値よりも大きい区切パターンにおいて区切れるとされている場合に、該語間で前記解析対象の単語列が区切れると判別する、
ことを特徴とする付記１又は２に記載の情報処理装置。

（付記４）
前記パターン区切係数獲得部は前記パターン確率係数を、前記確率係数のそれぞれに対して少なくとも所定の定義域において増加関数となるように求める、
ことを特徴とする付記３に記載の情報処理装置。

（付記５）
前記判別部は、前記語間について前記確率係数獲得部が求めた確率係数が所定の閾値よりも大きい場合に、当該語間で前記解析対象の単語列が区切れると判別する、
ことを特徴とする付記１又は２に記載の情報処理装置。

（付記６）
前記部分列抽出部が抽出した部分列の語間のそれぞれで、前記単語列が区切れるか否かそれぞれの区切り方に対応する部分区切パターンを生成する部分区切パターン生成部と、
前記部分区切パターンの区切り方で教師データが区切れる確率係数を記憶する確率係数記憶部と、
を更に備え、
前記区切係数取得部は、前記区切確率係数として前記確率係数記憶部が記憶する前記部分区切パターンの確率係数を取得し、
前記判別部は、前記部分区切パターン生成部が生成した部分区切パターンから、前記確率係数取得部が取得した区切確率係数が大きい部分区切パターンを選択することにより、前記語間で単語列が区切れるか否か判別し、
前記部分区切パターン生成部は、前記判別部が区切れるか否か判別した語間に対応する語間については同じ区切り方の部分区切パターンを生成する、
ことを特徴とする付記１に記載の情報処理装置。

（付記７）
前記教師データは、前記解析対象となる単語列と同一カテゴリに属する単語列であって、当該単語列の語間のそれぞれで単語列が区切れるか否かを定義した単語列である、
ことを特徴とする付記１乃至６の何れか一つに記載の情報処理装置。

（付記８）
前記解析対象となる単語列と前記教師データとが献立を表現する単語列である、
ことを特徴とする付記１乃至７の何れか一つに記載の情報処理装置。

（付記９）
文字列の画像を撮影する撮影部と、
前記撮影部が撮影した画像から文字列を抽出する文字列抽出部と、
前記文字列抽出部が抽出した文字列から単語列を生成する単語列生成部と、
前記単語列生成部が生成した単語列の隣接する単語と単語との間である語間について、当該語間を構成する単語の少なくとも一方を含む前記単語列の部分列を抽出する部分列抽出部と、
前記部分列抽出部が抽出した部分列のそれぞれについて、当該部分列を含む教師データにおいて、前記語間に対応する部位で教師データが区切れる確からしさを示す区切係数を取得する区切係数取得部と、
前記語間で前記単語列生成部が生成した単語列が区切れる確からしさである確率係数を、前記区切係数取得部が取得した区切係数に基づいて求める確率係数獲得部と、
前記確率係数獲得部が求めた確率係数に基づいて、前記語間で前記解析対象の単語列が区切れるか否か判別する判別部と、
前記単語列生成部が生成した単語列を、前記判別部が区切れると判別した語間で分割する分割部と、
前記分割部が分割した単語列のそれぞれについて、当該分割した単語列に含まれる単語又は単語列の少なくとも一方の意味を示す表示データに変換する変換部と、
前記変換部が変換した表示データを表示する表示部と、
を備えることを特徴とするデータ表示装置。

（付記１０）
コンピュータに、
解析対象となる単語列を取得する処理、
前記取得した単語列の隣接する単語と単語との間である語間について、当該語間を構成する単語の少なくとも一方を含む前記単語列の部分列を抽出する処理、
前記抽出した部分列のそれぞれについて、当該部分列を含む教師データにおいて、前記語間に対応する部位で教師データが区切れる確からしさを示す区切係数を取得する処理、
前記語間で前記解析対象の単語列が区切れる確からしさである確率係数を、前記取得した区切係数に基づいて求める処理、
前記求めた確率係数に基づいて、前記語間で前記解析対象の単語列が区切れるか否か判別する処理、
前記取得した解析対象となる単語列を、前記判別する処理で区切れると判別した語間で区切って出力する処理、
を実行させることを特徴とするプログラム。

１…メニュー表示装置、２…メニュー表示装置、３…メニュー表示装置、１０…画像入力部、２０…ＯＣＲ、３０…メニュー解析部、３１…メニュー解析部、３２…メニュー解析部、４０…確率係数出力部、４１…確率係数出力部、５０…変換部、６０…用語辞書記憶部、７０…情報処理部、７１…情報処理部、７２…情報処理部、８０…表示部、９０…操作入力部、７０１…情報処理部、７０２…データ記憶部、７０３…プログラム記憶部、７０４…入出力部、７０５…通信部、７０６…内部バス、７０７…制御プログラム、３１０…文字列取得部、３１１…出力部、３２０…分かち書き部、３３０…区切パターン生成部、３３１…区切パターン生成部、３４０…語間選択部、３４１…語間選択部、３５０…ｎグラム抽出部、３５１…ｎグラム抽出部、３５２…ｎグラム生成部、３６０…確率係数取得部、３６１…ｎグラム確率係数取得部、３６２…確率係数取得部、３７０…語間確率係数算出部、３７１…語間確率係数算出部、３８０…パターン確率係数算出部、３８１…区切フラグ決定部、３９０…パターン選択部、３９１…パターン選択部、３９２…単語列分割部、４０１…確率係数リスト、４０２…教師データ

Claims

複数の単語列を集めた教師データの中に現れる連続する単語を含む部分列が、前記教師データの中で前記部分列の複数の単語の区切り方を定義する複数の区切パターンで区切られている確率を示す区切確率係数を、各前記部分列の区切パターン毎に記憶している区切確率係数記憶部と、
解析対象となる単語列を取得する単語列取得部と、
前記単語列取得部が取得した解析対象となる単語列の語間のそれぞれで区切れるか区切れないかの区切り方を定義する複数の単語列区切パターンを生成する単語列区切パターン生成部と、
前記単語列取得部が取得した単語列から連続する複数の単語からなる部分列を抽出する部分列抽出部と、
前記部分列抽出部が抽出した部分列のそれぞれについて、部分列の区切り方を定義する各区切パターンに対応する区切確率係数を前記区切確率係数記憶部から取得する区切確率係数取得部と、
前記連続する複数の単語の語間で前記解析対象となる単語列が前記単語列区切パターンで定義される区切り方で区切れる確からしさである確率係数を、前記区切確率係数取得部が取得した区切確率係数に基づいて求める語間確率係数獲得部と、
前記単語列区切パターン生成部で生成された各前記単語列区切パターンの確率係数を前記語間確率係数獲得部が求めた区切確率係数に基づいて算出するパターン確率係数算出部と、
前記パターン確率係数算出部が算出した各前記単語列区切パターンの確率係数に基づいて１つの単語列区切パターンを選択し、選択された単語列区切パターンで定義される区切り方で前記単語列取得部が取得した単語列を区切って出力する出力部と、
を備えることを特徴とする情報処理装置。
前記語間確率係数獲得部は、前記確率係数を、前記区切確率係数取得部が取得した区切確率係数の加算平均あるいは積により求める、
ことを特徴とする請求項１に記載の情報処理装置。
前記パターン確率係数算出部は、前記単語列区切パターンの確率係数を、前記語間確率係数獲得部が求めた区切確率係数の積により求める、
ことを特徴とする請求項１又は２に記載の情報処理装置。
複数の単語列を集めた教師データの中に現れる連続する単語を含む部分列が、前記教師データの中で前記部分列の複数の単語の区切り方を定義する複数の区切パターンで区切られている確率を示す区切確率係数を、各前記部分列の区切パターン毎に記憶している区切確率係数記憶部を有するコンピュータに、
解析対象となる単語列を取得する単語列取得処理、
前記単語列取得処理が取得した解析対象となる単語列の語間のそれぞれで区切れるか区切れないかの区切り方を定義する複数の単語列区切パターンを生成する単語列区切パターン生成処理、
前記単語列取得処理が取得した単語列から連続する複数の単語からなる部分列を抽出する部分列抽出処理、
前記部分列抽出処理が抽出した部分列のそれぞれについて、部分列の区切り方を定義する各区切パターンに対応する区切確率係数を前記区切確率係数記憶部から取得する区切確率係数取得処理、
前記連続する複数の単語の語間で前記解析対象となる単語列が前記単語列区切パターンで定義される区切り方で区切れる確からしさである確率係数を、前記区切確率係数取得処理が取得した区切確率係数に基づいて求める語間確率係数獲得処理、
前記単語列区切パターン生成処理で生成された各前記単語列区切パターンの確率係数を前記語間確率係数獲得処理が求めた区切確率係数に基づいて算出するパターン確率係数算出処理、
前記パターン確率係数算出処理が算出した各前記単語列区切パターンの確率係数に基づいて１つの単語列区切パターンを選択し、選択された単語列区切パターンで定義される区切り方で前記単語列取得処理が取得した単語列を区切って出力する出力処理、
を実行させることを特徴とするプログラム。
前記語間確率係数獲得処理は、前記確率係数を、前記区切確率係数取得処理が取得した区切確率係数の加算平均あるいは積により求める、
ことを特徴とする請求項４に記載のプログラム。
前記パターン確率係数算出処理は、前記単語列区切パターンの確率係数を、前記語間確率係数獲得処理が求めた区切確率係数の積により求める、
ことを特徴とする請求項４又は５に記載のプログラム。