JP7326637B2

JP7326637B2 - チャンキング実行システム、チャンキング実行方法、及びプログラム

Info

Publication number: JP7326637B2
Application number: JP2023006662A
Authority: JP
Inventors: 祐輝中山; 浩司村上
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2021-09-29
Filing date: 2023-01-19
Publication date: 2023-08-15
Anticipated expiration: 2042-07-11
Also published as: EP4160441A1; JP2023050092A; JP2023050201A; US20230096564A1; JP7216241B1

Description

本開示は、チャンキング実行システム、チャンキング実行方法、及びプログラムに関する。

従来、ユーザが入力した検索クエリに基づいて、種々の検索を実行する技術が知られている。検索クエリは、原則として自由に入力可能なので、検索には適さない検索クエリが入力されることがある。例えば、語Ａと語Ｂの間にスペースを入力する必要があったとしても、語Ａと語Ｂの間にスペースが入力されないことがある。例えば、何らかの理由で、１つの語を構成する要素（文字や数字等）の間にスペースが入力されることもある。このため、検索クエリに対して適切なチャンキングを実行することが求められている。

一般的な形態素解析、構文解析、又は句構造解析の技術を、検索クエリに対するチャンキングに利用することも考えられる。しかしながら、これらの技術は、あくまで一般的な語を前提にして作成されているので、検索クエリのように、特定の目的で入力された語に適用しても十分な精度を得ることができない可能性がある。この点、非特許文献１には、文章の中から人名や国名といった固有表現を抽出することを目的とした技術として、インターネット上の辞書データを参照可能な機械学習モデルに文章を入力して固有表現を抽出することが記載されている。

[Mai+ COLING16] Khai Mai, Thai-Hoang Pham, Nguyen Minh Trung, Nguyen Tuan Duc, Danushka Bolegala, Ryohei Sasano and Satoshi Sekine: An Empirical Study on Fine-Grained Named Entity Recognition

しかしながら、上記技術は、ある程度の長さを有する文章を機械学習モデルに入力することを前提としているので、検索クエリに対するチャンキングには適用できない。仮に、上記技術を何らかの形で検索クエリに適用したとしても、上記技術は、そもそも検索クエリに対するチャンキングを目的として作成されたわけではなく、人名や国名が検索クエリとして入力されることも少ないので、チャンキングの精度が十分ではない。

本開示の目的の１つは、検索クエリに対するチャンキングの精度を高めることである。

本開示に係るチャンキング実行システムは、少なくとも１つのトークンを含む検索クエリを取得する検索クエリ取得部と、前記検索クエリに基づいて、辞書データを利用したマッチングを実行するマッチング実行部と、前記検索クエリに基づいて、チャンキングに関する学習モデルからの出力を取得する出力取得部と、前記マッチングの実行結果と、前記学習モデルからの出力と、に基づいて、前記検索クエリに関するチャンキングを実行するチャンキング実行部と、を含む。

チャンキング実行システムの全体構成の一例を示す図である。第１実施形態の概要を示す図である。第１実施形態で実現される機能の一例を示す機能ブロック図である。辞書データの一例を示す図である。学習モデルの一例を示す図である。第１実施形態で実行される処理の一例を示すフロー図である。第２実施形態の概要を示す図である。日本語で入力される検索クエリの一例を示す図である。第２実施形態で実現される機能の一例を示す機能ブロック図である。第２実施形態で実行される処理の一例を示すフロー図である。第２実施形態で実行される処理の一例を示すフロー図である。

［１．第１実施形態］
本開示に係るチャンキング実行システムの実施形態の一例である第１実施形態を説明する。

［１－１．チャンキング実行システムの全体構成］
図１は、チャンキング実行システムの全体構成の一例を示す図である。チャンキング実行システムＳは、ネットワークＮに接続可能なサーバ１０及びユーザ端末２０を含む。ネットワークＮは、インターネット又はＬＡＮ等の任意のネットワークである。チャンキング実行システムＳは、少なくとも１つのコンピュータを含めばよく、図１の例に限られない。

サーバ１０は、サーバコンピュータである。制御部１１は、少なくとも１つのプロセッサを含む。記憶部１２は、ＲＡＭ等の揮発性メモリと、ハードディスク等の不揮発性メモリと、を含む。通信部１３は、有線通信用の通信インタフェースと、無線通信用の通信インタフェースと、の少なくとも一方を含む。

ユーザ端末２０は、ユーザのコンピュータである。例えば、ユーザ端末２０は、パーソナルコンピュータ、スマートフォン、タブレット端末、又はウェアラブル端末である。制御部２１、記憶部２２、及び通信部２３の物理的構成は、それぞれ制御部１１、記憶部１２、及び通信部１３と同様である。操作部２４は、タッチパネル等の入力デバイスである。表示部２５は、液晶ディスプレイ又は有機ＥＬディスプレイである。

なお、記憶部１２，２２に記憶されるプログラムは、ネットワークＮを介して供給されてもよい。また、各コンピュータには、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、メモリカードスロット）と、外部機器とデータの入出力をするための入出力部（例えば、ＵＳＢポート）と、の少なくとも一方が含まれてもよい。例えば、情報記憶媒体に記憶されたプログラムが、読取部及び入出力部の少なくとも一方を介して供給されてもよい。

［１－２．第１実施形態の概要］
図２は、第１実施形態の概要を示す図である。第１実施形態では、ウェブサイトの検索サービスにチャンキング実行システムＳを適用する場合を例に挙げる。チャンキング実行システムＳは、種々のサービスに適用可能である。他のサービスへの適用例は、後述する。例えば、ユーザは、ユーザ端末２０のブラウザ又はアプリケーションを起動し、検索サービスのトップページＰ１にアクセスする。

サーバ１０は、トップページＰ１及び検索結果のページといった種々のページを、ユーザに提供可能である。ユーザは、入力フォームＦ１０に任意の検索クエリを入力し、検索サービスを利用する。第１実施形態では、検索クエリが英語で入力される場合を説明するが、検索クエリは、任意の言語で入力可能である。例えば、後述の第２実施形態のように、検索クエリは、日本語で入力されてもよい。検索クエリは、中国語、スペイン語、フランス語、又はアラビア語といった他の言語で入力されてもよい。

検索クエリは、ユーザが検索時に入力した語である。語とは、少なくとも１つの文字、少なくとも１つの数字、少なくとも１つの記号、又はこれらの組み合わせである。語は、キーワードと呼ばれることもある。第１実施形態では、語を構成する文字、数字、又は記号を、要素と記載する。例えば、要素は、英語におけるアルファベット、又は、日本語における仮名若しくは漢字である。検索クエリは、語以外の検索条件（例えば、数値範囲や属性等）を含んでもよい。ユーザが入力した検索クエリと、サーバ１０に記憶されたインデックスと、が比較されることによって、検索が実行される。

検索クエリは、少なくとも１つのトークンを含む。トークンは、検索クエリに含まれる語の単位である。トークンは、少なくとも１つの語を含む。トークンは、１つの語から構成されることもあるし、複数の語から構成されることもある。トークンが複数の語から構成される場合には、個々の語の間には、スペースがあってもよいし、アンダーバーやハイフン等の何らかの記号が配置されてもよい。

例えば、ユーザが、架空のアパレルブランド「The South Mountain」の商品を検索するために、検索クエリ「The South Mountain」を入力したとする。この検索クエリは、語「The」、語「South」、及び語「Mountain」といった３つの語を含む。検索の精度を高めるためには、これら３つの語は、１セットで扱って初めてアパレルブランド名を意味するので、別々のトークンとして扱うのではなく、１つのトークンとして扱った方がよい。このような検索クエリは、３つの語から構成される１つのトークンを含む。

一方、例えば、ユーザが、ハワイにある山を検索するために、検索クエリ「Hawaii mountains」を入力したとする。この検索クエリは、語「Hawaii」及び語「mountains」といった２つの語から構成される。これら２つの語は、検索クエリ「The South Mountain」とは異なり、個々の語が独立した意味を有するので、１セットで扱う必要は無く、別々のトークンとして扱った方がよい。このような検索クエリは、１つの語から構成される２つのトークンを含む。

ただし、サーバ１０は、検索クエリを受信した時点では、複数の語から構成されるトークンなのか、１つの語から構成されるトークンなのか、を特定することが難しい。このため、サーバ１０は、検索クエリを受信した時点では、ひとまず、スペースによって区切られた部分をトークンとみなすものとする。例えば、検索クエリ「The South Mountain」であれば、サーバ１０は、ひとまず、トークン「The」、トークン「South」、及びトークン「Mountain」といった３つのトークンが含まれるものとみなす。検索クエリ「Hawaii mountains」であれば、サーバ１０は、ひとまず、トークン「Hawaii」及びトークン「mountains」といった２つのトークンが含まれるものとみなす。

なお、サーバ１０は、予め定められたルールに基づいて、検索クエリからトークンとみなす部分を特定すればよい。ひとまずトークンとみなされる部分は、スペースによって区切られた部分に限られない。例えば、サーバ１０は、何らかの区切りを意味する記号に基づいて、検索クエリからトークンとみなす部分を特定してもよい。例えば、この記号は、括弧、アンダーバー、ハイフン、カンマ、又はピリオドであってもよい。更に、サーバ１０は、複数のルールを組み合わせて、検索クエリからトークンとみなす部分を特定してもよい。

図２の例では、検索クエリ「Tokyo restaurant」は、トークン「Tokyo」と、トークン「restaurant」と、を含む。検索クエリ「U.S.A. championship」は、トークン「U.S.A.」と、トークン「championship」と、を含む。これら２つの検索クエリの個々のトークンは、独立した意味を持った名詞である。このような名詞は、独立した意味を持っている以上、ＡＮＤ条件又はＯＲ条件でつなげて検索しても問題ないことが多い。このため、これら２つの検索クエリは、適切な位置にスペースが挿入されており、検索時のトークンとして適切である。

検索クエリ「Tokyorestaurant」は、スペースが存在しないので、１つのトークン「Tokyorestaurant」だけを含む。本来であれば、名詞「Tokyo」と、名詞「restaurant」と、の間にスペースが必要であるが、これらの名詞の間にはスペースが存在しない。例えば、スペースの入力を億劫に感じたユーザが文字だけを入力したり、ユーザが音声入力をしたりすると、複数のトークンに分けるべき複数の語が１つのトークンになることがある。この検索クエリは、適切な位置にスペースが挿入されていないので、検索時のトークンとして不適切である。

検索クエリ「U.S.A. champion ship」は、１つの名詞である「championship」のうち、「champion」と「ship」の間にスペースが入力されている。このため、この検索クエリは、適切に入力された検索クエリ「U.S.A. championship」とは異なり、トークン「U.S.A.」、トークン「champion」、及びトークン「ship」を含む。ユーザが、「champion」と「ship」の間にスペースを誤入力したり、ウェブサイトや文書ファイルからコピーペーストしたりすると、１つのトークンにすべきものが複数のトークンに分けられることがある。この検索クエリも、適切な位置にスペースが挿入されていないので、検索時のトークンとして不適切である。

そこで、第１実施形態では、適切なトークンとなるようにチャンキングが実行される。チャンキングは、ひとまずトークンとみなしたものを、適切なトークンに調整することである。第１実施形態では、チャンキングが、トークンのまとめ上げと、トークンの分割と、の両方を含む場合を説明するが、チャンキングは、トークンの結合、又は、トークンの分割の何れか一方のみを意味してもよい。

チャンキング実行システムＳは、一般的な形態素解析等のチャンキングではなく、検索サービスに特有の新規なチャンキングを実行することによって、検索クエリに対するチャンキングの精度を高めるようにしている。第１実施形態では、検索サービスに特有なチャンキングの一例として、辞書データ、共起尺度、及び学習モデルを効果的に組み合わせた方法を説明する。以降、第１実施形態の詳細を説明する。

［１－３．第１実施形態で実現される機能］
図３は、第１実施形態で実現される機能の一例を示す機能ブロック図である。第１実施形態では、主な機能がサーバ１０で実現される場合を説明する。データ記憶部１００は、記憶部１２を主として実現される。検索クエリ取得部１０１、マッチング実行部１０２、共起尺度取得部１０３、出力取得部１０４、チャンキング実行部１０５、検索処理実行部１０６、及び提示部１０７は、制御部１１を主として実現される。

［データ記憶部］
データ記憶部１００は、チャンキングに必要なデータを記憶する。例えば、データ記憶部１００は、検索対象データベースＤＢ、辞書データＤ、及び学習モデルＭを記憶する。検索対象データベースＤＢは、検索対象となるデータが格納されたデータベースを記憶してもよい。このデータベースには、検索クエリとの比較対象となるインデックスが格納されている。第１実施形態では、ウェブサイトが検索対象に相当するので、種々のウェブサイトから抽出された語を含むインデックスが格納される。

図４は、辞書データＤの一例を示す図である。辞書データＤは、検索時のトークンとして適切な語が格納されたデータである。辞書データＤに格納された語は、１つの語だけで構成されることもあるし、複数の語を含むこともある。例えば、架空のアパレルブランド「The South Mountain」を１つのトークンとしたい場合には、これら３つの語が１つの語として辞書データＤに格納されている。辞書データＤ自体は、公知の種々の辞書データＤを利用可能である。例えば、国語辞典又はインターネット百科事典のデータに基づいて、辞書データＤが作成されてもよい。よく入力される検索クエリに含まれるトークンが辞書データＤに格納されていてもよい。

学習モデルＭは、機械学習を利用したモデルである。機械学習自体は、公知の種々の方法を利用可能であり、例えば、教師有り学習、半教師有り学習、又は教師無し学習を利用可能である。例えば、教師有り学習の学習モデルＭであれば、ある語と、この語のチャンキングの要否と、の関係を示す訓練データが学習されている。学習モデルＭは、入力された語のチャンキングの要否を推定し、この推定結果を出力する。学習モデルＭは、ＡＩ（Artificial Intelligence）と呼ばれることもある。第１実施形態では、学習モデルＭの一例としてCharacterBERTを例に挙げるが、Transformerに基づく事前学習済みのその他の自然言語処理モデルが利用されてよく、Word2Vec等の他の手法が利用されてもよい。他にも例えば、ELECTRAと呼ばれるモデルを利用可能である。BERT及びELECTRAは、上記Transformerと呼ばれるモデルの一種である。

図５は、学習モデルＭの一例を示す図である。例えば、学習モデルＭは、入力された語の分割の要否を推定し、この語を分割する必要があるか否かに関する分割要否情報を出力する。分割要否情報は、分割の要否を識別可能な情報であり、例えば、分割することを示す第１の値、又は、分割しないことを示す第２の値を示す。第１実施形態の学習モデルＭは、入力された語を構成する要素（文字、数字、又は記号）の属性に基づいて、分割要否情報を出力する。

属性は、ある１つの語における要素の位置である。第１実施形態では、属性として、属性Ｂ、属性Ｉ、属性Ｅ、属性Ｓ、及び属性Ｏが存在する場合を例に挙げる。属性Ｂは、語の開始を意味する。属性Ｉは、語の内部を意味する。属性Ｅは、語の終端を意味する。属性Ｓは、一文字の語であることを意味する。属性Ｏは、空白を意味する。学習モデルＭは、これらの属性に基づいて、入力された文字列に対応する分割要否情報を出力する。

第１実施形態では、検索クエリに含まれる個々のトークンが学習モデルＭに入力される場合を説明するが、検索クエリに含まれる複数のトークンが一度に学習モデルＭに入力されてもよい。学習モデルＭは、入力されたトークンを分割するか否かに関する分割要否情報を出力する。図５では、トークン「Tokyorestaurant」と、トークン「championship」と、が入力された場合の学習モデルＭの出力を示している。

トークン「Tokyorestaurant」は、１５個の要素（１５個のアルファベット）により構成されるので、学習モデルＭは、１５個の属性を特定する。個々の要素の属性は、図５の通りである。学習モデルＭは、最初の属性Ｂの要素からその後の属性Ｅまでの部分（１番目の「T」から５番目の「o」までの「Tokyo」）を、１つのトークンと推定する。学習モデルＭは、次の属性Ｂの要素からその後の属性Ｅまでの部分（６番目の「r」から１５番目の「t」までの「restaurant」）を、１つのトークンと推定する。

学習モデルＭは、入力された１つのトークン「Tokyorestaurant」に２つのトークンがあると推定したので、トークン「Tokyorestaurant」を分割することを示す分割要否情報を出力する。学習モデルＭは、上記推定した個々のトークンを出力してもよい。この場合、学習モデルＭは、トークン「Tokyorestaurant」の分割も実行する。学習モデルＭは、トークン「Tokyorestaurant」を２つに分割し、トークン「Tokyo」と、トークン「restaurant」と、を出力してもよい。

トークン「championship」は、１２個の要素（１２個のアルファベット）により構成されるので、学習モデルＭは、１２個の属性を特定する。個々の要素の属性は、図５の通りである。学習モデルＭは、最初の属性Ｂの要素からその後の属性Ｅまでの部分（１番目の「c」から１２番目の「p」までの「championship」）を、１つのトークンと推定する。学習モデルＭは、入力された１つのトークン「championship」が１つのトークンであると推定したので、トークン「championship」を分割しないことを示す分割要否情報を出力する。

以上のように、学習モデルＭは、属性Ｂの要素からその後の属性Ｅの要素までの間を１つのトークンと推定する。学習モデルＭは、属性Ｓの要素も１つのトークンと推定する。学習モデルＭは、入力された１つのトークンに対して複数のトークンが推定された場合（例えば、属性Ｂの要素と、属性Ｅの要素と、ペアが複数存在する場合）、入力された１つのトークンを分割することを示す分割要否情報を出力する。学習モデルは、入力された１つのトークンに対して１つのトークンが推定された場合（例えば、属性Ｂの要素と、属性Ｅの要素と、ペアが１つだけ存在する場合）、入力された１つのトークンを分割しないことを示す分割要否情報を出力する。

なお、学習モデルＭは、入力された１つのトークンに対して複数のトークンが推定された場合、入力された１つのトークンを分割して分割結果を出力してもよい。例えば、学習モデルＭは、属性Ｂの要素からその後の属性Ｅの要素までが１つのトークンとなるように、入力されたトークンを分割して出力する。学習モデルＭは、属性Ｓの要素が１つのトークンとなるように、入力されたトークンを分割して出力する。後述のチャンキング実行部１０５は、学習モデルＭにトークンを入力し、学習モデルＭから出力された分割済みのトークンを取得することによって、チャンキングを実行してもよい。

［検索クエリ取得部］
検索クエリ取得部１０１は、少なくとも１つのトークンを含む検索クエリを取得する。第１実施形態では、ユーザ端末２０は、ユーザが入力した検索クエリをサーバ１０に送信するので、検索クエリ取得部１０１は、ユーザ端末２０から検索クエリを取得する。検索クエリは、データ記憶部１００に予め記憶されていてもよい。この場合、検索クエリ取得部１０１は、データ記憶部１００から検索クエリを取得する。検索クエリ取得部１０１は、サーバ１０又はユーザ端末２０以外の他のコンピュータから検索クエリを取得してもよい。

［マッチング実行部］
マッチング実行部１０２は、検索クエリ取得部１０１により取得された検索クエリに基づいて、辞書データＤを利用したマッチングを実行する。マッチングとは、検索クエリと、辞書データＤに格納された語と、を比較することである。第１実施形態では、検索クエリに含まれる個々のトークンと、辞書データＤに格納された語と、を比較することがマッチングに相当する場合を説明するが、検索クエリに含まれる複数のトークンと、辞書データＤに格納された語と、を比較することがマッチングに相当してもよい。

例えば、マッチング実行部１０２は、検索クエリに含まれる個々のトークンと、辞書データＤに格納された語と、が一致するか否かを判定することによって、マッチングを実行する。即ち、マッチング実行部１０２は、個々のトークンと一致する語が辞書データＤに存在するか否かを判定する。第１実施形態では、完全一致が判定される場合を説明するが、部分一致が判定されてもよい。部分一致は、前方一致、中間一致、又は後方一致の何れであってもよい。

検索クエリが図２の例であり、辞書データＤが図４の例だったとする。マッチング実行部１０２は、検索クエリ「Tokyo restaurant」のトークン「Tokyo」及びトークン「restaurant」と、辞書データＤに格納された語と、が完全一致するか否かを判定することによって、マッチングを実行する。辞書データＤには、語「Tokyo」と、語「restaurant」と、が格納されているので、マッチング実行部１０２は、検索クエリに含まれる全てのトークンが辞書データＤに存在すると判定する。

マッチング実行部１０２は、検索クエリ「U.S.A. championship」のトークン「U.S.A.」及びトークン「championship」と、辞書データＤに格納された語と、が完全一致するか否かを判定することによって、マッチングを実行する。辞書データＤには、語「U.S.A.」と、語「championship」と、が格納されているので、マッチング実行部１０２は、検索クエリに含まれる全てのトークンが辞書データＤに存在すると判定する。

マッチング実行部１０２は、検索クエリ「Tokyorestaurant」のトークン「Tokyorestaurant」と、辞書データＤに格納された語と、が完全一致するか否かを判定することによって、マッチングを実行する。トークン「Tokyorestaurant」と、辞書データＤの語「Tokyo」及び語「restaurant」と、は部分一致するが完全一致しないので、マッチング実行部１０２は、トークンが辞書データＤに存在しないと判定する。

マッチング実行部１０２は、検索クエリ「U.S.A. champion ship」のトークン「U.S.A.」、トークン「champion」、及びトークン「ship」と、辞書データＤの語と、が完全一致するか否かを判定することによって、マッチングを実行する。辞書データＤには語「U.S.A.」が格納されているので、マッチング実行部１０２は、トークン「U.S.A.」が辞書データＤに存在すると判定する。トークン「champion」と、トークン「ship」と、は辞書データＤの語「championship」に部分一致するが完全一致しないので、マッチング実行部１０２は、これらのトークンが辞書データＤに存在しないと判定する。

第１実施形態では、マッチング実行部１０２は、学習モデルＭの処理が実行される前に、検索クエリに基づいて、マッチングを実行する。即ち、マッチング実行部１０２は、ある検索クエリのトークンが学習モデルＭに入力される前に、この検索クエリに基づいて、マッチングを実行する。第１実施形態では、マッチングにより辞書データＤに存在すると判定されたトークンが学習モデルＭに入力されない場合を説明するが、検索クエリの全てのトークンが学習モデルＭに入力されてもよい。即ち、辞書データＤに存在すると判定されたトークンが学習モデルＭに入力されてもよい。

［共起尺度取得部］
共起尺度取得部１０３は、検索クエリ取得部１０１により取得された検索クエリに基づいて、共起尺度を取得する。共起尺度は、複数の語の関連性の高さに関する情報である。即ち、共起尺度は、複数の語の共起のしやすさに関する情報である。例えば、同時に登場しやすい複数の語は、共起尺度の値が高くなる。第１実施形態では、共起尺度が数値によって表現される場合を説明するが、共起尺度は、文字又は記号によって表現されてもよい。例えば、ある語と他の語の共起尺度の数値が高いほど、これらの語の関連性が高いことを意味する。共起尺度は、好ましくは、自己相互情報量（ＭＩ）である。一の実施形態において、共起尺度は、自己相互情報量に代えて、ｔスコアであってよく、ｚスコアであってよく、Ｌｏｇ－ｌｉｋｅｌｉｈｏｏｄであってよく、ダイス係数であってよく、ＭＩ３であってよく、既知の手法に基づき定量化された共起のしやすさであってよい。Ｌｏｇ－ｌｉｋｅｌｉｈｏｏｄ及びｔスコア等は、仮設検定の方法を利用した共起尺度の一例である。一方で、自己相互情報量及びＭＩ３等は、情報理論を利用した共起尺度の一例である。例えば、共起尺度は、共起頻度、共起有意性、エフェクトサイズ、又はこれらの組み合わせに基づいた計算方法であってよい。

第１実施形態では、共起尺度取得部１０３は、検索クエリに複数のトークンが含まれる場合に、あるトークンと、その後のトークンと、の共起尺度を取得する。検索クエリに含まれるトークンが１つだけの場合には、トークン間の関連性が存在しないので、共起尺度取得部１０３は、共起尺度を取得しない。共起尺度の取得方法自体は、公知の種々の方法を利用可能である。例えば、共起尺度取得部１０３は、ＰＭＩ（Pointwise Mutual Information）又はＳＯＡ（Strength of association）と呼ばれる方法に基づいて、共起尺度を取得してもよい。

図２の例であれば、検索クエリ「U.S.A. champion ship」は、トークン「U.S.A.」、トークン「champion」、及びトークン「ship」を含む。共起尺度取得部１０３は、トークン「U.S.A.」と、トークン「champion」と、の共起尺度として、関連性が低いことを示す低い数値の共起尺度を取得する。一方、共起尺度取得部１０３は、トークン「champion」と、トークン「ship」と、の共起尺度として、関連性が高いことを示す数値の共起尺度を取得する。

検索クエリ「Tokyo restaurant」及び検索クエリ「U.S.A. championship」に関し、個々のトークンの関連性が低いので、共起尺度取得部１０３は、各トークンの共起尺度として、関連性が低いことを示す低い数値の共起尺度を取得する。検索クエリ「Tokyorestaurant」は、トークンが１つだけのため、共起尺度は取得されない。なお、共起尺度は、トークン間の関連性ではなく、トークンに含まれる語又は要素の関連性を示してもよい。この場合、共起尺度取得部１０３は、ある語又は要素と、その後の語又は要素と、の共起尺度を取得すればよい。

［出力取得部］
出力取得部１０４は、検索クエリ取得部１０１により取得された検索クエリに基づいて、チャンキングに関する学習モデルＭからの出力を取得する。第１実施形態では、マッチング実行部１０２により辞書データＤに存在すると判定されたトークンは、学習モデルＭに入力されない場合を説明するが、出力取得部１０４は、マッチング結果に関係なく検索クエリの全てのトークンを学習モデルＭに入力してもよい。他にも例えば、共起尺度が閾値以上のトークンは、学習モデルＭに入力されなくてもよい。

第１実施形態では、出力取得部１０４は、マッチングが実行された後の検索クエリに基づいて、学習モデルＭからの出力を取得する。例えば、出力取得部１０４は、ある検索クエリのうち、マッチングにより辞書データＤに存在しないと判定されたトークンを、学習モデルＭに入力する。先述したように、第１実施形態の学習モデルＭは、検索クエリに含まれる少なくとも１つのトークンを分割する否かに関する分割要否情報を出力する。学習モデルＭの処理の詳細は、先述した通りである。

［チャンキング実行部］
チャンキング実行部１０５は、マッチングの実行結果と、学習モデルＭからの出力と、に基づいて、検索クエリに関するチャンキングを実行する。第１実施形態では、共起尺度も利用されるので、チャンキング実行部１０５は、マッチングの実行結果、学習モデルＭからの出力、及び共起尺度に基づいて、検索クエリに関するチャンキングを実行する。検索クエリに関するチャンキングとは、検索クエリに含まれる１つのトークンを複数のトークンに分割すること、又は、検索クエリに含まれる複数のトークンを１つのトークンに結合することである。

例えば、チャンキング実行部１０５は、マッチングにより辞書データＤに存在すると判定されたトークンを分割又は結合しないと決定する。第１実施形態では、チャンキング実行部１０５は、辞書データＤに存在すると判定されたトークンを検索クエリから抜き出す。チャンキング実行部１０５は、検索クエリからトークンを抜き出した場合、残りのトークンについて、学習モデルＭの処理対象と、共起尺度取得部１０３の処理対象と、にする。

辞書データＤに存在しないと判定されたトークンは、学習モデルＭからの出力次第で分割される。第１実施形態では、学習モデルＭが分割要否情報を出力するので、チャンキング実行部１０５は、分割要否情報に基づいて、検索クエリに含まれるトークンを分割するか否かを決定する。例えば、チャンキング実行部１０５は、学習モデルＭから出力された分割要否情報が分割要を示すトークンを分割すると決定する。チャンキング実行部１０５は、学習モデルＭから出力された分割要否情報が分割不要を示すトークンを分割しないと決定する。

例えば、辞書データＤに存在しないと判定されたトークンは、共起尺度次第で結合される。チャンキング実行部１０５は、共起尺度が閾値以上のトークン同士を結合すると決定する。チャンキング実行部１０５は、共起尺度が閾値未満のトークン同士を結合しないと決定する。

図２の例であれば、チャンキング実行部１０５は、検索クエリ「Tokyo restaurant」のトークン「Tokyo」及びトークン「restaurant」が辞書データＤに存在することを示すマッチング結果が取得されるので、トークン「Tokyo」及びトークン「restaurant」を分割又は結合しない。

チャンキング実行部１０５は、検索クエリ「U.S.A. championship」のトークン「U.S.A.」及びトークン「championship」が辞書データＤに存在することを示すマッチング結果が取得されるので、トークン「U.S.A.」及びトークン「championship」を分割又は結合しない。

チャンキング実行部１０５は、検索クエリ「Tokyorestaurant」のトークン「Tokyorestaurant」を分割することを示す分割要否情報が学習モデルＭから出力されるので、トークン「Tokyorestaurant」を、トークン「Tokyo」と、トークン「restaurant」と、に分割する。例えば、チャンキング実行部１０５は、辞書データＤに基づいて、これらの分割をしてもよい。辞書データＤには、語「Tokyo」及び語「restaurant」が格納されているので、チャンキング実行部１０５は、分割要のトークン「Tokyorestaurant」と、これらの語と、が部分一致することを特定すると、これらの語に分割する。

チャンキング実行部１０５は、検索クエリ「U.S.A. champion ship」のトークン「U.S.A.」、トークン「champion」、及びトークン「ship」のうち、トークン「U.S.A.」が辞書データＤに存在することを示すマッチング結果が取得されるので、トークン「U.S.A.」を分割又は結合しない。チャンキング実行部１０５は、トークン「champion」及びトークン「ship」の共起尺度が閾値以上なので、トークン「champion」と、トークン「ship」と、を結合して１つのトークン「championship」にする。

［検索処理実行部］
検索処理実行部１０６は、検索対象データベースＤＢと、チャンキングの実行結果と、に基づいて、検索処理を実行する。検索処理実行部１０６は、検索対象データベースＤＢに格納されたインデックスと、チャンキング実行部１０５によるチャンキングによって取得されたトークンと、を比較することによって、検索処理を実行する。検索処理自体は、公知の種々の方法を利用可能である。例えば、チャンキング実行部１０５により複数のトークンが取得された場合には、検索処理実行部１０６は、複数のトークンをＯＲ条件で検索処理を実行する。図２の例であれば、検索クエリ「Tokyo restaurant」と、検索クエリ「U.S.A. championship」と、はチャンキングされないので、検索処理実行部１０６は、これらの検索クエリのまま検索処理を実行する。

一方、検索クエリ「Tokyorestaurant」は、チャンキング実行部１０５により、トークン「Tokyo」と、トークン「restaurant」と、に分割される。このため、検索処理実行部１０６は、これら２つのトークンに分割されるように（間にスペースが埋め込まれるように）チャンキングされた検索クエリ「Tokyo restaurant」に基づいて、検索処理を実行する。検索クエリ「U.S.A. champion ship」は、トークン「U.S.A.」はそのままであるが、チャンキング実行部１０５により、トークン「champion」と、トークン「ship」と、が結合されて「champion ship」になる。このため、検索処理実行部１０６は、これら２つのトークンが１つに結合されるように（間にスペースが存在しないように）チャンキングされた検索クエリ「U.S.A. championship」に基づいて、検索処理を実行する。

［提示部］
提示部１０７は、検索クエリを入力したユーザに、検索処理の実行結果を提示する。第１実施形態では、画像を利用して視覚的に実行結果が提示される場合を説明するが、音声を利用して聴覚的に実行結果が提示されてもよい。検索処理の実行結果は、検索でヒットしたインデックスの一覧である。例えば、提示部１０７は、検索処理の実行結果を含む画面の表示データ（例えば、ＨＴＭＬデータ）を生成し、ユーザ端末２０に送信する。

［１－４．第１実施形態で実行される処理］
図６は、第１実施形態で実行される処理の一例を示すフロー図である。この処理は、制御部１１，２１が記憶部１２，２２に記憶されたプログラムに従って動作することによって実行される。

ユーザ端末２０は、ユーザがトップページＰ１のリンク等を選択するとサーバ１０にアクセスし、検索サービスのトップページＰ１を表示部２５に表示させる（Ｓ１００）。ユーザ端末２０は、操作部２４からのユーザの操作に基づいて、入力フォームＦ１０に対する検索クエリの入力を受け付ける（Ｓ１０１）。ユーザ端末２０は、サーバ１０に、ユーザが入力した検索クエリを送信する（Ｓ１０２）。

サーバ１０は、ユーザ端末２０から検索クエリを受信すると（Ｓ１０３）、辞書データＤに基づいて、マッチングを実行する（Ｓ１０４）。検索クエリのトークンと辞書データＤに格納された語とが完全一致する場合（Ｓ１０４；完全一致）、サーバ１０は、検索クエリから、辞書データＤに格納された語と完全一致したトークンを抜き出す（Ｓ１０５）。検索クエリのトークンと辞書データＤに格納された語とが完全一致しない場合（Ｓ１０４；一致しない）、Ｓ１０５の処理は実行されない。

図２の例であれば、検索クエリ「Tokyo restaurant」のうち、トークン「Tokyo」と、トークン「restaurant」と、がＳ１０５の処理で抜き出される。この検索クエリには、トークンが残されていないので、Ｓ１０６～Ｓ１１０の処理の対象にはならず、Ｓ１１１の処理に移行する。検索クエリ「U.S.A. championship」も同様に、トークン「U.S.A.」と、トークン「championship」と、がＳ１０５の処理で抜き出される。この検索クエリは、Ｓ１０６～Ｓ１１０の処理の対象にはならず、Ｓ１１１の処理に移行する。

一方、検索クエリ「Tokyorestaurant」は、Ｓ１０５の処理ではトークンが抜き出されない。この検索クエリは、Ｓ１０６の処理対象になる。検索クエリ「U.S.A. champion ship」は、トークン「U.S.A.」がＳ１０５の処理で抜き出される。この検索クエリのうち、トークン「champion」と、トークン「ship」と、がＳ１０６の処理対象になる。トークン「U.S.A.」は、Ｓ１０６～Ｓ１１０の処理の対象にはならない。

サーバ１０は、検索クエリに基づいて、共起尺度を取得し（Ｓ１０６）、共起尺度が閾値以上であるか否かを判定する（Ｓ１０７）。トークンが１つだけの場合には、Ｓ１０６及びＳ１０７の処理は実行されない。図２の例であれば、検索クエリ「Tokyorestaurant」は、トークンが１つのみなので、Ｓ１０６の処理対象にはならない。検索クエリ「U.S.A. champion ship」は、トークン「champion」と、トークン「ship」と、が残っているので、Ｓ１０６の処理対象になる。

共起尺度が閾値以上であると判定された場合（Ｓ１０７；Ｙ）、サーバ１０は、検索クエリから、共起尺度が閾値以上になった複数のトークンを抜き出し、共起尺度が閾値以上になった複数のトークン同士が１つのトークンになるように、チャンキングを実行する（Ｓ１０８）。図２の例であれば、検索クエリ「U.S.A. champion ship」は、トークン「champion」と、トークン「ship」と、の共起尺度が閾値以上になるので、Ｓ１０７の処理で抜き出される。共起尺度が閾値以上であると判定されない場合（Ｓ１０７；Ｎ）、Ｓ１０８の処理は実行されない。

サーバ１０は、検索クエリに基づいて、学習モデルＭの出力を取得する（Ｓ１０９）。図２の例であれば、Ｓ１０９では、サーバ１０は、検索クエリ「Tokyorestaurant」を学習モデルＭに入力すると、学習モデルＭから出力された、分割することを示す分割要否情報を取得する。サーバ１０は、学習モデルＭからの出力に基づいて、チャンキングを実行する（Ｓ１１０）。Ｓ１１０では、サーバ１０は、分割要否情報が分割要を示すトークンを、辞書データＤに部分一致した語が別々のトークンに分割されるように、チャンキングを実行する。サーバ１０は、分割要否情報が分割不要を示すトークンは分割しない。

サーバ１０は、チャンキングの実行結果に基づいて、検索処理を実行し（Ｓ１１１）、ユーザ端末２０に、検索結果を送信する（Ｓ１１２）。ユーザ端末２０は、サーバ１０から検索結果のデータを受信すると、検索結果を表示部２５に表示させ（Ｓ１１３）、本処理は終了する。

第１実施形態のチャンキング実行システムＳによれば、辞書データＤを利用したマッチングの実行結果と、学習モデルＭからの出力と、に基づいて、検索クエリに関するチャンキングを実行することによって、マッチング検索クエリに対するチャンキングの精度が高まる。例えば、マッチングだけを利用する場合や学習モデルＭだけを利用する場合に比べると、検索クエリに含まれるトークンを適切なトークンにすることができる確率が高まり、チャンキングの精度が高まる。

また、チャンキング実行システムＳは、学習モデルＭの処理が実行される前に、検索クエリに基づいて、マッチングを実行し、マッチングが実行された後の検索クエリに基づいて、学習モデルＭからの出力を取得する。これにより、例えば、マッチングでは正確にはチャンキングできなかったトークンを、学習モデルＭを利用してチャンキングすることができるので、検索クエリに対するチャンキングの精度が高まる。

また、チャンキング実行システムＳは、マッチングの実行結果、学習モデルＭからの出力、及び共起尺度に基づいて、チャンキングを実行することによって、検索クエリに対するチャンキングの精度が効果的に高まる。例えば、マッチングだけを利用する場合、学習モデルＭだけを利用する場合、又は共起尺度だけを利用する場合に比べると、検索クエリに含まれるトークンを適切なトークンにすることができる確率が高まり、チャンキングの精度が高まる。

また、チャンキング実行システムＳは、学習モデルＭは、検索クエリに含まれる少なくとも１つのトークンを分割する否かに関する分割要否情報に基づいて、検索クエリに含まれるトークンを分割するか否かを決定する。これにより、例えば、辞書データＤを利用して本当に分割するか否かを決定できるので、検索クエリに対するチャンキングの精度が効果的に高まる。

また、チャンキング実行システムＳは、チャンキングの実行結果に基づいて、検索処理を実行し、検索クエリを入力したユーザに、検索処理の実行結果を提示する。これにより、チャンキング済みのトークンに基づく検索処理を実行できるので、検索処理の精度が高まる。

［２．第２実施形態］
次に、チャンキング実行システムＳの別実施形態である第２実施形態を説明する。第１実施形態では、ウェブサイトの検索サービスにおいて英語の検索クエリが入力される場合を例に挙げて説明した。チャンキング実行システムＳは、任意のサービスにおける任意の言語の検索クエリに適用可能であり、サービス及び言語は、第１実施形態の例に限られない。第２実施形態では、オンラインショッピングサービスにおいて日本語の検索クエリが入力される場合を例に挙げる。なお、第１実施形態と同様の点は、説明を省略する。

［２－１．第２実施形態の概要］
図７は、第２実施形態の概要を示す図である。例えば、ユーザは、ユーザ端末２０のブラウザ又はアプリケーションを起動し、オンラインショッピングサービスのトップページＰ２にアクセスする。第２実施形態では、サーバ１０が、オンラインショッピングサービスのトップページを含む種々のページを、ユーザに提供可能であるものとする。ユーザは、入力フォームＦ２０に任意の検索クエリを入力し、所望の商品を検索する。ユーザは、検索クエリの１つとして、ジャンル、在庫の有無、カラー、サイズ、産地、又はメーカー等の種々の属性を指定することもできる。検索クエリは、オンラインショッピングサービスの検索時に入力される。

図８は、日本語で入力される検索クエリの一例を示す図である。第２実施形態では、図８のような日本語の検索クエリ１～５が入力されるものとする。図８では、本開示に係る米国特許出願における参考用に、検索クエリ１～５の発音及び英訳を記載する。トークン１は、検索クエリ１に含まれるトークンである。トークン２－１，２－２は、検索クエリ２に含まれるトークンである。トークン３は、検索クエリ３に含まれるトークンである。トークン４は、検索クエリ４に含まれるトークンである。トークン５－１～５－３は、検索クエリ５に含まれるトークンである。

文字１－１～１－３は、検索クエリ１に含まれる文字である。文字２－１～２－６は、検索クエリ２，４に含まれる文字である。トークン２－１は、文字２－１～２－４から構成される。トークン２－２は、文字２－５，２－６から構成される。トークン４は、文字２－１～２－６から構成される。文字３－１～３－４は、検索クエリ３，５に含まれる文字である。トークン３は、文字３－１～３－４から構成される。トークン５－１は、文字３－１，３－２から構成される。トークン５－２は、文字３－３から構成される。トークン５－３は、文字３－４から構成される。

トークン１は、商品の種類を示す。トークン２－１は、架空の商品のメーカーを示す。トークン２－２は、商品の種類を示す。トークン３は、架空のアニメのタイトルを示す。トークン４は、トークン２－１とトークン２－２の間にスペースが入力されなかった文字列を示す。トークン５－１は、トークン３のうちの文字３－１，３－２の部分である。トークン５－１は、名詞である。トークン５－２は、助詞である。トークン５－３は、名詞である。

検索クエリ１は、商品の種類が適切に入力されているので、分割する必要はない。検索クエリ２は、商品のメーカーと、商品の種類と、の間にスペースが適切に配置されているので、分割又は結合する必要はない。検索クエリ３は、アニメのタイトルが適切に入力されているので、分割する必要はない。検索クエリ４は、商品のメーカーと、商品の種類と、の間にスペースが配置されておらず、これらが連続しているので、分割する必要がある。検索クエリ５は、アニメのタイトルの中に不要なスペースが配置されているので、結合する必要がある。

第２実施形態では、検索クエリ４及び検索クエリ５が適切なトークンになるようにチャンキングが実行される。チャンキングの流れは、第１実施形態と概ね同様であるが、個々の処理の詳細が第１実施形態とは異なる。例えば、第２実施形態では、複数の辞書データＤを利用したマッチングと、複数の共起尺度と、が利用されることによって、チャンキングが実行される。以降、第２実施形態の詳細を説明する。

［２－２．第２実施形態で実現される機能］
図９は、第２実施形態で実現される機能の一例を示す機能ブロック図である。サーバ１０は、第１実施形態と共通の機能を有するが、一部の機能が異なる。特定部１０８及び分割部１０９は、制御部１１を主として実現される。

［データ記憶部］
データ記憶部１００は、第１実施形態と概ね同様であるが、データ記憶部１００が記憶するデータの詳細が第１実施形態とは異なる。例えば、検索対象データベースＤＢは、オンラインショッピングモールで販売される商品に関する情報を含む。例えば、検索対象データベースＤＢは、商品を販売する店舗を識別可能な店舗ＩＤ、個々の商品を識別可能な商品ＩＤ、商品の検索用に抽出されたキーワードを含むインデックス、商品タイトル、商品ジャンル等の属性、商品の詳細な説明文、商品の画像、及び商品の価格といった情報が格納される。商品タイトルは、商品の簡単な説明を示す文字列である。商品タイトルは、単語の羅列であってもよい。商品タイトルや商品の詳細な説明文等は、店舗の担当者によって入力される。

また、データ記憶部１００は、複数の辞書データＤを記憶する点で第１実施形態と異なる。複数の辞書データＤは、第１辞書データＤ１、第２辞書データＤ２、及び第３辞書データＤ３を含む。第１辞書データＤ１、第２辞書データＤ２、及び第３辞書データＤ３のデータ構造は、第１実施形態で説明した辞書データＤと同様なので、図示を省略する。以降、第１辞書データＤ１、第２辞書データＤ２、及び第３辞書データＤ３を区別しない時は、単に辞書データＤと記載する。データ記憶部１００は、２つ又は４つ以上の辞書データＤを記憶してもよいし、第１実施形態のように１つの辞書データＤだけを記憶してもよい。

例えば、第１辞書データＤ１は、オンラインショッピングモールの管理者により作成される。第１辞書データＤ１に格納された語は、オンラインショッピングモールでよく入力される検索クエリに含まれるトークンである。第２辞書データＤ２に格納された語は、インターネット百科事典に掲載された語である。第３辞書データＤ３は、オンラインショッピングモールの商品ページにおける商品タイトルに基づいて作成される。

第３辞書データＤ３の語は、商品タイトルがそのまま格納されていてもよいし、商品タイトルに含まれる名詞が格納されてもよい。商品タイトルから名詞を抽出する方法は、公知の形態素解析等を利用すればよい。第１実施形態では、商品ジャンルごとに、当該商品ジャンルの商品の商品タイトルに基づいて第３辞書データＤ３が作成される場合を説明するが、特に商品ジャンルに関係なく、第３辞書データＤ３が作成されてもよい。

［検索クエリ取得部］
検索クエリ取得部１０１は、第１実施形態と同様である。

［マッチング実行部］
マッチング実行部１０２は、複数の辞書データＤを利用したマッチングを実行する。個々の辞書データＤのマッチング自体は、第１実施形態で説明した通りである。第２実施形態では、マッチング実行部１０２は、第１マッチング実行部１０２Ａ、第２マッチング実行部１０２Ｂ、及び第３マッチング実行部１０２Ｃを含む場合を説明するが、マッチング実行部１０２は、第１マッチング実行部１０２Ａ及び第２マッチング実行部１０２Ｂだけを含んでもよい。他にも例えば、マッチング実行部１０２は、第１マッチング実行部１０２Ａ及び第３マッチング実行部１０２Ｃだけを含んでもよいし、第２マッチング実行部１０２Ｂ及び第３マッチング実行部１０２Ｃだけを含んでもよい。

第２実施形態では、第１マッチング実行部１０２Ａ、第２マッチング実行部１０２Ｂ、及び第３マッチング実行部１０２Ｃの順序でマッチングが実行される場合を説明するが、これらの処理順は、任意の順序であってよい。例えば、第１マッチング実行部１０２Ａ、第３マッチング実行部１０２Ｃ、及び第２マッチング実行部１０２Ｂの順序、第２マッチング実行部１０２Ｂ、第１マッチング実行部１０２Ａ、及び第３マッチング実行部１０２Ｃの順序、又は他の順序でマッチングが実行されてもよい。

例えば、検索クエリに複数のトークンが含まれる場合、第１マッチング実行部１０２Ａは、検索クエリに含まれる複数のトークンと、第１辞書データＤ１と、に基づいて、第１マッチングを実行する。第１マッチングは、第１辞書データＤ１を利用したマッチングである。第１マッチングは、第１辞書データＤ１が利用される点で第１実施形態とは異なるが、第１マッチングの具体的な処理自体は、第１実施形態で説明したマッチングと同様である。第１マッチングでも、第１実施形態のマッチングで説明したように、第１辞書データＤ１との完全一致が要求されるものとするが、部分一致が要求されてもよい。この点は、第２マッチング及び第３マッチングも同様である。

第２マッチング実行部１０２Ｂは、複数のトークンのうちの一部のトークンが第１辞書データＤ１にヒットした場合、複数のトークンのうちの第１辞書データＤ１にヒットしなかったトークンと、第２辞書データＤ２と、に基づいて、第２マッチングを実行する。検索クエリに含まれるトークンのうち、第１マッチングで完全一致しなかったトークンが第２マッチングの対象になる。第２マッチングは、第２辞書データＤ２が利用される点と、第１マッチングで完全一致しなかったトークンが第２マッチングの対象になる点と、で第１実施形態とは異なるが、第２マッチングの具体的な処理自体は、第１実施形態で説明したマッチングと同様である。

第２実施形態では、第１辞書データＤ１は、第２辞書データＤ２よりも過去のマッチング率が高く、過去のマッチング率が相対的に高い第１辞書データＤ１に基づく第１マッチングは、過去のマッチング率が相対的に低い第２辞書データＤ２に基づく第２マッチングよりも先に実行される。過去のマッチング率とは、統計上の正解率である。例えば、過去に入力された適切な検索クエリに含まれるトークンをマッチングした場合のヒット率は、正解率に相当し、過去のマッチング率に相当する。

過去のマッチング率は、チャンキング実行システムＳの管理者により事前に計算されているものとする。例えば、管理者は、過去に入力された検索クエリと、この検索クエリに対応する適切なトークンと、のペアを多数準備する。管理者は、自身が操作するコンピュータに、これらのペアを辞書データＤとマッチングさせて完全一致した数を集計させる。このコンピュータは、当該集計された完全一致した数をペアの総計で割ることによって、過去のマッチング率を計算する。過去のマッチング率の計算方法自体は、公知の種々の方法を利用可能であり、上記の例に限られない。

第２実施形態では、オンラインショッピングサービスの管理者により作成された辞書データＤは、一般的な百科事典により作成された辞書データＤよりも過去のマッチング率が高いものとする。このため、オンラインショッピングサービスの管理者により作成された辞書データＤは、第１辞書データＤ１として利用される。一般的な百科事典により作成された辞書データＤは、第２辞書データＤ２として利用される。

第３マッチング実行部１０２Ｃは、オンラインショッピングサービスにおける商品タイトルを、第３辞書データＤ３として利用して第３マッチングを実行する。検索クエリに含まれるトークンのうち、第１マッチング及び第２マッチングで完全一致しなかったトークンが第３マッチングの対象になる。第３マッチングは、第３辞書データＤ３が利用される点と、第１マッチング及び第２マッチングで完全一致しなかったトークンが第３マッチングの対象になる点と、で第１実施形態とは異なるが、第３マッチングの具体的な処理自体は、第１実施形態で説明したマッチングと同様である。

なお、第３マッチングで利用される第３辞書データＤ３は、特定部１０８により特定された商品ジャンルに応じた第３辞書データＤ３であってもよい。この場合、商品ジャンルごとに、当該商品ジャンルに属する商品の商品タイトルに基づいて作成された第３辞書データＤ３が用意されているものとする。第３マッチング実行部１０２Ｃは、商品ジャンルに応じた第３辞書データＤ３に基づいて、第３マッチングを実行する。

例えば、図８の検索クエリ３は、最近人気が出たアニメのタイトルである。このタイトルと同じ文字列が第１辞書データＤ１、第２辞書データＤ２、又は第３辞書データＤ３の何れかに格納されていれば、第１マッチング、第２マッチング、又は第３マッチングの何れかにより、検索クエリ３と完全一致する。このため、第１マッチング、第２マッチング、又は第３マッチングの何れかにより、検索クエリ３が適切な検索クエリとして抜き出される。

一方、図８の検索クエリ５は、第１辞書データＤ１、第２辞書データＤ２、又は第３辞書データＤ３の何れかに格納されたアニメのタイトルと部分一致するが完全一致しない。このため、検索クエリ５は、第１マッチング、第２マッチング、及び第３マッチングでは抜き出されない。後述の共起尺度取得部１０３により得られた共起尺度により、検索クエリ５に含まれるトークン５－１～５－３が結合される。

［共起尺度取得部］
共起尺度取得部１０３は、第１共起尺度取得部１０３Ａ及び第２共起尺度取得部１０３Ｂを含む。第２実施形態では、第１共起尺度取得部１０３Ａが第２共起尺度取得部１０３Ｂよりも先に処理を実行する場合を説明するが、第２共起尺度取得部１０３Ｂが第１共起尺度取得部１０３Ａよりも先に処理を実行してもよい。

第１共起尺度取得部１０３Ａは、形態素解析により分割される前の複数のトークンのつながりに関する第１共起尺度を取得する。形態素解析自体は、公知の種々のツールを利用可能であり、例えば、MeCab又はJUMANと呼ばれるツールを利用可能である。日本語以外の言語の検索クエリであれば、その言語に応じた検体疎解析のツールが利用されるようにすればよい。

形態素解析により、検索クエリに含まれるトークンが言語上の最小単位である形態素に分割される。分割部１０９により形態素解析が実行される場合を説明するが、形態素解析は、他の機能ブロックによって実行されてもよい。第１共起尺度取得部１０３Ａの処理は、第１実施形態で説明した共起尺度取得部１０３の処理と同様であり、第１共起尺度は、第１実施形態で説明した共起尺度と同様である。

第２共起尺度取得部１０３Ｂは、形態素解析により分割された形態素に基づいて、接尾語又は接頭語に関する第２共起尺度を取得する。例えば、後述の分割部１０９は、検索クエリに含まれるトークンに対し、形態素解析を実行する。検索クエリ取得部１０１が取得した検索クエリの全てのトークンに対して形態素解析が実行されてもよいし、検索クエリ取得部１０１が取得した検索クエリの一部のトークンに対して形態素解析が実行されてもよい。第２実施形態では、第３マッチングまで実行されて抜き出されなかったトークンに対して形態素解析が実行されるものとする。

第２共起尺度は、複数の形態素同士が接尾語とその前にある形態素の関係であるか否か、又は、複数の形態素同士が接頭語とそれに続く形態素の関係であるか否かを示す情報である。第２共起尺度の取得方法自体は、公知の方法を利用可能である。例えば、接尾語及び接頭語の少なくとも一方が登録された辞書データＤを利用した方法であってもよい。この場合には、辞書データＤに定義された接尾語と完全一致する形態素と、その前にある形態素と、の第２共起尺度が高くなる。辞書データＤに定義された接頭語と完全一致する形態素と、その後に続く形態素と、の第２共起尺度が高くなる。

例えば、トークン１は、形態素解析により、文字１－１及び文字１－２から構成される形態素と、文字１－３だけから構成される形態素と、に分解される。文字１－３は、接尾語の１つなので、これらの語の第２共起尺度が高くなる。図８の例では記載していないが、形態素として接尾語が分解された場合には、この形態素と、続く形態素と、の第２共起尺度も高くなる。図８の他のトークンは、接尾語又は接頭語は含まれないので、第２共起尺度は、あまり高くならない。

以降、第１共起尺度の算出方法を第１算出方法と記載し、第２共起尺度の算出方法を第２算出方法と記載する。第１算出方法は、第２算出方法よりも過去のマッチング率が高いものとする。過去のマッチング率の意味は、辞書データＤで説明した通りである。第１共起尺度取得部１０３Ａは、複数のトークンに基づいて、過去のマッチング率が相対的に高い第１算出方法を利用した第１共起尺度を取得する。第２共起尺度取得部１０３Ｂは、複数のトークンのうちの第１共起尺度が閾値未満のトークンに基づいて、過去のマッチング率が相対的に低い第２算出方法を利用した第２共起尺度を取得する。

［出力取得部］
出力取得部１０４は、第１実施形態と同様である。

［チャンキング実行部］
チャンキング実行部１０５は、複数の辞書データＤを利用したマッチングの実行結果と、学習モデルＭからの出力と、に基づいて、チャンキングを実行する。例えば、チャンキング実行部１０５は、第１マッチングの実行結果、第２マッチングの実行結果、及び学習モデルＭからの出力に基づいて、チャンキングを実行してもよい。個々のマッチングの実行結果に基づくチャンキングの実行方法は、第１実施形態と同様であり、チャンキング実行部１０５は、マッチングしたトークンについては、チャンキングしないと決定する。

例えば、チャンキング実行部１０５は、マッチングの実行結果、学習モデルＭからの出力、第１共起尺度、及び第２共起尺度に基づいて、チャンキングを実行してもよい。個々の共起尺度に基づくチャンキングの実行方法は、第１実施形態と同様である。例えば、チャンキング実行部１０５は、第１共起尺度が閾値以上のトークン同士が結合して１つのトークンとなるように、チャンキングを実行する。チャンキング実行部１０５は、第１共起尺度に基づいて、つながりのあるトークン同士が１つのトークンとなるように、チャンキングを実行する。

第２共起尺度は、接尾語又は接頭語に関する情報であり、チャンキング実行部１０５は、第２共起尺度に基づいて、接尾語とその前の形態素が１つのトークンとなるように、又は、接頭語とその後の形態素が１つのトークンとなるように、チャンキングを実行してもよい。チャンキング実行部１０５は、第２共起尺度に基づいて、接尾語とその前の形態素が１つのトークンとなるように、又は、接頭語とその後の形態素が１つのトークンとなるように、チャンキングを実行する。即ち、チャンキング実行部１０５は、第２共起尺度が閾値以上の形態素同士が結合して１つのトークンとなるように、チャンキングを実行する。

チャンキング実行部１０５は、出力取得部１０４が取得した分割要否情報が分割することを示すトークンを、辞書データＤを利用して分割することによって、チャンキングを実行してもよい。第２実施形態では、第１辞書データＤ１が利用される場合を説明するが、チャンキング実行部１０５は、第２辞書データＤ２又は第３辞書データＤ３を利用してトークンを分割してもよい。チャンキング実行部１０５は、あるトークンを分割することを分割要否情報が示す場合、このトークンと、第１辞書データＤ１と、が部分一致するか否かを判定する。チャンキング実行部１０５は、このトークンと部分一致する語が第１辞書データＤ１に存在する場合、このトークンが、この語から構成されるトークンと、それ以外の部分から構成されるトークンと、を含むように分割する。

チャンキング実行部１０５は、マッチングの実行結果、学習モデルＭからの出力、及び商品ジャンルに基づいて、チャンキングを実行してもよい。第２実施形態では、チャンキング実行部１０５は、特定部１０８が特定した商品ジャンルに対応する第３辞書データに基づいて、チャンキングを実行する。チャンキング実行部１０５は、商品ジャンルに対応する第３辞書データに基づく第３マッチングを第３マッチング実行部１０２Ｃに実行させ、第３マッチングの実行結果に基づいて、チャンキングを実行する。第３マッチングにより完全一致するトークンについては、チャンキングの対象にはならない。

［検索処理実行部］
検索処理実行部１０６は、第１実施形態と同様である。

［提示部］
提示部１０７は、第１実施形態と同様である。

［特定部］
特定部１０８は、検索クエリに対応する商品ジャンルを特定する。商品ジャンルは、商品を分類するために利用される情報である。商品ジャンルは、商品カテゴリと呼ばれることもある。商品ジャンルは、商品の属性の１つである。検索クエリに対応する商品ジャンルとは、検索クエリに関連付けられた商品ジャンルである。例えば、検索クエリに商品ジャンルが含まれる場合には、検索クエリに含まれる商品ジャンルは、検索クエリに対応する商品ジャンルである。検索クエリに商品ジャンルが付帯する場合には、検索クエリに付帯した商品ジャンルは、検索クエリに対応する商品ジャンルである。

第２実施形態では、ユーザが商品ジャンルを指定するものとする。例えば、ユーザ端末２０は、ユーザがトップページＰ２等から指定した商品ジャンルを、検索クエリとともにサーバ１０に送信する。サーバ１０は、ユーザ端末２０から商品ジャンル及び検索クエリを受信する。特定部１０８は、ユーザ端末２０から受信した商品ジャンルを取得することによって、商品ジャンルを特定する。ユーザが商品ジャンルを指定しないこともあるので、この場合には、特定部１０８の処理は省略される。

なお、商品ジャンルの特定方法は、上記の例に限られない。特定部１０８は、検索クエリに含まれるトークンに基づいて、商品ジャンルを特定してもよい。この場合、データ記憶部１００には、トークンに含まれ得る文字列と、商品ジャンルと、の関係が定義されているものとする。例えば、商品ジャンル「電化製品」であれば、メーカー名や商品名といった文字列が関連付けられている。他にも例えば、商品ジャンル「被服」であれば、ブランド名やサイズといった文字列が関連付けられている。特定部１０８は、上記関係に定義された文字列が検索クエリに含まれる場合、当該文字列に関連付けられた商品ジャンルを取得することによって、検索クエリに対応する商品ジャンルを特定する。

［分割部］
分割部１０９は、形態素解析に基づいて、検索クエリに含まれる少なくとも１つのトークンを分割する。分割部１０９は、先述した公知のツールに基づいて、検索クエリに含まれるトークンを形態素に分割する。形態素解析のツールについては、先述したように、公知の種々のツールを利用可能である。図８の例であれば、トークン１は、文字１－１及び文字１－２からなる形態素と、文字１－３からなる形態素と、に分割される。トークン２－１，２－２は、これ以上分割されない。トークン３は、文字３－１及び文字３－２からなる形態素、文字３－３からなる形態素、及び文字３－４からなる形態素に分割される。トークン４は、文字２－１～文字２－４からなる形態素と、文字２－５，２－６からなる形態素と、に分割される。トークン５－１～５－３は、これ以上分割されない。ただし、第２実施形態では、全てのトークンが形態素解析の対象になるとは限らないので、あくまで形態素解析の対象となったトークンに対して形態素解析が実行される。

［２－３．第２実施形態で実行される処理］
図１０及び図１１は、第２実施形態で実行される処理の一例を示すフロー図である。この処理は、制御部１１，２１が記憶部１２，２２に記憶されたプログラムに従って動作することによって実行される。

Ｓ２００～Ｓ２０３の処理は、オンラインショッピングサービスにおける検索クエリという点でＳ１００～Ｓ１０３と異なるが、他の点についてはＳ１００～Ｓ１０３の処理と同様である。続くＳ２０４及びＳ２０５の処理は、第１辞書データＤ１が利用される点でＳ１０４及びＳ１０５の処理と異なるが、他の点については、Ｓ１０４及びＳ１０５の処理と同様である。検索クエリのうち、Ｓ２０５の処理で抜き出されなかったトークンがＳ２０６の処理対象となる。

続くＳ２０６～Ｓ２０８の処理は、Ｓ１０６～Ｓ１０８の処理と同様である。検索クエリのうち、Ｓ２０８の処理で抜き出されなかったトークンがＳ２０９の処理対象となる。続くＳ２０９及びＳ２１０の処理は、第２辞書データＤ２が利用される点でＳ１０４及びＳ１０５の処理と異なるが、他の点については、Ｓ１０４及びＳ１０５の処理と同様である。検索クエリのうち、Ｓ２１０の処理で抜き出されなかったトークンがＳ２１１の処理対象となる。

続くＳ２１１及びＳ２１２の処理は、第３辞書データＤ３が利用される点でＳ１０４及びＳ１０５の処理と異なるが、他の点については、Ｓ１０４及びＳ１０５の処理と同様である。この第３辞書データＤ３は、検索クエリに対応する商品カテゴリのものである。商品カテゴリは、Ｓ２１１の処理で特定されるものとする。検索クエリのうち、Ｓ２１２の処理で抜き出されなかったトークンがＳ２１３の処理対象となる。

図１１に移り、サーバ１０は、Ｓ２１２の処理までに抜き出されなかったトークン（検索クエリに残っているトークン）に対し、形態素解析を実行して形態素に分割する（Ｓ２１３）。サーバ１０は、Ｓ２１３で分割した形態素に基づいて、接尾語又は接頭語に関する第２共起尺度を取得し（Ｓ２１４）、第２共起尺度が閾値以上であるか否かを判定する（Ｓ２１５）。第２共起尺度が閾値以上であると判定された場合（Ｓ２１５；Ｙ）、サーバ１０は、検索クエリから、共起尺度が閾値以上になった複数の形態素同士が１つのトークンになるように、チャンキングを実行する（Ｓ２１６）。

Ｓ２１７及びＳ２１８の処理は、Ｓ１０８及びＳ１０９と同様である。Ｓ２１７の処理で学習モデルＭに入力されるのは、あくまで検索クエリ内のトークンであり、Ｓ２１３で分割された形態素ではない。Ｓ２１８では、サーバ１０は、分割要否情報が分割要を示す場合、第１辞書データＤ１に基づいて、１つのトークンを複数に分割する。Ｓ２１９～Ｓ２２１の処理は、Ｓ１１０～Ｓ１１２と同様である。

第２実施形態のチャンキング実行システムＳによれば、複数の辞書データＤを利用したマッチングを実行し、複数の辞書データＤを利用したマッチングの実行結果と、学習モデルＭからの出力と、に基づいて、チャンキングを実行する。これにより、例えば、単一の辞書データＤだけを利用する場合に比べて、検索クエリに含まれるトークンを適切なトークンにすることができる確率が高まり、チャンキングの精度が高まる。

また、チャンキング実行システムＳは、複数のトークンのうちの一部のトークンが第１辞書データＤ１にヒットした場合、複数のトークンのうちの第１辞書データＤ１にヒットしなかったトークンと、第２辞書データＤ２と、に基づいて、第２マッチングを実行する。これにより、第１マッチングで第１辞書データＤ１に存在するトークンがあれば、第２マッチングの対象となるトークンを減らせるので、サーバ１０の処理負荷が軽減する。不必要なマッチングをしないことにより、処理を高速化できる。

また、チャンキング実行システムＳでは、過去のマッチング率が相対的に高い第１辞書データＤに基づく第１マッチングは、過去のマッチング率が相対的に低い第２辞書データＤ２に基づく第２マッチングよりも先に実行される。これにより、第２マッチングの対象となるトークンを減らせる確率を高めて、サーバ１０の処理負荷を効果的に軽減し、かつ、処理をより高速化できる。

また、チャンキング実行システムＳは、第２共起尺度に基づいて、接尾語とその前の形態素が１つのトークンとなるように、又は、接頭語とその後の形態素が１つのトークンとなるように、チャンキングを実行する。これにより、例えば、本来であれば１つのトークンとすべきものが学習モデルＭによって誤って分解されてしまうことを防止し、チャンキングの精度が高まる。

また、チャンキング実行システムＳは、第１共起尺度に基づいて、つながりのあるトークン同士が１つのトークンとなるように、チャンキングを実行する。チャンキング実行システムＳは、第２共起尺度に基づいて、接尾語とその前の形態素が１つのトークンとなるように、又は、接頭語とその後の形態素が１つのトークンとなるように、チャンキングを実行する。これにより、つながりのある語同士を１つのトークンにまとめることができ、チャンキングの精度が高まる。

また、チャンキング実行システムＳは、複数のトークンに基づいて、過去のマッチング率が相対的に高い第１算出方法を利用した第１共起尺度を取得する。チャンキング実行システムＳは、複数のトークンのうちの第１共起尺度が閾値未満のトークンに基づいて、過去のマッチング率が相対的に低い第２算出方法を利用した第２共起尺度を取得する。これにより、第２共起尺度の取得対象となるトークンを減らせることがあり、サーバ１０の処理負荷が軽減する。不必要な第２共起尺度を取得しないことにより、処理を高速化できる。

また、チャンキング実行システムＳは、分割要否情報が分割することを示すトークンを、第１辞書データＤ１を利用して分割し、第１辞書データＤ１を利用した分割の実行結果に基づいて、チャンキングを実行する。これにより、オンラインショッピングサービス特有の第１辞書データＤ１を利用して本当に分割するか否かを決定できるので、検索クエリに対するチャンキングの精度が効果的に高まる。例えば、学習モデルＭが、オンラインショッピングサービスではなく、一般的な語分割を実行する汎用的なモデルだったとしても、オンラインショッピングサービス特有の第１辞書データＤ１を利用することで、より精度の高いトークンの分割を実現できる。

また、チャンキング実行システムＳは、検索クエリに対応する商品ジャンルを特定し、マッチングの実行結果、学習モデルＭからの出力、及び商品ジャンルに基づいて、チャンキングを実行する。これにより、商品ジャンルを利用した適切なチャンキングを実行できるので、チャンキングの精度が効果的に高まる。例えば、商品ジャンルに応じた第３辞書データＤ３を第３マッチングで利用する場合には、第３マッチングで比較対象となる語を減らすことができ、サーバ１０の処理負荷を軽減できる。不必要なマッチングをしないことにより、処理を高速化できる。

また、チャンキング実行システムＳは、オンラインショッピングサービスにおける商品タイトルを、第３辞書データＤ３として利用してマッチングを実行する。これにより、商品タイトルを流用することによって、第３辞書データＤ３を作成する手間を省くことができる。また、オンラインサービスにおける検索精度が高まる。

［３．変形例］
なお、本開示は、以上に説明した実施形態に限定されるものではない。本開示の趣旨を逸脱しない範囲で、適宜変更可能である。

例えば、上記説明した変形例を組み合わせてもよい。例えば、学習モデルＭは、入力されたトークンの分割の要否ではなく、入力されたトークンの結合の要否を推定してもよい。学習モデルＭは、入力されたトークンの分割及び結合の両方の要否を推定してもよい。例えば、共起尺度はチャンキングで利用されなくてもよい。また例えば、サーバ１０で実現されるものとして説明した機能は、他のコンピュータで実現されてもよいし、複数のコンピュータで分担されてもよい。例えば、データ記憶部１００に記憶されるものとしたデータは、データベースサーバに記憶されていてもよい。

Ｓチャンキング実行システム、１０サーバ、１１，２１制御部、１２，２２記憶部、１３，２３通信部、２０ユーザ端末、２４操作部、２５表示部、１００データ記憶部、１０１検索クエリ取得部、１０２マッチング実行部、１０２Ａ第１マッチング実行部、１０２Ｂ第２マッチング実行部、１０２Ｃ第３マッチング実行部、１０３共起尺度取得部、１０３Ａ第１共起尺度取得部、１０３Ｂ第２共起尺度取得部、１０４出力取得部、１０５チャンキング実行部、１０６検索処理実行部、１０７提示部、１０８特定部、１０９分割部。

Claims

少なくとも１つのトークンを含む検索クエリを取得する検索クエリ取得部と、
前記検索クエリに基づいて、チャンキングに関する学習モデルからの出力を取得する出
力取得部と、
前記検索クエリに基づいて、共起尺度を取得する共起尺度取得部と、
辞書データを利用したマッチングにより前記辞書データに存在すると判定された前記トークンを前記検索クエリから抜き出して、残りの前記トークンについて、前記学習モデルからの出力と、前記共起尺度と、に基づいて、前記検索クエリに関するチャンキングを実行するチャンキング実行部と、
を含むチャンキング実行システム。
複数のトークンを含む検索クエリを取得する検索クエリ取得部と、
形態素解析に基づいて、前記複数のトークンを複数の形態素に分割する分割部と、
前記形態素解析により分割される前の前記複数のトークンのつながりに関する第１共起尺度を取得し、前記形態素解析により分割された形態素に基づいて、接尾語又は接頭語に関する第２共起尺度を取得する共起尺度取得部と、
辞書データを利用したマッチングにより前記辞書データに存在すると判定された前記トークンを前記検索クエリから抜き出して、残りの前記トークンについて、前記第１共起尺度に基づいて、つながりのあるトークン同士が１つのトークンとなるように、前記検索クエリに関するチャンキングを実行し、前記第２共起尺度に基づいて、接尾語とその前の形態素が１つのトークンとなるように、又は、接頭語とその後の形態素が１つのトークンとなるように、前記チャンキングを実行するチャンキング実行部と、
を含むチャンキング実行システム。
前記共起尺度取得部は、
前記複数のトークンに基づいて、過去のマッチング率が相対的に高い第１算出方法を利用した前記第１共起尺度を取得し、
前記複数のトークンのうちの前記第１共起尺度が閾値未満のトークンに基づいて、過去のマッチング率が相対的に低い第２算出方法を利用した前記第２共起尺度を取得する、
請求項２に記載のチャンキング実行システム。
コンピュータが、
少なくとも１つのトークンを含む検索クエリを取得する検索クエリ取得ステップと、
前記検索クエリに基づいて、チャンキングに関する学習モデルからの出力を取得する出力取得ステップと、
前記検索クエリに基づいて、共起尺度を取得する共起尺度取得ステップと、
辞書データを利用したマッチングにより前記辞書データに存在すると判定された前記トークンを前記検索クエリから抜き出して、残りの前記トークンについて、前記学習モデルからの出力と、前記共起尺度と、に基づいて、前記検索クエリに関するチャンキングを実行するチャンキング実行ステップと、
を実行するチャンキング実行方法。
コンピュータが、
複数のトークンを含む検索クエリを取得する検索クエリ取得ステップと、
形態素解析に基づいて、前記複数のトークンを複数の形態素に分割する分割ステップと、
前記形態素解析により分割される前の前記複数のトークンのつながりに関する第１共起尺度を取得し、前記形態素解析により分割された形態素に基づいて、接尾語又は接頭語に関する第２共起尺度を取得する共起尺度取得ステップと、
辞書データを利用したマッチングにより前記辞書データに存在すると判定された前記トークンを前記検索クエリから抜き出して、残りの前記トークンについて、前記第１共起尺度に基づいて、つながりのあるトークン同士が１つのトークンとなるように、前記検索クエリに関するチャンキングを実行し、前記第２共起尺度に基づいて、接尾語とその前の形態素が１つのトークンとなるように、又は、接頭語とその後の形態素が１つのトークンとなるように、前記チャンキングを実行するチャンキング実行ステップと、
を実行するチャンキング実行方法。
少なくとも１つのトークンを含む検索クエリを取得する検索クエリ取得部、
前記検索クエリに基づいて、チャンキングに関する学習モデルからの出力を取得する出力取得部、
前記検索クエリに基づいて、共起尺度を取得する共起尺度取得部、
辞書データを利用したマッチングにより前記辞書データに存在すると判定された前記トークンを前記検索クエリから抜き出して、残りの前記トークンについて、前記学習モデルからの出力と、前記共起尺度と、に基づいて、前記検索クエリに関するチャンキングを実行するチャンキング実行部、
としてコンピュータを機能させるためのプログラム。
複数のトークンを含む検索クエリを取得する検索クエリ取得部、
形態素解析に基づいて、前記複数のトークンを複数の形態素に分割する分割部、
前記形態素解析により分割される前の前記複数のトークンのつながりに関する第１共起尺度を取得し、前記形態素解析により分割された形態素に基づいて、接尾語又は接頭語に関する第２共起尺度を取得する共起尺度取得部、
辞書データを利用したマッチングにより前記辞書データに存在すると判定された前記トークンを前記検索クエリから抜き出して、残りの前記トークンについて、前記第１共起尺度に基づいて、つながりのあるトークン同士が１つのトークンとなるように、前記検索クエリに関するチャンキングを実行し、前記第２共起尺度に基づいて、接尾語とその前の形態素が１つのトークンとなるように、又は、接頭語とその後の形態素が１つのトークンとなるように、前記チャンキングを実行するチャンキング実行部、
としてコンピュータを機能させるためのプログラム。