JP2013522719A - 製品のカテゴリ分類 - Google Patents

製品のカテゴリ分類 Download PDF

Info

Publication number
JP2013522719A
JP2013522719A JP2012557037A JP2012557037A JP2013522719A JP 2013522719 A JP2013522719 A JP 2013522719A JP 2012557037 A JP2012557037 A JP 2012557037A JP 2012557037 A JP2012557037 A JP 2012557037A JP 2013522719 A JP2013522719 A JP 2013522719A
Authority
JP
Japan
Prior art keywords
product
products
category
word sequence
product category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012557037A
Other languages
English (en)
Other versions
JP2013522719A5 (ja
Inventor
ジョーン・リーン
リウ・ホワレイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN2010101221412A external-priority patent/CN102193936B/zh
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2013522719A publication Critical patent/JP2013522719A/ja
Publication of JP2013522719A5 publication Critical patent/JP2013522719A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【解決手段】製品のカテゴリ分類は、取得されたデータから複数の製品のタイトルを抽出し、タイトルをフレーズに分割し、フレーズについての各スコアを決定し、フレーズについての決定された各のスコアに少なくとも部分的に基づくフレーズの少なくとも1つを使用して、複数の製品のうちの第1の製品についての第1のワードシーケンスを構成し、第1のワードシーケンスを複数の製品のうちの第2の製品についての第2のワードシーケンスと比較し、比較に少なくとも部分的に基づいて、複数の製品のうちの第1の製品と第2の製品とを統合して1つの製品カテゴリに入れることを含む。
【選択図】図1

Description

[関連出願の相互参照]
本出願は、あらゆる目的のために、参照によって本明細書に組み込まれる、2010年3月9日に出願された発明の名称を「METHOD AND DEVICE FOR CATEGORIZING DATA(製品をカテゴリ分類するための方法及び装置)」とする中国特許出願第201010122141.2号に基づく優先権を主張する。該出願は、
本発明は、データ処理の技術に関し、特に、製品データをカテゴリ分類するための方法及びシステムに関する。
電子商取引ウェブサイトでは、一般に、ウェブサイト上の製品を記述する各種のデータがテキストやデータ表などの形で記憶されている。電子ウェブサイトで取り上げられるデータは大量なので、全ての製品に関する記述データは、大規模な情報コンテンツを形成する。したがって、とりわけ類似の製品について、データをどの程度効果的に管理するべきかに関する問題がある。
各種の電子商取引ウェブサイトでは、クラスタリング技術を使用して製品の各種のデータをカテゴリ分類することが一般的である。代表的なクラスタリング技術は、既定の一連のルール及び条件に基づいて、製品に関するデータをカテゴリ別に分類する(例えば、類似の製品は、同じカテゴリに分類される)。
通常使用されるクラスタリング方法の一例は、階層的クラスタリングである。このクラスタリング階層的クラスタリング方法は、ボトムアップポリシーのことを言う。代表的なボトムアップポリシーでは、カテゴリ分類されるべき各オブジェクトが、最初は別々のアトムクラスタと見なされ、これらのアトムクラスタは、次いで、同じカテゴリに属する全てのオブジェクトが同じグループにまとめられるまで又は終了条件が満たされるまで、より高いレベルに新しいクラスタを形成するために統合される。
しかしながら、上記のクラスタリング方法を使用して電子商取引ウェブサイトのデータを分類するためには、広範なデータ処理が必要とされ、これは、システムリソースの非効率を招くと考えられる。
発明の様々な実施形態が、以下の詳細な説明及び添付の図面で開示される。
製品をカテゴリ分類するためのシステムの一実施形態を示した図である。
製品をカテゴリ分類するプロセスの一実施形態を示したフローチャートである。
製品をカテゴリ分類するプロセスの別の一実施形態を示したフローチャートである。
製品データをカテゴリ分類及び使用するためのシステムの一実施形態を示した図である。
本発明は、プロセス、装置、システム、合成物、コンピュータによって読み取り可能なストレージ媒体に実装されたコンピュータプログラム製品、並びに/又は結合先のメモリに記憶された命令及び/若しくは結合先のメモリによって提供される命令を実行するように構成されたプロセッサなどのプロセッサを含む、数々の形態で実装することができる。本明細書では、これらの実装形態、又は本発明がとりえるその他のあらゆる形態を、技術と称することができる。総じて、開示されたプロセスのステップの順序は、本発明の範囲内で可変である。別途明記されない限り、タスクを実施するように構成されるとして説明されるプロセッサ又はメモリなどのコンポーネントは、所定時にタスクを実施するように一時的に構成される汎用コンポーネントとして、又はタスクを実施するように製造された特殊コンポーネントとして実装することができる。本明細書で使用される「プロセッサ」という用語は、コンピュータプログラム命令などのデータを処理するように構成された1つ又は2つ以上のデバイス、回路、及び/又は処理コアを言う。
本発明の原理を例示した添付の図面とともに、以下で、発明の1つ又は2つ以上の実施形態の詳細な説明が提供される。本発明は、このような実施形態との関連のもとで説明されているが、いかなる実施形態にも限定されない。本発明の範囲は、特許請求の範囲によってのみ限定され、本発明は、数々の代替形態、変更形態、及び均等物を内包している。以下の説明では、本発明の完全な理解を可能にするために、数々の具体的詳細が明記されている。これらの詳細は、例示を目的として提供されるものであり、本発明は、これらの詳細の一部又は全部を伴わずとも、特許請求の範囲にしたがって実施することができる。明瞭さを期するため、本発明に関連する技術分野において知られる技術要素は、本発明が不必要に不明瞭にされないように詳細な説明を省略される。
製品のカテゴリ分類が開示される。一部の実施形態では、製品データが取得され、製品データの中で言及されている製品のタイトルが抽出される。一部の実施形態では、製品データから製品の属性情報も抽出される。抽出された情報は、フレーズに分割される。フレーズの過去発生頻度に少なくとも部分的に基づいて、各フレーズについてのスコアが決定される。製品について、1つ又は2つ以上の一連のフレーズが選択され、ワードシーケンスに構成される。各製品について構成されたワードシーケンスは、その他の製品のワードシーケンスと比較される。類似のワードシーケンスを持つ製品は、統合されて1つのカテゴリ下の製品集合にされる。
一部の実施形態では、類似のワードシーケンスを持つ製品を統合して1つのカテゴリ下の製品集合にすることは、また、そのカテゴリの製品の関連データ(例えば、製品のカテゴリを記述する付随の製品データ)を統合することも含む。
図1は、製品をカテゴリ分類するためのシステムの一実施形態を示した図である。図に示された例では、システム100は、抽出ユニット10と、分割ユニット11と、選択ユニット12と、統合ユニット13と、処理ユニット14とを含む。
システム100は、パソコン、サーバコンピュータ、スマートフォンなどの手持ち式のすなわち携帯型のデバイス、フラットパネルデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家庭用電子機器、ネットワークPC、ミニコンピュータ、大規模コンピュータ、特殊用途向けデバイス、上記のシステム若しくはデバイスの任意を含む分散コンピューティング環境、又は1つ若しくは2つ以上のプロセッサと、該プロセッサに結合され該プロセッサに命令を提供するように構成されたメモリと、を含むその他のハードウェア/ソフトウェア/ファームウェアの組み合わせなどの、任意の適切なコンピューティングデバイスを使用して実装することができる。
ユニットは、1つ又は2つ以上の汎用プロセッサ上で実行されるソフトウェアコンポーネントとして、プログラマブルロジックデバイス及び/若しくは所定の機能を実施するように設計された特殊用途向け集積回路などのハードウェアとして、又はそれらの組み合わせとして実装することができる。一部の実施形態では、ユニットは、本発明の実施形態で説明された方法をコンピュータデバイス(パソコン、サーバ、ネットワーク機器など)に実行させるための幾つかの命令を含み且つ不揮発性のストレージ媒体(光ディスク、フラッシュストレージデバイス、モバイルハードディスクなど)に記憶させることができるソフトウェア製品の形で具現化することができる。ユニットは、1つのデバイスに実装する又は複数のデバイスに分散させることができる。ユニットの機能は、互いに合体させる又は複数のサブユニットに更に分けることができる。
抽出ユニット10は、カテゴリ分類されるべき製品に関連するデータを取得するように構成される。抽出ユニット10は、また、取得されたデータから製品のタイトルを抽出するように構成される。一部の実施形態では、抽出ユニット10は、取得されたデータから製品の属性情報も抽出するように構成される。
分割ユニット11は、製品のタイトルの各々を1つ又は2つ以上のフレーズに分割するように構成され、各フレーズは、1つ又は2つ以上のワードを含む。分割ユニットは、更に、フレーズの過去発生頻度を表す各フレーズのスコアを決定するように構成される。
選択ユニット12は、各製品についての既定の条件を満たすスコアを持つフレーズを選択し、それらのフレーズを統合してその製品のワードシーケンスにするように構成される。
統合ユニット13は、その製品について構成されたワードシーケンスを互いに比較するように構成される。一部の実施形態では、統合ユニット13は、どの製品が類似のワードシーケンスを有するかを決定し、類似の対応するワードシーケンスを有する製品を統合して1つの製品カテゴリに入れるように構成される。一部の実施形態では、類似のワードシーケンスを持つ製品について、統合ユニット13は、また、同じカテゴリの製品の関連データ(例えば、属性情報やその他の記述データ)を統合する(そして例えばその製品カテゴリを記述するデータとする)。
処理ユニット14は、統合ユニット13によって決定された製品カテゴリの各々に対応する識別子を設定及び記憶するように構成される。
図2は、製品をカテゴリ分類するプロセスの一実施形態を示したフローチャートである。一部の実施形態では、プロセス200は、図1の100などの誘導検索システムにおいて実行される。
ステップ202では、カテゴリ分類されるべき製品に関連するデータが取得され、それらの製品のタイトル及びその他の属性情報が抽出される。
一部の実施形態では、電子商取引ウェブサイトにおいて、製品に関連するデータが手動で(例えば、ウェブサイトのオペレータ又は登録ユーザによって)ウェブサイトに入力される。例えば、ユーザは、ユーザが製品に関連するデータを入力することができるフィールドを特徴付けるウェブサイトのウェブページにアクセスすることができる。次いで、そのウェブページのコンテンツは、ユーザに伝送することができる。サーバは、次いで、そのコンテンツからタイトル及びその他の属性情報を抽出する。サーバは、また、抽出されたタイトルをフレーズに分割する。
一部の実施形態では、製品データは、製品のカテゴリ分類を実施するために(例えば、電子商取引ウェブサイト用に記憶されているカテゴリ分類をアップデートするために)、定期的に及び/又は自動的に取得される。一部の実施形態では、製品データは、電子商取引ウェブサイトに関連付けられたサーバ(例えば、ウェブサイトのプラットフォームをサポートするとともにウェブサイトのためにコンテンツの少なくとも一部を記憶しているサーバ)によって取得される。例えば、サーバは、このようなデータがウェブサイトにアップロードされた後に、製品データを取得することができる。
各種の実施形態において、製品のタイトルは、その製品を正確に記述するキーワードを含むので、製品のタイトルを抽出することが、望ましいとされる。製品に関連するデータの例としては、タイトル、価格、及びモデル、年、メーカなどに関連するその他の情報が挙げられる。例えば、ヘアドライヤー製品のタイトルは、「HairShineブランドによるModel D3506のヘアドライヤー」であるかもしれない。
各種の実施形態において、製品の属性情報は、製品の詳細な記述を含む。例えば、ヘアドライヤーの属性情報は、製品が市場に出された時期、ヘアドライヤーのモデル及びカラー、並びに評価点(評価スコア)を含むことができる。一部の実施形態では、属性及び対応する属性値は、属性及び対応する属性値を表す識別子によって示される。一部の実施形態では、属性及び対応する属性値は、属性識別子:属性値識別子の記号ペアの形で表される。例えば、製品のカラー属性が緑であるならば、それは、属性A:2000として記すことができる。ここで、Aは、カラー属性の識別子であり、2000は、属性値緑の識別子である。一部の実施形態では、製品を統合して(例えば各々が1つのカテゴリに関連付けられた)1つ又は2つ以上のグループにする際に、異なる製品のタイトル及び属性情報の両方の類似度が考慮される。したがって、一部の実施形態では、ステップ200において、製品のタイトル及び属性情報の両方が抽出される。
ステップ204では、製品のタイトルがフレーズに分割される。
一部の実施形態では、抽出された製品のタイトル及び/又は属性情報は、1つ又は2つ以上のフレーズに分割され、各フレーズは、少なくとも1つのワードを含む。一部の実施形態では、タイトルは、1つ又は2つ以上のフレーズの識別可能意味に少なくとも基づいて、1つ又は2つ以上のフレーズに分割される。一部の実施形態では、タイトルの分割は、どの個々のワードをフレーズと見なすことができるか及びどのワードグループをフレーズと見なすことができるかを決定する既定のルール集合に基づいて実施される。例えば、製品のタイトル「HairShineブランドによるModel D3506のヘアドライヤー」は、「HairShineブランド」、「Model D3506」、及び「ヘアドライヤー」に分割される。
一部の実施形態では、タイトル及び/又は属性情報のフレーズへの分割は、特定のフレーズを廃棄することも含む。例えば、分割プロセスの終了時に、ブランド及び製品タイプを示すフレーズ(例えば、「HairShineブランド」及び「Model D3506」)が維持される。反対に、製品のカテゴリ分類に密接に結び付かない傾向が強いフレーズ(例えば、「認定商品」、「セール」、及び「特価」)は、分割プロセスの終了時に排除される。一部の実施形態では、どのフレーズが廃棄されるかは、データベースに記憶されている過去の基準情報を使用して決定される。
一部の実施形態では、製品のタイトル及び製品情報は、Hadoop分散コンピューティングシステムなどのプラットフォームに実装されたツールを使用してフレーズに分割される。一部の実施形態では、Hadoop分散アーキテクチャにおいて(例えば、50から300のマシンで構成されたコンピューティングクラスタにおいて)Hadoopプログラムが実行される。
ステップ206では、フレーズについてのそれぞれのスコアが決定される。一部の実施形態では、分割によって生成されて廃棄されなかった各フレーズについてのスコアが決定される。一部の実施形態では、フレーズのスコアは、フレーズの過去発生頻度を表す。フレーズの過去発生頻度は、関連付けられた電子商取引ウェブサイトのユーザがそのフレーズを検索した回数、ユーザによって入力されたタイトル情報にそのフレーズが含まれていた回数、及び分布確率のうちの、1つ又は2つ以上を含む。
ステップ208では、製品についてワードシーケンスが決定される。一部の実施形態では、製品について分割されたフレーズによって、ワードシーケンスが形成される。一部の実施形態では、ワードシーケンスに含まれるべきフレーズは、それらの決定されたスコアに基づいて、既定の条件にしたがって選択される。例えば、既定の条件は、(1つ又は2つ以上の)最も高いスコアを持つ2つのフレーズを製品のタイトルから、そして(1つ又は2つ以上の)最も高いスコアを持つ5つのワードを属性情報の中から選択することを要求するかもしれない。
ステップ210では、製品に対応するワードシーケンスが比較される。ステップ206において製品について構成されたワードシーケンスは、互いに比較される。一部の実施形態では、製品のワードシーケンスは、取得された製品データの中のその他の全ての製品のワードシーケンスと比較される。一部の実施形態では、各比較によって、一致率が決定される。一致率は、2つのワードシーケンス(及びそのそれぞれの製品)がどの程度類似しているかを決定する。一部の実施形態では、比較の一致率が特定の閾値を上回るならば、それら2つの製品は、類似であると見なされる。
例えば、2つのワードシーケンスが同一である(例えば、各ワードシーケンスが厳密に同じフレーズを有する)ならば、一致率は、100%になるだろう。一致率の閾値が95%であるとすると、ワードシーケンス及びそのそれぞれの2つの製品は、類似であると見なされる。
ステップ212では、比較に少なくとも部分的に基づいて、少なくとも2つの製品が統合されて1つの製品カテゴリに入れられる。ステップ210の比較に基づいて、類似の製品が統合されて同じカテゴリに分類される。一部の実施形態では、製品カテゴリは、互いに類似するワードシーケンスを有する製品集合である。これらの製品は、製品のワードシーケンスが互いに類似しているゆえに、互いに類似していると見なされる。言い換えると、ワードシーケンスは、対応する製品を的確に表していると見なされる。一部の実施形態では、統合されて1つのカテゴリに入れられた製品集合が、まとめて1つのデータベースに記憶される。
例えば、ステップ210の比較に基づいて、15の製品のワードシーケンスが、類似していると見なされる(例えば、各製品のワードシーケンスが、その他の全ての製品のワードシーケンスと類似していると見なされる)とする。この例では、これら15の製品は、1つのカテゴリに分類される。
一部の実施形態では、統合されて同じカテゴリに分類された製品について、そのそれぞれの製品データもまた、統合されて(例えば、一体の記述データとされて)その製品カテゴリ用に記憶される。例えば、同じカテゴリの製品についての統合製品データは、そのカテゴリの全ての製品を記述するために使用することができる。統合されて同じカテゴリに入れられた製品、及びそれらの統合製品データは、例えば、同じテキストファイル又はデータ表に記憶することができる。
一部の実施形態では、製品カテゴリの管理において、そのカテゴリについての統合製品データは、その製品カテゴリを特徴付けるために使用される。例えば、統合製品データは、関連付けられたカテゴリの製品を視覚的に提示するために使用することができる。或いは、統合製品データは、関連付けられているカテゴリの製品の記述を変更するために修正することができる。また、統合製品データは、関連付けられている製品カテゴリにおける製品の検索に応えて返信することができる。
一部の実施形態では、特定された製品カテゴリの各々について、固有のカテゴリ識別子が設定される。製品カテゴリは、そのそれぞれの固有のカテゴリ識別子によって探索することができるように、その識別子とともに記憶される。例えば、各固有のカテゴリ識別子は、(例えば、製品のタイトル又はその他の製品識別情報を使用した)対応する製品集合及びそれらの統合製品データとともに記憶することができる。
図3は、製品をカテゴリ分類するプロセスの別の一実施形態を示したフローチャートである。一部の実施形態では、図2のプロセス200の繰り返しに続いて、ステップ302〜306が生じる。
プロセス300は、プロセス200によるカテゴリ分類の結果の正確さを向上させるために実施することができる。プロセス300は、依存されたデータが同じ製品に対し(例えばユーザによって入力されたとおり)異なるタイトルを含んでいたゆえに類似の製品ではあるがプロセス200において異なるカテゴリに分類された製品のカテゴリを合体させるのに役立つことができる。プロセス300は、カテゴリ分類プロセスの全体的な正確さを向上させるために、任意の回数にわたって実施することができる。
ステップ302〜306の以下の実施形態では、プロセス200の繰り返し後に少なくとも2つの製品カテゴリが作成されたことを前提とする。
ステップ302では、製品カテゴリについてのワード組み合わせが決定される。
製品カテゴリについてのワード組み合わせは、その製品カテゴリを表す一連のフレーズと、また、その一連のフレーズについて決定されたそれぞれのスコアとを言う。ワード組み合わせは、製品カテゴリについて様々なやり方で選択することができる。一例において、あるカテゴリの全ての製品が、同じワードシーケンスに対応しているならば、そのワードシーケンスが、そのカテゴリについてのワード組み合わせとして使用される。例えば、いずれもがフレーズ「HairShineブランド」、「赤」、及び「DF0753」を含むワードシーケンスに対応している製品は、同じカテゴリにカテゴリ分類され、したがって、「HairShineブランド、赤、及びDF0753」を、その製品カテゴリについてのワード組み合わせとして捉えることができる。
別の例では、あるカテゴリの全ての製品が、同じワードシーケンスに対応しているのではないが、いずれもが、幾つかの同じフレーズを含むワードシーケンスに対応している。このような状況では、カテゴリの全ての製品に共通する一連のフレーズを、その製品カテゴリについてのワード組み合わせとして捉えることができる。
ステップ304では、2つの製品カテゴリ間における類似度が決定される。
一部の実施形態では、2つのカテゴリ間における類似度が、それら2つの製品カテゴリのワード組み合わせを使用して決定される。例えば、類似度は、以下の式によって決定することができる。
Figure 2013522719
上記の式において、TD1及びTD2は、2つの製品カテゴリのそれぞれのワード組み合わせを表している。例えば、
TD1=(フレーズ11、スコア11)、(フレーズ12、スコア12)、(フレーズ13、スコア13)
TD2=(フレーズ21、スコア21)、(フレーズ22、スコア22)、(フレーズ23、スコア23)
ここで、「フレーズXX」は、フレーズを表しており、「スコアYY」は、対応するスコアを表している。
更に、特性2及び特性2は、2つの製品カテゴリに対応する主要属性のそれぞれの値を表している。本明細書で言う主要属性とは、特定の製品の重要な属性を言う。例えば、携帯電話の主要属性が、そのブランド及びモデルを含む一方で、そのカラー及び重量は、一般的(例えば非主要)属性である。一部の実施形態では、特定の製品についての主要属性が記憶され、特性1及び特性2としてどの値を使用するかを決定するために、プロセス300においてアクセスされる。一部の実施形態では、類似度は、コサイン計算の法則をもとにして算出される。算出される類似度が大きいほど、2つの製品は類似している。
更に、λ1及びλ2は、タイトル及び属性に重みを割り当てるために選択された係数である。(例えば、TD1及びTD2が、タイトル情報から分割されたフレーズを使用して形成されたもので、性質1及び性質2が、属性の値であるゆえに、)λ1及びλ2は、類似度の計算にとってタイトル又は属性のいずれがより重要であるかをそれぞれ示す2つの係数を表している。例えば、λ1=2で且つλ2=1であるときは、これは、タイトルの重要性が属性の重要性の2倍であることを示している。
更に、a及びbは、既定のパラメータを表しており、n1及びn2は、比較されている2つの製品カテゴリにそれぞれ含まれる製品の数を表している。パラメータa及びbは、類似度の値を制御し、したがって、2つの製品カテゴリが統合されるか否かに影響を及ぼす。例えば、2つの製品カテゴリがともに、それぞれ多数の製品を含むときは、類似度の値は、a及びbの値を変更し、
Figure 2013522719
から計算される類似度の値をより小さくして調整を行うことができる。これは、2つの製品カテゴリが統合される確率を低くする。
例えば、a=50で、b=20で、n1=100で、且つn2=10であるならば、
Figure 2013522719
である。
ステップ306では、決定された2つの製品カテゴリ間における類似度を、既定の閾値と比較することによって、2つの製品カテゴリが合体されるべきか否かが決定される。決定された類似度が、既定の閾値を超える場合は、ステップ308において、2つの製品カテゴリは、合体されて1つのカテゴリにされる。決定された類似度が、既定の閾値を超えない場合は、2つの製品カテゴリは、合体されない。
一部の実施形態では、既定の閾値は、2つのカテゴリが合体されて1つのカテゴリにされるのに十分に類似しているか否かを決定するために使用される。既定の閾値は、ステップ304における決定のために、記憶及びアクセスすることができる。
上記の例に戻り、決定された2つの製品カテゴリ間における類似度が、おおよそ7%であるとする。この例において、2つのカテゴリを合体させるための既定の閾値が、97%であるとすると、決定された類似度は、閾値を遥かに下回るので、2つのカテゴリは、合体されない。
一部の実施形態では、2つのカテゴリを合体させることは、新しいカテゴリ識別子を作成し、その識別子を両カテゴリの全ての製品(例えば、それらの製品についての識別情報)及び両カテゴリの関連製品データとともに記憶させることを含む。一部の実施形態では、2つのカテゴリを合体させることは、両カテゴリの全ての製品及び両カテゴリの関連製品データを2つのカテゴリのカテゴリ識別子の1つとともに記憶させることを含む。
図4は、製品データをカテゴリ分類及び使用するためのシステムの一実施形態を示した図である。システム400は、ユーザ402と、ネットワーク404と、サーバ406とを含む。ネットワーク404は、各種の高速データネットワーク及び/又は電気通信ネットワークを含む。サーバ406は、ネットワーク404を通じてユーザ402と通信するように構成される。
一部の実施形態では、プロセス200は、システム400を使用して実施される。一部の実施形態では、プロセス300もまた、システム400を使用して実施される。一部の実施形態では、システム100のユニット(抽出ユニット10、分割ユニット11、選択ユニット12、統合ユニット13、及び処理ユニット14)は、サーバ406の構成要素である。
一部の実施形態では、サーバ406は、電子商取引ウェブサイトのためのプラットフォームをサポートするように構成される。例えば、サーバ406は、ウェブサイトのための情報を記憶し、また、ウェブサイトのウェブページを提供する。一部の実施形態では、サーバ406は、ウェブサイトに情報(例えば製品データ)をアップロードするユーザ(例えばユーザ402)からデータを取得するように構成される。
サーバ406は、製品データを取得された製品のタイトルを抽出するように構成される。一部の実施形態では、サーバ406は、取得されたデータから製品の属性情報を抽出するようにも構成される。サーバ406は、例えば、ウェブサイトにアップロードされたデータのタイトル及び属性フィールドのそれぞれから、タイトル及び/又は属性情報を抽出することができる。サーバ406は、抽出された情報(例えば、タイトル及び/又は属性情報)をフレーズに分割するように構成される。例えば、製品のタイトルは、一連の英数字ワードを1つ又は2つ以上のフレーズに分けるルール集合に基づいて分割することができる。サーバ406は、フレーズについてのスコアを決定するように構成される。一部の実施形態では、フレーズについてのスコアは、(例えば、ウェブサイトに記憶された製品データ内における)そのフレーズの発生の過去頻度に基づく。サーバ406は、取得されたデータの製品についてのワードシーケンスを構成するように構成される。例えば、ワードシーケンスは、各製品について構成される。一部の実施形態では、製品についてのワードシーケンスは、その製品のフレーズのうちの1つの選択されたフレーズに基づいて決定される。フレーズは、既定の条件に基づいて選択することができる(例えば、スコアの最も高い3つのフレーズが選択される)。サーバ406は、製品についてのワードシーケンスをその他の製品のワードシーケンスと比較するように構成される。一部の実施形態では、製品についてのワードシーケンスは、取得されたデータの中のその他の全ての製品のワードシーケンスと比較される。一部の実施形態では、2つのワードシーケンスの比較は、それらのワードシーケンス(及びそれらに対応する製品)が類似しているか否かを結果としてもたらす。サーバ406は、比較の結果に少なくとも部分的に基づいて、少なくとも2つの製品を統合して同じカテゴリに入れるように構成される。一部の実施形態では、比較において類似であると見なされたワードシーケンスを有する製品は、統合されて同じカテゴリに入れられる。例えば、統合されて同じカテゴリに入れられた製品は、同じカテゴリ識別子のもとに記憶される。一部の実施形態では、同じカテゴリの製品の製品データ(例えばタイトル及び属性情報)もやはり、同じカテゴリ識別子のもとに記憶される。
一部の実施形態では、サーバ406は、製品カテゴリを合体させるように構成される。一部の実施形態では、サーバ406は、製品カテゴリについてのワード組み合わせを決定するように構成される。例えば、既存の各製品カテゴリについて、ワード組み合わせが決定される。ワード組み合わせは、そのカテゴリの製品に関連付けられたワードシーケンスから選択することができる。サーバ406は、2つの製品カテゴリ間における類似度を決定するように構成される。一部の実施形態では、類似度は、2つのカテゴリのワード組み合わせを使用して決定される。サーバ406は、カテゴリを合体させるか否かを決定するために、決定された2つのカテゴリ間における類似度を既定の閾値と比較するように構成される。決定された類似度が、既定の閾値を上回るならば、2つのカテゴリは、合体されて1つのカテゴリにされる(そして、例えば、両カテゴリからの製品が、同じカテゴリ識別子とともに記憶される)。そうでなく、決定された類似度が、既定の閾値を下回るならば、2つの製品カテゴリは、合体されない。
サーバ406は、製品カテゴリ情報を記憶及び維持するように構成される。このような情報は、類似の製品からなる各カテゴリを電子商取引ウェブサイトにおいて表すために使用することができる。例えば、製品カテゴリのタイトル及び属性情報を含む視覚的な表現、すなわち表を、ユーザによるそのカテゴリの製品の検索に応えて表示することができる。例えば、電子商取引ウェブサイトにおいて、ユーザが検索ボックスに「携帯電話」を入れたとする。ウェブサイトをサポートしているサーバは、そのウェブサイトにおいて販売されている製品のなかで「携帯電話」に関連するものを含む検索結果の集合を返信するだろう。返信された検索結果は、「携帯電話」に関連する製品カテゴリに関して記憶されている情報を、(例えば、製品の価格、モデル、費用、メーカなどの形で)検索結果に表示することができる。
ユーザ402は、ユーザがそれを通じて電子商取引ウェブサイトにアクセスするデバイスである。ユーザ402は、図4では、ノート型パソコンとして示されているが、ユーザ402としては、なかでも特に、任意のコンピュータ、携帯機器、又はタブレットが挙げられる。一部の実施形態では、ユーザ402は、ユーザが電子商取引ウェブサイトに製品データをアップロードすることを可能にするように構成される。一部の実施形態では、ユーザ402は、検索結果を受信するように構成される。一部の実施形態では、ユーザ402は、検索結果を表示するように構成される。
当業者ならば、本発明の趣旨及び範囲から逸脱することなく本発明の実施形態に対して各種の変更及び代替をなしえることがわかる。したがって、本発明の実施形態に対するこれらの変更及び代替が、本発明の特許請求の範囲及びそれらの均等物の範囲内に入るならば、本発明は、これらの変更及び代替の全てを含むようにも意図されている。
以上の実施形態は、理解を明瞭にする目的で幾らか詳細に説明されてきたが、本発明は、提供された詳細に限定されない。本発明の実現には、多くの代替的手法がある。開示された実施形態は、例示のためであって、限定的なものではない。

Claims (21)

  1. 製品をカテゴリ分類するための方法であって、
    取得されたデータから複数の製品のタイトルを抽出することと、
    前記タイトルをフレーズに分割することと、
    前記フレーズについての各スコアを決定することと、
    前記フレーズについての前記決定された各スコアに少なくとも部分的に基づいて選択された前記フレーズの少なくとも1つを使用して、前記複数の製品のうちの第1の製品に対応する第1のワードシーケンスを構成することと、
    前記第1のワードシーケンスを前記複数の製品のうちの第2の製品に対応する第2のワードシーケンスと比較することと、
    前記比較に少なくとも部分的に基づいて、前記複数の製品のうちの前記第1の製品と前記第2の製品とを統合して1つの製品カテゴリに入れることと、
    を備える方法。
  2. 請求項1に記載の方法であって、更に、
    第1の製品カテゴリと第2の製品カテゴリとの間における類似度を決定することと、
    前記決定された類似度が合体閾値に少なくとも見合う場合に、前記第1の製品カテゴリを前記第2の製品カテゴリと合体させることと、
    を備える方法。
  3. 請求項1に記載の方法であって、
    前記フレーズについての各スコアを決定することは、フレーズの過去発生頻度に少なくとも部分的に基づく、方法。
  4. 請求項1に記載の方法であって、更に、
    前記取得されたデータから前記複数の製品についての属性情報を抽出し、前記属性情報をフレーズに分割することを備える方法。
  5. 請求項1に記載の方法であって、
    前記第1のワードシーケンスを前記複数の製品のうちの第2の製品についての第2のワードシーケンスと比較することは、前記第1のワードシーケンスが前記第2のワードシーケンスに類似しているか否かを決定することを含む、方法。
  6. 請求項5に記載の方法であって、
    前記第1のワードシーケンスが前記第2のワードシーケンスに類似しているか否かを決定することは、一致率に少なくとも部分的に基づく、方法。
  7. 請求項1に記載の方法であって、
    前記複数の製品のうちの前記第1の製品と前記第2の製品とを統合して1つの製品カテゴリに入れることは、前記複数の製品のうちの前記第1の製品及び前記第2の製品に関連付けられたデータを統合することを含む、方法。
  8. 請求項1に記載の方法であって、
    前記複数の製品のうちの前記第1の製品と前記第2の製品とを統合して1つの製品カテゴリに入れることは、前記複数の製品のうちの前記第1の製品及び前記第2の製品の両方を1つのカテゴリ識別子とともに記憶させることを含む、方法。
  9. 請求項2に記載の方法であって、
    類似度を決定することは、前記第1の製品カテゴリに対応する決定されたスコア及び前記第2の製品カテゴリに対応する決定されたスコアに基づいて値を計算することを含む、方法。
  10. 請求項2に記載の方法であって、
    前記第1の製品カテゴリを前記第2の製品カテゴリと合体させることは、前記第1の製品カテゴリ及び前記第2の製品カテゴリを同じカテゴリ識別子とともに記憶させることを含む、方法。
  11. 製品をカテゴリ分類するためのシステムであって、
    1つ又は2つ以上のプロセッサと、
    前記1つ又は2つ以上のプロセッサに接続され、前記1つ又は2つ以上のプロセッサに命令を提供するように構成されているメモリと、
    を備え、
    前記1つ又は2つ以上のプロセッサは、
    取得されたデータから複数の製品のタイトルを抽出し、
    前記タイトルをフレーズに分割し、
    前記フレーズについての各スコアを決定し、
    前記フレーズについての前記決定された各スコアに少なくとも部分的に基づいて選択された前記フレーズの少なくとも1つを使用して、前記複数の製品のうちの第1の製品に対応する第1のワードシーケンスを構成し、
    前記第1のワードシーケンスを前記複数の製品のうちの第2の製品に対応する第2のワードシーケンスと比較し、
    前記比較に少なくとも部分的に基づいて、前記複数の製品のうちの前記第1の製品と前記第2の製品とを統合して1つの製品カテゴリに入れるように、
    構成されている、システム。
  12. 請求項11に記載のシステムであって、
    前記1つ又は2つ以上のプロセッサは、更に、
    第1の製品カテゴリと第2の製品カテゴリとの間における類似度を決定し、
    前記決定された類似度が合体閾値を越えるか否かに基づいて、前記第1の製品カテゴリを前記第2の製品カテゴリと合体させるように、
    構成されている、システム。
  13. 請求項11に記載のシステムであって、
    前記1つ又は2つ以上のプロセッサは、フレーズの過去発生頻度に少なくとも部分的に基づいて、前記フレーズについての各スコアを決定するように構成されている、システム。
  14. 請求項11に記載のシステムであって、
    前記1つ又は2つ以上のプロセッサは、更に、取得されたデータから前記複数の製品についての属性情報を抽出し、前記属性情報をフレーズに分割するように構成されている、システム。
  15. 請求項11に記載のシステムであって、
    前記1つ又は2つ以上のプロセッサは、前記第1のワードシーケンスが前記第2のワードシーケンスに類似しているか否かを決定することを含み、前記第1のワードシーケンスを前記複数の製品のうちの第2の製品についての第2のワードシーケンスと比較する、ように構成されている、システム。
  16. 請求項15に記載のシステムであって、
    前記1つ又は2つ以上のプロセッサは、一致率に少なくとも部分的に基づいて、前記第1のワードシーケンスが前記第2のワードシーケンスに類似しているか否かを決定するように構成されている、システム。
  17. 請求項11に記載のシステムであって、
    前記1つ又は2つ以上のプロセッサは、前記複数の製品のうちの前記第1の製品及び前記第2の製品に関連付けられたデータを統合することを含み、前記複数の製品のうちの前記第1の製品と前記第2の製品とを統合して1つの製品カテゴリに入れるように構成されている、システム。
  18. 請求項11に記載のシステムであって、
    前記1つ又は2つ以上のプロセッサは、前記複数の製品のうちの前記第1の製品及び前記第2の製品の両方を同じカテゴリ識別子とともに記憶させることを含み、前記複数の製品のうちの前記第1の製品と前記第2の製品とを統合して1つの製品カテゴリに入れるように構成されている、システム。
  19. 請求項11に記載のシステムであって、
    前記1つ又は2つ以上のプロセッサは、前記第1の製品カテゴリに対応する決定されたスコア及び前記第2の製品カテゴリに対応する決定されたスコアに基づいて値を計算することを含み、類似度を決定するように構成されている、システム。
  20. 請求項12に記載のシステムであって、
    前記1つ又は2つ以上のプロセッサは、前記第1の製品カテゴリ及び前記第2の製品カテゴリを1つのカテゴリ識別子とともに記憶させることを含み、前記第1の製品カテゴリを前記第2の製品カテゴリと合体させるように構成されている、システム。
  21. 製品をカテゴリ分類するためのコンピュータプログラム製品であって、コンピュータによって読み取り可能なストレージ媒体に実装され、
    取得されたデータから複数の製品のタイトルを抽出するためのコンピュータ命令と、
    前記タイトルをフレーズに分割するためのコンピュータ命令と、
    前記フレーズについての各スコアを決定するためのコンピュータ命令と、
    前記フレーズについての前記決定された各スコアに少なくとも部分的に基づいて選択された前記フレーズの少なくとも1つを使用して、前記複数の製品のうちの第1の製品に対応する第1のワードシーケンスを構成するためのコンピュータ命令と、
    前記第1のワードシーケンスを前記複数の製品のうちの第2の製品に対応する第2のワードシーケンスと比較するためのコンピュータ命令と、
    前記比較に少なくとも部分的に基づいて、前記複数の製品のうちの前記第1の製品と前記第2の製品とを統合して1つの製品カテゴリに入れるためのコンピュータ命令と、
    を備えるコンピュータプログラム製品。
JP2012557037A 2010-03-09 2011-03-02 製品のカテゴリ分類 Pending JP2013522719A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201010122141.2 2010-03-09
CN2010101221412A CN102193936B (zh) 2010-03-09 2010-03-09 一种数据分类的方法及装置
US201113932659A 2011-03-01 2011-03-01
US12/932,659 2011-03-01
PCT/US2011/000388 WO2011112236A1 (en) 2010-03-09 2011-03-02 Categorizing products

Publications (2)

Publication Number Publication Date
JP2013522719A true JP2013522719A (ja) 2013-06-13
JP2013522719A5 JP2013522719A5 (ja) 2014-02-06

Family

ID=48712976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012557037A Pending JP2013522719A (ja) 2010-03-09 2011-03-02 製品のカテゴリ分類

Country Status (1)

Country Link
JP (1) JP2013522719A (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005522784A (ja) * 2002-04-10 2005-07-28 シーネット・ネットワークス・インコーポレイテッド オンライン購入システム用コンテンツ集約方法及び装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005522784A (ja) * 2002-04-10 2005-07-28 シーネット・ネットワークス・インコーポレイテッド オンライン購入システム用コンテンツ集約方法及び装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
前澤 敏之: ""商品カテゴリ"および"取扱店舗"の統計情報を用いた商品タイトルに含まれるフレーズの重要度判定", 言語処理学会第14回年次大会論文集, JPN6014016855, 17 March 2008 (2008-03-17), pages 1081 - 1084, ISSN: 0002797699 *
関根 聡: "ショッピングサイトにおける商品の同一性、類似性の推定手法", 言語処理学会第16回年次大会論文集, JPN6014016856, 8 March 2010 (2010-03-08), pages 254 - 257, ISSN: 0002797700 *

Similar Documents

Publication Publication Date Title
US11507975B2 (en) Information processing method and apparatus
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
US20110225161A1 (en) Categorizing products
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
WO2017097231A1 (zh) 话题处理方法及装置
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN107862022B (zh) 文化资源推荐***
KR102468930B1 (ko) 관심대상 문서 필터링 시스템 및 그 방법
US20130046771A1 (en) Systems and methods for facilitating the gathering of open source intelligence
CN108073568A (zh) 关键词提取方法和装置
CN104537341B (zh) 人脸图片信息获取方法和装置
JP2016532173A (ja) 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム
WO2013163062A1 (en) Recommending keywords
CN107180093A (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
US20150302036A1 (en) Method, system and computer program for information retrieval using content algebra
KR102108683B1 (ko) 비관심사 컨텐츠를 포함하는 추천 컨텐츠를 제공하는 방법
CN106815265B (zh) 裁判文书的搜索方法及装置
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
US20120239657A1 (en) Category classification processing device and method
JP7067884B2 (ja) 分類装置、分類方法及び分類プログラム
TW201426357A (zh) 搜索資料排序的方法和裝置,資料搜索的方法和裝置
Wei et al. Online education recommendation model based on user behavior data analysis
CN109344232A (zh) 一种舆情信息检索方法及终端设备
CN116431895A (zh) 安全生产知识个性化推荐方法及***
CN106294784B (zh) 资源搜索方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131211

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140711

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150120