CN104679769B - 对产品的使用场景进行分类的方法及装置 - Google Patents

对产品的使用场景进行分类的方法及装置 Download PDF

Info

Publication number
CN104679769B
CN104679769B CN201310628364.XA CN201310628364A CN104679769B CN 104679769 B CN104679769 B CN 104679769B CN 201310628364 A CN201310628364 A CN 201310628364A CN 104679769 B CN104679769 B CN 104679769B
Authority
CN
China
Prior art keywords
product
usage scenario
implicit
feature
scene type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310628364.XA
Other languages
English (en)
Other versions
CN104679769A (zh
Inventor
郭宏蕾
蔡柯柯
赵石顽
钱伟红
张俐
苏中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201310628364.XA priority Critical patent/CN104679769B/zh
Priority to US14/539,319 priority patent/US9818080B2/en
Publication of CN104679769A publication Critical patent/CN104679769A/zh
Application granted granted Critical
Publication of CN104679769B publication Critical patent/CN104679769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种对产品的使用场景进行分类的方法,其包括:从描述所述产品的使用场景的文本中析取能够特征化所述使用场景的至少一个特征元组,其中所述至少一个特征元组包括多个特征词语;对所述至少一个特征元组进行隐含语义关联分析,以获得用于所述使用场景的隐含主题序列;以及根据用于所述使用场景的所述隐含主题序列,确定所述使用场景所属的产品场景类别。此外,本发明还公开了相应的装置。

Description

对产品的使用场景进行分类的方法及装置
技术领域
本发明涉及信息挖掘和分类技术,具体地,涉及对产品的使用场景进行分类的方法及装置。
背景技术
通常,当人们在购买某个产品时,都想要知道该产品的更多使用场景以判断该产品是否满足自己的需要。然而,在产品的说明书中关于产品的使用场景的描述非常有限。
当前,越来越多的人愿意在各种购物网站或社交媒体(诸如微博、博客、虚拟社区等)上分享关于某个产品的使用体验。显然,在关于使用体验的描述中提到的与产品相关的事件(包括活动、主题等)可直接反映产品的使用场景。图2示出了某一购物网站上的产品评论的例子,其中(a)是关于防水照相机的评论,(b)是关于移动电话的评论。根据图2(a)的评论,可以获得防水照相机的一个使用场景的信息,其中,“活动”是“水下照相录像”,“观点”是“很好、很给力”(正面评价),“地点”是“马尔代夫”。同样,根据图2(b)的评论,可以获得移动电话的使用场景的信息,其中,“活动”是“送礼物”,“观点”是“很喜欢”(正面评价)。
因此,很多人在购买某个产品前,会通过网络搜索相关的内容。然而,这样的内容非常多,需要耗费很多时间才可能获得有关的信息。此外,不同的人可能使用不同的词语表达相同的意思,因此,虽然能够获得有关的信息,但可能得不到更多的有用信息。
另一方面,在线推荐逐渐成为产品的推广方式之一。现有的在线推荐方法是基于关键词的,其中,在推荐的结果中包含关键词。例如,当在线检测到关键词“马尔代夫”时,会出现“马尔代夫酒店”、“马尔代夫机票”、“马尔代夫景点”等相关推荐链接。实际上,在某些情况下,这种推荐并不能满足用户的需求,例如,用户想要获得在“马尔代夫”这样的使用场景下需要哪些产品的推荐。因此,现有的在线推荐方法并不能够根据使用场景推荐合适的产品。
因此,期望能够根据有关产品的使用体验的描述来建立产品与使用场景的关联并进行分类,并在此基础上准确地推荐适合于用户所要求的使用场景的产品。
发明内容
根据本发明的一个方面,提供了一种对产品的使用场景进行分类的方法,其包括:从描述所述产品的使用场景的文本中析取能够特征化所述使用场景的至少一个特征元组,其中,所述至少一个特征元组包括多个特征词语;对所述至少一个特征元组进行隐含语义关联分析,以获得用于所述使用场景的隐含主题序列;以及根据用于所述使用场景的所述隐含主题序列,确定所述使用场景所属的产品场景类别。
根据本发明的另一个方面,提供了一种基于场景推荐产品的方法,其包括:从在社交媒体上发布的内容中检测场景信息;在通过根据上述的对产品的使用场景进行分类的方法获得的产品场景类别中,搜索与所述场景信息匹配的至少一个产品场景类别;以及呈现与所述至少一个产品场景类别对应的产品。
根据本发明的再一个方面,提供了一种用于对产品的使用场景进行分类的装置,包括:析取模块,其被配置为从描述所述产品的使用场景的文本中析取能够特征化所述使用场景的至少一个特征元组,其中,所述至少一个特征元组包括多个特征词语;分析模块,其被配置为对所述至少一个特征元组进行隐含语义关联分析,以获得用于所述使用场景的隐含主题序列;以及产品场景类别确定模块,其被配置为根据用于所述使用场景的所述隐含主题序列,确定所述使用场景所属的产品场景类别。
根据本发明的再一个方面,提供了一种基于场景推荐产品的装置,其包括:产品场景类别库,其被配置为存储通过根据上述的对产品的使用场景进行分类的装置获得的产品场景类别;场景检测模块,其被配置为从在社交媒体上发布的内容中检测场景信息;搜索模块,其被配置为在所述产品场景类别库中搜索与所述场景信息匹配的至少一个产品场景类别;以及提供模块,其被配置为提供与所述至少一个产品场景类别对应的产品。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图;
图2是购物网站上的产品评论的示例图;
图3是根据本发明的实施例的对产品的使用场景进行分类的方法的流程图;
图4是图3所示的实施例的方法中析取特征元组的步骤的示意性流程图;
图5是图3所示的实施例的方法中隐含语义关联分析的步骤的示意性流程图;
图6是根据本发明的实施例的基于场景推荐产品的方法的流程图;
图7是根据本发明的实施例的对产品的使用场景进行分类的装置的示意性框图;
图8是根据本发明的实施例的基于场景推荐产品的装置的示意性框图。
具体实施方式
在附图中显示了本公开的一些优选实施方式,下面将参照附图更详细地描述这些优选实施方式。然而,可以以各种形式实现本公开,其不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
所属技术领域的技术人员知道,本发明的各个方面可以实现为***、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。
图1示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。图1显示的计算机***/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图1所示,计算机***/服务器12以通用计算设备的形式表现。计算机***/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机***/服务器12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机***/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机***/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信,和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机***/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机***/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机***/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
图3示出了根据本发明的一个实施例的对产品的使用场景进行分类的方法的流程图。以下结合附图,对本实施例进行详细描述。
如图3所示,首先,在步骤S310,从描述产品的使用场景的文本(以下称为“产品场景文本”)中析取至少一个特征元组。在本实施例中,特征元组能够对产品场景文本所描述的使用场景进行特征化,其可包括多个特征词语。通过这些特征元组,能够基本复原所描述的使用场景。
在本实施例中,产品场景文本可以从购物网站上的产品的购买评论中选取。通常,购买产品的用户会在购买评论中分享该产品的体验和评价,这可直接反映某个具体产品的使用场景。另外,产品场景文本也可以从在诸如微博、博客、虚拟社区的社交媒体上发布的有关某个产品的内容中选取。这些内容可反映某一类产品的使用场景。
图4示出了析取特征元组的步骤S310的示意性流程图。如图4所示,在析取特征元组的过程中,首先在步骤S401,对产品场景文本进行句法和语义的分析,以获得该产品场景文本中的句子和词语的含义。在此,可以使用现有的任意一种分析句法和语义的方法进行分析。
然后,在步骤S405,从产品场景文本中选取表示该产品或者该产品的使用场景所涉及的事件的目标词语、表示使用场景的背景的背景词语和表达观点的情感词语。在本实施例中,目标词语可以是表示事件、活动、主题、产品名称或产品特征的词语。产品特征可包括产品的外形、功能、质量等。背景词语可以是表示地点、人物、时间、实体的词语、名词短语或动词短语。情感词语可以是表示褒义(positive)的观点的词语或者表示贬义(negative)的观点的词语。这些目标词语、背景词语和情感词语构成了能够特征化使用场景的特征词语。
以上给出了可用于构造特征元组的示例性特征词语,但本领域的普通技术人员能够理解,还可以采用其它的特征词语以构造特征元组。
在选取了特征词语后,在步骤S410,构建至少一个特征元组。在本实施例中,特征元组是三元组,其包括目标词语、与该目标词语相关的背景词语以及与该目标词语相关的情感词语。因此,特征元组可以进一步准确地反映特征词语之间的相关性。这样,产品场景文本可以用包括至少一个特征元组的序列来代表。
返回到图3,在步骤S320,对所析取的至少一个特征元组进行隐含语义关联分析,以获得用于使用场景的隐含主题序列。如前所述,不同的人可能使用不同的词语表达相同的含义,例如,词语“照相”、“拍照片”、“拍相片”都是表达“照相”的含义。因此,不同的人对相同的使用场景的描述可能完全不同。为了能够准确地对使用场景进行分类,在本实施例中,将对所析取的特征元组之间的隐含语义关联进行分析,从而获得产品场景文本所描述的使用场景的隐含主题序列。
图5示出了隐含语义关联分析的步骤S320的示意性流程图。如图5所示,在步骤S501,将各个特征元组中的每个特征词语概括到各自对应的语义范畴。通过步骤S310从产品场景文本中析取的特征元组可准确反映产品场景文本所描述的使用场景,但由于不同的人可能使用不同的词语表达相同的含义,因此,这样的特征元组中的特征词语是稀疏的。为此,需要将每个特征词语概括到相应的语义范畴。这样,在随后的操作中,各个特征词语可用所对应的语义范畴的标签代替。在本实施例中,特征词语可以是目标词语、背景词语和情感词语,因此,相应的语义范畴可包括特定的事件范畴、地点范畴、产品范畴、产品特征范畴、褒义表达范畴、贬义表达范畴。此外,每一个语义范畴还可以包括各种子范畴。通过该步骤,稀疏的特征词语可被映射到适当的语义范畴。
然后,在步骤S505,对于经过语义概括后的每一个特征元组,构建该特征元组的上下文线索。在本实施例中,上下文线索可包括该特征元组的相邻特征元组,还可包括除了上述特征元组以外的产品场景文本中的名词短语、动词短语、过渡词(例如,“然而”、“还”、等等)。
接着,在步骤S510,对于所有特征元组及其上下文线索,使用预先建立的隐含语义关联模型以生成各特征元组的隐含主题。隐含语义关联模型可被认为是通用概率主题模型,其可用于捕获特征元组之间的隐含语义关联,并将这些特征元组分解成不同的隐含主题。隐含语义关联模型可预先使用诸如隐含狄利克雷分配(Latent DirichletAllocation,简称LDA)或概率隐含语义索引(probabilistic Latent Semantic Indexing,简称pLSI)的隐含主题模型来训练获得。然后,在步骤S515,将所有特征元组的隐含主题构成隐含主题序列,以代表产品场景文本所描述的使用场景。
返回到图3,在生成了用于使用场景的隐含主题序列后,在步骤S330,根据所生成的隐含主题序列,确定使用场景所属的产品场景类别。
在一个实施例中,可以使用预先建立的产品场景分类模型,根据隐含主题序列,生成对应的产品场景类别。在本实施例中,产品场景分类模型用于对一个隐含主题序列分配一个产品场景类别。
在另一个实施例中,首先,计算隐含主题序列与预先设置的产品场景类别的标签序列的相似度。相似度的计算可以使用现有技术中的任意一种计算相似度的方法。可以预先设置多个产品场景类别,并且每个产品场景类别具有标签序列以代表该产品场景类别。根据计算结果,可以获得最大相似度。然后,比较最大相似度和预定的相似度阈值。在本实施例中,利用相似度阈值来确定是否需要生成新的产品场景类别。如果所计算的最大相似度大于或等于相似度阈值,则将具有最大相似度的产品场景类别确定为隐含主题序列所代表的使用场景所属的产品场景类别。如果所计算的最大相似度小于相似度阈值,则表示该隐含主题序列与任意一个已有的标签序列都不相似,需要生成新的产品场景类别。所生成的新的产品场景类别的标签序列可以使用该隐含主题序列。
通过以上描述可以看出,本实施例的对产品的使用场景进行分类的方法能够根据用户分享的产品场景文本而有效地将产品的使用场景分类到合适的产品场景类别,从而丰富了产品的使用场景。
下面通过具体的例子进一步说明上述实施例的对产品的使用场景进行分类的方法。
假定产品场景文本是“泰国海上巡游很有趣,幸好带了防水相机,拍到了许多美丽的海底世界照片,五颜六色的海鱼太美了,在我身边游来游去,一点也不怕我,仿佛自己也是一条人鱼,爱上海底世界。”。
首先,从产品场景文本中析取多个三元特征元组,即:T1<海上巡游,泰国,很有趣>,T2<防水相机,N/A,幸好带>,T3<拍照片,海底世界,美丽>。
接着,将每个三元特征元组中的特征词语概括到各自的语义范畴。在本例中,特征元组T1中的特征词语“海上巡游”可被概括到“海上巡游”这个事件范畴,特征词语“泰国”可被概括到“泰国”这个地点范畴,特征词语“很有趣”可被概括到褒义表达范畴,特征元组T2中的特征词语“防水相机”可被概括到“防水照相机”这个产品范畴,“幸好带”可被概括到褒义表达范畴,特征词语“拍照片”可被概括到“照相”这个产品特征范畴,特征词语“海底世界”可被概括到“海底世界”这个地点范畴,而“美丽”可被概括到褒义表达范畴。因此,语义概括后的三元特征元组为T1<Cate[海上巡游],Location[泰国],positive[很有趣]>、T2<Product[防水相机],positive[幸好带]>、T3<PF照相[拍照片],Location[海底世界],positive[美丽]>。
然后,对于概括后的每个三元特征元组,构建其上下文线索。三元特征元组T1的上下文线索可以是{<防水相机,N/A,幸好带>,拍,美丽,海底世界照片,五颜六色,海鱼},三元特征元组T2的上下文线索可以是{<海上巡游,泰国,很有趣>,拍,美丽,海底世界照片,五颜六色,海鱼},而三元特征元组T3的上下文线索可以是{<防水相机,N/A,幸好带>,泰国,海上巡游,很有趣,五颜六色,海鱼}。
然后,对三个三元特征元组及其上下文线索,使用隐含语义关联模型以生成隐含主题,并获得隐含主题序列。在本例中,所获得隐含主题序列可以为<“泰国海上巡游照相”,“防水照相机泰国旅游”,“泰国海上巡游照相”>。然后,根据隐含主题序列,可确定产品场景类别。
图6示出了根据本发明的实施例的基于场景推荐产品的方法的流程图。下面结合附图,对本实施例进行详细描述。
如图6所示,首先,在步骤S610,从在社交媒体上发布的内容中检测场景信息。在该步骤中,可以通过关键词匹配来进行检测。接着,在步骤S620,在通过如图3所示的实施例的方法获得的产品场景类别中,搜索与所检测的场景信息匹配的至少一个产品场景类别。在该步骤中,可以通过比较场景信息与产品场景类别的标签序列来搜索匹配的产品场景类别。然后,在步骤S630,提供与所搜索的产品场景类别对应的产品,作为适合于场景信息的推荐产品。
此外,还可以根据发布内容的用户的特性,对推荐产品进行筛选,以获得适合于该用户的产品,并将筛选后的推荐产品提供给该用户。用户的特性可以通过分析用户的档案、用户在各种社交媒体上的内容历史和用户在各种购物网站上的交易历史来获得。
通过以上描述可以看出,本实施例的基于场景推荐产品的方法能够根据场景精确地向用户推荐相关的产品,以满足用户的需求。
在相同的发明构思下,图7示出了根据本发明的实施例的对产品的使用场景进行分类的装置700的示意性框图。以下结合附图,对本实施例进行详细描述,其中,对于与前面实施例相同的部分,适当省略其说明。
如图7所示,本实施例的装置700可包括:析取模块701,其从产品场景文本中析取能够特征化使用场景的至少一个特征元组,其中,至少一个特征元组包括多个特征词语;分析模块702,其对所析取的至少一个特征元组进行隐含语义的关联分析,以获得用于使用场景的隐含主题序列;以及产品场景类别确定模块703,其根据所获得的隐含主题序列,确定使用场景所属的产品场景类别。
在本实施例的装置700中还可以包括文本选取模块704,其从各种购物网站上的产品的购买评论或者在社交媒体中发布的与产品有关的内容中选取产品场景文本。
通过文本选取模块704选取的产品场景文本被提供给析取模块701。在析取模块701中,分析单元7011对产品场景文本进行句法和语义的分析,然后,词语选取单元7012选取目标词语、背景词语和情感词语,作为特征词语。如前所述,目标词语可以是表示事件、活动、主题、产品名称或产品特征的词语。背景词语可以是表示地点、人物、时间、实体的词语、名词短语或动词短语。情感词语可以是表示肯定的观点的词语或者表示否定的观点的词语。接着,构建单元7013使用所选取的多个特征词语以构建至少一个特征元组。在本实施例中,特征元组是三元组,其包括目标词语、与该目标词语相关的背景词语以及与该目标词语相关的情感词语。
通过析取模块701获得的至少一个特征元组被提供给分析模块702。在分析模块702中,概括单元7021将每一个特征元组中的各个特征词语概括到各自的语义范畴。然后,上下文线索构建单元7022对于语义概括后的每一个特征元组,构建该特征元组的上下文线索。特征元组的上下文线索可包括该特征元组的相邻特征元组,并且还可包括除了上述特征元组以外的产品场景文本中的名词短语、动词短语、过渡词等。接着,隐含主题生成单元7023对所有特征元组及其上下文线索使用预先建立的隐含语义关联模型以生成各特征元组的隐含主题,并且隐含主题序列生成单元7024将所有特征元组的隐含主题构成隐含主题序列。所生成的隐含主题序列可用于代表产品场景文本所描述的使用场景。
通过分析模块702获得的隐含主题序列被提供给产品场景类别确定模块703。在一个实施例中,产品场景类别确定模块703可被配置为对隐含主题序列使用预先建立的产品场景分类模型以生成相应的产品场景类别。
在另一个实施例中,在产品场景类别确定模块703中,首先,计算单元计算隐含主题序列与预先设置的产品场景类别的标签序列的相似度。根据计算结果,可确定最大相似度,并比较最大相似度和相似度阈值。在本实施例中,相似度阈值用于判断是否需要生成新的产品场景类别。如果所计算的最大相似度大于或等于相似度阈值,则确定单元将具有最大相似度的产品场景类别确定为使用场景的产品场景类别。如果所计算的最大相似度小于相似度阈值,则产品场景类别生成单元生成新的产品场景类别,其中,所生成的新的产品场景类别的标签序列是隐含主题序列。
应当注意,本实施例的装置700能够在操作上实现图3至图5所示的实施例的对产品的使用场景进行分类的方法。
图8示出了根据本发明的实施例的基于场景推荐产品的装置800的示意性框图。以下结合附图,对本实施例进行详细描述,其中,对于与前面实施例相同的部分,适当省略其说明。
如图8所示,本实施例的装置800可包括:产品场景类别库801,其存储通过如图7所示的实施例的装置700获得的产品场景类别;场景检测模块802,其从在社交媒体上发布的内容中检测场景信息;搜索模块803,其在产品场景类别库中801搜索与所检测的场景信息匹配的至少一个产品场景类别;以及提供模块804,其提供与所述至少一个产品场景类别对应的产品。
此外,本实施例的装置800还可以包括筛选模块,其根据发布内容的用户的特性,对所提供的推荐产品进行筛选,以获得适合于该用户的产品。然后,由提供模块803将筛选后的推荐产品提供给该用户。用户的特性可以通过分析用户的档案、用户在各种社交媒体上的内容历史和用户在各种购物网站上的交易历史来获得。
应当注意,本实施例的装置800能够在操作上实现图6所示的实施例的基于场景推荐产品的方法。
附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (12)

1.一种对产品的使用场景进行分类的方法,包括:
从描述所述产品的使用场景的文本中析取能够特征化所述使用场景的至少一个特征元组,其中,所述至少一个特征元组包括多个特征词语;
对所述至少一个特征元组进行隐含语义关联分析,以获得用于所述使用场景的隐含主题序列;以及
根据用于所述使用场景的所述隐含主题序列,确定所述使用场景所属的产品场景类别,
其中,所述从描述产品的使用场景的文本中析取能够特征化所述使用场景的至少一个特征元组包括:
对所述文本进行句法和语义的分析;
选取表示所述产品或所述使用场景所涉及的事件的目标词语、表示所述使用场景的背景的背景词语和表达观点的情感词语,作为特征词语;以及
构建至少一个特征元组,其中,所述至少一个特征元组包括目标词语、与所述目标词语相关的背景词语以及与所述目标词语相关的情感词语。
2.根据权利要求1所述的方法,还包括:
从所述产品的购买评论和/或在社交媒体中发布的与所述产品有关的内容中选取所述文本。
3.根据权利要求1所述的方法,其中,对所述至少一个特征元组进行隐含语义关联分析以获得用于所述使用场景的隐含主题序列包括:
将所述至少一个特征元组中的多个特征词语概括到各自的语义范畴;
构建所述至少一个特征元组的上下文线索,其中所述上下文线索至少包括所述至少一个特征元组的相邻特征元组;
对所述至少一个特征元组及其上下文线索使用预先建立的隐含语义关联模型以生成所述至少一个特征元组的隐含主题;以及
生成用于所述使用场景的隐含主题序列,其包括所述至少一个特征元组的所有隐含主题。
4.根据权利要求1所述的方法,其中,对用于所述使用场景的所述隐含主题序列使用预先建立的产品场景分类模型以生成所述使用场景所属的产品场景类别。
5.根据权利要求1所述的方法,其中,所述根据用于所述使用场景的所述隐含主题序列,确定所述使用场景所属的产品场景类别包括:
计算所述隐含主题序列与预先设置的产品场景类别的标签序列的相似度;
如果所计算的最大相似度大于或等于相似度阈值,则将具有最大相似度的产品场景类别确定为所述使用场景所属的产品场景类别;
如果所计算的最大相似度小于所述相似度阈值,则生成新的产品场景类别,其中,所述新的产品场景类别的标签序列是所述隐含主题序列。
6.一种基于场景推荐产品的方法,包括:
从在社交媒体上发布的内容中检测场景信息;
在通过根据权利要求1至5任意一项所述的对产品的使用场景进行分类的方法获得的产品场景类别中,搜索与所述场景信息匹配的至少一个产品场景类别;以及
提供与所述至少一个产品场景类别对应的产品。
7.一种用于对产品的使用场景进行分类的装置,包括:
析取模块,其被配置为从描述所述产品的使用场景的文本中析取能够特征化所述使用场景的至少一个特征元组,其中,所述至少一个特征元组包括多个特征词语;
分析模块,其被配置为对所述至少一个特征元组进行隐含语义的关联分析,以获得用于所述使用场景的隐含主题序列;以及
产品场景类别确定模块,其被配置为根据用于所述使用场景的所述隐含主题序列,确定所述使用场景所属的产品场景类别,
其中,所述析取模块包括:
分析单元,其被配置为对所述文本进行句法和语义的分析;
词语选取单元,其被配置为选取表示所述产品或所述使用场景所涉及的事件的目标词语、表示所述使用场景的背景的背景词语和表达观点的情感词语,作为特征词语;以及
构建单元,其被配置为构建至少一个特征元组,其中,所述至少一个特征元组包括目标词语、与所述目标词语相关的背景词语以及与所述目标词语相关的情感词语。
8.根据权利要求7所述的装置,还包括:
文本选取模块,其被配置为从所述产品的购买评论或者在社交媒体中发布的与所述产品有关的内容中选取所述文本。
9.根据权利要求7所述的装置,其中,所述分析模块包括:
概括单元,其被配置为将所述至少一个特征元组中的多个特征词语概括到各自的语义范畴;
上下文线索构建单元,其被配置为构建所述至少一个特征元组的上下文线索,其中所述上下文线索至少包括所述至少一个特征元组的相邻特征元组;
隐含主题生成单元,其被配置为对所述至少一个特征元组及其上下文线索使用预先建立的隐含语义关联模型以生成所述至少一个特征元组的隐含主题;以及
隐含主题序列生成单元,其被配置为生成用于所述使用场景的隐含主题序列,其包括所述至少一个特征元组的所有隐含主题。
10.根据权利要求7所述的装置,其中,所述产品场景类别确定模块进一步被配置为对用于所述使用场景的所述隐含主题序列使用预先建立的产品场景分类模型以生成所述使用场景所属的产品场景类别。
11.根据权利要求7所述的装置,其中,所述产品场景类别确定模块包括:
计算单元,其被配置为计算所述隐含主题序列与预先设置的产品场景类别的标签序列的相似度;
确定单元,其被配置为如果所计算的最大相似度大于或等于相似度阈值,则将具有最大相似度的产品场景类别确定为所述使用场景所属的产品场景类别;
产品场景类别生成单元,其被配置为如果所计算的最大相似度小于所述相似度阈值,则生成新的产品场景类别,其中,所述新的产品场景类别的标签序列是所述隐含主题序列。
12.一种基于场景推荐产品的装置,包括:
产品场景类别库,其被配置为存储通过根据权利要求7至11任意一项所述的对产品的使用场景进行分类的装置获得的产品场景类别;
场景检测模块,其被配置为从在社交媒体上发布的内容中检测场景信息;
搜索模块,其被配置为在所述产品场景类别库中搜索与所述场景信息匹配的至少一个产品场景类别;以及
提供模块,其被配置为提供与所述至少一个产品场景类别对应的产品。
CN201310628364.XA 2013-11-29 2013-11-29 对产品的使用场景进行分类的方法及装置 Active CN104679769B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310628364.XA CN104679769B (zh) 2013-11-29 2013-11-29 对产品的使用场景进行分类的方法及装置
US14/539,319 US9818080B2 (en) 2013-11-29 2014-11-12 Categorizing a use scenario of a product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310628364.XA CN104679769B (zh) 2013-11-29 2013-11-29 对产品的使用场景进行分类的方法及装置

Publications (2)

Publication Number Publication Date
CN104679769A CN104679769A (zh) 2015-06-03
CN104679769B true CN104679769B (zh) 2018-04-06

Family

ID=53265640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310628364.XA Active CN104679769B (zh) 2013-11-29 2013-11-29 对产品的使用场景进行分类的方法及装置

Country Status (2)

Country Link
US (1) US9818080B2 (zh)
CN (1) CN104679769B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202088A (zh) * 2015-05-04 2016-12-07 阿里巴巴集团控股有限公司 一种匹配业务场景的方法和***
CN106257886B (zh) * 2015-06-17 2020-06-23 腾讯科技(深圳)有限公司 一种信息处理方法、装置、终端及服务器
CN107886345B (zh) * 2016-09-30 2021-12-07 阿里巴巴集团控股有限公司 选取数据对象的方法及装置
CN108256587A (zh) * 2018-02-05 2018-07-06 武汉斗鱼网络科技有限公司 一种字符串相似度的确定方法、装置、计算机及存储介质
CN110298026B (zh) * 2018-03-22 2024-04-16 北京京东尚科信息技术有限公司 场景描述词的筛选方法和装置
CN111429195A (zh) * 2019-01-09 2020-07-17 上海承檬信息科技有限公司 一种场景化电商***的实现方法和***
US11373636B2 (en) * 2019-08-08 2022-06-28 Discord Inc. Expanding semantic classes via user feedback
CN111242741B (zh) * 2020-01-15 2023-08-04 新石器慧通(北京)科技有限公司 一种基于场景的商品文案生成方法、***及无人零售车
CN111383077A (zh) * 2020-03-09 2020-07-07 浙江大华技术股份有限公司 一种数据管理及客户选型***、方法及装置
CN111882224A (zh) * 2020-07-30 2020-11-03 上加下信息技术成都有限公司 对消费场景进行分类的方法和装置
CN113450187A (zh) * 2021-06-22 2021-09-28 上海明略人工智能(集团)有限公司 基于场景的商品关联方法、***、电子设备及存储介质
CN113743097B (zh) * 2021-08-23 2024-03-01 桂林电子科技大学 基于跨度共享和语法依存关系增强的情感三元组抽取方法
CN115934858B (zh) * 2022-12-15 2024-04-19 南京龙珩建筑科技有限公司 客户采样用面料应用可视化虚拟展示***及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124575A (zh) * 2004-02-26 2008-02-13 雅虎公司 用于生成推荐的方法和***
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其***
CN102214201A (zh) * 2010-04-08 2011-10-12 微软公司 从产品或服务评论中得出陈述
CN102682074A (zh) * 2012-03-09 2012-09-19 浙江大学 一种基于流形学习的产品隐式属性识别方法
CN103399916A (zh) * 2013-07-31 2013-11-20 清华大学 基于产品特征的互联网评论观点挖掘方法及***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7870039B1 (en) * 2004-02-27 2011-01-11 Yahoo! Inc. Automatic product categorization
WO2008108750A1 (en) * 2006-02-06 2008-09-12 Cnet Networks, Inc. Controllable automated generator of optimized allied product content
US7885859B2 (en) * 2006-03-10 2011-02-08 Yahoo! Inc. Assigning into one set of categories information that has been assigned to other sets of categories
US9646078B2 (en) * 2008-05-12 2017-05-09 Groupon, Inc. Sentiment extraction from consumer reviews for providing product recommendations
EP2304660A4 (en) * 2008-06-19 2013-11-27 Wize Technologies Inc SYSTEM AND METHOD FOR ENHANCING AND SUMMING A FEELING FOR A PRODUCT / SUBJECT
US8645210B2 (en) * 2010-05-17 2014-02-04 Xerox Corporation Method of providing targeted communications to a user of a printing system
US20130218914A1 (en) * 2012-02-20 2013-08-22 Xerox Corporation System and method for providing recommendations based on information extracted from reviewers' comments
US20140067596A1 (en) 2012-02-22 2014-03-06 Cobrain Company Methods and apparatus for recommending products and services
US9672283B2 (en) * 2012-06-06 2017-06-06 Data Record Science Structured and social data aggregator

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124575A (zh) * 2004-02-26 2008-02-13 雅虎公司 用于生成推荐的方法和***
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其***
CN102214201A (zh) * 2010-04-08 2011-10-12 微软公司 从产品或服务评论中得出陈述
CN102682074A (zh) * 2012-03-09 2012-09-19 浙江大学 一种基于流形学习的产品隐式属性识别方法
CN103399916A (zh) * 2013-07-31 2013-11-20 清华大学 基于产品特征的互联网评论观点挖掘方法及***

Also Published As

Publication number Publication date
CN104679769A (zh) 2015-06-03
US20150154537A1 (en) 2015-06-04
US9818080B2 (en) 2017-11-14

Similar Documents

Publication Publication Date Title
CN104679769B (zh) 对产品的使用场景进行分类的方法及装置
US11907277B2 (en) Method, apparatus, and computer program product for classification and tagging of textual data
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
US10496752B1 (en) Consumer insights analysis using word embeddings
US10891322B2 (en) Automatic conversation creator for news
US9514417B2 (en) Cloud-based plagiarism detection system performing predicting based on classified feature vectors
US10489447B2 (en) Method and apparatus for using business-aware latent topics for image captioning in social media
US20230177360A1 (en) Surfacing unique facts for entities
Rehm et al. Strategic research agenda for multilingual Europe 2020
US10565401B2 (en) Sorting and displaying documents according to sentiment level in an online community
JP2017508214A (ja) 検索推奨の提供
US20160071510A1 (en) Voice generation with predetermined emotion type
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN105183761A (zh) 敏感词替换方法和装置
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
JP2015162244A (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN112836487B (zh) 一种自动评论方法、装置、计算机设备及存储介质
US10198497B2 (en) Search term clustering
CN105630801A (zh) 用于检测偏离用户的方法和装置
CN110532469B (zh) 一种信息推荐方法、装置、设备及存储介质
US11635883B2 (en) Indication of content linked to text
Das et al. Hatemm: A multi-modal dataset for hate video classification
Piao et al. Product reputation mining: bring informative review summaries to producers and consumers
CN105630793A (zh) 信息权重的确定方法和装置
Brefeld et al. Machine Learning and Knowledge Discovery in Databases: European Conference, ECML PKDD 2018, Dublin, Ireland, September 10–14, 2018, Proceedings, Part III

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant