CN112835990A

CN112835990A - 一种识别方法和装置

Info

Publication number: CN112835990A
Application number: CN201911158038.0A
Authority: CN
Inventors: 孙志强; 刘阳
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2021-05-25

Abstract

本发明公开了一种识别方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：从待处理文本获取第一产品词集合，根据所述待处理文本和图数据库获取所述待处理文本的多个参数与产品词的关系子图；按照所述待处理文本的多个参数与产品词的关系子图进行计算，得到第二产品词集合；根据所述图数据库从所述第一产品词集合和所述第二产品词集的交集中，识别所述待处理文本的核心产品词。该实施方式提高了识别的准确率。

Description

一种识别方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种识别方法和装置。

背景技术

现有识别方法，包括：工作人员根据个人经验，人工识别待处理文本的核心产品词。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

工作人员的精力有限，通过人力识别大量待处理文本是不现实的，因而，现有技术存在识别效率低的问题；

工作人员掌握的知识有限，不可能在每个领域都能做到准确地识别，因而，现有技术还存在识别准确率低的问题。

发明内容

有鉴于此，本发明实施例提供一种识别方法和装置，提高了识别的准确率，提高了识别的效率。

为实现上述目的，根据本发明实施例的一个方面，提供了一种识别方法。

本发明实施例的一种识别方法，包括：

从待处理文本获取第一产品词集合，根据所述待处理文本和图数据库获取所述待处理文本的多个参数与产品词的关系子图；

按照所述待处理文本的多个参数与产品词的关系子图进行计算，得到第二产品词集合；

根据所述图数据库从所述第一产品词集合和所述第二产品词集的交集中，识别所述待处理文本的核心产品词。

在一个实施例中，从待处理文本获取第一产品词集合，根据所述待处理文本和图数据库获取所述待处理文本的多个参数与产品词的关系子图，包括：

从所述待处理文本中获取标题和第一类目，从所述标题中解析所述第一产品词集合、第一属性集合和第一品牌集合；

按照所述第一属性集合、所述第一品牌集合和所述第一类目查询所述图数据库，得到所述第一属性集合中每个第一属性及与其对应的产品词的关系子图、所述第一品牌集合中每个第一品牌及与其对应的产品词的关系子图，以及所述第一类目及与其对应的产品词的关系子图；

根据所述第一产品词集合和所述标题生成所述标题与第一产品词的关系子图。

在一个实施例中，根据所述图数据库从所述第一产品词集合和所述第二产品词集的交集中，识别所述待处理文本的核心产品词，包括：

将所述第一产品词集合和所述第二产品词集合的交集，作为待选产品词集合；

根据所述待选产品词集合和所述图数据库计算所述待选产品词集合中每个待选产品词的概率；

从所述待选产品词集合中，选择出概率最高的待选产品词，作为所述待处理文本的核心产品词。

在一个实施例中，计算所述待选产品词的概率，包括：

对于所述第一属性集合中每个第一属性，将所述第一属性与所述待选产品词在所述图数据库中共同出现次数，除以所述第一属性在所述图数据库中出现总次数，得到的值作为在所述第一属性的条件下所述待选产品词的概率；

对于所述第一品牌集合中每个第一品牌，将所述第一品牌与所述待选产品词在所述图数据库中共同出现次数，除以所述第一品牌在所述图数据库中出现总次数，得到的值作为在所述第一品牌的条件下所述待选产品词的概率；

将所述第一类目与所述待选产品词在所述图数据库中共同出现次数，除以所述第一类目在所述图数据库中出现总次数，得到的值作为在所述第一类目的条件下所述待选产品词的概率；

将在每个第一属性的条件下所述待选产品词的概率、在每个第一品牌的条件下所述待选产品词的概率、在第一类目的条件下所述待选产品词的概率和所述待选产品词在所述标题中出现次数相乘，得到乘积，将所述乘积的对数作为所述待选产品词的概率。

在一个实施例中，按照所述待处理文本的多个参数与产品词的关系子图进行计算，得到第二产品词集合，包括：

对所述第一属性集合中每个第一属性及与其对应的产品词的关系子图、所述第一品牌集合中每个第一品牌及与其对应的产品词的关系子图、所述第一类目及与其对应的产品词的关系子图，以及所述标题与第一产品词的关系子图进行合并，得到关系图；

将所述关系图作为最近公共祖先算法的输入，进行计算，得到所述第二产品词集合。

在一个实施例中，在从待处理文本获取第一产品词集合之前，包括：

从日志集合中每个日志内，提取第二属性集合中每个第二属性及与其对应的产品词、第二品牌集合中每个第二品牌及与其对应的产品词，以及第二类目及与其对应的产品词；

将所述第二属性及与其对应的产品词在所述日志集合中共同出现次数、所述第二属性、与其对应的产品词和对应关系保存到所述图数据库；

将所述第二品牌及与其对应的产品词在所述日志集合中共同出现次数、所述第二品牌、与其对应的产品词和对应关系保存到所述图数据库；

将所述第二类目及与其对应的产品词在所述日志集合中共同出现次数、所述第二类目、与其对应的产品词和对应关系保存到所述图数据库；

其中，所述日志包括由用户从多个文本中所选择的文本，多个文本是基于所述用户输入的搜索词搜索得到。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种识别装置。

本发明实施例的一种识别装置，包括：

获取单元，用于从待处理文本获取第一产品词集合，根据所述待处理文本和图数据库获取所述待处理文本的多个参数与产品词的关系子图；

计算单元，用于按照所述待处理文本的多个参数与产品词的关系子图进行计算，得到第二产品词集合；

识别单元，用于根据所述图数据库从所述第一产品词集合和所述第二产品词集的交集中，识别所述待处理文本的核心产品词。

在一个实施例中，获取单元用于：

在一个实施例中，识别单元用于：

在一个实施例中，计算单元用于：

在一个实施例中，获取单元用于：

在从待处理文本获取第一产品词集合之前，从日志集合中每个日志内，提取第二属性集合中每个第二属性及与其对应的产品词、第二品牌集合中每个第二品牌及与其对应的产品词，以及第二类目及与其对应的产品词；

为实现上述目的，根据本发明实施例的再一个方面，提供了一种电子设备。

本发明实施例的一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例提供的识别方法。

为实现上述目的，根据本发明实施例的又一个方面，提供了一种计算机可读介质。

本发明实施例的一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例提供的识别方法。

上述发明中的一个实施例具有如下优点或有益效果：从待处理文本获取第一产品词集合，根据待处理文本和图数据库获取待处理文本的多个参数与产品词的关系子图；按照待处理文本的多个参数与产品词的关系子图进行计算，得到第二产品词集合；根据图数据库从第一产品词集合和第二产品词集的交集中，识别待处理文本的核心产品词。核心产品词与多个参数中的大部分有关系，利用关系识别出核心产品词。从而提高了识别的准确率。自动识别，无人工参与，提高了识别的效率。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的识别方法的主要流程的示意图；

图2是根据本发明实施例的识别方法中关系图的示例；

图3是根据本发明实施例的识别方法的一个应用场景；

图4是根据本发明实施例的识别方法中图结构的示例；

图5是根据本发明实施例的识别装置的主要单元的示意图；

图6是本发明实施例可以应用于其中的示例性***架构图；

图7是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要指出的是，在不冲突的情况下，本发明中的实施例以及实施例中的特征可以互相组合。

为了解决现有技术存在的问题，本发明实施例提供了一种识别方法，如图1所示，该方法包括：

步骤S101、从待处理文本获取第一产品词集合，根据所述待处理文本和图数据库获取所述待处理文本的多个参数与产品词的关系子图。

在该步骤中，待处理文本可以是产品详情页。

步骤S102、按照所述待处理文本的多个参数与产品词的关系子图进行计算，得到第二产品词集合。

步骤S103、根据所述图数据库从所述第一产品词集合和所述第二产品词集的交集中，识别所述待处理文本的核心产品词。

需说明的是，该实施例的实施方式在下文中进行了详细的介绍，在此不再赘述。

在本发明实施例中，步骤S101可以包括：

需说明的是，类目是互联网电子商务平台设置。

若从标题中只解析出一个第一产品词，则将该第一产品词作为待处理文本的核心产品词。当然，也可以按照本发明实施例描述的过程来识别，识别出的待处理文本的核心产品词也是该第一产品词。

参数种类包括：属性、品牌、类目和标题，应理解的是，在不影响本发明实施例的情况下，本领域技术人员可以根据业务形态灵活设置参数种类。例如，参数种类包括：属性、品牌、类目、标题和商家等。

下面以一具体例子说明从标题中解析第一产品词集合、第一属性集合和第一品牌集合：

标题包括：图拉斯耳机有线入耳式耳麦游戏吃鸡电脑音乐手机iphone苹果【亮光黑】金属腔体丨送真皮收纳袋。

解析为：图拉斯[品牌]耳机[产品词]有线[属性]入耳式[属性]耳麦[产品词]游戏吃鸡电脑音乐手机[产品词]iphone[产品词]苹果[产品词]【亮光黑】金属腔体丨送真皮收纳袋[产品词]。

具体实施时，对训练集进行标注，得到标注后的训练集；用标注后的训练集训练命名实体识别模型；采用训练后的命名实体识别模型，从标题中解析第一产品词集合、第一属性集合和第一品牌集合。

命名实体识别模型包括：长短时记忆神经网络(简称LSTM)+条件随机场(简称CRF)、Bert+fine-tune，或者ERNIE+fine-tune。

ERNIE：全称Enhanced Representation from kNowledge IntEgration。是一类预训练模型。

Bert：全称BidirectionalEncoder Representations from Transformer。也是一类预训练模型。Bert的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation，即：文本的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。

fine-tune：在预训练模型上根据文本分类、词性标注的不同，在对应脚本稍微修改即可运行的一种模型使用方法。

命名实体识别：命名实体识别是信息提取、问答***、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

在该实施例中，根据待处理文本和图数据库，得到各个维度(各个维度包括属性、品牌、类目和标题)的关系子图，从而得到关系指向的产品词集合，进而从第二产品词集合和第一产品词集合的交集中识别出核心产品词，进一步提高了识别的准确率。

在本发明实施例中，步骤S103可以包括：

将所述第一产品词集合和所述第二产品词集合的交集，作为待选产品词集合。

根据所述待选产品词集合和所述图数据库计算所述待选产品词集合中每个待选产品词的概率。

在该实施例中，应理解的是，若第一产品词集合和第二产品词集合的交集是空集，则采用本发明实施例的方法无法识别待处理文本的核心产品词。根据待处理文本对图数据库中数据进行相应补充，补充过后，采用本发明实施例的方法才能识别待处理文本的核心产品词。

在本发明实施例中，计算所述待选产品词的概率，包括：

在该实施例中，具体实施时，待选产品词的概率的表达式：

P(标题|A)＝∑lnP(A|B_i)

其中，A表示待选产品词；B_i表示第一属性集合中所有第一属性、第一品牌集合中所有第一品牌、第一类目和标题中任一个；P(标题|A)表示在产品词A的条件下标题的概率(也表示产品词A是标题的核心产品词的联合概率的对数)；P(A|第一类目)表示在第一类目的条件下待选产品词的概率。

需说明的是，待选产品词在标题中出现次数，相当于在标题的条件下待选产品词的概率。

下面以一具体例子说明该实施例：

待选产品词集合包括耳机和耳麦；

耳机和图拉斯在图数据库中共同出现次数为700次；图拉斯在图数据库中出现总次数为1000次；P(耳机|图拉斯)＝700/1000＝0.7。

耳机在标题中出现次数为1，P(耳机|标题)＝1。

耳机和入耳式在图数据库中共同出现次数为500次，入耳式在图数据库中出现总次数为1000次，P(耳机|入耳式)＝500/1000＝0.5。

P(标题|耳机)＝ln(P(耳机|图拉斯)×P(耳机|标题)×P(耳机|入耳式))＝ln(0.7×1×0.5)。

应理解的是，图拉斯在图数据库中出现总次数＝耳机和图拉斯在图数据库中共同出现次数+除耳机以外的词和图拉斯在图数据库中共同出现次数。

需说明的是，若待选产品词在标题中出现次数为0，则待选产品词的概率为0。

在该实施例中，待选产品词的概率表征了待选产品词与各个维度(各个维度包括属性、品牌、类目和标题)的关系程度，将关系程度最高的待选产品词作为核心产品词，进一步提高了识别的准确率。

在本发明实施例中，步骤S102可以包括：

在该实施例中，下面以一具体例子说明该实施例：

在图2中，每个圆圈代表一个节点，节点可以是第一品牌、产品词、第一类目、第一属性和标题等。箭头代表箭头两端的节点有对应关系。

按照图拉斯(即第一品牌)查询图数据库，得到与图拉斯对应的产品词包括：充电器、手机壳、支架、数据线、耳机、耳麦、收纳袋、iphone、手机和苹果，继而得到图拉斯及与其对应的产品词的关系子图。

按照入耳式(即第一属性)查询图数据库，得到与入耳式对应的产品词包括：耳机和耳麦，继而得到入耳式及与其对应的产品词的关系子图。

同样地，按照耳机/耳麦(即第一类目)查询图数据库，得到第一类目及与其对应的产品词的关系子图。

如图2所示，采用现有合并技术对第一属性集合中每个第一属性及与其对应的产品词的关系子图、第一品牌集合中每个第一品牌及与其对应的产品词的关系子图、第一类目及与其对应的产品词的关系子图，以及标题与第一产品词的关系子图进行合并，得到关系图。

将关系图作为最近公共祖先算法的输入，进行计算，得到第二产品词集合。

需说明的是，最近公共祖先算法计算出的第二产品词集合中每个第二产品词，均是关系图中关系指向的产品词。

在该实施例中，对各个维度的关系子图进行合并，得到关系图，并采用最近公共祖先算法进行计算，从而得到关系所指向的产品词集合，即第二产品词集合，进而从第二产品词集合和第一产品词集合的交集中识别出核心产品词，进一步提高了识别的准确率。

在本发明实施例中，如图3所示，在步骤S101之前，包括：

步骤S301、从日志集合中每个日志内，提取第二属性集合中每个第二属性及与其对应的产品词、第二品牌集合中每个第二品牌及与其对应的产品词，以及第二类目及与其对应的产品词；其中，所述日志包括由用户从多个文本中所选择的文本，多个文本是基于所述用户输入的搜索词搜索得到。

步骤S302、将所述第二属性及与其对应的产品词在所述日志集合中共同出现次数、所述第二属性、与其对应的产品词和对应关系保存到所述图数据库。

步骤S303、将所述第二品牌及与其对应的产品词在所述日志集合中共同出现次数、所述第二品牌、与其对应的产品词和对应关系保存到所述图数据库。

步骤S304、将所述第二类目及与其对应的产品词在所述日志集合中共同出现次数、所述第二类目、与其对应的产品词和对应关系保存到所述图数据库。

该实施例中，图数据库保存了共同出现次数，也保存了对应关系。

下面以一具体例子说明日志：用户A输入搜索词：华为手机。电商平台基于搜索词搜索得到多个文本并返回给用户A终端，用户A点击了标题为“华为HUAWEI nova 5i后置AI四摄极点全面屏前置2400万高清摄像头8GB+128GB”的文本，因而，日志包括该文本。具体地，日志包括用户id、搜索词、点击产品编号、产品名称、产品品牌、产品属性、类目等。

需说明的是，在一个日志中，可以采用现有方式确定与第二属性对应的产品词、与第二品牌对应的产品词，以及与第二类目对应的产品词。当然，还可以人工确定。

下面以一具体例子说明该实施例：

日志包括：搜索词：华为手机；文本的标题：华为HUAWEI nova5i后置AI四摄极点全面屏前置2400万高清摄像头8GB+128GB。

从日志提取：

第二品牌：华为，与华为对应的产品词：手机；

第二属性：2400万，与2400万对应的产品词：手机；

第二类目：手机，与第二类目为手机对应的产品词：手机。

统计华为与手机在日志集合中共同出现次数，将华为与手机在日志集合中共同出现次数、华为、手机和对应关系保存到图数据库；

统计2400万与手机在日志集合中共同出现次数，将2400万与手机在日志集合中共同出现次数、2400万、手机和对应关系保存到图数据库；

统计第二类目为手机与手机在日志集合中共同出现次数，将第二类目为手机与手机在日志集合中共同出现次数、第二类目为手机、手机和对应关系保存到图数据库。

下面以一具体例子说明保存到图数据库的过程：

按照图数据库要求的格式将第二类目及与其对应的产品词在日志集合中共同出现次数、第二类目及与其对应的产品词，保存到如下表中：

第二类目	产品词	共同出现次数	日期	类型
					创意礼品	仪表	4915	2019-09-02	类目与产品词
运动鞋	一脚蹬	270677	2019-09-02	类目与产品词
					劳防用品	门锁	13782	2019-09-02	类目与产品词
…	…	…	…	…

表1第二类目与产品词的表

将表1发送给图数据库。图数据库将表1中数据存储。

需说明的是，可以根据表1中日期确定图数据库的更新时间。

图数据库可以采用neo4j(neo4j是一个高性能的NOSQL图形数据库，它将结构化数据存储在网络上而不是表中)或HugeGraph(HugeGraph是一款由百度开源的图数据库(Graph Database)***，可以存储海量的顶点(Vertex)和边(Edge)，基于ApacheTinkerPop 3框架，支持Gremlin查询语言)等。

图数据库，又称图形数据库。图形数据库是NoSQL数据库的一种类型，它应用图形理论存储实体之间的关系信息。图形数据库是一种非关系型数据库，它应用图形理论存储实体之间的关系信息。最常见例子就是社会网络中人与人之间的关系。关系型数据库用于存储“关系型”数据的效果并不好，其查询复杂、缓慢、超出预期，而图形数据库的独特设计恰恰弥补了这个缺陷。

应理解的是，若个别日志中没有属性，则无法提取第二属性集合中每个第二属性及与其对应的产品词。同样地，若个别日志中没有品牌，则无法提取第二品牌集合中每个第二品牌及与其对应的产品词。

在该实施例中，从日志集合中提取对应关系，将对应关系和共同出现次数预先保存到图数据库，从而通过查询图数据库，并以关系和共同出现次数结合方式识别出待处理文本的核心产品词，进一步提高了识别的准确率。

在大型互联网电子商务平台上，每日会有数万的商家在公布千万级的产品。商家为了让自己的产品获取更多的流量，基于现有搜索曝光原则，会在公布文本的标题中引入多个产品词，及与产品词相关或者不相关的词。例如，标题：【买一送一】图拉斯苹果X/XS/XR钢化膜iPhone XS Max全屏覆盖抗蓝光玻璃手机。该标题中产品词包括：钢化膜和手机，而该标题中核心产品词是钢化膜，用户在搜索手机时，该文本被搜索引擎召回并展示给用户，展示给用户的文本不是用户需要的，用户体验度差；对于商家也会带来无效的流量；不利于识别核心产品词，影响整个电子商务平台的数据生态。

下面以一具体例子说明现有识别方法：文本的标题包括：【买一送一】图拉斯苹果X/XS/XR钢化膜iPhone XS Max全屏覆盖抗蓝光玻璃手机。工作人员确定标题中产品词包括：苹果、钢化膜和手机。工作人员基于个人经验，综合得出文本的核心产品词是钢化膜。应理解的是，对于工作人员熟知的领域，人工识别文本的核心产品词的准确性可靠，但工作人员并不是在每个领域都熟知，因而，识别准确性不高。

本发明实施例自动识别文本的核心产品词，识别的准确性和稳定性较高；对于商家，引导有效的流量(有效的流量是指对商家的产品感兴趣的用户的访问量)，提高转化；对于电子商务平台生态，可以获得更为干净的数据；对于用户，提升搜索准确性，提高用户体验度。另外，在识别出文本的核心产品词后，可以做类目分类，搜索推荐或者简明标题等。

图(Graph)结构是一种非线性的数据结构，图在实际生活中有很多例子，比如交通运输网，地铁网络，社交网络，计算机中的状态执行(自动机)等等都可以抽象成图结构。图结构是比树结构复杂的非线性结构。如图4所示，图主要由节点和边构成。本发明实施例将属性与产品词的关系、品牌与产品词的关系，以及类目与产品词的关系，以图结构的形式保存在图数据库。

另外，识别核心产品词是基于大量准确的先验知识，先验知识即为图数据库存储的数据。因而，要定期对图数据库存储的数据进行更新。

为了解决现有技术存在的问题，本发明实施例提供了一种识别装置，如图5所示，该装置包括：

获取单元501，用于从待处理文本获取第一产品词集合，根据所述待处理文本和图数据库获取所述待处理文本的多个参数与产品词的关系子图。

计算单元502，用于按照所述待处理文本的多个参数与产品词的关系子图进行计算，得到第二产品词集合。

识别单元503，用于根据所述图数据库从所述第一产品词集合和所述第二产品词集的交集中，识别所述待处理文本的核心产品词。

在本发明实施例中，获取单元501用于：

在本发明实施例中，识别单元503用于：

在本发明实施例中，计算单元502用于：

在本发明实施例中，获取单元501用于：

应理解的是，本发明实施例提供的识别装置的各部件所执行的功能已经在上述实施例识别方法中做了详细的介绍，这里不再赘述。

图6示出了可以应用本发明实施例的识别方法或识别装置的示例性***架构600。

如图6所示，***架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的识别方法一般由服务器605执行，相应地，识别装置一般设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图7，其示出了适于用来实现本发明实施例的终端设备的计算机***700的结构示意图。图7示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机***700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有***700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本发明的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分，上述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、计算单元和识别单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，计算单元还可以被描述为“按照所述待处理文本的多个参数与产品词的关系子图进行计算，得到第二产品词集合的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：从待处理文本获取第一产品词集合，根据所述待处理文本和图数据库获取所述待处理文本的多个参数与产品词的关系子图；按照所述待处理文本的多个参数与产品词的关系子图进行计算，得到第二产品词集合；根据所述图数据库从所述第一产品词集合和所述第二产品词集的交集中，识别所述待处理文本的核心产品词。

根据本发明实施例的技术方案，从待处理文本获取第一产品词集合，根据待处理文本和图数据库获取待处理文本的多个参数与产品词的关系子图；按照待处理文本的多个参数与产品词的关系子图进行计算，得到第二产品词集合；根据图数据库从第一产品词集合和第二产品词集的交集中，识别待处理文本的核心产品词。核心产品词与多个参数中的大部分有关系，利用关系识别出核心产品词。从而提高了识别的准确率。自动识别，无人工参与，提高了识别的效率。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，从待处理文本获取第一产品词集合，根据所述待处理文本和图数据库获取所述待处理文本的多个参数与产品词的关系子图，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述图数据库从所述第一产品词集合和所述第二产品词集的交集中，识别所述待处理文本的核心产品词，包括：

4.根据权利要求3所述的方法，其特征在于，计算所述待选产品词的概率，包括：

5.根据权利要求2所述的方法，其特征在于，按照所述待处理文本的多个参数与产品词的关系子图进行计算，得到第二产品词集合，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，在从待处理文本获取第一产品词集合之前，包括：

7.一种识别装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，获取单元用于：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。