CN109033076A - 信息挖掘方法和装置 - Google Patents

信息挖掘方法和装置 Download PDF

Info

Publication number
CN109033076A
CN109033076A CN201810716210.9A CN201810716210A CN109033076A CN 109033076 A CN109033076 A CN 109033076A CN 201810716210 A CN201810716210 A CN 201810716210A CN 109033076 A CN109033076 A CN 109033076A
Authority
CN
China
Prior art keywords
query statement
template
query
high frequency
particular category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810716210.9A
Other languages
English (en)
Inventor
王文敏
纪友升
凌光
徐威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810716210.9A priority Critical patent/CN109033076A/zh
Publication of CN109033076A publication Critical patent/CN109033076A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提出一种信息挖掘方法和装置。其中该方法包括:从搜索日志中挖掘每个特定类别的各查询语句;给定所述特定类别的种子实体;根据所述特定类别的种子实体和各查询语句,生成所述特定类别的各查询语句对应的表达模板;根据各类别的查询语句及其对应的表达模板,从所述搜索日志中挖掘得到高频查询语句和高频表达模板。以用户的搜索日志作为数据源,得到的高频语句高频表达,既丰富又能够满足能够覆盖各种用户的表达习惯,可以包括例如口语化表达等人工富集的模板无法覆盖的内容。

Description

信息挖掘方法和装置
技术领域
本发明涉及信息检索技术领域,尤其涉及一种信息挖掘方法和装置。
背景技术
在人机交互***中,用户对于机器人交互的需求表达多种多样。现有的基于模板解析模块需要有全量的用户提问查询语句(query),才能提高用户理解的召回率和解析准确率。这些用户表达有以下几个特点,造成使用传统的人工富集规则和词表,存在很多问题。
(1)表达方式多种多样,同个问题用户的表达形式各种各样,不同用户的表达习惯也多种多样,在这种情况下,人工富集构建无法覆盖所有表达。
(2)表达偏口语化,用户表达形式口语化严重,人工富集的模板无法覆盖。
(3)每一维度的词表数量庞大,人工没法构建如此庞大数量级的词表。
由于用户表达的以上特点,如果使用人工富集规则和词表,存在时间和人力成本高、效率低、解析效果差等问题,会导致用户理解模块效果差,人机交互体验差。此外,富集词表无法富集大规模全量词表,导致解析召回率低。富集表达方式无法富集大规模全量表达模板、口语化表达,导致解析召回率和准确率低,不能理解用户表达,无法提供准确答案,导致用户满意度低。
发明内容
本发明实施例提供一种信息挖掘方法和装置,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种信息挖掘方法,包括:
从搜索日志中挖掘每个特定类别的各查询语句;
给定所述特定类别的种子实体;
根据所述特定类别的种子实体和各查询语句,生成所述特定类别的各查询语句对应的表达模板;
根据各类别的查询语句及其对应的表达模板,从所述搜索日志中挖掘得到高频查询语句和高频表达模板。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,根据所述特定类别的种子实体和各查询语句,生成所述特定类别的各查询语句对应的表达模板,包括:
如果所述特定类别的查询语句中包括种子实体,则将所述种子实体采用通配图代替,得到对应的表达模板。
结合第一方面,本发明实施例在第一方面的第二种实现方式中,还包括:
利用各表达模板,从所述搜索日志中挖掘出各种实体,以得到高频词和/或口语化词;和/或
从选定网站的全量数据中抽取属于所述特定类别的全量词。
结合第一方面的第二种实现方式,本发明实施例在第一方面的第三种实现方式中,还包括:
对挖掘出的各种实体的表达模板进行可缩放矢量图形SVG降维处理,得到对应的特征向量;
将多个表达模板对应的特征向量进行聚类,得到所述特定类别包括的表达模板。
结合第一方面或其任意一种实现方式,本发明实施例在第一方面的第四种实现方式中,还包括:
对所述搜索日志进行筛选,得到相关的查询语句和表达模板。
结合第一方面的第四种实现方式,本发明实施例在第一方面的第五种实现方式中,其特征在于,根据各类别的查询语句及其对应的表达模板,从所述搜索日志中挖掘得到高频查询语句和高频表达模板,包括:
从相关的查询语句中,获取已标注的查询语句,所述已标注的查询语句中包括类别标签;
根据已标注的查询语句中两个查询语句的词向量计算二者的语义相似度;
如果所述两个查询语句的语义相似度大于阈值,则建立二者之间的链接;
根据各查询语句之间的链接,以及每个查询语句与其对应的表达模板之间的连接关系,建立语句模板关系图;
根据已标注的查询语句中每个查询语句的类别标签和已标注的查询语句的总数,计算随机算法的参数;
在所述语句模板关系图中采用所述随机算法,得到各查询语句及其对应的表达模板的排序;
根据排序结果筛选出高频查询语句和高频查询模板。
第二方面,本发明实施例提供了一种信息挖掘装置,包括:
语句挖掘模块,用于从搜索日志中挖掘每个特定类别的各查询语句;
实体给定模块,用于给定所述特定类别的种子实体;
模板生成模块,用于根据所述特定类别的种子实体和各查询语句,生成所述特定类别的各查询语句对应的表达模板;
高频挖掘模块,用于根据各类别的查询语句及其对应的表达模板,从所述搜索日志中挖掘得到高频查询语句和高频表达模板。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述模板生成模块还用于如果所述特定类别的查询语句中包括种子实体,则将所述种子实体采用通配图代替,得到对应的表达模板。
结合第二方面,本发明实施例在第二方面的第二种实现方式中,还包括:
查询词挖掘模块,用于利用各表达模板,从所述搜索日志中挖掘出各种实体,以得到高频词和/或口语化词;和/或
全量词抽取模块,用于从选定网站的全量数据中抽取属于所述特定类别的全量词。
结合第二方面的第二种实现方式,本发明实施例在第二方面的第三种实现方式中,所述查询词挖掘模块包括:
降维处理子模块,用于对挖掘出的各种实体的表达模板进行可缩放矢量图形SVG降维处理,得到对应的特征向量;
聚类子模块,用于将多个表达模板对应的特征向量进行聚类,得到所述特定类别包括的表达模板。
结合第二方面或其任意一种实现方式,本发明实施例在第二方面的第四种实现方式中,还包括:
相关表达挖掘模块,用于对所述搜索日志进行筛选,得到相关的查询语句和表达模板。
结合第二方面的第四种实现方式,本发明实施例在第二方面的第五种实现方式中,所述高频挖掘模块包括:
标注语句获取子模块,用于从相关的查询语句中,获取已标注的查询语句,所述已标注的查询语句中包括类别标签;
相似度计算子模块,用于根据已标注的查询语句中两个查询语句的词向量计算二者的语义相似度;
链接建立子模块,用于如果所述两个查询语句的语义相似度大于阈值,则建立二者之间的链接;
关系图建立子模块,用于根据各查询语句之间的链接,以及每个查询语句与其对应的表达模板之间的连接关系,建立语句模板关系图;
参数计算子模块,用于根据已标注的查询语句中每个查询语句的类别标签和已标注的查询语句的总数,计算随机算法的参数;
排序子模块,用于在所述语句模板关系图中采用所述随机算法,得到各查询语句及其对应的表达模板的排序;
高频筛选子模块,用于根据排序结果筛选出高频查询语句和高频查询模板。
第三方面,本发明实施例提供了一种信息挖掘装置,所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,信息挖掘装置的结构中包括处理器和存储器,所述存储器用于存储支持信息挖掘装置执行上述信息挖掘方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述信息挖掘装置还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储信息挖掘装置所用的计算机软件指令,其包括用于执行上述信息挖掘方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:以用户的搜索日志作为数据源,得到的高频语句高频表达,既丰富又能够满足能够覆盖各种用户的表达习惯,可以包括例如口语化表达等人工富集的模板无法覆盖的内容。
上述技术方案中的另一个技术方案具有如下优点或有益效果:通过融合多种数据挖掘和人工智能技术,能够挖掘大规模词表、挖掘相关表达模板、聚类抽取用户表达模板、采用随机算法提取用户高频表达模板,从而达到高效率、高召回和高解析准确率的效果。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的信息挖掘方法的流程图。
图2示出根据本发明实施例的信息挖掘方法的流程图。
图3示出根据本发明实施例的信息挖掘方法的流程图。
图4示出根据本发明实施例的信息挖掘装置的结构框图。
图5示出根据本发明实施例的信息挖掘装置的结构框图。
图6示出根据本发明实施例的信息挖掘装置的结构框图。
图7示出语句模板关系图的一般形式的示意图。
图8示出语句模板关系图的一种示例的示意图。
图9示出根据本发明实施例的信息挖掘装置的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本发明实施例的信息挖掘方法的流程图。如图1所示,该信息挖掘方法可以包括以下步骤:
步骤101、从搜索日志中挖掘每个特定类别的各查询语句;
步骤102、给定所述特定类别的种子实体;
步骤103、根据所述特定类别的种子实体和各查询语句,生成所述特定类别的各查询语句对应的表达模板;
步骤104、根据各类别的查询语句及其对应的表达模板,从所述搜索日志中挖掘得到高频查询语句和高频表达模板。
在本发明实施例中,搜索日志可以包括用户的搜索行为相关的信息,例如,搜索时输入的查询语句,搜索得到的结果,以及用户实际点击的搜索结果等。在搜索日志中可以挖掘出属于某一特定类别的查询语句。例如,如果特定类别为电影,可以查找出包括电影的名称、明星、角色等相关的信息的各查询语句,作为电影这个类别的查询语句。
给定的种子实体可以包括属于该特定类别的实体。例如,属于电影这个类别的实体包括角色A、明星B、电影名C等。
在一种可能的实现方式中,步骤103包括:如果所述特定类别的查询语句中包括种子实体,则将所述种子实体采用通配图代替,得到对应的表达模板。
具体地,可以根据这些种子实体,在该类别的各查询语句中进行匹配,将匹配到的查询语句中的种子实体采用通配符来代替,以生成对应的表达模板。
例如,查询语句Q1包括“电影名C首播”,可以将Q1中的“电影名C”用通配符例如“*”来代替,生成表达模板<*首播>。
再如,查询语句Q2包括“明星B参加电影节”,可以将Q1中的“明星B”用通配符例如“*”来代替,生成表达模板<*参加电影节>。
在一种可能的实现方式中,如图2所示,在得到表达模板后,该方法还包括:步骤201、利用各表达模板,从所述搜索日志中挖掘出各种实体,以得到高频词和/或口语化词。
在得到大量的表达模板后,可以使用这些表达模板在搜索日志中进行挖掘,得到属于这些表达模板的所有实体。
例如,采用模板<*首播>,在日志中挖掘到查询语句Q11“电影名C1首播”,Q12“电影名C2首播”,Q13“电影名C3首播”等。从而得到“电影名C1”、“电影名C2”、“电影名C3”这些实体。
再如,采用模板<*参加电影节>,在日志中挖掘到查询语句Q21“明星B1参加电影节”,Q22“明星B2参加电影节”,Q23“明星B2参加电影节”等。从而得到“明星B1”、“明星B2”、“明星B3”这些实体。
在一种可能的实现方式中,如图2所示,还可以从一些百科网站例如***、百度百科等网站的离线全量数据中上挖掘该特定类别的全量词。该方法可以包括:步骤202、从选定网站的全量数据中抽取属于所述特定类别的全量词。例如,可以从百科网站抽取电影这个类别的所有词条,然后基于百科的摘要、目录等对这个类别的所有词条再进行分类。
在一种可能的实现方式中,根据各表达模板从所述搜索日志中挖掘得到对应的查询词,包括:
利用各表达模板,从所述搜索日志中挖掘出各种实体;
对挖掘出的各种实体的表达模板进行可缩放矢量图形(Scalable VectorGraphics,SVG)降维处理,得到对应的特征向量;
将每个表达模板对应的特征向量进行聚类,得到所述特定类别包括的表达模板。
其中,将表达模板作为每个实体的特征,是稀疏的特征。将进行表达模板SVG降维处理,得到对应的特征向量后,聚类效果更好,效率高。
在一种可能的实现方式中,如图3所示,该方法还包括:
步骤301、对所述搜索日志进行筛选,得到相关的查询语句和表达模板。
在一种可能的实现方式中,步骤104可以包括根据各类别的查询语句及其对应的表达模板,从相关的查询语句和表达模板中,挖掘得到高频查询语句和高频表达模板,具体可以包括:
从相关的查询语句中,获取已标注的查询语句,所述已标注的查询语句中包括类别标签;
根据已标注的查询语句中两个查询语句的词向量计算二者的语义相似度,例如将两个查询词的词向量的余弦距离作为二者的语义相似度;
如果所述两个查询语句的语义相似度大于阈值,则建立二者之间的链接;
根据各查询语句之间的链接,以及每个查询语句与其对应的表达模板之间的连接关系,建立语句模板关系图;
根据已标注的查询语句中每个查询语句的类别标签和已标注的查询语句的总数,计算随机算法的参数,例如R值=类别标签的值/已标注的查询语句的总数;
在所述语句模板关系图中采用所述随机算法(利用上述的R值),得到各查询语句及其对应的表达模板的排序;
根据排序结果筛选出高频查询语句和高频查询模板。
本发明实施例以用户的搜索日志作为数据源,得到的高频语句高频表达,既丰富又能够满足覆盖各种用户的表达习惯,可以包括例如口语化表达等人工富集的模板无法覆盖的内容。
此外,通过融合多种数据挖掘和人工智能技术,能够挖掘大规模词表、挖掘相关表达模板、聚类抽取用户表达模板、采用随机算法提取用户高频表达模板,从而达到高效率、高召回和高解析准确率的效果,能够提供准确答案,提高用户满意度,人机交互体验好。
图4示出根据本发明实施例的信息挖掘装置的结构框图。如图4所示,该信息挖掘装置可以包括:
语句挖掘模块41,用于从搜索日志中挖掘每个特定类别的各查询语句;
实体给定模块42,用于给定所述特定类别的种子实体;
模板生成模块43,用于根据所述特定类别的种子实体和各查询语句,生成所述特定类别的各查询语句对应的表达模板;
高频挖掘模块44,用于根据各类别的查询语句及其对应的表达模板,从所述搜索日志中挖掘得到高频查询语句和高频表达模板。
在一种可能的实现方式中,所述模板生成模块43还用于如果所述特定类别的查询语句中包括种子实体,则将所述种子实体采用通配图代替,得到对应的表达模板。
在一种可能的实现方式中,如图5所示,该装置还包括:
查询词挖掘模块51,用于利用各表达模板,从所述搜索日志中挖掘出各种实体,以得到高频词和/或口语化词;和/或
全量词抽取模块52,用于从选定网站的全量数据中抽取属于所述特定类别的全量词。
在一种可能的实现方式中,所述查询词挖掘模块51包括:
降维处理子模块,用于对挖掘出的各种实体的表达模板进行可缩放矢量图形SVG降维处理,得到对应的特征向量;
聚类子模块,用于将多个表达模板对应的特征向量进行聚类,得到所述特定类别包括的表达模板。
在一种可能的实现方式中,如图6所示,该装置还包括:相关表达挖掘模块61,用于对所述搜索日志进行筛选,得到相关的查询语句和表达模板。
在一种可能的实现方式中,所述高频挖掘模块44包括:
标注语句获取子模块,用于从相关的查询语句中,获取已标注的查询语句,所述已标注的查询语句中包括类别标签;
相似度计算子模块,用于根据已标注的查询语句中两个查询语句的词向量计算二者的语义相似度;
链接建立子模块,用于如果所述两个查询语句的语义相似度大于阈值,则建立二者之间的链接;
关系图建立子模块,用于根据各查询语句之间的链接,以及每个查询语句与其对应的表达模板之间的连接关系,建立语句模板关系图;
参数计算子模块,用于根据已标注的查询语句中每个查询语句的类别标签和已标注的查询语句的总数,计算随机算法的参数;
排序子模块,用于在所述语句模板关系图中采用所述随机算法,得到各查询语句及其对应的表达模板的排序;
高频筛选子模块,用于根据排序结果筛选出高频查询语句和高频查询模板。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
本发明实施例通过融合多种数据挖掘和人工智能技术,能够挖掘大规模词表、挖掘相关表达模板、聚类抽取用户表达模板、采用随机算法(randomwalk)提取用户高频表达模板,从而达到高效率、高召回和高解析准确率的效果。
在一种应用示例中,采用本发明实施例的信息挖掘方法可以包括以下部分:
一:大规模核心词表挖掘,挖掘的词表可以包括高频词、口语化词和全量词。
1.挖掘高频词、口语化词:
1.1从搜索日志中挖掘特定类别所有的查询语句(query);
1.2给定少量种子实体(可以理解为某领域特定的查询对象),如果query出现某个实体,则用通配符代替,产生一个对应的表达模版。比如给定种子实体——“变形金刚”,有一条查询语句是“变形金刚在线高清观看“,则产生表达模板(pattern)<*在线高清观看>。
1.3上一步得到大量表达模板后,用这些表达模板在搜索日志(log)里挖出所有实体。
1.4以表达模板作为每个实体(entity)的特征,这是一个很稀疏的特征,做聚类效果不好,效率低。因此,可以先对表达模板做可缩放矢量图形(Scalable Vector Graphics,SVD)降维,再用降维后的特征向量做聚类。
2.挖掘全量词:从***(Wikipedia)或者百度百科离线全量数据抽取特定类别的所有词条,进行基于Wikipedia摘要的分类;
二:全网表达query挖掘
挖掘搜索日志(如百度大搜索点击日志),从中筛选保留点击主流网站的相关日志,从而筛选出相关的用户表达查询语句(query)和表达模板(也可以称为表达方式)。
三:抽取高频表达query和表达模板
标注一批query,query的类别标签可以表示该query是否属于特定类别。比如电影,label是为1,label否则为0。
采用label/sum(该公式表示标签值0或1除以总数(文本总数)作为每个query的R值(随机算法的参数)。
使用query的词向量(例如lstm_encoding)表示query语义,并使用余弦相似度来计算每两个query之间语义相似度。对于语义相似度大于阈值例如0.9的两个query构建链接。
综合query之间的链接以及query与其表达模板(pattern)之间的连接关系,构建语句模板关系图(可以简称QQT-Graph)。
在QQT-Graph采用上述的R值进行随机算法(例如randomwalk),得到最终的query和pattern排序。
最后,筛选高频的表达query和表达模板进行解析召回覆盖,从而提升解析率。
如图7所示,为语句模板关系图的一般形式,其中q表示查询语句,s表示查询语句之间的链接,t表示表达模板。Cqs表示s与q连接的边对应的权重,Cs表示s的分数、Cq表示q的分数。Iqt表示q与t连接的边对应的权重、Iq表示q的分数、It表示t的分数分数。此外,建立语句模板关系图时,也可以不用s表示两个查询语句之间的连接关系,而在两个查询语句q与q之间建立直连的边。
如图8所示,为一种示例性的语句模板关系图。假设其中的各查询语句的示例如下:
q1:jobs in chicago
q2:jobs in boston
q3:jobs in microsoft
q4:jobs in motorola
q5:marketing jobs in motorola
q6:401k plans
q7:illinois employment statistics
计算每个查询语句的语义相似度,可以建立两个语句之间的链接。链接的示例如下:
S1:monster.com
s2:motorola.com
s3:us401k.com
其中,q1与q7的链接、q1与q2的链接、q1与q3的链接、q1与q6的链接为s1;q4与q5的链接为s2;q6与q7的链接为s3。
基于之前挖掘的表达模板与各查询语句的关系,建立模板与各查询语句的连接。表达模板的示例如下:
t1:jobs in#location
t2:jobs in#company
t3:#category jobs in#company
t4:#location employment statistics
其中,q1、q2与t1具有连接关系;q2、q3、q4与t2具有连接关系;q5与t3具有连接关系;q7与t4具有连接关系。
在图8所示的语句模板关系图中,数值1、2、5、4、10、12等表示每个边对应的权重。
采用本发明实施例的信息挖掘方法和装置,具有以下明显的优点:
节省时间和人力成本,使用机器挖掘技术可以很快的完成一个新类目的冷启动的知识挖掘。
融合多种数据挖掘和人工智能技术,能够挖掘大规模词表、挖掘全网用的相关表达模板、聚类抽取用户表达模板、randomwalk提取用户高频表达模板,从而达到高效率、高召回和高解析准确率的效果,提升用户体验。
图9示出根据本发明实施例的信息挖掘装置的结构框图。如图9所示,该装置包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的信息挖掘方法。所述存储器910和处理器920的数量可以为一个或多个。
该装置还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种信息挖掘方法,其特征在于,包括:
从搜索日志中挖掘每个特定类别的各查询语句;
给定所述特定类别的种子实体;
根据所述特定类别的种子实体和各查询语句,生成所述特定类别的各查询语句对应的表达模板;
根据各类别的查询语句及其对应的表达模板,从所述搜索日志中挖掘得到高频查询语句和高频表达模板。
2.根据权利要求1所述的方法,其特征在于,根据所述特定类别的种子实体和各查询语句,生成所述特定类别的各查询语句对应的表达模板,包括:
如果所述特定类别的查询语句中包括种子实体,则将所述种子实体采用通配图代替,得到对应的表达模板。
3.根据权利要求1所述的方法,其特征在于,还包括:
利用各表达模板,从所述搜索日志中挖掘出各种实体,以得到高频词和/或口语化词;和/或
从选定网站的全量数据中抽取属于所述特定类别的全量词。
4.根据权利要求3所述的方法,其特征在于,还包括:
对挖掘出的各种实体的表达模板进行可缩放矢量图形SVG降维处理,得到对应的特征向量;
将多个表达模板对应的特征向量进行聚类,得到所述特定类别包括的表达模板。
5.根据权利要求1至4中任一项所述的方法,其特征在于,还包括:
对所述搜索日志进行筛选,得到相关的查询语句和表达模板。
6.根据权利要求5所述的方法,其特征在于,根据各类别的查询语句及其对应的表达模板,从所述搜索日志中挖掘得到高频查询语句和高频表达模板,包括:
从相关的查询语句中,获取已标注的查询语句,所述已标注的查询语句中包括类别标签;
根据已标注的查询语句中两个查询语句的词向量计算二者的语义相似度;
如果所述两个查询语句的语义相似度大于阈值,则建立二者之间的链接;
根据各查询语句之间的链接,以及每个查询语句与其对应的表达模板之间的连接关系,建立语句模板关系图;
根据已标注的查询语句中每个查询语句的类别标签和已标注的查询语句的总数,计算随机算法的参数;
在所述语句模板关系图中采用所述随机算法,得到各查询语句及其对应的表达模板的排序;
根据排序结果筛选出高频查询语句和高频查询模板。
7.一种信息挖掘装置,其特征在于,包括:
语句挖掘模块,用于从搜索日志中挖掘每个特定类别的各查询语句;
实体给定模块,用于给定所述特定类别的种子实体;
模板生成模块,用于根据所述特定类别的种子实体和各查询语句,生成所述特定类别的各查询语句对应的表达模板;
高频挖掘模块,用于根据各类别的查询语句及其对应的表达模板,从所述搜索日志中挖掘得到高频查询语句和高频表达模板。
8.根据权利要求7所述的装置,其特征在于,所述模板生成模块还用于如果所述特定类别的查询语句中包括种子实体,则将所述种子实体采用通配图代替,得到对应的表达模板。
9.根据权利要求7所述的装置,其特征在于,还包括:
查询词挖掘模块,用于利用各表达模板,从所述搜索日志中挖掘出各种实体,以得到高频词和/或口语化词;和/或
全量词抽取模块,用于从选定网站的全量数据中抽取属于所述特定类别的全量词。
10.根据权利要求9所述的装置,其特征在于,所述查询词挖掘模块包括:
降维处理子模块,用于对挖掘出的各种实体的表达模板进行可缩放矢量图形SVG降维处理,得到对应的特征向量;
聚类子模块,用于将多个表达模板对应的特征向量进行聚类,得到所述特定类别包括的表达模板。
11.根据权利要求7至10中任一项所述的装置,其特征在于,还包括:
相关表达挖掘模块,用于对所述搜索日志进行筛选,得到相关的查询语句和表达模板。
12.根据权利要求11所述的装置,其特征在于,所述高频挖掘模块包括:
标注语句获取子模块,用于从相关的查询语句中,获取已标注的查询语句,所述已标注的查询语句中包括类别标签;
相似度计算子模块,用于根据已标注的查询语句中两个查询语句的词向量计算二者的语义相似度;
链接建立子模块,用于如果所述两个查询语句的语义相似度大于阈值,则建立二者之间的链接;
关系图建立子模块,用于根据各查询语句之间的链接,以及每个查询语句与其对应的表达模板之间的连接关系,建立语句模板关系图;
参数计算子模块,用于根据已标注的查询语句中每个查询语句的类别标签和已标注的查询语句的总数,计算随机算法的参数;
排序子模块,用于在所述语句模板关系图中采用所述随机算法,得到各查询语句及其对应的表达模板的排序;
高频筛选子模块,用于根据排序结果筛选出高频查询语句和高频查询模板。
13.一种信息挖掘装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。
14.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
CN201810716210.9A 2018-06-29 2018-06-29 信息挖掘方法和装置 Pending CN109033076A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810716210.9A CN109033076A (zh) 2018-06-29 2018-06-29 信息挖掘方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810716210.9A CN109033076A (zh) 2018-06-29 2018-06-29 信息挖掘方法和装置

Publications (1)

Publication Number Publication Date
CN109033076A true CN109033076A (zh) 2018-12-18

Family

ID=65521476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810716210.9A Pending CN109033076A (zh) 2018-06-29 2018-06-29 信息挖掘方法和装置

Country Status (1)

Country Link
CN (1) CN109033076A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990451A (zh) * 2019-11-15 2020-04-10 浙江大华技术股份有限公司 基于句子嵌入的数据挖掘方法、装置、设备及存储装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419778A (zh) * 2012-01-09 2012-04-18 中国科学院软件研究所 一种挖掘查询语句子话题并聚类的信息搜索方法
CN103425714A (zh) * 2012-05-25 2013-12-04 北京搜狗信息服务有限公司 一种搜索方法和***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419778A (zh) * 2012-01-09 2012-04-18 中国科学院软件研究所 一种挖掘查询语句子话题并聚类的信息搜索方法
CN103425714A (zh) * 2012-05-25 2013-12-04 北京搜狗信息服务有限公司 一种搜索方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
伍大勇: "搜索引擎中命名实体查询处理相关技术研究", 《中国博士学位论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990451A (zh) * 2019-11-15 2020-04-10 浙江大华技术股份有限公司 基于句子嵌入的数据挖掘方法、装置、设备及存储装置
CN110990451B (zh) * 2019-11-15 2023-05-12 浙江大华技术股份有限公司 基于句子嵌入的数据挖掘方法、装置、设备及存储装置

Similar Documents

Publication Publication Date Title
Rule et al. Lexical shifts, substantive changes, and continuity in State of the Union discourse, 1790–2014
El‐Assady et al. NEREx: Named‐entity relationship exploration in multi‐party conversations
Kiryakov et al. Semantic annotation, indexing, and retrieval
CN106844341A (zh) 基于人工智能的新闻摘要提取方法及装置
CN103544321A (zh) 用于微博情感信息的数据处理方法和装置
CA2807494A1 (en) Method and system for integrating web-based systems with local document processing applications
US6298350B1 (en) Method for automatic processing of information materials for customised use
CN109947934A (zh) 针对短文本的数据挖掘方法及***
Ilievski et al. Commonsense knowledge in wikidata
Hollink et al. Adding Spatial Semantics to Image Annotations.
Ahmed et al. Framing South Asian politics: An analysis of Indian and Pakistani English print media discourses regarding Kartarpur corridor
Beytía Reyes et al. Visibility layers: a framework for systematising the gender gap in Wikipedia content
Burns et al. A suite of generative tasks for multi-level multimodal webpage understanding
Martins et al. StanceXplore: Visualization for the interactive exploration of stance in social media
CN109033076A (zh) 信息挖掘方法和装置
Yan et al. Two Diverging roads: a semantic network analysis of chinese social connection (“guanxi”) on Twitter
Abraham et al. Extraction of spatio‐temporal data about historical events from text documents
Nobre Anaphora resolution
Hanchard et al. Developing a computational ontology from mixed-methods research: a workflow and its challenges
Castano et al. SABINE: a multi-purpose dataset of semantically-annotated social content
Krzywicki et al. A knowledge acquisition method for event extraction and coding based on deep patterns
Zarifi et al. Gender identification of short text author using conceptual vectorization
Koncar et al. Text sentiment in the age of enlightenment
Dao Coreference Resolution for Software Architecture Documentation
Shahbazi StoryMiner: An Automated and Scalable Framework for Story Analysis and Detection from Social Media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218

RJ01 Rejection of invention patent application after publication