CN104346480A - 信息挖掘方法和装置 - Google Patents

信息挖掘方法和装置 Download PDF

Info

Publication number
CN104346480A
CN104346480A CN201410710424.7A CN201410710424A CN104346480A CN 104346480 A CN104346480 A CN 104346480A CN 201410710424 A CN201410710424 A CN 201410710424A CN 104346480 A CN104346480 A CN 104346480A
Authority
CN
China
Prior art keywords
information
message content
message
feature interpretation
interpretation information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410710424.7A
Other languages
English (en)
Other versions
CN104346480B (zh
Inventor
刘松
孙凯
陶明远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410710424.7A priority Critical patent/CN104346480B/zh
Publication of CN104346480A publication Critical patent/CN104346480A/zh
Priority to PCT/CN2015/086095 priority patent/WO2016082575A1/zh
Application granted granted Critical
Publication of CN104346480B publication Critical patent/CN104346480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24537Query rewriting; Transformation of operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)

Abstract

本发明实施例提供一种信息挖掘方法和装置。该方法包括:监听即时通信软件应用中发布的消息;对监听到的消息进行解析,得到消息内容;将消息内容与预先建立的特征识别词典中的关键词进行匹配;在匹配成功时,抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息,并将所述特征描述信息进行保存。由于即时通信软件应用中发布消息不仅类别清晰度高,且信息专业性高,因此通过将解析到的消息内容与特征识别词典中的关键词进行匹配,并抓取匹配成功的消息内容,或抓取匹配成功的消息内容和该消息内容的相关内容,可自动捕获特定对象的特征描述信息,节省了人力成本,并提升了得到的特定对象的特征描述信息的专业性和准确性。

Description

信息挖掘方法和装置
技术领域
本发明实施例涉及信息技术领域,尤其涉及一种信息挖掘方法和装置。
背景技术
现有技术中获取与产品或服务等对象相关的信息,比如对产品的改进有帮助的产品缺陷描述信息时,通常是通过人工在相关领域的论坛或网页中进行抓取,效率低下且准确度不高。
发明内容
本发明实施例提供一种信息挖掘方法和装置,以实现自动捕获特定对象的特征信息,节省人力成本,并提升捕获到的特定对象的特征信息的准确度。
第一方面,本发明实施例提供了一种信息挖掘方法,包括:
监听即时通信软件应用中发布的消息;
对监听到的消息进行解析,得到消息内容;
将所述消息内容与预先建立的特征识别词典中的关键词进行匹配;
在匹配成功时,抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息,并将所述特征描述信息进行保存。
第二方面,本发明实施例还提供了一种信息挖掘装置,包括:
消息监听模块,用于监听即时通信软件应用中发布的消息;
消息解析模块,用于对监听到的消息进行解析,得到消息内容;
匹配模块,用于将所述消息内容与预先建立的特征识别词典中的关键词进行匹配;
特征描述信息处理模块,用于在匹配成功时,抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息,并将所述特征描述信息进行保存。
本发明实施例提供的信息挖掘方法和装置,通过监听并解析即时通信软件应用中发布的消息,由于即时通信软件应用中发布消息不仅类别清晰度高,而且信息专业性高,因此通过将解析到的消息内容与预先建立的特征识别词典中的关键词进行匹配,并抓取匹配成功的消息内容,或者抓取匹配成功的消息内容和该消息内容的相关内容,可以自动捕获特定对象的特征描述信息,节省了人力成本,并提升了得到的特定对象的特征描述信息的专业性和准确性,有利于根据所述特征描述信息对特定对象进行改进。
附图说明
图1为本发明实施例一提供的一种信息挖掘方法的流程图;
图2为本发明实施例二提供的一种信息挖掘方法的流程图;
图3a为本发明实施例三提供的一种信息挖掘方法的流程图;
图3b为本发明实施例三提供的另一种信息挖掘方法的流程图;
图3c为本发明实施例三提供的又一种信息挖掘方法的流程图;
图4为本发明实施例四提供的一种信息挖掘装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
请参阅图1,为本发明实施例一提供的一种信息挖掘方法的流程图。本发明实施例的方法可以由配置以硬件和/或软件实现的信息挖掘装置来执行,该实现装置典型的是配置于能够提供数据挖掘服务的服务器中。
该方法包括:操作110~操作140。
110、监听即时通信软件应用中发布的消息。
通常,每个企业内部都有跟该企业产品或部门相关的即时通信软件应用,以方便该企业内负责各产品研发群体或负责运营维护的群体发布消息。
例如,百度公司推出的百度Hi是一款集文字消息、语音视频通话和文件传输等功能的即时通讯软件应用,在百度Hi中建立的跟产品“百度地图”或产品“百度翻译”等对应的群组,以方便百度公司内负责各产品研发或负责运营维护的工作人员发布消息。
其中,发布消息的方式有多种,可以以文字形式发布,也可以以语音、视频或图片等其他形式发布,本实施例对此不进行限制,只要得到即时通信软件应用支持即可。
本操作具体是监听即时通信软件应用中与企业产品相关的群组或与企业部门相关的群组中发布的文字消息。
120、对监听到的消息进行解析,得到消息内容。
本操作中,具体是根据即时通信软件应用的通信协议,对监听到的消息进行翻译,正确还原出与监听到的消息对应的原始数据,也即还原出可阅读的字符串。
130、将所述消息内容与预先建立的特征识别词典中的关键词进行匹配。
本操作具体是利用关键词匹配技术,根据预先建立的特征识别词典,确定所述消息内容中是否包含所述特征识别词典中的关键词。
需要说明的是,企业内各对象对应的群体发布消息不同,解析到的消息内容不同。群体具有类别清晰度高、信息专业性高和语言特征明显的特点(例如每个群组包含的群成员都是一种类别或者做同一产品的人群,群成员都具相同或相似的专业背景),因此不同群体发布的消息能够反映企业对象信息。
其中,对象可以是具体的各个产品,也可以是企业管理等宏观对象。
例如,“百度地图”产品对应的群组是百度公司负责“百度地图”研发或运营维护的群体,该群组中群成员发布的消息包含有该产品的优缺点信息、或该产品的后续改进信息。
又如,“百度浏览器”产品对应的调试群组中群成员发布的消息包含有该产品调试过程中出现的bug或者疑似问题。
因此,可以对企业不同的对象对应的群组建立相应的特征识别词典,从而得到不同对象(例如不同的产品,或者企业管理)对应的特征描述信息(例如不同产品的优缺点信息,或企业管理存在的问题);对企业同一对象的不同群组,优选是建立相应的特征识别词典,从而得到与同一对象有关的不同层面的特征描述信息。
例如,对“百度地图”产品中的研发群体建立与研发有关的特征识别词典,该词典中的关键词可以包括“研发”、“进展”、“趋势”、“成本”和“对手”等;对“百度地图”产品中的调试群体建立与调试有关的特征识别词典,该词典中的关键词可以包括“调试错误”、“调试周期”、“bug”、“漏洞”和“缺陷”等;对“百度地图”产品中的发布群体建立与发布有关的特征识别词典,该词典中的关键词可以包括“发布”、“发布会”、“发布行程”和“发布日期”等。
140、在匹配成功时,抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息,并将所述特征描述信息进行保存。
本操作中,可以有两种实施方式,一种是在匹配成功时,抓取所述消息内容作为特征描述信息,并将所述特征描述信息进行保存;另一种是在匹配成功时,抓取所述消息内容和所述消息内容的相关内容作为特征描述信息,并将所述特征描述信息进行保存。
其中,优选是抓取所述消息内容和所述消息内容的相关内容作为特征描述信息,并将所述特征描述信息进行保存,相比于只抓取所述消息内容,该优选方式有利于得到对象的完整的特征描述信息。
可以设定抓取时间间隔和/或抓取条数,以抓取匹配成功的消息内容的相关内容,例如将抓取时间间隔设定为15s,将抓取条数设定为5。
进一步地,所述消息内容的相关内容可以包括:所述消息内容的上下文消息;和/或,在与发布所述消息内容的用户建立会话并向所述用户发送消息内容补充请求后,所述用户返回的补充内容。
示例1
以对象为“百度浏览器”产品为例进行说明。该产品的某个群组发布的消息中包含大量有关该产品的评价和问题讨论,例如:该产品的一个设计人员在开发群组中发布消息“登录百度浏览器时,登录权限有问题”,接着该产品的另一个设计人员在该开发群组中发布消息“确实,原因是A”,通过匹配操作后,“登录百度浏览器时,登录权限有问题”这条发布消息与所述特征识别词典中的关键词“问题”匹配成功,通过抓取消息内容“登录百度浏览器时,登录权限有问题”,可以得到该产品的缺陷对应的特征描述信息,并通过抓取该消息内容的上下文消息“确实,原因是A”,可以得到该产品中该缺陷的产生原因对应的特征描述信息,从而丰富了该产品的特征描述信息。
需要说明的是,上述以抓取产品的缺陷对应的特征描述信息和该缺陷的产生原因对应的特征描述信息为例进行说明,除了抓取该缺陷的产生原因对应的特征描述信息之外,还可以抓取该缺陷对应的解决方案等其他特征描述信息,作为产品缺陷的完整信息,并进行格式化(例如[产品名称、缺陷内容、产生原因])存储,本实施例对此不进行限制。
示例2
在与发布所述消息内容的用户建立会话后,并采取启发式的提问向所述用户发送消息内容补充请求,以请求补充产品缺陷的完整描述,此时可以基于会话(session)进行抓取,即针对缺陷描述维度较多(例如缺陷类型、缺陷产生原因等)的情况,设置一个较长的抓取时间(如一分钟),在此时间内,抓取所述用户返回的补充内容。如果在此时间内仍没有补充描述,则只记录基本信息,或由于必要信息不全而返回失败。
本实施例的技术方案,通过监听并解析即时通信软件应用中发布的消息,由于即时通信软件应用中发布消息不仅类别清晰度高,而且信息专业性高,因此通过将解析到的消息内容与预先建立的特征识别词典中的关键词进行匹配,并抓取匹配成功的消息内容,或者抓取匹配成功的消息内容和该消息内容的相关内容,可以自动捕获特定对象的特征描述信息,节省了人力成本,并提升了得到的特定对象的特征描述信息的专业性和准确性,有利于根据所述特征描述信息对特定对象进行改进。
在本实施例中,建立所述特征识别词典,具体可以包括:
接收人工配置的特征识别词典中的关键词;或者,
在所述即时通信软件的聊天历史记录中查找人工收录的典型语句,根据该典型语句的上下文共现关系,挖掘出表达相应特征的关键词并添加在特征识别词典中。
换言之,可以人工配置特征识别词典中的各关键词,例如,在特征识别词典中配置“问题”、“缺陷”或“改进”等关键词。
也可以人工收录一些典型语句,并根据聊天历史记录中典型语句的上下文共现关系,从而将满足一定共现频率的典型语句中的表达特征的词作为关键词,并添加至特征识别词典中;或者挖掘出表达特征的语义模板。
例如,在百度Hi的“百度浏览器”产品的研发群组中,一个人说“检索式=xxx,配图错误啊,谁谁看看”,另一个人回答“没错,是个问题,已记录缺陷”,如果群消息里多次出现“配图错误”和“已记录缺陷”这两句话配对时,就认为配对的这两句话存在共现关系,表明这个是需要记录的缺陷,基于此,可以挖掘出表达缺陷的语义模板“[任意词]配图错误”。
本实施例提供的信息挖掘方法,可以应用于多种场景,例如,根据建立的产品缺陷对应的特征识别词典,得到对象为产品的缺陷描述信息;又如,根据建立的产品调试对应的特征识别词典,得到对象为产品的调试问题描述信息;再如,根据建立的企业管理对应的特征识别词典,得到对象为企业管理事件的管理意见征集等描述信息,本实施例对此不进行限制。
具体地,当用于捕获对象为产品的缺陷描述信息时,所述特征识别词典中的关键词包含反映产品缺陷的关键词,所述特征描述信息为描述产品缺陷的信息。本实施方式提供了从产品挖掘,到缺陷相关内容抓取,最终保存到指定空间的全自动化的实现方式,可以覆盖企业所有产品线的重要产品群。
实施例二
请参阅图2,为本发明实施例二提供的一种信息挖掘方法的流程图。本实施例在上述实施例的基础上,提供了在监听即时通信软件应用中发布的消息之前的优选方案。该优选方法包括:操作210~操作220。
210、在获取与所述即时通信软件应用对应的服务器的访问权限后,与所述服务器建立连接。
例如,获取与即时通信软件应用“百度Hi”对应的服务器的访问权限,并与该服务器建立连接。
220、向所述服务器发送对所述即时通信软件应用中的群组账号或个人用户账号的加入请求。
例如,向即时通信软件应用“百度Hi”对应的服务器发送群组账号“百度浏览器-研发群”的加入请求,从而使得新加入的群成员能够在该群组中发布与产品“百度浏览器”有关的消息。
又如,向即时通信软件应用“百度Hi”对应的服务器发送个人用户账号加入请求,新加入的个人账号可以与已经加入该应用的其他个人账号就同一产品聊天,形成发布的消息;新加入的个人账号可以申请加入已经加入该应用的群组账号,从而使得新加入的群成员在该群组中发布消息。
本实施例的技术方案,在监听即时通信软件应用中发布的消息之前,通过与即时通信软件应用对应的服务器建立连接,并交互账号加入请求,从而使得加入该即时通信软件应用中的账号能够在该应用中发布消息。
需要说明的是,在向所述服务器发送对所述即时通信软件应用中的群组账号或个人用户账号的加入请求之后,监听即时通信软件应用中发布的消息,具体包括:在接收到所述服务器返回的同意加入的响应消息后,监听加入的群组中的用户或加入的个人用户发布的消息。
实施例三
请参阅图3a,为本发明实施例三提供的一种信息挖掘方法的流程图。本实施例在上述各实施例的基础上,提供了在抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息之后、将所述特征描述信息进行保存之前的优选方案。
该优选方法包括:操作310~操作360。
310、监听即时通信软件应用中发布的消息。
320、对监听到的消息进行解析,得到消息内容。
330、将所述消息内容与预先建立的特征识别词典中的关键词进行匹配。
340、在匹配成功时,抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息。
350、将所述特征描述信息与预先建立的类别识别词典中的关键词进行匹配,根据匹配结果确定所述特征描述信息对应的类别。
如前所述,本发明实施例提供的信息挖掘方法,可以应用于多种场景,因此可以根据实际应用需求,建立包含有多种应用需求的类别识别词典。
类别识别词典中的关键词可以人工配置。所述类别识别词典中的关键词可以包括:百度地图研发缺陷、百度浏览器调试缺陷和百度翻译研发改进等,本实施例对此不进行限制。
360、将确定的类别与所述特征描述信息进行关联保存。
本实施例的技术方案,通过监听并解析即时通信软件应用中发布的消息,由于即时通信软件应用中发布消息不仅类别清晰度高,而且信息专业性高,因此通过将解析到的消息内容与预先建立的特征识别词典中的关键词进行匹配,并抓取匹配成功的消息内容,或者抓取匹配成功的消息内容和该消息内容的相关内容,可以自动捕获特定对象的特征描述信息,节省了人力成本,并提升了得到的特定对象的特征描述信息的专业性和准确性,有利于根据所述特征描述信息对特定对象进行改进;在抓取到对象的特征描述信息之后,通过确定所述特征描述信息对应的类别,并将确定的类别与所述特征描述信息进行关联保存,有利于绑定类别对应的负责群体,从而能够使相应负责群体根据特定对象的专业的特征描述信息,及时获知对象的有价值的反馈。
需要说明的是,操作350只是确定特征描述信息对应的类别的实施方式中的其中一种,确定特征描述信息对应的类别还可以是:通过自然语言处理(Natural Language Processing,NLP)模型确定所述特征描述信息对应的类别(如图3b所示的操作351)。
具体可以采用语义相似度算法模型和/或点击相似度算法模型,确定所述的特征描述信息对应的类别。
其中,语义相似度利用了自然语言处理云后台训练的监督方法训练模型来分析两段文本的相似度。值越大越相似。语义相似度的网络化提供了计算相似度的功能。比如输入“笔记本电脑”,“笔记本”的语义相似度为2.08478。
其中,点击相似度可以在语义相似度无法达到阈值(如1.8)的情况下使用,分析两段文本的点击相似度(比如检索式和检索结果中的标题),使用训练的embedding向量计算cosine相似度值,取值范围[-1,1],值越大点击相似度越强。比如输入“百度你好”和“周鸿祎你好”两者的点击相似度是-0.121407,输入“百度你好”和“李彦宏你好”两者的点击相似度是0.218664;后者点击相似度比前者高。
实际使用中优先将特征描述信息与预设的多个类别分别进行语义相似度判断,返回语义相似度达到阈值且最高的类别,如果特征描述信息与预设类别的语义相似度未达到阈值,则继续将特征描述信息与该预设类别进行点击相似度判断,如果点击相似度达到阈值则返回相应类别,如果点击相似度未达到阈值,则返回默认类别(如:其他)。阈值会根据历史数据不断拟合,以保持更高的准度。
还需要说明的是,确定特征描述信息对应的类别还可以是:采用预先根据已标注类别信息的特征描述文本训练出的概率模型确定所述特征描述信息对应的类别,所述概率模型的输入为特征描述文本,输出为属于设定类别的概率值(如图3c所示的操作352)。具体的,根据已标注类别信息的特征描述文本预先训练出概率模型,将所述特征描述信息输入该概率模型,得到该概率模型输出的所述特征描述信息所对应的类别A及对应该类别A的概率值,若该概率值满足一定阈值,则确定所述特征描述信息对应的类别为类别A。例如可以通过聊天记录中的人工分类标注和对应的描述文本,训练出P(类型|特征描述信息)的概率模型,训练方法可根据***的业务领域特点灵活选择,典型的如朴素贝叶斯方法。在应用中,若用户问题描述属于某一问题分类的概率满足一定阈值,即可认为属于该分类。
在本实施例的基础上,在确定所述特征描述信息对应的类别之后,还可以包括下述操作:
根据所述类别确定所述特征描述信息的接收方的信息;
根据所述接收方的信息将所述特征描述信息发送给所述接收方。
其中,所述接收方的信息可以为设定网站的地址、设定接收用户的短信号码、邮箱地址或设定接收用户的即时通信软件账号。
本实施方式,提供了在抓取到对象的特征描述信息、并确定所述特征描述信息对应的类别之后,使接收方获知对象的特征描述信息的实现方式,将接收方作为类别对应的负责群体,并与该负责群体交互对象的专业的特征描述信息,从而能够使相应负责群体根据特定对象的专业的特征描述信息,及时获知对象的有价值的反馈。
实施例四
请参阅图4,为本发明实施例四提供的一种信息挖掘装置的结构示意图。该装置包括:消息监听模块410、消息解析模块420、匹配模块430和特征描述信息处理模块440。
其中,消息监听模块410用于监听即时通信软件应用中发布的消息;消息解析模块420用于对监听到的消息进行解析,得到消息内容;匹配模块430用于将所述消息内容与预先建立的特征识别词典中的关键词进行匹配;特征描述信息处理模块440用于在匹配成功时,抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息,并将所述特征描述信息进行保存。
本实施例的技术方案,通过监听并解析即时通信软件应用中发布的消息,由于即时通信软件应用中发布消息不仅类别清晰度高,而且信息专业性高,因此通过将解析到的消息内容与预先建立的特征识别词典中的关键词进行匹配,并抓取匹配成功的消息内容,或者抓取匹配成功的消息内容和该消息内容的相关内容,可以自动捕获特定对象的特征描述信息,节省了人力成本,并提升了得到的特定对象的特征描述信息的专业性和准确性,有利于根据所述特征描述信息对特定对象进行改进。
在上述方案中,所述装置还可以包括:连接建立模块和请求发送模块。
其中,连接建立模块用于在监听即时通信软件应用中发布的消息之前,在获取与所述即时通信软件应用对应的服务器的访问权限后,与所述服务器建立连接;请求发送模块用于向所述服务器发送对所述即时通信软件应用中的群组账号或个人用户账号的加入请求;所述消息监听模块410具体用于:在接收到所述服务器返回的同意加入的响应消息后,监听加入的群组中的用户或加入的个人用户发布的消息。
在上述方案中,所述装置还可以包括特征识别词典建立模块,用于接收人工配置的特征识别词典中的关键词;或者,
用于在所述即时通信软件的聊天历史记录中查找人工收录的典型语句,根据该典型语句的上下文共现关系,挖掘出表达相应特征的关键词并添加在特征识别词典中。
在上述方案中,所述装置还可以包括:第一类别确定模块、或第二类别确定模块、或第三类别确定模块。
其中,第一类别确定模块用于在抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息之后、将所述特征描述信息进行保存之前,将所述特征描述信息与预先建立的类别识别词典中的关键词进行匹配,根据匹配结果确定所述特征描述信息对应的类别;第二类别确定模块用于在抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息之后、将所述特征描述信息进行保存之前,通过自然语言处理(NLP)模型确定所述特征描述信息对应的类别;第三类别确定模块用于在抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息之后、将所述特征描述信息进行保存之前,采用预先根据已标注类别信息的特征描述文本训练出的概率模型确定所述特征描述信息对应的类别;所述特征描述信息处理模块440具体用于:将确定的类别与所述特征描述信息进行关联保存。
其中,所述第二类别确定模块具体用于:采用语义相似度算法模型和/或点击相似度算法模型,确定所述的特征描述信息对应的类别。
进一步地,所述装置还可以包括:接收方信息确定模块和特征描述信息发送模块。
其中,接收方信息确定模块用于在确定所述特征描述信息对应的类别之后,根据所述类别确定所述特征描述信息的接收方的信息;特征描述信息发送模块用于根据所述接收方的信息将所述特征描述信息发送给所述接收方。
其中,所述接收方的信息可以为设定网站的地址、设定接收用户的短信号码、邮箱地址或设定接收用户的即时通信软件账号。
所述消息内容的相关内容可以包括:所述消息内容的上下文消息;和/或,在与发布所述消息内容的用户建立会话并向所述用户发送消息内容补充请求后,所述用户返回的补充内容。
在上述方案中,所述特征识别词典中的关键词可以包含反映产品缺陷的关键词,相应地,所述特征描述信息可以为描述产品缺陷的信息。
本发明实施例提供的信息挖掘装置可执行本发明任意实施例所提供的信息挖掘方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (18)

1.一种信息挖掘方法,其特征在于,包括:
监听即时通信软件应用中发布的消息;
对监听到的消息进行解析,得到消息内容;
将所述消息内容与预先建立的特征识别词典中的关键词进行匹配;
在匹配成功时,抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息,并将所述特征描述信息进行保存。
2.如权利要求1所述的方法,其特征在于,在监听即时通信软件应用中发布的消息之前,还包括:
在获取与所述即时通信软件应用对应的服务器的访问权限后,与所述服务器建立连接;
向所述服务器发送对所述即时通信软件应用中的群组账号或个人用户账号的加入请求;
所述监听即时通信软件应用中发布的消息,具体包括:
在接收到所述服务器返回的同意加入的响应消息后,监听加入的群组中的用户或加入的个人用户发布的消息。
3.如权利要求1所述的方法,其特征在于,建立所述特征识别词典,具体包括:
接收人工配置的特征识别词典中的关键词;或者,
在所述即时通信软件的聊天历史记录中查找人工收录的典型语句,根据该典型语句的上下文共现关系,挖掘出表达相应特征的关键词并添加在特征识别词典中。
4.如权利要求1所述的方法,其特征在于,在抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息之后、将所述特征描述信息进行保存之前,还包括:
将所述特征描述信息与预先建立的类别识别词典中的关键词进行匹配,根据匹配结果确定所述特征描述信息对应的类别;或,通过自然语言处理NLP模型确定所述特征描述信息对应的类别;或,采用预先根据已标注类别信息的特征描述文本训练出的概率模型确定所述特征描述信息对应的类别;
将所述特征描述信息进行保存包括:将确定的类别与所述特征描述信息进行关联保存。
5.如权利要求4所述的方法,其特征在于,通过自然语言处理NLP模型确定所述特征描述信息对应的类别,具体包括:
采用语义相似度算法模型和/或点击相似度算法模型,确定所述的特征描述信息对应的类别。
6.如权利要求4所述的方法,其特征在于,在确定所述特征描述信息对应的类别之后,还包括:
根据所述类别确定所述特征描述信息的接收方的信息;
根据所述接收方的信息将所述特征描述信息发送给所述接收方。
7.如权利要求6所述的方法,其特征在于,所述接收方的信息为设定网站的地址、设定接收用户的短信号码、邮箱地址或设定接收用户的即时通信软件账号。
8.如权利要求1所述的方法,其特征在于,所述消息内容的相关内容包括:所述消息内容的上下文消息;和/或,在与发布所述消息内容的用户建立会话并向所述用户发送消息内容补充请求后,所述用户返回的补充内容。
9.如权利要求1-8中任一所述的方法,其特征在于,所述特征识别词典中的关键词包含反映产品缺陷的关键词,所述特征描述信息为描述产品缺陷的信息。
10.一种信息挖掘装置,其特征在于,包括:
消息监听模块,用于监听即时通信软件应用中发布的消息;
消息解析模块,用于对监听到的消息进行解析,得到消息内容;
匹配模块,用于将所述消息内容与预先建立的特征识别词典中的关键词进行匹配;
特征描述信息处理模块,用于在匹配成功时,抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息,并将所述特征描述信息进行保存。
11.如权利要求10所述的装置,其特征在于,所述装置还包括:
连接建立模块,用于在监听即时通信软件应用中发布的消息之前,在获取与所述即时通信软件应用对应的服务器的访问权限后,与所述服务器建立连接;
请求发送模块,用于向所述服务器发送对所述即时通信软件应用中的群组账号或个人用户账号的加入请求;
所述消息监听模块具体用于:在接收到所述服务器返回的同意加入的响应消息后,监听加入的群组中的用户或加入的个人用户发布的消息。
12.如权利要求10所述的装置,其特征在于,所述装置还包括特征识别词典建立模块,用于接收人工配置的特征识别词典中的关键词;或者,
用于在所述即时通信软件的聊天历史记录中查找人工收录的典型语句,根据该典型语句的上下文共现关系,挖掘出表达相应特征的关键词并添加在特征识别词典中。
13.如权利要求10所述的装置,其特征在于,所述装置还包括:
第一类别确定模块,用于在抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息之后、将所述特征描述信息进行保存之前,将所述特征描述信息与预先建立的类别识别词典中的关键词进行匹配,根据匹配结果确定所述特征描述信息对应的类别;或
第二类别确定模块,用于在抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息之后、将所述特征描述信息进行保存之前,通过自然语言处理NLP模型确定所述特征描述信息对应的类别;或
第三类别确定模块,用于在抓取所述消息内容,或者所述消息内容和所述消息内容的相关内容作为特征描述信息之后、将所述特征描述信息进行保存之前,采用预先根据已标注类别信息的特征描述文本训练出的概率模型确定所述特征描述信息对应的类别;
所述特征描述信息处理模块具体用于:将确定的类别与所述特征描述信息进行关联保存。
14.如权利要求13所述的装置,其特征在于,所述第二类别确定模块具体用于:采用语义相似度算法模型和/或点击相似度算法模型,确定所述的特征描述信息对应的类别。
15.如权利要求13所述的装置,其特征在于,所述装置还包括:
接收方信息确定模块,用于在确定所述特征描述信息对应的类别之后,根据所述类别确定所述特征描述信息的接收方的信息;
特征描述信息发送模块,用于根据所述接收方的信息将所述特征描述信息发送给所述接收方。
16.如权利要求15所述的装置,其特征在于,所述接收方的信息为设定网站的地址、设定接收用户的短信号码、邮箱地址或设定接收用户的即时通信软件账号。
17.如权利要求10所述的装置,其特征在于,所述消息内容的相关内容包括:所述消息内容的上下文消息;和/或,在与发布所述消息内容的用户建立会话并向所述用户发送消息内容补充请求后,所述用户返回的补充内容。
18.如权利要求10-17中任一所述的装置,其特征在于,所述特征识别词典中的关键词包含反映产品缺陷的关键词,所述特征描述信息为描述产品缺陷的信息。
CN201410710424.7A 2014-11-27 2014-11-27 信息挖掘方法和装置 Active CN104346480B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410710424.7A CN104346480B (zh) 2014-11-27 2014-11-27 信息挖掘方法和装置
PCT/CN2015/086095 WO2016082575A1 (zh) 2014-11-27 2015-08-05 信息挖掘方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410710424.7A CN104346480B (zh) 2014-11-27 2014-11-27 信息挖掘方法和装置

Publications (2)

Publication Number Publication Date
CN104346480A true CN104346480A (zh) 2015-02-11
CN104346480B CN104346480B (zh) 2018-06-26

Family

ID=52502071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410710424.7A Active CN104346480B (zh) 2014-11-27 2014-11-27 信息挖掘方法和装置

Country Status (2)

Country Link
CN (1) CN104346480B (zh)
WO (1) WO2016082575A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105282012A (zh) * 2015-10-23 2016-01-27 广东小天才科技有限公司 一种在群聊天时强化信息提醒的方法及***
WO2016082575A1 (zh) * 2014-11-27 2016-06-02 百度在线网络技术(北京)有限公司 信息挖掘方法、装置和存储介质
CN106649404A (zh) * 2015-11-04 2017-05-10 陈包容 一种会话场景数据库的创建方法及装置
CN107491493A (zh) * 2017-07-22 2017-12-19 长沙兔子代跑网络科技有限公司 一种智能获取代跑聊天记录的方法及装置
CN107526779A (zh) * 2017-07-22 2017-12-29 长沙兔子代跑网络科技有限公司 一种挖掘代跑客户的方法及装置
CN108345582A (zh) * 2017-01-23 2018-07-31 腾讯科技(深圳)有限公司 一种识别社交群从事业务的方法及装置
CN109063029A (zh) * 2018-07-10 2018-12-21 苏奇 一种基于即时通信软件的信息归档管理方法
CN109582719A (zh) * 2018-10-19 2019-04-05 国电南瑞科技股份有限公司 一种智能变电站scd文件自动链接虚端子的方法和***
CN113765767A (zh) * 2020-06-02 2021-12-07 上海回声网络科技有限公司 企业微信监管方法及其***

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11587095B2 (en) * 2019-10-15 2023-02-21 Microsoft Technology Licensing, Llc Semantic sweeping of metadata enriched service data
CN113051476B (zh) * 2021-03-25 2023-06-13 北京百度网讯科技有限公司 用于消息发送的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133477A1 (en) * 2001-03-05 2002-09-19 Glenn Abel Method for profile-based notice and broadcast of multimedia content
CN101166160A (zh) * 2006-10-20 2008-04-23 阿里巴巴公司 一种过滤即时通讯垃圾信息的方法和***
CN102323933A (zh) * 2011-08-31 2012-01-18 张潇 一种面向即时通信的信息嵌入和交互***及方法
CN102419778A (zh) * 2012-01-09 2012-04-18 中国科学院软件研究所 一种挖掘查询语句子话题并聚类的信息搜索方法
CN102970210A (zh) * 2012-11-02 2013-03-13 北京百度网讯科技有限公司 即时聊天工具中群消息的提醒方法及装置
CN103577416A (zh) * 2012-07-20 2014-02-12 阿里巴巴集团控股有限公司 扩展查询方法及***
CN103605690A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 一种即时通信中识别广告消息的装置和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1987852A (zh) * 2005-12-21 2007-06-27 腾讯科技(深圳)有限公司 依据消息内容确定通信对象属性的方法及装置
CN104346480B (zh) * 2014-11-27 2018-06-26 百度在线网络技术(北京)有限公司 信息挖掘方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133477A1 (en) * 2001-03-05 2002-09-19 Glenn Abel Method for profile-based notice and broadcast of multimedia content
CN101166160A (zh) * 2006-10-20 2008-04-23 阿里巴巴公司 一种过滤即时通讯垃圾信息的方法和***
CN102323933A (zh) * 2011-08-31 2012-01-18 张潇 一种面向即时通信的信息嵌入和交互***及方法
CN102419778A (zh) * 2012-01-09 2012-04-18 中国科学院软件研究所 一种挖掘查询语句子话题并聚类的信息搜索方法
CN103577416A (zh) * 2012-07-20 2014-02-12 阿里巴巴集团控股有限公司 扩展查询方法及***
CN102970210A (zh) * 2012-11-02 2013-03-13 北京百度网讯科技有限公司 即时聊天工具中群消息的提醒方法及装置
CN103605690A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 一种即时通信中识别广告消息的装置和方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016082575A1 (zh) * 2014-11-27 2016-06-02 百度在线网络技术(北京)有限公司 信息挖掘方法、装置和存储介质
CN105282012A (zh) * 2015-10-23 2016-01-27 广东小天才科技有限公司 一种在群聊天时强化信息提醒的方法及***
CN106649404A (zh) * 2015-11-04 2017-05-10 陈包容 一种会话场景数据库的创建方法及装置
CN106649404B (zh) * 2015-11-04 2019-12-27 陈包容 一种会话场景数据库的创建方法及装置
CN108345582A (zh) * 2017-01-23 2018-07-31 腾讯科技(深圳)有限公司 一种识别社交群从事业务的方法及装置
CN108345582B (zh) * 2017-01-23 2021-08-24 腾讯科技(深圳)有限公司 一种识别社交群从事业务的方法及装置
CN107491493A (zh) * 2017-07-22 2017-12-19 长沙兔子代跑网络科技有限公司 一种智能获取代跑聊天记录的方法及装置
CN107526779A (zh) * 2017-07-22 2017-12-29 长沙兔子代跑网络科技有限公司 一种挖掘代跑客户的方法及装置
CN109063029A (zh) * 2018-07-10 2018-12-21 苏奇 一种基于即时通信软件的信息归档管理方法
CN109582719A (zh) * 2018-10-19 2019-04-05 国电南瑞科技股份有限公司 一种智能变电站scd文件自动链接虚端子的方法和***
CN109582719B (zh) * 2018-10-19 2021-08-24 国电南瑞科技股份有限公司 一种智能变电站scd文件自动链接虚端子的方法和***
CN113765767A (zh) * 2020-06-02 2021-12-07 上海回声网络科技有限公司 企业微信监管方法及其***

Also Published As

Publication number Publication date
CN104346480B (zh) 2018-06-26
WO2016082575A1 (zh) 2016-06-02

Similar Documents

Publication Publication Date Title
CN104346480A (zh) 信息挖掘方法和装置
WO2018036239A1 (zh) 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和***
CN109033471B (zh) 一种信息资产识别方法及装置
CN111182162B (zh) 基于人工智能的电话质检方法、装置、设备和存储介质
WO2019196226A1 (zh) 制度信息查询方法、装置、计算机设备和存储介质
CN106407078B (zh) 基于信息交互的客户端性能监控装置及方法
US11601453B2 (en) Methods and systems for establishing semantic equivalence in access sequences using sentence embeddings
CN103077207B (zh) 一种微博开心指数分析方法及***
CN112507090B (zh) 用于输出信息的方法、装置、设备和存储介质
CN113468296A (zh) 可配置业务逻辑的模型自迭代式智能客服质检***与方法
CN107341399A (zh) 评估代码文件安全性的方法及装置
US20200380169A1 (en) Virtual data lake system created with browser-based decentralized data access and analysis
CN108416034B (zh) 基于金融异构大数据的信息采集***及其控制方法
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN114265957A (zh) 基于图数据库的多种数据源联合查询方法及***
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及***
CN116431828A (zh) 一种基于神经网络技术构建的电网中台数据资产知识图谱数据库的构建方法
CN105245394A (zh) 一种基于分层方式分析网络访问日志的方法和设备
CN107491530B (zh) 一种基于文件自动标记信息的社会关系挖掘分析方法
CN107391695A (zh) 一种基于大数据的信息提取方法
CN113347075B (zh) 一种微信群消息应答方法及装置
CN109977423A (zh) 一种生词处理方法、装置、电子设备和可读存储介质
CN201210293Y (zh) 计算机辅助报告与知识库产生***
CN109040003A (zh) 一种对局域网进行安全管理的方法
CN114827237B (zh) 远程连接操作日志的记录方法及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant