CN108304424B - 文本关键词提取方法及文本关键词提取装置 - Google Patents

文本关键词提取方法及文本关键词提取装置 Download PDF

Info

Publication number
CN108304424B
CN108304424B CN201710203566.8A CN201710203566A CN108304424B CN 108304424 B CN108304424 B CN 108304424B CN 201710203566 A CN201710203566 A CN 201710203566A CN 108304424 B CN108304424 B CN 108304424B
Authority
CN
China
Prior art keywords
text
trained
network model
extracted
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710203566.8A
Other languages
English (en)
Other versions
CN108304424A (zh
Inventor
包恒耀
苏可
饶孟良
陈益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710203566.8A priority Critical patent/CN108304424B/zh
Publication of CN108304424A publication Critical patent/CN108304424A/zh
Application granted granted Critical
Publication of CN108304424B publication Critical patent/CN108304424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种文本关键词提取方法及装置,一个实施例中的方法包括:获取待提取文本;在关联的关键词库中进行搜索,匹配出所述待提取文本中的关键词;根据所述待提取文本、匹配出的所述待提取文本中的关键词,确定出所有的文本句式及对应的关键词组合;根据关键词概率网络模型,分析确定各所述文本句式及对应的关键词组合成立的概率;将分析确定的概率中值最大的概率对应的关键词组合确定为从所述待提取文本中提取的关键词组合。本实施例方案响应速度快,且简化了提取文本关键词的难度,提高了文本关键词的准确性。

Description

文本关键词提取方法及文本关键词提取装置
技术领域
本发明涉及智能交互领域,特别是涉及一种文本关键词提取方法及文本关键词提取装置。
背景技术
以智能音响或智能助理等智能交互设备为例,其通常是通过对话的形式和用户进行交互,其在进行交互时,通过将用户的语音识别为文本之后,对文本中的关键词(在一些技术应用中,也将其称之为实体词)进行提取。然而,在这种交互中,交互的文本通常非常短,只有几个词,要提取其中的关键词(例如歌手名、歌曲名)非常困难。另一方面,对于短文本而言,相对于长文本,其无法从互联网上爬取大量的数据,也没有大量的公共标注数据可以使用,垂直领域的公共语料数据非常少,需要开发者自己去收集,这对项目冷启动阶段非常不利。因此亟需能够得到较好结果的文本关键词提取方式。
目前在没有标注数据的情况下,提取文本关键词的方式主要是采用最大匹配算法和基于模版匹配的方法。最大匹配算法通常用于中文分词***,其包括正向最大匹配和逆向最大匹配。以正向最大匹配为例,其是从左到右将待分词文本中的几个连续字符与实体库(也称为关键词库)的词表匹配,如果匹配上,则切分出一个长度最长的词。例如:短文本为“我想听ABC的歌(A、B、C分别表示一个具体的字)”,歌手的实体库是{“AB”,“ABC”},那么根据最大匹配原则,提取出的实体(关键字)就是“ABC”,而不是“AB”。基于模版匹配的方法则是预先设计一些常用的模版,例如“我想听[singer]的[song]”。若用户的询问串为“我想听ABC的SX”,通过模版匹配就可以把提取出关键词“ABC”和“SX”,然后再到相应的实体库检查是否含有该关键词,如果有则返回结果。然而,最大匹配算法的速度虽然快,但效果并不好,而且无法区分同名的关键词。例如,“吻别”既有可能是歌曲,也有可能是专辑。而在基于模版匹配的方法中,用户的说法千奇百怪,要想达到比较好的效果,每个场景可能需要几十万的模版,这样不仅导致速度慢,而且一旦用户的询问模式不在模版中,那么将没有关键词能够被提取出来。
发明内容
基于此,本实施例提供一种文本关键词提取方法以及一种文本关键词提取装置,其可以提高文本关键词的准确性,且速度快。
一种文本关键词提取方法,包括:
获取待提取文本;
在关联的关键词库中进行搜索,匹配出所述待提取文本中的关键词;
根据所述待提取文本、匹配出的所述待提取文本中的关键词,确定出所有的文本句式及对应的关键词组合;
根据关键词概率网络模型,分析确定各所述文本句式及对应的关键词组合成立的概率;
将分析确定的概率中值最大的概率对应的关键词组合确定为从所述待提取文本中提取的关键词组合。
一种文本关键词提取装置,包括:
文本获取模块,用于获取待提取文本;
关键词匹配模块,用于在关联的关键词库中进行搜索,匹配出所述待提取文本中的关键词;
组合确定模块,用于根据所述待提取文本、匹配出的所述待提取文本中的关键词,确定出所有的文本句式及对应的关键词组合;
概率分析模块,用于根据关键词概率网络模型,分析确定各所述文本句式及对应的关键词组合成立的概率;
提取确定模块,用于将所述概率分析模块分析确定的概率中值最大的概率对应的关键词组合确定为从所述待提取文本中提取的关键词组合。
根据如上所述的实施例的方案,其在需要对待提取完本中的关键词进行提取时,是基于关联的关键词库,在关联的关键词库中进行搜索,匹配出待提取文本中的关键词,然后基于关键词确定出所有的文本句式及对应的关键词组合,再根据关键词概率网络模型分析确定各所述文本句式及对应的关键词组合成立的概率,并将分析确定的概率中值最大的概率对应的关键词组合确定为从所述待提取文本中提取的关键词组合。其在提取出待提取文本中的关键词的基础上,确定出所有的文本句式及对应的关键词组合,然后基于关键词概率网络模型来确定出各文本句式及对应的关键词组合的概率,其不仅响应速度快,而且简化了提取文本关键词的难度,提高了文本关键词的准确性。
附图说明
图1是一个实施例中的方案的应用环境的示意图;
图2是一个实施例中的终端的组成结构的示意图;
图3是一个实施例中的服务器的组成结构的示意图;
图4是一个实施例中的文本关键词提取方法的流程示意图;
图5是一个实施例中的生成关键词概率网络模型的原理示意图;
图6是一个实施例中的提取文本关键词的原理示意图;
图7是一个具体示例中的生成关键词概率网络模型的流程示意图;
图8是另一个具体示例中的生成关键词概率网络模型的流程示意图;
图9是另一个具体示例中的生成关键词概率网络模型的流程示意图;
图10是一个实施例中的文本关键词提取装置的结构示意图;
图11是另一个实施例中的文本关键词提取装置的结构示意图;
图12是一个具体示例中的模型生成模块的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1示出了本发明一个实施例中的工作环境示意图,如图1所示,其工作环境涉及终端101,还可能涉及服务器102,终端101、服务器102可以通过网络进行通信。终端101可以与终端用户进行智能交互,接受终端用户输入的文本内容,或者是将终端用户的语音识别为文本内容,通过对文本内容中的关键词进行提取,可以进行后续的相关服务,例如基于提取的关键词从本地或者网络查询播放对应的歌曲、基于提取的关键词从本地或者网络查询对应的电影、基于提取的关键词查询对应的天气等。提取文本内容中的关键词的过程,可以在终端101进行,也可以是终端101将文本内容发送给服务器102后在服务器102进行。在本实施例方案中,提取文本内容中的关键词时,可以结合关键词概率网络模型进行,该关键词概率网络模型可以是由服务器102确定后,存储在服务器102本地,以执行后续的提取文本内容中的关键词的过程,也可以是由服务器102将该关键词概率网络模型发送给终端101后,由终端101执行后续的提取文本内容中的关键词的过程。另一方面,该关键词概率网络模型也可以是由终端101确定后,发送至服务器102,并由服务器102分发至其他的终端101执行。本发明实施例涉及的是终端101或者服务器102提取文本内容中的关键词的方案。
终端101在一个实施例中的结构示意图如图2所示。该终端101包括通过***总线连接的处理器、存储介质、通信接口、电源接口和内存。其中,终端101的存储介质存储有一种文本关键词提取装置,该装置用于实现一种文本关键词提取方法。终端101的通信接口用于与服务器102或者网络中的其他服务器连接和通信,终端101的电源接口用于与外部电源连接,外部电源通过该电源接口向终端101供电。终端101可以是任何一种能够实现智能输入输出的设备,例如移动终端(比如手机、平板电脑等)、智能音箱等;也可以是其它具有上述结构的智能设备。
服务器102与在一个实施例中的结构示意图如图3所示。其包括通过***总线连接的处理器、供电模块、存储介质、内存和通信接口。其中,服务器102的存储介质存储有操作***、数据库和一种文本关键词提取装置,该装置用于实现一种文本关键词提取方法。服务器的通信接口用于与终端101以及网络中的其他服务器进行连接和通信。
图4示出了一个实施例中的文本关键词提取方法的流程示意图,如图4所示,该实施例中的文本关键词提取方法包括:
步骤S401:获取待提取文本;
步骤S402:在关联的关键词库中进行搜索,匹配出所述待提取文本中的关键词;
步骤S403:根据所述待提取文本、匹配出的所述待提取文本中的关键词,确定出所有的文本句式及对应的关键词组合,其中,确定出的任意一个文本句式及其对应的关键词组合,共同组成了上述待提取文本;
步骤S404:根据关键词概率网络模型,分析确定各所述文本句式及对应的关键词组合成立的概率;
步骤S405:将分析确定的概率中值最大的概率对应的关键词组合确定为从所述待提取文本中提取的关键词组合。
根据如上所述的实施例的方案,其在需要对待提取完本中的关键词进行提取时,是基于关联的关键词库,在关联的关键词库中进行搜索,匹配出待提取文本中的关键词,然后基于关键词确定出所有的文本句式及对应的关键词组合,再根据关键词概率网络模型分析确定各所述文本句式及对应的关键词组合成立的概率,并将分析确定的概率中值最大的概率对应的关键词组合确定为从所述待提取文本中提取的关键词组合。其在提取出待提取文本中的关键词的基础上,确定出所有的文本句式及对应的关键词组合,然后基于关键词概率网络模型来确定出各文本句式及对应的关键词组合的概率,其不仅响应速度快,而且简化了提取文本关键词的难度,提高了文本关键词的准确性。
如上所述的实施例中的方案,可以在终端上执行,也可以是服务器上执行。
以在终端上执行为例,上述待提取文本可以是终端用户输入的文本,例如终端用户通过键盘、触摸屏等用户交互式设备输入的文本,也可以是通过对终端用户的语音进行识别得到的文本。在本实施例中,所述获取待提取文本的方式可以为接收用户输入的文本,或将用户输入的语音翻译成文本,在其他实施例中,也可以通过其他方式获取所述待提取文本。
另一方面,以在终端上执行为例,上述关键词概率网络模型,可以是由终端预先生成,此时,在上述获取待提取文本之前,还可以包括步骤:生成所述关键词概率网络模型。此外,也可以是在服务器生成关键词概率网络模型后,终端从服务器获取该关键词概率网络模型。此时,在上述获取待提取文本之前,还可以包括步骤:获取服务器生成的所述关键词概率网络模型。
以在服务器上执行为例,可以是从终端接收上述待提取文本,终端在获得该待提取文本后,将该待提取文本上传至服务器。该待提取文本可以是终端用户输入的文本,例如终端用户通过键盘、触摸屏等用户交互式设备输入的文本,也可以是通过对终端用户的语音进行识别得到的文本,在其他实施例中,也可以通过其他方式获得的文本。
另一方面,以在服务器上执行为例,上述关键词概率网络模型,可以是由服务器预先生成,此时,在上述获取待提取文本之前,还可以包括步骤:生成所述关键词概率网络模型。
在一个具体示例中,终端或者服务器生成上述关键词概率网络模型时,具体的方式可以包括:
获取待训练文本,所述待训练文本包括各句式规则模板、以及各领域的语料文本;
根据所述待训练文本进行训练,获得所述关键词概率网络模型。
其中,上述句式规则模板,表明了具体的句式规则。由于所设定的句式规则可能不会囊括所有的句式,例如一些口语化的句式,因此,在待训练文本中还可以包括有各领域的语料文本,该语料文本可以是一些口语化的文本。在一个具体应用实现方式中,各领域的语料文本可以通过爬虫爬取的方式获取。
其中,在上述根据待训练文本进行训练,获得关键词概率网络模型时,由于待训练文本包括有各句式规则模板和各领域的语料文本这两种文本,因而在训练时也可以结合实际技术需要进行确定。
在一个具体示例中,在根据待训练文本进行训练时,可以不对待训练文本是句式规则模板还是各领域的语料文本进行区分,在每一次训练的过程中,随机选取一次即可,具体的方式可以包括:
从待训练文本中随机提取一个当前待训练文本,该当前待训练文本为句式规则模板或者语料文本,即此时提取到的当前待训练文本可能是句式规则模板,也可能是语料文本;
将提取的当前待训练文本输入当前待训练网络模型进行训练,获得训练后的待训练网络模型;
在待训练文本中的各句式规则模板或者各领域的语料文本未提取完毕时,用训练后的待训练网络模型更新当前待训练网络模型,并返回从上述待训练文本中随机提取一个当前待训练文本的步骤,直至上述待训练文本中的各句式规则模板、各领域的语料文本均提取完毕;
将获得的训练后的待训练网络模型确定为上述关键词概率网络模型。
其中,在上述具体示例中,是在判定待训练文本的各句式规则模板或者各领域的语料文本未提取完毕时,才用训练后的待训练网络模型更新当前待训练网络模型为例进行说明,在具体技术应用中,也可以是先用训练后的待训练网络模型更新当前待训练网络模型后,再对待训练文本中的各句式规则模板和各领域的语料文本是否提取完毕进行判断,此时,在待训练文本中的各句式规则模板和各领域的语料文本均提取完毕后,是将更新后的当前待训练网络模型确定为上述关键词概率网络模型。
基于上述进行训练获得关键词概率网络模型的示例,可以理解的是,由于每次都是从待训练文本中随机提取一个当前待训练文本,因此,相邻两次的训练过程从待训练文本中随机提取的当前待训练文本,可能是相同类型的文本,例如均是句式规则模板或均是语料文本,也有可能是不同类型的文本,例如一次提取的是句式规则模板,而另一次提取的是语料文本。
在另一个具体示例中,可以是将待训练文本中的句式规则模板的数目与语料文本的数目设定为相同,此时在进行训练时,可以是针对句式规则模板和各领域的预料文本交替进行,具体的方式可以包括:
从各句式规则模板中提取一个句式规则模板,并将提取的该句式规则模板输入当前待训练网络模型进行训练,获得训练后的待训练网络模型;
用上述训练后的待训练网络模型更新当前待训练网络模型后,从各领域的语料文本中提取一个语料文本,并将提取的该语料文本输入上述更新后的当前待训练网络模型进行训练,获得训练后的待训练网络模型;
在上述待训练文本中的各句式规则模板或者各领域的语料文本未提取完毕时,用该训练后的待训练网络模型更新当前待训练网络模型后,返回从各句式规则模板中提取一个句式规则模板的步骤,直至上述待训练文本中的各句式规则模板、各领域的语料文本均提取完毕;
将获得的训练后的待训练网络模型确定为上述关键词概率网络模型。
其中,在该具体示例的上述说明中,是在判定待训练文本的各句式规则模板或者各领域的语料文本未提取完毕时,才用训练后的待训练网络模型更新当前待训练网络模型返回重新提取句式规则模板为例进行说明,在具体技术应用中,也可以是先用训练后的待训练网络模型更新当前待训练网络模型后,再对待训练文本中的各句式规则模板和各领域的语料文本是否提取完毕进行判断,此时,在待训练文本中的各句式规则模板和各领域的语料文本均提取完毕后,是将更新后的当前待训练网络模型确定为上述关键词概率网络模型。
其中,在上述两个具体示例中,在将提取的句式规则模板或者语料文本输入当前待训练网络模型进行训练时,可以是将提取的句式规则模板或者语料文本以字为单位输入当前待训练网络模型进行训练,以获得较好的泛化能力。
基于如上所述的实施例及其具体示例,本实施例方案在具体技术实现时,可以是分为线下模型训练和线上文本实体提取两个过程。其中,在线下模型训练时,可以在得到训练数据(待训练文本)后,通过对获得的待训练文本进行训练,得到最后的关键词概率网络模型,如图5所示,在线上文本实体提取阶段,可以用上述得到的关键词概率网络模型进行关键词的提取,如图6所示。
在进行线下模型训练时,可以准备两种类型的训练数据,一类为各个垂直服务领域的规则模板,例如以音乐场景为例,其规则模板可以为:我想听[singer]的[song],[song]是谁唱的,[album]里哪些歌曲,其中,[singer]表示歌手,[songer]表示歌曲,[album]表示专辑。本实施例中将这些规则模板称为句式规则模板。其中,对于不同的垂直服务领域而言,例如音乐、电影、天气等,可以有不同的句式规则模板,从而针对不同的垂直服务领域训练出对应的不同的关键词概率网络模型。
在收集这些句式规则模板时,这些句式规则模板可以是收集的用户数据标注出来的语料,也可以是由开发人员人工撰写的一些简单模板。在各垂直服务领域的开始阶段,这些句式规则模板通常可以是由开发人员撰写的规则模板。
另一类训练数据可以是非垂直领域的语料文本,通常可以是一些口语化语料数据,以补充上述句式规则模板中可能没有的一些语料,以提高训练的关键词概率网络模型的泛化能力,本实施例中称之为各领域的语料文本。例如,“我想听一下歌呀”,由于“听一下”这种说法在句式规则模版中没有出现过,会导致训练得到的模型的范化能力很差。如果待提取文本中出现了“听一下”这种词,可能就识别不出关键词或识别为错误的关键词。从而,可以通过加入一些口语化文本(各领域的语料文本),以提高训练得到的模型的泛化能力。为了不影响各个垂直领域的关键词的提取,这部分语料文本可以选自一些非垂直领域,即这些语料文本可以适用于各个垂直领域的模型的训练。在具体应用中,可以通过爬虫爬取的方式获得这些语料文本,具体爬取的语料文本的数目,可以结合实际需要来确定。
在获得上述待训练文本时,可以是结合实际需要进行训练。如上所述,基于待训练文本中句式规则模板和各领域的语料文本的数目的限定的不同,具体的训练过程可以有所差异。
图7示出了一个具体示例中的生成关键词概率网络模型的流程示意图,该具体示例中是以不对待训练文本是句式规则模板还是各领域的语料文本进行区分为例进行说明。
如图7所示,首先获得包含句式规则模板和各领域的语料文本的待训练文本,以音乐领域为例,句式规则模板可以是我想听[singer]的[song]、[song]是谁唱的、[album]里哪些歌曲等,各领域的语料文本可以是包括“我想听一下歌呀”等文本,其中,句式规则模板是只适用于当前领域的文本,各领域的语料文本是不仅适用于当前领域、还可以适用于其他领域的文本。
随后,如图7所示,具体的训练过程可以是:
从待训练文本中随机提取一个句式规则模板或者语料文本,即此时提取到的当前待训练文本可能是句式规则模板,也可能是语料文本;
将提取的句式规则模板或者语料文本输入当前待训练网络模型进行训练,获得训练后的待训练网络模型;
判断待训练文本中的各句式规则模板和各领域的语料文本是否提取完毕;
若未提取完毕,即待训练文本中的句式规则模板或者各领域的语料文本中至少有一个文本还未提取时,则用上述训练后的待训练网络模型更新当前待训练网络模型,并返回从上述待训练文本中随机提取一个句式规则模板或者语料文本的步骤,重复上述过程,直至上述待训练文本中的各句式规则模板、各领域的语料文本均提取完毕;
若提取完毕,即待训练文本中的句式规则模板和各领域的语料文本中均提取完毕,则将获得的训练后的待训练网络模型确定为上述关键词概率网络模型,完成上述训练过程。
其中,在上述具体示例中,是在判定待训练文本的各句式规则模板或者各领域的语料文本未提取完毕时,才用训练后的待训练网络模型更新当前待训练网络模型为例进行说明,在具体技术应用中,也可以是先用训练后的待训练网络模型更新当前待训练网络模型后,再对待训练文本中的各句式规则模板和各领域的语料文本是否提取完毕进行判断,此时,在待训练文本中的各句式规则模板和各领域的语料文本均提取完毕后,是将更新后的当前待训练网络模型确定为上述关键词概率网络模型。
在将提取的句式规则模板或者语料文本输入当前待训练网络模型进行训练时,可以是将提取的句式规则模板或者语料文本以字为单位输入当前待训练网络模型进行训练。通过以字为单位输入进行训练,从而避免了以词为单位输入时、在语料比较少的情况下得到的结果非常稀疏效果较差的情况,以获得较好的泛化能力,提高了针对比较短的短文本的提取的精确度和准确度。其中,针对不同的服务领域,可以训练不同的对应的关键词概率网络模型。
上述当前待训练网络模型,可以结合实际需要采用可能的训练模型,在一个具体应用示例中,可以用LSTM(Long Short-Term Memory,长短时记忆网络)作为待训练模型进行训练,LSTM作为一种特殊的卷积神经网络,可以很好地学习长期依赖信息,利用LSTM可以很好地近似计算出句法成立的概率。由于LSTM网络中有许多未知参数,因此通过上述训练过程可以估计出这些参数的具体的值,然后在具体的关键词提取时对待提取文本中的关键词进行提取。在训练过程中,基于LSTM网络,可以采用BPTT(Back Propagation ThroughTime)算法进行训练。
图8示出了另一个具体示例中的生成关键词概率网络模型的流程示意图,该具体示例中是以待训练文本中的句式规则模板的数目与语料文本的数目相同、针对句式规则模板和各领域的预料文本交替进行训练为例进行说明。
如图8所示,具体的训练过程可以是:
从各句式规则模板中提取一个句式规则模板;
将提取的该句式规则模板输入当前待训练网络模型进行训练,获得训练后的待训练网络模型;
用上述训练后的待训练网络模型更新当前待训练网络模型;
从各领域的语料文本中提取一个语料文本;
将提取的该语料文本输入上述更新后的当前待训练网络模型进行训练,获得训练后的待训练网络模型;
判断上述待训练文本中的各句式规则模板和各领域的语料文本是否提取完毕;
若未提取完毕,即上述待训练文本中的各句式规则模板或者各领域的语料文本未提取完毕,则用该训练后的待训练网络模型更新当前待训练网络模型后,返回从各句式规则模板中提取一个句式规则模板的步骤,直至上述待训练文本中的各句式规则模板、各领域的语料文本均提取完毕;
若提取完毕,则将获得的训练后的待训练网络模型确定为上述关键词概率网络模型。
在上述具体示例中,是以先提取句式规则模板进行训练再提取各领域的语料文本为例进行说明,在另一个示例中,也可以是先提取各领域的语料文本进行训练再提取句式规则模板进行训练。
此外,在上述具体示例中,是在判定待训练文本的各句式规则模板或者各领域的语料文本未提取完毕时,才用训练后的待训练网络模型更新当前待训练网络模型返回重新提取句式规则模板为例进行说明,在具体技术应用中,也可以是先用训练后的待训练网络模型更新当前待训练网络模型后,再对待训练文本中的各句式规则模板和各领域的语料文本是否提取完毕进行判断,如图9所示,此时,在待训练文本中的各句式规则模板和各领域的语料文本均提取完毕后,是将更新后的当前待训练网络模型确定为上述关键词概率网络模型。
上述图8、图9中所示示例中的生成关键词概率网络模型中的其他技术特征,可以与图7所示的示例中的相同。
在通过训练获得关键词概率网络模型后,即可进行应用,对待提取文本中的关键词进行提取。在是由服务器进行训练得到关键词概率网络模型的情况下,可以是服务器将该关键词概率网络模型发送给终端之后,由终端进行文本关键词的提取,也可以是由服务器接收到终端发送的待提取文本后、由服务器自身进行文本关键词的提取。在是由终端进行训练得到关键词概率网络模型的情况下,终端自身可以基于该关键词概率网络模型进行文本关键词的提取,也可以是将该关键词概率网络模型发送给服务器后、由服务器分发给其他终端,服务器和各终端可以基于该关键词概率网络模型进行文本关键词的提取。
在具体进行文本关键词提取时,先获取待提取文本,该待提取文本可以是终端用户通过键盘、触摸屏等用户交互式设备输入的文本,也可以是通过的对终端用户的语音进行识别得到的文本,也可以是通过其他方式获得的文本。
在本实施例中,在得到待提取文本后,可以先确定其当前所属的领域,然后再针对所属的领域结合该所属的领域对应的关键词库和关键词概率网络模型进行文本关键词的提取。在只需要对一个领域进行文本关键词提取时,例如智能音箱,则可以直接结合默认的关键词库和关键词概率网络模型进行文本关键词的提取。在可能对多个领域进行文本关键词提取时,例如在服务器执行,则可以先确定所属的领域后,再结合所属的领域对应的关键词库和关键词概率网络模型进行文本关键词的提取。在下述示例中,是以已经确定了所属领域为例进行说明。
在获得待提取文本后,根据该待提取文本所属领域,根据其所属领域关联的关键词库,在关联的关键词库中进行搜索,匹配出待提取文本中的关键词,从而穷举出待提取文本中的关键词。然后根据待提取文本、匹配出的待提取文本中的关键词,确定出所有的文本句式及对应的关键词组合,其中,确定出的任意一个文本句式及其对应的关键词组合,共同组成了上述待提取文本。本领域技术人员可以理解,匹配出待提取文本中的关键词,是匹配出待提取文本中所有与关键词库中的词相匹配的词,而确定出所有的文本句式及对应的关键词组合,是匹配出该待提取文本的所有可能的句式以及该句式下的关键词。假设待提取文本为“我想听ABC的QLX”,歌手实体为{“AB”,“ABC”},歌曲实体库为{“QLX”},其中,A、B、C、Q、L、X分别表示一个具体的字或者字符。那么,针对待提取文本为“我想听ABC的QLX”,根据歌手实体库{“AB”,“ABC”}和歌曲实体库{“QLX”},匹配出的该待提取文本关键词则为:AB、ABC、QLX,进而确定出的可能的文本句式包括:我想听ABC的QLX、我想听[singer]C的QLX、我想听[singer]的QLX、我想听[singer]C的[song]、我想听[singer]的[song],从而得到的可能的文本句式及对应的关键词组合如下表1所示。
表1
可能的组合 [singer] [song] 概率
我想听ABC的QLX 0.001
我想听[singer]C的QLX AB 0.002
我想听[singer]的QLX ABC 0.009
我想听[singer]C的[song] AB QLX 0.011
我想听[singer]的[song] ABC QLX 0.051
结合上表1可见,句式“我想听[singer]C的QLX”与其对应的关键词组合“[singer]:AB”共同组成了原始的待提取文本“我想听ABC的QLX”,句式“我想听[singer]的QLX”与其对应的关键词组合“[singer]:ABC”共同组成了原始的待提取文本“我想听ABC的QLX”,句式“我想听[singer]C的[song]”与其对应的关键词组合“[singer]:AB;[song]:QLX”共同组成了原始的待提取文本“我想听ABC的QLX”。
然后,将各文本句式输入上述关键词概率网络模型,可以获得各文本句式及对应的关键词组合成立的概率,如上表1最后一列所示。从表1中可以看出,概率值最大的是0.051,即“我想听[ABC]的[QLX]”成立的概率的值最大,因此选取值最大的概率0.051对应的文为本句式及对应的关键词组合,最终确定的提取的关键词组合为{[singer]:ABC;[song]:QLX}。
基于与上述方法相同的思想,本实施例还提供一种文本关键词提取装置,图10示出了一个实施例中的文本关键词提取装置的结构示意图。
如图10所示,该实施例的文本关键词提取装置包括:
文本获取模块101,用于获取待提取文本;
关键词匹配模块102,用于在关联的关键词库中进行搜索,匹配出所述待提取文本中的关键词;
组合确定模块103,用于根据所述待提取文本、匹配出的所述待提取文本中的关键词,确定出所有的文本句式及对应的关键词组合,其中,确定出的任意一个文本句式及其对应的关键词组合,共同组成了上述待提取文本;
概率分析模块104,用于根据关键词概率网络模型,分析确定各所述文本句式及对应的关键词组合成立的概率;
提取确定模块105,用于将概率分析模块104分析确定的概率中值最大的概率对应的关键词组合确定为从所述待提取文本中提取的关键词组合。
根据如上所述的实施例的方案,其在需要对待提取完本中的关键词进行提取时,是基于关联的关键词库,在关联的关键词库中进行搜索,匹配出待提取文本中的关键词,然后基于关键词确定出所有的文本句式及对应的关键词组合,再根据关键词概率网络模型分析确定各所述文本句式及对应的关键词组合成立的概率,并将分析确定的概率中值最大的概率对应的关键词组合确定为从所述待提取文本中提取的关键词组合。其在提取出待提取文本中的关键词的基础上,确定出所有的文本句式及对应的关键词组合,然后基于关键词概率网络模型来确定出各文本句式及对应的关键词组合的概率,其不仅响应速度快,而且简化了提取文本关键词的难度,提高了文本关键词的准确性。
如上所述的实施例中的方案,可以在终端上执行,也可以是服务器上执行。
以在终端上执行为例,上述待提取文本可以是终端用户输入的文本,例如终端用户通过键盘、触摸屏等用户交互式设备输入的文本,也可以是通过对终端用户的语音进行识别得到的文本,在其他实施例中,也可以是通过其他方式获得的文本。
以在服务器上执行为例,可以是从终端接收上述待提取文本,终端在获得该待提取文本后,将该待提取文本上传至服务器。该待提取文本可以是终端用户输入的文本,例如终端用户通过键盘、触摸屏等用户交互式设备输入的文本,也可以是通过对终端用户的语音进行识别得到的文本,也可以是通过其他方式获得的文本。
另一方面,在该装置设置在终端或者服务器上时,上述关键词概率网络模型,可以是由终端或者服务器预先生成。因此,在一个具体示例中,如图11所示,该文本关键词提取装置还可以包括:
模型生成模块106,用于生成所述关键词概率网络模型。
此外,在该装置设置在终端上时,也可以是在服务器生成关键词概率网络模型后,终端从服务器获取该关键词概率网络模型。因此,如图11所示,在另一个实施例中,该文本关键词提取装置还可以包括:
模型获取模块107,用于获取服务器生成的所述关键词概率网络模型。
图12示出了一个具体示例中的模型生成模块106的结构示意图,如图12所示,该模型生成模块106包括:
训练文本获取模块1061,用于获取待训练文本,所述待训练文本包括各句式规则模板、以及各领域的语料文本;
训练模块1062,用于根据所述待训练文本进行训练,获得所述关键词概率网络模型。
其中,上述句式规则模板,表明了具体的句式规则。由于所设定的句式规则可能不会囊括所有的句式,例如一些口语化的句式,因此,在待训练文本中还可以包括有各领域的语料文本,该语料文本可以是一些口语化的文本。在一个具体应用实现方式中,各领域的语料文本可以通过爬虫爬取的方式获取。
如图12所示,该训练模块1062具体可以包括:训练文本提取单元10621、训练单元10622、模型确定单元10623。
其中,在上述根据待训练文本进行训练,获得关键词概率网络模型时,由于待训练文本包括有各句式规则模板和各领域的语料文本这两种文本,因而在训练时也可以结合实际技术需要进行确定。
在一个具体示例中,在根据待训练文本进行训练时,可以不对待训练文本是句式规则模板还是各领域的语料文本进行区分,在每一次训练的过程中,随机选取一次即可,此时:
上述训练文本提取单元1061,用于从所述待训练文本中随机提取一个当前待训练文本,所述当前待训练文本为句式规则模板或者语料文本,并在训练单元获得训练后的待训练网络模型后、所述待训练文本中的各句式规则模板或者各领域的语料文本未提取完毕时,重新从所述待训练文本中随机提取一个当前待训练文本,直至所述待训练文本中的各句式规则模板、各领域的语料文本均提取完毕;
上述训练单元10622,用于将所述训练文本提取模块提取的当前待训练文本输入当前待训练网络模型进行训练,获得训练后的待训练网络模型,并用所述训练后的待训练网络模型更新当前待训练网络模型;
上述模型确定单元10623,用于在所述待训练文本中的各句式规则模板和各领域的语料文本均提取完毕时,将所述训练单元获得的训练后的待训练网络模型确定为所述关键词概率网络模型。
在另一个具体示例中,可以是将待训练文本中的句式规则模板的数目与语料文本的数目设定为相同,此时在进行训练时,可以是针对句式规则模板和各领域的预料文本交替进行,此时:
上述训练文本提取单元10621,用于在所述待训练文本中的各句式规则模板或者各领域的语料文本未提取完毕时,交替地从各所述句式规则模板中提取一个句式规则模板或者从各所述语料文本中提取一个语料文本;
上述训练单元10622,用于将所述训练文本提取单元提取的句式规则模板或者语料文本输入当前待训练网络模型进行训练,获得训练后的待训练网络模型,并用所述训练后的待训练网络模型更新当前待训练网络模型;
上述模型确定单元10623,用于在所述待训练文本中的各句式规则模板和各领域的语料文本均提取完毕时,将所述训练单元获得的训练后的待训练网络模型确定为所述关键词概率网络模型。
其中,在上述两个具体示例中,训练单元10622在将提取的句式规则模板或者语料文本输入当前待训练网络模型进行训练时,可以是将提取的句式规则模板或者语料文本以字为单位输入当前待训练网络模型进行训练,以获得较好的泛化能力。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机***的存储介质中,并被该计算机***中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种文本关键词提取方法,其特征在于,包括:
获取待提取文本;
在关联的关键词库中进行搜索,匹配出所述待提取文本中的关键词;
根据所述待提取文本、匹配出的所述待提取文本中的关键词,确定出所有的文本句式及对应的关键词组合;
根据关键词概率网络模型,分析确定各所述文本句式及对应的关键词组合成立的概率;
将分析确定的概率中值最大的概率对应的关键词组合确定为从所述待提取文本中提取的关键词组合;
所述关键词概率网络模型的生成方式包括:
获取待训练文本,所述待训练文本包括各句式规则模板、以及各领域的语料文本;
从所述待训练文本中随机提取一个当前待训练文本,所述当前待训练文本为句式规则模板或者语料文本;
将提取的当前待训练文本输入当前待训练网络模型进行训练,获得训练后的待训练网络模型;
在所述待训练文本中的各句式规则模板或者各领域的语料文本未提取完毕时,用所述训练后的待训练网络模型更新当前待训练网络模型,返回从所述待训练文本中随机提取一个当前待训练文本的步骤,直至所述待训练文本中的各句式规则模板、各领域的语料文本均提取完毕;
将获得的训练后的待训练网络模型确定为所述关键词概率网络模型。
2.根据权利要求1所述的文本关键词提取方法,其特征在于,在获取待提取文本之前,还包括步骤:
生成所述关键词概率网络模型。
3.根据权利要求1所述的文本关键词提取方法,其特征在于,所述待训练文本中的句式规则模板的数目与语料文本的数目相同;
从所述待训练文本中随机提取一个当前待训练文本,所述当前待训练文本为句式规则模板或者语料文本,包括:从各所述语料文本中提取一个语料文本;
将提取的当前待训练文本输入当前待训练网络模型进行训练,获得训练后的待训练网络模型之后,在所述待训练文本中的各句式规则模板或者各领域的语料文本未提取完毕时,用该训练后的待训练网络模型更新当前待训练网络模型之前,还包括:用所述训练后的待训练网络模型更新当前待训练网络模型后,从各所述句式规则模板中提取一个句式规则模板,并将提取的该句式规则模板输入当前待训练网络模型进行训练,获得训练后的待训练网络模型。
4.根据权利要求1所述的文本关键词提取方法,其特征在于,所述待训练文本中的句式规则模板的数目与语料文本的数目相同;
从所述待训练文本中随机提取一个当前待训练文本,所述当前待训练文本为句式规则模板或者语料文本,包括:从各所述句式规则模板中提取一个句式规则模板;
将提取的当前待训练文本输入当前待训练网络模型进行训练,获得训练后的待训练网络模型之后,在所述待训练文本中的各句式规则模板或者各领域的语料文本未提取完毕时,用该训练后的待训练网络模型更新当前待训练网络模型之前,还包括:用所述训练后的待训练网络模型更新当前待训练网络模型后,从各所述语料文本中提取一个语料文本,并将提取的该语料文本输入当前待训练网络模型进行训练,获得训练后的待训练网络模型。
5.根据权利要求1、3或4所述的文本关键词提取方法,其特征在于,将提取的句式规则模板或者语料文本以字为单位输入当前待训练网络模型进行训练。
6.根据权利要求1所述的文本关键词提取方法,其特征在于,在获取待提取文本之前,还包括步骤:
获取服务器生成的所述关键词概率网络模型。
7.一种文本关键词提取装置,其特征在于,包括:
文本获取模块,用于获取待提取文本;
关键词匹配模块,用于在关联的关键词库中进行搜索,匹配出所述待提取文本中的关键词;
组合确定模块,用于根据所述待提取文本、匹配出的所述待提取文本中的关键词,确定出所有的文本句式及对应的关键词组合;
概率分析模块,用于根据关键词概率网络模型,分析确定各所述文本句式及对应的关键词组合成立的概率;
提取确定模块,用于将所述概率分析模块分析确定的概率中值最大的概率对应的关键词组合确定为从所述待提取文本中提取的关键词组合;
模型生成模块,用于生成所述关键词概率网络模型;
所述模型生成模块包括:
训练文本获取模块,用于获取待训练文本,所述待训练文本包括各句式规则模板、以及各领域的语料文本;
训练模块,用于对所述待训练文本进行训练,获得所述关键词概率网络模型;
所述训练模块包括:
训练文本提取单元,用于从所述待训练文本中随机提取一个当前待训练文本,所述当前待训练文本为句式规则模板或者语料文本,并在训练单元获得训练后的待训练网络模型后、所述待训练文本中的各句式规则模板或者各领域的语料文本未提取完毕时,重新从所述待训练文本中随机提取一个当前待训练文本,直至所述待训练文本中的各句式规则模板、各领域的语料文本均提取完毕;
训练单元,用于将所述训练文本提取模块提取的当前待训练文本输入当前待训练网络模型进行训练,获得训练后的待训练网络模型,并用所述训练后的待训练网络模型更新当前待训练网络模型;
模型确定单元,用于在所述待训练文本中的各句式规则模板和各领域的语料文本均提取完毕时,将所述训练单元获得的训练后的待训练网络模型确定为所述关键词概率网络模型。
8.根据权利要求7所述的文本关键词提取装置,其特征在于,所述待训练文本中的句式规则模板的数目与语料文本的数目相同;
所述训练文本提取单元,用于在所述待训练文本中的各句式规则模板或者各领域的语料文本未提取完毕时,交替地从各所述句式规则模板中提取一个句式规则模板或者从各所述语料文本中提取一个语料文本;
所述训练单元,用于将所述训练文本提取单元提取的句式规则模板或者语料文本输入当前待训练网络模型进行训练,获得训练后的待训练网络模型,并用所述训练后的待训练网络模型更新当前待训练网络模型。
9.根据权利要求7或8所述的文本关键词提取装置,其特征在于,所述训练单元将提取的句式规则模板或者语料文本以字为单位输入当前待训练网络模型进行训练。
10.根据权利要求7所述的文本关键词提取装置,其特征在于,还包括:
模型获取模块,用于获取服务器生成的所述关键词概率网络模型。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
12.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
CN201710203566.8A 2017-03-30 2017-03-30 文本关键词提取方法及文本关键词提取装置 Active CN108304424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710203566.8A CN108304424B (zh) 2017-03-30 2017-03-30 文本关键词提取方法及文本关键词提取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710203566.8A CN108304424B (zh) 2017-03-30 2017-03-30 文本关键词提取方法及文本关键词提取装置

Publications (2)

Publication Number Publication Date
CN108304424A CN108304424A (zh) 2018-07-20
CN108304424B true CN108304424B (zh) 2021-09-07

Family

ID=62872103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710203566.8A Active CN108304424B (zh) 2017-03-30 2017-03-30 文本关键词提取方法及文本关键词提取装置

Country Status (1)

Country Link
CN (1) CN108304424B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117480B (zh) * 2018-08-17 2022-05-27 腾讯科技(深圳)有限公司 词预测方法、装置、计算机设备及存储介质
CN109271521B (zh) * 2018-11-16 2021-03-30 北京九狐时代智能科技有限公司 一种文本分类方法及装置
CN111309878B (zh) * 2020-01-19 2023-08-22 支付宝(杭州)信息技术有限公司 检索式问答方法、模型训练方法、服务器及存储介质
CN111324722B (zh) * 2020-05-15 2020-08-14 支付宝(杭州)信息技术有限公司 一种训练词语权重模型的方法和***
CN111737979B (zh) * 2020-06-18 2021-01-12 龙马智芯(珠海横琴)科技有限公司 语音文本的关键词修正方法、装置、修正设备及存储介质
CN113010648A (zh) * 2021-04-15 2021-06-22 联仁健康医疗大数据科技股份有限公司 内容搜索方法、装置、电子设备以及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186509B (zh) * 2011-12-29 2016-03-30 北京百度网讯科技有限公司 通配符类模板泛化方法和装置、通用模板泛化方法和***
CN104239300B (zh) * 2013-06-06 2017-10-20 富士通株式会社 从文本中挖掘语义关键词的方法和设备
US9785630B2 (en) * 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
CN105138515B (zh) * 2015-09-02 2018-10-19 百度在线网络技术(北京)有限公司 命名实体识别方法和装置

Also Published As

Publication number Publication date
CN108304424A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304424B (zh) 文本关键词提取方法及文本关键词提取装置
CN108287858B (zh) 自然语言的语义提取方法及装置
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN109165302B (zh) 多媒体文件推荐方法及装置
CN107797984B (zh) 智能交互方法、设备及存储介质
CN109783651B (zh) 提取实体相关信息的方法、装置、电子设备和存储介质
CN110704743B (zh) 一种基于知识图谱的语义搜索方法及装置
CN109325040B (zh) 一种faq问答库泛化方法、装置及设备
CN111831911B (zh) 查询信息的处理方法、装置、存储介质和电子装置
CN112989055B (zh) 文本识别方法、装置、计算机设备和存储介质
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
CN117056471A (zh) 知识库构建方法及基于生成式大语言模型的问答对话方法和***
CN103886034A (zh) 一种建立索引及匹配用户的查询输入信息的方法和设备
CN108538294B (zh) 一种语音交互方法及装置
CN110457672A (zh) 关键词确定方法、装置、电子设备及存储介质
CN107665188B (zh) 一种语义理解方法及装置
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN112650842A (zh) 基于人机交互的客服机器人意图识别方法及相关设备
CN112527955A (zh) 一种数据处理的方法和装置
CN110895656A (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN111414735A (zh) 文本数据的生成方法和装置
CN113051384B (zh) 基于对话的用户画像抽取方法及相关装置
CN111125305A (zh) 热门话题确定方法、装置、存储介质及电子设备
CN117932022A (zh) 一种智能问答方法、装置、电子设备及存储介质
CN112562659A (zh) 语音识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant