CN113392305A - 关键词的提取方法及装置、电子设备、计算机存储介质 - Google Patents

关键词的提取方法及装置、电子设备、计算机存储介质 Download PDF

Info

Publication number
CN113392305A
CN113392305A CN202011342868.1A CN202011342868A CN113392305A CN 113392305 A CN113392305 A CN 113392305A CN 202011342868 A CN202011342868 A CN 202011342868A CN 113392305 A CN113392305 A CN 113392305A
Authority
CN
China
Prior art keywords
vocabulary
search text
predicate
vocabularies
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011342868.1A
Other languages
English (en)
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011342868.1A priority Critical patent/CN113392305A/zh
Publication of CN113392305A publication Critical patent/CN113392305A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种关键词的提取方法及装置、电子设备、计算机存储介质,其中,所述方法包括:获取搜索文本;若所述搜索文本为问句类型,则对所述搜索文本的各个词汇进行词性分析,得到每个所述词汇的词性;利用依存句法算法对各个所述词汇进行句法分析,得到每两个具有句法关系的所述词汇间的句法关系;基于每两个具有句法关系的所述词汇间的句法关系,从所述搜索文本的各个词汇中选取主语、谓语和宾语分别对应的词汇;利用所述主语、谓语和宾语分别对应的词汇,生成关键词集合;所述关键词集合包括:所述主语、谓语和宾语分别对应的词汇、以及由所述主语、谓语和宾语分别对应的词汇组成的句子。从而实现从问句中提取出符合用户需求的关键词。

Description

关键词的提取方法及装置、电子设备、计算机存储介质
技术领域
本申请涉及信息搜索技术领域,特别涉及一种关键词的提取方法及装置、电子设备、计算机存储介质。
背景技术
在人工智能领域中,随着互联网搜索引擎的发展,搜索需求无处不在。由于,在聊天对话的场景下也存在搜索需求,因此许多社交软件开始逐步支持会话指尖搜索,即用户可以选取聊天中的会话,以会话作为查询串进行搜索。
为了能进一步将搜索主动权给用户,给用户提供更好的体验,指尖搜索与以往用户主动输入词句进行搜索的应用场景一样,在进行当前搜索的同时,也会向用户提供多个候选关键词,供用户进行选择,以将选择的候选关键词作为搜索关键词,进一步搜索信息。与以往的应用场景同样,在指尖搜索中同样是基于预先构建的实体词典,从用户选取的会话中选取出包含在实体词典中的词汇作为候选关键词,供用户选择。
但是,这种候选关键词的提取方式仅能提取在实体词典中的词汇,对未包含在实体词典的词汇则无法提取。并且,实体词典中的词汇通常为名词,以往的应用场景,用户输入的通常为名词或陈述句进行搜索,所以提取名词能满足用户的信息搜索需求,但是聊天会话中常包含疑问句,若只提取名词词汇,无法满足用户的信息搜索需求,例如,如图1所示,用户选取的是“A应用是否需要增加手写板功能”,此时通过实体词典仅提取出“A应用”和“手写板”作为候选关键词,则后续搜索“A应用”和“手写板”得到的信息,与用户起初搜索需求显然不太相符。所以,可见现有的关键词的提取方法,对于指尖搜索中的问句,并不能很好地提取出满足用户后续搜索需求的关键词。
发明内容
基于上述现有技术的不足,本申请提供了一种关键词的提取方法及装置、电子设备、计算机存储介质,以解决现有技术无法有效提取满足用户需求的关键词的问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请第一方面提供了一种关键词的提取方法,其特征在于,包括:
获取搜索文本;
判断所述搜索文本是否为问句类型;
若判断出所述搜索文本为问句类型,则对所述搜索文本的各个词汇进行词性分析,得到每个所述词汇的词性;
利用依存句法算法对各个所述词汇进行句法分析,得到每两个具有句法关系的所述词汇间的句法关系;
基于每两个具有句法关系的所述词汇间的句法关系,从所述搜索文本的各个词汇中选取主语、谓语和宾语分别对应的词汇;
利用所述主语、谓语和宾语分别对应的词汇,生成关键词集合;其中,所述关键词集合包括:所述主语、谓语和宾语分别对应的词汇、以及由所述主语、谓语和宾语分别对应的词汇组成的句子。
可选地,在上述的关键词的提取方法中,所述判断所述搜索文本是否为问句类型,包括:
对所述搜索文本进行分词,得到所述搜索文本的各个词汇;
分别对每个所述词汇进行特征处理,得到每个所述词汇的特征向量;
调用预先训练好的卷积神经网络模型处理每个所述词汇的特征向量,确定所述搜索文本是否为问句类型。
可选地,在上述的关键词的提取方法中,所述卷积神经网络模型的训练方法,包括:
获取多个问题标题以及多个新闻标题;
将各个所述问题标题以及各个所述新闻标题作为训练样本数据;其中,各个所述问题标题作为正训练样本数据,各个所述新闻标题作为负训练样本数据;
分别对各个所述训练样本数据分词,得到各个所述训练样本数据对应的样本词汇;
分别对各个所述样本词汇进行特征处理,得到各个所述样本词汇的特征向量;
将所述训练样本数据对应的各个所述样本词汇的特征向量输入卷积神经网络模型,通过所述卷积神经网络模型进行计算,得到所述训练样本数据的分类结果;
若所述训练样本数据的分类结果与所述训练样本数据的标签的误差大于预设阈值,则对所述卷积神经网络模型进行调参,返回执行所述将所述训练样本数据对应的各个所述样本词汇的特征向量输入卷积神经网络模型;其中,正训练样本数据的标签为1,所述负训练样本数据的标签为0;
若所述训练样本数据的分类结果与所述训练样本数据的标签的误差不大于预设阈值,则确定完成对所述卷积神经网络模型的训练。
可选地,在上述的关键词的提取方法中,所述从所述搜索文本的各个词汇中选取主语、谓语以及宾语分别对应的词汇之后,还包括:
若选取出的主语对应的词汇中存在满足合并标准的词汇,则将满足并标准的词汇合并为一个词汇;其中,所述合并标准为:主语对应的词汇有多个,且在所述搜索文本中的所处位置连续。
可选地,在上述的关键词的提取方法中,所述从所述搜索文本的各个词汇中选取主语、谓语以及宾语分别对应的词汇之后,还包括:
将谓语对应的词汇与预先设置的目标谓语词进行对比;
将与所述目标谓语词相匹配的谓语对应的词汇剔除。
可选地,在上述的关键词的提取方法中,所述利用所述主语、谓语以及宾语分别对应的词汇,生成关键词集合之后,还包括:
调取用户的历史搜索记录;
利用所述历史搜索记录,确定所述关键词集合中的各个所述词汇的历史搜索次数;
将历史搜索次数小于预设次数的词汇,从所述关键词集合中剔除。
本申请第二方面提供了一种关键词的提取装置,包括:
第一获取单元,用于获取搜索文本;
判断单元,用于判断所述搜索文本是否为问句类型;
词性分析单元,用于在所述搜索文本为问句类型时,对所述搜索文本的各个词汇进行词性分析,得到每个所述词汇的词性;
句法分析单元,用于利用依存句法算法对各个所述词汇进行句法分析,得到每两个具有句法关系的所述词汇间的句法关系;
提取单元,用于基于每两个具有句法关系的所述词汇间的句法关系,从所述搜索文本的各个词汇中选取主语、谓语和宾语分别对应的词汇;
生成单元,用于利用所述主语、谓语和宾语分别对应的词汇,生成关键词集合;其中,所述关键词集合包括:所述主语、谓语和宾语分别对应的词汇、以及由所述主语、谓语和宾语分别对应的词汇组成的句子。
可选地,在上述的关键词的提取装置中,所述判断单元,包括:
第一分词单元,用于对所述搜索文本进行分词,得到所述搜索文本的各个词汇;
第一特征处理单元,用于分别对每个所述词汇进行特征处理,得到每个所述词汇的特征向量;
分类单元,用于调用预先训练好的卷积神经网络模型处理每个所述词汇的特征向量,确定所述搜索文本是否为问句类型。
可选地,在上述的关键词的提取装置中,还包括模型训练单元,其中,所述模型训练单元,包括:
第二获取单元,用于获取多个问题标题以及多个新闻标题;
样本单元,用于将各个所述问题标题以及各个所述新闻标题作为训练样本数据;其中,各个所述问题标题作为正训练样本数据,各个所述新闻标题作为负训练样本数据;
第二分词单元,用于分别对各个所述训练样本数据分词,得到各个所述训练样本数据对应的样本词汇;
第二特征处理单元,用于分别对各个所述样本词汇进行特征处理,得到各个所述样本词汇的特征向量;
输入单元,用于将所述训练样本数据对应的各个所述样本词汇的特征向量输入卷积神经网络模型,通过所述卷积神经网络模型进行计算,得到所述训练样本数据的分类结果;
参数调整单元,用于在所述训练样本数据的分类结果与所述训练样本数据的标签的误差大于预设阈值时,对所述卷积神经网络模型进行调参,并返回执行所述将所述训练样本数据对应的各个所述样本词汇的特征向量输入卷积神经网络模型;其中,正训练样本数据的标签为1,所述负训练样本数据的标签为0;
第一确定单元,用于在所述训练样本数据的分类结果与所述训练样本数据的标签的误差不大于预设阈值时,确定完成对所述卷积神经网络模型的训练。
可选地,在上述的关键词的提取装置中,还包括:
合并单元,用于在选取出的主语对应的词汇中存在满足合并标准的词汇时,将满足并标准的词汇合并为一个词汇;其中,所述合并标准为:主语对应的词汇有多个,且在所述搜索文本中的所处位置连续。
可选地,在上述的关键词的提取装置中,还包括:
对比单元,用于将谓语对应的词汇与预先设置的目标谓语词进行对比;
第一剔除单元,用于将与所述目标谓语词相匹配的谓语对应的词汇剔除。
可选地,在上述的关键词的提取装置中,还包括:
调取单元,用于调取用户的历史搜索记录;
第二确定单元,用于利用所述历史搜索记录,确定所述关键词集合中的各个所述词汇的历史搜索次数;
第二剔除单元,用于将历史搜索次数小于预设次数的词汇,从所述关键词集合中剔除。
本申请第三方面提供了一种计算机存储介质,用于存储计算机程序,所述计算机程序被执行时,用于实现如上述任意一项所述的关键词的提取方法。
本申请第四方面提供了一种电子设备,包括:
存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上述任意一项所述的关键词的提取方法。
本申请实施例提供的一种关键词的方法,通过获取搜索文本,并在确定搜索文本为问句类型时,对搜索文本的各个词汇进行词性分析,得到每个词汇的词性,从而可以基于每个词汇的词性,利用依存句法算法对各个词汇进行句法分析,得到每两个具有句法关系的词汇间的句法关系,最后基于每两个具有句法关系的所述词汇间的句法关系,从搜索文本的各个词汇中选取主语、谓语以及宾语分别对应的词汇,并利用主语、谓语以及宾语分别对应的词汇,生成包括选取的每个词汇和选取的各个词汇组成的句子的关键词集合。从而,基于依存句法算法实现对问句的关键词的提取,不再是利用实体词典提取关键词,使得关键词的提取更加的灵活,更好的适用于多样的聊天会话,进而能准确地从问句中提取出符合用户需求的关键词。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为指尖搜索的操作界面的示意图;
图2为本申请实施例提供的一种关键词的提取方法的流程图;
图3为本申请另一实施例提供的一种判断搜索文本是否为问句类型的方法的流程图;
图4为本申请另一实施例提供的一种卷积神经网络模型的训练方法的流程图;
图5为本申请另一实施例提供的一种卷积神经网络模型的结构示意图;
图6为本申请另一实施例提供的词汇词性分析示例的示意图;
图7为本申请另一实施例提供的句法分析示例的示意图;
图8为本申请另一实施例提供的一种关键词的提取装置的结构示意图;
图9为本申请另一实施例提供的一种模型训练单元的结构示意图;
图10为本申请另一实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请提供了一种关键词的提取方法,主要应用于人工智能领域。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
更具体地,本申请提供的关键词的提取方法,属于人工智能领域中的自然语音处理(Nature Language processing,NLP)方向。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供了一种关键词的提取方法,如图2所示,具体包括以下步骤:
S201、获取搜索文本。
首先需要说明的是,本申请实施例主要以指尖搜索为例进行说明,但本申请提供的方法并不仅限于在指尖搜索中使用。
其中,搜索文本指的是用户输入或选取的用于搜索的文本内容。对于指尖搜索,用于可以通过对聊天会话触发指定的操作。例如,如图1所示,用户通过长按当前的聊天会话“A应用是否需要增加手写板功能”,可对聊天会话中的文本进行选择。此时,***会相应的弹出搜索按键“搜一搜”、复制、剪切等虚拟按键。用户点击搜索按键“搜一搜”后,如图1的右图所示,***将会弹出搜索界面,并以选取的聊天会话为搜索文本,进行信息搜索并将搜索结果反馈给用户。因此,可以在用户选取会话进行搜索时,获取搜索文本,在***针对搜索词进行本次搜索的同时,对获取的搜索文本进行关键词提取,以供用户选取进行后续的搜索。
S202、判断搜索文本是否为问句类型。
需要说明的是,本申请实施例提供的关键词的提取方法,针对的是问句类型的搜索文本,即指针对疑问句。
所以,若判断出搜索文本为问句类型,则执行步骤S203。
可选地,参见图3,示出了一种在获取搜索文本后,判断搜索文本是否为问句类型的方法,具体包括以下步骤:
S301、对搜索文本进行分词,得到搜索文本的各个词汇。
其中,需要说明的是得到各个词汇中的每个词汇指的一个文本单位,文本单位可以是词语也可以仅是一个字符等,并不限两个或多个字符组成的词汇。
可选地,可以利用现有的分词工具,如结巴分词,对搜索文本进行分词,同时还可以去除其中的无意义的词汇,如“的、得、呢、要”等停用词。
S302、分别对每个词汇进行特征处理,得到每个词汇的特征向量。
可选地,同样可以利用现有的工具对词汇进行特征处理,例如word2vec模型。
具体的,可以预先收集出现频率较高的若干种搜索文本,分别将这些搜索文本进行分词,得到多个个词汇,这些词汇的集合称为词袋。
随后,利用这个词袋进行训练,得到一个词向量模型(即word2vec模型)。基于训练得到的这个词向量模型,在执行步骤S302时,就可以从词向量模型中查找出步骤S301中分词得到的每一个词汇的词向量。
例如,搜索文本可以是“请问腾讯会议中是否要考虑增加手写板功能呢?”,对这一搜索文本进行分词可以得到:请问、腾讯、会议、中、是否、考虑、增加、手写板、功能,然后从词向量模型中查找出各个词汇的词向量。
S303、调用预先训练好的卷积神经网络模型处理每个词汇的特征向量,确定搜索文本是否为问句类型。
具体的,将对搜索文本进行分词得到的各个词汇的特征向量,作为一个整体输入预先训练好的卷积神经网络模型中,通过卷积神经网络模式对输入的各个词汇的特征向量进行处理,得到搜索文本属于问句类型的概率。若卷积神经网络模型输出的搜索文本属于问句类型的概率大于预设概率值,则确定搜索文本为问句类型。
可选地,本申请实施例采用卷积神经网络模型作为确定搜索文本是否为文本类型的二分类器。当然,也可以采用其他的模型训练得到,可确定搜索文本是否为文本类型的二分类器。
可选地,本申请另一实施例中,提供了一种步骤S303中的卷积神经网络模型的训练方法,如图4所示,具体包括以下步骤:
S401、获取多个问题标题以及多个新闻标题。
需要说明的是,由于聊天对话涉及用户的隐私问题,因此不宜获取用户的聊天对话,并从中筛选出训练样本,因此本申请实施例中采用问题标题和新闻标题作为训练样本。当然,若经用户授权,也可以使用用户的聊天对话作为训练样本,进行模型训练。
其中,问题标题主要指的是问答网站或客户端上用户提出的问题的标题,例如,百度知道的问题标题。这些问题标题都属于问句类型,即为用户提问的问题,并且这些数据能反映了大部分用户所提出的问题的类型、提问方式等特征,更利用模型的训练。而新闻标题,则通常为陈述句类型,所以可以将其作为负训练样本。
S402、将各个问题标题以及各个新闻标题作为训练样本数据。
其中,各个问题标题作为正训练样本数据,各个新闻标题作为负训练样本数据。同时,还需要对各个训练样本数据标注标签,正训练样本数据的标签为1,负训练样本数据的标签为0。
S403、分别对各个训练样本数据分词,得到各个训练样本数据对应的样本词汇。
同样,可以利用现有的分词工具对训练样本进行分词,以及进行后续的去除停用词等处理,从而得到各个训练样本数据对应的样本词汇。
S404、分别对各个样本词汇进行特征处理,得到各个样本词汇的特征向量。
同理,可以利用现有的特征处理模型对各个样本词汇进行特征处理,从而得到各个***版词汇的特征向量。
S405、将训练样本数据对应的各个样本词汇的特征向量输入卷积神经网络模型,通过卷积神经网络模型进行计算,得到训练样本数据的分类结果。
具体的,如图5所示,卷积神经网络模型主要包括输入层、卷积层、和池化层以及全连接层。将训练样本数据的各个样本词汇的特征向量经过输入层输入卷积神经网络模型中,依次经过卷积层、池化层和全连接层的处理后,输入训练样本数据的分类结果。
S406、判断训练样本数据的分类结果与训练样本数据的标签的误差大于预设阈值。
其中,若训练样本数据的分类结果与训练样本数据的标签的误差大于预设阈值,则执行步骤S407。若训练样本数据的分类结果与训练样本数据的标签的误差不大于预设阈值,则执行步骤S408。
S407、对卷积神经网络模型进行调参。
具体的,调整参数的方式可以基于梯度下降法进行调整。具体的,确定关于卷积神经网络模型模型的参数的损失函数,然后分别对损失函数中各个参数进行求偏导数,得到相应的梯度向量。然后,分别沿着各个参数对应的梯度向量的反方向,按预设步长调整相应的各个参数,并在调整参数后返回步骤S405,对模型继续进行训练。
S408、确定完成对卷积神经网络模型的训练。
S203、对搜索文本的各个词汇进行词性分析,得到每个词汇的词性。
可选地,可以使用现有公开的词性标注工具postag,标注各个词汇的词性。例如,如图6所示,对于“请问腾讯会议中是否考虑增加手写板功能”这一搜索文本,分词后得到的词汇为“请问、腾讯、会议、中、是否、考虑、增加、手写板、功能”,然后对各个词汇间词性分析,得到如图6所示的分析结果。其中,n指代的词性为名词、v指代的词性为动词、nz和nd分别指代专有名词和其他名词。
S204、利用依存句法算法对各个词汇进行句法分析,得到每两个具有句法关系的词汇间的句法关系。
其中,句法分析的基本任务就是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法的句子的语法结构给与形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。
其中,部分常用的句法关系如下表1所示。
表1
Figure BDA0002799029820000111
Figure BDA0002799029820000121
因此基于每个词汇的词性,利用依存句法算法对各个词汇进行句法分析,得到每两个具有句法关系的词汇间的句法关系。其中,具体的使用依存句法算法进行分析的过程与现有的相同,此处不再赘述。例如,如图7所示,同样针对分词后得到的词汇“请问、腾讯、会议、中、是否、考虑、增加、手写板、功能”,进行句法分析后,得到如图7所示的句法关系。
S205、基于每两个具有句法关系的词汇间的句法关系,从搜索文本的各个词汇中选取主语、谓语以及宾语分别对应的词汇。
在得到每两个具有句法关系的句法关系后,再根据各个词汇间的句法关系和各个词汇的词性,则可以确定各个词汇在搜索文本中的所扮演的语法成分。由于,主语、谓语以及宾语通常为一句话的主干,即为一句话中的关键组成部分,一句话所表达的意思也通常包含在主语、谓语以及宾语中,因此本申请实施例中提取出主语、谓语以及宾语分别对应的词汇。需要说明的是,由于聊天会话相对随意,所以搜索文本中并不一定同时包含主语、谓语以及宾语三部分,但在提取词汇时会分别查找主语、谓语以及宾语对应的词汇,并提取查找到对应主语、谓语以及宾语中的任意一种的词汇。
可选地,在本申请另一实施例中,在执行步骤S205之后,还可以进一步执行:若选取出的主语对应的词汇中存在满足合并标准的词汇,则将满足并标准的词汇合并为一个词汇。
其中,合并标准为:主语对应的词汇有多个,且在搜索文本中的所处位置连续。
因为当多个词汇处于主语位置,且在搜索文本中的所处位置连续时,这几个词汇往往本身是一个完整的名称,只是在分词时被分为了多个词汇。如上述例子中的“腾讯、会议”两个词汇,应该合并为“腾讯会议”,若不进行合并,则提取出的词汇会区别于搜索文本原本所要表达的意思,进而给用户提供了不符合用户需求的关键词。
另外,由于搜索文本不一定是符合语法规则的完整通顺的句子,所以可能会存在一些无意义的谓语,其对于后续搜索并没有任何作用,所以可以选择去除。因此,在本申请另一实施例中,在执行步骤S205之后,还可以进一步包括:将谓语对应的词汇与预先设置的目标谓语词进行对比。若对比出与目标谓语词相匹配的谓语对应的词汇,则将与目标谓语词相匹配的谓语对应的词汇剔除。其中,目标谓语词指代预先设置的无意义谓语词,如:“有,知道,去,玩”等。例如,针对搜索文本“北京有景点”,其中的谓语“有”显然没有意义,提取出的“北京”和“景点”显然已能满足用户的后续搜寻需求,因此将其剔除。
S206、利用主语、谓语以及宾语分别对应的词汇,生成关键词集合。
其中,关键词集合包括:主语、谓语和宾语分别对应的词汇、以及由所述主语、谓语和宾语分别对应的词汇组成的句子,即关键词集合中,不仅包含提取到的每一个词汇,还包括有这些词汇组成的完成的句子,即由主语、谓语和宾语共同正好组成的完整的句子。例如,针对搜索文本“请问腾讯会议中是否要考虑增加手写板功能呢?”,对这一搜索文本进行分词可以得到:请问、腾讯、会议、中、是否、考虑、增加、手写板、功能。同样参见图6所示中的句法关系,得到的主语对应的词汇为:腾讯会议,谓语对应的词汇为:增加,宾语对应的词汇为:手写板,而主语、谓语和宾语分别对应的词汇正好可组成句子“腾讯会议增加手写板”,因此生成的关键词集合为:腾讯会议、增加、手写板、腾讯会议增加手写板。
显然,所组成的句子,相当于搜索文本精简后的文本。用户选择搜索文本进行搜索后,所得到搜索结果不够准确或不满足等情况时,用户在后续的搜索中,会希望进一步进行搜索,若是选择反馈的词汇进行搜索,则得到的搜索结果的往往得到搜索结果与原本用户希望搜索的信息相差较大,从而得到不期望的结果。而关键词集合中句子,相比词汇包含的内容更多,而相比搜索文本则又更加精简,因此相比于各个词汇,能很好的满足了用户进一步搜索的需求。
需要说明的是,由于聊天会话相对随意,所以搜索文本中并不一定同时包含主语、谓语以及宾语三部分,因此并不一定能组成一个完整的句子,所以关键词集合中并不一定包含有选取的各个词汇所组成的句子。
可选地,为了能向用于提供给符合用户的搜索习惯的关键词集合,本申请另一实施例中,在执行步骤S206得到关键词集合之后,还可以进一步包括:调取用户的历史搜索记录,然后利用历史搜索记录,确定关键词集合中的各个词汇的历史搜索次数,并将历史搜索次数小于预设次数的词汇,从关键词集合中剔除。在剔除用户搜索次数较少的词汇后,才将关键词集合中的各个词汇和句子反馈给用户,供用户选择进行后续的信息搜索。
本申请实施例提供的一种关键词的方法,通过获取搜索文本,并在确定搜索文本为问句类型时,对搜索文本的各个词汇进行词性分析,得到每个词汇的词性,从而可以基于每个词汇的词性,利用依存句法算法对各个词汇进行句法分析,得到每两个具有句法关系的词汇间的句法关系,最后基于每两个具有句法关系的所述词汇间的句法关系,从搜索文本的各个词汇中选取主语、谓语以及宾语分别对应的词汇,并利用主语、谓语以及宾语分别对应的词汇,生成包括选取的每个词汇和选取的各个词汇组成的句子的关键词集合。从而,针对问句不再是利用实体词典提取关键词,使得关键词的提取更加的灵活,更好的适用于问句,进而能准确地从问句中提取出符合用户需求的关键词。
本申请另一实施例提供了一种关键词的提取装置,如图8所示,包括一下单元:
第一获取单元801,用于获取搜索文本。
判断单元,802,用于判断搜索文本是否为问句类型。
词性分析单元803,用于在搜索文本为问句类型时,对搜索文本的各个词汇进行词性分析,得到每个词汇的词性。
句法分析单元804,用于基于每个词汇的词性,利用依存句法算法对各个词汇进行句法分析,得到每两个具有句法关系的词汇间的句法关系。
提取单元805,用于基于每两个具有句法关系的词汇间的句法关系,从搜索文本的各个词汇中选取主语、谓语以及宾语分别对应的词汇。
生成单元806,用于利用主语、谓语以及宾语分别对应的词汇,生成关键词集合。
其中,关键词集合包括:选取的每个词汇、和/或选取的各个词汇组成的句子。
可选地,在本申请另一实施例提供的关键词的提取装置中,还可以包括以下单元:
第一分词单元,用于对搜索文本进行分词,得到搜索文本的各个词汇。
第一特征处理单元,用于分别对每个词汇进行特征处理,得到每个词汇的特征向量。
分类单元,用于调用预先训练好的卷积神经网络模型处理每个词汇的特征向量,确定搜索文本是否为问句类型。
可选地,在本申请另一实施例提供的关键词的提取装置中,还包括模型训练单元。其中,模型训练单元,如图9所示,包括以下单元:
第二获取单元901,用于获取多个问题标题以及多个新闻标题。
样本单元902,用于将各个问题标题以及各个新闻标题作为训练样本数据。
其中,各个问题标题作为正训练样本数据,各个新闻标题作为负训练样本数据。
第二分词单元903,用于分别对各个训练样本数据分词,得到各个训练样本数据对应的样本词汇。
第二特征处理单元904,用于分别对各个样本词汇进行特征处理,得到各个样本词汇的特征向量。
输入单元905,用于将训练样本数据对应的各个样本词汇的特征向量输入卷积神经网络模型,通过卷积神经网络模型进行计算,得到训练样本数据的分类结果。
参数调整单元906,用于在训练样本数据的分类结果与训练样本数据的标签的误差大于预设阈值时,对卷积神经网络模型进行调参,并返回执行将训练样本数据对应的各个样本词汇的特征向量输入卷积神经网络模型。
其中,正训练样本数据的标签为1,负训练样本数据的标签为0。
第一确定单元907,用于在训练样本数据的分类结果与训练样本数据的标签的误差不大于预设阈值时,确定完成对卷积神经网络模型的训练。
可选地,在本申请另一实施例提供的关键词的提取装置中,还可以包括:
合并单元,用于在选取出的主语对应的词汇中存在满足合并标准的词汇,则将满足并标准的词汇合并为一个词汇。
其中,合并标准为:主语对应的词汇有多个,且在搜索文本中的所处位置连续。
可选地,在本申请另一实施例提供的关键词的提取装置中,还可以进一步包括以下单元:
对比单元,用于将谓语对应的词汇与预先设置的目标谓语词进行对比。
第一剔除单元,用于将与目标谓语词相匹配的谓语对应的词汇剔除。
可选地,在本申请另一实施例提供的关键词的提取装置中,还可以进一步包括以下单元:
调取单元,用于调取用户的历史搜索记录。
第二确定单元,用于利用历史搜索记录,确定关键词集合中的各个词汇的历史搜索次数。
第二剔除单元,用于将历史搜索次数小于预设次数的词汇,从关键词集合中剔除。
需要说明的是,本申请上述实施例提供的各个单元的具体工作过程可相应地参考,上述方法实施例中的相应的单元的具体工作过程,此处不再赘述。
本申请第三方面提供了一种计算机存储介质,用于存储计算机程序,所述计算机程序被执行时,用于实现如上述任意一项所述的关键词的提取方法。
计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请另一实施例提供了一种电子设备,如图10所示,包括:
存储器1001和处理器1002。
其中,存储器1001用于存储程序,处理器1002用于执行存储器1001存储的程序,且该程序被执行时,具体用于实现如上述任意一个实施例提供的关键词的提取方法。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种关键词的提取方法,其特征在于,包括:
获取搜索文本;
判断所述搜索文本是否为问句类型;
若判断出所述搜索文本为问句类型,则对所述搜索文本的各个词汇进行词性分析,得到每个所述词汇的词性;
利用依存句法算法对各个所述词汇进行句法分析,得到每两个具有句法关系的所述词汇间的句法关系;
基于每两个具有句法关系的所述词汇间的句法关系,从所述搜索文本的各个词汇中选取主语、谓语和宾语分别对应的词汇;
利用所述主语、谓语和宾语分别对应的词汇,生成关键词集合;其中,所述关键词集合包括:所述主语、谓语和宾语分别对应的词汇、以及由所述主语、谓语和宾语分别对应的词汇组成的句子。
2.根据权利要求1所述的方法,其特征在于,所述判断所述搜索文本是否为问句类型,包括:
对所述搜索文本进行分词,得到所述搜索文本的各个词汇;
分别对每个所述词汇进行特征处理,得到每个所述词汇的特征向量;
调用预先训练好的卷积神经网络模型处理每个所述词汇的特征向量,确定所述搜索文本是否为问句类型。
3.根据权利要求2所述的方法,其特征在于,所述卷积神经网络模型的训练方法,包括:
获取多个问题标题以及多个新闻标题;
将各个所述问题标题以及各个所述新闻标题作为训练样本数据;其中,各个所述问题标题作为正训练样本数据,各个所述新闻标题作为负训练样本数据;
分别对各个所述训练样本数据分词,得到各个所述训练样本数据对应的样本词汇;
分别对各个所述样本词汇进行特征处理,得到各个所述样本词汇的特征向量;
将所述训练样本数据对应的各个所述样本词汇的特征向量输入卷积神经网络模型,通过所述卷积神经网络模型进行计算,得到所述训练样本数据的分类结果;
若所述训练样本数据的分类结果与所述训练样本数据的标签的误差大于预设阈值,则对所述卷积神经网络模型进行调参,返回执行所述将所述训练样本数据对应的各个所述样本词汇的特征向量输入卷积神经网络模型;其中,正训练样本数据的标签为1,所述负训练样本数据的标签为0;
若所述训练样本数据的分类结果与所述训练样本数据的标签的误差不大于预设阈值,则确定完成对所述卷积神经网络模型的训练。
4.根据权利要求1所述的方法,其特征在于,所述从所述搜索文本的各个词汇中选取主语、谓语和宾语分别对应的词汇之后,还包括:
若选取出的主语对应的词汇中存在满足合并标准的词汇,则将满足并标准的词汇合并为一个词汇;其中,所述合并标准为:主语对应的词汇有多个,且在所述搜索文本中的所处位置连续。
5.根据权利要求1所述的方法,其特征在于,所述从所述搜索文本的各个词汇中选取主语、谓语和宾语分别对应的词汇之后,还包括:
将谓语对应的词汇与预先设置的目标谓语词进行对比;
将与所述目标谓语词相匹配的谓语对应的词汇剔除。
6.根据权利要求1所述的方法,其特征在于,所述利用所述主语、谓语和宾语分别对应的词汇,生成关键词集合之后,还包括:
调取用户的历史搜索记录;
利用所述历史搜索记录,确定所述关键词集合中的各个所述词汇的历史搜索次数;
将历史搜索次数小于预设次数的词汇,从所述关键词集合中剔除。
7.一种关键词的提取装置,其特征在于,包括:
第一获取单元,用于获取搜索文本;
判断单元,用于判断所述搜索文本是否为问句类型;
词性分析单元,用于在所述搜索文本为问句类型时,对所述搜索文本的各个词汇进行词性分析,得到每个所述词汇的词性;
句法分析单元,用于利用依存句法算法对各个所述词汇进行句法分析,得到每两个具有句法关系的所述词汇间的句法关系;
提取单元,用于基于每两个具有句法关系的所述词汇间的句法关系,从所述搜索文本的各个词汇中选取主语、谓语和宾语分别对应的词汇;
生成单元,用于利用所述主语、谓语和宾语分别对应的词汇,生成关键词集合;其中,所述关键词集合包括:所述主语、谓语和宾语分别对应的词汇、以及由所述主语、谓语和宾语分别对应的词汇组成的句子。
8.根据权利要求7所述的装置,其特征在于,所述判断单元,包括:
第一分词单元,用于对所述搜索文本进行分词,得到所述搜索文本的各个词汇;
第一特征处理单元,用于分别对每个所述词汇进行特征处理,得到每个所述词汇的特征向量;
分类单元,用于调用预先训练好的卷积神经网络模型处理每个所述词汇的特征向量,确定所述搜索文本是否为问句类型。
9.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,用于实现如权利要求1至6任意一项所述的关键词的提取方法。
10.一种电子设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如权利要求1至6任意一项所述的关键词的提取方法。
CN202011342868.1A 2020-11-25 2020-11-25 关键词的提取方法及装置、电子设备、计算机存储介质 Pending CN113392305A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011342868.1A CN113392305A (zh) 2020-11-25 2020-11-25 关键词的提取方法及装置、电子设备、计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011342868.1A CN113392305A (zh) 2020-11-25 2020-11-25 关键词的提取方法及装置、电子设备、计算机存储介质

Publications (1)

Publication Number Publication Date
CN113392305A true CN113392305A (zh) 2021-09-14

Family

ID=77616590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011342868.1A Pending CN113392305A (zh) 2020-11-25 2020-11-25 关键词的提取方法及装置、电子设备、计算机存储介质

Country Status (1)

Country Link
CN (1) CN113392305A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186552A (zh) * 2021-12-13 2022-03-15 北京百度网讯科技有限公司 文本分析方法、装置、设备及计算机存储介质
CN114757187A (zh) * 2022-04-27 2022-07-15 海信电子科技(武汉)有限公司 一种智能设备及有效语义词提取方法
CN116361422A (zh) * 2023-06-02 2023-06-30 深圳得理科技有限公司 关键词提取方法、文本检索方法及相关设备
WO2024131633A1 (zh) * 2022-12-19 2024-06-27 华为技术有限公司 文本显示方法、电子设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186552A (zh) * 2021-12-13 2022-03-15 北京百度网讯科技有限公司 文本分析方法、装置、设备及计算机存储介质
CN114757187A (zh) * 2022-04-27 2022-07-15 海信电子科技(武汉)有限公司 一种智能设备及有效语义词提取方法
WO2024131633A1 (zh) * 2022-12-19 2024-06-27 华为技术有限公司 文本显示方法、电子设备及存储介质
CN116361422A (zh) * 2023-06-02 2023-06-30 深圳得理科技有限公司 关键词提取方法、文本检索方法及相关设备
CN116361422B (zh) * 2023-06-02 2023-09-19 深圳得理科技有限公司 关键词提取方法、文本检索方法及相关设备

Similar Documents

Publication Publication Date Title
US11531818B2 (en) Device and method for machine reading comprehension question and answer
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和***
US8073877B2 (en) Scalable semi-structured named entity detection
CN113392305A (zh) 关键词的提取方法及装置、电子设备、计算机存储介质
CN109460459B (zh) 一种基于日志学习的对话***自动优化方法
CN116775847A (zh) 一种基于知识图谱和大语言模型的问答方法和***
KR102088357B1 (ko) 기계독해기반 질의응답방법 및 기기
CN112487824B (zh) 客服语音情感识别方法、装置、设备及存储介质
JP2011118689A (ja) 検索方法及びシステム
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
CN113569011A (zh) 文本匹配模型的训练方法、装置、设备及存储介质
CN111090771A (zh) 歌曲搜索方法、装置及计算机存储介质
CN112347339A (zh) 一种搜索结果处理方法及装置
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN110727769A (zh) 语料库生成方法及装置、人机交互处理方法及装置
CN109992651B (zh) 一种问题目标特征自动识别和抽取方法
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
KR20200136636A (ko) 형태소 기반 ai 챗봇 및 그의 문장의도 결정 방법
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN111046168A (zh) 用于生成专利概述信息的方法、装置、电子设备和介质
Karpagam et al. Deep learning approaches for answer selection in question answering system for conversation agents
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
CN114722267A (zh) 信息推送方法、装置及服务器
CN111209752A (zh) 一种基于辅助信息的中文抽取性集成无监督摘要的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40051761

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination