CN110795942A - 基于语义识别的关键词确定方法、装置和存储介质 - Google Patents

基于语义识别的关键词确定方法、装置和存储介质 Download PDF

Info

Publication number
CN110795942A
CN110795942A CN201910884362.4A CN201910884362A CN110795942A CN 110795942 A CN110795942 A CN 110795942A CN 201910884362 A CN201910884362 A CN 201910884362A CN 110795942 A CN110795942 A CN 110795942A
Authority
CN
China
Prior art keywords
word
search
determining
preset
candidate index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910884362.4A
Other languages
English (en)
Other versions
CN110795942B (zh
Inventor
张师琲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910884362.4A priority Critical patent/CN110795942B/zh
Priority to PCT/CN2019/117577 priority patent/WO2021051557A1/zh
Publication of CN110795942A publication Critical patent/CN110795942A/zh
Application granted granted Critical
Publication of CN110795942B publication Critical patent/CN110795942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义识别的关键词确定方法、装置和存储介质,方法包括如下步骤:获取用户输入的检索语句,对检索语句进行分词,并提取分词后各个词语的特征向量;将特征向量输入至训练完成的多类感知器中,得到对应的字标注结果,并根据字标注结果得到对应的检索词;将检索词输入至预设指标库中进行查询,得到对应的候选指标项;根据候选指标项确定检索词在预设指标库中的逆向文件频率;将逆向文件频率、检索词和候选指标项输入至预设相似度算法中,确定候选指标项与对应的检索词的相似度数值,并根据相似度数值确定关键词。本发明通过上述方式,使得对于关键词的确定符合检索语句整体的语义,进而准确定义关键词。

Description

基于语义识别的关键词确定方法、装置和存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于语义识别的关键词确定方法、装置和存储介质。
背景技术
随着网络信息的膨胀和网络用户的增长,人们对获取网络信息的及时性以及准确性提出了更高的要求,为此一些搜索软件和搜索引擎应运而生。目前,主流的关键词确定方法为提取用户输入的语句中的关键词,使用关键词匹配的技术从数据库中提取匹配度最高的数据作为搜索结果反馈给用户。
然而,上述搜索方式对于关键词的定义存在一定缺陷,如若关键词为字形相近的词语或多义词,则无法准确的定义关键词,从而导致搜索结果的偏差。
发明内容
本发明的主要目的在于提供了一种基于语义识别的关键词确定方法、装置和存储介质,旨在现有的关键词确定方法无法准确定义关键词而导致准确率过低的技术问题。
为实现上述目的,本发明提供了一种基于语义识别的关键词确定方法,包括以下步骤:
获取用户输入的检索语句,对所述检索语句进行分词,并提取分词后各个词语的特征向量;
将所述特征向量输入至训练完成的多类感知器中,得到对应的字标注结果,并根据所述字标注结果得到对应的检索词;
将所述检索词输入至预设指标库中进行查询,得到对应的候选指标项;
根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率;
将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中,确定所述候选指标项与对应的所述检索词的相似度数值,并根据所述相似度数值确定关键词。
可选地,所述多类感知器包括多个训练语句,所述提取分词后各个词语的特征向量的步骤之后,还包括:
将所述训练语句输入至预设特征模块中,以提取出所述训练语句的训练特征向量;
将所述训练语句的训练特征向量作为所述多类感知器的训练样本,以得到训练完成的多类感知器。
可选地,所述将所述特征向量输入至训练完成的多类感知器中,得到对应的字标注结果的步骤包括:
将所述特征向量输入至训练完成的多类感知器中,得到每个特征向量对应的标注位置;
在每个特征向量对应的标注位置上,使用预设构词位置信息对各个特征向量进行标注,得到对应的字标注结果。
可选地,所述根据所述字标注结果得到对应的检索词的步骤包括:
根据所述构词位置信息对所述检索语句进行分词,得到对应的检索词集合;
将所述检索词集合输入至预设词性标注算法中,确定检索词集合中各个词语的词性,并将词性为预设检索词性的词语确定为检索词。
可选地,所述指标库中存储有多个指标项和对应的核心词,所述将所述检索词输入至预设指标库中进行查询,得到对应的候选指标项的步骤包括:
将所述检索词输入至预设指标库中,确定所述指标库中与所述检索词对应的核心词;
将所述指标库中与所述核心词对应的指标项作为所述候选指标项。
可选地,所述根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率的步骤包括:
确定所述候选指标项的数目以及预设指标库中所有指标项的数目;
将所述候选指标项的数目除以所有指标项的数目,并将得到的商取对数,以得到与检索词对应的逆向文件频率。
可选地,所述将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中,得到对应的相似度数值的步骤包括:
确定候选指标项中所包含的检索词的数目,并将所述数目作为检索词个数;
根据所述检索词个数以及所述逆向文件频率计算得到候选指标项的相似度数值。
可选地,所述根据所述相似度数值确定关键词的步骤包括:
确定各个候选指标项的相似度数值,并将相似度数值最高的候选指标项确定为关键词。
此外,为实现上述目的,本发明还提供一种装置,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于语义识别的关键词确定程序,所述基于语义识别的关键词确定程序被所述处理器执行时实现如上所述基于语义识别的关键词确定方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于语义识别的关键词确定程序,所述基于语义识别的关键词确定程序被处理器执行时实现如上所述基于语义识别的关键词确定方法的步骤。
本发明公开了一种基于语义识别的关键词确定方法、装置和存储介质,所述方法先是获取用户输入的检索语句,对检索语句进行分词,并提取分词后各个词语的特征向量;将特征向量输入至训练完成的多类感知器中,得到对应的字标注结果,并根据字标注结果得到对应的检索词;将检索词输入至预设指标库中进行查询,得到对应的候选指标项;根据候选指标项确定检索词在预设指标库中的逆向文件频率;将逆向文件频率、检索词和候选指标项输入至预设相似度算法中,确定候选指标项与对应的检索词的相似度数值,并根据相似度数值确定关键词。使用基于多类感知器的字标注方法对检索语句进行精确的分词,再通过预设指标库确定与分词对应的候选指标项,最后通过计算得到的逆向文件频率结合和预设相似度算法,确定各个候选指标项的相似度,并以此确定关键词,从而使得对于关键词的确定符合检索语句整体的语义,进而准确定义关键词,提高搜索结果的准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图;
图2为本发明基于语义识别的关键词确定方法一实施例的流程示意图;
图3为本发明基于语义识别的关键词确定方法另一实施例的流程示意图;
图4为本发明所述将所述检索词输入至预设指标库中进行查询,得到对应的候选指标项的步骤细化流程示意图;
图5为本发明所述根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率的步骤细化流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明终端是一种装置,该装置可以是一种手机、电脑、移动电脑等具有存储功能的终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、Wi-Fi模块等等,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要包括输入单元比如键盘,键盘包括无线键盘和有线键盘,用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的基于语义识别的关键词确定程序,并执行以下操作:
获取用户输入的检索语句,对所述检索语句进行分词,并提取分词后各个词语的特征向量;
将所述特征向量输入至训练完成的多类感知器中,得到对应的字标注结果,并根据所述字标注结果得到对应的检索词;
将所述检索词输入至预设指标库中进行查询,得到对应的候选指标项;
根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率;
将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中,确定所述候选指标项与对应的所述检索词的相似度数值,并根据所述相似度数值确定关键词。
进一步地,处理器1001可以调用存储器1005中存储的基于语义识别的关键词确定程序,还执行以下操作:
将所述训练语句输入至预设特征模块中,以提取出所述训练语句的训练特征向量;
将所述训练语句的训练特征向量作为所述多类感知器的训练样本,以得到训练完成的多类感知器。
进一步地,处理器1001可以调用存储器1005中存储的基于语义识别的关键词确定程序,还执行以下操作:
将所述特征向量输入至训练完成的多类感知器中,得到每个特征向量对应的标注位置;
在每个特征向量对应的标注位置上,使用预设构词位置信息对各个特征向量进行标注,得到对应的字标注结果。
进一步地,处理器1001可以调用存储器1005中存储的基于语义识别的关键词确定程序,还执行以下操作:
根据所述构词位置信息对所述检索语句进行分词,得到对应的检索词集合;
将所述检索词集合输入至预设词性标注算法中,确定检索词集合中各个词语的词性,并将词性为预设检索词性的词语确定为检索词。
进一步地,处理器1001可以调用存储器1005中存储的基于语义识别的关键词确定程序,还执行以下操作:
将所述检索词输入至预设指标库中,确定所述指标库中与所述检索词对应的核心词;
将所述指标库中与所述核心词对应的指标项作为所述候选指标项。
进一步地,处理器1001可以调用存储器1005中存储的基于语义识别的关键词确定程序,还执行以下操作:
确定所述候选指标项的数目以及预设指标库中所有指标项的数目;
将所述候选指标项的数目除以所有指标项的数目,并将得到的商取对数,以得到与检索词对应的逆向文件频率。
进一步地,处理器1001可以调用存储器1005中存储的基于语义识别的关键词确定程序,还执行以下操作:
确定候选指标项中所包含的检索词的数目,并将所述数目作为检索词个数;
根据所述检索词个数以及所述逆向文件频率计算得到候选指标项的相似度数值。
进一步地,处理器1001可以调用存储器1005中存储的基于语义识别的关键词确定程序,还执行以下操作:
确定各个候选指标项的相似度数值,并将相似度数值最高的候选指标项确定为关键词。
本装置的具体实施例与下述基于语义识别的关键词确定方法各实施例基本相同,在此不作赘述。
请参阅图2,图2为本发明基于语义识别的关键词确定方法一实施例的流程示意图,本实施例提供的基于语义识别的关键词确定方法包括如下步骤:
步骤S10,获取用户输入的检索语句,对所述检索语句进行分词,并提取分词后各个词语的特征向量;
本实施例中,先获取用户输入的检索语句,容易理解的是,可以将用户在检索界面上输入的语句作为检索语句,也可以通过对用户录入的声音进行语音识别得到对应的检索语句,也可以采用其他方式获取用户输入的检索语句,本实施例在此不具体限制。
可选的,获取到用户输入的检索语句后,可以使用NLP算法对检索语句进行分词,也可以使用特征模板提取算法对所述检索语句分词,并构建与分词后各个词语对应的特征向量。
步骤S20,将所述特征向量输入至训练完成的多类感知器中,得到对应的字标注结果,并根据所述字标注结果得到对应的检索词;
本实施例中,还预先设置有多个不同种类的感知器,在得到检索语句对应的特征向量后,将所述特征向量输入至多类感知器中,由于每个感知器只将一类目标视为正例,而将其余目标视为负例,因此可以先对多类感知器的样本数据进行训练。将所述特征向量输入至训练完成的多类感知器中,得到对应的字标注结果,并根据所述字标注结果得到对应的检索词。容易理解的是,上述字标注结果是指在检索语句中每个字所在的位置进行的标注。
步骤S30,将所述检索词输入至预设指标库中进行查询,得到对应的候选指标项;
本实施例中还预先设置有指标库,所述指标库中存储有检索词和候选指标项的映射关系,将所述检索词输入到预设指标库中,得到与所述检索词对应的候选指标项。
步骤S40,根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率;
所述逆向文件频率能反映得到的候选指标项在整个检索过程中词性的重要程度,因此在得到候选指标项后,根据预设指标库中所有指标项的数目得到与所述候选指标项对应的逆向文件频率,以确定所述检索词的重要性。
步骤S50,将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中,确定所述候选指标项与对应的所述检索词的相似度数值,并根据所述相似度数值确定关键词。
本实施例中,还预设有相似度算法,根据所述逆向文件频率、所述检索词和所述候选指标项,计算得到各个候选指标项的相似度数值,可选的,将相似度数值最高的候选指标项确定为关键词。
本发明公开了一种基于语义识别的关键词确定方法、装置和存储介质,所述方法先是获取用户输入的检索语句,对检索语句进行分词,并提取分词后各个词语的特征向量;将特征向量输入至训练完成的多类感知器中,得到对应的字标注结果,并根据字标注结果得到对应的检索词;将检索词输入至预设指标库中进行查询,得到对应的候选指标项;根据候选指标项确定检索词在预设指标库中的逆向文件频率;将逆向文件频率、检索词和候选指标项输入至预设相似度算法中,确定候选指标项与对应的检索词的相似度数值,并根据相似度数值确定关键词。使用基于多类感知器的字标注方法对检索语句进行精确的分词,再通过预设指标库确定与分词对应的候选指标项,最后通过计算得到的逆向文件频率结合和预设相似度算法,确定各个候选指标项的相似度,并以此确定关键词,从而使得对于关键词的确定符合检索语句整体的语义,进而准确定义关键词,提高搜索结果的准确率。
进一步的,所述多类感知器包括多个训练语句,所述步骤S10提取分词后各个词语的特征向量之后,还包括:
步骤S60,将所述训练语句输入至预设特征模块中,以提取出所述训练语句的训练特征向量;
基于上述实施例,在得到检索语句中各个词语的特征向量后,为了确定各个检索词的字标注结果,需要对多类感知器进行训练。容易理解的是,感知器包括有对应的训练样本,一般的,所述训练样本都以训练语句的形式出现,将感知器的训练语句输入到预设特征模板中,提取出对应的训练特征向量。应当理解的是,如若上述词语的特征向量是根据特征模板得到的,则训练感知器的特征模板的种类,应当与获取词语特征向量的特征模板的种类相同。
步骤S70,将所述训练语句的训练特征向量作为所述多类感知器的训练样本,以得到训练完成的多类感知器。
得到训练语句的训练特征向量后,将所述训练特征向量替代训练语句作为感知器新的训练样本,则得到训练完成的多类感知器,通过训练完成的多类感知器得到检索语句的字标注结果,从而精准的确定检索语句中关键词。
进一步的,所述将所述特征向量输入至训练完成的多类感知器中,得到对应的字标注结果的步骤包括:
步骤S21,将所述特征向量输入至训练完成的多类感知器中,得到每个特征向量对应的标注位置;
本实施例中,先得到特征向量的标注位置,在特征向量的标注位置上进行标注,以得到特征向量的字标注结果。
一般而言,特征向量中每个字的标注位置的数目与构词位置信息对应,例如,预设构词位置信息为4个,即词首位置信息、词中位置信息、词尾位置信息以及单词位置信息,则特征向量中每个字对应有4个标注位置。
步骤S22,在每个特征向量对应的标注位置上,使用预设构词位置信息对各个特征向量进行标注,得到对应的字标注结果。
如上所述,假设构词位置信息为,词首位置信息、词中位置信息、词尾位置信息以及单词位置信息,应当理解都是,本实施例中的构词位置信息也可以包括其他能对特征向量进行标注的构词位置信息,本实施例在此不做限制。在得到特征向量的标注位置后,使用词首位置信息、词中位置信息、词尾位置信息以及单词位置信息在标注位置对特征向量进行标注,以得到检索语句的字标注结果,进一步的,为了更详尽的阐述本实施例,以下具体举例:
将词首位置信息设置为A,词中位置信息设置为M,词尾位置信息设置为E,单词位置信息设置为I,检索语句为:本季度固定资产投资完成额是多少。则通过多类感知器得到的字标注结果为:本/I季/A度/E固/A定/M资/M产/E投/A资/E完/A成/M额/E是/I多/A少/E。
本实施例通过上述方式,得到检索语句对应的字标注结果,通过多类感知分类器对分词后词语的词性进行了初步的划分,较比传统的分词技术,进一步的体现了词语在语句中的上下文语义,因此对于词语的划分更为精准。
进一步的,所述根据所述字标注结果得到对应的检索词的步骤包括:
步骤23,根据所述构词位置信息对所述检索语句进行分词,得到对应的检索词集合;
根据构词位置信息以及字标注结果对检索语句进行分词,得到所述检索语句分词后的多个不同词语,并将所述多个分词后得到的词语作为检索词集合。
为了进一步详尽的阐述本实施例,以构词位置信息为词首位置信息A、词中位置信息M、词尾位置信息E以及单词位置信息I,检索语句为:本季度固定资产投资完成额是多少,为例。通过多类感知器后,得到的与检索语句对应的字标注结果为:本/I季/A度/E固/A定/M资/M产/E投/A资/E完/A成/M额/E是/I多/A少/E。则可以将其中标注为{I}的词作为检索词,将标注为{AE}或{AME}或{AM...ME}的两字、三字或若干字作为一个检索词。那么,上述检索语句对应的检索词集合为:本,季度,固定资产,投资完成额,是,多少。作为另外一种实施方式,为了减少计算量,可以将标注为{I}的词不纳入检索词集合。
步骤S24,将所述检索词集合输入至预设词性标注算法中,确定检索词集合中各个词语的词性,并将词性为预设检索词性的词语确定为检索词。
检索语句一般是完整的一句话,包含了很多词性不同的词,其中,某些关键词性的词语往往代表了一句话的主要含义,例如名词、形容词,这些词性的词语很可能就是检索词。因此,在本提案中,需要对检索词集合中的词语进行词性分析,获得检索语句的关键词语,即检索词。
具体而言,本实施例中还预设有词性标注算法,当采用NLP算法对检索语句进行分词时,可以采用NLP算法中的词性标注确定各个词语的词性;当然,也可以使用CLAWS(Contituent-Likelihood Automatic Word-tagging System成分似然性自动词性标注***)算法,或VOLSUNGA算法,来实现对于检索词集合中各个词语词性的确定,上述CLAWS算法和VOLSUNGA算法都是基于统计的词性标注算法,根据同现概率来标注词性。也可以采用一些基于规则的算法确定词语的词性,即利用事先制定好的规则对具有多个词性的词进行消歧,最后保留一个正确的词性。容易理解都是,本实施例并不限制具体的词性标注算法。
本实施例通过上述方式,根据字标注结果进行精准的分词,并分析词语的词性,以此确定关键词,从而去除掉检索语句中的语气助词等词性的词语,避免其对最后关键词的确定结果产生影响。
进一步的,所述指标库中存储有多个指标项和对应的核心词,所述将所述检索词输入至预设指标库中进行查询,得到对应的候选指标项的步骤包括:
步骤S31,将所述检索词输入至预设指标库中,确定所述指标库中与所述检索词对应的核心词;
本实施例中,预先设置有指标库,所述指标库中存储有指标项和对应的核心词,应当理解都是,所述指标项与核心词并不是一一对应关系,多个指标项可能对应有相同的核心词,所述核心词可以为各指标项中直接提取的词语,也可以为用户制定的各指标项对应的词语,例如,指标项为“固定资产投资完成额”对应的核心词为“投资完成额”。
步骤S32,将所述指标库中与所述核心词对应的指标项作为所述候选指标项。
确定与检索词对应的核心词后,将预设指标库中与所述核心词对应的指标项,并将所述指标项作为所述候选指标项,容易理解都是,由于指标库中的核心词可能对应有多个指标项,因此候选指标项的数目也可以为多个。
本实施例通过上述方式,确定与检索词对应的候选指标项,避免直接利用多个检索词确定检索语句的关键词,从而减少关键词确定过程中的计算量。
进一步的,所述根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率的步骤包括:
步骤S41,确定所述候选指标项的数目以及预设指标库中所有指标项的数目;
得到候选指标项后,进行检索语句中关键词的确定,候选指标项与检索语句的相似程度,由候选指标项所包含的检索词个数以及所包含的检索词的重要性共同决定,其中,候选指标项所包含的检索词个数与逆向文件频率有关。为了得到候选指标项与检索语句所对应的逆向文件频率,先确定候选指标项的数目以及预设指标库中所有指标项的数目。
步骤S42,将所述候选指标项的数目除以所有指标项的数目,并将得到的商取对数,以得到与检索词对应的逆向文件频率。
逆向文件频率能体现候选指标项的区分度,当候选指标项的区分度越高时,则所述候选指标项的重要性也就越高,越有可能确定为关键词。在预设指标库的多个指标项中,如若与该检索词对应的指标项的数目越少,则该指标项越重要。因此,逆向文件频率可以由指标项集合中包含的总指标项数目除以该指标项集合中包含该检索词的指标项数目,再将得到的商取对数得到。
本实施例通过上述方式,确定候选指标项对应的逆向文件频率,从而确定检索词对应的重要性,进而确定各个候选指标项的相似度。
进一步的,所述将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中,得到对应的相似度数值的步骤包括:
步骤S51,确定候选指标项中所包含的检索词的数目,并将所述数目作为检索词个数;
在本实施例中,统计各个候选指标项与检索词匹配的数目,当候选指标项中与检索词匹配的数目越多,则候选指标项对应的相似度也就越高。为达到上述目的,确定候选指标项中所包含的检索词的数目,并将所述数目作为检索词个数。
例如,对于候选指标项“全社会固定资产投资完成额”,“固定资产投资完成额”与检索词“全社会”,“固定资产”“投资完成额”,其中候选指标项“全社会固定资产投资完成额”包含有检索词“全社会”,“固定资产”“投资完成额”;而候选指标项“固定资产投资完成额”只包含有检索词“固定资产”“投资完成额”,因此候选指标项“全社会固定资产投资完成额”所包含的检索词个数多于候选指标项“固定资产投资完成额”。
步骤S52,根据所述检索词个数以及所述逆向文件频率计算得到候选指标项的相似度数值。
根据各个候选指标项的检索词个数以及逆向文件频率,得到候选指标项的相似度数值,可选的,可以使用TF-IDF算法来计算各个候选指标项的相似度,TF-IDF算法它具体的工作方式为,基于上下文的语义综合判断出信息含量较高的词语,提高信息含量较高的词语的比重系数,降低重复因子的比重系数,进而加强词汇本身的信息熵的含量。
本实施例根据各个候选指标项所包含的检索词个数以及逆向文件频率,确定各个候选指标项的相似度数值,相比于传统的关键词匹配方法,本实施例通过检索词个数以及逆向文件频率两个指标来确定候选指标项的相似度,保证关键词确定的结果更为准确。
进一步的,所述根据所述相似度数值确定关键词的步骤包括:
步骤S53,确定各个候选指标项的相似度数值,并将相似度数值最高的候选指标项确定为关键词
在得到各个候选指标项的相似度数值后,将相似度数值最高的候选指标项作为关键词,以此完成检索语句中关键词的确认。特别的,当存在2个或2个以上的候选指标项的相似度数值相同时,可以同时将其作为检索语句的关键词。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于语义识别的关键词确定程序,所述基于语义识别的关键词确定程序被处理器执行时实现如上所述基于语义识别的关键词确定方法的操作。
本发明计算机可读存储介质的具体实施例与上述基于语义识别的关键词确定方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于语义识别的关键词确定方法,其特征在于,包括以下步骤:
获取用户输入的检索语句,对所述检索语句进行分词,并提取分词后各个词语的特征向量;
将所述特征向量输入至训练完成的多类感知器中,得到对应的字标注结果,并根据所述字标注结果得到对应的检索词;
将所述检索词输入至预设指标库中进行查询,得到对应的候选指标项;
根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率;
将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中,确定所述候选指标项与对应的所述检索词的相似度数值,并根据所述相似度数值确定关键词。
2.如权利要求1所述的基于语义识别的关键词确定方法,其特征在于,所述多类感知器包括多个训练语句,所述提取分词后各个词语的特征向量的步骤之后,还包括:
将所述训练语句输入至预设特征模块中,以提取出所述训练语句的训练特征向量;
将所述训练语句的训练特征向量作为所述多类感知器的训练样本,以得到训练完成的多类感知器。
3.如权利要求1所述的基于语义识别的关键词确定方法,其特征在于,所述将所述特征向量输入至训练完成的多类感知器中,得到对应的字标注结果的步骤包括:
将所述特征向量输入至训练完成的多类感知器中,得到每个特征向量对应的标注位置;
在每个特征向量对应的标注位置上,使用预设构词位置信息对各个特征向量进行标注,得到对应的字标注结果。
4.如权利要求3所述的基于语义识别的关键词确定方法,其特征在于,所述根据所述字标注结果得到对应的检索词的步骤包括:
根据所述构词位置信息对所述检索语句进行分词,得到对应的检索词集合;
将所述检索词集合输入至预设词性标注算法中,确定检索词集合中各个词语的词性,并将词性为预设检索词性的词语确定为检索词。
5.如权利要求1所述的基于语义识别的关键词确定方法,其特征在于,所述指标库中存储有多个指标项和对应的核心词,所述将所述检索词输入至预设指标库中进行查询,得到对应的候选指标项的步骤包括:
将所述检索词输入至预设指标库中,确定所述指标库中与所述检索词对应的核心词;
将所述指标库中与所述核心词对应的指标项作为所述候选指标项。
6.如权利要求1所述的基于语义识别的关键词确定方法,其特征在于,所述根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率的步骤包括:
确定所述候选指标项的数目以及预设指标库中所有指标项的数目;
将所述候选指标项的数目除以所有指标项的数目,并将得到的商取对数,以得到与检索词对应的逆向文件频率。
7.如权利要求1所述的基于语义识别的关键词确定方法,其特征在于,所述将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中,得到对应的相似度数值的步骤包括:
确定候选指标项中所包含的检索词的数目,并将所述数目作为检索词个数;
根据所述检索词个数以及所述逆向文件频率计算得到候选指标项的相似度数值。
8.如权利要求7所述的基于语义识别的关键词确定方法,其特征在于,所述根据所述相似度数值确定关键词的步骤包括:
确定各个候选指标项的相似度数值,并将相似度数值最高的候选指标项确定为关键词。
9.一种装置,其特征在于,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于语义识别的关键词确定程序,所述基于语义识别的关键词确定程序配置为实现如权利要求1至8中任一项所述的基于语义识别的关键词确定方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于语义识别的关键词确定程序,所述基于语义识别的关键词确定程序被处理器执行时实现如权利要求1至8任一项所述的基于语义识别的关键词确定方法的步骤。
CN201910884362.4A 2019-09-18 2019-09-18 基于语义识别的关键词确定方法、装置和存储介质 Active CN110795942B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910884362.4A CN110795942B (zh) 2019-09-18 2019-09-18 基于语义识别的关键词确定方法、装置和存储介质
PCT/CN2019/117577 WO2021051557A1 (zh) 2019-09-18 2019-11-12 基于语义识别的关键词确定方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910884362.4A CN110795942B (zh) 2019-09-18 2019-09-18 基于语义识别的关键词确定方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN110795942A true CN110795942A (zh) 2020-02-14
CN110795942B CN110795942B (zh) 2022-10-14

Family

ID=69427313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910884362.4A Active CN110795942B (zh) 2019-09-18 2019-09-18 基于语义识别的关键词确定方法、装置和存储介质

Country Status (2)

Country Link
CN (1) CN110795942B (zh)
WO (1) WO2021051557A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753069A (zh) * 2020-06-09 2020-10-09 北京小米松果电子有限公司 语义检索方法、装置、设备及存储介质
CN114385890A (zh) * 2022-03-22 2022-04-22 深圳市世纪联想广告有限公司 互联网舆情监控***

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239697B (zh) * 2021-06-01 2023-03-24 平安科技(深圳)有限公司 实体识别模型训练方法、装置、计算机设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002849A1 (en) * 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及***
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107608960A (zh) * 2017-09-08 2018-01-19 北京奇艺世纪科技有限公司 一种命名实体链接的方法和装置
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109992978A (zh) * 2019-03-05 2019-07-09 腾讯科技(深圳)有限公司 信息的传输方法、装置及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9584343B2 (en) * 2008-01-03 2017-02-28 Yahoo! Inc. Presentation of organized personal and public data using communication mediums
CN104731797B (zh) * 2013-12-19 2018-09-18 北京新媒传信科技有限公司 一种提取关键词的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002849A1 (en) * 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及***
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107608960A (zh) * 2017-09-08 2018-01-19 北京奇艺世纪科技有限公司 一种命名实体链接的方法和装置
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109992978A (zh) * 2019-03-05 2019-07-09 腾讯科技(深圳)有限公司 信息的传输方法、装置及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753069A (zh) * 2020-06-09 2020-10-09 北京小米松果电子有限公司 语义检索方法、装置、设备及存储介质
CN111753069B (zh) * 2020-06-09 2024-05-07 北京小米松果电子有限公司 语义检索方法、装置、设备及存储介质
CN114385890A (zh) * 2022-03-22 2022-04-22 深圳市世纪联想广告有限公司 互联网舆情监控***
CN114385890B (zh) * 2022-03-22 2022-05-20 深圳市世纪联想广告有限公司 互联网舆情监控***

Also Published As

Publication number Publication date
WO2021051557A1 (zh) 2021-03-25
CN110795942B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN109933785B (zh) 用于实体关联的方法、装置、设备和介质
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
CN110019732B (zh) 一种智能问答方法以及相关装置
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN111198948A (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
CN108027814B (zh) 停用词识别方法与装置
CN108573707B (zh) 一种语音识别结果的处理方法、装置、设备及介质
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN110929498A (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN115526171A (zh) 一种意图识别方法、装置、设备及计算机可读存储介质
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN112487159B (zh) 检索方法、检索装置及计算机可读存储介质
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
CN116644183B (zh) 文本分类方法、装置及存储介质
CN114970554B (zh) 一种基于自然语言处理的文档校验方法
CN111782789A (zh) 智能问答方法与***
CN115563515A (zh) 文本相似性检测方法、装置、设备及存储介质
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN116992874B (zh) 一种文本引用审核溯源方法、***、装置和存储介质
CN113220824B (zh) 数据检索方法、装置、设备及存储介质
CN117577348B (zh) 一种循证医学证据的识别方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant