CN111400429B - 文本条目搜索方法、装置、***及存储介质 - Google Patents
文本条目搜索方法、装置、***及存储介质 Download PDFInfo
- Publication number
- CN111400429B CN111400429B CN202010160441.3A CN202010160441A CN111400429B CN 111400429 B CN111400429 B CN 111400429B CN 202010160441 A CN202010160441 A CN 202010160441A CN 111400429 B CN111400429 B CN 111400429B
- Authority
- CN
- China
- Prior art keywords
- text
- entity
- language
- identified
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及一种文本条目搜索方法、装置、***及存储介质,该方法包括:获取包含待识别实体的语言文本;利用统计语言模型从预构建的知识库中查询包含待识别实体的文字组集;根据文字组集生成索引向量;从预构建的数据库中查询与待识别实体对应的标识信息,并根据标识信息生成编码向量;根据索引向量、编码向量以及预设定的语言长度,构成知识识别特征;根据知识识别特征,以及从预构建的实体识别模型中提取的与语言文本对应的语言特征,获取意图槽位标签;根据意图槽位标签,搜索与包含待识别实体的语言文本对应的文本条目。通过该方法,提升了搜索与包含待识别实体的语言文本对应的文本条目的速率和准确率,大大提高了用户体验度。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文本条目搜索方法、装置、***及存储介质。
背景技术
现阶段,在大规模语料库上预训练的BERT(Bidirectional EncoderRepresentations from Transformers)等神经语言表示模型,可以很好地从纯文本中提取出丰富的语义模式,并且进行微调就可以提升下游各种神经语言程序学(Neuro-Linguistic Programming,简称NLP)任务的性能。然而,不论是哪种神经语言表示模型,对于新实体或者特定领域的实体都无法在短时间内进行识别。比如对19年新出的剧名《都挺好》《宸汐缘》等无法及时准确识别。通用语境下,“都挺好”一般都表示感受或者对某事物人的评价。当突然有部热剧叫“都挺好”,而用户的意图句子是“我想看都挺好”,原有模型未添加相应语料进行训练过,所以无法识别,进而也就无法搜索到与包含这些实体的语言文本对应的文本条目。而将这个实体从训练到更新上线也需要走一段流程,这段流程则需要花费很多时间,大大影响用户体验度。
发明内容
鉴于此,为解决现有技术中对于新的实体或者特殊领域内的实体无法及时识别,进而无法为用户搜索到与包含这些实体的语言文本对应的文本条目的技术问题,本发明实施例提供一种文本条目搜索方法、装置、***及存储介质。
第一方面,本发明实施例提供一种文本条目搜索方法,该方法包括:
获取包含待识别实体的语言文本;
利用统计语言模型从预构建的知识库中查询包含待识别实体的文字组集;
根据包含待识别实体的文字组集生成索引向量;
从预构建的数据库中查询与待识别实体对应的标识信息,并根据标识信息生成编码向量;
根据索引向量、编码向量以及预设定的语言长度,构成知识识别特征;
根据知识识别特征,以及从预构建的实体识别模型中提取的与语言文本对应的语言特征,获取意图槽位标签;
根据意图槽位标签,搜索与包含待识别实体的语言文本对应的文本条目。
在一个可能的实施方式中,利用统计语言模型从预构建的知识库中查询包含待识别实体的文字组集,具体包括:
利用统计语言模型,从预构建的知识库中查询与语言文本中每一个字分别对应的文字组集,文字组集包括预设数量的文字组合,每一个文字组合包括预设数量的文字和预设数量的符号;
识别每一个字分别对应的文字组集,当确定文本语言中第i个字对应的第i文字组集中,存在与待识别实体相匹配的文字组合时,确定第i文字组集为包含待识别实体的文字组集,其中,i为大于或者等于1,小于或者等于语言文本中文字总数的数值,i依次递进取值,初始取值为1。
在一个可能的实施方式中,文字组集中的所有文字组合按照预设形式进行排序,生成与包含待识别实体的文字组集对应的索引向量,具体包括:
将包含待识别实体的文字组集中,与待识别实体相匹配的文字组合对应的索引向量元素置为1,未与待识别实体相匹配的文字组合对应的索引向量元素置为0,其中,索引向量中各元素所在位置与文字组集中对应的文字组合所在位置相同。
在一个可能的实施方式中,根据知识识别特征,以及从预构建的实体识别模型中提取的与语言文本对应的语言特征,获取意图槽位标签,具体包括:
将知识识别特征输入至预构建的实体识别模型中,与语言特征进行融合后进行槽位分类,获取意图槽位标签。
第二方面,本发明实施例提供一种文本条目搜索装置,该装置包括:
获取单元,用于获取包含待识别实体的语言文本;
查询单元,用于利用统计语言模型从预构建的知识库中查询包含待识别实体的文字组集;
处理单元,用于根据包含待识别实体的文字组集生成索引向量;
查询单元还用于,从预构建的数据库中查询与待识别实体对应的标识信息;
处理单元还用于,根据标识信息生成编码向量;
根据索引向量、编码向量以及预设定的语言长度,构成知识识别特征;
根据知识识别特征,以及从预构建的实体识别模型中提取的与语言文本对应的语言特征,获取意图槽位标签;
搜索单元,用于根据意图槽位标签,搜索与包含待识别实体的语言文本对应的文本条目。
在一个可能的实施方式中,查询单元用于,利用统计语言模型,从预构建的知识库中查询与语言文本中每一个字分别对应的文字组集,文字组集包括预设数量的文字组合,每一个文字组合包括预设数量的文字和预设数量的符号;
识别每一个字分别对应的文字组集,当确定语言文本中第i个字对应的第i文字组集中,存在与待识别实体相匹配的文字组合时,确定第i文字组集为包含待识别实体的文字组集,其中,i为大于或者等于1,小于或者等于语言文本中文字总数的数值,i依次递进取值,初始取值为1。
在一个可能的实施方式中,文字组集中的所有文字组合按照预设形式进行排序,处理单元具体用于,将包含待识别实体的文字组集中,与待识别实体相匹配的文字组合对应的索引向量元素置为1,未与待识别实体相匹配的文字组合对应的索引向量元素置为0,其中,索引向量中各元素所在位置与文字组集中对应的文字组合所在位置相同。
在一个可能的实施方式中,处理单元具体用于,将知识识别特征输入至预构建的实体识别模型中,与语言文本对应的语言特征进行融合后,进行槽位分类,获取意图槽位标签。
第三方面,本发明实施例提供一种文本条目搜索***,该***包括:至少一个处理器和存储器;
处理器用于执行存储器中存储的文本条目搜索程序,以实现如第一方面任一实施方式所介绍的文本条目搜索方法。
第四方面,本发明实施例提供一种计算机存储介质,该计算机存储介质存储有一个或者多个程序,一个或者多个程序可被如第三方面所介绍的文本条目搜索***执行,以实现如第一方面任一实施方式所介绍的文本条目搜索方法。
本发明实施例提供的一种文本条目搜索方法,获取包含待识别实体的语言文本。利用统计语言模型从预构建的知识库中查询包含与待识别实体对应的文字组集。然后根据文字组集生成索引向量。从预构建的数据库中查询与待识别实体对应的标识信息,并根据标识信息生成编码向量。根据索引向量、编码向量以及预设定的语言长度,构成了知识识别特征。最终,根据知识识别特征和预构建的实体识别模型中提取的语言文本对应的语言特征,获取意图槽位标签。根据这个意图槽位标签,可以搜索到与包含待识别实体的语言文本对应的文本条目。由于知识识别特征是通过待识别实体对应的索引向量、编码向量等因素确定的,所以对待识别实体的特征识别将会加强,更加容易识别出待识别实体。即使待识别实体在某些新的领域或者特定领域有新的含义,也比较容易识别出。再与语言文本的语言特征相结合,更加容易确定语言文本对应的槽位标签。最终根据槽位标签,就可以搜索到与语言文本对应的文本条目。此过程中省去了对包含某一种实体的语料从训练到更新上线的流程,大大节省了时间,提升识别实体效率。进而也就提升了搜索与包含待识别实体的语言文本对应的文本条目的速率和准确率,大大提高了用户体验度。
附图说明
图1为本发明实施例提供的一种文本条目搜索方法流程示意图;
图2为本发明提供的一种查询待识别实体对应的标识信息的程序代码示意图;
图3为本发明提供的另一种查询待识别实体对应的标识信息的程序代码示意图;
图4为本发明实施例提供的一种文本条目搜索装置结构示意图;
图5为本发明实施例提供一种文本条目搜索***结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
图1为本发明实施例提供的一种文本条目搜索方法流程示意图,如图1所示,该方法包括:
步骤110,获取包含待识别实体的语言文本。
具体的,包含待识别实体的语言文本可以为用户主动输入的语言文本,也可以是类似语音识别设备采集到的语音文本,将其转换为文本格式的语言文本。或者是通过其他方式获取的语言文本。
语言文本中包括待识别实体。在本实施例中,由于普通实体完全可以通过现有技术识别,而本申请主要是着重识别新实体,或者某些特定领域的实体(但不代表本申请的方案不能够识别普通技术能够识别的实体,通过本实施例可以识别常规技术能够识别的实体、常规技术不能识别的新实体以及特定技术领域的实体)。因此,步骤110中所涉及的待识别实体一般指的是包含新实体或者是特定技术领域的实体。例如,语言文本为影视领域的实体。在一个具体的例子中,语言文本为“我想要看最新上映的都挺好”。在常规技术中,如果没有通过大量的语料对自然语言模型进行不断训练,自然语言识别模型可能将都挺好识别为表示感受或者对某事物或者人等的评价,而并非识别其为一部电视剧名。
在本实施例中,期望在省去通过大量的语料对自然语言模型进行训练的过程的前提下,能够快速识别出“都挺好”为一部剧名。进而当获取到上述语言文本“我想要看最新上映的都挺好”时,直接搜到该电视剧,供用户观看。
因此,需要执行如下步骤。
步骤120,利用统计语言模型从预构建的知识库中查询包含待识别实体的文字组集。
具体的,预构建的知识库可以是一种包含大量实体的语言知识库。语言知识库的构建可以与需要进行识别的语言文本相适配。例如,语言文本中包括的待识别实体为影视剧名,那么语言知识库中可以包含大量的影视剧名等实体,当然也包含其他文字或者字符等。
可选的,在执行步骤120时,可以通过如下环节实现:
利用统计语言模型,从预构建的知识库中查询与语言文本中每一个字分别对应的文字组集,文字组集包括预设数量的文字组合,每一个文字组合包括预设数量的文字和预设数量的符号;
识别每一个字分别对应的文字组集,当确定语言文本中第i个字对应的第i文字组集中,存在与待识别实体相匹配的文字组合时,确定第i文字组集为包含待识别实体的文字组集。其中,i为大于或者等于1,小于或者等于语言文本中文字总数的数值,i依次递进取值,初始取值为1。
进一步可选的,统计语言模型可以是N-gram模型。
以上述的语言文本“我想要看最新上映的都挺好”为例,获取n-gram词段的编码为:
遍历上述语言文本中的每一个字,分别获取到与每一个字对应的文字组集。例如从左到右,遍历每一个字。那么,当i等于1时,遍历的字则是语言文本中的“我”字。i等于2,遍历的字则是语言文本中的“想”字。在具体执行过程中,以i等于10为例说明,当i等于10时,遍历的是语言文本中的“都”字,按照上述获取n-gram词段的编码方式获取的文字组集如下:
其中,从预构建的知识库中查询到与语言文本中的“都”字对应的文字组集包括8个文字组合,每一个文字组合中包括预设数量的文字和预设数量的符号。例如,2-gram中,文字数量为2,符号数量为零。3-gram中包括的文字数量为3,符号数量为零。而具体文字数量和符号数量都是根据实际情况设定的,比如5-gram中,第一组文字组合的文字数量为5,第二组文字组合中,文字数量则为3,后面有两个空格代替。
其原因在于,以“都”字为基准,向左数5个字,语言文本中,能够包括5个字。而以“都”字为基准,向右数5个字,语言文本中仅包括3个字,因此后面两个则用空格代替。
很明显,上文中包含实体“都挺好”仅仅是3-gram中的第二个文字组合。也即是,识别“都”字对应的文字组集时,确定“都”字对应的文字组集中,存在与待识别实体相匹配的文字组合,那么,确定“都”字对应的文字组集,为包含待识别实体对应的文字组集。
步骤130,根据包含待识别实体的文字组集生成索引向量。
具体的,文字组集中的所有文字组合都是按照预设形式进行排序的,例如步骤120中“都”字对应的文字组集,是按照N-gram的排序方式,而且N-gram排序方式中又默认以某一个字为基准,对应向左数N个字的文字组合为在先,向右数N个字的文字组合在后。
另外,索引向量中的元素数值可以按照如下方式确定:将包含待识别实体的文字组集中,与待识别实体相匹配的文字组合对应的索引向量元素置为1,未与待识别实体相匹配的文字组合对应的索引向量元素置为0。其中,索引向量中各元素所在位置与文字组集中对应的文字组合所在位置相同。因此,上文所介绍的“都”字对应的文字组集的索引向量则为(0,0,0,1,0,0,0,0)。
还需要说明的是,由步骤120可知,语言文本中每一个字都会包含一个与之对应的文字组集。实际上,也会生成与文字组集对应的索引向量。只不过是,由于其他文字组集中不包含待识别实体,因此,其对应的索引向量中元素均为零。这些并非后续需要,所以这里不再过多介绍。
步骤140,从预构建的数据库中查询与待识别实体对应的标识信息,并根据标识信息生成编码向量。
具体的,数据库可以是任何可以通过合法方式进行查询的数据库。例如,在本实施例中,主要包括爱奇艺旗下的奇谱数据库和百度百科数据库。
将上文获取的实体“都挺好”在奇谱数据库和百度百科数据库中进行查询。例如,在奇谱数据库中进行查询时,使用热度值(qipuhotScore)和播放次数(qpPlayindex)进行筛选查询,具体参见图2所示,图2为本发明提供的一种查询待识别实体对应的标识信息的程序代码示意图。最终查询结果按播放量降序排列。而在百度百科数据库中进行查询时,则可以使用百科浏览次数(bkViewCount)进行筛选查询,具体参见图3所示,图3为本发明提供的另一种查询待识别实体对应的标识信息的程序代码示意图。最终,将查询结果按照降序排序,从而得到我们想要的条目。
在获取的查询结果中,会发现奇谱中的channel有标识信息tag共26个,包括“电影、电视剧、纪录片、动漫、综艺、音乐、游戏”等。百科中的标识信息tag合计约1293个。两者共组合成包含1319个tag的词典,构建1319维的零元素向量,对于出现的tag,在对应的索引位置将值置为1,形成multi-hot的编码向量。
步骤150,根据索引向量、编码向量以及预设定的语言长度,构成知识识别特征。
具体的,可以根据索引向量、编码向量以及预设定的语言长度,生成编码矩阵,编码矩阵即为与待识别实体对应的知识识别特征。
例如,上文获取的编码向量为包括1319个元素的向量。而索引向量为包括8个元素的向量。人为设定语言长度seq。那么,最终的知识识别特征则是一个seq*8*1319的编码矩阵,该编码矩阵则为与待识别实体对应的知识识别特征。
步骤160,根据知识识别特征,以及从预构建的实体识别模型中提取的与语言文本对应的语言特征,获取意图槽位标签。
具体的,可以将知识识别特征输入至预构建的实体识别模型中,与语言特征进行融合后进行槽位分类,获取意图槽位标签。
其中,实体识别模型是之前已经利用大量语言样本执行如步骤110至步骤150获取知识识别特征后,将知识识别特征输入至实体识别模型中,与样本语言的语言特征进行融合。比如将知识识别特征向量和样本语言特征向量共同构成一个向量矩阵,然后在实体识别模型中的高层进行链接。最后接入全链接层进行槽位分类。将向量矩阵在实体识别模型中进行高层连接,再接入全链接层进行槽位分类等过程属于现有技术,这里将不做过多说明。当最终的槽位分类结果达到预设定的分类要求时,实时识别模型则可以在实际过程中应用了。该种实体识别模型能够学习外部知识特征,并最终影响槽位结果。因此,只需要不断动态更新预构建的知识库内的知识,便能影响最终的槽位结果,实现不重新训练模型的更新修复。
因此,在上文中只要将知识识别特征输入至符合预设预设定分类要求的实体识别模型中,与语言文本对应的语言特征进行融合后进行槽位分类即可。
步骤170,根据意图槽位标签,搜索与包含待识别实体的语言文本对应的文本条目。
具体的,在步骤160中已经获取到意图槽位标签,那么只要根据意图槽位标签,搜索与包含待识别实体的语言文本对应的文本条目即可。例如,槽位标签为电视剧都挺好,那么搜索过程中,就可以直接获取到都挺好这不电视剧的影视资源,供用户选择和查看。
进一步可选的,基于上述步骤中,需要从知识库搜索实体。因此,还可以周期性的更新知识库,不断的向知识库中填充新的知识。同样的道理,该方法还可以包括:周期性的更新数据库。
进一步可选的,还可以周期性的对知识库/数据库中的数据进行预处理。其主要是保证在实体匹配时,可以更精准。而且,预处理主要是数据处理,筛选出垃圾数据,以及对数据进行格式统一,以方便后续使用时提升精确度以及工作效率。
本发明实施例提供的文本条目搜索方法,获取包含待识别实体的语言文本。利用统计语言模型从预构建的知识库中查询包含与待识别实体对应的文字组集。然后根据文字组集生成索引向量。从预构建的数据库中查询与待识别实体对应的标识信息,并根据标识信息生成编码向量。根据索引向量、编码向量以及预设定的语言长度,构成了知识识别特征。最终,根据知识识别特征和预构建的实体识别模型中提取的语言文本对应的语言特征,获取意图槽位标签。根据这个意图槽位标签,可以搜索到与包含待识别实体的语言文本对应的文本条目。由于知识识别特征是通过待识别实体对应的索引向量、编码向量等因素确定的,所以对待识别实体的特征识别将会加强,更加容易识别出待识别实体。即使待识别实体在某些新的领域或者特定领域有新的含义,也比较容易识别出。再与语言文本的语言特征相结合,更加容易确定语言文本对应的槽位标签。最终根据槽位标签,就可以搜索到与语言文本对应的文本条目。此过程中省去了对包含某一种实体的语料从训练到更新上线的流程,大大节省了时间,提升识别实体效率。进而也就提升了搜索与包含待识别实体的语言文本对应的文本条目的速率和准确率,大大提高了用户体验度。
图4为本发明实施例提供的一种文本条目搜索装置,该装置包括:获取单元401、查询单元402、处理单元403和搜索单元404。
获取单元401,用于获取包含待识别实体的语言文本;
查询单元402,用于利用统计语言模型从预构建的知识库中查询包含待识别实体的文字组集;
处理单元403,用于根据包含待识别实体的文字组集生成索引向量;
查询单元402还用于,从预构建的数据库中查询与待识别实体对应的标识信息;
处理单元403还用于,根据标识信息生成编码向量;
根据索引向量、编码向量以及预设定的语言长度,构成知识识别特征;
根据知识识别特征,以及从预构建的实体识别模型中提取的与语言文本对应的语言特征,获取意图槽位标签;
搜索单元404,用于根据意图槽位标签,搜索与包含待识别实体的语言文本对应的文本条目。
可选的,查询单元402用于,利用统计语言模型,从预构建的知识库中查询与语言文本中每一个字分别对应的文字组集,文字组集包括预设数量的文字组合,每一个文字组合包括预设数量的文字和预设数量的符号;
识别每一个字分别对应的文字组集,当确定语言文本中第i个字对应的第i文字组集中,存在与待识别实体相匹配的文字组合时,确定第i文字组集为包含待识别实体的文字组集,其中,i为大于或者等于1,小于或者等于语言文本中文字总数的数值,i依次递进取值,初始取值为1。
可选的,文字组集中的所有文字组合按照预设形式进行排序,处理单元403具体用于,将包含待识别实体的文字组集中,与待识别实体相匹配的文字组合对应的索引向量元素置为1,未与待识别实体相匹配的文字组合对应的索引向量元素置为0,其中,索引向量中各元素所在位置与文字组集中对应的文字组合所在位置相同。
可选的,处理单元403具体用于,将知识识别特征输入至预构建的实体识别模型中,与语言文本对应的语言特征进行融合后,进行槽位分类,获取意图槽位标签。
本实施例提供的文本条目搜索装置中各功能部件所执行的功能均已在图1对应的实施例中做了详细介绍,因此这里不再赘述。
本发明实施例提供的一种文本条目搜索装置,获取包含待识别实体的语言文本。利用统计语言模型从预构建的知识库中查询包含与待识别实体对应的文字组集。然后根据文字组集生成索引向量。从预构建的数据库中查询与待识别实体对应的标识信息,并根据标识信息生成编码向量。根据索引向量、编码向量以及预设定的语言长度,构成了知识识别特征。最终,根据知识识别特征和预构建的实体识别模型中提取的语言文本对应的语言特征,获取意图槽位标签。根据这个意图槽位标签,可以搜索到与包含待识别实体的语言文本对应的文本条目。由于知识识别特征是通过待识别实体对应的索引向量、编码向量等因素确定的,所以对待识别实体的特征识别将会加强,更加容易识别出待识别实体。即使待识别实体在某些新的领域或者特定领域有新的含义,也比较容易识别出。再与语言文本的语言特征相结合,更加容易确定语言文本对应的槽位标签。最终根据槽位标签,就可以搜索到与语言文本对应的文本条目。此过程中省去了对包含某一种实体的语料从训练到更新上线的流程,大大节省了时间,提升识别实体效率。进而也就提升了搜索与包含待识别实体的语言文本对应的文本条目的速率和准确率,大大提高了用户体验度。
图5为本发明实施例提供的一种文本条目搜索***的结构示意图,图5所示的文本条目搜索***500包括:至少一个处理器501、存储器502、至少一个网络接口503和其他用户接口504。文本条目搜索文本条目搜索***500中的各个组件通过总线***505耦合在一起。可理解,总线***505用于实现这些组件之间的连接通信。总线***505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线***505。
其中,用户接口504可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器(ErasablePROM,EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(StaticRAM,SRAM)、动态随机存取存储器(DynamicRAM,DRAM)、同步动态随机存取存储器(SynchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM,DRRAM)。本文描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器502存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作***5021和应用程序5022。
其中,操作***5021,包含各种***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序5022,包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。
在本发明实施例中,通过调用存储器502存储的程序或指令,具体的,可以是应用程序5022中存储的程序或指令,处理器501用于执行各方法实施例所提供的方法步骤,例如包括:
获取包含待识别实体的语言文本;
利用统计语言模型从预构建的知识库中查询包含待识别实体的文字组集;
根据包含待识别实体的文字组集生成索引向量;
从预构建的数据库中查询与待识别实体对应的标识信息,并根据标识信息生成编码向量;
根据索引向量、编码向量以及预设定的语言长度,构成知识识别特征;
根据知识识别特征,以及从预构建的实体识别模型中提取的与语言文本对应的语言特征,获取意图槽位标签;
根据意图槽位标签,搜索与包含待识别实体的语言文本对应的文本条目。
可选的,利用统计语言模型,从预构建的知识库中查询与语言文本中每一个字分别对应的文字组集,文字组集包括预设数量的文字组合,每一个文字组合包括预设数量的文字和预设数量的符号;
识别每一个字分别对应的文字组集,当确定语言文本中第i个字对应的第i文字组集中,存在与待识别实体相匹配的文字组合时,确定第i文字组集为包含待识别实体的文字组集,其中,i为大于或者等于1,小于或者等于语言文本中文字总数的数值,i依次递进取值,初始取值为1。
可选的,将包含待识别实体的文字组集中,与待识别实体相匹配的文字组合对应的索引向量元素置为1,未与待识别实体相匹配的文字组合对应的索引向量元素置为0,其中,索引向量中各元素所在位置与文字组集中对应的文字组合所在位置相同。
可选的,将知识识别特征输入至预构建的实体识别模型中,与语言特征进行融合后进行槽位分类,获取意图槽位标签。
上述本发明实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecific IntegratedCircuit,ASIC)、现成可编程门阵列(FieldProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits,ASIC)、数字信号处理器(DigitalSignalProcessing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(ProgrammableLogicDevice,PLD)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文功能的单元来实现本文的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本实施例提供的文本条目搜索***可以是如图5中所示的文本条目搜索***,可执行如图1中文本条目搜索方法的所有步骤,进而实现图1所示文本条目搜索方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在文本条目搜索***侧执行的文本条目搜索方法。
处理器用于执行存储器中存储的文本条目搜索程序,以实现以下在文本条目搜索***侧执行的文本条目搜索方法的步骤:
获取包含待识别实体的语言文本;
利用统计语言模型从预构建的知识库中查询包含待识别实体的文字组集;
根据包含待识别实体的文字组集生成索引向量;
从预构建的数据库中查询与待识别实体对应的标识信息,并根据标识信息生成编码向量;
根据索引向量、编码向量以及预设定的语言长度,构成知识识别特征;
根据知识识别特征,以及从预构建的实体识别模型中提取的与语言文本对应的语言特征,获取意图槽位标签;
根据意图槽位标签,搜索与包含待识别实体的语言文本对应的文本条目。
可选的,利用统计语言模型,从预构建的知识库中查询与语言文本中每一个字分别对应的文字组集,文字组集包括预设数量的文字组合,每一个文字组合包括预设数量的文字和预设数量的符号;
识别每一个字分别对应的文字组集,当确定语言文本中第i个字对应的第i文字组集中,存在与待识别实体相匹配的文字组合时,确定第i文字组集为包含待识别实体的文字组集,其中,i为大于或者等于1,小于或者等于语言文本中文字总数的数值,i依次递进取值,初始取值为1。
可选的,将包含待识别实体的文字组集中,与待识别实体相匹配的文字组合对应的索引向量元素置为1,未与待识别实体相匹配的文字组合对应的索引向量元素置为0,其中,索引向量中各元素所在位置与文字组集中对应的文字组合所在位置相同。
可选的,将知识识别特征输入至预构建的实体识别模型中,与语言特征进行融合后进行槽位分类,获取意图槽位标签。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本条目搜索方法,其特征在于,所述方法包括:
获取包含待识别实体的语言文本;
利用统计语言模型从预构建的知识库中查询包含所述待识别实体的文字组集,所述文字组集包括预设数量的文字组合,每一个文字组合包括预设数量的文字和预设数量的符号;
根据所述包含待识别实体的文字组集生成索引向量;
从所述预构建的数据库中查询与所述待识别实体对应的标识信息,并根据所述标识信息生成编码向量;
根据所述索引向量、所述编码向量以及预设定的语言长度,构成知识识别特征;
根据所述知识识别特征,以及从预构建的实体识别模型中提取的与所述语言文本对应的语言特征,获取意图槽位标签;
根据所述意图槽位标签,搜索与所述包含待识别实体的语言文本对应的文本条目。
2.根据权利要求1所述的方法,其特征在于,所述利用统计语言模型从预构建的知识库中查询包含所述待识别实体的文字组集,具体包括:
利用统计语言模型,从预构建的知识库中查询与所述语言文本中每一个字分别对应的文字组集;
识别每一个字分别对应的文字组集,当确定所述语言文本中第i个字对应的第i文字组集中,存在与所述待识别实体相匹配的文字组合时,确定所述第i文字组集为包含所述待识别实体的文字组集,其中,i为大于或者等于1,小于或者等于所述语言文本中文字总数的数值,i依次递进取值,初始取值为1。
3.根据权利要求2所述的方法,其特征在于,文字组集中的所有文字组合按照预设形式进行排序,所述生成与包含所述待识别实体的文字组集对应的索引向量,具体包括:
将包含所述待识别实体的文字组集中,与所述待识别实体相匹配的文字组合对应的索引向量元素置为1,未与所述待识别实体相匹配的文字组合对应的索引向量元素置为0,其中,所述索引向量中各元素所在位置与所述文字组集中对应的文字组合所在位置相同。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述知识识别特征,以及从预构建的实体识别模型中提取的与所述语言文本对应的语言特征,获取意图槽位标签,具体包括:
将所述知识识别特征输入至所述预构建的实体识别模型中,与所述语言特征进行融合后进行槽位分类,获取意图槽位标签。
5.一种文本条目搜索装置,其特征在于,所述装置包括:
获取单元,用于获取包含待识别实体的语言文本;
查询单元,用于利用统计语言模型从预构建的知识库中查询包含所述待识别实体的文字组集,所述文字组集包括预设数量的文字组合,每一个文字组合包括预设数量的文字和预设数量的符号;
处理单元,用于根据所述包含待识别实体的文字组集生成索引向量;
所述查询单元还用于,从所述预构建的数据库中查询与所述待识别实体对应的标识信息;
所述处理单元还用于,根据所述标识信息生成编码向量;
根据所述索引向量、所述编码向量以及预设定的语言长度,构成知识识别特征;
根据所述知识识别特征,以及从预构建的实体识别模型中提取的与所述语言文本对应的语言特征,获取意图槽位标签;
搜索单元,用于根据所述意图槽位标签,搜索与所述包含待识别实体的语言文本对应的文本条目。
6.根据权利要求5所述的装置,其特征在于,所述查询单元用于,利用统计语言模型,从预构建的知识库中查询与所述语言文本中每一个字分别对应的文字组集;
识别每一个字分别对应的文字组集,当确定所述语言文本中第i个字对应的第i文字组集中,存在与所述待识别实体相匹配的文字组合时,确定所述第i文字组集为包含所述待识别实体的文字组集,其中,i为大于或者等于1,小于或者等于所述语言文本中文字总数的数值,i依次递进取值,初始取值为1。
7.根据权利要求6所述的装置,其特征在于,文字组集中的所有文字组合按照预设形式进行排序,所述处理单元具体用于,将包含所述待识别实体的文字组集中,与所述待识别实体相匹配的文字组合对应的索引向量元素置为1,未与所述待识别实体相匹配的文字组合对应的索引向量元素置为0,其中,所述索引向量中各元素所在位置与所述文字组集中对应的文字组合所在位置相同。
8.根据权利要求5-7任一项所述的装置,其特征在于,所述处理单元具体用于,将所述知识识别特征输入至所述预构建的实体识别模型中,与所述语言文本对应的语言特征进行融合后,进行槽位分类,获取意图槽位标签。
9.一种文本条目搜索***,其特征在于,所述***包括:至少一个处理器和存储器;
所述处理器用于执行所述存储器中存储的文本条目搜索程序,以实现权利要求1~4中任一项所述的文本条目搜索方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被如权利要求9所述的文本条目搜索***执行,以实现权利要求1~4中任一项所述的文本条目搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010160441.3A CN111400429B (zh) | 2020-03-09 | 2020-03-09 | 文本条目搜索方法、装置、***及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010160441.3A CN111400429B (zh) | 2020-03-09 | 2020-03-09 | 文本条目搜索方法、装置、***及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111400429A CN111400429A (zh) | 2020-07-10 |
CN111400429B true CN111400429B (zh) | 2023-06-30 |
Family
ID=71434126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010160441.3A Active CN111400429B (zh) | 2020-03-09 | 2020-03-09 | 文本条目搜索方法、装置、***及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111400429B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343692B (zh) * | 2021-07-15 | 2023-09-12 | 杭州网易云音乐科技有限公司 | 搜索意图的识别方法、模型训练方法、装置、介质及设备 |
CN114090777A (zh) * | 2021-11-26 | 2022-02-25 | 北京金山数字娱乐科技有限公司 | 文本数据处理方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138515A (zh) * | 2015-09-02 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 命名实体识别方法和装置 |
CN107210035A (zh) * | 2015-01-03 | 2017-09-26 | 微软技术许可有限责任公司 | 语言理解***和方法的生成 |
CN107330011A (zh) * | 2017-06-14 | 2017-11-07 | 北京神州泰岳软件股份有限公司 | 多策略融合的命名实体的识别方法及装置 |
US9953652B1 (en) * | 2014-04-23 | 2018-04-24 | Amazon Technologies, Inc. | Selective generalization of search queries |
CN108205524A (zh) * | 2016-12-20 | 2018-06-26 | 北京京东尚科信息技术有限公司 | 文本数据处理方法和装置 |
CN110347701A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 一种面向实体检索查询的目标类型标识方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018068176A1 (en) * | 2016-10-10 | 2018-04-19 | Microsoft Technology Licensing, Llc | Combo of language understanding and information retrieval |
-
2020
- 2020-03-09 CN CN202010160441.3A patent/CN111400429B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9953652B1 (en) * | 2014-04-23 | 2018-04-24 | Amazon Technologies, Inc. | Selective generalization of search queries |
CN107210035A (zh) * | 2015-01-03 | 2017-09-26 | 微软技术许可有限责任公司 | 语言理解***和方法的生成 |
CN105138515A (zh) * | 2015-09-02 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 命名实体识别方法和装置 |
CN108205524A (zh) * | 2016-12-20 | 2018-06-26 | 北京京东尚科信息技术有限公司 | 文本数据处理方法和装置 |
CN107330011A (zh) * | 2017-06-14 | 2017-11-07 | 北京神州泰岳软件股份有限公司 | 多策略融合的命名实体的识别方法及装置 |
CN110347701A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 一种面向实体检索查询的目标类型标识方法 |
Non-Patent Citations (1)
Title |
---|
张海雷 ; 曹菲菲 ; 陈文亮 ; 任飞亮 ; 王会珍 ; 朱靖波 ; .基于多层次特征集成的中文实体指代识别.中文信息学报.2007,第21卷(第05期),第126-130页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111400429A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563208B (zh) | 一种意图识别的方法、装置及计算机可读存储介质 | |
CN112800201B (zh) | 自然语言的处理方法、装置及电子设备 | |
WO2023065544A1 (zh) | 意图分类方法、装置、电子设备及计算机可读存储介质 | |
CN111737969B (zh) | 一种基于深度学习的简历解析方法和*** | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN111552821B (zh) | 法律意图搜索方法、法律意图搜索装置和电子设备 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN111459977B (zh) | 自然语言查询的转换 | |
CN111814477B (zh) | 一种基于争议焦点实体的争议焦点发现方法、装置及终端 | |
CN112711660A (zh) | 文本分类样本的构建方法和文本分类模型的训练方法 | |
CN111324771A (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
CN111400429B (zh) | 文本条目搜索方法、装置、***及存储介质 | |
CN111241410B (zh) | 一种行业新闻推荐方法及终端 | |
CN116050397B (zh) | 一种长文本摘要生成方法、***、设备及存储介质 | |
CN114970503A (zh) | 一种基于预训练的字音字形知识增强的中文拼写纠正方法 | |
CN101689198A (zh) | 使用规格化串的语音搜索 | |
CN114861630B (zh) | 信息获取及相关模型的训练方法、装置、电子设备和介质 | |
CN111291551B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
Yang et al. | Pronunciation-enhanced Chinese word embedding | |
Ma et al. | Improving Chinese spell checking with bidirectional LSTMs and confusionset-based decision network | |
CN111858860B (zh) | 搜索信息处理方法及***、服务器、计算机可读介质 | |
CN113553844B (zh) | 一种基于前缀树特征与卷积神经网络的领域识别方法 | |
Wan et al. | Abstractive document summarization via bidirectional decoder | |
CN112685549B (zh) | 融入篇章语义的涉案新闻要素实体识别方法及*** | |
CN113505592A (zh) | 多粒度融合的分词方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |