CN113704386A - 一种基于深度学习的文本推荐方法、装置及相关介质 - Google Patents

一种基于深度学习的文本推荐方法、装置及相关介质 Download PDF

Info

Publication number
CN113704386A
CN113704386A CN202111255426.8A CN202111255426A CN113704386A CN 113704386 A CN113704386 A CN 113704386A CN 202111255426 A CN202111255426 A CN 202111255426A CN 113704386 A CN113704386 A CN 113704386A
Authority
CN
China
Prior art keywords
text
milvus
information
database
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111255426.8A
Other languages
English (en)
Inventor
钱启
王天星
杨东泉
程佳宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Original Assignee
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd filed Critical Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority to CN202111255426.8A priority Critical patent/CN113704386A/zh
Priority to PCT/CN2021/129027 priority patent/WO2023070732A1/zh
Publication of CN113704386A publication Critical patent/CN113704386A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的文本推荐方法、装置及相关介质,该方法包括:采集不同类别的文本信息构建文本资料库,通过孪生神经网络结构为所述文本资料库中的每一文本信息生成文本特征向量;将所述文本特征向量转换为Milvus向量索引信息,并存储至Milvus数据库中;在对待匹配文本进行匹配时,通过孪生神经网络结构获取所述待匹配文本中包含语义信息的句子向量;在所述Milvus数据库选取语义相似度最高的前N条Milvus向量索引信息,并基于Milvus向量索引信息和文本特征向量的对应关系,在所述文本资料库中选取对应的前N条文本信息作为待匹配文本的匹配结果。本发明实施例通过构建文本资料库和引入Milvus数据库,从而在推荐文本时,能做到快速检索,实时反馈且准确率高。

Description

一种基于深度学习的文本推荐方法、装置及相关介质
技术领域
本发明涉及计算机软件技术领域,特别涉及一种基于深度学习的文本推荐方法、装置及相关介质。
背景技术
随着科技的快速发展,机器学习领域在深度学习方向也取得了具有前景的迅猛发展。自然语言处理是人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。通常来说,自然语言处理技术包括文本处理、机器翻译、语义理解、知识图谱、智能问答等技术。其中,文本匹配是文本处理的一个非常重要的应用方向,在现实生活中起到了十分重要的作用。与此同时,这一技术的发展,为用户在纷繁冗杂的信息海洋中进行比较好的检索、匹配提供了一个可行的方案。事实上,文本匹配在很多实际场景中都扮演着重要角色。比如,在搜索场景中,用户输入一条待匹配文本,***需要去语料库中寻找与该待匹配文本尽可能语义相似的内容,并将匹配结果返回给用户。再比如,在智能问答***中,用户提出一个问题,***需根据用户提出的问题在问答库中找到最相似的问题,并返回该相似问题对应的答案。在这些场景中,文本匹配的准确性直接影响用户体验效果。
所谓文本匹配,其过程一般是针对两个文本,通过算法计算二者语义相似度,通过相似度大小来判定二者的匹配度。相似度数值越高,越匹配。反之,越不匹配。当前文本匹配主要是采用较为复杂的方法,且不具备动态扩展性。这里,动态扩展性指文本资料库不自动进行扩充,需要人为手动扩充。
发明内容
本发明实施例提供了一种基于深度学习的文本推荐方法、装置、计算机设备及存储介质,旨在提高文本推荐效率和精度。
第一方面,本发明实施例提供了一种基于深度学习的文本推荐方法,包括:
采集不同类别的文本信息构建文本资料库,通过孪生神经网络结构为所述文本资料库中的每一文本信息生成文本特征向量;
将所述文本特征向量转换为Milvus向量索引信息,并存储至Milvus数据库中;
在对待匹配文本进行匹配时,通过孪生神经网络结构获取所述待匹配文本中包含语义信息的句子向量;
在所述Milvus数据库选取语义相似度最高的前N条Milvus向量索引信息,并基于Milvus向量索引信息和文本特征向量的对应关系,在所述文本资料库中选取对应的前N条文本信息作为待匹配文本的匹配结果。
第二方面,本发明实施例提供了一种基于深度学习的文本推荐装置,包括:
第一向量生成单元,用于采集不同类别的文本信息构建文本资料库,通过孪生神经网络结构为所述文本资料库中的每一文本信息生成文本特征向量;
第一向量转换单元,用于将所述文本特征向量转换为Milvus向量索引信息,并存储至Milvus数据库中;
第二向量生成单元,用于在对待匹配文本进行匹配时,通过孪生神经网络结构获取所述待匹配文本中包含语义信息的句子向量;
文本匹配单元,用于在所述Milvus数据库选取语义相似度最高的前N条Milvus向量索引信息,并基于Milvus向量索引信息和文本特征向量的对应关系,在所述文本资料库中选取对应的前N条文本信息作为待匹配文本的匹配结果。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的基于深度学习的文本推荐方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于深度学习的文本推荐方法。
本发明实施例提供了一种基于深度学习的文本推荐方法、装置、计算机设备及存储介质,该方法包括:采集不同类别的文本信息构建文本资料库,通过孪生神经网络结构为所述文本资料库中的每一文本信息生成文本特征向量;将所述文本特征向量转换为Milvus向量索引信息,并存储至Milvus数据库中;在对待匹配文本进行匹配时,通过孪生神经网络结构获取所述待匹配文本中包含语义信息的句子向量;在所述Milvus数据库选取语义相似度最高的前N条Milvus向量索引信息,并基于Milvus向量索引信息和文本特征向量的对应关系,在所述文本资料库中选取对应的前N条文本信息作为待匹配文本的匹配结果。本发明实施例通过构建文本资料库和引入Milvus数据库,解决了将待匹配文本与文本信息逐条匹配这一耗时耗力的缺陷,并且本实施例的推荐匹配过程实现简单、准确率高且耗时不长,在推荐文本时,能做到快速检索,实时反馈,且具备文本资料库文本数据的动态扩展性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于深度学习的文本推荐方法的流程示意图;
图2为本发明实施例提供的一种基于深度学习的文本推荐方法的子流程示意图;
图3为本发明实施例提供的一种基于深度学习的文本推荐装置的示意性框图;
图4为本发明实施例提供的一种基于深度学习的文本推荐装置的子示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面请参见图1,图1为本发明实施例提供的一种基于深度学习的文本推荐方法的流程示意图,具体包括:步骤S101~S104。
S101、采集不同类别的文本信息构建文本资料库,通过孪生神经网络结构为所述文本资料库中的每一文本信息生成文本特征向量;
S102、将所述文本特征向量转换为Milvus向量索引信息,并存储至Milvus数据库中;
S103、在对待匹配文本进行匹配时,通过孪生神经网络结构获取所述待匹配文本中包含语义信息的句子向量;
S104、在所述Milvus数据库选取语义相似度最高的前N条Milvus向量索引信息,并基于Milvus向量索引信息和文本特征向量的对应关系,在所述文本资料库中选取对应的前N条文本信息作为待匹配文本的匹配结果。
本实施例中,首先利用不同类别的文本信息构建文本资料库,同时通过孪生网络结构为文本资料库中的文本信息生成文本特征向量。然后将生成的文本特征向量转换为Milvus向量索引信息存储至Milvus数据库中。当需要对待匹配文本进行匹配推荐时,同样通过孪生神经网络结构为待匹配文本生成对应的句子向量,再通过Milvus数据库计算句子向量和各Milvus向量索引信息之间的相似度,并以此选取其中相似度最高的前N条Milvus向量索引信息,进而可以在所述文本资料库中选取对应的文本信息作为匹配结果或者推荐结果。
在具体应用场景中,所述文本资料库为CSV文本资料库(即CSV格式的文本资料库)。进一步的,构建文本资料库的具体步骤可以为:按照所需推荐的类别划分文本,寻找该类别下的若干条文本,按类别归类,每一类是一个CSV文件。CSV文件内容的列名可以是question,flag。其中,question表示文本的内容,flag表示类别名称,在一个CSV文件中,flag的名字是统一的。有几类文本,就有几个CSV文件。
在一具体实施例中,为了便于修改数据和数据清洗,本实施例将文本资料库以结构化数据的形式存储至MySQL数据库中。这样做的目的是,当进行数据清洗时,可直接编写Python脚本操作MySQL数据表更新文本数据。与一般用CSV格式的文件作为文本资料库而言,MySQL数据库具有显示直观,操作灵活,便于文本资料库中数据动态扩展等特点。
虽然通过以上步骤,可以返回若干文本,但为保证推荐文本时的时效性,需要提前把文本资料库中的全部文本存成离线的特征文件,并且,该特征文件占用了较大的存储空间。同时,一般而言,当出现一个文本时,可以用模型将该文本与文本资料库的所有文本进行逐一比对,返回与之语义最为相似的若干条。值得注意的是,这种方法对于数据量大的文本资料库而言,耗时过大。于是,想到将文本资料库的特征离线存储下来,这样不用每次逐个生成文本资料库的特征向量。但是,这样生成的离线特征文件所占的空间较大,并且,当文本资料库发生变化时,离线特征文件将失效,不能再使用,不便于维护。因此,在一实施例中,为解决这一问题,本实施例使用Milvus数据库存储文本资料库的特征信息,实现快速检索。所谓Milvus 数据库是一款开源的向量数据库,支持针对 TB 级向量的增删改操作和近实时查询检索,具有高度灵活、稳定可靠以及高速查询等特点。
在现有文本匹配的技术中,通常是提取两个文本信息的文本特征,进而基于提取的文本特征判断两个文本信息是否匹配。在提取文本特征的过程中,常常直接将文本信息的词向量相加,或直接结合文本信息中词语在本身的权重,进行加权,来构建文本信息的文本特征。但所得到的文本向量可能会受文本中个别词的影响,导致所构建的文本特征无法准确反映文本信息的语义,从而导致匹配准确率较低。另外,最常用的表示句子向量的方法是将BERT输出层的向量进行平均,或者使用BERT输出层的第一个词来表示,这毫无疑问会产生不太好的句子编码信息。更有甚者,在10000个句子集合中,用上述方法寻找最为相似的句子对耗时需要65小时。可见,这些技术存在比较复杂,存在成本高,效率低,耗时较多等问题。因此,针对上述问题,本实施例提供的基于深度学习的文本推荐方法,通过构建文本资料库和引入Milvus数据库,解决了将待匹配文本与文本信息逐条匹配这一耗时耗力的缺陷,并且本实施例的推荐匹配过程实现简单、准确率高且耗时不长,在推荐文本时,能做到快速检索,实时反馈,且具备文本资料库文本数据的动态扩展性。在具体测试场景中,一次请求只需要大约30毫秒即可返回结果。
在一实施例中,所述步骤S101包括:
将所述文本资料库中的文本信息两两组合,并将组合中的两个文本信息分别依次输入至相同结构的BERT网络模型和平均池化层中,并分别输出得到两个文本信息对应的编码结果,然后将所述编码结果作为两个文本信息对应的文本特征向量。
本实施例中,在通过孪生神经网络结构生成文本特征向量时,首先将文本资料库中的文本信息两两组合,然后对于每一组合中的两个文本信息,将二者分别输入至相同结构的BERT网络模型和平均池化层,并对应得到2个编码结果,这模型编码结果即为所获得的具有语义信息的文本特征向量。值得注意的是,这种孪生网络结构能够对所输入的句子产生固定大小的向量,而这些向量所具有的语义信息,可以用来计算相似性。
另外,为获得固定大小的文本特征向量,本实施例基于BERT网络模型做改进。BERT网络模型的全称是:Bidirectional Encoder Representations from Transformer,是一种预训练网络。从名字中可以看出,BERT网络模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。这些任务可包括智能问答,句子分类,句子对表示等。但是,BERT网络模型的一大缺点是没有计算独立的句子编码,这使得通过BERT网络模型获取很好的句子编码是较为困难的。
考虑到BERT网络模型的上述局限,本实施例的改进主要在于BERT网络模型的输出层之后添加平均池化操作。池化层的作用是特征平移不变性,这样设置的好处在于,加上平均池化层后,对于不同的句子,最终输出的向量大小固定。
在一实施例中,所述步骤S102包括:
对所述文本特征向量进行归一化处理,得到归一化的文本特征向量;
将归一化的文本特征向量转换为Milvus向量索引信息。
本实施例中,在将文本特征向量转换Milvus向量索引信息时,首先对文本特征向量进行归一化处理,而归一化处理的具体步骤为:输入2个文本信息,然后分别经过相同结构的BERT网络模型和平均池化层,分别得到2个编码结果,再将这2个编码结果分别进行归一化,即可得到归一化的文本特征向量。之后,将归一化的特文本征向量转换成Milvus向量索引信息,存储至Milvus数据库中,以得到Milvus向量信息。如此,所述文本资料库与Milvus数据库就对应起来了(即二者的ID号完全一样),方便查询后返回原始文本资料库的文本信息,而不是只返回不好辨认的Milvus的索引信息。
在一实施例中,所述步骤S103包括:
将待匹配文本单独输入至BERT网络模型,得到待匹配文本对应的文本语义表示;
通过平均池化层对所述文本语义表示进行向量大小固定,得到所述句子向量。
本实施例中,虽然在生成文本特征向量时和生成句子向量均使用了孪生神经网络结构,但是在生成文本特征向量时,由于孪生神经网络结构设置有2个输入,因此同时输入2个文本信息。而在生成句子向量时,由于孪生神经网络结构经过生成文本特征向量后已经具备了适应类似数据的特征表示能力,因此只需将待匹配文本单独输入即可,即将待匹配文本依次输入至BERT网络模型和平均池化层。
在一实施例中,所述步骤S104包括:
利用余弦相似度方法计算所述句子向量与每一所述Milvus向量索引信息的相似度得分;
选取相似度得分最高的前N条Milvus向量索引信息。
本实施例中,在进行文本推荐时,对于待匹配的文本,通过余弦相似度方法对句子向量和Milvus向量索引信息进行相似度计算,从而搜索选取语义相似的前N条文本匹配结果,即前N条Milvus向量索引信息。随后便可以在文本资料库中找到对应的文本信息。在一具体实施例中,按照置信度高低对各Milvus向量索引信息进行排序选择。
在另一具体实施例中,在启动Milvus Docker容器之前,需要修改配置文件中的MySQL地址,并暴露19530端口。一启动,容器自动在MySQL数据库中建立4张Milvus元数据表。如果文本匹配模型有更新,则需要重建Milvus索引向量。Milvus向量数据库和孪生网络结构共同构建了语义搜索引擎,用于文本推荐。
在一实施例中,如图2所示,所述基于深度学习的文本推荐还包括:步骤S201~S204。
S201、选取文本数据集,并将所述文本数据集按照训练集:测试集=7:3的比例划分为训练集和测试集;
S202、利用所述训练集中的文本数据对所述孪生网络结构进行训练学习,并设置所述孪生网络结构的超参数批处理大小为16,学习率为2e-5;
S203、采用Adam优化器对所述孪生网络结构进行参数优化,以及采用余弦相似性损失函数对所述孪生网络结构进行性能评估;
S204、利用所述测试集中的文本数据对优化后的孪生网络结构进行参数更新。
本实施例中,在设置数据集方面,为保证具有一定的泛化性,故遵循训练集与测试集比例为7:3的原则。进一步的,将所述孪生神经网络结构输出的样本标签分数值设置为数字0-5。这样设置样本标签分数的好处在于可以更加精细地刻画两个文本之间的相似程度,而不是像0-1标签那样,只有相似和不相似这两种情况。因为两个文本有多相似,还是完全一样,是无法只通过标签1看出来的。数字0表示文本A和文本B语义完全不一样。数字5表示文本A和文本B语义完全一样。其他数字(如:1、2、3、4)代表中间两大句子语义相似的程度。同时,为了正常训练网络,因此在训练过程中,需要把这些标签分数值除以5,以获得归一化的分数值。
在训练时,还会存在诸多超参数。例如,设定超参数批处理大小为16,优化器使用Adam优化器,学习率为2e-5。所采用的损失函数为余弦相似性损失函数。这里,损失函数也可以使用其他的损失函数,但是与其他函数相比,余弦相似性损失函数在速度方面的优点更加明显。直接使用余弦相似度来衡量两个句子向量之间的相似度,可极大的提升推理速度。
在利用测试集进行预测时,可定量定性的观察在测试集上的表现效果。通过预测结果,我们可以判断模型是否已收敛。
在一实施例中,所述基于深度学习的文本推荐还包括:
获取文本更新信息,并将所述文本更新信息进行数据清洗后存储至所述文本资料库;
根据所述文本资料库中的文本更新信息,通过孪生神经网络结构生成对应更新文本特征向量,并将所述更新文本特征向量转换为Milvus更新向量索引信息后存储至所述Milvus数据库中。
考虑到MySQL数据库中的文本信息可能来源于多个表,比如,文本资料库的信息包含3个类别,而这3个类别的信息可以从3张数据库表的某个字段的具体内容信息中经过数据清洗获得,多个表表示不同类别的数据源头,多个表的数据在经过数据清洗后,因此可以获取想要的数据存储在文本资料库中,这些表称为数据源头表。假设考虑一种情况,在制作好文本资料库后,数据源头表仍在不断的增加数据。这时,为了增强动态扩展性,本实施例因此增加了定时同步阶段,旨在根据在特定时间查询数据源头表,对新增加的数据(即所述文本更新信息)进行数据清洗,同步最新数据至文本资料库。这里,进行数据清洗的原因是文本资料库的数据本身是从数据库表的某个字段的具体内容信息中清洗加工提炼而成的。与此同时,根据同步至文本资料库的信息,返回主键ID号。将新增的文本数据通过训练好的文本匹配模型,获取文本特征编码向量,将该特征向量归一化,结合此ID号,创建Milvus索引,将该文本特征向量进行编码,生成索引,***Milvus向量数据库中,方便后续高效查询。在进行文本相似度比较时,搜索Milvus向量数据库中的索引向量,进行余弦相似度计算匹配结果。
在具体实施例中,可以采用Python语言中apscheduler定时框架来完成定时任务的执行。数据源头表中的数据在不断更新,如果缺乏定时同步的机制,那么新增的数据则无法自动存储在文本资料库中,也无法及时创建Milvus索引,***Milvus向量数据库中。那么,查询时,文本信息无法与时俱进。
图3为本发明实施例提供的一种基于深度学习的文本推荐装置300的示意性框图,该装置300包括:
第一向量生成单元301,用于采集不同类别的文本信息构建文本资料库,通过孪生神经网络结构为所述文本资料库中的每一文本信息生成文本特征向量;
第一向量转换单元302,用于将所述文本特征向量转换为Milvus向量索引信息,并存储至Milvus数据库中;
第二向量生成单元303,用于在对待匹配文本进行匹配时,通过孪生神经网络结构获取所述待匹配文本中包含语义信息的句子向量;
文本匹配单元304,用于在所述Milvus数据库选取语义相似度最高的前N条Milvus向量索引信息,并基于Milvus向量索引信息和文本特征向量的对应关系,在所述文本资料库中选取对应的前N条文本信息作为待匹配文本的匹配结果。
在一实施例中,所述第一向量生成单元301包括:
编码输出单元,用于将所述文本资料库中的文本信息两两组合,并将组合中的两个文本信息分别依次输入至相同结构的BERT网络模型和平均池化层中,并分别输出得到两个文本信息对应的编码结果,然后将所述编码结果作为两个文本信息对应的文本特征向量。
在一实施例中,所述第一向量转换单元302包括:
归一化单元,用于对所述文本特征向量进行归一化处理,得到归一化的文本特征向量;
第二向量转换单元,用于将归一化的文本特征向量转换为Milvus向量索引信息。
在一实施例中,所述第二向量生成单元303包括:
文本语义表示获取单元,用于将待匹配文本单独输入至BERT网络模型,得到待匹配文本对应的文本语义表示;
向量固定单元,用于通过平均池化层对所述文本语义表示进行向量大小固定,得到所述句子向量。
在一实施例中,所述文本匹配单元304包括:
相似度计算单元,用于利用余弦相似度方法计算所述句子向量与每一所述Milvus向量索引信息的相似度得分;
索引信息选取单元,用于选取相似度得分最高的前N条Milvus向量索引信息。
在一实施例中,如图4所示,所述基于深度学习的文本推荐装置300还包括:
数据集划分单元401,用于选取文本数据集,并将所述文本数据集按照训练集:测试集=7:3的比例划分为训练集和测试集;
训练学习单元402,用于利用所述训练集中的文本数据对所述孪生网络结构进行训练学习,并设置所述孪生网络结构的超参数批处理大小为16,学习率为2e-5;
优化评估单元403,用于采用Adam优化器对所述孪生网络结构进行参数优化,以及采用余弦相似性损失函数对所述孪生网络结构进行性能评估;
参数更新单元404,用于关于利用所述测试集中的文本数据对优化后的孪生网络结构进行参数更新。
在一实施例中,所述基于深度学习的文本推荐装置300还包括:
更新信息获取单元,用于获取文本更新信息,并将所述文本更新信息进行数据清洗后存储至所述文本资料库;
更新存储单元,用于根据所述文本资料库中的文本更新信息,通过孪生神经网络结构生成对应更新文本特征向量,并将所述更新文本特征向量转换为Milvus更新向量索引信息后存储至所述Milvus数据库中。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供了一种计算机设备,可以包括存储器和处理器,存储器中存有计算机程序,处理器调用存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种基于深度学习的文本推荐方法,其特征在于,包括:
采集不同类别的文本信息构建文本资料库,通过孪生神经网络结构为所述文本资料库中的每一文本信息生成文本特征向量;
将所述文本特征向量转换为Milvus向量索引信息,并存储至Milvus数据库中;
在对待匹配文本进行匹配时,通过孪生神经网络结构获取所述待匹配文本中包含语义信息的句子向量;
在所述Milvus数据库选取语义相似度最高的前N条Milvus向量索引信息,并基于Milvus向量索引信息和文本特征向量的对应关系,在所述文本资料库中选取对应的前N条文本信息作为待匹配文本的匹配结果。
2.根据权利要求1所述的基于深度学习的文本推荐方法,其特征在于,所述通过孪生神经网络结构为所述文本资料库中的每一文本信息生成文本特征向量,包括:
将所述文本资料库中的文本信息两两组合,并将组合中的两个文本信息分别依次输入至相同结构的BERT网络模型和平均池化层中,并分别输出得到两个文本信息对应的编码结果,然后将所述编码结果作为两个文本信息对应的文本特征向量。
3.根据权利要求1所述的基于深度学习的文本推荐方法,其特征在于,所述将所述文本特征向量转换为Milvus向量索引信息,并存储至Milvus数据库中,包括:
对所述文本特征向量进行归一化处理,得到归一化的文本特征向量;
将归一化的文本特征向量转换为Milvus向量索引信息。
4.根据权利要求1所述的基于深度学习的文本推荐方法,其特征在于,所述在对待匹配文本进行匹配时,通过孪生神经网络结构获取所述待匹配文本中包含语义信息的句子向量,包括:
将待匹配文本单独输入至BERT网络模型,得到待匹配文本对应的文本语义表示;
通过平均池化层对所述文本语义表示进行向量大小固定,得到所述句子向量。
5.根据权利要求1所述的基于深度学习的文本推荐方法,其特征在于,所述在所述Milvus数据库选取语义相似度最高的前N条Milvus向量索引信息,包括:
利用余弦相似度方法计算所述句子向量与每一所述Milvus向量索引信息的相似度得分;
选取相似度得分最高的前N条Milvus向量索引信息。
6.根据权利要求1所述的基于深度学习的文本推荐方法,其特征在于,还包括:
选取文本数据集,并将所述文本数据集按照训练集:测试集=7:3的比例划分为训练集和测试集;
利用所述训练集中的文本数据对所述孪生神经网络结构进行训练学习,并设置所述孪生神经网络结构的超参数批处理大小为16,学习率为2e-5;
采用Adam优化器对所述孪生神经网络结构进行参数优化,以及采用余弦相似性损失函数对所述孪生神经网络结构进行性能评估;
利用所述测试集中的文本数据对优化后的孪生神经网络结构进行参数更新。
7.根据权利要求1所述的基于深度学习的文本推荐方法,其特征在于,还包括:
获取文本更新信息,并将所述文本更新信息进行数据清洗后存储至所述文本资料库;
根据所述文本资料库中的文本更新信息,通过孪生神经网络结构生成对应更新文本特征向量,并将所述更新文本特征向量转换为Milvus更新向量索引信息后存储至所述Milvus数据库中。
8.一种基于深度学习的文本推荐装置,其特征在于,包括:
第一向量生成单元,用于采集不同类别的文本信息构建文本资料库,通过孪生神经网络结构为所述文本资料库中的每一文本信息生成文本特征向量;
第一向量转换单元,用于将所述文本特征向量转换为Milvus向量索引信息,并存储至Milvus数据库中;
第二向量生成单元,用于在对待匹配文本进行匹配时,通过孪生神经网络结构获取所述待匹配文本中包含语义信息的句子向量;
文本匹配单元,用于在所述Milvus数据库选取语义相似度最高的前N条Milvus向量索引信息,并基于Milvus向量索引信息和文本特征向量的对应关系,在所述文本资料库中选取对应的前N条文本信息作为待匹配文本的匹配结果。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于深度学习的文本推荐方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于深度学习的文本推荐方法。
CN202111255426.8A 2021-10-27 2021-10-27 一种基于深度学习的文本推荐方法、装置及相关介质 Pending CN113704386A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111255426.8A CN113704386A (zh) 2021-10-27 2021-10-27 一种基于深度学习的文本推荐方法、装置及相关介质
PCT/CN2021/129027 WO2023070732A1 (zh) 2021-10-27 2021-11-05 一种基于深度学习的文本推荐方法、装置及相关介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111255426.8A CN113704386A (zh) 2021-10-27 2021-10-27 一种基于深度学习的文本推荐方法、装置及相关介质

Publications (1)

Publication Number Publication Date
CN113704386A true CN113704386A (zh) 2021-11-26

Family

ID=78647112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111255426.8A Pending CN113704386A (zh) 2021-10-27 2021-10-27 一种基于深度学习的文本推荐方法、装置及相关介质

Country Status (2)

Country Link
CN (1) CN113704386A (zh)
WO (1) WO2023070732A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386421A (zh) * 2022-01-13 2022-04-22 平安科技(深圳)有限公司 相似新闻检测方法、装置、计算机设备和存储介质
CN114817511A (zh) * 2022-06-27 2022-07-29 深圳前海环融联易信息科技服务有限公司 基于核主成分分析的问答交互方法、装置及计算机设备
CN115238065A (zh) * 2022-09-22 2022-10-25 太极计算机股份有限公司 一种基于联邦学习的公文智能推荐方法
CN116911641A (zh) * 2023-09-11 2023-10-20 深圳市华傲数据技术有限公司 资助推荐方法、装置、计算机设备及存储介质
CN117574877A (zh) * 2023-11-21 2024-02-20 北京假日阳光环球旅行社有限公司 一种会话文本匹配方法及装置、存储介质、设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384494B (zh) * 2023-06-05 2023-08-08 安徽思高智能科技有限公司 基于多模态孪生神经网络的rpa流程推荐方法及***
CN117762917A (zh) * 2024-01-16 2024-03-26 北京三维天地科技股份有限公司 基于深度学习的医疗器械数据清洗方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413988A (zh) * 2019-06-17 2019-11-05 平安科技(深圳)有限公司 文本信息匹配度量的方法、装置、服务器及存储介质
CN112395385A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 基于人工智能的文本生成方法、装置、计算机设备及介质
EP3848823A1 (en) * 2019-11-13 2021-07-14 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for extracting poi name, device, and computer storage medium

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740126B (zh) * 2019-01-04 2023-11-21 平安科技(深圳)有限公司 文本匹配方法、装置及存储介质、计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413988A (zh) * 2019-06-17 2019-11-05 平安科技(深圳)有限公司 文本信息匹配度量的方法、装置、服务器及存储介质
EP3848823A1 (en) * 2019-11-13 2021-07-14 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for extracting poi name, device, and computer storage medium
CN112395385A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 基于人工智能的文本生成方法、装置、计算机设备及介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386421A (zh) * 2022-01-13 2022-04-22 平安科技(深圳)有限公司 相似新闻检测方法、装置、计算机设备和存储介质
CN114817511A (zh) * 2022-06-27 2022-07-29 深圳前海环融联易信息科技服务有限公司 基于核主成分分析的问答交互方法、装置及计算机设备
CN115238065A (zh) * 2022-09-22 2022-10-25 太极计算机股份有限公司 一种基于联邦学习的公文智能推荐方法
CN116911641A (zh) * 2023-09-11 2023-10-20 深圳市华傲数据技术有限公司 资助推荐方法、装置、计算机设备及存储介质
CN116911641B (zh) * 2023-09-11 2024-02-02 深圳市华傲数据技术有限公司 资助推荐方法、装置、计算机设备及存储介质
CN117574877A (zh) * 2023-11-21 2024-02-20 北京假日阳光环球旅行社有限公司 一种会话文本匹配方法及装置、存储介质、设备
CN117574877B (zh) * 2023-11-21 2024-05-24 北京假日阳光环球旅行社有限公司 一种会话文本匹配方法及装置、存储介质、设备

Also Published As

Publication number Publication date
WO2023070732A1 (zh) 2023-05-04

Similar Documents

Publication Publication Date Title
CN113704386A (zh) 一种基于深度学习的文本推荐方法、装置及相关介质
CN110096567B (zh) 基于qa知识库推理的多轮对话回复选择方法、***
CN114020862B (zh) 一种面向煤矿安全规程的检索式智能问答***及方法
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
CN112463944B (zh) 一种基于多模型融合的检索式智能问答方法及装置
CN112506945B (zh) 基于知识图谱的自适应导学方法及***
CN112328800A (zh) 自动生成编程规范问题答案的***及方法
CN114238653B (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
KR20210070904A (ko) 다중 문서 질의 응답을 위한 방법 및 장치
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN110851584A (zh) 一种法律条文精准推荐***和方法
CN113159187A (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN113064999A (zh) 基于it设备运维的知识图谱构建算法、***、设备及介质
CN115525773A (zh) 知识图谱补全模型的训练方法和装置
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN111460118A (zh) 一种人工智能冲突语义识别方法及装置
Zhao RETRACTED ARTICLE: Application of deep learning algorithm in college English teaching process evaluation
CN117453897A (zh) 一种基于大模型和遗传算法的文档问答方法及***
CN115617954B (zh) 问答方法、装置、电子设备及存储介质
CN113722452B (zh) 一种问答***中基于语义的快速知识命中方法及装置
CN114942981A (zh) 问答查询方法、装置、电子设备及计算机可读存储介质
CN115238705A (zh) 语义解析结果重排序方法及***
CN114417880A (zh) 一种基于电网实训问答知识库的交互式智能问答方法
Wang et al. Refbert: Compressing bert by referencing to pre-computed representations
CN114328860A (zh) 一种基于多模型匹配的交互咨询方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211126