CN114416979A - 一种文本查询方法、设备和存储介质 - Google Patents

一种文本查询方法、设备和存储介质 Download PDF

Info

Publication number
CN114416979A
CN114416979A CN202111663305.7A CN202111663305A CN114416979A CN 114416979 A CN114416979 A CN 114416979A CN 202111663305 A CN202111663305 A CN 202111663305A CN 114416979 A CN114416979 A CN 114416979A
Authority
CN
China
Prior art keywords
text
word
model
preset
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111663305.7A
Other languages
English (en)
Inventor
焦彦嘉
王义山
谷松涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jujun Technology Co ltd
Original Assignee
Shanghai Jujun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jujun Technology Co ltd filed Critical Shanghai Jujun Technology Co ltd
Priority to CN202111663305.7A priority Critical patent/CN114416979A/zh
Publication of CN114416979A publication Critical patent/CN114416979A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种文本查询方法、设备和存储介质。获取标准训练数据集,基于标准训练数据集对目标文本分类模型进行训练,调用目标文本分类模型,将待分类文本输入目标文本分类模型进行相关性匹配,获取目标文本分类模型输出的文本分类结果,在待分类文本匹配至服务器后台的情况下,标记为待分词文本并进行分词,得到的分词结果中包括各分词对应的词向量;计算词向量与预置目标词表中的单词对应词向量模型之间的相似度,输出对应的类别信息。通过本申请提出的技术方案对登记文件进行***全面的查询,能准确查询登记文件的重复登记情况,同时可以减少重复判断误判率,进一步地避免了用户由于更换文本描述导致出现查询出现遗漏的情况,提高了查询重复登记文件的效率。

Description

一种文本查询方法、设备和存储介质
技术领域
本申请信息处理技术领域,尤其涉及一种文本查询方法、设备和存储介质。
背景技术
当金融机构等领域在对动产信息进行业务登记时,会到服务器后台去查询该动产信息是否已经进行了登记,这就需要对服务器后台和第三方服务器的登记文件的为文本进行查询,以便审核待登记的文本文件中的信息是否已经在服务器后台或者第三方服务器登记,此时需要对文本登记文件进行预先查询,判断是否出现重复登记。于现有技术中,当文本登记文件的详细信息没有完整记载于后台服务的情况下,简单关键词的搜索无法检索到该登记文件,如果需要进一步信息核实文本文件是否登记,需要人工查询出现登记信息的第三方服务器去进一步查询,容易遗漏,当存在同一登记文件的近似表达时,输入的相关查询信息往往采用人工的方式进行信息审核。这种人工审核方式的缺陷:一方面在于审核的精度依然审核人的经验,经常发生错误且效率低下;另一方面在于虽然文本字面上信息不一致,但实际上两者属于同一信息,例如,“A公司办公用具”和“A公司办公设备”两者虽然文本字面上信息不一致,但两者实际上指向的同一登记文件,在上述情况下,简单关键词或者人工审核查询很难去获取准确信息。
基于以上现有技术,亟需一种文本查询方法,进一步精准地实现登记文件的文本信息匹配查询。
发明内容
本申请提供一种文本查询查询方法通过语义理解的方法实现文本相似度识别和重复文本的查询,进而实现通过语义理解的方法,登记文件进行***全面的查询,能准确查询登记文件的登记的具体平台同时减少了误判率及避免了用户由于更换文本描述导致出现遗漏,提高了查询重复登记文件的效率。
本发明的第一方面提供了一种文本查询方法,具体包括:
获取标准训练数据集,训练数据集中包括正样本和负样本,正样本包括在服务器后台存储的第一文本集合;负样本包括在至少一个第三方服务器存储的第二文本集合;
基于标准训练数据集对目标文本分类模型进行训练;
调用目标文本分类模型,将待分类文本输入目标文本分类模型进行相关性匹配,获取目标文本分类模型输出的文本分类结果;
根据文本分类结果判断待分类文本属于服务器后台或第三方服务器,在待分类文本匹配至服务器后台的情况下,标记为待分词文本并进行分词,得到的分词结果中包括各分词对应的词向量;
计算词向量与预置目标词表中的单词对应词向量模型之间的相似度,输出对应的类别信息。
在本申请的一种可能实现方式中,基于第一损失函数获取包括第一文本集合的损失值,基于第二损失函数获取包括第二文本集合的损失值;
基于包括第一文本集合的损失值和包括第二文本集合的损失值,确定标准训练数据集的损失值;
利用标准训练数据集的损失值,调整预设Bert模型的模型参数值,对目标文本分类模型进行训练。
进一步地,在预设Bert模型训练的基础上,根据预设规则获取标准训练数据集的文本信息的句向量、词性向量对应更新全连接层和输出层结构的参数值,构成调整模型;
根据损失函数对调整模型进行迭代训练,计算参数值迭代训练过程中的损失函数值。
进一步地,在第一损失函数和第二损失函数的数值收敛的情况下,判断第一损失函数和第二损失函数的数值是否小于预设阈值;
若是,统计标准训练数据集中测试文本的准确率,在测试文本的准确率大于预设准确的情况下,结束训练过程,保存模型结构为目标文本分类模型。
进一步地,在预设Bert模型输出层加上Softmax函数;
将预设标注的训练数据集对应的特征向量以Softmax函数进行分类以获得损失函数,根据损失函数对调整模型进行迭代训练。
在本申请的一种可能实现方式中,在待分类文本的指定位置添加分割符标识,将添加分割符标识后的待查询文本输入目标文本分类模型中;
根据目标文本分类模型对待分类文本与已登记文本文件进行相关性匹配度。
在本申请的一种可能实现方式中,根据预设文本查询词典对待分词文本进行文本映射。
进一步地,在文本映射为空的情况下,将待分词文本通过基于概率统计分词模型进行分词,得到与待分词文本对应的分词结果;
通过用于将单词转化为向量的Word2Vec模型获取分词结果中各分词对应的词向量序列。
在本申请的一种可能实现方式中,将词向量序列输入离线模型,计算词向量和经过离线模型训练的预置目标类别词表在文本空间的文本相似度;
对词向量和预置目标类别词表基于相同词项、词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到词向量和预置目标类别词表的最终相似度。
进一步地,获取预训练语句进行分词获得对应的分词集,将分词集利用独热编码处理获取词向量集;
获取预训练语句对应的词语序列的中心词语,确定中心词语对应的中心词向量;
将词向量集输入至预先训练完成的离线模型,保留中心词语对应的中心词向量序列为预置目标类别词表。
本申请的第二方面,提供了一种电子设备包括存储器,存储器用于存储处理程序;处理器,处理器执行处理程序时实现前述任意一项的文本查询方法。
本申请的第二方面,提供了一种可读存储介质,其特征在于,可读存储介质上存储有处理程序,处理程序被处理器执行时实现如前述任意一项的文本查询方法。
本发明具备以下有益技术效果:
1、通过本申请提出的技术方案,通过大量预设标准训练数据集对文本分类模型进行训练,实现对预登记在服务器后台的登记文件或者已经完成登记的登记文件的内容进行精确的语义理解,以便对出现在第三方服务器的登记文件进行精准查询。
2、通过对属于的待分词文本进行分词,结合服务器后台训练完成的离线模型实现的登记文件的近似词语表达进行精准筛查,准确判断多个近似表达是否为同一文本表达,减少了登记文件重复登记的误判率,并且及时筛选出重复登记的文本文件,避免了用户重复登记,并提高了登记文件的登记准确率和效率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1根据本申请的具体实施例,示出了一种文本查询方法的流程示意图;
图2根据本申请的具体实施例,示出了一种Bert框架结构示意图;
图3根据本申请的具体实施例,示出了一种文本查询的原理流程示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
为了解决现有技术中依靠人工审核方式查询登记文件的重复登记,同时对出现在服务器后台的登记文件的近似词语表达审核不精确、审核效率低的问题。本申请提出了一种文本查询方法、设备和可读介质。实现通过预先训练完成的模型对登记文本进行查询,实现登记位置的精准查询及同一服务器后台的近似词语表达实现精准查询,避免了同一个登记文件的重复登记,同时可以提高查询登记文件重复登记的效率和准确度,进一步地避免了用户由于更换文本描述导致出现查询出现遗漏的情况。
具体地,基于对相似文本及重复文本的查询方法的认知,以下将对应用于文本登记文件登记平台的文本查询方法进行说明。
本申请的一些实施例中,随着计算机算力的不断提升和大规模语料库的不断公布,越来越多的通用语言表征的预训练模型涌现。可以基于人工智能技术对相关的数据(如文本登记文件)进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
具体地,图1根据本申请实施例,示出了一种文本查询的流程示意图:
步骤100:获取标准训练数据集,训练数据集中包括正样本和负样本,正样本包括预先存储在服务器后台第一文本集合;负样本包括在至少一个第三方服务器预先存储的第二文本集合。可以理解的是,在对登记文件作为标准训练数据集进行训练前,需要对登记文件进行识别,可以采用OCR(Optical Character Recognition,光学字符识别)模型识别上传在服务器后台和存储在第三方服务器的文本登记文件进行识别,其中文本登记文件的信息可以为文字、字母、数字等文本信息,基于语义理解的方法实现对标准训练数据集进行预先训练需要足够的数据集信息,该数据集至少应该包括在服务器后台登记的所有相关文本信息的文本作为正样本、以及出现在第三方服务器的相关文本信息的文本作为负样本,通过足够预设的训练数据集以实现更为准备的语义识别。
在本申请的一些实施例中,通过OCR技术对待登记文件进行扫描,对该原始登记文件的图像信息进行采集,通过该信息采集实现对文本登记文件的识别,具体地OCR技术可以采用开源的EasyOCR、Chineseocr、PaddleOCR等开源模型实现,在此不做限定。
在本申请的一些实施例中,正样本标签包括但不限于文字、字母、数字等,在一个示例中,正样本标注可以设置为1。在某些实施例中,负样本标签包括但不限于文字、字母、数字等,在一个示例中,负样本标注可以设置为0。进一步地,比如本申请的某些实施例中的文本登记证明文件,大部分都是登记在服务器后台,较少部分是登记在第三方的平台上的,在预设标准训练数据集时,为了防止出现预训练的样本不平衡,数据信息遗漏、防止训练好的模型在文本查询时,偏向识别为文本登记文件登记在服务器后台上,所以预训练模型为了实现训练模型样本的公平和查询的准确度,需要在训练时需要尽可能提高第三方服务器的登记的样本占比。
在本申请的一些实施例中,服务器后台可以是中登网平台,第三方服务器可以是应收款链平台等三方平台的服务器后台,在此不做限定。
步骤200:基于标准训练数据集对目标文本分类模型进行训练。可以理解的是,对于目标文本分类模型进行预训练旨在预先在大规模无标注语料库上进行语言模型的训练以得到通用的、上下文相关的特征表示,并使用这些特征表示对模型初始化,最终在具体的下游任务中对模型的参数值进行微调以达到更好的模型效果。预训练模型可以从大规模语料中学习得到通用的语言表示,有助于提高模型的泛化能力和加速模型收敛,进而实现通过语义理解的方法,对登记文件进行***全面的查询防止出现登记文件的重复登记。
于上述步骤200中,基于第一损失函数获取第一文本集合的损失值,基于第二损失函数获取第二文本集合的损失值;基于第一文本集合的损失值和第二文本集合的损失值,确定标准训练数据集的损失值;利用标准训练数据集的损失值,调整预设Bert模型的模型参数值,对目标文本分类模型进行训练。
具体地,如图2示出了一种Bert预训练模型的架构示意图,可以理解的是,Bert模型是一个经过大量语料经过训练之后的模型,例如,轻量级的Bert模型Bert-Base有12层网络结构,768个隐单元,12个Attention head,共110M参数。经过训练的预设Bert模型为了支持各种下游任务的支持,Bert设计了一种通用的输入Inputs表示,“[CLS]”是可学习的标识符,能捕获文本输入的全局信息,而“[SEP]”仅为输入1和输入2的分割符,预设Bert模型将其输入至双向的Transform erencoder中,通过文本从左向右和从右向左两个方向上的训练得到上下文的双向表示。
在本申请的一些实施例中,为了最终在具体的下游任务对参数进行微调以达到更好的模型效果,采用使用Bert作为预训练模型提取文本的全局特征对于Bert模型进行微调,其中,微调是一个有监督学习过程。具体地,微调模型的实现需要带标准的训练样本可以基于标注的训练标准数据集作为提取样本对Bert模型进行微调,其中,第一损失函数获取第一文本集合的损失值表征了第一文本集合中真实文本类别和预测文本类别之间的差异,第二损失函数获取第二文本集合的损失值表征了第二文本集合中真实文本类别和预测文本类别之间的差异,其中第一损失函数值和/或第二损失函数值越大,第一文本集合和/或第二文本集合中的真实文本类型和预测文本类别之间的差异越大,则说明训练过程中的目标文本分类模型的文本分类效果越差。基于此,通过第一损失函数和/或第二损失函数数值对微调模型的损失函数值进行进一步计算,可基于损失函数的值对目标分类模型进行进一步调整,以在下一次训练时采用调整后的目标分类模型。
在本申请的一些实施例中,在预设Bert模型训练的基础上,根据预设规则获取标准训练数据集的文本信息的句向量、词性向量对应更新全连接层和输出层结构的参数值,构成调整模型;根据损失函数对调整模型进行迭代训练,计算参数值迭代训练过程中的损失函数值。可以理解的是,首先加载固定的Bert模型参数,也就是模型参数的初始化值不是随机的,是根据已有的参数值来初始化的。使用同样的网络结构,使用同样的参数,根据特定的分类任务,在此训练模型,此过程中参数的名字和个数都不会发生变化,只是参数值发生了变化,其中参数值的改变根据预设规则获取标准训练数据句向量、词性向量,进而调整Bert模型全连接层和输出层结构的参数值。
在本申请的一些实施例中,进一步地,在损失函数的数值收敛的情况下,判断损失函数的数值是否小于预设损失函数预设阈值;若是,统计标准训练数据集中测试文本的准确率,在测试文本的准确率大于预设准确率的情况下,结束训练过程,保存模型结构为目标文本分类模型。可以理解的是,在对目标文本分类模型训练的时候可以对预先获取的训练数据集进行按照一定的比例进一步划分,分别标记为作为训练数据的第一或第二文本集合、作为测试集的测试文本,比如获取预选获取的数据集合计为1000,可以根据目标文本分类模型实际所需的准确率、精度等按照一定比例去划分,比如可以将作为训练数据和测试文本按照7:3或8:2等相应的比例进行划分,在此不做限定。
进一步地,在预设Bert模型输出层加上Softmax函数;将预设标注的训练数据集对应的特征向量以Softmax函数进行分类以获得损失函数,根据损失函数对调整模型进行迭代训练。
可以理解的是,根据损失函数调整模型参数,继续进行迭代训练,模型训练到一定程度。根据预测结果计算第一损失函数和第二损失函数的数值,根据第一损失函数、第二损失函数对预设Bert模型进行迭代更新,并确定迭代更新后的Bert网络模型是否收敛,当迭代更新后的预设Bert模型收敛。进一步地,损失函数可以选择是常见的Softmax的多分类损失函数,也就是在参数迭代训练的时候,对模型进行训练的同时,一边计算损失函数的值,基于已经标注的测试语料来统计当前模型的测试集准确率,当损失函数数值收敛且达到预设的阈值时,对语义理解的准确率进行统计,语义理解的准确率大于预设的准确率的情况下,可以认为目标文本分类模型训练完成。
在本申请的一些实施例中,目标文本分类模型的过程中,认为目标分类模型已经训练完成的标志可以是同时满足作为训练集的第一文本集合和第二文本集合的损失函数处于收敛状态,具体地,在第一损失函数和第二损失函数的数值收敛的情况下,判断第一损失函数和第二损失函数的数值是否小于预设阈值,其中第一损失函数的预设阈值和第二损失的预设阈值均相同为预设阈值;且小于预先设置的损失函数的阈值同时测试文本的准确率大于预设准确率,例如有测试语料10个样本5个是第三方服务器登记,5个服务器后台,当出现此时准确率语义理解的正确数目达到9个的情况下,及该目标文本分类模型对文本的分类查询准确率达到了90%的情况下,,认为此时目标文本分类模型训练完成,可以通过该文本分类模型对输入的待分类文本进行准确分类,。
步骤300:调用目标文本分类模型,将待分类文本输入目标文本分类模型进行相关性匹配,获取目标文本分类模型输出的文本分类结果。可以理解的是,当用户需要对待登记的文本登记文件进行预登记时,需要对登记文件可能登记的位置进行分类处理,通过将待分类的文本输入目标文本分类模型,该目标分类模型经过大量的标准训练数据进行训练,能够通过语义理解对输入的待分类文本可能出现的位置进行预判,当出现新出现的三方平台案例也能准确提示。
于上述步骤300中,在待分类文本的指定位置添加分割符标识,将添加分割符标识后的待查询文本输入目标文本分类模型中;根据目标文本分类模型对待分类文本与已登记文本文件进行相关性匹配度。可以理解的是,待输入服务器后台的信息可以按照输入文本的类型及位置进行分割,或者先根据预定长度将待分类文本分割成与其对应的多个短文本。例如,当输入查询信息包括多个登记文件的特征信息的情况下,根据登记文件进行按照信息类型或者语义进行对输入的文本进行在相应的特征位置分割,通过分割后的文本进一步地输入目标文本分类模型中进行相关性匹配,具体地,具体地,目标文本分类模型可以有效捕捉待分类文本上下文信息,识别查询文本中的多义词,即通过微调模型可以精确获取与多个分割后的文本对应的多个词向量序列,随后生成与上述多个词向量序列对应的多个特征向量;进而根据特征向量得到待分类文本对应的分类结果,具体地也可以通过预设的相似度阈值判断该登记文件的登记位置。
步骤400:根据文本分类结果判断待分类文本属于服务器后台或第三方服务器,在待分类文本匹配至服务器后台的情况下,标记为待分词文本并进行分词,得到的分词结果中包括各分词对应的词向量。可以理解的是,真实的文本信息数据中存在冗余信息,缺省值以及噪音等。本申请所有的数据都是非结构化的数据,因此,数据预处理是整个分类模型必不可少的一环。数据预处理步骤对文本进行分词、去除停用词等预处理操作。分词是文本预处理过程中不可或缺的一个操作,此过程将连续文本转换成词语集合。在本申请中使用分词工具使用hanlp或者jieba分词工具来对语料进行分词处理。并去除文本中的几乎不携带任何信息、只是反映句子语法结构的一些无意义的停用词,如“的”、“得”、“这个”、“那个”等词语。把文本分割,并遍历列表,通过模型逐个计算皇上与这两个词的余弦相似度如果超过了预定的阈值,则认为匹配到近义词。
在上述步骤400之前,根据预设文本查询词典对待分词文本进行文本映射。可以理解的是,可以根据预设的相似度阈值进一步判断该登记文件的登记位置划分为服务器后台,此时可以根据服务器后台可能存储的文本信息,预设近义词、关联词的词典,通过预设文本查询词典与输入的文本信息进行文本映射,查询该文本信息是否已经包括在预设的文本查询字典中,以便进行初步的筛选,当出现信息完全一致的情况下,判断该文本登记为服务器后台的重复信息,否则转入预先训练好的离线模型进行进一步的判断。步骤:500:计算词向量与预置目标词表中的单词对应词向量模型之间的相似度,输出对应的类别信息。可以理解的是,输入查询范围限定在服务器后台的待分词文本,在没有实现文本映射的情况下,表明不存在简单的重复的文件登记重复,此时需要进一步将待分词的文本转化为词向量,将该词向量与经过预训练完成的离线模型中保存的预置目标词表进行相似度的计算,在最终的文本相似度大于预设的相似度的情况下,则认为该文件为已经存在服务器后台登记的文件。
可以理解的是,在文本映射为空的情况下,将待分词文本通过基于概率统计分词模型进行分词,得到与待分词文本对应的分词结果,通过用于将单词转化为向量的Word2Vec模型获取分词结果中各分词对应的词向量序列。通过Word2Vec模型即将词表征为实数值向量的高效工具,将将分词结果所包括的各个分词均转化为词向量序列,进而可以有效的过滤分词结果中的特殊词,敏感词,单个词,特殊符号等,以提高后续提取文本的中心思想时的准确性。
在本申请的一些实施例中,将词向量序列输入离线模型,然后计算词向量序列和经过离线模型训练的预置目标类别词表在文本空间的文本相似度;对词向量和预置目标类别词表基于相同词项、词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到词向量和预置目标类别词表的最终相似度。可以理解的是,当采用余弦相似度作为度量,值域为[0,1],数值越大相似度越高,包含较高相似度,可以由用户设定阈值,例如数值超过0.8的情况下,词语的登记会出现在搜索结果中,进一步基于待分词文本与离线模型的预置目标类别词表基于相同词项、词频的文本相似度及文本空间的文本相似度进行权重计算得到最终的文本相似度。
在本申请的一些实施例中,获取预训练语句进行分词获得对应的分词集,将分词集利用独热编码处理获取词向量集;获取预训练语句对应的词语序列的中心词语,确定中心词语对应的中心词向量;将词向量集输入至预先训练完成的离线模型,保留中心词语对应的中心词向量序列为预置目标类别词表。可以理解的是,预训练语句可以基于第一文本集合获得也可以根据服务器后台输入的所有文本信息获取训练语句,在此不做限定。在本申请的一些实施例中,词向量输入的离线模型可以为词嵌入模型采用word2vec算法中的连续字袋CBOW或skip-gram结构,实现分词,具体地,可以根据周围的单词预测中心单词,在此不做限定。
在本申请的一些实施例中,使用Skip-gram模型计算出关键词相近词在采用Skip-gram模型时,可以通过确定关键词集合中的其中一个关键词作为中心词,使用预设大小的滑动窗口捕获中心词的上下文词,并生成以中心词为中心,长度为滑动窗口大小范围内的上下文词。假设在文本序列中有5个词,[“She”,“likes”,“animals”],滑动窗口大小为skip-window=1,中心词为“likes”,获得与它距离不超过1的上下文词,那么上下文的词即为:“She”、“animals”。
具体地,对中心词和每个上下文词进行独热(one-hot)编码,形成词语矩阵,获取词向量集。例如,[“She”,“likes”,“animals”]的独热编码对分词向量进行初始化主要是采用N位状态寄存器来对N个状态进行编码,,表示为N={0,0,…,1,…,0,0},每个状态都由他独立的寄存器位,并且在任意时候只有一位有效具体地如表1可以给出:
表1独热编码
she [1,0,0,]
likes [0,1,0,]
animals [0,0,1]
将编码后得到的词向量组成词语矩阵。根据中心词和每个上下文词,取出中心词的词向量,损失函数采用适合于类别较多的分类损失函数层次soft-max损失函数。保留中间过程的词向量作为训练好的词向量的数值表示。然后基于余弦相似度算法计算词向量和经过离线模型训练的预置目标类别词表在文本空间的文本相似度,初始化词嵌入模型的映射层与隐藏层之间的权重矩阵,在文本空间的文本相似度进行权重计算,得到中心词和每个上下文词的计算结果,进而得到词向量和预置目标类别词表的最终相似度,通过相似度最终准确的判断输入的待分词文本是否为服务器后台已经登记的文件。
在本申请的一些实施例中,还提供了一种电子设备。该电子设备包括存储器,存储器用于存储处理程序,处理器,处理器执行处理程序时实现如任意一项的文本查询方法。
在本申请的一些实施例中,还提供了一种可读存储介质,可读存储介质上存储有处理程序,处理程序被处理器执行时实现上述任意一项的文本查询方法。
在本申请的一些实施例中,具体地,如图3所示,输入的查询文本可以为待登记文本的特征信息,具体地,通过目标文本分类模型实现对登记文本是否属于第三方服务器进行初步地判断,当待查询的文本属于服务器后台登记的情况下,进一步地通过离线模型对可能出现的近似文本/相似文本输入进行精准判断。
可以理解的是,对于文本查询方法实现过程中,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-only memory,ROM)、随机存取存储器(Random accessmemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请所公开的技术方案所涉及的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
上面结合附图对本公开的实施方式作了详细说明,但是本公开并不限于上述实施方式。即使对本公开做出各种变化,倘若这些变化属于本公开权利要求及其等同技术的范围之内,则仍落入在本公开的保护范围之中。
综上,通过本申请提出的技术方案,通过大量预设标准训练数据集对目标文本分类模型进行训练,实现对预登记在服务器后台的登记文件或者已经完成登记的登记文件的内容进行精确的语义理解,以便对出现在第三方服务器的登记文件进行精准查询。进一步地,通过对属于的待分词文本进行分词,结合服务器后台训练完成的离线模型实现的登记文件的近似词语表达进行精准筛查,准确判断多个近似表达是否为同一文本表达,减少了登记文件重复登记的误判率,并且及时筛选出重复登记的文本文件,避免了用户重复登记,并提高了登记文件的登记准确率和效率
在本公开的***和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

Claims (12)

1.一种文本查询方法,其特征在于,所述的方法包括:
获取标准训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括预先存储在服务器后台第一文本集合;所述负样本包括在至少一个第三方服务器预先存储的第二文本集合;
基于所述标准训练数据集对目标文本分类模型进行训练;
调用所述目标文本分类模型,将待分类文本输入所述目标文本分类模型进行相关性匹配,获取所述目标文本分类模型输出的文本分类结果;
根据所述文本分类结果判断所述待分类文本属于服务器后台或第三方服务器,在所述待分类文本匹配至服务器后台的情况下,标记为待分词文本并进行分词,得到的分词结果中包括各分词对应的词向量;
计算所述词向量与预置目标词表中的单词对应的词向量模型之间的相似度,输出对应的类别信息。
2.根据权利要求1所述的一种文本查询方法,其特征在于,基于所述标准训练数据集对目标文本分类模型进行训练包括:
基于第一损失函数获取包括所述第一文本集合的损失值,基于第二损失函数获取包括所述第二文本集合的损失值;
基于包括所述第一文本集合的损失值和所述包括第二文本集合的损失值,确定所述标准训练数据集的损失值;
利用所述标准训练数据集的损失值,调整所述预设Bert模型的模型参数值,对目标文本分类模型进行训练。
3.根据权利要求2所述的一种文本查询方法,其特征在于,利用所述标准训练数据集的损失值,调整所述预设Bert模型的模型参数值包括:
在所述预设Bert模型训练的基础上,根据预设规则获取所述标准训练数据集的文本信息的句向量、词性向量对应更新全连接层和输出层结构的参数值,构成调整模型;
根据损失函数对所述调整模型进行迭代训练,计算所述参数值迭代训练过程中的损失函数值。
4.根据权利要求3所述的一种文本查询方法,其特征在于,对所述目标文本分类模型进行训练,包括:
在所述第一损失函数和所述第二损失函数的数值收敛的情况下,判断所述第一损失函数和所述第二损失函数的数值是否小于预设阈值;
若是,统计所述标准训练数据集中测试文本的准确率;
在所述测试文本的所述准确率大于预设准确率的情况下,结束训练过程,保存模型结构为所述目标文本分类模型。
5.根据权利要求4所述的一种文本查询方法,其特征在于,根据所述损失函数对所述调整模型进行迭代训练包括:
在所述预设Bert模型输出层加上Softmax函数;
将预设标注的所述训练数据集对应的特征向量以Softmax函数进行分类以获得所述损失函数,根据所述损失函数对所述调整模型进行迭代训练。
6.根据权利要求1所述的一种文本查询方法,其特征在于,将所述待分类文本输入所述目标文本分类模型进行相关性匹配包括:
在所述待分类文本的指定位置添加分割符标识,将添加分割符标识后的所述待查询文本输入所述目标文本分类模型中;
根据所述目标文本分类模型对所述待分类文本与已登记文本文件进行相关性匹配度。
7.根据权利要求1所述的一种文本查询方法,其特征在于,将所述待分词文本并进行分词前包括:
根据预设文本查询词典对所述待分词文本进行文本映射。
8.根据权利要求7所述的一种文本查询方法,其特征在于,将所述待分词文本并进行分词,得到的分词结果中包括各分词对应的词向量序列包括:
在所述文本映射为空的情况下,将所述待分词文本通过基于概率统计分词模型进行分词,得到与所述待分词文本对应的分词结果;
通过用于将单词转化为向量的Word2Vec模型获取所述分词结果中各分词对应的词向量序列。
9.根据权利要求1所述的一种文本查询方法,其特征在于,计算所述词向量与预置目标词表中的单词对应词向量模型之间的相似度包括:
将所述词向量序列输入离线模型,计算所述词向量和经过所述离线模型训练的所述预置目标类别词表在文本空间的文本相似度;
对所述词向量和所述预置目标类别词表基于相同词项、词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到所述词向量和所述预置目标类别词表的最终相似度。
10.根据权利要求9所述的一种文本查询方法,其特征在于,获取经过所述离线模型训练的所述预置目标类别词表包括:
获取预训练语句进行分词获得对应的分词集,将所述分词集利用独热编码处理获取词向量集;
获取预训练语句对应的词语序列的中心词语,确定所述中心词语对应的中心词向量;
将所述词向量集输入至预先训练完成的所述离线模型,保留所述中心词语对应的中心词向量序列为所述预置目标类别词表。
11.一种电子设备,其特征在于,包括:
存储器,所述存储器用于存储处理程序;
处理器,所述处理器执行所述处理程序时实现如权利要求1至10中任意一项所述的文本查询方法。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储有处理程序,所述处理程序被处理器执行时实现如权利要求1至10中任意一项所述的文本查询方法。
CN202111663305.7A 2021-12-30 2021-12-30 一种文本查询方法、设备和存储介质 Pending CN114416979A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111663305.7A CN114416979A (zh) 2021-12-30 2021-12-30 一种文本查询方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111663305.7A CN114416979A (zh) 2021-12-30 2021-12-30 一种文本查询方法、设备和存储介质

Publications (1)

Publication Number Publication Date
CN114416979A true CN114416979A (zh) 2022-04-29

Family

ID=81270603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111663305.7A Pending CN114416979A (zh) 2021-12-30 2021-12-30 一种文本查询方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114416979A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115759734A (zh) * 2022-10-19 2023-03-07 国网物资有限公司 基于指标的电力业务供应链监控方法、装置、设备和介质
CN116010602A (zh) * 2023-01-10 2023-04-25 孔祥山 一种基于大数据的数据调优方法及***
CN116029291A (zh) * 2023-03-29 2023-04-28 摩尔线程智能科技(北京)有限责任公司 关键词识别方法、装置、电子设备和存储介质
CN117292338A (zh) * 2023-11-27 2023-12-26 山东远东保险公估有限公司 基于视频流解析的车辆事故识别和分析方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115759734A (zh) * 2022-10-19 2023-03-07 国网物资有限公司 基于指标的电力业务供应链监控方法、装置、设备和介质
CN115759734B (zh) * 2022-10-19 2024-01-12 国网物资有限公司 基于指标的电力业务供应链监控方法、装置、设备和介质
CN116010602A (zh) * 2023-01-10 2023-04-25 孔祥山 一种基于大数据的数据调优方法及***
CN116010602B (zh) * 2023-01-10 2023-09-29 湖北华中电力科技开发有限责任公司 一种基于大数据的数据调优方法及***
CN116029291A (zh) * 2023-03-29 2023-04-28 摩尔线程智能科技(北京)有限责任公司 关键词识别方法、装置、电子设备和存储介质
CN117292338A (zh) * 2023-11-27 2023-12-26 山东远东保险公估有限公司 基于视频流解析的车辆事故识别和分析方法
CN117292338B (zh) * 2023-11-27 2024-02-13 山东远东保险公估有限公司 基于视频流解析的车辆事故识别和分析方法

Similar Documents

Publication Publication Date Title
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN110727779A (zh) 基于多模型融合的问答方法及***
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112906397B (zh) 一种短文本实体消歧方法
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN115495555A (zh) 一种基于深度学习的文献检索方法和***
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和***
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN114417872A (zh) 一种合同文本命名实体识别方法及***
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN114065749A (zh) 一种面向文本的粤语识别模型及***的训练、识别方法
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成***及生成方法
CN112528653A (zh) 短文本实体识别方法和***
CN115906835B (zh) 一种基于聚类和对比学习的中文问句文本表示学习的方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及***
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN113868389A (zh) 基于自然语言文本的数据查询方法、装置及计算机设备
CN112949313A (zh) 信息处理模型训练方法、装置、设备及存储介质
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination