CN114461782A - 一种多特征匹配的文本匹配方法、终端及可读存储介质 - Google Patents

一种多特征匹配的文本匹配方法、终端及可读存储介质 Download PDF

Info

Publication number
CN114461782A
CN114461782A CN202210036918.6A CN202210036918A CN114461782A CN 114461782 A CN114461782 A CN 114461782A CN 202210036918 A CN202210036918 A CN 202210036918A CN 114461782 A CN114461782 A CN 114461782A
Authority
CN
China
Prior art keywords
text
matched
candidate
matching
gram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210036918.6A
Other languages
English (en)
Inventor
夏书银
杨宁
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210036918.6A priority Critical patent/CN114461782A/zh
Publication of CN114461782A publication Critical patent/CN114461782A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种多特征匹配的文本匹配方法、终端及可读存储介质,涉及自然语言处理领域,解决了现有的文本匹配方法忽略了文本中细粒度的信息以及文本整体语义信息,获取待匹配文本、候选文本,对所述待匹配文本、候选文本进行预处理;对预处理后的文本进行基于N‑Gram的多粒度解析,获得不同粒度下的文本序列,将所述文本序列进行向量化,获得文本向量;将所述文本向量列输入深度学***均,获得待匹配文本、候选文本的匹配度;本发明结合细粒度的词项语义信息与粗粒度的文本整体语义信息,提升了文本匹配的准确度。

Description

一种多特征匹配的文本匹配方法、终端及可读存储介质
技术领域
本发明涉及自然语言处理领域,更具体地说,它涉及一种多特征匹配的文本匹配方法、终端及可读存储介质。
背景技术
随着信息时代的飞速发展,各式各样的文本信息充斥着网络世界。在网络搜索中,如何高效高准确的进行文本信息匹配成为了各大互联网平台提供数据搜索服务的有效保障。
现有技术中,文本匹配往往通过单个关键词提取,由深度学习表征方法训练所得的文本整体语义进行匹配。但上述现有方法中,使用关键词会导致忽略文本整体语义信息,使用深度学习表征方法会忽略文本中细粒度的信息导致了文本匹配准确度较低。
因此,需要提供更有效的方法来提升文本匹配方法的准确度。
发明内容
本发明所解决的技术问题是现有的文本匹配方法使用深度学习模型忽略了文本中细粒度的信息或采用关键词忽略了文本整体语义信息,本发明的目的是提供一种多特征匹配的文本匹配方法、终端及可读存储介质,本发明结合细粒度的词项语义信息与粗粒度的文本整体语义信息,进一步提升文本匹配方法的准确度。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种多特征匹配的文本匹配方法,所述方法包括以下步骤:
获取待匹配文本和候选文本,对所述待匹配文本和候选文本进行预处理;
对预处理后的文本进行基于N-Gram的多粒度解析,获得不同粒度下的文本序列,将所述文本序列进行向量化,获得文本向量;
将所述文本向量列输入深度学习语言模型中进行训练,获得待匹配文本和候选文本的编码向量;
将所述待匹配文本编码和候选文本的编码向量进行相似度计算后求和取平均,获得待匹配文本和候选文本的匹配度。
本发明采用基于N-Gram的文本解析方法,将预处理后的文本解析为不同粒度的文本序列,考虑到现有的文本匹配方法使用深度学***均值,基于这个平均值的大小判断待匹配文本与候选文本的匹配程度,基于这个匹配程度获得最接近待匹配文本语义的候选文本。
进一步的,将所述待匹配文本和候选文本的无用符号和停用词去除,采用分词工具对所述待匹配文本和候选文本进行分词处理。
进一步的,以1-Gram,2-Gram和3-Gram三种粒度方式对待匹配文本与候选文本进行解析,其中,分词处理后的结果即为1-Gram所解析的文本序列,2-Gram按照分词处理后的文本序列自身的顺序进行两两组合,3-Gram按照分词处理后的文本序列自身的顺序进行三三组合。
进一步的,将三种粒度解析出的文本序列转化为文本向量矩阵输入深度学习语言模型,分别对三种不同文本解析方式进行训练,获得待匹配文本和候选文本的编码向量。
进一步的,将所述待匹配文本和候选文本的编码向量进行相似度计算的计算式为
Figure RE-GDA0003581805670000021
其中,
Figure RE-GDA0003581805670000022
表示待匹配文本和候选文本在词粒度为n 时的文本相似度,
Figure RE-GDA0003581805670000023
表示待匹配文本的文本表征向量,
Figure RE-GDA0003581805670000024
表示候选文本的文本表征向量。
进一步的,所述待匹配文本和候选文本的匹配度的计算式为
Figure RE-GDA0003581805670000025
其中,
Figure RE-GDA0003581805670000026
表示1-Gram粒度解析的文本相似度,
Figure RE-GDA0003581805670000027
表示2-Gram粒度解析的文本相似度,
Figure RE-GDA0003581805670000028
表示3-Gram粒度解析的文本相似度。
进一步的,对所述待匹配文本进行匹配时,在所述候选文本中计算与所述待匹配文本的匹配度,并根据所述匹配度的数值与相似度阈值进行比较,所述匹配度的数值大于所示相似度阈值返回候选文本的所有排序结果,获得最接近所述待匹配文本语义的候选文本。
进一步的,通过faiss工具包将所述候选文本的编码向量进行索引化,并保存索引化后的编码向量。
一种多特征匹配终端,包括存储器、处理器以及存储在存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明考虑到现有技术的文本匹配方法往往通过单个关键词提取,由深度学习表征方法训练所得的文本整体语义进行匹配,但是使用关键词会导致忽略文本整体语义信息,使用深度学习表征方法也会忽略文本中细粒度的信息,因此本发明采用基于N-Gram的文本解析方法,将文本解析为不同粒度的文本序列,并在匹配阶段采取后其交互的方法在提升匹配准确度,同时满足工业匹配使用的需求。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明结构示意图;
图2为本发明实施例提供的文本匹配模块;
图3为本发明实施例提供的终端的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例一:
如图1所示,本实施例一提供一种多特征匹配的文本匹配方法,方法包括以下步骤:
步骤S1,获取待匹配文本和候选文本,对待匹配文本和候选文本进行预处理;
步骤S2,对预处理后的文本进行基于N-Gram的多粒度解析,获得不同粒度下的文本序列,将所述文本序列进行向量化,获得文本向量;
步骤S3,将所述文本向量列输入深度学习语言模型中进行训练,获得待匹配文本和候选文本的编码向量;
步骤S4,将所述待匹配文本编码和候选文本的编码向量进行相似度计算后求和取平均,获得待匹配文本和候选文本的匹配度。
本发明基于N-Gram(CLM,Chinese Language Model,简称汉语语言模型)的文本解析方法,将预处理后的文本解析为不同粒度的文本序列,考虑到现有的文本匹配方法使用深度学***均值,基于平均值的大小判断待匹配文本与候选文本的匹配程度,基于匹配程度获得最接近待匹配文本语义的候选文本。因此,本发明可以有效联合文本词项信息与文本整体语义信息,在文本匹配时进行多特征语义信息匹配,提高文本匹配的准确度。并且将文本解析为不同粒度的文本序列,并在匹配阶段采取后其交互的方法在提升匹配准确度的同时可满足工业使用的需求。
本申请的又一个实施例中,将待匹配文本和候选文本的无用符号和停用词去除,采用分词工具对待匹配文本和候选文本进行分词处理。
本申请的又一个实施例中,以1-Gram,2-Gram和3-Gram三种粒度方式对待匹配文本与候选文本进行解析,其中,分词处理后的结果即为1-Gram所解析的文本序列,2-Gram按照分词处理后的文本序列自身的顺序进行两两组合,3-Gram按照分词处理后的文本序列自身的顺序进行三三组合。
本申请的又一个实施例中,将三种粒度解析出的文本序列转化为文本向量矩阵输入深度学习语言模型,分别对三种不同文本解析方式进行训练,获得待匹配文本和候选文本的编码向量。
具体的,利用预训练好的词向量,卷积神经网络将三种粒度解析出的文本序列转化为文本向量矩阵,在卷积神经网络中设定卷积核尺寸分别为1、2、3,1、2、3分别表示1-Gram、 2-Gram、3-Gram的卷积核尺寸,利用分组卷积的方法得到不同粒度文本的文本向量矩阵。
本申请的又一个实施例中,将待匹配文本和候选文本的编码向量进行相似度计算的计算式为
Figure RE-GDA0003581805670000041
其中,
Figure RE-GDA0003581805670000042
表示待匹配文本和候选文本在词粒度为n时的文本相似度,
Figure RE-GDA0003581805670000043
表示待匹配文本的文本表征向量,
Figure RE-GDA0003581805670000044
表示候选文本的文本表征向量。
本申请的又一个实施例中,待匹配文本和候选文本的匹配度的计算式为
Figure RE-GDA0003581805670000045
其中,
Figure RE-GDA0003581805670000046
表示1-Gram粒度解析,
Figure RE-GDA0003581805670000047
表示2-Gram粒度解析,
Figure RE-GDA0003581805670000048
表示3-Gram粒度解析。
本申请的又一个实施例中,对待匹配文本进行匹配时,在候选文本中计算与待匹配文本的匹配度,并根据匹配度的数值与相似度阈值进行比较,匹配度的数值大于所示相似度阈值返回候选文本的所有排序结果,获得最接近待匹配文本语义的候选文本。
本申请的又一个实施例中,通过faiss工具包将所述候选文本的编码向量进行索引化,并保存索引化后的编码向量。
本申请实施例一还提供基于多特征匹配的文本匹配示例,如下,以待匹配文本q:“什么播放器可以看世界杯直播?”,候选文本d:“用什么播放器看世界杯直播。”为例说明上述文本匹配方法;
文本预处理的结果如下:
待匹配文本q分词结果:“什么”、“播放器”、“可以”、“看”、世界杯”、“直播”。
候选文本d分词结果:“用”、“什么”、“播放器”、“看”、“世界杯”、“直播”。
基于N-Gram文本解析:待匹配文本q:1-Gram表示“什么”、“播放器”、“可以”、“看”、“世界杯”、“直播”;
2-Gram表示“什么,播放器”、“播放器,可以”、“可以,看”、“看,世界杯”、“世界杯,直播”;
3-Gram表示“什么,播放器,可以”、“播放器,可以,看”、“可以,看,世界杯”、“看,世界杯,直播”;
候选文本d:1-Gram表示“用”、“什么”、“播放器”、“看”、“世界杯”、“直播”;
2-Gram表示“用,什么”、“什么,播放器”、“播放器,看”、“看,世界杯”、“世界杯,直播”;
3-Gram表示“用,什么,播放器”、“什么,播放器,看”、“播放器,看,世界杯”、“看,世界杯,直播”。
文本向量化:采用预训练好的词向量模型,将上述不同粒度序列的文本进行向量化。
待匹配文本对应的文本向量分别表示为:1-Gram表示为
Figure RE-GDA0003581805670000051
2-Gram表示为
Figure RE-GDA0003581805670000052
3-Gram表示为
Figure RE-GDA0003581805670000053
候选文本对应的文本向量分别表示为:1-Gram表示为
Figure RE-GDA0003581805670000054
2-Gram表示为
Figure RE-GDA0003581805670000055
3-Gram表示为
Figure RE-GDA0003581805670000056
将文本向量输入深度学习语言模型的编码层进行训练,通过编码层训练,对输入文本进行语义表征训练输出统一长度为L的文本表征向量。待匹配文本所得到的文本表征向量为: 1-Gram表示为
Figure RE-GDA0003581805670000057
2-Gram表示为
Figure RE-GDA0003581805670000058
3-Gram表示为
Figure RE-GDA0003581805670000059
候选文本所得到的文本表征向量为:1-Gram表示为
Figure RE-GDA00035818056700000510
2-Gram表示为
Figure RE-GDA00035818056700000511
3-Gram表示为
Figure RE-GDA00035818056700000512
相似度数值计算:由以上步骤得到文本表征向量,通过向量计算相似度得分,1-Gram, 2-Gram,3-Gram计算式分别如下:
Figure RE-GDA00035818056700000513
Figure RE-GDA00035818056700000514
计算出
Figure RE-GDA00035818056700000515
最终待匹配文本与候选文本的匹配度得分为:
Figure RE-GDA00035818056700000516
由于相似度数值的阈值在75%,可知本发明实施例二所提供的文本匹配方法满足阈值要求,且本发明所提出匹配方法所得出的阈值远大于75%,可进一步说明本发明所提方法的有准确性。
实施例二:
基于同一构思,本申请实施例二提供一种多特征匹配终端,包括存储器、处理器以及存储在存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的方法的步骤。
图3为本发明实施例一提供的终端的实体结构示意图,如图3所示,该终端可以包括:处理器(processor)310、通信接口(CommunicationsInterface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序,以执行上述各实施例提供的文本匹配方法,例如包括:获取待匹配文本和候选文本,对待匹配文本和候选文本进行预处理;对预处理后的文本进行基于N-Gram的多粒度解析,获得不同粒度下的文本序列,将所述文本序列进行向量化,获得文本向量;将所述文本向量列输入深度学***均,获得待匹配文本和候选文本的匹配度。
具体的,匹配终端还包括线上匹配模块210以及线下预训练模块220,如图2所示,线上匹配模块210和线下预训练模块220,即存储在存储器330中的线下训练模型、索引列表,处理器310对待匹配文本进行编码,通过存储器330中存储所有候选文本的索引,处理器310 进一步计算待匹配文本与候选文本的相似度分数,需要说明的是,此处的相似度分数即为匹配度分数,设定相似度阈值(阈值设定为75%),若相似度分数大于阈值,则处理器310输出并显示所有满足条件的候选文本。
实施例三:
基于同一构思,本申请实施例三提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法的步骤。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read- OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多特征匹配的文本匹配方法,其特征在于,所述方法包括以下步骤:
获取待匹配文本和候选文本,对所述待匹配文本和候选文本进行预处理;
对预处理后的文本进行基于N-Gram的多粒度解析,获得不同粒度下的文本序列,将所述文本序列进行向量化,获得文本向量;
将所述文本向量列输入深度学习语言模型中进行训练,获得待匹配文本和候选文本的编码向量;
将所述待匹配文本编码和候选文本的编码向量进行相似度计算后求和取平均,获得待匹配文本和候选文本的匹配度。
2.根据权利要求1所述的一种多特征匹配的文本匹配方法,其特征在于,将所述待匹配文本和候选文本的无用符号和停用词去除,采用分词工具对所述待匹配文本和候选文本进行分词处理。
3.根据权利要求2所述的一种多特征匹配的文本匹配方法,其特征在于,以1-Gram,2-Gram和3-Gram三种粒度方式对待匹配文本与候选文本进行解析,其中,分词处理后的结果即为1-Gram所解析的文本序列,2-Gram按照分词处理后的文本序列自身的顺序进行两两组合,3-Gram按照分词处理后的文本序列自身的顺序进行三三组合。
4.根据权利要求3所述的一种多特征匹配的文本匹配方法,其特征在于,将三种粒度解析出的文本序列转化为文本向量矩阵输入深度学习语言模型,分别对三种不同文本解析方式进行训练,获得待匹配文本和候选文本的编码向量。
5.根据权利要求4述的一种多特征匹配的文本匹配方法,其特征在于,将所述待匹配文本和候选文本的编码向量进行相似度计算的计算式为
Figure RE-FDA0003581805660000011
n∈(1,2,3);其中,
Figure RE-FDA0003581805660000012
表示待匹配文本和候选文本在词粒度为n时的文本相似度,
Figure RE-FDA0003581805660000018
表示待匹配文本的文本表征向量,
Figure RE-FDA0003581805660000013
表示候选文本的文本表征向量。
6.根据权利要求5所述的一种多特征匹配的文本匹配方法,其特征在于,所述待匹配文本和候选文本的匹配度的计算式为
Figure RE-FDA0003581805660000014
其中,
Figure RE-FDA0003581805660000015
表示1-Gram粒度解析的文本相似度,
Figure RE-FDA0003581805660000016
表示2-Gram粒度解析的文本相似度,
Figure RE-FDA0003581805660000017
表示3-Gram粒度解析的文本相似度。
7.根据权利要求6所述的一种多特征匹配的文本匹配方法,其特征在于,对所述待匹配文本进行匹配时,在所述候选文本中计算与所述待匹配文本的匹配度,并根据所述匹配度的数值与相似度阈值进行比较,所述匹配度的数值大于所示相似度阈值返回候选文本的所有排序结果,获得最接近所述待匹配文本语义的候选文本。
8.根据权利要求4所述的一种多特征匹配的文本匹配方法,其特征在于,通过faiss工具包将所述候选文本的编码向量进行索引化,并保存索引化后的编码向量。
9.一种多特征匹配终端,包括存储器、处理器以及存储在存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-8中任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法的步骤。
CN202210036918.6A 2022-01-13 2022-01-13 一种多特征匹配的文本匹配方法、终端及可读存储介质 Pending CN114461782A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210036918.6A CN114461782A (zh) 2022-01-13 2022-01-13 一种多特征匹配的文本匹配方法、终端及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210036918.6A CN114461782A (zh) 2022-01-13 2022-01-13 一种多特征匹配的文本匹配方法、终端及可读存储介质

Publications (1)

Publication Number Publication Date
CN114461782A true CN114461782A (zh) 2022-05-10

Family

ID=81409034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210036918.6A Pending CN114461782A (zh) 2022-01-13 2022-01-13 一种多特征匹配的文本匹配方法、终端及可读存储介质

Country Status (1)

Country Link
CN (1) CN114461782A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291195A (zh) * 2020-01-21 2020-06-16 腾讯科技(深圳)有限公司 一种数据处理方法、装置、终端及可读存储介质
CN111639502A (zh) * 2020-05-26 2020-09-08 深圳壹账通智能科技有限公司 文本语义匹配方法、装置、计算机设备及存储介质
CN111782896A (zh) * 2020-07-03 2020-10-16 深圳市壹鸽科技有限公司 语音识别后文本处理方法、装置和终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291195A (zh) * 2020-01-21 2020-06-16 腾讯科技(深圳)有限公司 一种数据处理方法、装置、终端及可读存储介质
CN111639502A (zh) * 2020-05-26 2020-09-08 深圳壹账通智能科技有限公司 文本语义匹配方法、装置、计算机设备及存储介质
CN111782896A (zh) * 2020-07-03 2020-10-16 深圳市壹鸽科技有限公司 语音识别后文本处理方法、装置和终端

Similar Documents

Publication Publication Date Title
CN107085581B (zh) 短文本分类方法和装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN111858843B (zh) 一种文本分类方法及装置
CN111259130B (zh) 用于在对话中提供答复语句的方法及装置
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN111859940A (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN113705237A (zh) 融合关系短语知识的关系抽取方法、装置和电子设备
CN111538846A (zh) 基于混合协同过滤的第三方库推荐方法
CN113220862A (zh) 标准问识别方法、装置及计算机设备及存储介质
CN115759119A (zh) 一种金融文本情感分析方法、***、介质和设备
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN112632272B (zh) 基于句法分析的微博情感分类方法和***
CN109753646B (zh) 一种文章属性识别方法以及电子设备
CN117951249A (zh) 基于大语言模型的知识库应答方法及***
CN113158667A (zh) 基于实体关系级别注意力机制的事件检测方法
CN117332788A (zh) 一种基于英语口语文本的语义分析方法
CN111639189A (zh) 一种基于文本内容特征的文本图构建方法
CN114461782A (zh) 一种多特征匹配的文本匹配方法、终端及可读存储介质
CN115906797A (zh) 文本实体对齐方法、装置、设备及介质
CN114722153A (zh) 一种意图分类的方法和装置
CN114428852A (zh) 基于bert预训练模型的中文文本摘要抽取方法及装置
KR102383965B1 (ko) 유사도 점수 및 비유사도 점수를 바탕으로 특허문서의 유사도를 판단하기 위한 방법, 장치 및 시스템
CN112632229A (zh) 文本聚类方法及装置
CN113297346A (zh) 文本意图识别方法、装置、设备及存储介质
CN113722431A (zh) 命名实体关系识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220510