CN117076614A - 基于迁移学习的跨语种文本检索方法及终端设备 - Google Patents

基于迁移学习的跨语种文本检索方法及终端设备 Download PDF

Info

Publication number
CN117076614A
CN117076614A CN202311324461.XA CN202311324461A CN117076614A CN 117076614 A CN117076614 A CN 117076614A CN 202311324461 A CN202311324461 A CN 202311324461A CN 117076614 A CN117076614 A CN 117076614A
Authority
CN
China
Prior art keywords
vector
sample data
text
language
text vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311324461.XA
Other languages
English (en)
Other versions
CN117076614B (zh
Inventor
周凡
刘海亮
苏航
汤武惊
张怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Shenzhen Research Institute of Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Shenzhen Research Institute of Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University, Shenzhen Research Institute of Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202311324461.XA priority Critical patent/CN117076614B/zh
Publication of CN117076614A publication Critical patent/CN117076614A/zh
Application granted granted Critical
Publication of CN117076614B publication Critical patent/CN117076614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于检索技术领域,提供了一种基于迁移学习的跨语种文本检索方法及终端设备,包括:基于预设语种专利数据库构建第一训练集;对跨语种专利检索模型进行训练时,通过跨语种专利检索模型确定每条样本数据对应的高维标签向量、第一高维文本向量及第二高维文本向量,计算每条样本数据对应的高维标签向量与第一高维文本向量之间的第一匹配度,每条样本数据对应的高维标签向量与第二高维文本向量之间的第二匹配度,基于预设损失函数、预设匹配条件及每条样本数据对应的第一匹配度和第二匹配度,对模型参数进行调整;通过训练好的跨语种专利检索模型输出通过目标语种描述的,与检索表达式相匹配的专利公开文本,提高了跨语种文本检索的匹配度。

Description

基于迁移学习的跨语种文本检索方法及终端设备
技术领域
本申请属于检索技术领域,尤其涉及一种基于迁移学习的跨语种文本检索方法及终端设备。
背景技术
跨语种文本检索指以一种语种(即源语种)作为检索表达式,检索出通过另一种语种(即目标语种)描述的相关文本信息。例如,当在跨语种文本检索***中输入中文检索表达式时,跨语种文本检索***会返回通过英文或日文等语种描述的相关文本信息。
现有的跨语种文本检索***通常是先将通过源语种描述的检索表达式翻译为目标语种,再基于通过目标语种描述的检索表达式,在目标语种专利数据库中查找与检索表达式相匹配的文本信息。然而,由于跨语种文本检索***对检索表达式的翻译不一定准确,因此会导致检索结果与检索表达式的匹配度不高。
发明内容
有鉴于此,本申请实施例提供了一种基于迁移学习的跨语种文本检索方法及终端设备,以解决现有的跨语种文本检索方法的检索结果与检索表达式的匹配度不高的技术问题。
第一方面,本申请实施例提供一种基于迁移学习的跨语种文本检索方法,包括:
基于预设语种专利数据库构建第一训练集;所述第一训练集包括多个训练数据组,每个训练数据组包括多条样本数据,每条样本数据均包括专利标签向量、正关联文本向量及负关联文本向量;同一个训练数据组中的各条样本数据的专利标签向量和正关联文本向量是对同一个专利的不同语种版本的专利公开文本对应的专利标签向量和专利文本向量进行排列组合得到的;每条样本数据中的负关联文本向量为不同训练数据组中其他样本数据中的正关联文本向量;
在采用所述第一训练集对跨语种专利检索模型进行训练的过程中,针对所述第一训练集中的每条样本数据,通过所述跨语种专利检索模型确定每条所述样本数据对应的高维标签向量、第一高维文本向量以及第二高维文本向量,并计算每条所述样本数据对应的高维标签向量与第一高维文本向量之间的第一匹配度,以及高维标签向量与第二高维文本向量之间的第二匹配度,且基于预设损失函数、预设匹配条件以及每条所述样本数据对应的第一匹配度和第二匹配度,对所述跨语种专利检索模型的模型参数进行调整;
当接收到通过源语种描述的检索表达式时,通过训练好的跨语种专利检索模型输出通过目标语种描述的,与所述检索表达式相匹配的专利公开文本。
在第一方面的一种可选的实现方式中,所述跨语种专利检索模型包括标签向量编码模块、n个文本向量编码模块以及与n个文本向量编码模块一一对应的n个匹配度计算模块;n为预设语种的总数量;每个所述文本向量编码模块的输出端与对应的所述匹配度计算模块的第一输入端连接;所述标签向量编码模块的n个输出端分别与n个匹配度计算模块的第二输入端连接;n个文本向量编码模块分别对应n个不同的预设语种。
在第一方面的一种可选的实现方式中,所述针对所述第一训练集中的每条样本数据,通过所述跨语种专利检索模型确定每条所述样本数据对应的高维标签向量、第一高维文本向量以及第二高维文本向量,并计算每条所述样本数据对应的高维标签向量与第一高维文本向量之间的第一匹配度,以及高维标签向量与第二高维文本向量之间的第二匹配度,包括:
针对每条样本数据,将所述样本数据中的专利标签向量作为所述标签向量编码模块的输入,将所述样本数据中的正关联文本向量作为与所述正关联文本向量属于同语种的第一文本向量编码模块的输入,将所述样本数据中的负关联向量作为与所述负关联文本向量属于同语种的第二文本向量编码模块的输入;
通过所述标签向量编码模块对所述专利标签向量进行编码,得到所述样本数据对应的高维标签向量;
通过所述第一文本向量编码模块对所述正关联文本向量进行编码,得到所述样本数据对应的第一高维文本向量;
通过所述第二文本向量编码模块对所述负关联文本向量进行编码,得到所述样本数据对应的第二高维文本向量;
通过与所述第一文本向量编码模块对应的第一匹配度计算模块计算所述高维标签向量与所述第一高维文本向量之间的第一匹配度;
通过与所述第二文本向量编码模块对应的第二匹配度计算模块计算所述高维标签向量与所述第二高维文本向量之间的第二匹配度。
在第一方面的一种可选的实现方式中,所述基于预设损失函数、预设匹配条件以及每条所述样本数据对应的第一匹配度和第二匹配度,对所述跨语种专利检索模型的模型参数进行调整,包括:
基于预设损失函数以及每条样本数据对应的第一匹配度和第二匹配度,计算所述跨语种专利检索模型的损失值;所述预设损失函数为:
其中,L为所述跨语种专利检索模型的损失值,n为预设语种的总数量,m为所述第一训练集中训练数据组的总数量,为每条样本数据对应的第一匹配度,/>为每条样本数据对应的第二匹配度,µ为控制系数,µ用于确保每条样本数据对应的第二匹配度大于每条样本数据对应的第一匹配度与µ之和;
在各条所述样本数据对应的第一匹配度满足预设匹配条件的情况下,将所述损失值最小时所述跨语种专利检索模型的各个模型参数的值,确定为所述模型参数的最终值,以完成对所述跨语种专利检索模型的训练;
其中,所述预设匹配条件包括:每条所述样本数据对应的第一匹配度均大于或等于预设匹配度阈值,且每个训练数据组中的任意两条样本数据对应的第一匹配度之间的差值小于或等于预设微差量。
在第一方面的一种可选的实现方式中,所述基于预设语种专利数据库构建第一训练集,包括:
从预设语种专利数据库中下载多个专利的预设语种版本的专利公开文本,同一个专利的所有预设语种版本的专利公开文本组成一个专利文本组;
针对每个所述专利文本组,对所述专利文本组中的所有预设语种版本的专利公开文本的扉页和权利要求书分别进行预处理,得到所述专利文本组中每个预设语种版本的专利公开文本分别对应的专利标签向量和专利文本向量;
将所述专利文本组中各个预设语种版本的专利公开文本对应的专利标签向量和专利文本向量进行排列组合,得到所述专利文本组对应的多条待完善的样本数据;每条所述待完善的样本数据均包括专利标签向量和正关联文本向量;
为每条所述待完善的样本数据添加一个负关联文本向量,以对每条所述待完善的样本数据进行完善,将每个所述专利文本组对应的多条完善后的样本数据分别作为第一训练集的一组训练数据,得到第一训练集。
在第一方面的一种可选的实现方式中,所述针对每个所述专利文本组,对所述专利文本组中的所有预设语种版本的专利公开文本的扉页和权利要求书分别进行预处理,得到所述专利文本组中每个预设语种版本的专利公开文本分别对应的专利标签向量和专利文本向量,包括:
针对每个专利文本组,对所述专利文本组中的每个预设语种版本的专利公开文本的扉页进行分词处理和去停用词处理,得到多个第一分词,将由所有第一分词组成的第一分词序列确定为所述专利公开文本的专利标签向量;
针对每个专利文本组,对所述专利文本组中的每个预设语种版本的专利公开文本的权利要求书进行分词处理和去停用词处理,得到多个第二分词,将由所有第二分词组成的第二分词序列确定为所述专利公开文本的专利文本向量。
第二方面,本申请实施例提供一种终端设备,包括:
数据构建单元,用于基于预设语种专利数据库构建第一训练集;所述第一训练集包括多个训练数据组,每个训练数据组包括多条样本数据,每条样本数据均包括专利标签向量、正关联文本向量及负关联文本向量;同一个训练数据组中的各条样本数据的专利标签向量和正关联文本向量是对同一个专利的不同语种版本的专利公开文本对应的专利标签向量和专利文本向量进行排列组合得到的;每条样本数据中的负关联文本向量为不同训练数据组中其他样本数据中的正关联文本向量;
模型训练单元,用于在采用所述第一训练集对跨语种专利检索模型进行训练的过程中,针对所述第一训练集中的每条样本数据,通过所述跨语种专利检索模型确定每条所述样本数据对应的高维标签向量、第一高维文本向量以及第二高维文本向量,并计算每条所述样本数据对应的高维标签向量与第一高维文本向量之间的第一匹配度,以及高维标签向量与第二高维文本向量之间的第二匹配度,且基于预设损失函数、预设匹配条件以及每条所述样本数据对应的第一匹配度和第二匹配度,对所述跨语种专利检索模型的模型参数进行调整;
文本检索单元,用于当接收到通过源语种描述的检索表达式时,通过训练好的跨语种专利检索模型输出通过目标语种描述的,与所述检索表达式相匹配的专利公开文本。
第三方面,本申请实施例提供另一种终端设备,包括存储器以及存储在所述存储器中并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面任一可选实现方式所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面任一可选实现方式所述的方法。
实施本申请实施例提供的基于迁移学习的跨语种文本检索方法、终端设备及计算机可读存储介质具有以下有益效果:
本申请实施例提供的基于迁移学习的跨语种文本检索方法,通过基于预设语种专利数据库构建第一训练集,在采用第一训练集训练跨语种专利检索模型时,将每条样本数据中通过不同语种描述的专利标签、正关联文本向量及负关联文本向量均映射到同一个高维空间中,得到每条样本数据分别对应的高维标签向量、第一高维文本向量以及第二高维文本向量;再通过计算每条样本数据对应的高维标签向量与第一高维文本向量之间的第一匹配度,高维标签向量与第二高维文本向量之间的第二匹配度;再基于预设损失函数、预设匹配条件以及每条样本数据对应的第一匹配度和第二匹配度,对跨语种专利检索模型的模型参数进行调整,可以使相互匹配的高维标签向量与第一高维文本向量之间的距离更近,使不匹配的高维标签向量与第二高维文本向量之间的距离更远,相对于先对检索表达式进行翻译,再为翻译后的检索表达式匹配检索结果而言,通过将不同语种的检索表达式与专利公开文本均映射到高维空间,可以提高训练完成的跨语种专利检索模型输出的检索结果与检索表达式的匹配度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于迁移学习的跨语种文本检索方法的示意性流程图;
图2为本申请实施例提供的一种跨语种专利检索模型的结构示意图;
图3为本申请实施例提供的一种终端设备的结构示意图;
图4为本申请另一实施例提供的一种终端设备的结构示意图。
具体实施方式
以下实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
在本申请实施例的描述中,技术术语“包括”、“包含”、“具有”及它们的任意变形等都意味着“包括但不限于”,除非是以其他方式另外特别强调。在本申请实施例的描述中,除非另有说明,技术术语“多个”是指两个或多于两个,技术术语“至少一个”、“一个或多个”是指一个、两个或两个以上。技术术语“第一”“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。技术术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本申请实施例提供的基于迁移学***板电脑或台式电脑等。在具体应用中,可以通过对终端设备配置目标脚本文件,由该目标脚本文件描述本申请实施例提供的基于迁移学习的跨语种文本检索方法,令终端设备在需要进行跨语种检索时执行该目标脚本文件,进而执行本申请实施例提供的基于迁移学习的跨语种文本检索方法中的各个步骤。
请参阅图1,为本申请实施例提供的一种基于迁移学习的跨语种文本检索方法的示意性流程图。如图1所示,该基于迁移学习的跨语种文本检索方法可以包括S11~S13,详述如下:
S11,基于预设语种专利数据库构建第一训练集。
其中,预设语种专利数据库的数量可以为多个。预设语种专利数据库例如可以包括英文专利数据库、中文专利数据库、日文专利数据库、韩文专利数据库、德文专利数据库、俄文专利数据库以及西班牙文专利数据库等。本申请实施例对预设语种的类型和数量等不做特别限定。
第一训练集用于对跨语种专利检索模型进行训练。跨语种专利检索模型可以用于实现对专利的跨语种检索。示例性的,跨语种专利检索模型可以在用户输入通过源语种描述的检索表达式的情况下,输出通过目标语种描述的与检索表达式相匹配的专利公开文本。例如,假设源语种为中文,目标语种为英文和日文,则跨语种专利检索模型可以在用户输入通过中文描述的检索表达式的情况下,输出通过英文和日文描述的与检索表达式相匹配的专利公开文本。
第一训练集可以包括多个训练数据组。每个训练数据组可以包括多条样本数据。每条样本数据可以包括专利标签向量、正关联文本向量以及负关联文本向量。其中,同一个训练数据组中的各条样本数据中的专利标签向量和正关联文本向量可以是对同一个专利的不同语种版本的专利公开文本对应的专利标签向量和专利文本向量进行排列组合得到的。每条样本数据中的负关联文本向量可以是从与该条样本数据属于不同训练数据组的任意一条其他样本数据的正关联文本向量中获得的。示例性的,假设预设语种包括英文、中文及日文,那么,第一训练集中的其中一组训练数据包括的内容可以如表1所示。
表1
由于针对任意一个专利公开文本而言,通常可以通过该专利公开文本的扉页的任意文本信息(例如专利名称、说明书摘要或申请人名称等文本中的关键字)查询到该专利公开文本,因此,专利公开文本对应的专利标签向量可以是对专利公开文本的扉页的所有文本信息进行预处理而得到的第一文本向量。
由于每个专利公开文本的权利要求书均不同,即专利公开文本的权利要求书可以对专利公开文本进行唯一标识,因此,专利公开文本对应的专利文本向量可以是对该专利公开文本的权利要求书进行预处理而得到的第二文本向量。
示例性的,预处理可以包括但不限于分词处理和去停用词处理等。
基于此,假设对专利公开文本的扉页的所有文本信息进行预处理得到多个第一分词,则上述第一文本向量可以是由专利公开文本的扉页对应的所有第一分词组成的第一分词序列。假设对专利公开文本的权利要求书进行预处理得到多个第二分词,则上述第二文本向量可以是由专利公开文本的权利要求书对应的所有第二分词组成的第二分词序列。
在一个具体的实现方式中,S11可以包括步骤a1~步骤a4,详述如下:
步骤a1,从预设语种专利数据库中下载多个专利的预设语种版本的专利公开文本,同一个专利的所有预设语种版本的专利公开文本组成一个专利文本组。
可以理解的是,由于同一个专利的所有预设语种版本的专利公开文本的实质内容均相同,只是表现形式不同,因此,为了确保后续能够基于通过不同语种描述但含义相同的检索表达式检索到同一个专利,可以将同一个专利的所有预设语种版本的专利公开文本划分到同一个专利文本组中,从而得到多个专利文本组。其中,同一个专利文本组中的所有专利公开文本均对应同一个专利,不同的专利文本组对应不同的专利。
例如,假设预设语种包括中文、英文及日文,那么从预设语种专利数据库中下载到的专利001对应的第一专利文本组中可以包括专利001的中文版本的专利公开文本、英文版本的专利公开文本以及日文版本的专利公开文本。再例如,假设预设语种包括中文、英文及日文,那么从预设语种专利数据库中下载到的专利002对应的第二专利文本组中可以包括专利002的中文版本的专利公开文本、英文版本的专利公开文本以及日文版本的专利公开文本。
步骤a2,针对每个专利文本组,对专利文本组中的所有预设语种版本的专利公开文本的扉页和权利要求书分别进行预处理,得到专利文本组中每个预设语种版本的专利公开文本分别对应的专利标签向量和专利文本向量。
其中,对专利公开文本的扉页进行预处理可以包括:对专利公开文本的扉页的所有文本信息进行分词处理和去停用词处理,得到多个第一分词,将由所有第一分词组成的第一分词序列确定为专利公开文本对应的专利标签向量。
对专利公开文本的权利要求书进行预处理可以包括:对专利公开文本的权利要求书进行分词处理和去停用词处理,得到多个第二分词,将由所有第二分词组成的第二分词序列确定为专利公开文本对应的专利文本向量。
步骤a3,针对每个专利文本组,将专利文本组中各个预设语种版本的专利公开文本对应的专利标签向量和专利文本向量进行排列组合,得到专利文本组对应的多条待完善的样本数据。
其中,每条待完善的样本数据只包括专利标签向量和正关联文本向量,而不包括负关联文本向量,因此,需要通过为每条待完善的样本数据添加负关联文本向量来对待完善的样本数据进行完善。
需要说明的是,同一个训练数据组中的各条待完善的样本数据中的专利标签向量和正关联文本向量可以是,对同一个专利的不同预设语种的专利公开文本对应的专利标签向量和专利文本向量进行排列组合得到的。示例性的,假设预设语种包括中文、英文及日文,那么,第一训练集中的其中一组训练数据的各条待完善的样本数据可以如表1中左起的第1列和第2列所示。
步骤a4,为每条待完善的样本数据添加一个负关联文本向量,以对每条待完善的样本数据进行完善,将每个专利文本组对应的多条完善后的样本数据分别作为第一训练集的一组训练数据,得到第一训练集。
本申请实施例中,为每条待完善的样本数据添加的负关联文本向量可以来自于,与该条待完善的样本数据属于不同训练数据组的任意一条其他样本数据中的正关联文本向量。示例性的,对于第1组训练数据中的第1条待完善的样本数据,可以将第2组训练数据中的任意一条样本数据中的正关联文本向量作为第1组训练数据中的第1条待完善的样本数据的负关联文本向量。
S12,在采用第一训练集对跨语种专利检索模型进行训练的过程中,针对第一训练集中的每条样本数据,通过跨语种专利检索模型确定每条样本数据对应的高维标签向量、第一高维文本向量以及第二高维文本向量,并计算每条样本数据对应的高维标签向量与第一高维文本向量之间的第一匹配度,以及高维标签向量与第二高维文本向量之间的第二匹配度,且基于预设损失函数、预设匹配条件以及每条样本数据对应的第一匹配度和第二匹配度,对跨语种专利检索模型的模型参数进行调整。
终端设备在构建了第一训练集之后,可以采用第一训练集对跨语种专利检索模型进行训练。示例性的,如图2所示,跨语种专利检索模型可以包括标签向量编码模块21、n个文本向量编码模块22以及n个匹配度计算模块23。
其中,n为预设语种的总数量。n个文本向量编码模块22可以分别对应n个不同的预设语种。示例性的,假设预设语种包括中文、英文及日文,那么,第1个文本向量编码模块22可以为基于中文的文本向量编码模块22,第2个文本向量编码模块22可以为基于英文的文本向量编码模块22,第3个文本向量编码模块22可以为基于日文的文本向量编码模块22。n个文本向量编码模块22可以分别与n个匹配度计算模块23一一对应。每个文本向量编码模块22的输出端可以与对应的匹配度计算模块23的第一输入端链接,标签向量编码模块21的n个输出端可以分别与n个匹配度计算模块23的第二输入端连接。
具体地,标签向量编码模块21可以用于对专利标签向量进行编码,以将专利标签向量转换为高维标签向量。文本向量编码模块22可以用于对专利文本向量进行编码,以将专利文本向量转换为高维文本向量。其中,高维标签向量的维度可以与高维文本向量的维度相同。高维标签向量的纬度和高维文本向量的维度可以根据标签向量编码模块21和文本向量编码模块22的具体架构确定,例如,高维标签向量的纬度和高维文本向量的维度均可以为768维。
作为示例而非限定,标签向量编码模块21和文本向量编码模块22均可以为基于转换器的双向编码器表示(bidirectional encoder representations from transformers,BERT)网络。示例性的,标签向量编码模块21可以为基于多语种的BERT网络。文本向量编码模块22可以为基于单语种的BERT网络。其中,不同的文本向量编码模块22可以采用基于不同语种的BERT网络。例如,假设预设语种包括英文、中文及日文,则第1个文本向量编码模块22可以采用基于英文的BERT网络,第2个文本向量编码模块22可以采用基于中文的BERT网络,第3个文本向量编码模块22可以采用基于日文的BERT网络。
示例性的,BERT网络可以包括词嵌入模型,基于此,可以通过BERT网络中的词嵌入模型将专利标签向量转换为高维标签向量,或者将专利文本向量转换为高维文本向量。需要说明的是,关于BERT网络的具体结构和应用原理等,可以参考现有技术中的相关描述,此处不对其进行详述。
匹配度计算模块23可以用于计算高维标签向量与高维文本向量之间的匹配度。其中,高维标签向量与高维文本向量之间的匹配度可以用于描述高维标签向量与高维文本向量之间的相关性。具体地,高维标签向量与高维文本向量之间的相关性越高,高维标签向量与高维文本向量之间的匹配度越高;高维标签向量与高维文本向量之间的相关性越低,高维标签向量与高维文本向量之间的匹配度越低。示例性的,匹配度计算模块23可以基于余弦相似度算法或欧几里得算法来计算高维标签向量与高维文本向量之间的匹配度。
在采用第一训练集对跨语种专利检索模型进行训练时,针对第一训练集中的每条样本数据,可以将该条样本数据中的专利标签向量作为标签向量编码模块的输入,将该条样本数据中的正关联文本向量作为与该正关联文本向量属于同语种的第一文本向量编码模块的输入,将该条样本数据中的负关联文本向量作为与该负关联文本向量属于同语种的第二文本向量编码模块的输入;通过标签向量编码模块对该条样本数据的专利标签向量进行编码,得到该条样本数据对应的高维标签向量;通过第一文本向量编码模块对该条样本数据的正关联文本向量进行编码,得到该条样本数据对应的第一高维文本向量;通过第二文本向量编码模块对该条样本数据的负关联文本向量进行编码,得到该条样本数据对应的第二高维文本向量;且通过与第一文本向量编码模块对应的第一匹配度计算模块计算该条样本数据对应的高维标签向量与第一高维文本向量之间的第一匹配度,得到该条样本数据对应的第一匹配度;通过与第二文本向量编码模块对应的第二匹配度计算模块计算该条样本数据对应的高维标签向量与第二高维文本向量之间的第二匹配度,得到该条样本数据对应的第二匹配度。之后,再基于预设损失函数、预设匹配条件以及每条样本数据对应的第一匹配度和第二匹配度,对跨语种专利检索模型的模型参数进行调整。
可以理解的是,由于不同的文本向量编码模块是基于不同预设语种的,因此,在对跨语种专利检索模型进行训练时,为了使待编码的专利文本向量能够与文本向量编码模块相适配,在对每条样本数据中的正关联文本向量和负关联文本向量进行编码之前,可以先从多个文本向量编码模块中确定与每条样本数据中的正关联文本向量属于同语种的第一文本向量编码模块,以及与每条样本数据中的负关联文本向量属于同语种的第二文本向量编码模块;之后,再通过第一文本向量编码模块对样本数据中的正关联文本向量进行编码,通过第二文本向量编码模块对样本数据中的负关联文本向量进行编码。需要说明的是,不同样本数据对应的第一文本向量编码模块和第二文本向量编码模块可能不同。
示例性的,若某条样本数据中的正关联文本向量为中文专利文本向量,则可以将n个文本向量编码模块中,基于中文的文本向量编码模块确定为该条样本数据对应的第一文本向量编码模块;若该条样本数据中的负关联文本向量为英文专利文本向量,则可以将n个文本向量编码模块中,基于英文的文本向量编码模块确定为该条样本数据对应的第二文本向量编码模块。
在一个具体的实现方式中,S12中基于预设损失函数、预设匹配条件以及每条所述样本数据对应的第一匹配度和第二匹配度,对所述跨语种专利检索模型的模型参数进行调整,可以包括如下步骤b1~步骤b2,详述如下:
步骤b1,基于预设损失函数以及每条样本数据对应的第一匹配度和第二匹配度,计算跨语种专利检索模型的损失值;预设损失函数为:
其中,L为跨语种专利检索模型的损失值,n为预设语种的总数量,m为第一训练集中训练数据组的总数量,为每条样本数据对应的第一匹配度,/>为每条样本数据对应的第二匹配度,µ为控制系数,µ用于确保每条样本数据对应的第二匹配度大于每条样本数据对应的第一匹配度与µ之和。
需要说明的是,µ可以是用户预先设置的,且在对跨语种专利检索模型进行训练的过程中,可以对µ的值进行调整。
步骤b1,在各条样本数据对应的第一匹配度满足预设匹配条件的情况下,将跨语种专利检索模型的损失值最小时的各个模型参数的值,确定为跨语种专利检索模型的模型参数的最终值,以完成对跨语种专利检索模型的训练。
其中,预设匹配条件可以包括:每条样本数据对应的第一匹配度均大于或等于预设匹配度阈值,且每个训练数据组中的任意两条样本数据对应的第一匹配度之间的差值小于或等于预设微差量。
预设匹配度阈值和预设微差量可以根据实际需求设置,例如,预设匹配度阈值可以为98%,预设微差量可以为2%。
S13,当接收到通过源语种描述的检索表达式时,通过训练好的跨语种专利检索模型输出通过目标语种描述的,与检索表达式相匹配的专利公开文本。
在跨语种专利检索模型训练完成后,终端设备可以通过该训练完成的跨语种专利检索模型实现专利的跨语种检索。示例性的,用户可以在跨语种专利检索模型对应的专利检索框中输入通过源语种描述的检索表达式,并选择目标语种,且触发到检索按钮。其中,目标语种可以为一个,也可以为多个。
终端设备在检测到检索按钮被触发时,可以通过跨语种专利检索模型确定通过源语种描述的检索表达式与目标语种专利数据库中各个专利公开文本之间的匹配度,并将对应的匹配度大于预设匹配度阈值的专利公开文本推送给用户。
在一个具体的实现方式中,在计算通过源语种描述的检索表达式与目标语种专利数据库中各个专利公开文本之间的匹配度之前,可以先对通过源语种描述的检索表达式进行预处理,得到该检索表达式对应的专利标签向量;并对目标语种专利数据库中各个专利公开文本的权利要求书进行预处理,得到各个专利公开文本对应的专利文本向量;再将检索表达式对应的专利标签向量作为跨语种专利检索模型的标签向量编码模块的输入,将各个专利公开文本的专利文本向量作为与专利公开文本属于同语种的文本向量编码模块的输入,通过标签向量编码模块确定检索表达式对应的高维标签向量,通过相应的文本向量编码模块确定各个专利公开文本的高维文本向量;之后,再通过相应的匹配度计算模块计算检索表达式对应的高维标签向量与各个专利公开文本对应的高维文本向量之前的匹配度,从而得到通过源语种描述的检索表达式与各个通过目标语种描述的专利公开文本之间的匹配度。
以上可以看出,本申请实施例提供的基于迁移学习的跨语种文本检索方法,通过构建第一训练集,在采用第一训练集训练跨语种专利检索模型时,将每条样本数据中通过不同语种描述的专利标签、正关联文本向量及负关联文本向量均映射到同一个高维空间中,得到每条样本数据分别对应的高维标签向量、第一高维文本向量以及第二高维文本向量;再通过计算每条样本数据对应的高维标签向量与第一高维文本向量之间的第一匹配度,高维标签向量与第二高维文本向量之间的第二匹配度;再基于预设损失函数、预设匹配条件以及每条样本数据对应的第一匹配度和第二匹配度,对跨语种专利检索模型的模型参数进行调整,可以使相互匹配的高维标签向量与第一高维文本向量之间的距离更近,使不匹配的高维标签向量与第二高维文本向量之间的距离更远,相对于先对检索表达式进行翻译,再为翻译后的检索表达式匹配检索结果而言,通过将不同语种的检索表达式与专利公开文本均映射到高维空间,可以提高训练完成的跨语种专利检索模型输出的检索结果与检索表达式的匹配度。
可以理解的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
基于上述实施例所提供的基于迁移学习的跨语种文本检索方法,本申请实施例进一步给出实现上述方法实施例的终端设备的实施例。请参阅图3,为本申请实施例提供的一种终端设备的结构示意图。为了便于说明,仅示出了与本实施例相关的部分。如图3所示,终端设备30可以包括:数据构建单元31、模型训练单元32以及文本检索单元33。其中:
数据构建单元31用于基于预设语种专利数据库构建第一训练集;所述第一训练集包括多个训练数据组,每个训练数据组包括多条样本数据,每条样本数据均包括专利标签向量、正关联文本向量及负关联文本向量;同一个训练数据组中的各条样本数据的专利标签向量和正关联文本向量是对同一个专利的不同语种版本的专利公开文本对应的专利标签向量和专利文本向量进行排列组合得到的;每条样本数据中的负关联文本向量为不同训练数据组中其他样本数据中的正关联文本向量。
模型训练单元32用于在采用所述第一训练集对跨语种专利检索模型进行训练的过程中,针对所述第一训练集中的每条样本数据,通过所述跨语种专利检索模型确定每条所述样本数据对应的高维标签向量、第一高维文本向量以及第二高维文本向量,并计算每条所述样本数据对应的高维标签向量与第一高维文本向量之间的第一匹配度,以及高维标签向量与第二高维文本向量之间的第二匹配度,且基于预设损失函数、预设匹配条件以及每条所述样本数据对应的第一匹配度和第二匹配度,对所述跨语种专利检索模型的模型参数进行调整。
文本检索单元33用于当接收到通过源语种描述的检索表达式时,通过训练好的跨语种专利检索模型输出通过目标语种描述的,与所述检索表达式相匹配的专利公开文本。
可选的,所述跨语种专利检索模型包括标签向量编码模块、n个文本向量编码模块以及与n个文本向量编码模块一一对应的n个匹配度计算模块;n为预设语种的总数量;每个所述文本向量编码模块的输出端与对应的所述匹配度计算模块的第一输入端连接;所述标签向量编码模块的n个输出端分别与n个匹配度计算模块的第二输入端连接;n个文本向量编码模块分别对应n个不同的预设语种。
可选的,模型训练单元32具体用于:
针对每条样本数据,将所述样本数据中的专利标签向量作为所述标签向量编码模块的输入,将所述样本数据中的正关联文本向量作为与所述正关联文本向量属于同语种的第一文本向量编码模块的输入,将所述样本数据中的负关联向量作为与所述负关联文本向量属于同语种的第二文本向量编码模块的输入;
通过所述标签向量编码模块对所述专利标签向量进行编码,得到所述样本数据对应的高维标签向量;
通过所述第一文本向量编码模块对所述正关联文本向量进行编码,得到所述样本数据对应的第一高维文本向量;
通过所述第二文本向量编码模块对所述负关联文本向量进行编码,得到所述样本数据对应的第二高维文本向量;
通过与所述第一文本向量编码模块对应的第一匹配度计算模块计算所述高维标签向量与所述第一高维文本向量之间的第一匹配度;
通过与所述第二文本向量编码模块对应的第二匹配度计算模块计算所述高维标签向量与所述第二高维文本向量之间的第二匹配度。
可选的,模型训练单元32具体还用于:
基于预设损失函数以及每条样本数据对应的第一匹配度和第二匹配度,计算所述跨语种专利检索模型的损失值;所述预设损失函数为:
其中,L为所述跨语种专利检索模型的损失值,n为预设语种的总数量,m为所述第一训练集中训练数据组的总数量,为每条样本数据对应的第一匹配度,/>为每条样本数据对应的第二匹配度,µ为控制系数,µ用于确保每条样本数据对应的第二匹配度大于每条样本数据对应的第一匹配度与µ之和;
在各条所述样本数据对应的第一匹配度满足预设匹配条件的情况下,将所述损失值最小时所述跨语种专利检索模型的各个模型参数的值,确定为所述模型参数的最终值,以完成对所述跨语种专利检索模型的训练;
其中,所述预设匹配条件包括:每条所述样本数据对应的第一匹配度均大于或等于预设匹配度阈值,且每个训练数据组中的任意两条样本数据对应的第一匹配度之间的差值小于或等于预设微差量。
可选的,数据构建单元31具体用于:
从预设语种专利数据库中下载多个专利的预设语种版本的专利公开文本,同一个专利的所有预设语种版本的专利公开文本组成一个专利文本组;
针对每个所述专利文本组,对所述专利文本组中的所有预设语种版本的专利公开文本的扉页和权利要求书分别进行预处理,得到所述专利文本组中每个预设语种版本的专利公开文本分别对应的专利标签向量和专利文本向量;
将所述专利文本组中各个预设语种版本的专利公开文本对应的专利标签向量和专利文本向量进行排列组合,得到所述专利文本组对应的多条待完善的样本数据;每条所述待完善的样本数据均包括专利标签向量和正关联文本向量;
为每条所述待完善的样本数据添加一个负关联文本向量,以对每条所述待完善的样本数据进行完善,将每个所述专利文本组对应的多条完善后的样本数据分别作为第一训练集的一组训练数据,得到第一训练集。
可选的,数据构建单元31具体还用于:
针对每个专利文本组,对所述专利文本组中的每个预设语种版本的专利公开文本的扉页进行分词处理和去停用词处理,得到多个第一分词,将由所有第一分词组成的第一分词序列确定为所述专利公开文本的专利标签向量;
针对每个专利文本组,对所述专利文本组中的每个预设语种版本的专利公开文本的权利要求书进行分词处理和去停用词处理,得到多个第二分词,将由所有第二分词组成的第二分词序列确定为所述专利公开文本的专利文本向量。
需要说明的是,上述单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参照方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将终端设备的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述终端设备中各单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
请参阅图4,图4为本申请另一实施例提供的一种终端设备的结构示意图。如图4所示,本实施例提供的终端设备4可以包括:处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42,例如基于迁移学习的跨语种文本检索方法对应的程序。处理器40执行计算机程序42时实现上述基于迁移学习的跨语种文本检索方法实施例中的步骤,例如图1所示的S11~S13。或者,处理器40执行计算机程序42时实现上述终端设备实施例中各模块/单元的功能,例如图3所示的单元31~33的功能。
示例性的,计算机程序42可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器41中,并由处理器40执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序42在终端设备4中的执行过程。例如,计算机程序42可以被分割成数据构建单元、模型训练单元以及文本检索单元,各单元的具体功能请参阅图3对应的实施例中的相关描述,此处不赘述。
本领域技术人员可以理解,图4仅仅是终端设备4的示例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
处理器40可以是中央处理单元(central processing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器41可以是终端设备4的内部存储单元,例如终端设备4的硬盘或内存。存储器41也可以是终端设备4的外部存储设备,例如终端设备4上配备的插接式硬盘、智能存储卡(smart media card,SMC)、安全数字(secure digital,SD)卡或闪存卡(flash card)等。进一步地,存储器41还可以既包括终端设备4的内部存储单元也包括外部存储设备。存储器41用于存储计算机程序以及终端设备所需的其他程序和数据。存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中基于迁移学习的跨语种文本检索方法中的各个步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备实现上述各个方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参照其它实施例的相关描述。
需要说明的是,除非另有规定,本申请实施例使用的所有技术术语与属于本申请的技术领域的技术人员通常理解的含义相同。本申请实施例使用的技术术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
本申请实施例的描述中提及的“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于迁移学习的跨语种文本检索方法,其特征在于,包括:
基于预设语种专利数据库构建第一训练集;所述第一训练集包括多个训练数据组,每个训练数据组包括多条样本数据,每条样本数据均包括专利标签向量、正关联文本向量及负关联文本向量;同一个训练数据组中的各条样本数据的专利标签向量和正关联文本向量是对同一个专利的不同语种版本的专利公开文本对应的专利标签向量和专利文本向量进行排列组合得到的;每条样本数据中的负关联文本向量为不同训练数据组中其他样本数据中的正关联文本向量;
在采用所述第一训练集对跨语种专利检索模型进行训练的过程中,针对所述第一训练集中的每条样本数据,通过所述跨语种专利检索模型确定每条所述样本数据对应的高维标签向量、第一高维文本向量以及第二高维文本向量,并计算每条所述样本数据对应的高维标签向量与第一高维文本向量之间的第一匹配度,以及高维标签向量与第二高维文本向量之间的第二匹配度,且基于预设损失函数、预设匹配条件以及每条所述样本数据对应的第一匹配度和第二匹配度,对所述跨语种专利检索模型的模型参数进行调整;
当接收到通过源语种描述的检索表达式时,通过训练好的跨语种专利检索模型输出通过目标语种描述的,与所述检索表达式相匹配的专利公开文本。
2.根据权利要求1所述的方法,其特征在于,所述跨语种专利检索模型包括标签向量编码模块、n个文本向量编码模块以及与n个文本向量编码模块一一对应的n个匹配度计算模块;n为预设语种的总数量;每个所述文本向量编码模块的输出端与对应的所述匹配度计算模块的第一输入端连接;所述标签向量编码模块的n个输出端分别与n个匹配度计算模块的第二输入端连接;n个文本向量编码模块分别对应n个不同的预设语种。
3.根据权利要求2所述的方法,其特征在于,所述针对所述第一训练集中的每条样本数据,通过所述跨语种专利检索模型确定每条所述样本数据对应的高维标签向量、第一高维文本向量以及第二高维文本向量,并计算每条所述样本数据对应的高维标签向量与第一高维文本向量之间的第一匹配度,以及高维标签向量与第二高维文本向量之间的第二匹配度,包括:
针对每条样本数据,将所述样本数据中的专利标签向量作为所述标签向量编码模块的输入,将所述样本数据中的正关联文本向量作为与所述正关联文本向量属于同语种的第一文本向量编码模块的输入,将所述样本数据中的负关联向量作为与所述负关联文本向量属于同语种的第二文本向量编码模块的输入;
通过所述标签向量编码模块对所述专利标签向量进行编码,得到所述样本数据对应的高维标签向量;
通过所述第一文本向量编码模块对所述正关联文本向量进行编码,得到所述样本数据对应的第一高维文本向量;
通过所述第二文本向量编码模块对所述负关联文本向量进行编码,得到所述样本数据对应的第二高维文本向量;
通过与所述第一文本向量编码模块对应的第一匹配度计算模块计算所述高维标签向量与所述第一高维文本向量之间的第一匹配度;
通过与所述第二文本向量编码模块对应的第二匹配度计算模块计算所述高维标签向量与所述第二高维文本向量之间的第二匹配度。
4.根据权利要求2所述的方法,其特征在于,所述基于预设损失函数、预设匹配条件以及每条所述样本数据对应的第一匹配度和第二匹配度,对所述跨语种专利检索模型的模型参数进行调整,包括:
基于预设损失函数以及每条样本数据对应的第一匹配度和第二匹配度,计算所述跨语种专利检索模型的损失值;所述预设损失函数为:
其中,L为所述跨语种专利检索模型的损失值,n为预设语种的总数量,m为所述第一训练集中训练数据组的总数量,为每条样本数据对应的第一匹配度,/>为每条样本数据对应的第二匹配度,µ为控制系数,µ用于确保每条样本数据对应的第二匹配度大于每条样本数据对应的第一匹配度与µ之和;
在各条所述样本数据对应的第一匹配度满足预设匹配条件的情况下,将所述损失值最小时所述跨语种专利检索模型的各个模型参数的值,确定为所述模型参数的最终值,以完成对所述跨语种专利检索模型的训练;
其中,所述预设匹配条件包括:每条所述样本数据对应的第一匹配度均大于或等于预设匹配度阈值,且每个训练数据组中的任意两条样本数据对应的第一匹配度之间的差值小于或等于预设微差量。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述基于预设语种专利数据库构建第一训练集,包括:
从预设语种专利数据库中下载多个专利的预设语种版本的专利公开文本,同一个专利的所有预设语种版本的专利公开文本组成一个专利文本组;
针对每个所述专利文本组,对所述专利文本组中的所有预设语种版本的专利公开文本的扉页和权利要求书分别进行预处理,得到所述专利文本组中每个预设语种版本的专利公开文本分别对应的专利标签向量和专利文本向量;
将所述专利文本组中各个预设语种版本的专利公开文本对应的专利标签向量和专利文本向量进行排列组合,得到所述专利文本组对应的多条待完善的样本数据;每条所述待完善的样本数据均包括专利标签向量和正关联文本向量;
为每条所述待完善的样本数据添加一个负关联文本向量,以对每条所述待完善的样本数据进行完善,将每个所述专利文本组对应的多条完善后的样本数据分别作为第一训练集的一组训练数据,得到第一训练集。
6.根据权利要求5所述的方法,其特征在于,所述针对每个所述专利文本组,对所述专利文本组中的所有预设语种版本的专利公开文本的扉页和权利要求书分别进行预处理,得到所述专利文本组中每个预设语种版本的专利公开文本分别对应的专利标签向量和专利文本向量,包括:
针对每个专利文本组,对所述专利文本组中的每个预设语种版本的专利公开文本的扉页进行分词处理和去停用词处理,得到多个第一分词,将由所有第一分词组成的第一分词序列确定为所述专利公开文本的专利标签向量;
针对每个专利文本组,对所述专利文本组中的每个预设语种版本的专利公开文本的权利要求书进行分词处理和去停用词处理,得到多个第二分词,将由所有第二分词组成的第二分词序列确定为所述专利公开文本的专利文本向量。
7.一种终端设备,其特征在于,包括:
数据构建单元,用于基于预设语种专利数据库构建第一训练集;所述第一训练集包括多个训练数据组,每个训练数据组包括多条样本数据,每条样本数据均包括专利标签向量、正关联文本向量及负关联文本向量;同一个训练数据组中的各条样本数据的专利标签向量和正关联文本向量是对同一个专利的不同语种版本的专利公开文本对应的专利标签向量和专利文本向量进行排列组合得到的;每条样本数据中的负关联文本向量为不同训练数据组中其他样本数据中的正关联文本向量;
模型训练单元,用于在采用所述第一训练集对跨语种专利检索模型进行训练的过程中,针对所述第一训练集中的每条样本数据,通过所述跨语种专利检索模型确定每条所述样本数据对应的高维标签向量、第一高维文本向量以及第二高维文本向量,并计算每条所述样本数据对应的高维标签向量与第一高维文本向量之间的第一匹配度,以及高维标签向量与第二高维文本向量之间的第二匹配度,且基于预设损失函数、预设匹配条件以及每条所述样本数据对应的第一匹配度和第二匹配度,对所述跨语种专利检索模型的模型参数进行调整;
文本检索单元,用于当接收到通过源语种描述的检索表达式时,通过训练好的跨语种专利检索模型输出通过目标语种描述的,与所述检索表达式相匹配的专利公开文本。
8.根据权利要求7所述的终端设备,其特征在于,所述跨语种专利检索模型包括标签向量编码模块、n个文本向量编码模块以及与n个文本向量编码模块一一对应的n个匹配度计算模块;n为预设语种的总数量;每个所述文本向量编码模块的输出端与对应的所述匹配度计算模块的第一输入端连接;所述标签向量编码模块的n个输出端分别与n个匹配度计算模块的第二输入端连接;n个文本向量编码模块分别对应n个不同的预设语种。
9.一种终端设备,其特征在于,包括存储器以及存储在所述存储器中并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法。
CN202311324461.XA 2023-10-13 2023-10-13 基于迁移学习的跨语种文本检索方法及终端设备 Active CN117076614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311324461.XA CN117076614B (zh) 2023-10-13 2023-10-13 基于迁移学习的跨语种文本检索方法及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311324461.XA CN117076614B (zh) 2023-10-13 2023-10-13 基于迁移学习的跨语种文本检索方法及终端设备

Publications (2)

Publication Number Publication Date
CN117076614A true CN117076614A (zh) 2023-11-17
CN117076614B CN117076614B (zh) 2024-02-02

Family

ID=88713716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311324461.XA Active CN117076614B (zh) 2023-10-13 2023-10-13 基于迁移学习的跨语种文本检索方法及终端设备

Country Status (1)

Country Link
CN (1) CN117076614B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528681A (zh) * 2020-12-18 2021-03-19 北京百度网讯科技有限公司 跨语言检索及模型训练方法、装置、设备和存储介质
US20220318255A1 (en) * 2021-04-05 2022-10-06 Baidu Usa Llc Cross-lingual language models and pretraining of cross-lingual language models
CN115718904A (zh) * 2022-11-11 2023-02-28 北京金山数字娱乐科技有限公司 文本处理方法及装置
CN116204622A (zh) * 2023-02-23 2023-06-02 南京大学 一种跨语言稠密检索中的查询表示增强方法
US20230274100A1 (en) * 2022-02-28 2023-08-31 Google Llc Techniques and Models for Multilingual Text Rewriting
CN116757188A (zh) * 2023-06-29 2023-09-15 华东理工大学 一种基于对齐查询实体对的跨语言信息检索训练方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528681A (zh) * 2020-12-18 2021-03-19 北京百度网讯科技有限公司 跨语言检索及模型训练方法、装置、设备和存储介质
US20220318255A1 (en) * 2021-04-05 2022-10-06 Baidu Usa Llc Cross-lingual language models and pretraining of cross-lingual language models
US20230274100A1 (en) * 2022-02-28 2023-08-31 Google Llc Techniques and Models for Multilingual Text Rewriting
CN115718904A (zh) * 2022-11-11 2023-02-28 北京金山数字娱乐科技有限公司 文本处理方法及装置
CN116204622A (zh) * 2023-02-23 2023-06-02 南京大学 一种跨语言稠密检索中的查询表示增强方法
CN116757188A (zh) * 2023-06-29 2023-09-15 华东理工大学 一种基于对齐查询实体对的跨语言信息检索训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘伟成;***;孙吉红;: "基于KCCA的跨语言专利信息检索研究", 情报科学, no. 05, pages 751 - 755 *

Also Published As

Publication number Publication date
CN117076614B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
WO2020224219A1 (zh) 中文分词方法、装置、电子设备及可读存储介质
WO2022142011A1 (zh) 一种地址识别方法、装置、计算机设备及存储介质
CN110765785B (zh) 基于神经网络的中英翻译方法、及其相关设备
CN110825857B (zh) 多轮问答识别方法、装置、计算机设备及存储介质
CN110909122B (zh) 一种信息处理方法及相关设备
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN112347758B (zh) 文本摘要的生成方法、装置、终端设备及存储介质
CN111459977B (zh) 自然语言查询的转换
CN110866098B (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
AU2020372605B2 (en) Mapping natural language utterances to operations over a knowledge graph
US20210200952A1 (en) Entity recognition model training method and entity recognition method and apparatus using them
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
WO2019028990A1 (zh) 代码元素的命名方法、装置、电子设备及介质
CN111368037A (zh) 基于Bert模型的文本相似度计算方法和装置
CN111104802A (zh) 一种地址信息文本的提取方法及相关设备
CN109145083B (zh) 一种基于深度学习的候选答案选取方法
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN106933824B (zh) 在多个文档中确定与目标文档相似的文档集合的方法和装置
CN112328655A (zh) 文本标签挖掘方法、装置、设备及存储介质
CN112446405A (zh) 一种家电客服的用户意图引导方法及智能家电
CN116028722B (zh) 一种基于词向量的岗位推荐方法、装置及计算机设备
CN117076614B (zh) 基于迁移学习的跨语种文本检索方法及终端设备
CN106919565B (zh) 一种基于MapReduce的文档检索方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant