CN114492470A - 商品标题文本翻译方法及其装置、设备、介质、产品 - Google Patents
商品标题文本翻译方法及其装置、设备、介质、产品 Download PDFInfo
- Publication number
- CN114492470A CN114492470A CN202111665083.2A CN202111665083A CN114492470A CN 114492470 A CN114492470 A CN 114492470A CN 202111665083 A CN202111665083 A CN 202111665083A CN 114492470 A CN114492470 A CN 114492470A
- Authority
- CN
- China
- Prior art keywords
- text
- title text
- title
- domain
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开一种商品标题文本翻译方法及其装置、设备、介质、产品,所述方法包括:获取用于描述商品信息的标题文本,确认该标题文本所携带的至少一个词汇包含多个对应的译文;识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词;构造包含所述领域词的示范模板,将其与该标题文本组合为源语言文本;采用已训练至收敛状态的机器翻译模型对所述源语言文本进行翻译,获得该源语言文本相对应的目标语言文本,从目标语言文本中获得标题文本的译文。本申请通过为待翻译的标题文本添加起引导作用的包含该标题文本的领域词的示范模板,可指导机器翻译模型准确翻译出标题文本所属领域相对应的术语,提升翻译准确度。
Description
技术领域
本申请涉及电商机器翻译技术领域,尤其涉及一种商品标题文本翻译方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
在跨境类型的电商产品中,商品标题翻译是沟通跨境电商卖家与买家之间的关键桥梁,准确的商品标题翻译可以在商品展示描述搜索推荐场景起到至关重要的连接作用。准确的商品标题翻译文本可以大大提升商品在平台中的曝光程度,从而提升跨境电商平台的商品销量以及转化率,然而现有商品标题翻译主要存在以下问题:
机器翻译领域中,传统解决一词多义问题的方式,通常是采用添加不同翻译结果语料来解决,使相应的机器翻译模型经训练习得识别多义译文的能力,但该方法须依赖大量同一词汇的不同翻译语料,而实践中,很多时候数据量难以足量采集,导致模型优化效果较差,因此该方法费时费力且常无法得到理想结果。
改进的方法是对预训练的机器翻译模型实施微调训练,利用小数据集对预训练的机器翻译模型进行微调,但该方式对于语料所属领域信息较不敏感,无法准确获得相关领域的准确翻译结果。
在电商场景中,这种情况更为明显,举例而言,商品分类体系中,可能涉及到同一词汇的不同译义,例如,中文“贴膜”一词,在汽配领域,一般被翻译为英文的“Sticker”,而在手机领域中,则被翻译为“Screen protector”,在对模型实施训练时,由于电商数据库中积累的手机领域中的语料相对于汽配领域中的语料更为丰富,且因商品的标题文本本身长度较短,能提供的上下文信息有限,因此便容易导致模型产生唯一译法,导致汽配领域的商品的标题文本中的“贴膜”易被误译为“Screen protector”。
鉴针对商品标题翻译所存在的问题,本申请人出于满足相关需求的考虑做出相应的探索。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种商品标题文本翻译方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种商品标题文本翻译方法,包括如下步骤:
获取用于描述商品信息的标题文本,确认该标题文本所携带的至少一个词汇包含多个对应的译文;
识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词;
构造包含所述领域词的示范模板,将其与该标题文本组合为源语言文本;
采用已训练至收敛状态的机器翻译模型对所述源语言文本进行翻译,获得该源语言文本相对应的目标语言文本,从目标语言文本中获得标题文本的译文。
具体化的实施例中,获取用于描述商品信息的标题文本,确认该标题文本所携带的至少一个词汇包含多个对应的译文,包括如下步骤:
获取用于描述商品信息的标题文本,对所述标题文本进行分词,获得多个词汇;
查询预设的翻译词典,以判断确认标题文本中的至少一个词汇是否包含多个译文;其中,所述翻译词典包含词汇的源语言文本与其多个不同译文的目标语言文本之间的映射关系数据。
具体化的实施例中,识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词,包括如下步骤:
对所获取的标题文本进行分词,获得多个词汇;
检测所述标题文本的各个词汇是否命中各个领域词典,量化出标题文本命中各个领域词典相对应的命中率,每个领域词典关联一个领域词,且收藏属于其相对应的特定领域的词汇;
判定所述命中率最大的领域词典为与所述标题文本相匹配的领域词典,确定该领域词典相对应的领域词以确定该标题文本相对应的领域类别。
具体化的实施例中,识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词,包括如下步骤:
采用预先训练至收敛状态的标题分类模型,对所获取的标题文本进行分类映射,获得该标题文本相对应的领域类别;
根据所述领域类别获得其相对应的领域词。
具体化的实施例中,构造包含所述领域词的示范模板,将其与该标题文本组合为源语言文本,包括如下步骤:
根据预设规则生成示范模板,使该示范模板中包含所述标题文本相对应的领域词及固定词;
将所述示范模板作为前缀或后缀与所述标题文本相拼接,构成源语言文本。
扩展的实施例中,所述机器翻译模型事为预训练模型,被采用如下步骤实施微调训练:
获取预设的训练数据集中的一个训练样本,该训练样本包括构成平行语料的源语言样本及其相对应的目标语言样本,每个语言样本包括以相应语言表达的示范模板及用于描述商品信息的标题文本,所述示范模板包含其相应的标题文本所对应的领域词;
将所获取的训练样本输入经预训练的所述机器翻译模型对其实施训练,获得该模型对该训练样本中的源语言样本的预测结果;
采用该训练样本的目标语言样本计算该预测结果的损失,获得损失值;
判断所述损失值是否达到预设阈值,当该损失值达到预设阈值时,确认模型训练至收敛状态,终止训练;否则,对模型实施参数回传实现梯度更新,调用所述训练数据集中的下一训练样本对模型实施迭代训练。
扩展的实施例中,获取预设的训练数据集中的一个训练样本之前,包括如下用于制备训练数据集的步骤:
从电商数据库中获取多个商品对象相对应的以语言表达的标题文本和以目标语言表达的标题文本;
识别以源语言表达的标题文本所属的领域类别,确定该领域类别相对应的领域词;
从预设的翻译词典中获得所述标题文本中的词汇关联于该领域词的目标语言译文,修正以目标语言表达的标题文本;
构造包含源语言和目标语言相对应的示范模板,使示范模板包含相应语言表达的所述领域词,将不同语言表达的示范模板分别对应与不同语言表达的所述标题文本相组合,构造出该标题文本相对应的源语言文本与目标语言文本;
将所述源语言文本与所述目标语言文本构成的平行语料存储于训练数据集中,以作为机器翻译模型的训练样本供调用。
适应本申请的目的之一而提供的一种商品标题文本翻译装置,包括:标题获取模块、领域识别模块、模板构造模块,以及翻译执行模块,其中,所述标题获取模块,用于获取用于描述商品信息的标题文本,确认该标题文本所携带的至少一个词汇包含多个对应的译文;所述领域识别模块,用于识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词;所述模板构造模块,用于构造包含所述领域词的示范模板,将其与该标题文本组合为源语言文本;所述翻译执行模块,用于采用已训练至收敛状态的机器翻译模型对所述源语言文本进行翻译,获得该源语言文本相对应的目标语言文本,从目标语言文本中获得标题文本的译文。
具体化的实施例中,所述标题获取模块,包括:标题分词单元,用于获取用于描述商品信息的标题文本,对所述标题文本进行分词,获得多个词汇;多义判别单元,用于查询预设的翻译词典,以判断确认标题文本中的至少一个词汇是否包含多个译文;其中,所述翻译词典包含词汇的源语言文本与其多个不同译文的目标语言文本之间的映射关系数据。
具体化的实施例中,所述领域识别模块,包括:实体识别单元,用于对所获取的标题文本进行分词,获得多个词汇;词典统计单元,用于检测所述标题文本的各个词汇是否命中各个领域词典,量化出标题文本命中各个领域词典相对应的命中率,每个领域词典关联一个领域词,且收藏属于其相对应的特定领域的词汇;领域判定单元,用于判定所述命中率最大的领域词典为与所述标题文本相匹配的领域词典,确定该领域词典相对应的领域词以确定该标题文本相对应的领域类别。
具体化的实施例中,所述领域识别模块,包括:领域分类单元,用于采用预先训练至收敛状态的标题分类模型,对所获取的标题文本进行分类映射,获得该标题文本相对应的领域类别;领域确定单元,用于根据所述领域类别获得其相对应的领域词。
具体化的实施例中,所述模板构造模块,包括:模板生成单元,用于根据预设规则生成示范模板,使该示范模板中包含所述标题文本相对应的领域词及固定词;文本组合单元,用于将所述示范模板作为前缀或后缀与所述标题文本相拼接,构成源语言文本。
扩展的实施例中,所述机器翻译模型事为预训练模型,被置于微调训练装置中实施训练,该微调训练装置包括:
样本调用模块,用于获取预设的训练数据集中的一个训练样本,该训练样本包括构成平行语料的源语言样本及其相对应的目标语言样本,每个语言样本包括以相应语言表达的示范模板及用于描述商品信息的标题文本,所述示范模板包含其相应的标题文本所对应的领域词;
预测输出模块,用于将所获取的训练样本输入经预训练的所述机器翻译模型对其实施训练,获得该模型对该训练样本中的源语言样本的预测结果;
损失计算模块,用于采用该训练样本的目标语言样本计算该预测结果的损失,获得损失值;
迭代决策模块,用于判断所述损失值是否达到预设阈值,当该损失值达到预设阈值时,确认模型训练至收敛状态,终止训练;否则,对模型实施参数回传实现梯度更新,调用所述训练数据集中的下一训练样本对模型实施迭代训练。
扩展的实施例中,所述的微调训练装置,还包括如下用于制备训练数据集的模块:
批量数据获取模块,用于从电商数据库中获取多个商品对象相对应的以语言表达的标题文本和以目标语言表达的标题文本;
批量领域识别模块,用于识别以源语言表达的标题文本所属的领域类别,确定该领域类别相对应的领域词;
批量译文修正模块,用于从预设的翻译词典中获得所述标题文本中的词汇关联于该领域词的目标语言译文,修正以目标语言表达的标题文本;
批量模板构造模块,用于构造包含源语言和目标语言相对应的示范模板,使示范模板包含相应语言表达的所述领域词,将不同语言表达的示范模板分别对应与不同语言表达的所述标题文本相组合,构造出该标题文本相对应的源语言文本与目标语言文本;
数据集构造模块,用于将所述源语言文本与所述目标语言文本构成的平行语料存储于训练数据集中,以作为机器翻译模型的训练样本供调用。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的商品标题文本翻译方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的商品标题文本翻译方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请的优势如下:
首先,本申请中,对于需要执行翻译的标题文本,先判定该标题文本是否包含多个译文的多义词汇,针对包含多译义词汇的标题文本,通过识别该标题文本所属的领域,构造包含该领域相应的领域词的示范模板,与该标题文本组件为源语言文本,由已被对应训练至收敛状态的机器翻译模型对该源语言文本进行翻译,最终从翻译出的目标语言文本中获得其中标题文本相对应的译文。在此过程中,所述示范模板通过包含标题文本所属的领域词,为标题文本的翻译过程提供了更为丰富的上下文信息参考,从而可以引导机器翻译模型更准确地理解语义,给出在标题文本的各个词汇在该标题文本所属的相应领域下的对应译文,使翻译结果更为准确,有效地解决了机器翻译中一词多义的问题。
其次,不难理解,用于解决上述的问题的本申请的机器翻译模型,也被采用相应的语料事先训练至收敛状态,其训练过程所采用的输入与本申请的推理过程所采用的输入是相应的,因此也必然会在其训练样本中引入标题文本相应的示范模板,这种情况下,对于该机器翻译模型而言,尽管不同领域的标题文本可能数据量有限,但在训练样本中引入的示范模板同理起到丰富上下文的作用,因此在解决多义词准确预测的问题上,可以减小对具体领域的训练样本总量的依赖,在该机器翻译模型事先被预训练的情况下,仅采用各个领域少量的训练样本,便可使该机器翻译模型快速收敛,节省语料采集成本以及训练时间成本的同时,还能提升一词多义情况下的预测准确度。
此外,在电商领域的标题文本中实施本申请的技术方案,针对标题文本本身多为关键词罗列导致上下文信息不足的情况,借助携带领域词的示范模板的参考作用,便可使标题文本被正确翻译为相关领域的目标语言文本,而电子商务平台中的标题文本的翻译通常是海量和高频的,因此,对于提升电子商务平台的服务能力,降低各个独立站的翻译成本,以及改善消费者用户的页面阅读体验等,均有深远的积极影响。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的商品标题文本翻译方法的典型实施例的流程示意图;
图2为本申请实施例中基于领域词典确定领域词的过程的流程示意图;
图3为本申请实施例中采用标题分类模型确定领域词的过程的流程示意图;
图4为本申请所采用的机器翻译模型的训练过程的流程示意图;
图5为本申请实施例中构造训练数据集的过程的流程示意图;
图6为本申请的商品标题文本翻译装置的原理框图;
图7为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信***),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位***)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种商品标题文本翻译方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如在本申请的电商平台应用场景中,一般部署在服务器中实施,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,本申请的商品标题文本翻译方法在其典型实施例中,包括如下步骤:
步骤S1100、获取用于描述商品信息的标题文本,确认该标题文本所携带的至少一个词汇包含多个对应的译文:
所述的标题文本,为适于发布到电商平台的商品对象的标题,通常是用于描述一个商品对象的商品信息的词汇的集合,这些词汇可以是不同词性的,例如名词、形容词、动词等,通过这些词汇的集合描述出商品信息的产品特点,以便用户通过标题文本可以迅速了解对应的商品。所述的标题文本一般由电商***推荐生成或由商家用户自定义。相对而言,涉及电商平台中商品的标题文本的翻译,尤其适用于跨境电商平台中,由于跨境电商平台常需要在各国语言版本之间进行相互翻译,因此,其对商品的标题文本的翻译需求更为刚性。
实现本申请的技术方案的计算机程序产品被部署于电商平台中,用于提供商品对象的标题文本的翻译服务,例如,商家用户在根据其中文版本的独立站建设英文版本的独立版本的页面时,将其商品数据库中的各个商品对象的标题文本转换为对应的英文版本;又如,任意用户个别地将某一标题文本从第一语言翻译为第二语言等。
具体而言,可以适应不同具体应用场景相应采用各种方式获得所述的标题文本,例如,在已有的网店后台,商家用户期望将其网店从一国语言版本转换为另一国语言版本时,从原版本网店的商品信息数据库中获取其中的商品的属于源语种表达的标题文本。又如,任意用户可以向电商平台提供的页面输入一个以源语种表达的标题文本,由电商平台的后台调用本方法实现的服务将其翻译为目标语种的标题文本,然后以目标语种的标题文本执行商品搜索。再如,当消费者用户浏览某一电商产品的页面时,电商平台出于产品推荐业务逻辑的需要,获取该用户正在浏览的以外文(源语种)表达的电商产品的标题文本,将其翻译为目标语种(如当前设备默认的本国语言)的标题文本,然后依据目标语种的标题文本搜索出相似电商产品,将电商产品推荐给该消费者用户。
本申请中对标题文本执行翻译的过程,是指将标题文本从其源语言版本,转换为目标语言版本的过程,例如将标题文本从中文转换为英文,转换前后在表意上一致,只是呈现为不同语言的版本。
本实施例中,推荐使用如下具体步骤处理所述的标题文本:
首先,获取用于描述商品信息的标题文本,对所述标题文本进行分词,获得多个词汇:
如前所述,按照各种不同的应用场景,均可获取到所述的标题文本,为了判断出该标题文本是否存在多译义的词汇,可以对该标题文本进行分词处理,以便获得构成该标题文本的多个词汇。
对该标题文本进行分词时,可采用HMM、CRF、SVM、N-Gram、Jieba、深度学习等算法来实施,例如,推荐的一种实施例中,采用预训练至收敛状态的实体识别模型对该标题文本进行词性标注之后,获得相应的多个命名实体,每个命名实体即为该标题文本中的一个词汇。所述的实体识别模型是一种深度学习模型,可采用现有技术中熟知的各种相应的网络模型实施,例如由LSTM基础模型结合CRF条件随机场基础模型所实现的网络模型便可用于实现命名实体识别(NER),对此,本领域技术人员可灵活实现。
然后,查询预设的翻译词典,以判断确认标题文本中的至少一个词汇是否包含多个译文;其中,所述翻译词典包含词汇的源语言文本与其多个不同译文的目标语言文本之间的映射关系数据。
为了配合本申请的实施,以便确认出该标题文本中是否包含至少一个具有多个译义的词汇,预先构造有一个用于多译义词汇查询的翻译词典。该翻译词典中,包含每一个词汇的源语言文本例如中文,到该词汇的目标语言文本例如英文之间的映射关系数据。其中,可适应不同领域构造该词汇的多条映射关系数据,将该词汇在相对应的领域的领域词、该词汇的源语言文本、该词汇在该领域下的目标语言文本构造为同一数据记录进行存储。由此,可通过多条数据记录来表示同一词汇多个译文的多义关系。当然,也可将该翻译词典实现为其他数据存储结构,本领域技术人员对此可灵活实施。
确定出所述标题文本中的多个词汇后,通过针对其中的每个词汇,查询所述的翻译词典中该词汇是否存在多个所述的映射关系数据相对应的目标语言文本,若存在,则可确认该词汇为一词多译文的词汇。本申请中,只要所述标题文本中存在一个这样的一词多译文的词汇,便可为其执行本申请的其他后续步骤;如果不存在这样的词汇,则因不存在多义词汇而不会导致本申请的机器翻译模型对领域术语的错译,这种情况下,可直接将该标题文本输入本申请的机器翻译模型中进行翻译,直接获得其相应的目标语言文本即译文即可。
步骤S1200、识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词:
在前一步骤中确认标题文本包含一词多义的词汇后,本申请希望通过为机器翻译模型提供标题文本相应的领域参考信息,来指导机器翻译模型的正确翻译,为此,需要进一步确定该标题文本所属的领域类别,也即确定该标题文本相对应的领域词。
确定所述标题文本所属的领域类型,可以基于标题文本的语义信息来判别,例如采用事先训练至收敛状态的分类模型来判别出相应的领域类型而确定相应的领域词;也可借助规则匹配来判别,例如通过将标题文本中的各个词汇与各领域的领域词典的匹配程度来比较判别而确定其相关度最高的领域词典,从而确定相应的领域类型及领域词。对此,本领域技术人员可根据此处揭示的原理,灵活实现。本申请后文将通过示例性的实施例,揭示各种相应的优选方式,此处暂且按下不表。
根据所述标题文本确定出的领域类型相对应的领域词,在此处是以源语言文本表示的字符串,其具有标记一个类别的作用,对于本申请的机器翻译模型而言,相当于一个领域类型相对应的固定标签,这一固定标签与相应的标题文本一起出现时,便隐含了一种关联关系,而这一关联关系对于机器翻译模型而言,显然具有正确翻译出标题文本在相应领域的正确译文的指导作用。
步骤S1300、构造包含所述领域词的示范模板,将其与该标题文本组合为源语言文本:
为了刺激事先对应训练至收敛状态的机器翻译模型对一词多义情况的翻译能力,利用所述的领域词构造该标题文本所属的领域类型相对应的示范模板。
为此,可按照如下步骤处理:
首先,根据预设规则生成示范模板,使该示范模板中包含所述标题文本相对应的领域词及固定词:
本申请中,可为示范模板的生成预设生成规则,该生成规则不仅可以在机器翻译模型用于推理的阶段适用,也对应地在该机器翻译模型被训练的过程中进行适用。本实施例中,相应的预设规则用于定义示范模板的格式规范,可以采用正则规则的方式进行定义,一种示例性的格式例如,示范模板的结构被定义为包括固定词及领域词,所述的固定词是适应示范模板所采用的语言给出的一个字符串,用于辅助领域词丰富示范模板自身的语义以提供更丰富的上下文信息,所述的领域词本申请所确定的领域词,能突出标题文本的关联性。
示例而言,所述的示范模板,其中文相对应的源语言文本的生成规则可以表示为“这是在X领域”,其英文相对应的目标语言文本的生成规则可以定义为“It is in X”,此处示例中,生成规则中的“X”即指代相应语言的领域词,而余者则为相应语言下的固定词。
对于一个领域词,其源语言为中文,相应的其源语言文本为“汽摩及配件”,其目标语言为英文,其目标语言文本为“motocycles and accessories”。据此,套用相应的生成规则后,源语言文本的示范模板为“这是在汽摩及配件领域”,目标语言文本的示范模板为“Itis in motocycles and accessories”。
在使用所述机器翻译模型对需翻译的标题文本进行翻译时,需要用到该标题文本相同语言版本的示范模板,例如,该标题文本为中文字符串“越野摩托车贴花贴膜车贴画改装”时,则其相应构造的中文的示范模板“这是在汽摩及配件领域”。
然后,将所述示范模板作为前缀或后缀与所述标题文本相拼接,构成源语言文本:
由于需要借助示范模板为标题文本的翻译过程提供上下文参考信息,因此,进一步需要将相应的示范模板与需翻译的标题文本进行拼接,以构造成待翻译的源语言文本。在进行拼接时,可将所述示范模板作为所述标题文本的前缀或后缀,通常适应机器翻译模型在训练阶段时,所提供的训练样本的格式而定,当在训练时训练样本中以示范模板为前缀,则在此处推理阶段时,也相应将示范模板拼接为标题文本的前缀;同理,当在训练时训练样本中以示范模板为后缀,则在此处推理阶段时,也相应将示范模板拼接为标题文本的后缀。通过训练阶段与推理阶段相对应处理机器翻译模型的输入,能够提升机器翻译模型实施翻译时的准确度。
当然,本领域技术人员还可自行定义所述示范模板的格式,而预先设定相应的生成规则,并不受以上的示例所限,对此,本领域技术人员应当理解,而不应以示范模板的格式变化而约束本申请的创造精神所应涵盖的范围。
步骤S1400、采用已训练至收敛状态的机器翻译模型对所述源语言文本进行翻译,获得该源语言文本相对应的目标语言文本,从目标语言文本中获得标题文本的译文:
所述机器翻译模型,采用深度神经网络模型实现,例如基于Transformer基础模型及以其为基础架构而发展出来的各种适于执行翻译任务的模型,以Transformer为基础模型的深度神经网络模型,具有多头注意力机制,能够通过对输入其中的标题文本的源语言文本的词嵌入向量进行深度的特征交互运算,实现对其深层语义信息的提取,获得相应的文本特征向量,然后在文本特征向量的基础上预测出目标语言相对应的译文,获得标题文本相应的目标语言文本。由于所述机器翻译模型在其编码路径中,各个编码器的多头注意力机制能够实现对标题文本的上下文梳理,参考了所述的示范模板特别是其中的领域词提供的语义,因此,能够更为准确地推理出该领域词相对应的领域下的目标语言文本。不难理解,所述的机器翻译模型预先被训练至收敛状态,后续的实施例中将揭示其两阶段训练过程的示例,此处按下不表。
经所述的机器翻译模型对包含源语言表达的示范文本及标题文本的源语言文本执行翻译之后,将获得该源语言文本相对应的目标语言文本,这一目标语言文本中,既包含该示范模板的目标语言文本,也包含该标题文本的目标语言文本,两者之间,根据输入端的示范模板与标题文本的排列关系对应呈现,因此,只要将其中属性标题文本部分的目标语言文本提取出来,便相应获得了所述标题文本在目标语言下的译文,其中,针对标题文本中所包含的一词多义的词汇而言,其相应的译文便是与该标题文本的领域词相对应的译文,由此获得所述标题文本的正确的翻译结果。例如,前文示例的翻译结果为:“It is inmotorcycles and accessories,off-road motorcycle decals,car stickers,modified”,其中,中文的“贴膜”在此处被翻译为汽配领域的“stickers”,而非手机领域的“screen protector”。
不难理解,本申请中,对于标题文本未包含一词多义的词汇的情况,可以直接跳转到本步骤中,输入该机器翻译模型进行直接翻译,也可获得其相应的目标语言文本,该目标语言文本构成该标题文本的译文,由于源语言的标题文本本身不存在一词多义的词汇,因此,机器翻译模型输出的所述目标语言文本,即为该标题文本正确的译文。
通过本典型实施例及其变通实施例的揭示,可以理解,本申请包含多方面积极优势,包括但不限于如下各方面:
首先,本申请中,对于需要执行翻译的标题文本,先判定该标题文本是否包含多个译文的多义词汇,针对包含多译义词汇的标题文本,通过识别该标题文本所属的领域,构造包含该领域相应的领域词的示范模板,与该标题文本组件为源语言文本,由已被对应训练至收敛状态的机器翻译模型对该源语言文本进行翻译,最终从翻译出的目标语言文本中获得其中标题文本相对应的译文。在此过程中,所述示范模板通过包含标题文本所属的领域词,为标题文本的翻译过程提供了更为丰富的上下文信息参考,从而可以引导机器翻译模型更准确地理解语义,给出在标题文本的各个词汇在该标题文本所属的相应领域下的对应译文,使翻译结果更为准确,有效地解决了机器翻译中一词多义的问题。
其次,不难理解,用于解决上述的问题的本申请的机器翻译模型,也被采用相应的语料事先训练至收敛状态,其训练过程所采用的输入与本申请的推理过程所采用的输入是相应的,因此也必然会在其训练样本中引入标题文本相应的示范模板,这种情况下,对于该机器翻译模型而言,尽管不同领域的标题文本可能数据量有限,但在训练样本中引入的示范模板同理起到丰富上下文的作用,因此在解决多义词准确预测的问题上,可以减小对具体领域的训练样本总量的依赖,在该机器翻译模型事先被预训练的情况下,仅采用各个领域少量的训练样本,便可使该机器翻译模型快速收敛,节省语料采集成本以及训练时间成本的同时,还能提升一词多义情况下的预测准确度。
此外,在电商领域的标题文本中实施本申请的技术方案,针对标题文本本身多为关键词罗列导致上下文信息不足的情况,借助携带领域词的示范模板的参考作用,便可使标题文本被正确翻译为相关领域的目标语言文本,而电子商务平台中的标题文本的翻译通常是海量和高频的,因此,对于提升电子商务平台的服务能力,降低各个独立站的翻译成本,以及改善消费者用户的页面阅读体验等,均有深远的积极影响。
请参阅图2,为了实现对标题文本所属的领域的识别,以便指导机器翻译模型为该标题文本预测出具体领域相关的译文,而应用统计学提出更具体的实现过程,故此,具体化的实施例中,所述步骤S1200、识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词,包括如下步骤:
步骤S1211、对所获取的标题文本进行分词,获得多个词汇:
同理,需对所述标题文本进行分词,其分词所采用的技术手段与前文的示例相同,即:对该标题文本进行分词时,可采用HMM、CRF、SVM、N-Gram、Jieba、深度学习等算法来实施,例如,推荐的一种实施例中,采用预训练至收敛状态的实体识别模型对该标题文本进行词性标注之后,获得相应的多个命名实体,每个命名实体即为该标题文本中的一个词汇。所述的实体识别模型是一种深度学习模型,可采用现有技术中熟知的各种相应的网络模型实施,例如由LSTM基础模型结合CRF条件随机场基础模型所实现的网络模型便可用于实现命名实体识别(NER),对此,本领域技术人员可灵活实现。
步骤S1212、检测所述标题文本的各个词汇是否命中各个领域词典,量化出标题文本命中各个领域词典相对应的命中率,每个领域词典关联一个领域词,且收藏属于其相对应的特定领域的词汇:
所述的领域词典,每个领域词典对应收藏一个特定领域类型相对应的词汇,这些词汇可从电商平台的商品数据库中预先进行数据挖掘获得,每个领域词典并关联该特定领域类型相对应的领域词,例如以该领域词为领域词典的文件名、表名而实现关联,据此,可以通过查询一个词汇是否收藏于某个领域词典,而确定该词汇是否命名该领域词典。然后再综合标题文本中各个词汇命中各个领域词典的概率,来确定该标题文本与何一领域词典具有最大相关度,从而确定该领域词典相对应的领域类型为该标题文本的领域类型,该领域词典的领域词即为用于构造该标题文本的示范模板的领域词。
具体而言,将所述标题文本中的每一个词汇均与预先为每个具体领域类型对应构造的领域词典进行匹配,一般是精准匹配,当一个词汇命中一个领域词典时,加以计数,从而确定出标题文本的所有词汇命中每一个领域词典的命中词汇数,然后,以标题文本中词汇总数m为分母,将每一领域词典的命中词汇数为分子,求取每一领域词典的命中率,最后通过比较各个领域词典的命中率,选取最大命中率相对应的领域词典作为该标题文本相匹配的领域词典,确定该相匹配的领域词典相对应的领域词为该标题文本的领域词。
以公式表示,每个领域词典的命中率为:
其中Ri为第i个领域词典相对应的命中率,m为所述标题文本的词汇总数,ni为标题文本的所有词汇命中第i个领域词典的命中词汇数。
进一步优化的实施例中,可预先在每个领域词典中基于词汇的词性配置差异化权重,例如名词相对于形容词可以获得更高的权重,在统计命中率时,将该词汇在该领域词典中的权重作为其统计系数,每一个领域词典的所有命中的词汇与此统计系数相乘后求和作为前一公式中的分子求取该领域词典的命中率,既能使最终计得的所有领域词典下的命中率体现稀疏性,也能实现根据词性的作用,区别不同词汇在确定领域词过程中的作用,使得为标题文本所确定出的领域词更能精准反映标题文本相对应的实际领域。
步骤S1213、判定所述命中率最大的领域词典为与所述标题文本相匹配的领域词典,确定该领域词典相对应的领域词以确定该标题文本相对应的领域类别:
最终,根据各个预设领域词典相对应的命中率,求取其中的最大值,确定该最大值相对应的领域词典,即为所述标题文本最关联的领域词典,从而,该标题文本所属的领域类型即为该领域词典所属的领域类型,该领域词典相对应的领域词,即为该标题文本适于构造所述示范模板的领域词。
确定最大值的命中率相对应的领域词典的示例性公式为:
Rmax={R1,R2,R3,……,Rj}
其中,j为领域词典的最大标号,Rmax为最大值的命中率。
通过本实施例的揭示,可以理解,通过将标题文本分词所得的各个词汇与多个特定领域类型相对应的领域词典进行基于规则的匹配,基于匹配结果简便统计出每个领域词典相对应的命中率,再根据命中率中最大值相对应的领域词典确定标题文本相对应的领域词,实现了对标题文本与领域词之间的关联性的量化对应关系,可以将领域词用于构造示范模板,使示范模板能够精准地为机器翻译模型提供有价值的领域参考信息,从而指导模型以更高准确度翻译所述的标题文本,获得与具体领域相对应的译文。
请参阅图3,为了实现对标题文本所属的领域的识别,以便指导机器翻译模型为该标题文本预测出具体领域相关的译文,而应用深度神经网络模型提出更具体的实现过程,故此,具体化的实施例中,所述步骤S1200、识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词,包括如下步骤:
步骤S1221、采用预先训练至收敛状态的标题分类模型,对所获取的标题文本进行分类映射,获得该标题文本相对应的领域类别:
本领域技术人员可以预先训练一个基于文本特征提取的标题分类模型用于对本申请的标题文本做分类映射,为每个标题文本直接确定其相对应的领域类别。
具体而言,所述的标题分类模型可由一个文本特征提取模型接入一个多分类器构成,所述文本特征提取模型可以是TextCNN、Bert、LSTM之类神经网络模型,然后采用从电商平台中采样而得的标题文本作为训练样本,将该标题文本在电商平台的分类体系中的领域类型相对应的领域词作为该训练样本的监督标签,对该标题分类模型实施迭代训练至收敛状态。在每次训练时,该标题分类模型通过其文本特征提取模型对输入其中的标题文本进行表示学习,提取其深层语义信息,获得相应的文本特征向量,然后将文本特征向量映射到预设的领域类型相对应的分类空间,获得相对应的领域类别,再以该训练样本相对应的领域词作为标签对模型输出的领域类别进行监督训练,在模型未收敛时对模型实施梯度更新,直至模型收敛。至此,便可使模型习得根据输入的标题文本确定出其相对应的领域词的能力。
故此,向经上述原理训练而得的标题分类模型输入本申请的所述标题文本,该标题分类模型便可直接输出该标题文本对应到分类空间的各个具体领域类型相对应的分类概率,其中隐含该标题文本相对应的唯一性的领域类型。
步骤S1222、根据所述领域类别获得其相对应的领域词:
如前所述,所述标题文本经所述标题分类模型获得映射到分类空间的各个领域类型相对应的分类概率后,其中最大的分类概率相对应的领域类型,即为该标题文本相对应的领域类型。根据该领域类型相对应的标签,便可提取出相应的领域词,作为所述标题文本相对应的领域词。
本实施例不同于前一实施例,未采用领域词典用于确定标题文本的领域词,而是采用预训练的标题分类模型来智能化地根据标题文本的语义信息确定出其相对应的领域词,可以免除构造领域词典的麻烦。该标题分类模型可以借助电商平台中存在海量商品数据及各种商品数据均已分门别类的基础优势,方便地制备,后续还可不断复用,再加上基于深层语义信息进行分类映射往往较之规则匹配更能体现语义关联性,因此,也能高效地为所述标题文本确定出适于构造示范模板的领域词,从而指导模型以更高准确度翻译所述的标题文本,获得与具体领域相对应的译文。
请参阅图4,为了使所述机器翻译模型具备实现本申请所需的翻译任务的能力,扩展的实施例中,所述机器翻译模型事为预训练模型,被采用如下步骤实施微调训练:
步骤S2100、获取预设的训练数据集中的一个训练样本,该训练样本包括构成平行语料的源语言样本及其相对应的目标语言样本,每个语言样本包括以相应语言表达的示范模板及用于描述商品信息的标题文本,所述示范模板包含其相应的标题文本所对应的领域词:
所述的训练数据集,是预先制备的,后文的实施例将给出其示例性的构造过程。该训练数据集由多个训练样本构成,每个训练样本包括同一标题文本的源语言样本和目标语言样本构成的平行语料,不同语言样本只是对同一标题文本的意思在不同语言中的表达。其中对于每种语言相对应的语言样本,即所述的源语言样本和目标语言样本,其结构均被构造为既包括本申请所称的示范模板,也包括由该示范模板指示所归属的领域类型的标题文本。与本申请机器翻译模型的推理阶段同理,所述示范模板由固定词与用于识别领域类型的领域词按照一定的生成规则构造而成,且该示范模板既可构成该标题文本的前缀,也可作为其后缀,只是机器翻译模型在其训练阶段和推理阶段统一输入方式即可。
步骤S2200、将所获取的训练样本输入经预训练的所述机器翻译模型对其实施训练,获得该模型对该训练样本中的源语言样本的预测结果:
此处所称的机器翻译模型,其选型可如本申请前文所示,经典的,推荐使用Transformer模型实施。该模型事先经预训练至收敛状态,以便在本实施例中进行第二阶段的微调训练。据此,将所述训练样本输入至该机器翻译模型中,对其中的源语言样本进行推理翻译,获得相应的预测结果。
步骤S2300、采用该训练样本的目标语言样本计算该预测结果的损失,获得损失值:
在模型输出源语言样本相对应的预测结果的基础上,模型进一步采用所述训练样本中的目标语言样本计算所述预测结果的损失值,相应的损失函数为Transformer自身设计的损失函数,直接应用计算即可。
步骤S2400、判断所述损失值是否达到预设阈值,当该损失值达到预设阈值时,确认模型训练至收敛状态,终止训练;否则,对模型实施参数回传实现梯度更新,调用所述训练数据集中的下一训练样本对模型实施迭代训练:
最后,判断所述损失值是否达致预设阈值,当达到预设阈值时,表明该机器翻译模型已经被训练至收敛状态,从而可以终止对该机器翻译模型的微调训练,将其投入正常使用。否则如果未达到所述的预设阈值,表明模型并未收敛,于是,对机器翻译模型实施参数回传,实施梯度更新以修正机器翻译模型的各个环节的权重参数,迫使模型进一步收敛,然后,调用所述训练数据集中的下一训练样本对其实施迭代训练,直至该机器翻译模型最终实现收敛即可。
本实施例揭示了本申请的机器翻译模型的训练过程,其训练过程所采用的输入与本申请的推理过程所采用的输入是相应的,或者说,其训练过程所采用的输入的构造决定了其推理过程所采用的输入的构造,因此在其训练样本中也引入标题文本相应的示范模板,这种情况下,对于该机器翻译模型而言,尽管不同领域的标题文本可能数据量有限,但在训练样本中引入的示范模板起到丰富上下文的作用,因此在解决多义词准确预测的问题上,可以减小对具体领域的训练样本总量的依赖,在该机器翻译模型事先被预训练的情况下,仅采用各个领域少量的训练样本,便可使该机器翻译模型快速收敛,节省语料采集成本以及训练时间成本的同时,还能提升一词多义情况下的预测准确度。
请参阅图5,扩展的实施例中,获取预设的训练数据集中的一个训练样本之前,包括如下用于制备训练数据集的步骤:
步骤S3100、从电商数据库中获取多个商品对象相对应的以语言表达的标题文本和以目标语言表达的标题文本:
如前所述,为了微调训练本申请的机器翻译模型,需要为其构造一个训练数据集,具体是获取其训练数据集中各个训练样本相对应的平行语料,包括用于描述同一内容的源语言样本与目标语言样本,其基础内容是电商数据库中同一商品对象相对应的两种语言表达的标题文本,即以源语言表达的标题文本和以目标语言表达的标题文本。
本申请为电商平台而提出,不难理解,本申请的实施环境而言正是电商平台的应用环境,因此,从电商平台中获取其各个独立站的电商数据库中的商品对象相应的标题文本,有得天独厚的先天优势,从而可使训练数据集的制备具有较大的成本优势。
步骤S3200、识别以源语言表达的标题文本所属的领域类别,确定该领域类别相对应的领域词:
所述训练样本中,以源语言表达的标题文本,将被机器翻译模型用于预测,因此,判别标题文本所属的领域类别的依据,以源语言表达的标题文本为准。据此,采用本申请前文所揭示的关于根据标题文本确定出相应的领域类别及领域词的方式,包括采用领域词典进行匹配或采用标题分类模型进行分类映射的方式均可,相应确定出以源语言表达的标题文本的领域词用于构造相应的示范模板。
步骤S3300、从预设的翻译词典中获得所述标题文本中的词汇关联于该领域词的目标语言译文,修正以目标语言表达的标题文本:
本申请前文所述及的翻译词典,在此处也被用于修正平行语料中的以目标语言表达的目标语言样本。具体而言,对于一个平行语料,本申请可在对其以源语言表达的源语言样本即标题文本进行分词的基础上,针对各个分词检测出其中在翻译词典中与前一步骤所确定的领域词相对应的目标语言译文,根据该目标语言译文修正该平行语料中的以目标语言表达的标题文本中对应的词汇,从而实现对以目标语言样本的修正。
步骤S3400、构造包含源语言和目标语言相对应的示范模板,使示范模板包含相应语言表达的所述领域词,将不同语言表达的示范模板分别对应与不同语言表达的所述标题文本相组合,构造出该标题文本相对应的源语言文本与目标语言文本:
进一步,可以按照本申请前文所揭示的用于构造示范模板的方法,为所述各个平行语料中的源语言样本和目标语言样本构造相应语言的示范模板,具体而言,前文确定的领域词,存在源语言版本和目标语言版本,并且对应两种语言也相应设置了相应的生成规则,据此,将领域词代入相应的生成规则中,便可获得相应的源语言示范模板和目标语言示范模板,每个示范模板均包含相应语言下的领域词,从而使两个示范模板建立翻译之间的相对应性。
进一步,按照统一的顺序,将源语言示范模板与以源语言表达的标题文本进行拼接,将目标语言示范模板与以目标语言表达的标题文本进行拼接,从而构造出完整的平行语料,即基于同一商品对象构造出其标题文本相对应的机器翻译模型训练所需的源语言文本和目标语言文本,源语言文本及目标语言文本中均包含了其相应的语言下的示范模板,每个示范模板也包含相应语言下的领域词。
步骤S3500、将所述源语言文本与所述目标语言文本构成的平行语料存储于训练数据集中,以作为机器翻译模型的训练样本供调用:
最后,将经由前述各个步骤处理而成的平行语料,作为训练样本,存储于训练数据集中,该训练数据集可存储为一个数据库,然后便可启动对机器翻译模型的训练,由该机器翻译模型调用该训练数据集中的各个训练样本实施迭代训练直至模型收敛即可投入使用。
本实施例中,从电商平台自身的电商数据库中获取机器翻译模型训练所需的基础数据,包括源语言的标题文本和目标语言的标题文本,在此基础上,结合本申请的发明思路,为两种语言的标题文本添加包含相应领域词的示范模板,从而构造出本申请的机器翻译模型训练所需的训练样本,构造出训练数据集,这一过程取材方便,且可倚仗电商平台的海量基础数据优势,对电商平台的商品数据库中的数据实现价值挖掘,且可节省大量的采集成本,对于实施本申请的电商平台而言,可以取得明显的规模经济效用。另一方面,由于在取材过程中利用翻译词典对标题文本进行了领域词识别,并且适当修正平行语料中的目标语言版本,进一步提升语料的准确度,更容易将机器翻译模型训练至收敛状态。
请参阅图6,适应本申请的目的之一而提供的一种商品标题文本翻译装置,是对本申请的商品标题文本翻译方法的功能化体现,该装置包括:标题获取模块1100、领域识别模块1200、模板构造模块1300,以及翻译执行模块1400,其中,所述标题获取模块1100,用于获取用于描述商品信息的标题文本,确认该标题文本所携带的至少一个词汇包含多个对应的译文;所述领域识别模块1200,用于识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词;所述模板构造模块1300,用于构造包含所述领域词的示范模板,将其与该标题文本组合为源语言文本;所述翻译执行模块1400,用于采用已训练至收敛状态的机器翻译模型对所述源语言文本进行翻译,获得该源语言文本相对应的目标语言文本,从目标语言文本中获得标题文本的译文。
具体化的实施例中,所述标题获取模块1100,包括:标题分词单元,用于获取用于描述商品信息的标题文本,对所述标题文本进行分词,获得多个词汇;多义判别单元,用于查询预设的翻译词典,以判断确认标题文本中的至少一个词汇是否包含多个译文;其中,所述翻译词典包含词汇的源语言文本与其多个不同译文的目标语言文本之间的映射关系数据。
具体化的实施例中,所述领域识别模块1200,包括:实体识别单元,用于对所获取的标题文本进行分词,获得多个词汇;词典统计单元,用于检测所述标题文本的各个词汇是否命中各个领域词典,量化出标题文本命中各个领域词典相对应的命中率,每个领域词典关联一个领域词,且收藏属于其相对应的特定领域的词汇;领域判定单元,用于判定所述命中率最大的领域词典为与所述标题文本相匹配的领域词典,确定该领域词典相对应的领域词以确定该标题文本相对应的领域类别。
具体化的实施例中,所述领域识别模块1200,包括:领域分类单元,用于采用预先训练至收敛状态的标题分类模型,对所获取的标题文本进行分类映射,获得该标题文本相对应的领域类别;领域确定单元,用于根据所述领域类别获得其相对应的领域词。
具体化的实施例中,所述模板构造模块1300,包括:模板生成单元,用于根据预设规则生成示范模板,使该示范模板中包含所述标题文本相对应的领域词及固定词;文本组合单元,用于将所述示范模板作为前缀或后缀与所述标题文本相拼接,构成源语言文本。
扩展的实施例中,所述机器翻译模型事为预训练模型,被置于微调训练装置中实施训练,该微调训练装置包括:
样本调用模块,用于获取预设的训练数据集中的一个训练样本,该训练样本包括构成平行语料的源语言样本及其相对应的目标语言样本,每个语言样本包括以相应语言表达的示范模板及用于描述商品信息的标题文本,所述示范模板包含其相应的标题文本所对应的领域词;
预测输出模块,用于将所获取的训练样本输入经预训练的所述机器翻译模型对其实施训练,获得该模型对该训练样本中的源语言样本的预测结果;
损失计算模块,用于采用该训练样本的目标语言样本计算该预测结果的损失,获得损失值;
迭代决策模块,用于判断所述损失值是否达到预设阈值,当该损失值达到预设阈值时,确认模型训练至收敛状态,终止训练;否则,对模型实施参数回传实现梯度更新,调用所述训练数据集中的下一训练样本对模型实施迭代训练。
扩展的实施例中,所述的微调训练装置,还包括如下用于制备训练数据集的模块:
批量数据获取模块,用于从电商数据库中获取多个商品对象相对应的以语言表达的标题文本和以目标语言表达的标题文本;
批量领域识别模块,用于识别以源语言表达的标题文本所属的领域类别,确定该领域类别相对应的领域词;
批量译文修正模块,用于从预设的翻译词典中获得所述标题文本中的词汇关联于该领域词的目标语言译文,修正以目标语言表达的标题文本;
批量模板构造模块,用于构造包含源语言和目标语言相对应的示范模板,使示范模板包含相应语言表达的所述领域词,将不同语言表达的示范模板分别对应与不同语言表达的所述标题文本相组合,构造出该标题文本相对应的源语言文本与目标语言文本;
数据集构造模块,用于将所述源语言文本与所述目标语言文本构成的平行语料存储于训练数据集中,以作为机器翻译模型的训练样本供调用。
为解决上述技术问题,本申请实施例还提供计算机设备。如图7所示,计算机设备的内部结构示意图。该计算机设备包括通过***总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作***、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种商品标题文本翻译方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的商品标题文本翻译方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图6中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的商品标题文本翻译装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的商品标题文本翻译方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请针对商品标题文本的特点,通过为机器翻译模型的输入添加包含领域词的示范模板,使机器翻译模型能够适应不同领域获得所述标题文本在相应领域下的译文,实现准确的翻译效果,且使相应的机器翻译模型在训练阶段可节省相应的训练成本,更易收敛,最终服务于电商平台,从而可以取得规模化经济效用,具有广阔的应用前景。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种商品标题文本翻译方法,其特征在于,包括如下步骤:
获取用于描述商品信息的标题文本,确认该标题文本所携带的至少一个词汇包含多个对应的译文;
识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词;
构造包含所述领域词的示范模板,将其与该标题文本组合为源语言文本;
采用已训练至收敛状态的机器翻译模型对所述源语言文本进行翻译,获得该源语言文本相对应的目标语言文本,从目标语言文本中获得标题文本的译文。
2.根据权利要求1所述的商品标题文本翻译方法,其特征在于,获取用于描述商品信息的标题文本,确认该标题文本所携带的至少一个词汇包含多个对应的译文,包括如下步骤:
获取用于描述商品信息的标题文本,对所述标题文本进行分词,获得多个词汇;
查询预设的翻译词典,以判断确认标题文本中的至少一个词汇是否包含多个译文;其中,所述翻译词典包含词汇的源语言文本与其多个不同译文的目标语言文本之间的映射关系数据。
3.根据权利要求1所述的商品标题文本翻译方法,其特征在于,识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词,包括如下步骤:
对所获取的标题文本进行分词,获得多个词汇;
检测所述标题文本的各个词汇是否命中各个领域词典,量化出标题文本命中各个领域词典相对应的命中率,每个领域词典关联一个领域词,且收藏属于其相对应的特定领域的词汇;
判定所述命中率最大的领域词典为与所述标题文本相匹配的领域词典,确定该领域词典相对应的领域词以确定该标题文本相对应的领域类别。
4.根据权利要求1所述的商品标题文本翻译方法,其特征在于,识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词,包括如下步骤:
采用预先训练至收敛状态的标题分类模型,对所获取的标题文本进行分类映射,获得该标题文本相对应的领域类别;
根据所述领域类别获得其相对应的领域词。
5.根据权利要求1所述的商品标题文本翻译方法,其特征在于,构造包含所述领域词的示范模板,将其与该标题文本组合为源语言文本,包括如下步骤:
根据预设规则生成示范模板,使该示范模板中包含所述标题文本相对应的领域词及固定词;
将所述示范模板作为前缀或后缀与所述标题文本相拼接,构成源语言文本。
6.根据权利要求1至5中任意一项所述的商品标题文本翻译方法,其特征在于,所述机器翻译模型事为预训练模型,被采用如下步骤实施微调训练:
获取预设的训练数据集中的一个训练样本,该训练样本包括构成平行语料的源语言样本及其相对应的目标语言样本,每个语言样本包括以相应语言表达的示范模板及用于描述商品信息的标题文本,所述示范模板包含其相应的标题文本所对应的领域词;
将所获取的训练样本输入经预训练的所述机器翻译模型对其实施训练,获得该模型对该训练样本中的源语言样本的预测结果;
采用该训练样本的目标语言样本计算该预测结果的损失,获得损失值;
判断所述损失值是否达到预设阈值,当该损失值达到预设阈值时,确认模型训练至收敛状态,终止训练;否则,对模型实施参数回传实现梯度更新,调用所述训练数据集中的下一训练样本对模型实施迭代训练。
7.根据权利要求6所述的商品标题文本翻译方法,其特征在于,获取预设的训练数据集中的一个训练样本之前,包括如下用于制备训练数据集的步骤:
从电商数据库中获取多个商品对象相对应的以语言表达的标题文本和以目标语言表达的标题文本;
识别以源语言表达的标题文本所属的领域类别,确定该领域类别相对应的领域词;
从预设的翻译词典中获得所述标题文本中的词汇关联于该领域词的目标语言译文,修正以目标语言表达的标题文本;
构造包含源语言和目标语言相对应的示范模板,使示范模板包含相应语言表达的所述领域词,将不同语言表达的示范模板分别对应与不同语言表达的所述标题文本相组合,构造出该标题文本相对应的源语言文本与目标语言文本;
将所述源语言文本与所述目标语言文本构成的平行语料存储于训练数据集中,以作为机器翻译模型的训练样本供调用。
8.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任意一项中所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111665083.2A CN114492470A (zh) | 2021-12-31 | 2021-12-31 | 商品标题文本翻译方法及其装置、设备、介质、产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111665083.2A CN114492470A (zh) | 2021-12-31 | 2021-12-31 | 商品标题文本翻译方法及其装置、设备、介质、产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114492470A true CN114492470A (zh) | 2022-05-13 |
Family
ID=81497191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111665083.2A Pending CN114492470A (zh) | 2021-12-31 | 2021-12-31 | 商品标题文本翻译方法及其装置、设备、介质、产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492470A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238701A (zh) * | 2022-09-21 | 2022-10-25 | 北京融信数联科技有限公司 | 基于子词级别适应器的多领域命名实体识别方法和*** |
CN115455964A (zh) * | 2022-11-10 | 2022-12-09 | 南京万得资讯科技有限公司 | 一种针对垂直领域机器翻译的低资源优化方法 |
CN116306705A (zh) * | 2023-05-18 | 2023-06-23 | 山东省科学院海洋仪器仪表研究所 | 一种多语言的智能语音翻译交互平台 |
-
2021
- 2021-12-31 CN CN202111665083.2A patent/CN114492470A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238701A (zh) * | 2022-09-21 | 2022-10-25 | 北京融信数联科技有限公司 | 基于子词级别适应器的多领域命名实体识别方法和*** |
CN115455964A (zh) * | 2022-11-10 | 2022-12-09 | 南京万得资讯科技有限公司 | 一种针对垂直领域机器翻译的低资源优化方法 |
CN115455964B (zh) * | 2022-11-10 | 2023-03-14 | 万得信息技术股份有限公司 | 一种针对垂直领域机器翻译的低资源优化方法 |
CN116306705A (zh) * | 2023-05-18 | 2023-06-23 | 山东省科学院海洋仪器仪表研究所 | 一种多语言的智能语音翻译交互平台 |
CN116306705B (zh) * | 2023-05-18 | 2023-08-15 | 山东省科学院海洋仪器仪表研究所 | 一种多语言的智能语音翻译交互平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN102629246B (zh) | 识别浏览器语音命令的服务器及浏览器语音命令识别方法 | |
CN114492470A (zh) | 商品标题文本翻译方法及其装置、设备、介质、产品 | |
CN107491534A (zh) | 信息处理方法和装置 | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN111368548A (zh) | 语义识别方法及装置、电子设备和计算机可读存储介质 | |
CN110727839A (zh) | 自然语言查询的语义解析 | |
CN108536807B (zh) | 一种信息处理方法及装置 | |
CN111459977B (zh) | 自然语言查询的转换 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN113326702B (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN111079418A (zh) | 命名体识别方法、装置、电子设备和存储介质 | |
CN111858933A (zh) | 基于字符的层次化文本情感分析方法及*** | |
KR20230079729A (ko) | 자연어 질의의 sql 변환 방법 및 장치 | |
CN110888946A (zh) | 一种基于知识驱动的查询的实体链接方法 | |
CN115273815A (zh) | 语音关键词检测的方法、装置、设备及存储介质 | |
CN111859858A (zh) | 从文本中提取关系的方法及装置 | |
CN114218948A (zh) | 关键词识别方法及其装置、设备、介质、产品 | |
CN114626926A (zh) | 商品搜索类目识别方法及其装置、设备、介质、产品 | |
CN117131155A (zh) | 多类目识别方法、装置、电子设备及储存介质 | |
CN117010398A (zh) | 一种基于多层知识感知的地址实体识别方法 | |
CN111858860B (zh) | 搜索信息处理方法及***、服务器、计算机可读介质 | |
CN116958512A (zh) | 目标检测方法、装置、计算机可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |