CN113836866B - 文本编码方法、装置、计算机可读介质及电子设备 - Google Patents

文本编码方法、装置、计算机可读介质及电子设备 Download PDF

Info

Publication number
CN113836866B
CN113836866B CN202110627615.7A CN202110627615A CN113836866B CN 113836866 B CN113836866 B CN 113836866B CN 202110627615 A CN202110627615 A CN 202110627615A CN 113836866 B CN113836866 B CN 113836866B
Authority
CN
China
Prior art keywords
text
character
word
word segmentation
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110627615.7A
Other languages
English (en)
Other versions
CN113836866A (zh
Inventor
陈强
洪泽琳
陈咨尧
林超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110627615.7A priority Critical patent/CN113836866B/zh
Publication of CN113836866A publication Critical patent/CN113836866A/zh
Application granted granted Critical
Publication of CN113836866B publication Critical patent/CN113836866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请属于计算机技术领域,具体涉及一种文本编码方法、装置、计算机可读介质及电子设备。该文本编码方法包括:获取对文本进行分词处理得到的分词信息,并根据分词信息确定组成文本的多个分词;根据字符在分词中的第一位置信息以及字符所在的分词在文本中的第二位置信息生成字符的位置编码;获取对字符进行嵌入编码处理得到的字符编码;将各个字符的位置编码和字符编码进行融合处理得到文本的文本编码。基于该方法能够避免编码过程中出现大量集外词的问题,并且能够避免在文本编码的过程中同一个分词的各个字符之间的语义关联缺失,从而能够减少编码过程中文本的信息量的损失,能够提高编码质量。

Description

文本编码方法、装置、计算机可读介质及电子设备
技术领域
本申请属于计算机技术领域,具体涉及一种文本编码方法、装置、计算机可读介质及电子设备。
背景技术
随着人工智能的不断发展,人类对人机交互的期待与要求越来越高,自然语言处理作为人机交互中的重要一环,备受人们的关注。目前,自然语言处理正处于探索阶段,句法分析、自然语言信息提取等技术都是研究热点。其中,研究人员较为关注的任务之一是如何可以将自然语言的文本数据进行编码,将编码后的文本用于复杂的自然语言处理中。然而,现有的文本编码方法中,当处理新领域的文本或者新登陆词时,可能会出现需要编码的词不在词表的OOV(out-of-vocabulary,集外词)问题,造成无法编码的情况,使得文本的编码质量较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种文本编码方法、装置、计算机可读介质及电子设备。至少在一定程度上克服相关技术中文本的编码质量较低的技术问题。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种文本编码方法。所述文本编码方法包括:
获取对文本进行分词处理得到的分词信息,并根据所述分词信息确定组成所述文本的多个分词,所述分词包括一个或多个字符;
根据所述字符在所述分词中的第一位置信息以及所述字符所在的分词在所述文本中的第二位置信息生成所述字符的位置编码;
获取对所述字符进行嵌入编码处理得到的字符编码;
将各个所述字符的所述位置编码和所述字符编码进行融合处理得到所述文本的文本编码。
根据本申请实施例的一个方面,提供一种文本编码装置。所述文本编码装置包括:
分词确定模块,被配置为获取对文本进行分词处理得到的分词信息,并根据所述分词信息确定组成所述文本的多个分词,所述分词包括一个或多个字符;
位置编码模块,被配置为根据所述字符在所述分词中的第一位置信息以及所述字符所在的分词在所述文本中的第二位置信息生成所述字符的位置编码;
字符编码模块,被配置为获取对所述字符进行嵌入编码处理得到的字符编码;
编码融合模块,被配置为将各个所述字符的所述位置编码和所述字符编码进行融合处理得到所述文本的文本编码。
在本申请的一些实施例中,基于以上技术方案,所述位置编码模块包括:
第一位置编码单元,被配置为对所述字符在所述分词中的第一位置信息进行编码处理生成所述字符的第一位置编码;
第二位置编码单元,被配置为对所述字符所在的分词在所述文本中的第二位置信息进行编码处理生成所述字符的第二位置编码;
位置编码单元,被配置为根据所述字符的所述第一位置编码和所述第二位置编码生成所述字符的位置编码。
在本申请的一些实施例中,基于以上技术方案,所述第一位置信息为所述字符的词内位置标签信息,所述词内位置标签信息包括词首标签信息、词中标签信息、词尾标签信息和单字符词标签信息,所述第一位置编码包括第一位置向量,所述第一位置编码单元包括:
词内位置标签编码表获取子单元,被配置为获取词内位置标签编码表,所述词内位置标签编码表包括所述词内位置标签信息与第一位置向量的映射关系;
第一位置向量获取子单元,被配置为根据所述词内位置标签编码表将各个所述字符对应的词内位置标签信息映射为对应的第一位置向量。
在本申请的一些实施例中,基于以上技术方案,所述第一位置信息为所述字符在对应的分词中的排序序数,所述第一位置编码包括第一位置向量,所述第一位置编码单元包括:
第一位置编码表获取子单元,被配置为获取第一位置编码表,所述第一位置编码表包括所述第一位置信息与第一位置向量的映射关系;
第一位置向量确定子单元,被配置为根据所述第一位置编码表将各个所述字符对应的第一位置信息映射为对应的第一位置向量。
在本申请的一些实施例中,基于以上技术方案,所述第二位置信息为所述字符所在的分词在所述文本中的排序序数,所述第二位置编码包括第二位置向量,所述第二位置编码单元包括:
第二位置编码表获取子单元,被配置为获取第二位置编码表,所述第二位置编码表包括所述第二位置信息与第二位置向量的映射关系;
第二位置向量确定子单元,被配置为根据所述第二位置编码表将各个所述字符对应的第二位置信息映射为对应的第二位置向量。
在本申请的一些实施例中,基于以上技术方案,所述字符编码包括嵌入向量,所述字符编码模块包括:
预设词表获取单元,被配置为获取预设词表,所述预设词表包括所述字符与嵌入向量的映射关系;
嵌入向量获取单元,被配置为根据所述预设词表将各个所述字符映射为对应的嵌入向量。
在本申请的一些实施例中,基于以上技术方案,所述预设词表还包括常用分词表,所述常用分词表包括常用的分词与嵌入向量的映射关系,所述嵌入向量获取单元包括:
分词嵌入向量获取子单元,被配置为当所述字符所在的分词包括在所述常用分词表中时,将所述字符映射为所述字符所在的分词对应的嵌入向量;
字符嵌入向量获取子单元,被配置为当所述字符所在的分词未包括在所述常用分词表中时,将所述字符映射为所述字符对应的嵌入向量。
在本申请的一些实施例中,基于以上技术方案,所述文本编码装置还包括:
预设分隔词***模块,被配置为根据所述分词信息在每个分词后***预设分隔词,并将所述预设分隔词作为所述文本中的由单个字符组成的分词,所述预设分隔词包括一个或多个分隔字符。
在本申请的一些实施例中,基于以上技术方案,所述分词确定模块包括:
文本输入单元,被配置为将所述文本输入到预训练分词器中,所述预训练分词器包括预设词典,所述预设词典包括多个预分词;
预分词获取单元,被配置为通过所述预设词典获取所述文本中的预分词;
分词信息获取单元,被配置为根据所述文本中的预分词获取所述文本对应的多个分词路径,并从多个所述分词路径中选择一个所述分词路径作为分词结果,根据所述分词结果得到所述文本的分词信息。
在本申请的一些实施例中,基于以上技术方案,所述文本编码装置还包括:
文本编码输入单元,被配置为将所述文本编码输入到预训练翻译模型中,所述预训练翻译模型包括自注意力层和前馈网络层;
注意力矩阵获取单元,被配置为通过所述自注意力层获取与所述文本编码对应的注意力矩阵;
隐藏层编码获取单元,被配置为通过所述前馈网络层对所述注意力矩阵进行线性映射和函数激活处理,得到所述文本编码对应的隐藏层编码,所述隐藏层编码用于确定与所述文本的对应的目标语言文本。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的文本编码方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的文本编码方法。
根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的文本编码方法。
在本申请实施例提供的技术方案中,根据字符在分词中的第一位置信息以及字符所在的分词在文本中的第二位置信息生成字符的位置编码,再将各个字符的位置编码和字符编码进行融合处理得到文本的文本编码。可以理解,对字符进行嵌入编码处理得到字符编码能够避免编码过程中出现集外词的问题,有利于提高文本编码的编码质量。并且,本申请的文本编码方法能够通过对字符在分词中的第一位置信息进行编码处理实现在编码过程中引入分词信息,能够避免在文本编码的过程中同一个分词的各个字符之间的语义关联缺失导致文本编码产生语义漂移,进而能够减少编码过程中文本的信息量的损失,能够进一步地提高编码质量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了应用本申请技术方案的示例性装置架构框图。
图2示意性地示出了本申请实施例提供的文本编码方法的步骤流程。
图3示意性地示出了本申请实施例中获取对文本进行分词处理得到的分词信息的步骤流程。
图4示意性地示出了本申请实施例中根据字符在分词中的第一位置信息以及字符所在的分词在文本中的第二位置信息生成字符的位置编码的步骤流程。
图5示意性地示出了本申请某些实施例中对字符在分词中的第一位置信息进行编码处理生成字符的第一位置编码的步骤流程。
图6示意性地示出了本申请另一些实施例中对字符在分词中的第一位置信息进行编码处理生成字符的第一位置编码的步骤流程。
图7示意性地示出了本申请实施例中对字符所在的分词在文本中的第二位置信息进行编码处理生成字符的第二位置编码的步骤流程。
图8示意性地示出了本申请实施例中获取对字符进行嵌入编码处理得到的字符编码的步骤流程。
图9示意性地示出了本申请实施例中根据预设词表将各个字符映射为对应的嵌入向量的步骤流程。
图10示意性地示出了本申请实施例中将各个字符的位置编码和字符编码进行融合处理得到文本的文本编码之后,本方法的部分步骤流程。
图11示意性地示出了本申请实施例提供的文本编码装置的结构框图。
图12示意性地示出了用于实现本申请实施例的电子设备的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在对本申请实施例提供的文本编码方法、文本编码装置等技术方案作出详细说明之前,先对本申请部分实施例中涉及的人工智能技术和区块链技术进行简单介绍。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互装置、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
下面结合具体实施方式对本申请提供的文本编码方法及装置做出详细说明。
图1示意性地示出了应用本申请技术方案的示例性装置架构框图。
如图1所示,装置架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式装置,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。
根据实现需要,本申请实施例中的装置架构可以具有任意数目的终端设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的服务器群组。另外,本申请实施例提供的技术方案可以应用于终端设备110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本申请对此不做特殊限定。
举例而言,当终端设备110向服务器130上传了包括视频及其标题的发布后,服务器130可以执行本申请提供的文本编码方法,从而根据字符在分词中的第一位置信息以及字符所在的分词在文本中的第二位置信息生成字符的位置编码,再将各个字符的位置编码和字符编码进行融合处理得到文本的文本编码。采用字符编码能够避免编码过程中出现大量集外词的问题,有利于提高编码质量。并且,本申请的文本编码方法能够通过对字符在分词中的第一位置信息进行编码处理实现在编码过程中引入分词信息,从而能够避免在文本编码的过程中同一个分词的各个字符之间的语义关联缺失导致文本编码产生语义漂移,进而能够减少编码过程中文本的信息量的损失,能够进一步地提高编码质量。
在具体应用中,本申请实施方式的文本编码方法可以应用在中文、日文等没有自然的词边界的语言文本上。中文、日文等没有自然的词边界的语言文本,不具有例如英文中由空格形成的自然的词边界。因此,在对中文、日文等没有自然的词边界的语言文本进行文本编码时,容易使得同一个分词的各个字符之间的原有语义关联缺失。应用本申请实施方式的文本编码方法可以避免同一个词的各个字符之间的原有语义关联缺失的问题,能够提高编码质量。
本申请实施方式的文本编码方法可以应用在中文、日文等没有自然的词边界的语言文本,采用符号(character)粒度或子词(Subword)粒度编码的编码过程中。也就是说,本申请中的字符的含义范围包括子词或单个符号。其中,子词由多个符号组成。例如,当字符的含义是单个符号时,文本中的分词“水果摊”包括字符“水”、字符“果”和字符“摊”;当字符的含义是子词时,也就是说当字符的含义是多个符号时,文本中的分词“水果摊”,可以包括字符“水果”和字符“摊”。
本申请实施方式的文本编码方法也可以应用在英文等有自然词边界的语言文本,采用符号(character)粒度、子词(Subword)粒度编码的编码过程中。也就是说,本申请中的字符的含义范围包括子词或单个符号。例如,当字符的含义是单个符号时,文本中的分词“looking”包括字符“l”、字符“o”、字符“o”、字符“k”、字符“i”、字符“n”和字符“g”;当字符的含义是子词时,也就是说当字符的含义是多个符号时,文本中的分词“looking”,可以包括字符“look”和字符“ing”。
在对自然语言的文本数据的编码中,由于语言现象发展使得语言中的词汇具有无法穷举的特性,使得以词为编码粒度的词表永远不可能覆盖所有的可能出现的词。因此,在处理新领域的文本或者新登陆词时,必然会出现需要编码的词不在词表的OOV(out-of-vocabulary,集外词)问题,造成无法编码的情况,使得文本的编码质量较低。
可以理解,如果采用子词(Subword)作为编码粒度,将原本的整词(Whole Word)文本序列转换为子词(Subword)文本序列之后,每个子词成为一个独立的“词语”,使得来源于一个整词的各个子词间的原有语义关联缺失,影响文本的编码质量,并影响对文本进行编码后翻译的翻译准确度。
图2示意性地示出了本申请实施例提供的文本编码方法的步骤流程,该文本编码方法的执行主体可以是终端设备,也可以是服务器。如图2所示,该文本编码方法主要可以包括如下步骤S210~步骤S240:
S210.获取对文本进行分词处理得到的分词信息,并根据分词信息确定组成文本的多个分词,分词包括一个或多个字符。
例如,获取对文本“火焰冲撞:此天赋现在正确的再次作用于火雨。”进行分词得到的分词信息,并根据分词信息确定组成该文本的多个分词“火焰”、“冲撞”、“:”、“此”、“天赋”、“现在”、“正确”、“的”、“再次”、“作用”、“于”、“火雨”“。”。由此,得到组成该文本的多个分词,以便后续将通过多个分词将分词信息利用到编码过程中,从而能够避免在文本编码的过程中同一个分词的各个字符之间的语义关联缺失,进而能够提高文本编码的信息量,减少编码过程中文本的信息量的损失,能够提高编码质量。其中,分词可以是由一个字符组成,也可以由多个字符组成。
图3示意性地示出了本申请实施例中获取对文本进行分词处理得到的分词信息的步骤流程。如图3所示,在以上实施例的基础上,在某些实施例中,步骤S210中的获取对文本进行分词处理得到的分词信息,可以进一步包括以下步骤S310~步骤S330:
S310.将文本输入到预训练分词器中,预训练分词器包括预设词典,预设词典包括多个预分词;
S320.通过预设词典获取文本中的预分词;
S330.根据文本中的预分词获取文本对应的多个分词路径,并从多个分词路径中选择一个分词路径作为分词结果,根据分词结果得到文本的分词信息。
具体地,预设词典可以包括通过大量的外部标注数据和专家知识学习获得的预分词。外部标注数据和专家知识中可以涵盖句法信息、语义知识、词性、实体识别、语义角色标注、句法解析等知识,有利于本申请的编码方法通过分词信息引入外部知识。通过预设词典获取文本中的预分词之后,可以从多个分词路径中选择一个分词路径最短的或分词出现最大概率的分词路径作为分词结果,根据分词结果得到文本的分词信息。在具体例子中,预训练分词器可以为Hanlp分词器、结巴分词器等。由此,能够使得本申请的分词信息引入了大量的外部标注数据和专家知识,进而有利于大量的外部标注数据和专家知识能够提高分词处理的准确率,进而提高了文本编码的编码质量,当文本编码用于翻译文本时,能够使得翻译结果对文本的语义理解更加充分,提升翻译准确度。
S220.根据字符在分词中的第一位置信息以及字符所在的分词在文本中的第二位置信息生成字符的位置编码。
图4示意性地示出了本申请实施例中根据字符在分词中的第一位置信息以及字符所在的分词在文本中的第二位置信息生成字符的位置编码的步骤流程。如图4所示,在以上实施例的基础上,在某些实施例中,步骤S220的根据字符在分词中的第一位置信息以及字符所在的分词在文本中的第二位置信息生成字符的位置编码,可以进一步包括以下步骤S410~步骤S430:
S410.对字符在分词中的第一位置信息进行编码处理生成字符的第一位置编码;
S420.对字符所在的分词在文本中的第二位置信息进行编码处理生成字符的第二位置编码;
S430.根据字符的第一位置编码和第二位置编码生成字符的位置编码。
在具体例子中,可以对字符在分词中的第一位置信息cj进行编码处理生成字符的第一位置编码E1(cj)。对字符所在的分词在文本中的第二位置信息wj进行编码处理生成字符的第二位置编码E2(wj)。再根据字符的第一位置编码和第二位置编码生成字符的位置编码Pj:
Pj=E1(cj)+E2(wj) (1)
如式(1)所示,可以将第一位置编码E1(cj)和第二位置编码E2(wj)相加得到字符的位置编码Pj。
由此,生成了字符的位置编码,并且字符的位置编码具有字符在分词中的第一位置信息和字符所在的分词在文本中的第二位置信息,字符的位置编码的信息量较高,避免了在文本编码的过程中同一个分词的各个字符之间的语义关联缺失。
图5示意性地示出了本申请某些实施例中对字符在分词中的第一位置信息进行编码处理生成字符的第一位置编码的步骤流程。如图5所示,在以上实施例的基础上,在某些实施例中,第一位置信息为字符的词内位置标签信息,词内位置标签信息包括词首标签信息、词中标签信息、词尾标签信息和单字符词标签信息,第一位置编码包括第一位置向量,步骤S410的对字符在分词中的第一位置信息进行编码处理生成字符的第一位置编码,可以进一步包括以下步骤S510和步骤S520:
S510.获取词内位置标签编码表,词内位置标签编码表包括词内位置标签信息与第一位置向量的映射关系;
S520.根据词内位置标签编码表将各个字符对应的词内位置标签信息映射为对应的第一位置向量。
在具体例子中,例如,对于文本“火焰冲撞:此天赋现在正确的再次用于火雨”,词首标签信息为B,词中标签信息为M,词尾标签信息为E,单字符词标签信息为S。则该文本中的字符的第一位置信息cj,也即该文本中的字符的词内位置标签信息cj,可以如下表所示:
表1
也就是说,字符“火”的词内位置标签信息cj为“B”,表示“火”在“火”所在的分词的词首位置;字符“焰”的词内位置标签信息cj为“E”,表示“焰”在“焰”所在的分词的词尾位置;字符“冲”的词内位置标签信息cj为“B”,表示“冲”在“冲”所在的分词的词首位置;字符“撞”的词内位置标签信息cj为“E”,表示“撞”在“撞”所在的分词的词尾位置;字符“:”的词内位置标签信息cj为“S”,表示“;”所在的分词为单字成词;当词内位置标签信息cj为“M”时,表示该字符在对应的分词的词中位置;以此类推。在一些实施方式中,词内位置标签信息除了如表1中用“B、M、E、S”表示,也可以用其他符号表示,例如“B、I、E、S”等。
在一些实施方式中,除了采用BMES标注体系,词内位置标签信息还可以采用BIO、BIOES、BILOU等标注体系,本申请对词内位置标签信息采用的标注体系不作限制。
词内位置标签编码表中包括词内位置标签信息与第一位置向量的映射关系。根据词内位置标签编码表能够将各个字符对应的词内位置标签信息“B”、“E”或“S”映射为对应的第一位置向量,从而完成对第一位置信息的编码处理,得到第一位置编码,从而能够通过字符在分词中的第一位置信息引入分词知识,从而能够避免在文本编码的过程中同一个分词的各个字符之间的语义关联缺失,进而能够提高文本编码的语义信息量,减少编码过程中文本的信息量的损失,能够提高编码质量。
并且,可以理解,词内位置标签信息的标签信息类型有限,因此词内位置标签编码表的包括的映射对数的数量有限,数据量较少,从而能够降低编码复杂度,使得对词内位置标签信息的编码处理的编码效率较高。
图6示意性地示出了本申请另一些实施例中对字符在分词中的第一位置信息进行编码处理生成字符的第一位置编码的步骤流程。如图6所示,在以上实施例的基础上,在某些实施例中,第一位置信息为字符在对应的分词中的排序序数,第一位置编码包括第一位置向量,步骤S410的对字符在分词中的第一位置信息进行编码处理生成字符的第一位置编码,可以进一步包括以下步骤S610和步骤S620:
S610.获取第一位置编码表,第一位置编码表包括第一位置信息与第一位置向量的映射关系;
S620.根据第一位置编码表将各个字符对应的第一位置信息映射为对应的第一位置向量。
在具体例子中,对于文本“火焰冲撞:此天赋现在正确的再次用于火雨”,第一位置信息为字符在对应的分词中的排序序数。该文本中的字符在分词中的第一位置信息cj,可以如下表所示:
表2
也就是说,字符“火”的第一位置信息cj为“1”,字符“焰”的第一位置信息cj为“2”,字符“冲”的第一位置信息cj为“1”,以此类推。在其他实施方式中,字符在对应的分词中的排序序数除了如表2中用“1、2、3、4、5”的正整数序数表示,也可以用其他符号表示,例如“a、b、c、d、e……”、“~、!、@、#、$……”或“1、3、5、7、9……”等字符。具体地,可以采用文本中未出现的字符作为文本中的字符在分词内的排序序数。
第一位置编码表包括第一位置信息与第一位置向量的映射关系。根据第一位置编码表能够将各个字符对应的第一位置信息映射为对应的第一位置向量,从而完成对第一位置信息的编码处理,得到第一位置编码。此种编码处理方式中,对字符在分词内的排序序数进行编码得到第一位置编码,从而能够通过字符在分词中的第一位置信息引入分词知识,能够避免在文本编码的过程中同一个分词的各个字符之间的语义关联缺失。由此,能够提高文本编码的语义信息量,减少编码过程中文本的信息量的损失,能够提高编码质量。
并且,可以理解,分词包括的字符个数有限,因此第一位置信息的字符在分词中的排序序数有限,第一位置编码表的包括的映射对数的数量有限,数据量较少,从而能够降低编码复杂度,使得对第一位置信息的编码处理的编码效率较高。
图7示意性地示出了本申请实施例中对字符所在的分词在文本中的第二位置信息进行编码处理生成字符的第二位置编码的步骤流程。如图7所示,在以上实施例的基础上,在某些实施例中,第二位置信息为字符所在的分词在文本中的排序序数,第二位置编码包括第二位置向量,步骤S420的对字符所在的分词在文本中的第二位置信息进行编码处理生成字符的第二位置编码,可以进一步包括以下步骤S710和步骤S720:
S710.获取第二位置编码表,第二位置编码表包括第二位置信息与第二位置向量的映射关系;
S720.根据第二位置编码表将各个字符对应的第二位置信息映射为对应的第二位置向量。
在具体例子中,对于文本“火焰冲撞:此天赋现在正确的再次用于火雨”,第二位置信息为字符所在的分词在文本中的排序序数。该文本中的字符所在的分词在文本中的第二位置信息wj,可以如下表所示:
表3
也就是说,字符“火”的第二位置信息wj为“1`”,字符“焰”的第二位置信息wj为“1`”,字符“冲”的第二位置信息wj为“2`”,以此类推。在其他实施方式中,字符所在的分词在文本中的排序序数除了如表3中用“1`、2`、3`、4`、5`”的序数表示,也可以用其他符号表示,例如“a、b、c、d、e……”、“~、!、@、#、$……”或“1`、3`、5`、7`、9`……”等字符。具体地,可以采用文本中未出现、并且文本中的字符在分词内的排序序数未出现的字符,作为文本中的字符所在的分词在文本中的排序序数。
第二位置编码表包括第二位置信息与第二位置向量的映射关系。根据第二位置编码表,能够将各个字符所在的分词在文本中的第二位置信息映射为对应的第二位置向量,从而完成对第二位置信息的编码处理,得到第二位置编码。此种编码处理方式中,对字符所在的分词在文本中的排序序数进行编码得到第二位置编码,从而能够通过字符所在的分词在文本中的第二位置信息引入分词知识的同时引入字符在文本中的先后位置的相关信息,从而能够避免在文本编码的过程中同一个分词的各个字符之间的语义关联缺失,并且能够避免字符的位置信息的缺失。由此,能够提高文本编码的语义信息量,减少编码过程中文本的信息量的损失,能够提高编码质量。
并且,可以理解,对于同一个分词中的字符而言,字符所在的分词在文本中的第二位置信息相同,因此,对于同一个分词中的字符而言,字符的第二位置编码相同。由此,相比较于直接采用字符的在文本中的排序序数进行编码的方式,本实施例的第二位置信息和第二位置编码的类别均减少了,可以降低第二位置编码表中的第二位置信息和第二位置向量的映射对数,进而能够降低第二位置编码表的数据量。并且,对于同一个分词中的字符,仅需对该分词中的一个字符完成一次编码处理得到第二位置编码,就能将该第二位置编码应用到该分词的每个字符上,能够减少编码次数,降低本实施例的文本编码方法的计算复杂度,提高编码效率。
得到文本中的各个字符对应的第一位置编码和第二位置编码后,可以根据字符的第一位置编码和第二位置编码生成字符的位置编码。具体地,第一位置向量的向量维度和第二位置向量的向量维度可以相等,例如式(1)所示,可以将文本中的字符对应的第一位置向量E1(cj)和该字符对应的第二位置向量E2(wj)相加得到该字符的位置编码Pj。
S230.获取对字符进行嵌入编码处理得到的字符编码。
在一些实施方式中,可以采用外部的嵌入编码处理器,获取对字符进行嵌入编码处理得到的字符编码。在另一些实施方式中,也可以直接对字符进行嵌入编码处理得到的字符编码。
图8示意性地示出了本申请实施例中获取对字符进行嵌入编码处理得到的字符编码的步骤流程。如图8所示,在以上实施例的基础上,在某些实施例中,字符编码包括嵌入向量,步骤S230的获取对字符进行嵌入编码处理得到的字符编码,可以进一步包括以下步骤S810和步骤S820:
S810.获取预设词表,预设词表包括字符与嵌入向量的映射关系;
S820.根据预设词表将各个字符映射为对应的嵌入向量。
预设词表包括字符与嵌入向量的映射关系。根据预设词表,可以将各个字符映射为对应的嵌入向量vj,以便后续形成文本编码。
在一些实施方式中,本申请某些实施例中的第一位置编码、第二位置编码、位置编码、字符编码、文本编码均采用向量的编码形式;在另一些实施方式中本申请某些实施例中的第一位置编码、第二位置编码、位置编码、字符编码、文本编码可以采用数组、坐标、二进制编码等编码形式或其组合的编码形式。
可以理解,对于大多数语言而言,字符的数量远小于字符组成的词的数量,并且,相比较于文本中的词不在词表的情况,极少会出现文本中的字符为不可识别字符的情况,因此,以字符为粒度,对字符进行嵌入编码处理能够避免编码过程中出现大量集外词的问题,有利于提高编码质量。
图9示意性地示出了本申请实施例中根据预设词表将各个字符映射为对应的嵌入向量的步骤流程。如图9所示,在以上实施例的基础上,在某些实施例中,预设词表还包括常用分词表,常用分词表包括常用的分词与嵌入向量的映射关系,步骤S520中的根据预设词表将各个字符映射为对应的嵌入向量,可以进一步包括以下步骤S910和步骤S920:
S910.当字符所在的分词包括在常用分词表中时,将字符映射为字符所在的分词对应的嵌入向量;
S920.当字符所在的分词未包括在常用分词表中时,将字符映射为字符对应的嵌入向量。
可以理解,当字符所在的分词包括在常用分词表中时,将字符映射为字符所在的分词对应的嵌入向量vj1,当字符所在的分词未包括在常用分词表中时,将字符映射为字符对应的嵌入向量vj2,由此,对于在文本中出现概率较大的常用的分词,能够将分词中的字符映射为字符所在的分词对应的嵌入向量vj1,从而,对于同一个分词中的字符,仅需对该分词中的一个字符完成一次嵌入编码得到嵌入向量,就能将该嵌入向量作为该分词中的每个字符对应的嵌入向量,能够减少编码次数,提高编码效率的同时,还能加强位于同一常用的分词中的不同字符的含义之间的联系。可以理解,在文本中出现概率较大的常用分词中的字符的含义,大概率取决于该常用的分词的含义。因此,将字符映射为字符所在的分词对应的嵌入向量有利于增强对字符的含义的理解,从而提高对于字符进行嵌入编码处理的编码质量。当根据字符编码形成的文本编码用于翻译文本时,能够使得翻译结果对文本的语义理解更加充分,有利于使得翻译结果准确度更高。
而对于不在常用分词表的分词,将字符映射为字符对应的嵌入向量。可以理解,常用分词为文本中出现概率较大的分词,当分词不是文本的常用分词时,按照预设词表中的字符与嵌入向量的映射关系,将字符映射为字符对应的嵌入向量,能够在不增加常用分词表的数据量的前提下,完成对文本中的所有字符的编码。对于大多数语言而言,字符的数量远小于字符组成的词的数量,因此,本申请实施例对于不在常用分词表的分词,将字符映射为字符对应的嵌入向量,能够降低预设词表和常用分词表的总数据量,提高编码效率。进而,本申请在应用到如transformer等预训练翻译模型时,能够使得该模型的训练数据量较小,便于对翻译模型的训练,并且,能够同时提高编码和解码的效率。
例如,上文中表3所示的实施例中,“火雨”为一个分词,也就是说“火雨”在预训练分词器的预设词典中。此时,如果“火雨”在嵌入编码处理的常用分词表中,则对“火雨”编码,形成向量v1,字符“火”和“雨”对应的编码均为向量v1。而如果“火雨”不在嵌入编码的常用分词表中,但“火”和“雨”在嵌入编码的预设词表中,则分别对“火”和“雨”进行字符嵌入编码得到“火”对应的向量v2和“雨”对应的向量v3。由此,能够在无法对“火雨”进行编码时,对字符“火”和字符“雨”进行编码,能够避免OOV问题的同时,能够提升编码质量。
在以上实施例的基础上,在某些实施例中,在步骤S220的根据字符在分词中的第一位置信息以及字符所在的分词在文本中的第二位置信息生成字符的位置编码之前,文本编码方法可以进一步包括以下步骤:
根据分词信息在每个分词后***预设分隔词,并将预设分隔词作为文本中的由单个字符组成的分词,预设分隔词包括一个或多个分隔字符。
先根据分词信息在每个分词后***预设分隔词,将预设分隔词作为文本中的分词,再根据字符在分词中的第一位置信息以及字符所在的分词在文本中的第二位置信息生成字符的位置编码,能够使得本申请实施例的文本编码中涵盖了更多的分词信息,从而能够进一步引入分词知识,加强文本编码中同一个分词的各个字符之间的语义关联。在具体实施方式中,分隔字符可以包括特殊符号。分隔词可以为文本及排序序数中均未出现的字符或字符串,例如<s>、#等。
在一个实施例中,根据分词信息在文本“火焰冲撞:此天赋现在正确的再次用于火雨。”的每个分词后***预设分隔词<s>后,可以得到***预设分隔词后的文本:“火焰<s>冲撞<s>:<s>此<s>天赋<s>现在<s>正确<s>的<s>再次<s>作用<s>于<s>火雨<s>。<s>”。由此,后续再对字符“火”、“焰”、“<s>”等进行嵌入编码处理,对字符“火”、“焰”、“<s>”等的第一位置信息和第二位置信息分别进行编码处理,以得到文本编码,使得文本编码方法能够在编码过程中进一步引入分词知识,加强文本编码中同一个分词的各个字符之间的语义关联,能够提高编码质量。
S240.将各个字符的位置编码和字符编码进行融合处理得到文本的文本编码。
在一些实施例中,融合处理的具体过程可以是将各个字符的字符编码vj和位置编码Pj相加得到文本的文本编码rj。具体地,当位置编码Pj和字符编码vj是向量的情况下,位置编码Pj的向量维度和字符编码vj的向量维度可以相等,以便字符编码vj和位置编码Pj相加。如下所示:
rj=vj+Pj (2)
在一些实施例中,融合处理的具体过程可以是将各个字符的位置编码和字符编码相加得到文本的文本预编码,再通过对文本预编码的编码优化得到文本编码。
图10示意性地示出了本申请实施例中将各个字符的位置编码和字符编码进行融合处理得到文本的文本编码之后的本方法的部分步骤流程。如图10所示,在以上实施例的基础上,在某些实施例中,步骤S240的将各个字符的位置编码和字符编码进行融合处理得到文本的文本编码之后,文本编码方法可以进一步包括以下步骤S1010~步骤S1030:
S1010.将文本编码输入到预训练翻译模型中,预训练翻译模型包括自注意力层和前馈网络层;
S1020.通过自注意力层获取与文本编码对应的注意力矩阵;
S1030.通过前馈网络层对注意力矩阵进行线性映射和函数激活处理,得到文本编码对应的隐藏层编码,隐藏层编码用于确定与文本的对应的目标语言文本。
具体地,将文本编码输入到预训练翻译模型中,先通过自注意力层并经过残差连接、归一化处理后获取与文本编码对应的注意力矩阵,再通过前馈网络层对注意力矩阵进行线性映射和函数激活处理,得到文本编码对应的隐藏层编码,隐藏层编码用于确定与文本的对应的目标语言文本,由此,本实施方式的文本编码方法可以嵌入到预训练翻译模型中,由于本实施方式的文本编码方法避免了在文本编码的过程中同一个分词的各个字符之间的语义关联缺失,提高了文本编码的信息量,能够使得该预训练翻译模型的翻译结果对文本的语义理解更加充分,从而有利于翻译模型的BLEU(Bilingual EvaluationUnderstudy,双语评估替换分数)指标的提升。在具体实施例中,预训练翻译模型可以为transformer模型、seq2seq(Sequence to Sequence)模型等。
在一些实施方式中,还可以将文本编码输入到用于处理语言建模、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘等自然语言处理任务的预训练模型中,从而使得本申请实施方式的文本编码能够用于优化自然语言处理任务的任务执行过程和执行结果。例如,可以将本申请实施例的文本编码方法应用到小程序搜索中的对搜索文本的编码上,从而能够加强对搜索文本的语义理解,从而提高搜索的准确度和用户的搜索体验感。或者,可以将本申请实施例的文本编码方法应用到对文章自动提取标签的网页功能上,从而提高对文章的标签提取的准确性。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的文本编码方法。图11示意性地示出了本申请实施例提供的文本编码装置的结构框图。如图11所示,文本编码装置1100可以包括:
分词确定模块1110,被配置为获取对文本进行分词处理得到的分词信息,并根据分词信息确定组成文本的多个分词,分词包括一个或多个字符;
位置编码模块1120,被配置为根据字符在分词中的第一位置信息以及字符所在的分词在文本中的第二位置信息生成字符的位置编码;
字符编码模块1130,被配置为获取对字符进行嵌入编码处理得到的字符编码;
编码融合模块1140,被配置为将各个字符的位置编码和字符编码进行融合处理得到文本的文本编码。
在本申请的一些实施例中,基于以上各实施例,位置编码模块包括:
第一位置编码单元,被配置为对字符在分词中的第一位置信息进行编码处理生成字符的第一位置编码;
第二位置编码单元,被配置为对字符所在的分词在文本中的第二位置信息进行编码处理生成字符的第二位置编码;
位置编码单元,被配置为根据字符的第一位置编码和第二位置编码生成字符的位置编码。
在本申请的一些实施例中,基于以上各实施例,第一位置信息为字符的词内位置标签信息,词内位置标签信息包括词首标签信息、词中标签信息、词尾标签信息和单字符词标签信息,第一位置编码包括第一位置向量,第一位置编码单元包括:
词内位置标签编码表获取子单元,被配置为获取词内位置标签编码表,词内位置标签编码表包括词内位置标签信息与第一位置向量的映射关系;
第一位置向量获取子单元,被配置为根据词内位置标签编码表将各个字符对应的词内位置标签信息映射为对应的第一位置向量。
在本申请的一些实施例中,基于以上各实施例,第一位置信息为字符在对应的分词中的排序序数,第一位置编码包括第一位置向量,第一位置编码单元包括:
第一位置编码表获取子单元,被配置为获取第一位置编码表,第一位置编码表包括第一位置信息与第一位置向量的映射关系;
第一位置向量确定子单元,被配置为根据第一位置编码表将各个字符对应的第一位置信息映射为对应的第一位置向量。
在本申请的一些实施例中,基于以上各实施例,第二位置信息为字符所在的分词在文本中的排序序数,第二位置编码包括第二位置向量,第二位置编码单元包括:
第二位置编码表获取子单元,被配置为获取第二位置编码表,第二位置编码表包括第二位置信息与第二位置向量的映射关系;
第二位置向量确定子单元,被配置为根据第二位置编码表将各个字符对应的第二位置信息映射为对应的第二位置向量。
在本申请的一些实施例中,基于以上各实施例,字符编码包括嵌入向量,字符编码模块包括:
预设词表获取单元,被配置为获取预设词表,预设词表包括字符与嵌入向量的映射关系;
嵌入向量获取单元,被配置为根据预设词表将各个字符映射为对应的嵌入向量。
在本申请的一些实施例中,基于以上各实施例,预设词表还包括常用分词表,常用分词表包括常用的分词与嵌入向量的映射关系,嵌入向量获取单元包括:
分词嵌入向量获取子单元,被配置为当字符所在的分词包括在常用分词表中时,将字符映射为字符所在的分词对应的嵌入向量;
字符嵌入向量获取子单元,被配置为当字符所在的分词未包括在常用分词表中时,将字符映射为字符对应的嵌入向量。
在本申请的一些实施例中,基于以上各实施例,文本编码装置还包括:
预设分隔词***模块,被配置为根据分词信息在每个分词后***预设分隔词,并将预设分隔词作为文本中的由单个字符组成的分词,预设分隔词包括一个或多个分隔字符。
在本申请的一些实施例中,基于以上各实施例,分词确定模块包括:
文本输入单元,被配置为将文本输入到预训练分词器中,预训练分词器包括预设词典,预设词典包括多个预分词;
预分词获取单元,被配置为通过预设词典获取文本中的预分词;
分词信息获取单元,被配置为根据文本中的预分词获取文本对应的多个分词路径,并从多个分词路径中选择一个分词路径作为分词结果,根据分词结果得到文本的分词信息。
在本申请的一些实施例中,基于以上各实施例,文本编码装置还包括:
文本编码输入单元,被配置为将文本编码输入到预训练翻译模型中,预训练翻译模型包括自注意力层和前馈网络层;
注意力矩阵获取单元,被配置为通过自注意力层获取与文本编码对应的注意力矩阵;
隐藏层编码获取单元,被配置为通过前馈网络层对注意力矩阵进行线性映射和函数激活处理,得到文本编码对应的隐藏层编码,隐藏层编码用于确定与文本的对应的目标语言文本。
本申请各实施例中提供的文本编码装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图12示意性地示出了用于实现本申请实施例的电子设备的结构框图。
需要说明的是,图12示出的电子设备1200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图12所示,电子设备1200包括中央处理器1201(Central Processing Unit,CPU),其可以根据存储在只读存储器1202(Read-Only Memory,ROM)中的程序或者从存储部分1208加载到随机访问存储器1203(RandomAccess Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1203中,还存储有装置工作所需的各种程序和数据。中央处理器1201、在只读存储器1202以及随机访问存储器1203通过总线1204彼此相连。输入/输出接口1205(Input/Output接口,即I/O接口)也连接至总线1204。
以下部件连接至输入/输出接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至输入/输出接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理器1201执行时,执行本申请的装置中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (12)

1.一种文本编码方法,其特征在于,所述方法包括:
获取对文本进行分词处理得到的分词信息,并根据所述分词信息确定组成所述文本的多个分词,所述分词包括一个或多个字符;
对所述字符在所述分词中的第一位置信息进行编码处理生成所述字符的第一位置编码;
获取第二位置编码表,所述第二位置编码表包括所述字符所在的分词在所述文本中的第二位置信息与第二位置向量的映射关系;所述第二位置信息为所述字符所在的分词在所述文本中的排序序数;
根据所述第二位置编码表将各个所述字符对应的第二位置信息映射为对应的第二位置向量,以得到所述字符的第二位置编码;
根据所述字符的所述第一位置编码和所述第二位置编码生成所述字符的位置编码;
获取对所述字符进行嵌入编码处理得到的字符编码;
将各个所述字符的所述位置编码和所述字符编码进行融合处理得到所述文本的文本编码。
2.根据权利要求1所述的文本编码方法,其特征在于,所述第一位置信息为所述字符的词内位置标签信息,所述词内位置标签信息包括词首标签信息、词中标签信息、词尾标签信息和单字符词标签信息,所述第一位置编码包括第一位置向量,所述对所述字符在所述分词中的第一位置信息进行编码处理生成所述字符的第一位置编码,包括:
获取词内位置标签编码表,所述词内位置标签编码表包括所述词内位置标签信息与第一位置向量的映射关系;
根据所述词内位置标签编码表将各个所述字符对应的词内位置标签信息映射为对应的第一位置向量。
3.根据权利要求1所述的文本编码方法,其特征在于,所述第一位置信息为所述字符在对应的分词中的排序序数,所述第一位置编码包括第一位置向量,所述对所述字符在所述分词中的第一位置信息进行编码处理生成所述字符的第一位置编码,包括:
获取第一位置编码表,所述第一位置编码表包括所述第一位置信息与第一位置向量的映射关系;
根据所述第一位置编码表将各个所述字符对应的第一位置信息映射为对应的第一位置向量。
4.根据权利要求1所述的文本编码方法,其特征在于,所述字符编码包括嵌入向量,所述获取对所述字符进行嵌入编码处理得到的字符编码,包括:
获取预设词表,所述预设词表包括所述字符与嵌入向量的映射关系;
根据所述预设词表将各个所述字符映射为对应的嵌入向量。
5.根据权利要求4所述的文本编码方法,其特征在于,所述预设词表还包括常用分词表,所述常用分词表包括常用的分词与嵌入向量的映射关系,所述根据所述预设词表将各个所述字符映射为对应的嵌入向量,包括:
当所述字符所在的分词包括在所述常用分词表中时,将所述字符映射为所述字符所在的分词对应的嵌入向量;
当所述字符所在的分词未包括在所述常用分词表中时,将所述字符映射为所述字符对应的嵌入向量。
6.根据权利要求1所述的文本编码方法,其特征在于,在所述对所述字符在所述分词中的第一位置信息进行编码处理生成所述字符的第一位置编码之前,所述方法还包括:
根据所述分词信息在每个分词后***预设分隔词,并将所述预设分隔词作为所述文本中的由单个字符组成的分词,所述预设分隔词包括一个或多个分隔字符。
7.根据权利要求1-6任意一项所述的文本编码方法,其特征在于,所述获取对文本进行分词处理得到的分词信息,包括:
将所述文本输入到预训练分词器中,所述预训练分词器包括预设词典,所述预设词典包括多个预分词;
通过所述预设词典获取所述文本中的预分词;
根据所述文本中的预分词获取所述文本对应的多个分词路径,并从多个所述分词路径中选择一个所述分词路径作为分词结果,根据所述分词结果得到所述文本的分词信息。
8.根据权利要求1-6任意一项所述的文本编码方法,其特征在于,在所述将各个所述字符的所述位置编码和所述字符编码进行融合处理得到所述文本的文本编码之后,所述方法还包括:
将所述文本编码输入到预训练翻译模型中,所述预训练翻译模型包括自注意力层和前馈网络层;
通过所述自注意力层获取与所述文本编码对应的注意力矩阵;
通过所述前馈网络层对所述注意力矩阵进行线性映射和函数激活处理,得到所述文本编码对应的隐藏层编码,所述隐藏层编码用于确定与所述文本的对应的目标语言文本。
9.一种文本编码装置,其特征在于,所述装置包括:
分词确定模块,被配置为获取对文本进行分词处理得到的分词信息,并根据所述分词信息确定组成所述文本的多个分词,所述分词包括一个或多个字符;
位置编码模块,被配置为根据所述字符在所述分词中的第一位置信息以及所述字符所在的分词在所述文本中的第二位置信息生成所述字符的位置编码;
其中,位置编码模块包括:第一位置编码单元,被配置为对字符在分词中的第一位置信息进行编码处理生成字符的第一位置编码;第二位置编码单元,被配置为对字符所在的分词在文本中的第二位置信息进行编码处理生成字符的第二位置编码;位置编码单元,被配置为根据字符的第一位置编码和第二位置编码生成字符的位置编码;
所述第二位置编码单元包括:第二位置编码表获取子单元,被配置为获取第二位置编码表,所述第二位置编码表包括所述字符所在的分词在所述文本中的第二位置信息与第二位置向量的映射关系;所述第二位置信息为所述字符所在的分词在所述文本中的排序序数;第二位置向量确定子单元,被配置为根据所述第二位置编码表将各个所述字符对应的第二位置信息映射为对应的第二位置向量,以得到所述字符的第二位置编码;
字符编码模块,被配置为获取对所述字符进行嵌入编码处理得到的字符编码;
编码融合模块,被配置为将各个所述字符的所述位置编码和所述字符编码进行融合处理得到所述文本的文本编码。
10.一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至8中任意一项所述的文本编码方法。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至8中任意一项所述的文本编码方法。
12.一种计算机程序产品,其特征在于,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得该计算机设备执行如权利要求1至8中任意一项所述的文本编码方法。
CN202110627615.7A 2021-06-04 2021-06-04 文本编码方法、装置、计算机可读介质及电子设备 Active CN113836866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110627615.7A CN113836866B (zh) 2021-06-04 2021-06-04 文本编码方法、装置、计算机可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110627615.7A CN113836866B (zh) 2021-06-04 2021-06-04 文本编码方法、装置、计算机可读介质及电子设备

Publications (2)

Publication Number Publication Date
CN113836866A CN113836866A (zh) 2021-12-24
CN113836866B true CN113836866B (zh) 2024-05-24

Family

ID=78962660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110627615.7A Active CN113836866B (zh) 2021-06-04 2021-06-04 文本编码方法、装置、计算机可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN113836866B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417856B (zh) * 2021-12-29 2022-11-04 北京百度网讯科技有限公司 文本的稀疏编码方法、装置及电子设备
CN115392192B (zh) * 2022-10-27 2023-01-17 北京中科汇联科技股份有限公司 一种混合神经网络和字符信息的文本编码方法及***
CN116961907B (zh) * 2023-09-19 2023-12-29 广州市艾索技术有限公司 一种分布式无纸化会议数据加密传输保护方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528420A (zh) * 2015-12-07 2016-04-27 北京金山安全软件有限公司 文字编码和译码方法、装置及电子设备
CN110009013A (zh) * 2019-03-21 2019-07-12 腾讯科技(深圳)有限公司 编码器训练及表征信息提取方法和装置
CN111680510A (zh) * 2020-07-07 2020-09-18 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备以及存储介质
CN112633290A (zh) * 2021-03-04 2021-04-09 北京世纪好未来教育科技有限公司 文本识别方法、电子设备及计算机可读介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6550765B2 (ja) * 2015-01-28 2019-07-31 富士通株式会社 文字データ変換プログラム、文字データ変換装置および文字データ変換方法
JP7059516B2 (ja) * 2017-03-29 2022-04-26 富士通株式会社 符号化プログラム、符号化装置および符号化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528420A (zh) * 2015-12-07 2016-04-27 北京金山安全软件有限公司 文字编码和译码方法、装置及电子设备
CN110009013A (zh) * 2019-03-21 2019-07-12 腾讯科技(深圳)有限公司 编码器训练及表征信息提取方法和装置
CN111680510A (zh) * 2020-07-07 2020-09-18 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备以及存储介质
CN112633290A (zh) * 2021-03-04 2021-04-09 北京世纪好未来教育科技有限公司 文本识别方法、电子设备及计算机可读介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于中文字符编码的文本水印算法研究;陈翔;;计算机技术与发展;20130210(02);全文 *
基于神经网络机器翻译模型的英文分词研究;陈祖君;;计算机与数字工程;20200120(01);全文 *

Also Published As

Publication number Publication date
CN113836866A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
CN113836866B (zh) 文本编码方法、装置、计算机可读介质及电子设备
Zhang et al. Understanding subtitles by character-level sequence-to-sequence learning
CN111104512B (zh) 游戏评论的处理方法及相关设备
CN110705301A (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111339765B (zh) 文本质量评估方法、文本推荐方法及装置、介质及设备
CN114676234A (zh) 一种模型训练方法及相关设备
Xue et al. A better way to attend: Attention with trees for video question answering
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
US20230034414A1 (en) Dialogue processing apparatus, learning apparatus, dialogue processing method, learning method and program
CN113779225B (zh) 实体链接模型的训练方法、实体链接方法及装置
CN116450796A (zh) 一种智能问答模型构建方法及设备
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN112084779B (zh) 用于语义识别的实体获取方法、装置、设备及存储介质
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN117271759A (zh) 文本摘要生成模型训练方法、文本摘要生成方法和装置
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN117558270B (zh) 语音识别方法、装置、关键词检测模型的训练方法和装置
CN113609866A (zh) 文本标记方法、装置、设备及存储介质
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN116975292A (zh) 信息识别方法、装置、电子设备、存储介质及程序产品
CN116975347A (zh) 图像生成模型训练方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant