CN112084752B - 基于自然语言的语句标注方法、装置、设备及存储介质 - Google Patents

基于自然语言的语句标注方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112084752B
CN112084752B CN202010936367.XA CN202010936367A CN112084752B CN 112084752 B CN112084752 B CN 112084752B CN 202010936367 A CN202010936367 A CN 202010936367A CN 112084752 B CN112084752 B CN 112084752B
Authority
CN
China
Prior art keywords
sentence
target
model
annotation
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010936367.XA
Other languages
English (en)
Other versions
CN112084752A (zh
Inventor
陈夏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010936367.XA priority Critical patent/CN112084752B/zh
Publication of CN112084752A publication Critical patent/CN112084752A/zh
Application granted granted Critical
Publication of CN112084752B publication Critical patent/CN112084752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种基于自然语言的语句标注方法、装置、设备及存储介质,涉及人工智能技术领域。该方法包括:接收用户输入的目标语句序列以及对于目标语句序列的语句标注指令;响应于语句标注指令调用预设的句式标注模型;将目标语句序列输入句式标注模型,以通过句式标注模型对目标语句序列进行编码转化,将目标语句序列转化为目标句向量;基于预设的加权损失函数计算目标句向量在不同标注结果下的损失值,并输出与其中最低损失值对应的标注结果下的目标标注序列。所述方法通过加权损失函数对不同的样本赋予不同的权重,可以有效地减少标签不均衡带来的影响,并能进一步改善标注结果,提升模型标注的效果。

Description

基于自然语言的语句标注方法、装置、设备及存储介质
技术领域
本申请涉及人工智能领域,特别是一种基于自然语言的语句标注方法、装置、设备及存储介质。
背景技术
序列标注问题是自然语言中最常见的问题,序列标注问题包括自然语言处理中的分词,词性标注,命名实体识别,关键词抽取,词义角色标注等等。问句句式标注是将句子中的词语与业务概念进行映射,形成句子对应的抽象表达形式,来表明话术的语义,可以对应为序列标注中的命名实体识别任务。在句式标注场景中,对应的标签类型较一般命名实体识别任务更多,且每个类别数量也有较大的差异,如何在类别多且类型不均衡的情况下对句子进行概念标注是此类序列标注任务的一个难点。
常用的方式是通过对预训练后的BERT(Bidirectional Encoder epresentationsfrom Transformers,来自变换器的双向编码器表征量)模型结合条件随机场层进行微调,但目前的句式标注方案中,损失函数对不同难易程度的样本都采用相同的权重,如此可能导致现有的标注模型盲目降低损失值,忽略了数量少的标签的拟合,而对于未在训练集中出现的实体同义词,标注结果表达的语义准确度不够高。
发明内容
本申请实施例所要解决的技术问题是,提供一种基于自然语言的语句标注方法、装置、设备及存储介质,提升模型的标注效果,使标注结果能较准确地表达出用户语义。
为了解决上述技术问题,本申请实施例提供一种基于自然语言的语句标注方法,采用了如下所述的技术方案:
一种基于自然语言的语句标注方法,包括:
接收用户输入的目标语句序列以及对于所述目标语句序列的语句标注指令;
响应于所述语句标注指令调用预设的句式标注模型;
将所述目标语句序列输入所述句式标注模型,以通过所述句式标注模型对所述目标语句序列进行编码转化,将所述目标语句序列转化为目标句向量;
基于预设的加权损失函数计算所述目标句向量在不同标注结果下的损失值,并输出与其中最低损失值对应的标注结果下的目标标注序列。
为了解决上述技术问题,本申请实施例还提供一种基于自然语言的语句标注装置,采用了如下所述的技术方案:
一种基于自然语言的语句标注装置,包括:
数据接收模块,用于接收用户输入的目标语句序列以及对于所述目标语句序列的语句标注指令;
模型调用模块,用于响应于所述语句标注指令调用预设的句式标注模型;
模型第一处理模块,用于将所述目标语句序列输入所述句式标注模型,以通过所述句式标注模型对所述目标语句序列进行编码转化,将所述目标语句序列转化为目标句向量;
模型第二处理模块,用于基于预设的加权损失函数计算所述目标句向量在不同标注结果下的损失值,并输出与其中最低损失值对应的标注结果下的目标标注序列。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项技术方案所述的基于自然语言的语句标注方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项技术方案所述的基于自然语言的语句标注方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例公开了一种基于自然语言的语句标注方法、装置、设备及存储介质,本申请实施例所述的基于自然语言的语句标注方法,首先接收用户输入的目标语句序列以及对于目标语句序列的语句标注指令;然后响应于语句标注指令调用预设的句式标注模型;再将目标语句序列输入句式标注模型,以通过句式标注模型对目标语句序列进行编码转化,将目标语句序列转化为目标句向量;而后进一步基于预设的加权损失函数计算目标句向量在不同标注结果下的损失值,并输出与其中最低损失值对应的标注结果下的目标标注序列。所述方法通过加权损失函数对不同的样本赋予不同的权重,可以有效地减少标签不均衡带来的影响,并能进一步改善标注结果,提升模型标注的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例可以应用于其中的示例性***架构图;
图2为本申请实施例中所述基于自然语言的语句标注方法的一个实施例的流程图;
图3为本申请实施例中所述基于自然语言的语句标注装置的一个实施例的结构示意图;
图4为本申请实施例中计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”、“包含”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。在本申请的权利要求书、说明书以及说明书附图中的术语,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其他实施例相结合。
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的相关附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,***架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用第一终端设备101、第二终端设备102和第三终端设备103通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102和第三终端设备103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
第一终端设备101、第二终端设备102和第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对第一终端设备101、第一终端设备102和第三终端设备103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于自然语言的语句标注方法一般由服务器/终端设备执行,相应地,基于自然语言的语句标注装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了本申请实施例中所述基于自然语言的语句标注方法的一个实施例的流程图。所述基于自然语言的语句标注方法,包括以下步骤:
步骤201:接收用户输入的目标语句序列以及对于所述目标语句序列的语句标注指。
用户在向服务器发送请求进行语句标注时,需要向服务器输入其所请求进行标注的对象,即一个由自然语言表示的语句序列,同时通过编辑相应的语句标注指令向服务器发送对该语句序列的标注命令。
在本申请实施例中,所述基于自然语言的语句标注方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收目标语句序列和语句标注指令。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤202:响应于所述语句标注指令调用预设的句式标注模型。
本申请中,主要通过一个预设的句式标注模型实现对语句序列的标注。所述句式标注模型主要包括:输入层、bert层和CRF(Conditional Random Field,条件随机场)层三个部分。其中,bert层用于对输入的语句序列进行编码,将其转换为表征语义的句向量;crf则表示为输出层,能用于输出最终完成标注的句子序列。
在本申请一些实施例中,在步骤202之前,所述基于自然语言的语句标注方法还包括:
确认目标场景类型和初始标注模型;
获取与所述目标场景类型匹配的具有初始标注的目标训练集;
基于所述目标训练集对所述初始标注模型进行训练,将所述初始标注模型调整为所述句式标注模型。
一段由自然语言表示的语句序列,其标注中标签的类别与其所属的具体场景类型往往具有密切联系。其中场景类型可以包括:词性标注、命名实体识别、关键词标注和角色标注等。更具体地,在一些命名实体识别的场景中,还可以进一步划分为不同的具体业务类型,以实现对实体更准确的识别。
确定当前语句标注所属的场景类型后,便通过获取对应于该场景类型的、具有符合该场景类型相关标注的训练集对选取的初始标注模型进行训练,以将初始标注模型调整为适应该类场景类型下语句标注的模型。
进一步的,所述基于所述目标训练集对所述初始标注模型进行训练的步骤之前,所述基于自然语言的语句标注方法还包括:
将所述目标训练集划分为k份子训练集,k≥2,且k∈N;
通过k份子训练集分别对所述初始标注模型进行训练,生成k个子标注模型;
通过k个子标注模型分别对所述目标训练集进行标注预测,获得k个目标预测结果;
比较所述初始标注与k个目标预测结果,将同时在k个目标预测结果中出现的第一标注标签加入所述初始标注,并当所述初始标注中的第二标注标签在k个目标预测结果中均未出现时,在初始标注中删除所述第二标注标签。
获取的目标训练集,其中可能存在很多标注错误和漏标问题,如此会影响模型的训练效果,为了减少上述标注标注误差问题,在模型训练之前,可以对用于模型训练的数据集先进行数据蒸馏。
本申请的一种具体实施方式中,通过k-fold交叉验证的方式对目标训练集进行数据蒸馏。首先,可以以均分等方式将目标训练集分成k份子训练集,k的数值为大于等于2的正整数,再通过k分子训练集分别对初始模型进行训练,得到k个子标注模型,然后通过k个子标注模型对目标训练集分别进行预测。在得到的k个目标预测结果中,所共有的所有相同标注标签可视为对目标训练集较准确的标注,若这些相同标注标签已存在于初始标注中则忽略,若不存在,则将对应的标注标签加入初始标注中进行更新;而若初始标注中的一些标注标签在k个目标预测结果中均为出现,则可视为对目标训练集的错误标注,需将其从初始标注中删除。
在对模型进行训练前,先对模型训练所使用的训练集进行数据蒸馏,以此能改善训练集的质量,减少由标签漏标和错标带来的影响。
步骤203:将所述目标语句序列输入所述句式标注模型,以通过所述句式标注模型对所述目标语句序列进行编码转化,将所述目标语句序列转化为目标句向量。
获取的目标语句序列通过调用出的句式标注模型进行语句标注,需通过句式标注模型的输入层输入该句式标注模型进行运算处理。而在句式标注模型中,通过输入层进入其中的语句序列,则通过bert层进行编码,以转化为能够表征其语义的句向量。
步骤204:基于预设的加权损失函数计算所述目标句向量在不同标注结果下的损失值,并输出与其中最低损失值对应的标注结果下的目标标注序列。
由句式标注模型中的bert层进行编码转化获得的句向量,最终需经由crf层处理,从所有可能的标注结果中选取出最优的一个标注结果作为输出。选取标注结果时,crf层具体根据计算出的各标注结果对应的损失值进行甄别,损失值越小,表示标注结果越优秀。
在本申请中,crf层根据预先配置的加权损失函数计算目标语句序列对应的句向量在不同标注结果下的损失值,通过加权损失函数计算损失值时,会为标注过程中识别出的句向量中的不同实体样本赋予不同的权重,如此防止在样本不平衡时样本采用相同权重会造成模型标注性能较差的问题。
在本申请的一些实施例中,在步骤204之前,所述基于自然语言的语句标注方法还包括:
配置加权损失函数,并获取函数验证集;
基于函数验证集的梯度对所述加权损失函数的参数值进行更新。
在本申请实施例的一种具体实施方式中,所述加权损失函数配置为其中,W为损失值,N为模型所用的训练集的大小,wi为样本权重,fi(θ)为识别出表示实体的样本,模型通过训练集训练完成之后,需要通过验证集进一步调整参数和对模型的能力进行初步评估,而wi的值则通过验证集上的梯度进行更新。其中,通过干净而小的验证集进行权重调优,可以更有效地减少标签不均衡带来的影响。
本申请的一些实施例中,在步骤204之后,所述基于自然语言的语句标注方法还包括:
调用预设的实体知识库;
判断所述目标语句序列中是否存在脱离于所述实体知识库的第一实体;
若存在,则计算出所述实体知识库中与所述第一实体匹配度最高的第二实体,将所述目标标注序列中的第一实体替换为所述第二实体,或将所述第二实体作为对所述第一实体的新增标注标签加入到所述目标标注序列中。
经过语句标注模型的CRF层最后输出后,输入的语句序列可以转化为对其中每一个实体通过标注标签进行说明的标注序列。但由于自然语言的多样性,一些已识别实体在不同的文本中可能存在不同的实体名称,或相同实体名称在不同的上下文中可以指代不同的实体。
进一步理解,对于已有的知识库,目标语句序列中部分已完成标注识别的实体的名称可能并不包含在该知识库中,而是以另一种实体名称的形式存在于该知识库中,因此在一些具体实施方式中,还需对目标标注序列进行实体消岐,以找到由已有知识库中表示目标语句序列中实体的无歧义的实体名称。增加实体消歧操作,能进一步改善标注结果,为下游的句式分析、问答检索等拓展任务提供能力保障。
本申请实施例所述的基于自然语言的语句标注方法,通过加权损失函数对不同的样本赋予不同的权重,可以有效地减少标签不均衡带来的影响,并能进一步改善标注结果,提升模型标注的效果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,图3示出了为本申请实施例中所述基于自然语言的语句标注装置的一个实施例的结构示意图。作为对上述图2所示方法的实现,本申请提供了一种基于自然语言的语句标注装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的基于自然语言的语句标注装置包括:
数据接收模块301;用于接收用户输入的目标语句序列以及对于所述目标语句序列的语句标注指令。
模型调用模块302;用于响应于所述语句标注指令调用预设的句式标注模型。
模型第一处理模块303;用于将所述目标语句序列输入所述句式标注模型,以通过所述句式标注模型对所述目标语句序列进行编码转化,将所述目标语句序列转化为目标句向量。
模型第二处理模块304;用于基于预设的加权损失函数计算所述目标句向量在不同标注结果下的损失值,并输出与其中最低损失值对应的标注结果下的目标标注序列。
在本申请的一些实施例中,所述基于自然语言的语句标注模块还包括:模型训练模块。在所述模型调用模块302响应于所述语句标注指令调用预设的句式标注模型之前,所述模型训练模块用于:确认目标场景类型和初始标注模型;获取与所述目标场景类型匹配的具有初始标注的目标训练集;基于所述目标训练集对所述初始标注模型进行训练,将所述初始标注模型调整为所述句式标注模型。
进一步的,所述模型训练模块还包括:数据蒸馏子模块。在所述模型训练模块基于所述目标训练集对所述初始标注模型进行训练之前,所述数据蒸馏子模块用于:将所述目标训练集划分为k份子训练集,k≥2,且k∈N;通过k份子训练集分别对所述初始标注模型进行训练,生成k个子标注模型;通过k个子标注模型分别对所述目标训练集进行标注预测,获得k个目标预测结果;比较所述初始标注与k个目标预测结果,将同时在k个目标预测结果中出现的第一标注标签加入所述初始标注,并当所述初始标注中的第二标注标签在k个目标预测结果中均未出现时,在初始标注中删除所述第二标注标签。
在本申请的一些实施例中,所述基于自然语言的语句标注模块还包括:函数设置模块。在所述模型第二处理模块304基于预设的加权损失函数计算所述目标句向量在不同标注结果下的损失值之前,所述函数设置模块用于配置加权损失函数,并获取函数验证集;基于函数验证集的梯度对所述加权损失函数的参数值进行更新。
在本申请的一些实施例中,所述基于自然语言的语句标注模块还包括:实体消歧模块。在所述模型第二处理模块304输出与其中最低损失值对应的标注结果下的目标标注序列后,所述实体消歧模块用于调用预设的实体知识库;判断所述目标语句序列中是否存在脱离于所述实体知识库的第一实体;若存在,则计算出所述实体知识库中与所述第一实体匹配度最高的第二实体,将所述目标标注序列中的第一实体替换为所述第二实体,或将所述第二实体作为对所述第一实体的新增标注标签加入到所述目标标注序列中。
本申请实施例所述的基于自然语言的语句标注装置,通过加权损失函数对不同的样本赋予不同的权重,可以有效地减少标签不均衡带来的影响,并能进一步改善标注结果,提升模型标注的效果。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过***总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作***和各类应用软件,例如基于自然语言的语句标注方法的程序代码等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的程序代码或者处理数据,例如运行所述基于自然语言的语句标注方法的程序代码。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本申请实施例所述的计算机设备,通过处理器执行存储器中存储的计算机程序进行数据推送的功能测试时,无需通过前端操作创建任务,能够实现对大批量基于自然语言的语句标注要求,并减少测试时间的消耗,提升功能测试的效率,在进行数据推送测试的过程中还能方便地进行压力测试,在通过日志判断数据的推送结果时还能方便分析测试时出现的问题,以及对测试过程中出现的问题进行定位。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于自然语言的语句标注程序,所述基于自然语言的语句标注程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于自然语言的语句标注方法的步骤。
需要强调的是,为进一步保证上述图片数据的私密和安全性,上述图片数据还可以存储于一区块链的节点中。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
在本申请所提供的上述实施例中,应该理解到,所揭露的装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
所述模块或组件可以是或者也可以不是物理上分开的,作为模块或组件显示的部件可以是或者也可以不是物理模块,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块或组件来实现本实施例方案的目的。
本申请不限于上述实施方式,以上所述是本申请的优选实施方式,该实施例仅用于说明本申请而不用于限制本申请的范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,其依然可以对前述各具体实施方式所记载的技术方案进行若干改进和修饰,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理应视为包括在本申请的保护范围之内。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,以及凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

Claims (5)

1.一种基于自然语言的语句标注方法,其特征在于,包括:
接收用户输入的目标语句序列以及对于所述目标语句序列的语句标注指令;
响应于所述语句标注指令调用预设的句式标注模型,其中,所述句式标注模型包括输入层、bert层和CRF层;
将所述目标语句序列输入所述句式标注模型,以通过所述句式标注模型对所述目标语句序列进行编码转化,将所述目标语句序列转化为目标句向量;
基于预设的加权损失函数计算所述目标句向量在不同标注结果下的损失值,并输出与其中最低损失值对应的标注结果下的目标标注序列;
在所述响应于所述语句标注指令调用预设的句式标注模型的步骤之前,所述方法还包括:
确认目标场景类型和初始标注模型;
获取与所述目标场景类型匹配的具有初始标注的目标训练集;
基于所述目标训练集对所述初始标注模型进行训练,将所述初始标注模型调整为所述句式标注模型;
所述基于所述目标训练集对所述初始标注模型进行训练的步骤之前,所述方法还包括:
将所述目标训练集划分为k份子训练集,k≥2,且k∈N;
通过k份子训练集分别对所述初始标注模型进行训练,生成k个子标注模型;
通过k个子标注模型分别对所述目标训练集进行标注预测,获得k个目标预测结果;
比较所述初始标注与k个目标预测结果,将同时在k个目标预测结果中出现的第一标注标签加入所述初始标注,并当所述初始标注中的第二标注标签在k个目标预测结果中均未出现时,在初始标注中删除所述第二标注标签;
在所述基于预设的加权损失函数计算所述目标句向量在不同标注结果下的损失值的步骤之前,所述方法还包括:
配置加权损失函数,并获取函数验证集;
基于函数验证集的梯度对所述加权损失函数的参数值进行更新;
所述加权损失函数配置为;其中,W为损失值,N为模型所用的训练集的大小,/>为样本权重,/>为识别出表示实体的样本,模型通过训练集训练完成之后,需要通过验证集进一步调整参数和对模型的能力进行初步评估,而/>的值则通过验证集上的梯度进行更新。
2.根据权利要求1所述的基于自然语言的语句标注方法,其特征在于,在所述输出与其中最低损失值对应的标注结果下的目标标注序列的步骤之后,所述方法还包括:
调用预设的实体知识库;
判断所述目标语句序列中是否存在脱离于所述实体知识库的第一实体;
若存在,则计算出所述实体知识库中与所述第一实体匹配度最高的第二实体,将所述目标标注序列中的第一实体替换为所述第二实体,或将所述第二实体作为对所述第一实体的新增标注标签加入到所述目标标注序列中。
3.一种基于自然语言的语句标注装置,其特征在于,包括:
数据接收模块,用于接收用户输入的目标语句序列以及对于所述目标语句序列的语句标注指令;
模型调用模块,用于响应于所述语句标注指令调用预设的句式标注模型,其中,所述句式标注模型包括输入层、bert层和CRF层;
模型第一处理模块,用于将所述目标语句序列输入所述句式标注模型,以通过所述句式标注模型对所述目标语句序列进行编码转化,将所述目标语句序列转化为目标句向量;
模型第二处理模块,用于基于预设的加权损失函数计算所述目标句向量在不同标注结果下的损失值,并输出与其中最低损失值对应的标注结果下的目标标注序列;
所述基于自然语言的语句标注装置还包括:模型训练模块;所述模型训练模块用于:
确认目标场景类型和初始标注模型;
获取与所述目标场景类型匹配的具有初始标注的目标训练集;
基于所述目标训练集对所述初始标注模型进行训练,将所述初始标注模型调整为所述句式标注模型;
所述模型训练模块还包括:数据蒸馏子模块;所述数据蒸馏子模块用于:
将所述目标训练集划分为k份子训练集,k≥2,且k∈N;
通过k份子训练集分别对所述初始标注模型进行训练,生成k个子标注模型;
通过k个子标注模型分别对所述目标训练集进行标注预测,获得k个目标预测结果;
比较所述初始标注与k个目标预测结果,将同时在k个目标预测结果中出现的第一标注标签加入所述初始标注,并当所述初始标注中的第二标注标签在k个目标预测结果中均未出现时,在初始标注中删除所述第二标注标签;
所述基于自然语言的语句标注模块还包括:函数设置模块;所述函数设置模块用于:
配置加权损失函数,并获取函数验证集;基于函数验证集的梯度对所述加权损失函数的参数值进行更新;
所述加权损失函数配置为;其中,W为损失值,N为模型所用的训练集的大小,/>为样本权重,/>为识别出表示实体的样本,模型通过训练集训练完成之后,需要通过验证集进一步调整参数和对模型的能力进行初步评估,而/>的值则通过验证集上的梯度进行更新。
4.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-2中任意一项所述的基于自然语言的语句标注方法的步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-2中任意一项所述的基于自然语言的语句标注方法的步骤。
CN202010936367.XA 2020-09-08 2020-09-08 基于自然语言的语句标注方法、装置、设备及存储介质 Active CN112084752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010936367.XA CN112084752B (zh) 2020-09-08 2020-09-08 基于自然语言的语句标注方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010936367.XA CN112084752B (zh) 2020-09-08 2020-09-08 基于自然语言的语句标注方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112084752A CN112084752A (zh) 2020-12-15
CN112084752B true CN112084752B (zh) 2023-07-21

Family

ID=73732099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010936367.XA Active CN112084752B (zh) 2020-09-08 2020-09-08 基于自然语言的语句标注方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112084752B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860919A (zh) * 2021-02-20 2021-05-28 平安科技(深圳)有限公司 基于生成模型的数据标注方法、装置、设备及存储介质
CN112966477B (zh) * 2021-03-05 2023-08-29 浪潮云信息技术股份公司 一种基于序列标注的把字句和被字句陈述化方法及***
CN113283222B (zh) * 2021-06-11 2021-10-08 平安科技(深圳)有限公司 自动化报表生成方法、装置、计算机设备及存储介质
CN114398492B (zh) * 2021-12-24 2022-08-30 森纵艾数(北京)科技有限公司 一种在数字领域的知识图谱构建方法、终端及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726291A (zh) * 2018-12-29 2019-05-07 中科鼎富(北京)科技发展有限公司 分类模型的损失函数优化方法、装置及样本分类方法
CN110390095A (zh) * 2018-04-20 2019-10-29 株式会社Ntt都科摩 语句标注方法及语句标注装置
CN110619112A (zh) * 2019-08-08 2019-12-27 北京金山安全软件有限公司 用于汉字的读音标注方法、装置、电子设备及存储介质
CN110738041A (zh) * 2019-10-16 2020-01-31 天津市爱贝叶斯信息技术有限公司 一种语句标注方法、装置、服务器及存储介质
CN111144120A (zh) * 2019-12-27 2020-05-12 北京知道创宇信息技术股份有限公司 一种训练语句的获取方法、装置、存储介质及电子设备
CN111597376A (zh) * 2020-07-09 2020-08-28 腾讯科技(深圳)有限公司 一种图像数据处理方法、装置以及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8655939B2 (en) * 2007-01-05 2014-02-18 Digital Doors, Inc. Electromagnetic pulse (EMP) hardened information infrastructure with extractor, cloud dispersal, secure storage, content analysis and classification and method therefor

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390095A (zh) * 2018-04-20 2019-10-29 株式会社Ntt都科摩 语句标注方法及语句标注装置
CN109726291A (zh) * 2018-12-29 2019-05-07 中科鼎富(北京)科技发展有限公司 分类模型的损失函数优化方法、装置及样本分类方法
CN110619112A (zh) * 2019-08-08 2019-12-27 北京金山安全软件有限公司 用于汉字的读音标注方法、装置、电子设备及存储介质
CN110738041A (zh) * 2019-10-16 2020-01-31 天津市爱贝叶斯信息技术有限公司 一种语句标注方法、装置、服务器及存储介质
CN111144120A (zh) * 2019-12-27 2020-05-12 北京知道创宇信息技术股份有限公司 一种训练语句的获取方法、装置、存储介质及电子设备
CN111597376A (zh) * 2020-07-09 2020-08-28 腾讯科技(深圳)有限公司 一种图像数据处理方法、装置以及计算机可读存储介质

Also Published As

Publication number Publication date
CN112084752A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN112084752B (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
WO2022007438A1 (zh) 情感语音数据转换方法、装置、计算机设备及存储介质
CN112256886B (zh) 图谱中的概率计算方法、装置、计算机设备及存储介质
CN112528029A (zh) 文本分类模型处理方法、装置、计算机设备及存储介质
CN113779277A (zh) 用于生成文本的方法和装置
CN113887237A (zh) 多意图文本的槽位预测方法、装置及计算机设备
CN113052262A (zh) 表单生成方法、装置、计算机设备及存储介质
CN116684330A (zh) 基于人工智能的流量预测方法、装置、设备及存储介质
CN115687934A (zh) 意图识别方法、装置、计算机设备及存储介质
CN112949320B (zh) 基于条件随机场的序列标注方法、装置、设备及介质
CN113220828B (zh) 意图识别模型处理方法、装置、计算机设备及存储介质
CN114385694A (zh) 一种数据加工处理方法、装置、计算机设备及存储介质
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN112686053A (zh) 一种数据增强方法、装置、计算机设备及存储介质
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
CN114742058B (zh) 一种命名实体抽取方法、装置、计算机设备及存储介质
CN115730603A (zh) 基于人工智能的信息提取方法、装置、设备及存储介质
CN114637831A (zh) 基于语义分析的数据查询方法及其相关设备
CN113420869A (zh) 基于全方向注意力的翻译方法及其相关设备
CN113255292B (zh) 基于预训练模型的端到端文本生成方法及相关设备
CN113947095B (zh) 多语种文本翻译方法、装置、计算机设备及存储介质
CN112732913B (zh) 一种非均衡样本的分类方法、装置、设备及存储介质
CN117851865A (zh) 客户分类方法、装置、计算机设备及存储介质
CN113515931A (zh) 文本纠错方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant