CN111223481A - 信息提取方法、装置、计算机可读存储介质及电子设备 - Google Patents

信息提取方法、装置、计算机可读存储介质及电子设备 Download PDF

Info

Publication number
CN111223481A
CN111223481A CN202010022597.5A CN202010022597A CN111223481A CN 111223481 A CN111223481 A CN 111223481A CN 202010022597 A CN202010022597 A CN 202010022597A CN 111223481 A CN111223481 A CN 111223481A
Authority
CN
China
Prior art keywords
character
vector
character sequence
sequence
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010022597.5A
Other languages
English (en)
Other versions
CN111223481B (zh
Inventor
葛屾
王锴
晏阳天
乔治
吴贤
范伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010022597.5A priority Critical patent/CN111223481B/zh
Publication of CN111223481A publication Critical patent/CN111223481A/zh
Application granted granted Critical
Publication of CN111223481B publication Critical patent/CN111223481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供一种信息提取方法、信息提取装置、计算机可读存储介质及电子设备;涉及自然语言处理技术领域;包括:将接收到的音频信号转换为字符序列;根据字符序列中所包含的文本类型从字段识别模型中选取与文本类型一一对应的目标字段识别模型;通过所述目标字段识别模型识别字符序列中的参考字符片段;确定各目标字段识别模型分别输出的参考字符片段的集合;对集合进行去重,并根据字符序列对应的特定字段从去重后的集合中提取特定字段对应的信息。可见,实施上述方法能够提升对于语音识别的准确率,进而有效满足用户的语音识别需求。

Description

信息提取方法、装置、计算机可读存储介质及电子设备
技术领域
本公开涉及自然语言处理技术领域,具体而言,涉及一种信息提取方法、信息提取装置、计算机可读存储介质及电子设备。
背景技术
随着科技的发展,移动终端不仅可以识别输入的文字信息也可以识别输入的语音信息对应的文字信息,以根据识别出的文字信息确定用户需求并执行相应的操作。举例来说,用户输入语音信息“打开地图”,移动终端可以对其进行识别并打开地图应用程序。
除了搜索应用程序之外,用户还可以通过语音输入进行口述日记、搜索文章等。而当前的语音识别方式主要为:通过比对语音信号与数据库中的预设信号,以确定出与之相匹配的预设信号对应的文本信息。然而,用户需要口述日记、搜索文章等需求对于语音识别的准确度要求较高,但是,当前的语音识别方式识别准确率有限,无法有效满足用户的需求。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种信息提取方法、信息提取装置、计算机可读存储介质及电子设备,实施本公开实施例能够提升对于语音识别的准确率,进而有效满足用户的语音识别需求。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种信息提取方法,包括:
将接收到的音频信号转换为字符序列;
根据字符序列中所包含的文本类型从字段识别模型中选取与文本类型一一对应的目标字段识别模型;
通过目标字段识别模型识别字符序列中的参考字符片段;
确定各目标字段识别模型分别输出的参考字符片段的集合;
对集合进行去重,并根据字符序列对应的特定字段从去重后的集合中提取特定字段对应的信息。
在本公开的一种示例性实施例中,将接收到的音频信号转换为字符序列,包括:
将接收到的音频信号切分为至少两个音频信号片段;其中,至少两个音频信号均为时域信号;
将时域信号转换为频域信号,并提取频域信号中的声学特征;
通过编码器对声学特征进行编码以及通过与编码器对应的解码器对编码结果进行解码,并根据解码结果生成字符序列。
在本公开的一种示例性实施例中,根据字符序列中所包含的文本类型从字段识别模型中选取与文本类型一一对应的目标字段识别模型,包括:
将字符序列转换为第一特征向量;
通过第一特征向量生成用于表征字符序列中上下文关系的第二特征向量;
对第二特征向量进行分类,并根据分类结果确定字符序列中包含的文本类型;
从至少两个字段识别模型中选取属于文本类型的至少一个目标字段识别模型,至少一个目标字段识别模型与字符序列相匹配。
在本公开的一种示例性实施例中,若目标字段识别模型用于进行实体识别,通过目标字段识别模型识别字符序列中的参考字符片段,包括:
通过目标字段识别模型将字符序列转换为词向量和拼音向量,并拼接词向量和拼音向量,得到第一参考向量;
提取第一参考向量中的第一参考特征并对第一参考特征进行分类;
根据分类结果确定字符序列中的参考字符片段。
在本公开的一种示例性实施例中,提取第一参考向量中的第一参考特征,包括:
通过字符特征提取网络提取第一参考向量中的字符特征,并通过上下文特征提取网络提取第一参考向量中的上下文特征;
拼接字符特征和上下文特征,并将拼接结果确定为第一参考向量中的第一参考特征。
在本公开的一种示例性实施例中,在根据分类结果确定字符序列中的参考字符片段之后,上述方法还可以包括以下步骤:
根据参考字符片段更新字符序列并计算更新后的字符序列对应的条件随机场损失函数;
根据条件随机场损失函数更新目标字段识别模型中的参数。
在本公开的一种示例性实施例中,若目标字段识别模型用于进行数字识别,通过目标字段识别模型识别字符序列中的参考字符片段,包括:
通过目标字段识别模型将字符序列转换为字符向量,并根据字符向量提取字符序列对应的上下文向量;
拼接字符向量和上下文向量,得到第二参考向量;
提取第二参考向量中的第二参考特征并对第二参考特征进行分类;
根据分类结果确定字符序列中的参考字符片段。
在本公开的一种示例性实施例中,根据分类结果确定字符序列中的参考字符片段之后,上述方法还可以包括以下步骤:
当检测到字符序列中存在待转换的字符计量单位时,通过预设转换规则将待转换的字符计量单位转换为特定的字符计量单位。
在本公开的一种示例性实施例中,根据分类结果确定字符序列中的参考字符片段之后,上述方法还可以包括以下步骤:
计算字符序列中的参考字符片段与字符序列中的标准字符片段之间的交叉熵损失函数;
根据交叉熵损失函数更新目标字段识别模型中的参数。
在本公开的一种示例性实施例中,将接收到的音频信号转换为字符序列之前,上述方法还可以包括以下步骤:
当检测到针对音频检测标识的用户触控操作时进行音频信号接收。
在本公开的一种示例性实施例中,对集合进行去重,包括:
将集合中的参考字符片段按照置信度由高到低的顺序进行排序;
根据排序结果从存在交集的参考字符片段选取置信度最高的目标参考字符片段,并将存在交集的参考字符片段中除目标参考字符片段之外的参考字符片段删除,直到集合中的参考字符片段之间不存在交集。
在本公开的一种示例性实施例中,特定字段包括血压、体重、心跳以及服用药物中至少一种。
根据本公开的第二方面,提供一种信息提取装置,包括语音识别模块、场景选择模块、字符片段识别模块以及信息提取模块,其中:
语音识别模块,用于将接收到的音频信号转换为字符序列;
场景选择模块,用于根据字符序列中所包含的文本类型从字段识别模型中选取与文本类型一一对应的目标字段识别模型;
字符片段识别模块,用于通过目标字段识别模型识别字符序列中的参考字符片段;
信息提取模块,用于确定各目标字段识别模型分别输出的参考字符片段的集合;对集合进行去重,并根据字符序列对应的特定字段从去重后的集合中提取特定字段对应的信息。
在本公开的一种示例性实施例中,语音识别模块将接收到的音频信号转换为字符序列的方式具体可以为:
语音识别模块将接收到的音频信号切分为至少两个音频信号片段;其中,至少两个音频信号均为时域信号;
语音识别模块将时域信号转换为频域信号,并提取频域信号中的声学特征;
语音识别模块通过编码器对声学特征进行编码以及通过与编码器对应的解码器对编码结果进行解码,并根据解码结果生成字符序列。
在本公开的一种示例性实施例中,场景选择模块根据字符序列中所包含的文本类型从字段识别模型中选取与文本类型一一对应的目标字段识别模型的方式具体可以为:
场景选择模块将字符序列转换为第一特征向量;
场景选择模块通过第一特征向量生成用于表征字符序列中上下文关系的第二特征向量;
场景选择模块对第二特征向量进行分类,并根据分类结果确定字符序列中包含的文本类型;
场景选择模块从至少两个字段识别模型中选取属于文本类型的至少一个目标字段识别模型,至少一个目标字段识别模型与字符序列相匹配。
在本公开的一种示例性实施例中,若目标字段识别模型用于进行实体识别,字符片段识别模块通过目标字段识别模型识别字符序列中的参考字符片段的方式具体可以为:
字符片段识别模块通过目标字段识别模型将字符序列转换为词向量和拼音向量,并拼接词向量和拼音向量,得到第一参考向量;
字符片段识别模块提取第一参考向量中的第一参考特征并对第一参考特征进行分类;
字符片段识别模块根据分类结果确定字符序列中的参考字符片段。
在本公开的一种示例性实施例中,字符片段识别模块提取第一参考向量中的第一参考特征的方式具体可以为:
字符片段识别模块通过字符特征提取网络提取第一参考向量中的字符特征,并通过上下文特征提取网络提取第一参考向量中的上下文特征;
字符片段识别模块拼接字符特征和上下文特征,并将拼接结果确定为第一参考向量中的第一参考特征。
在本公开的一种示例性实施例中,字符片段识别模块,还用于在根据分类结果确定字符序列中的参考字符片段之后,根据参考字符片段更新字符序列并计算更新后的字符序列对应的条件随机场损失函数;
字符片段识别模块,还用于根据条件随机场损失函数更新目标字段识别模型中的参数。
在本公开的一种示例性实施例中,若目标字段识别模型用于进行数字识别,字符片段识别模块通过目标字段识别模型识别字符序列中的参考字符片段的方式具体可以为:
字符片段识别模块通过目标字段识别模型将字符序列转换为字符向量,并根据字符向量提取字符序列对应的上下文向量;
字符片段识别模块拼接字符向量和上下文向量,得到第二参考向量;
字符片段识别模块提取第二参考向量中的第二参考特征并对第二参考特征进行分类;
字符片段识别模块根据分类结果确定字符序列中的参考字符片段。
在本公开的一种示例性实施例中,上述装置还可以包括单位转换模块,其中:
单位转换模块,用于在根据分类结果确定字符序列中的参考字符片段之后,且当检测到字符序列中存在待转换的字符计量单位时,通过预设转换规则将待转换的字符计量单位转换为特定的字符计量单位。
在本公开的一种示例性实施例中,字符片段识别模块,还用于在根据分类结果确定字符序列中的参考字符片段之后,计算字符序列中的参考字符片段与字符序列中的标准字符片段之间的交叉熵损失函数;
字符片段识别模块,还用于根据交叉熵损失函数更新目标字段识别模型中的参数。
在本公开的一种示例性实施例中,将接收到的音频信号转换为字符序列之前,上述装置还可以包括信号接收单元,其中:
信号接收单元,用于当检测到针对音频检测标识的用户触控操作时进行音频信号接收。
在本公开的一种示例性实施例中,信息提取模块对集合进行去重的方式具体可以为:
信息提取模块将集合中的参考字符片段按照置信度由高到低的顺序进行排序;
信息提取模块根据排序结果从存在交集的参考字符片段选取置信度最高的目标参考字符片段,并将存在交集的参考字符片段中除目标参考字符片段之外的参考字符片段删除,直到集合中的参考字符片段之间不存在交集。
在本公开的一种示例性实施例中,特定字段包括血压、体重、心跳以及服用药物中至少一种。
根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
本公开示例性实施例可以具有以下部分或全部有益效果:
在本公开的一示例实施方式所提供的信息提取方法中,可以将接收到的音频信号(即,用户输入的语音)转换为字符序列(即,文本信息);以及,可以根据字符序列中所包含的文本类型从字段识别模型中选取与文本类型一一对应的目标字段识别模型;以及,可以通过目标字段识别模型识别字符序列中的参考字符片段(即,识别出的文本信息中的关键词);以及,确定各目标字段识别模型分别输出的参考字符片段的集合,对集合进行去重,并根据字符序列对应的特定字段从去重后的集合中提取特定字段对应的信息。依据上述方案描述,本公开一方面能够提升对于语音识别的准确率,进而有效满足用户的语音识别需求;另一方面,还能够通过对语音识别准确率的提升,一定程度上改善用户的使用体验,进而提升用户的使用黏度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的一种信息提取方法及信息提取装置的示例性***架构的示意图;
图2示出了适于用来实现本公开实施例的电子设备的计算机***的结构示意图;
图3示意性示出了根据本公开的一个实施例的信息提取方法的流程图;
图4示意性示出了根据本公开的一个实施例的用于执行信息提取方法的模块示意图;
图5示意性示出了根据本公开的另一个实施例的信息提取方法的流程图;
图6示意性示出了根据本公开的一个实施例中的信息提取装置的结构框图;
图7示意性示出了根据本公开的一个实施例中的信息提取方法的应用示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本公开实施例的一种信息提取方法及信息提取装置的示例性应用环境的***架构的示意图。
如图1所示,***架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本公开实施例所提供的信息提取方法一般由服务器105执行,相应地,信息提取装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的信息提取方法也可以由终端设备101、102、103执行,相应的,信息提取装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,服务器105可以将接收到的音频信号转换为字符序列;以及,根据字符序列中所包含的文本类型从字段识别模型中选取与文本类型一一对应的目标字段识别模型;以及,通过目标字段识别模型识别字符序列中的参考字符片段;以及,确定各目标字段识别模型分别输出的参考字符片段的集合;以及,对集合进行去重,并根据字符序列对应的特定字段从去重后的集合中提取特定字段对应的信息。
图2示出了适于用来实现本公开实施例的电子设备的计算机***的结构示意图。
需要说明的是,图2示出的电子设备的计算机***200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图2所示,计算机***200包括中央处理单元(CPU)201,其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有***操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207;包括硬盘等的存储部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入存储部分208。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的方法和装置中限定的各种功能。
以下对本公开实施例的技术方案进行详细阐述:
对于疾病管理而言,通常需要记录用户的持续体征。由于病人之间存在移动设备使用熟练度的差异,因此,利用语音识别技术能够为大多数病人提供方便,即,通过语音输入的方式就能够进行体征记录。目前语音技术大多是将用户的语音转成文字,而不考虑语音的语义特性,只是单纯的文字转换,直接转换出来的文字可能会存在错误,从而跟病人原本的意图之间会存在偏差。因此,申请人想到,可以对语音转换的文字进行改错处理,同时针对语音识别场景进行优化,进而提取出相应的信息,不仅可以提升对于用户输入的语音的识别准确率,还可以提升提取到的信息的准确度。
故,基于上述一个或多个问题,本示例实施方式提供了一种信息提取方法。该信息提取方法可以应用于上述服务器105,也可以应用于上述终端设备101、102、103中的一个或多个,本示例性实施例中对此不做特殊限定。参考图3所示,该信息提取方法可以包括以下步骤S310至步骤S340:
步骤S310:将接收到的音频信号转换为字符序列。
步骤S320:根据字符序列中所包含的文本类型从字段识别模型中选取与文本类型一一对应的目标字段识别模型。
步骤S330:通过目标字段识别模型识别字符序列中的参考字符片段。
步骤S340:确定各目标字段识别模型分别输出的参考字符片段的集合,对集合进行去重,并根据字符序列对应的特定字段从去重后的集合中提取特定字段对应的信息。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在步骤S310之前,可选的,将接收到的音频信号转换为字符序列之前还可以包括以下步骤:实时检测用户输入的音频信号,并对检测到的音频信号进行声纹检测,若声纹检测结果表示输入该音频信号的用户为合法用户,则执行步骤S310。当本公开实施例应用于病人语音记录每日体征参数及服药情况(即,上述的特定字段对应的信息)的场景下时,同一病房中可能存在多个通过语音进行体征参数及服药情况记录的病人,通过该可选的实施例能够降低因误识别非合法用户语音而造成所提取的特定字段的信息与合法用户无法对应的情况,进而影响合法用户的病情记录的准确性。
在步骤S310中,将接收到的音频信号转换为字符序列。
其中,字符序列中可以包括一个或多个字符,字符可以为数字、字母、汉字等,本公开实施例不作限定。
在一个可选的实施例中,将接收到的音频信号转换为字符序列,包括:
将接收到的音频信号切分为至少两个音频信号片段;其中,至少两个音频信号均为时域信号;
将时域信号转换为频域信号,并提取频域信号中的声学特征;
通过编码器对声学特征进行编码以及通过与编码器对应的解码器对编码结果进行解码,并根据解码结果生成字符序列。
具体地,将接收到的音频信号切分为至少两个音频信号片段的方式可以为:按照预设时长(如,10ms)将接收到的音频信号切分为至少两个音频信号片段。音频信号对应的时长可以为2min,各音频信号片段对应的时长可以为10ms。
具体地,将时域信号转换为频域信号是基于快速傅里叶变换(Fast FourierTransform,FFT)进行的。具体包括:对时域信号进行FFT,得到每帧音频信号对应的频域信号,频域信号用于表示频率与能量之间的关系。进一步地,提取频域信号中的声学特征的方式可以为:通过对每帧音频信号对应的频谱的组合,可以得到音频信号对应的频谱图,频谱图中的频谱按照时间顺序排列,用于表征音频信号对应的音素;进而,可以提取频谱图的包络,通过对包络中的共振峰的提取,可以确定出频率信号中的声学特征。其中,声学特征的输出方式可以为离散值。
具体地,通过编码器对声学特征进行编码以及通过与编码器对应的解码器对编码结果进行解码,并根据解码结果生成字符序列的方式可以为:通过编码器将声学特征转换为特征向量,并通过编码器的自注意力机制对特征向量进行特征提取;进而,可以通过与编码器对应的解码器对特征提取结果进行解码;进而,可以根据解码结果生成音频信号对应的字符序列。其中,编码器可以为一个或多个,解码器同理,本公开实施例不作限定。特征提取结果和解码结果均可以表示为向量。
可见,实施该可选的实施例,能够将输入的音频信号转换为文字,以便于后续的信息提取。上述的文字转换方式,相较现有技术中与语料库直接比对的方式,能够达到更高的准确性。
以及,在一个可选的实施例中,将接收到的音频信号转换为字符序列之前,上述方法还可以包括以下步骤:
当检测到针对音频检测标识的用户触控操作时进行音频信号接收。其中,音频检测标识可以为动态标识或静态标识,音频检测标识的屏占比小于预设屏占比。
可见,实施该可选的实施例,能够降低由于误触屏幕而触发设备进行信号接收的概率,减少对于计算资源的浪费。
在步骤S320中,根据字符序列中所包含的文本类型从字段识别模型中选取与文本类型一一对应的目标字段识别模型。
其中,字段识别模型可以用于进行实体识别、数字识别、汉语识别、英语识别等,本公开实施例不作限定。另外,目标字段识别模型的数量可以为一个或多个,本公开的实施例不作限定。
在一个可选的实施例中,根据字符序列中所包含的文本类型从字段识别模型中选取与文本类型一一对应的目标字段识别模型,包括:
将字符序列转换为第一特征向量;
通过第一特征向量生成用于表征字符序列中上下文关系的第二特征向量;
对第二特征向量进行分类,并根据分类结果确定字符序列中包含的文本类型;
从至少两个字段识别模型中选取属于文本类型的至少一个目标字段识别模型,至少一个目标字段识别模型与字符序列相匹配。
具体地,将字符序列转换为第一特征向量的方式可以为:通过预训练的词嵌入确定出字符序列中各字符对应的向量,并将各字符对应的向量进行拼接,得到第一特征向量。
具体地,通过第一特征向量生成用于表征字符序列中上下文关系的第二特征向量的方式可以为:将第一特征向量输入双向循环神经网络(BiRNN),以使得BiRNN通过多个神经元之间的正向传播和反向传播对第一特征向量进行特征提取,得到用于表征字符序列中上下文关系的第二特征向量。其中,多个神经元之间的正向传播的权重参数与反向传播的权重参数不同。另外,用于表征字符序列中上下文关系的第二特征向量可以为起承转合词、谓语等的特征向量,本公开实施例不作限定。
具体地,对第二特征向量进行分类,并根据分类结果确定字符序列中包含的文本类型的方式可以为:可以将第二特征向量输入多层感知机(MLP),根据MLP对第二特征向量进行特征提取,得到待分类的特征向量;进而,可以基于激活函数(如,softmax、sigmoid等)对待分类的特征向量进行归一化处理,归一化处理后的特征向量中各元素属于[0,1];进而,可以通过分类器计算归一化处理后的特征向量属于各文本类型的概率;进而,可以按照概率由高到低的顺序选取前N位文本类型确定为字符序列中包含的文本类型,N为正整数。其中,字符序列中包含的文本类型可以为一个或多个,本公开实施例不作限定,文本类型可以为数字类型、单词类型、汉字类型、实体类型(如,医学实体类型)等。另外,需要说明的是,医学实体可以包括专有名词、药名、疾病名称等。
具体地,从至少两个字段识别模型中选取属于文本类型的至少一个目标字段识别模型的方式可以为:遍历所有字段识别模型对应的文本类型,选取文本类型与字符序列相匹配的至少一个目标字段识别模型。
可见,实施该可选的实施例,能够通过对字符序列进行的特征提取,确定出与其匹配的字段识别模型,这样能够有针对性的对字符序列中的字符片段进行识别,进而提升信息提取的准确性。
在步骤S330中,通过目标字段识别模型识别字符序列中的参考字符片段。
其中,参考字符片段可以与字符序列重合、部分重合或不重合,本公开实施例不作限定。字符序列中的参考字符片段可以为一个或多个。
在一个可选的实施例中,若目标字段识别模型用于进行实体识别,通过目标字段识别模型识别字符序列中的参考字符片段,包括:
通过目标字段识别模型将字符序列转换为词向量和拼音向量,并拼接词向量和拼音向量,得到第一参考向量;
提取第一参考向量中的第一参考特征并对第一参考特征进行分类;
根据分类结果确定字符序列中的参考字符片段。
其中,第一参考向量的维度为词向量和拼音向量的维度之和。此外,提取第一参考向量中的第一参考特征并对第一参考特征进行分类的方式与通过第一特征向量生成用于表征字符序列中上下文关系的第二特征向量并对第二特征向量进行分类的方式相同。
具体的,通过目标字段识别模型将字符序列转换为词向量和拼音向量的方式可以为:将字符序列输入目标字段识别模型,以使得目标字段识别模型通过预训练的词嵌入将字符序列转换为词向量和拼音向量。
具体的,根据分类结果确定字符序列中的参考字符片段的方式可以为:将分类结果中对应概率最高的字符片段确定为字符序列的参考字符片段。由于字符序列中可以包括多个参考字符片段,因此,可以将每个分类结果中对应概率最高的字符片段确定为字符序列的参考字符片段,这样可以一定程度地避免因用户口音或用户口误等造成的语音识别不准确问题。
可见,实施该可选的实施例,能够对字符序列进行实体识别,提升提取到的信息的准确性,减少因音频信号的不准确识别造成的用户体验不佳的问题。
进一步地,提取第一参考向量中的第一参考特征,包括:
通过字符特征提取网络提取第一参考向量中的字符特征,并通过上下文特征提取网络提取第一参考向量中的上下文特征;
拼接字符特征和上下文特征,并将拼接结果确定为第一参考向量中的第一参考特征。
其中,上下文特征和字符特征可以通过向量的方式进行表示,字符特征提取网络可以为BiRNN,上下文特征提取网络可以为一维的卷积神经网络。
可见,实施该可选的实施例,能够通过对字符特征和上下文特征的结合,提升实体识别的准确率。
另外,在根据分类结果确定字符序列中的参考字符片段之后,上述方法还可以包括以下步骤:
根据参考字符片段更新字符序列并计算更新后的字符序列对应的条件随机场损失函数(conditional random field,CRF);
根据条件随机场损失函数更新目标字段识别模型中的参数。
具体地,根据参考字符片段更新字符序列的方式可以为:若字符序列中存在与参考字符片段不相同或部分相同的字段,则通过参考字符片段替换该字段;若字符序列中不存在与参考字符片段不相同或部分相同的字段,则丢弃该参考字符片段。
具体地,计算更新后的字符序列对应的条件随机场损失函数的方式可以为:确定更新后的字符序列中的各字符对应的特征函数f(s,Wi,Li,Li-1),s表示字符序列,Wi表示字符序列中的第i个字符,Li表示第i个字符需要标注的词性,Li-1表示第i-1个字符需要标注的词性;进而,可以根据字符片段对应的多个特征函数f、各特征函数对应的权重ωj以及表达式
Figure BDA0002361341640000151
计算更新后的字符序列对应的条件随机场损失函数,fj用于表示第j个特征函数f。
可见,实施该可选的实施例,能够通过更新后的字符序列计算条件随机场损失函数,进而依据条件随机场损失函数更新模型参数,提升模型的识别准确率。
在另一个可选的实施例中,若目标字段识别模型用于进行数字识别,通过目标字段识别模型识别字符序列中的参考字符片段,包括:
通过目标字段识别模型将字符序列转换为字符向量,并根据字符向量提取字符序列对应的上下文向量;
拼接字符向量和上下文向量,得到第二参考向量;
提取第二参考向量中的第二参考特征并对第二参考特征进行分类;
根据分类结果确定字符序列中的参考字符片段。
其中,字符向量为字符序列中各字符分别对应的向量;字符向量属于同一向量空间;字符向量可以为一个或多个。另外,上下文向量用于表征字符序列中字符之间的逻辑关系。第二参考向量的维度是字符向量和上下文向量的维度之和。此外,提取第二参考向量中的第二参考特征并对第二参考特征进行分类的方式与通过第一特征向量生成用于表征字符序列中上下文关系的第二特征向量并对第二特征向量进行分类的方式相同。
需要说明的是,在用于进行数字识别的目标字段识别模型中,参考字符片段的数量与字符序列中的字符数量相同,即,参考字符片段与字符序列中各字符一一对应。此外,用于进行数字识别的目标字段识别模型可以识别数字类以及非数字类,本公开实施例不作限定。
可见,实施该可选的实施例,能够通过对字符序列中的数字进行识别,将字符序列中的错误数字识别为正确数字,以提升提取到的信息的正确性。
进一步地,根据分类结果确定字符序列中的参考字符片段之后,上述方法还可以包括以下步骤:
当检测到字符序列中存在待转换的字符计量单位时,通过预设转换规则将待转换的字符计量单位转换为特定的字符计量单位。
其中,预设转换规则用于表征字符计量单位之间的换算方式,根据预设转换规则可以确定出待转换的字符计量单位对应的转换系数r,进而根据表达式VN=r×Vc可以计算得到特定的字符计量单位,其中,VN为特定的字符计量单位,Vc为待转换的字符计量单位。举例来说,公斤换算为斤对应的换算系数r可以为0.5,若斤为待转换的字符计量单位,那么,公斤则为特定的字符计量单位。
可见,实施该可选的实施例,能够通过统一字符计量单位,提升提取到的信息的一致性,避免因相同类型信息的计量单位不同而给用户造成使用体验不佳的问题。
另外,根据分类结果确定字符序列中的参考字符片段之后,上述方法还可以包括以下步骤:
计算字符序列中的参考字符片段与字符序列中的标准字符片段之间的交叉熵损失函数;
根据交叉熵损失函数更新目标字段识别模型中的参数。
其中,参考字符片段为目标字段识别模型预测的字符序列中的字符片段(如,{51公斤,阿司匹林}),标准字符片段为字符序列对应的真实的字符片段(如,{50公斤,阿司匹林})。目标字段识别模型中的参数可以包括各隐藏层对应的权重值、偏置项等,本公开实施例不作限定。
具体地,计算字符序列中的参考字符片段与字符序列中的标准字符片段之间的交叉熵损失函数的方式可以为:确定字符序列中的参考字符片段对应的概率分布p(x)以及确定字符序列中的标准字符片段对应的概率分布q(x);进而,可以依据表达式
Figure BDA0002361341640000171
计算参考字符片段与标准字符片段之间的交叉熵损失函数DKL(p||q)。
可见,实施该可选的实施例,能够通过调整模型参数训练目标字段识别模型,这样可以提升目标字段识别模型的识别准确率。
此外,可选的,根据分类结果确定字符序列中的参考字符片段之后,上述方法还可以包括以下步骤:计算字符序列中的参考字符片段与字符序列中的标准字符片段之间的均方误差(MSE);进而,可以根据均方误差更新目标字段识别模型中的参数。
在又一个可选的实施例中,通过目标字段识别模型识别字符序列中的参考字符片段的方式可以为:确定字符序列对应的拼音片段,根据预设纠错规则对该拼音片段进行纠错,以确定出纠错后的拼音片段以及纠错后的拼音片段对应的参考字符片段;其中,预设纠错规则用于表示正确拼音片段和与正确拼音片段相似的错误拼音片段之间的映射关系,一个正确拼音片段可以与一个或多个相似的错误拼音片段之间存在映射关系。
在步骤S340中,确定各目标字段识别模型分别输出的参考字符片段的集合,对集合进行去重,并根据字符序列对应的特定字段从去重后的集合中提取特定字段对应的信息。
其中,特定字段包括血压、体重、心跳以及服用药物中至少一种。举例来说,字符序列对应的特定字段为体重和服用药物,参考字符片段中包括50公斤和阿司匹林,那么,从参考字符片段中提取出的特定字段对应的信息可以为50公斤和阿司匹林。此外,在步骤S340之后,还可以包括以下步骤:输出特定字段对应的信息并存储;其中,输出方式可以为语音输出、文本输出等,本公开实施例不作限定。
举例来说,若字符序列为“我今天体重一北斤,吃了一片阿司配林”那么,参考字符片段的集合可以为{50斤,阿司匹林}。此外,字符序列对应的特定字段可以为一个或多个,本公开实施例不作限定。
此外,对集合进行去重可以基于非极大值抑制(non maximum suppression,NMS)算法执行,具体包括:
将集合中的参考字符片段按照置信度由高到低的顺序进行排序;
根据排序结果从存在交集的参考字符片段选取置信度最高的目标参考字符片段,并将存在交集的参考字符片段中除目标参考字符片段之外的参考字符片段删除,直到集合中的参考字符片段之间不存在交集。
可见,实施该可选的实施例,能够根据置信度对多个参考字符片段进行去重,以提升信息提取效率。
可见,实施图3所示的信息提取方法,能够提升对于语音识别的准确率,进而有效满足用户的语音识别需求;以及,还能够通过对语音识别准确率的提升,一定程度上改善用户的使用体验,进而提升用户的使用黏度。
请参阅图4,图4示意性示出了根据本公开的一个实施例的用于执行信息提取方法的模块示意图。如图4所示,用于执行信息提取方法的模块包括:语音识别模块410、场景选择模块420、用于进行数字识别的字符片段识别模块430、用于进行实体识别的字符片段识别模块440、单位转换模块450以及信息提取模块460。
其中,语音识别模块410中包括FFT子模块411和Transformer子模块412,场景选择模块420中包括词嵌入子模块421、BiRNN子模块422以及分类模块423,用于进行数字识别的字符片段识别模块430中包括字符向量计算子模块431、上下文向量计算子模块432、向量拼接子模块433以及字符片段计算子模块434,用于进行实体识别的字符片段识别模块440中包括向量计算子模块441、字符特征提取子模块442、上下文特征提取子模块443、特征拼接子模块444以及字符片段计算子模块445,单位转换模块450中包括计量单位检测子模块451以及计量单位转换子模块452,信息提取模块460中包括集合生成子模块461、置信度排序子模块462、字符片段去重子模块463以及信息提取子模块464。
具体地,可以接收音频信号,并将接收到的音频信号切分为至少两个音频信号片段,进而通过FFT子模块411将时域信号转换为频域信号,并提取频域信号中的声学特征,以及通过Transformer子模块412中的编码器对声学特征进行编码以及通过Transformer子模块412中与编码器对应的解码器对编码结果进行解码,并根据解码结果生成字符序列。进而,可以通过词嵌入子模块421将字符序列转换为第一特征向量F=Embedding(T)并输入BiRNN子模块422,进而通过BiRNN子模块422生成用于表征字符序列中上下文关系的第二特征向量C=BiRNN(F),以及,通过分类模块423对第二特征向量进行分类,根据分类结果αS=softmax(S)确定字符序列中包含的文本类型,从至少两个字段识别模型中选取属于文本类型的至少一个目标字段识别模型。
在图4中,示例性示出了目标字段识别模型的数量为2且具体包括用于进行数字识别的字符片段识别模块430和用于进行实体识别的字符片段识别模块440的情况。
在用于进行数字识别的字符片段识别模块430中,可以通过字符向量计算子模块431将字符序列转换为字符向量FN=CharEMB(T),通过上下文向量计算子模块432根据字符向量提取字符序列对应的上下文向量CN=BiRNN(FN);通过向量拼接子模块433拼接字符向量FN=CharEMB(T)和上下文向量CN=BiRNN(FN),得到第二参考向量CALL=CN⊕FN;通过字符片段计算子模块434提取第二参考向量中的第二参考特征FSA=softmax(W2tanh(W1CALL))CALL并对第二参考特征进行分类,并根据分类结果PCor=softmax(MLP(FSA))确定字符序列中的参考字符片段。进一步地,可以通过计量单位检测子模块451检测字符序列中是否存在待转换的字符计量单位U=UnitExtract(T),如果是,计量单位转换子模块452可以通过预设转换规则VN=r×VC和r=Ratio(U,US)将待转换的字符计量单位U转换为特定的字符计量单位US以及将参考字符片段FSA=softmax(W2tanh(W1CALL))CALL转换为与US相匹配的数字。
在用于进行实体识别的字符片段识别模块440中,可以通过向量计算子模块441通过目标字段识别模型将字符序列转换为词向量CharEMB(T)和拼音向量PinyinEMB(T),并拼接词向量和拼音向量,得到第一参考向量FE=CharEMB(T)⊕PinyinEMB(T);通过字符特征提取子模块442提取第一参考向量中的字符特征CR=SelfAtt(BiRNN(FE));通过上下文特征提取子模块443提取第一参考向量中的上下文特征CC=CNN(FE);通过特征拼接子模块444拼接字符特征和上下文特征,并将拼接结果确定为第一参考向量中的第一参考特征;通过字符片段计算子模块445提取第一参考向量中的第一参考特征并对第一参考特征进行分类,并根据分类结果pCor=CRF(MLP(CR⊕CC))确定字符序列中的参考字符片段
进一步地,可以通过集合生成子模块461确定各目标字段识别模型分别输出的参考字符片段的集合R=∪CN,CE;通过置信度排序子模块462将集合中的参考字符片段按照置信度由高到低的顺序进行排序;通过字符片段去重子模块463根据排序结果RS=SortConfDesc(R)从存在交集的参考字符片段选取置信度最高的目标参考字符片段,并将存在交集的参考字符片段中除目标参考字符片段之外的参考字符片段删除,直到集合中的参考字符片段之间不存在交集,得到Rfilter=NonMaxSup(RS);通过信息提取子模块464根据语料库对Rfilter=NonMaxSup(RS)进行纠错处理,得到Rfinal=Rule(Rfilter),并根据字符序列对应的特定字段从Rfinal=Rule(Rfilter)中提取特定字段对应的信息,如,血压BP=Cor(BPRAW),体重W=Cor(WRAW),心跳HB=Cor(HBRAW)和服用药物ME=Cor(TRAW)等信息。
可见,实施图4能够提升对于语音识别的准确率,进而有效满足用户的语音识别需求;以及,还能够通过对语音识别准确率的提升,一定程度上改善用户的使用体验,进而提升用户的使用黏度。
请参阅图5,图5示意性示出了根据本公开的另一个实施例的信息提取方法的流程图。如图5所示,另一个实施例的信息提取方法包括步骤S500~步骤S538,其中:
步骤S500:将接收到的音频信号切分为至少两个音频信号片段;其中,至少两个音频信号均为时域信号。
步骤S502:将时域信号转换为频域信号,并提取频域信号中的声学特征。
步骤S504:通过编码器对声学特征进行编码以及通过与编码器对应的解码器对编码结果进行解码,并根据解码结果生成字符序列。
步骤S506:将字符序列转换为第一特征向量。
步骤S508:通过第一特征向量生成用于表征字符序列中上下文关系的第二特征向量。
步骤S510:对第二特征向量进行分类,并根据分类结果确定字符序列中包含的文本类型。
步骤S512:从至少两个字段识别模型中选取属于文本类型的至少一个目标字段识别模型,至少一个目标字段识别模型与字符序列相匹配。
步骤S514:目标字段识别模型用于进行实体识别,通过目标字段识别模型将字符序列转换为词向量和拼音向量,并拼接词向量和拼音向量,得到第一参考向量。
步骤S516:通过字符特征提取网络提取第一参考向量中的字符特征,并通过上下文特征提取网络提取第一参考向量中的上下文特征。
步骤S518:拼接字符特征和上下文特征,并将拼接结果确定为第一参考向量中的第一参考特征并对第一参考特征进行分类。
步骤S520:根据分类结果确定字符序列中的参考字符片段。
步骤S522:目标字段识别模型用于进行数字识别,通过目标字段识别模型将字符序列转换为字符向量,并根据字符向量提取字符序列对应的上下文向量。
步骤S524:拼接字符向量和上下文向量,得到第二参考向量。
步骤S526:提取第二参考向量中的第二参考特征并对第二参考特征进行分类。
步骤S528:根据分类结果确定字符序列中的参考字符片段。
步骤S530:当检测到字符序列中存在待转换的字符计量单位时,通过预设转换规则将待转换的字符计量单位转换为特定的字符计量单位。
步骤S532:若存在不相同的多个目标字段识别模型,确定各目标字段识别模型分别输出的参考字符片段的集合。
步骤S534:将集合中的参考字符片段按照置信度由高到低的顺序进行排序。
步骤S536:根据排序结果从存在交集的参考字符片段选取置信度最高的目标参考字符片段,并将存在交集的参考字符片段中除目标参考字符片段之外的参考字符片段删除,直到集合中的参考字符片段之间不存在交集。
步骤S538:根据字符序列对应的特定字段从去重后的集合中提取特定字段对应的信息。
需要说明的是,本公开实施例不限定步骤S514和步骤S522之间的先后执行顺序。此外,步骤S500~步骤S538与图3中的步骤S310~步骤S340以及步骤S310~步骤S340的具体实施例相对应。因此,请参阅图3对应的具体实施例,此处不再赘述。
可见,实施图5所示的信息提取方法,能够提升对于语音识别的准确率,进而有效满足用户的语音识别需求;以及,还能够通过对语音识别准确率的提升,一定程度上改善用户的使用体验,进而提升用户的使用黏度。
进一步的,本示例实施方式中,还提供了一种信息提取装置。该信息提取装置可以应用于服务器或终端设备。参考图6所示,该信息提取装置600可以包括语音识别模块601、场景选择模块602、字符片段识别模块603以及信息提取模块604,其中:
语音识别模块601,用于将接收到的音频信号转换为字符序列;
场景选择模块602,用于根据字符序列中所包含的文本类型从字段识别模型中选取与文本类型一一对应的目标字段识别模型;
字符片段识别模块603,用于通过目标字段识别模型识别字符序列中的参考字符片段;
信息提取模块604,用于确定各目标字段识别模型分别输出的参考字符片段的集合,对集合进行去重,并根据字符序列对应的特定字段从去重后的集合中提取特定字段对应的信息。
其中,特定字段包括血压、体重、心跳以及服用药物中至少一种。
可见,实施图6所示的信息提取装置,能够提升对于语音识别的准确率,进而有效满足用户的语音识别需求;以及,还能够通过对语音识别准确率的提升,一定程度上改善用户的使用体验,进而提升用户的使用黏度。
在本公开的一种示例性实施例中,语音识别模块601将接收到的音频信号转换为字符序列的方式具体可以为:
语音识别模块601将接收到的音频信号切分为至少两个音频信号片段;其中,至少两个音频信号均为时域信号;
语音识别模块601将时域信号转换为频域信号,并提取频域信号中的声学特征;
语音识别模块601通过编码器对声学特征进行编码以及通过与编码器对应的解码器对编码结果进行解码,并根据解码结果生成字符序列。
可见,实施该示例性实施例,能够将输入的音频信号转换为文字,以便于后续的信息提取。上述的文字转换方式,相较现有技术中与语料库直接比对的方式,能够达到更高的准确性。
在本公开的一种示例性实施例中,场景选择模块602根据字符序列中所包含的文本类型从字段识别模型中选取与文本类型一一对应的目标字段识别模型的方式具体可以为:
场景选择模块602将字符序列转换为第一特征向量;
场景选择模块602通过第一特征向量生成用于表征字符序列中上下文关系的第二特征向量;
场景选择模块602对第二特征向量进行分类,并根据分类结果确定字符序列中包含的文本类型;
场景选择模块602从至少两个字段识别模型中选取属于文本类型的至少一个目标字段识别模型,至少一个目标字段识别模型与字符序列相匹配。
可见,实施该示例性实施例,能够通过对字符序列进行的特征提取,确定出与其匹配的字段识别模型,这样能够有针对性的对字符序列中的字符片段进行识别,进而提升信息提取的准确性。
在本公开的一种示例性实施例中,若目标字段识别模型用于进行实体识别,字符片段识别模块603通过目标字段识别模型识别字符序列中的参考字符片段的方式具体可以为:
字符片段识别模块603通过目标字段识别模型将字符序列转换为词向量和拼音向量,并拼接词向量和拼音向量,得到第一参考向量;
字符片段识别模块603提取第一参考向量中的第一参考特征并对第一参考特征进行分类;
字符片段识别模块603根据分类结果确定字符序列中的参考字符片段。
可见,实施该示例性实施例,能够对字符序列进行实体识别,提升提取到的信息的准确性,减少因音频信号的不准确识别造成的用户体验不佳的问题。
在本公开的一种示例性实施例中,字符片段识别模块603提取第一参考向量中的第一参考特征的方式具体可以为:
字符片段识别模块603通过字符特征提取网络提取第一参考向量中的字符特征,并通过上下文特征提取网络提取第一参考向量中的上下文特征;
字符片段识别模块603拼接字符特征和上下文特征,并将拼接结果确定为第一参考向量中的第一参考特征。
可见,实施该示例性实施例,能够通过对字符特征和上下文特征的结合,提升实体识别的准确率。
在本公开的一种示例性实施例中,字符片段识别模块603,还用于在根据分类结果确定字符序列中的参考字符片段之后,根据参考字符片段更新字符序列并计算更新后的字符序列对应的条件随机场损失函数;
字符片段识别模块603,还用于根据条件随机场损失函数更新目标字段识别模型中的参数。
可见,实施该示例性实施例,能够通过更新后的字符序列计算条件随机场损失函数,进而依据条件随机场损失函数更新模型参数,提升模型的识别准确率。
在本公开的一种示例性实施例中,若目标字段识别模型用于进行数字识别,字符片段识别模块603通过目标字段识别模型识别字符序列中的参考字符片段的方式具体可以为:
字符片段识别模块603通过目标字段识别模型将字符序列转换为字符向量,并根据字符向量提取字符序列对应的上下文向量;
字符片段识别模块603拼接字符向量和上下文向量,得到第二参考向量;
字符片段识别模块603提取第二参考向量中的第二参考特征并对第二参考特征进行分类;
字符片段识别模块603根据分类结果确定字符序列中的参考字符片段。
可见,实施该示例性实施例,能够通过对字符序列中的数字进行识别,将字符序列中的错误数字识别为正确数字,以提升提取到的信息的正确性。
在本公开的一种示例性实施例中,上述装置还可以包括单位转换模块(未图示),其中:
单位转换模块,用于在根据分类结果确定字符序列中的参考字符片段之后,且当检测到字符序列中存在待转换的字符计量单位时,通过预设转换规则将待转换的字符计量单位转换为特定的字符计量单位。
可见,实施该示例性实施例,能够通过统一字符计量单位,提升提取到的信息的一致性,避免因相同类型信息的计量单位不同而给用户造成使用体验不佳的问题。
在本公开的一种示例性实施例中,字符片段识别模块603,还用于在根据分类结果确定字符序列中的参考字符片段之后,计算字符序列中的参考字符片段与字符序列中的标准字符片段之间的交叉熵损失函数;
字符片段识别模块603,还用于根据交叉熵损失函数更新目标字段识别模型中的参数。
可见,实施该示例性实施例,能够通过调整模型参数训练目标字段识别模型,这样可以提升目标字段识别模型的识别准确率。
在本公开的一种示例性实施例中,若存在不相同的多个目标字段识别模型,信息提取模块604根据字符序列对应的特定字段从参考字符片段中提取特定字段对应的信息的方式具体可以为:
在本公开的一种示例性实施例中,将接收到的音频信号转换为字符序列之前,上述装置还可以包括信号接收单元(未图示),其中:
信号接收单元,用于当检测到针对音频检测标识的用户触控操作时进行音频信号接收。
可见,实施该可选的实施例,能够降低由于误触屏幕而触发设备进行信号接收的概率,减少对于计算资源的浪费。
在本公开的一种示例性实施例中,信息提取模块604对集合进行去重的方式具体可以为:
信息提取模块604将集合中的参考字符片段按照置信度由高到低的顺序进行排序;
信息提取模块604根据排序结果从存在交集的参考字符片段选取置信度最高的目标参考字符片段,并将存在交集的参考字符片段中除目标参考字符片段之外的参考字符片段删除,直到集合中的参考字符片段之间不存在交集。
可见,实施该示例性实施例,能够根据置信度对多个参考字符片段进行去重,以提升信息提取效率。
更进一步的,请参阅图7,图7示意性示出了根据本公开的一个实施例中的信息提取方法的应用示意图。如图7所示,人们向终端设备700输入了音频信号“我今天早上吃了两片阿西匹林,体重100斤。”进而,终端设备700可以通过语音识别模块710识别出与音频信号对应的字符序列“我今天早上吃了两片阿西匹林,体重100斤。”其中,字符序列涉及到实体“阿西匹林”以及数字“100”,因此,场景选择模块720可以触发用于进行实体识别的字符片段识别模块730和用于进行数字识别的字符片段识别模块740启动。通过用于进行实体识别的字符片段识别模块730可以识别字符序列中的“阿西匹林”并输出正确的参考字符片段“阿司匹林”,通过用于进行数字识别的字符片段识别模块740可以识别字符序列中的数字“100”并输出正确的参考字符片段“100”。由于“100”对应的计量单位是“斤”,而“斤”不属于特定的字符计量单位,因此,单位转换模块750可以通过预设转换规则将“100斤”转换为“50公斤”。进一步地,信息提取模块760可以根据字符片段识别模块730输出的“阿司匹林”以及字符片段识别模块740输出的“50公斤”确定参考字符片段的集合{阿司匹林,50},由于集合中不存在有交集的参考字符片段,因此,通过字符片段去重子模块(未图示)去重后得到的集合还是{阿司匹林,50},进而,信息提取子模块760可以根据血压、体重、心跳和服用药物对{阿司匹林,50}进行特征提取,输出的结果可以为:血压=空;体重=50;心跳=空;服用药物=阿司匹林。
可见,实施图7所示的应用示意图,能够提升对于语音识别的准确率,进而有效满足用户的语音识别需求;以及,还能够通过对语音识别准确率的提升,一定程度上改善用户的使用体验,进而提升用户的使用黏度。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
由于本公开的示例实施例的信息提取装置的各个功能模块与上述信息提取方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的信息提取方法的实施例。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (15)

1.一种信息提取方法,其特征在于,包括:
将接收到的音频信号转换为字符序列;
根据所述字符序列中所包含的文本类型从字段识别模型中选取与所述文本类型一一对应的目标字段识别模型;
通过所述目标字段识别模型识别所述字符序列中的参考字符片段;
确定各所述目标字段识别模型分别输出的参考字符片段的集合;
对所述集合进行去重,并根据所述字符序列对应的特定字段从去重后的集合中提取所述特定字段对应的信息。
2.根据权利要求1所述的方法,其特征在于,将接收到的音频信号转换为字符序列,包括:
将接收到的音频信号切分为至少两个音频信号片段;其中,所述至少两个音频信号均为时域信号;
将所述时域信号转换为频域信号,并提取所述频域信号中的声学特征;
通过编码器对所述声学特征进行编码以及通过与所述编码器对应的解码器对编码结果进行解码,并根据解码结果生成字符序列。
3.根据权利要求1所述的方法,其特征在于,根据所述字符序列中所包含的文本类型从字段识别模型中选取与所述文本类型一一对应的目标字段识别模型,包括:
将所述字符序列转换为第一特征向量;
通过所述第一特征向量生成用于表征所述字符序列中上下文关系的第二特征向量;
对所述第二特征向量进行分类,并根据分类结果确定所述字符序列中包含的文本类型;
从至少两个字段识别模型中选取属于所述文本类型的至少一个目标字段识别模型,所述至少一个目标字段识别模型与所述字符序列相匹配。
4.根据权利要求1所述的方法,其特征在于,若所述目标字段识别模型用于进行实体识别,通过所述目标字段识别模型识别所述字符序列中的参考字符片段,包括:
通过所述目标字段识别模型将所述字符序列转换为词向量和拼音向量,并拼接所述词向量和所述拼音向量,得到第一参考向量;
提取所述第一参考向量中的第一参考特征并对所述第一参考特征进行分类;
根据分类结果确定所述字符序列中的参考字符片段。
5.根据权利要求4所述的方法,其特征在于,提取所述第一参考向量中的第一参考特征,包括:
通过字符特征提取网络提取所述第一参考向量中的字符特征,并通过上下文特征提取网络提取所述第一参考向量中的上下文特征;
拼接所述字符特征和所述上下文特征,并将拼接结果确定为所述第一参考向量中的第一参考特征。
6.根据权利要求4所述的方法,其特征在于,在根据分类结果确定所述字符序列中的参考字符片段之后,所述方法还包括:
根据所述参考字符片段更新所述字符序列并计算更新后的字符序列对应的条件随机场损失函数;
根据所述条件随机场损失函数更新所述目标字段识别模型中的参数。
7.根据权利要求1所述的方法,其特征在于,若所述目标字段识别模型用于进行数字识别,通过所述目标字段识别模型识别所述字符序列中的参考字符片段,包括:
通过所述目标字段识别模型将所述字符序列转换为字符向量,并根据所述字符向量提取所述字符序列对应的上下文向量;
拼接所述字符向量和所述上下文向量,得到第二参考向量;
提取所述第二参考向量中的第二参考特征并对所述第二参考特征进行分类;
根据分类结果确定所述字符序列中的参考字符片段。
8.根据权利要求7所述的方法,其特征在于,根据分类结果确定所述字符序列中的参考字符片段之后,所述方法还包括:
当检测到所述字符序列中存在待转换的字符计量单位时,通过预设转换规则将所述待转换的字符计量单位转换为特定的字符计量单位。
9.根据权利要求7所述的方法,其特征在于,根据分类结果确定所述字符序列中的参考字符片段之后,所述方法还包括:
计算所述字符序列中的参考字符片段与所述字符序列中的标准字符片段之间的交叉熵损失函数;
根据所述交叉熵损失函数更新所述目标字段识别模型中的参数。
10.根据权利要求1所述的方法,其特征在于,将接收到的音频信号转换为字符序列之前,所述方法还包括:
当检测到针对音频检测标识的用户触控操作时进行音频信号接收。
11.根据权利要求1所述的方法,其特征在于,对所述集合进行去重,包括:
将所述集合中的参考字符片段按照置信度由高到低的顺序进行排序;
根据排序结果从存在交集的参考字符片段选取置信度最高的目标参考字符片段,并将所述存在交集的参考字符片段中除所述目标参考字符片段之外的参考字符片段删除,直到所述集合中的参考字符片段之间不存在交集。
12.根据权利要求1所述的方法,其特征在于,所述特定字段包括血压、体重、心跳以及服用药物中至少一种。
13.一种信息提取装置,其特征在于,包括:
语音识别模块,用于将接收到的音频信号转换为字符序列;
场景选择模块,用于根据所述字符序列中所包含的文本类型从字段识别模型中选取与所述文本类型一一对应的目标字段识别模型;
字符片段识别模块,用于通过所述目标字段识别模型识别所述字符序列中的参考字符片段;
信息提取模块,用于确定各所述目标字段识别模型分别输出的参考字符片段的集合;对所述集合进行去重,并根据所述字符序列对应的特定字段从去重后的集合中提取所述特定字段对应的信息。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-12任一项所述的方法。
15.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-12任一项所述的方法。
CN202010022597.5A 2020-01-09 2020-01-09 信息提取方法、装置、计算机可读存储介质及电子设备 Active CN111223481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010022597.5A CN111223481B (zh) 2020-01-09 2020-01-09 信息提取方法、装置、计算机可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010022597.5A CN111223481B (zh) 2020-01-09 2020-01-09 信息提取方法、装置、计算机可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111223481A true CN111223481A (zh) 2020-06-02
CN111223481B CN111223481B (zh) 2023-10-13

Family

ID=70832310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010022597.5A Active CN111223481B (zh) 2020-01-09 2020-01-09 信息提取方法、装置、计算机可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111223481B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914822A (zh) * 2020-07-23 2020-11-10 腾讯科技(深圳)有限公司 文本图像标注方法、装置、计算机可读存储介质及设备
CN112183055A (zh) * 2020-08-17 2021-01-05 北京来也网络科技有限公司 结合rpa和ai的信息获取方法、装置、计算机设备及介质
CN114386423A (zh) * 2022-01-18 2022-04-22 平安科技(深圳)有限公司 文本去重方法和装置、电子设备、存储介质
CN114399996A (zh) * 2022-03-16 2022-04-26 阿里巴巴达摩院(杭州)科技有限公司 处理语音信号的方法、装置、存储介质及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10147428B1 (en) * 2018-05-30 2018-12-04 Green Key Technologies Llc Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof
JP2019020597A (ja) * 2017-07-18 2019-02-07 日本放送協会 エンドツーエンド日本語音声認識モデル学習装置およびプログラム
CN109388795A (zh) * 2017-08-07 2019-02-26 芋头科技(杭州)有限公司 一种命名实体识别方法、语言识别方法及***
WO2019071660A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 票据信息识别方法、电子装置及可读存储介质
CN109785840A (zh) * 2019-03-05 2019-05-21 湖北亿咖通科技有限公司 自然语言识别的方法、装置及车载多媒体主机、计算机可读存储介质
CN110162795A (zh) * 2019-05-30 2019-08-23 重庆大学 一种自适应的跨领域命名实体识别方法与***
CN110399616A (zh) * 2019-07-31 2019-11-01 国信优易数据有限公司 命名实体检测方法、装置、电子设备及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019020597A (ja) * 2017-07-18 2019-02-07 日本放送協会 エンドツーエンド日本語音声認識モデル学習装置およびプログラム
CN109388795A (zh) * 2017-08-07 2019-02-26 芋头科技(杭州)有限公司 一种命名实体识别方法、语言识别方法及***
WO2019071660A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 票据信息识别方法、电子装置及可读存储介质
US10147428B1 (en) * 2018-05-30 2018-12-04 Green Key Technologies Llc Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof
CN109785840A (zh) * 2019-03-05 2019-05-21 湖北亿咖通科技有限公司 自然语言识别的方法、装置及车载多媒体主机、计算机可读存储介质
CN110162795A (zh) * 2019-05-30 2019-08-23 重庆大学 一种自适应的跨领域命名实体识别方法与***
CN110399616A (zh) * 2019-07-31 2019-11-01 国信优易数据有限公司 命名实体检测方法、装置、电子设备及可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914822A (zh) * 2020-07-23 2020-11-10 腾讯科技(深圳)有限公司 文本图像标注方法、装置、计算机可读存储介质及设备
CN111914822B (zh) * 2020-07-23 2023-11-17 腾讯科技(深圳)有限公司 文本图像标注方法、装置、计算机可读存储介质及设备
CN112183055A (zh) * 2020-08-17 2021-01-05 北京来也网络科技有限公司 结合rpa和ai的信息获取方法、装置、计算机设备及介质
CN114386423A (zh) * 2022-01-18 2022-04-22 平安科技(深圳)有限公司 文本去重方法和装置、电子设备、存储介质
CN114386423B (zh) * 2022-01-18 2023-07-14 平安科技(深圳)有限公司 文本去重方法和装置、电子设备、存储介质
CN114399996A (zh) * 2022-03-16 2022-04-26 阿里巴巴达摩院(杭州)科技有限公司 处理语音信号的方法、装置、存储介质及***

Also Published As

Publication number Publication date
CN111223481B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN111223481B (zh) 信息提取方法、装置、计算机可读存储介质及电子设备
CN110110041B (zh) 错词纠正方法、装置、计算机装置及存储介质
EP3832519A1 (en) Method and apparatus for evaluating translation quality
JP7266683B2 (ja) 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム
CN112287680B (zh) 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN113420556B (zh) 基于多模态信号的情感识别方法、装置、设备及存储介质
CN112446211A (zh) 文本处理装置、方法、设备和计算机可读存储介质
WO2024088262A1 (zh) 语音识别模型的数据处理***及方法、语音识别方法
CN113837299A (zh) 基于人工智能的网络训练方法及装置、电子设备
CN113761377A (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN110503956B (zh) 语音识别方法、装置、介质及电子设备
CN115033733A (zh) 音频文本对生成方法、电子设备和存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
JP2014044363A (ja) 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム
CN111858860B (zh) 搜索信息处理方法及***、服务器、计算机可读介质
CN115357710B (zh) 表格描述文本生成模型的训练方法、装置及电子设备
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
CN115132182A (zh) 一种数据识别方法、装置、设备及可读存储介质
CN114974310A (zh) 基于人工智能的情感识别方法、装置、计算机设备及介质
CN114925175A (zh) 基于人工智能的摘要生成方法、装置、计算机设备及介质
CN114490946A (zh) 基于Xlnet模型的类案检索方法、***及设备
WO2022141855A1 (zh) 文本正则方法、装置、电子设备及存储介质
Meghanani et al. Deriving translational acoustic sub-word embeddings
CN112767923B (zh) 一种语音识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024766

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant