CN115019787A

CN115019787A - 一种交互式同音异义词消歧方法、***、电子设备和存储介质

Info

Publication number: CN115019787A
Application number: CN202210624229.7A
Authority: CN
Inventors: 张炜玮
Original assignee: FAW Group Corp
Current assignee: FAW Group Corp
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-09-06
Anticipated expiration: 2042-06-02
Also published as: CN115019787B

Abstract

本发明公开了一种交互式同音异义词消歧方法、***、电子设备和存储介质，方法步骤包括：采集语音信号，对语音信号进行自动语音识别；判断是否存在置信度相近的语音识别结果；如果存在多个置信度相近的语音识别结果，则按照置信度的高低进行降序排列，判断是否存在同音异义词；如果存在多个置信度相近的自动语音识别结果，则进行词义消歧，记录同音异义词在语句中的位置和/或顺序，查询常用描述字词库或语言模型；输出多个可能的用于进行交互选择操作的自动语音识别结果。本发明的消歧准确度高于基于其他信息库的前馈式消歧方法，适用于看不清屏幕上的字、智能设备无屏情景等应用场景，具有易用性，交互过程自然顺畅等特点。

Description

一种交互式同音异义词消歧方法、***、电子设备和存储介质

技术领域

本发明涉及一种消歧方法、***电子设备笔存储介质，尤其涉及一种交互式同音异义词消歧方法、***、电子设备和存储介质。

背景技术

在日常口语交流中，当人们在对话中存在不明确对方所指的时候，会通过语言进行反馈确认。如当对方说“我想听yue(四声)剧”，由于曲艺流派中知名的有“越剧”和“粤剧”，我们会问“是越南的越，还是粤语的粤？”。当前的虚拟语音助手，在遇到同音异义字词时，要么通过屏幕显示文字请用户确认，要么就默认其中一个结果执行，这样对于一些特定的场合，比如在不便于看屏幕、无屏幕的场景时会造成不便，并且容易错误理解用户的意图。

发明内容

本发明的目的在于提供一种交互式同音异义词消歧方法、***、电子设备和存储介质，通过用户确认进行交互式反馈消歧，准确度高于基于其他信息库的前馈式消歧方法，适用于看不清屏幕上的字、智能设备无屏情景等应用场景，具有易用性，交互过程自然顺畅，解决现有技术存在的缺憾。

本发明提供了下述方案：

一种交互式同音异义词消歧方法，具体包括：

采集语音信号，对语音信号进行自动语音识别；

判断是否存在置信度相近的语音识别结果；

如果存在多个置信度相近的语音识别结果，则按照置信度的高低进行降序排列，判断是否存在同音异义词；

如果判断语音识别结果并非构成同音异义词，则输出置信度最高的自动语音识别结果，或：存在多个置信度相近的自动语音识别结果，则进行词义消歧；

记录同音异义词在语句中的位置和/或顺序，在常用描述字词库或语言模型中查询该同音异义词；

输出多个可能的用于进行交互选择操作的自动语音识别结果。

进一步的，在采集语音信号之后，对语音信号进行编码和特征提取，再对语音信号进行自动语音识别。

进一步的，在通过交互方式，输出多个用于候选的自动语音识别结果之前，将查询结果中的描述短句形成TTS槽位。

进一步的，所述存在多个置信度相近的自动语音识别结果，具体为：

存在多个自动语音识别结果均为最高置信度，或：置信度最高的自动语音识别结果与置信度第二高的自动语音识别结果之差小于歧义置信度阈值。

一种交互式同音异义词消歧***，具体包括：

语音信号采集模块，用于采集语音信号，对语音信号进行自动语音识别；

语音信号智能决策模块，用于判断是否存在置信度相近的语音识别结果，如果存在多个置信度相近的语音识别结果，则按照置信度的高低进行降序排列，判断是否存在同音异义词；

查询字词库或语言模型模块，用于记录同音异义词在语句中的位置和/或顺序，查询常用描述字词库或语言模型；

交互选择模块，输出多个可能的用于进行交互选择操作的自动语音识别结果。

进一步的，语音信号采集模块，所述语音信号采集模块，在采集语音信号之后，对语音信号进行编码和特征提取，再对语音信号进行自动语音识别。

进一步的，语音信号智能决策模块在通过交互方式输出多个用于候选的自动语音识别结果之前，将查询结果中的描述短句形成TTS槽位。

进一步的，语音信号智能决策模块输出多个置信度相近的自动语音识别结果，具体为：在语音信号智能决策模块中存在多个最高置信度的自动语音识别结果，或：置信度最高的自动语音识别结果与置信度第二高的自动语音识别结果之差小于歧义置信度阈值。

一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；所述存储器中存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行所述的交互式同音异义词消歧方法的步骤。

一种计算机可读存储介质，其存储有可由电子设备执行的计算机程序，当所述计算机程序在所述电子设备上运行时，使得所述电子设备执行所述的交互式同音异义词消歧方法的步骤。

本发明与现有技术相比具有以下的优点：

通过用户确认进行交互式反馈消歧，准确度高于基于其他信息库的前馈式消歧方法，适用于看不清屏幕上的字、智能设备无屏情景等应用场景与现有技术的前馈式消歧方法相比，具有易用性，交互过程自然顺畅等特点。

本发明在进行自动语音识别时首先确定是否需要进行消歧，对于必须进行消歧的交互语句，则通过对置信度进行比较和按照置信度高低进行降序排列的方式，结合自动语音识别ASR进行消歧，提高了消歧过程的准确率和识别同音异义词的精准度。

当对应的多个文本置信度差异较大时，本发明在自动语音识别ASR的环节输出N个候选ASR识别结果与相应的置信度，让使用者、操作者有选择的余地，具有识别结果自主选择功能，增强了交互性和互动性，使得操作者、使用者能够实现自主选择正确的同音异义词。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明同音异义词消歧方法的流程图。

图2是本发明同音异义词消歧***的架构图。

图3是本发明一个可能的实施例的流程图。

图4是电子设备的***架构图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

ASR：ASR是指自动语音识别技术，是一种将人的语音转换为文本的技术。其目标就是将人类的语言中的词汇内容转换为计算机可读的输入。

语音识别ASR过程：把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换，转换时间之短，可以以秒计算。在其特有智能语音控制器作用下，文本输出的语音音律流畅，使得听者在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。

TTS是语音合成应用的一种，它将储存于电脑中的文件，如帮助文件或者网页，转换成自然语音输出。TTS不仅能帮助有视觉障碍的人阅读计算机上的信息，更能增加文本文档的可读性。TTS应用包括语音驱动的邮件以及声音敏感***，并常与声音识别程序一起使用。

采用ASR(自动语音识别技术)进行自然语言处理的技术路线图：

建立声学模型：声学模型的主流***大多采用隐马尔科夫模型进行建模。对于同一个词，由于每个人的发音、语调、语速等都各不相同，为了能让机器识别出更多的人，声学模型建立过程中需要录入大量的原始用户声音，提取出其中的特征进行处理，并建立声学模型数据库。在声学训练步骤当中估算出声学模型的参数；再通过循环训练和对齐相位。在这一步中大数据的重要性就体现出来了。

建立语言模型：语言模型包括由识别语音命令构成的语法网络或者由统计方法构成的语言模型。根据语言的客观事实，进行语言抽象数学建模，这是一种对应关系。语言模型可以很好地调整声学模型所得到的不合逻辑的词，使得识别结果变得通顺且正确，这对于自然语音的信息处理也有着重要的意义。

语音识别：前面两步都是需要预先做好的，最终形成的数据库将存储在设备本地或者云端，而这一步则是实时的语音识别过程。先将用户的语音输入进行编码和特征提取，再将提取到的特征拿到声学模型库中去匹配，得到单个的单词，然后再拿到语言模型库中去查询，就可以得到最匹配的词了。

数据标注对ASR的重要性：ASR的本质是一种模式识别***，包括了特征提取、模式匹配、参考模式等三个基本单元。特征提取运用到属性分类的标注方法，首先要对输入的语音进行预处理，然后提取出语音的特征，在此基础上建立语音识别所需要用到的模板，再将计算机中原先存放的语音模板与输入的语音信号的特征进行比较，找出最佳的与输入语音相匹配的模板，根据此模板的定义，通过查表，就能得到计算机的最佳识别结果。这种最佳的结果与特征的选择、语音模型的好坏、模板是否准确都有着直接的关系，需要大量标注数据进行不断训练才能得到。

如图1所示的交互式同音异义词消歧方法，方法步骤具体包括：

步骤S1：采集语音信号，对语音信号进行自动语音识别；

步骤S2：判断是否存在置信度相近的语音识别结果；

步骤S3：如果存在多个置信度相近的语音识别结果，则按照置信度的高低进行降序排列，判断是否存在同音异义词；

优选的，在采集语音信号之后，对语音信号进行编码和特征提取，再对语音信号进行自动语音识别。

优选的，在通过交互方式，输出多个用于候选的自动语音识别结果之前，将查询结果中的描述短句形成TTS槽位。

优选的，所述存在多个置信度相近的自动语音识别结果，具体为：

对于本实施例公开的方法步骤，出于简单描述的目的将方法步骤表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

如图2所示的交互式同音异义词消歧***，具体包括：

值得注意的是，虽然在本***只披露了语音信号采集模块、语音信号智能决策模块、查询字词库或语言模型模块和交互选择模块，但并不意味着本***的组成仅仅局限于上述基本功能模块。相反，本发明所要表达的意思是：在上述基本功能模块的基础之上本领域技术人员可以结合现有技术任意添加一个或多个功能模块，形成无穷多个实施例或技术方案，也就是说本***是开放式而非封闭式的，不能因为本实施例仅仅披露了个别基本功能模块，就认为本发明权利要求的保护范围局限于所公开的基本功能模块。同时，为了描述的方便，描述以上装置时以功能分为各种单元、模块分别描述。当然在实施本申请时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。

如图3所示的本发明的一个可能的实施例，在本实施例中通过具体的数据及其格式，对本发明交互式同音异义词消歧方法在一个具体应用场景下的运行做出了详尽的描述。本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

在本实施例中，***获得一段语音输入信号，示例性的，可以是“我想听yue(四声)剧”，由于曲艺流派中有“越剧”和“粤剧”，所以yue剧的yue，到底是越南的“越”，还是粤语的“粤”，我们并不清楚，需要进行同音异义消歧，才能获取正确的语音输出。

在本实施例中，自动语音识别ASR***首先进行同音异义词判断：是否存在置信度相似的ASR识别结果？如果不存在置信度相似的ASR结果，那么***可以直接输出置信度最高的ASR识别结果，因为通常情况下同音异义词的语音置信度是相似的，所以当不存在相似置信度的ASR结果，通常可以认为不存在同意异义词的情况。

如果存在置信度相似的情况，那么取置信度最高的两个ASR识别结果进行排序，例如可以是置信度最高的第一识别结果ASR1和置信度第二高的第二识别结果ASR2，即：歧义ASR数据(第一识别结果ASR1；第二识别结果ASR2)，其中第一识别结果ASR1的置信度>＝第二识别结果ASR2的置信度。

此时进一步进行判断：第一识别结果ASR1和第二识别结果ASR2之间的差异是否为同音异义词造成的差异，如果不是由于同音异义词造成的差异，那么直接输出置信度最高的第一识别结果ASR1，如果是由同音异义词造成的差异，那么认为第一识别结果ASR1和第二识别结果ASR2之间构成同音异义词。此步骤的作用是，防止由于置信度差异造成对同音异义词的误判，增加对同音异义词判断的正确率。

如果确定了第一识别结果ASR1和第二识别结果ASR2之间构成同音异义词，那么需要进行语音交互的同音异义词消歧过程：记录同音异义词的位置和/或顺序，提取第一识别结果ASR1中的歧义词Ambiguity1，在常用描述字词库或语言模型中进行查询，判断是否能够确认歧义词Ambiguity1。如果不能在常用描述字词库或语言模型中查询到歧义词Ambiguity1，那么认为并不构成同音异义词，直接将第一识别结果ASR1进行输出。如果能够在查询常用词描述或语言模型中查询到，那么认为构成了同音异义词，需要进一步通过与用户端通过交互的方式进行消歧过程。

判断依据：比较第一识别结果ASR1与第二识别结果ASR2，由于识别结果的差异文本的拼音相同，所以在进行消歧的过程中需要记录。

在进行语音交互消歧过程中的判断依据是：

提取第一识别结果ASR的歧义词Ambiguity1:根据第一识别结果ASR1中文本与同音异义词位置，提取出ASR1中的歧义词Ambiguity1。

查询常用字词描述库或语言模型：将歧义词Ambiguity1的值送入“常用字词描述库”进行匹配，

常用字词描述库中的数据形式

{

{词语1：对词语1的描述}

{词语2：对词语2的描述}

{词语3：对词语3的描述}

……

}

例如：

{

{明：明天的明}

{粤：粤语的粤}

{淘气：调皮捣蛋的淘气}

}

交互询问确认方式：

询问用户：“是{描述短句}吗？”

如：“是粤语的粤吗？“

通过上述数据结构可以看出，利用词语与对词语的描述，能够确认用户端的真实意图到底是多个同意异义词中的哪一个。

记录同音异义词位置和/或顺序：同音异义词位置＝{差异文本的字数；第1个差异文本是ASR结果中第几个字}

以“播放yue(四声)剧”为例，对于“yue(四声)剧”，无法判断用户说话对应的是一个是结果，是“越剧”还是“粤剧“，

那么在***中记录同音异义词位置，具体为：

第1个字	第2个字	第3个字	第4个字
				播	放	yue	ju

对于上述表格中的拼音：yue ju，需要确认用户端到底是要“播放越剧”还是“播放粤剧”。

本实施例中用于消歧的语音对话过程为：

语音***：“是越南的‘越’吗？”

用户端：“不是！”

语音***：“是粤语的‘粤’吗？”

用户端：“是！”

通过语音***与用户端的语音交互，***能够确认用户端的真实意图为“播放粤剧”。

如图4所示，本发明还公开了与同音异义词消歧方法对应的电子设备和存储介质：

一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器中存储有计算机程序，当计算机程序被处理器执行时，使得处理器执行交互式同音异义词消歧方法的步骤。

一种计算机可读存储介质，其存储有可由电子设备执行的计算机程序，当计算机程序在电子设备上运行时，使得电子设备执行交互式同音异义词消歧方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

电子设备包括硬件层，运行在硬件层之上的操作***层，以及运行在操作***上的应用层。该硬件层包括中央处理器(CPU，Central Processing Unit)、内存管理单元(MMU，Memory Management Unit)和内存等硬件。该操作***可以是任意一种或多种通过进程(Process)实现电子设备控制的计算机操作***，例如，Linux操作***、Unix操作***、Android操作***、iOS操作***或windows操作***等。并且在本发明实施例中该电子设备可以是智能手机、平板电脑等手持设备，也可以是桌面计算机、便携式计算机等电子设备，本发明实施例中并未特别限定。

本发明实施例中的电子设备控制的执行主体可以是电子设备，或者是电子设备中能够调用程序并执行程序的功能模块。电子设备可以获取到存储介质对应的固件，存储介质对应的固件由供应商提供，不同存储介质对应的固件可以相同可以不同，在此不做限定。电子设备获取到存储介质对应的固件后，可以将该存储介质对应的固件写入存储介质中，具体地是往该存储介质中烧入该存储介质对应固件。将固件烧入存储介质的过程可以采用现有技术实现，在本发明实施例中不做赘述。

电子设备还可以获取到存储介质对应的重置命令，存储介质对应的重置命令由供应商提供，不同存储介质对应的重置命令可以相同可以不同，在此不做限定。

此时电子设备的存储介质为写入了对应的固件的存储介质，电子设备可以在写入了对应的固件的存储介质中响应该存储介质对应的重置命令，从而电子设备根据存储介质对应的重置命令，对该写入对应的固件的存储介质进行重置。根据重置命令对存储介质进行重置的过程可以现有技术实现，在本发明实施例中不做赘述。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

以上所描述的装置实施方式仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请可用于众多通用或专用的计算***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种交互式同音异义词消歧方法，其特征在于，具体包括：

采集语音信号，对语音信号进行自动语音识别；

判断是否存在置信度相近的语音识别结果；

2.根据权利要求1所述的交互式同音异义词消歧方法，其特征在于，在采集语音信号之后，对语音信号进行编码和特征提取，再对语音信号进行自动语音识别。

3.根据权利要求1所述的交互式同音异义词消歧方法，其特征在于，在通过交互方式，输出多个用于候选的自动语音识别结果之前，将查询结果中的描述短句形成TTS槽位。

4.根据权利要求1所述的交互式同音异义词消歧方法，其特征在于，所述存在多个置信度相近的自动语音识别结果，具体为：

5.一种交互式同音异义词消歧***，其特征在于，具体包括：

6.根据权利要求5所述的交互式同音异义词消歧***，其特征在于，语音信号采集模块，所述语音信号采集模块，在采集语音信号之后，对语音信号进行编码和特征提取，再对语音信号进行自动语音识别。

7.根据权利要求5所述的交互式同音异义词消歧***，其特征在于，语音信号智能决策模块在通过交互方式输出多个用于候选的自动语音识别结果之前，将查询结果中的描述短句形成TTS槽位。

8.根据权利要求5所述的交互式同音异义词消歧***，其特征在于，语音信号智能决策模块输出多个置信度相近的自动语音识别结果，具体为：在语音信号智能决策模块中存在多个最高置信度的自动语音识别结果，或：置信度最高的自动语音识别结果与置信度第二高的自动语音识别结果之差小于歧义置信度阈值。

9.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；所述存储器中存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至4中任一项所述的交互式同音异义词消歧方法的步骤。

10.一种计算机可读存储介质，其特征在于，其存储有可由电子设备执行的计算机程序，当所述计算机程序在所述电子设备上运行时，使得所述电子设备执行权利要求1至4中任一项所述的交互式同音异义词消歧方法的步骤。