CN108664460A

CN108664460A - 语音填表装置、方法、***及存储介质

Info

Publication number: CN108664460A
Application number: CN201810337954.XA
Authority: CN
Inventors: 鲜军舫; 郭健; 胡强; 薛亭; 符祥晖; 王静
Original assignee: Beijing Angel Software Technology Co Ltd
Current assignee: Beijing Angel Software Technology Co Ltd
Priority date: 2018-04-16
Filing date: 2018-04-16
Publication date: 2018-10-16

Abstract

本申请提供了一种用于语音填表的装置、方法、***和存储介质。所述语音填表装置包括：表单生成器，生成具有多个选项的表单，所述多个选项中的每个选项由预定词汇构成；语音采集器，采集用户用于选择所述多个选项中的至少一个选项的语音；匹配器，利用所述预定词汇进行训练并将所述语音与所述多个选项中的至少一个选项进行匹配；以及表单填写器，基于所匹配的至少一个选项填写所述表单。

Description

语音填表装置、方法、***及存储介质

技术领域

本申请涉及语音识别领域，更具体地，涉及一种用于语音填表的装置、方法、***和存储介质。

背景技术

传统的表格录入一般使用键盘和鼠标等输入装置。在一些在输入时无法解放双手的使用场景下，这种表格录入方式存在不便。例如，在医生为患者进行诊断的同时录入患者诊断信息的使用场景下，可能存在这样的不便。

发明内容

本申请提供了利用语音进行表格填写的技术方案。

本申请实施例的一方面提供了一种语音填表装置。所述语音填表装置包括：表单生成器，生成具有多个选项的表单，所述多个选项中的每个选项由预定词汇构成；语音采集器，采集用户用于选择所述多个选项中的至少一个选项的语音；匹配器，利用所述预定词汇进行训练并将所述语音与所述多个选项中的至少一个选项进行匹配；以及表单填写器，基于所匹配的至少一个选项填写所述表单。

根据本申请的实施例，所述语音采集器包括滤波器，所述滤波器对所述语音进行降噪。

根据本申请的实施例，所述匹配器利用针对用户定制的语音以及与所定制的语音匹配的预定词汇进行训练。

根据本申请的实施例，所述匹配器配置有递归神经网络，所述递归神经网络利用标注有所述预定词汇的训练语音作为训练集进行训练。

根据本申请的实施例，所述递归神经网络包括长短期记忆单元。

根据本申请的实施例，所述表单填写器包括交互器，所述交互器在所述表单中勾选所匹配的至少一个选项并通知用户对所述至少一个选项的勾选。

根据本申请的实施例，所述交互器包括：扬声器，提供声音反馈以通知用户对所述至少一个选项的勾选；和/或图像生成器，提供视觉反馈以通知用户对所述至少一个选项的勾选。

本申请实施例的另一方面提供了一种语音填表方法。所述语音填表方法包括：生成具有多个选项的表单，所述多个选项中的每个选项由预定词汇构成；采集用户用于选择所述多个选项中的至少一个选项的语音；利用所述预定词汇进行训练并将所述语音与所述多个选项中的至少一个选项进行匹配；以及基于所匹配的至少一个选项填写所述表单。

本申请实施例的另一方面提供了一种语音填表***，其特征在于，所述语音填表***包括：存储器，存储可执行指令；一个或多个处理器，与所述存储器通信以执行可执行指令从而完成以下操作：生成具有多个选项的表单，所述多个选项中的每个选项由预定词汇构成；采集用户用于选择所述多个选项中的至少一个选项的语音；利用所述预定词汇进行训练并将所述语音与所述多个选项中的至少一个选项进行匹配；以及基于所匹配的至少一个选项填写所述表单。

本申请实施例的另一方面提供了一种用于语音填表的非暂时性计算机存储介质，所述非暂时性计算机存储介质存储计算机可读指令，所述计算机可读指令在被执行时致使处理器执行以下操作：生成具有多个选项的表单，所述多个选项中的每个选项由预定词汇构成；采集用户用于选择所述多个选项中的至少一个选项的语音；利用所述预定词汇进行训练并将所述语音与所述多个选项中的至少一个选项进行匹配；以及基于所匹配的至少一个选项填写所述表单。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请实施例的语音填表装置的框图；

图2是根据本申请实施例的表单的示例性图示；

图3是根据本申请实施例的语音填表方法的流程图；以及

图4是根据本申请实施例的电子***的框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

应注意，在本说明书中，第一、第二、第三等的表述仅用于将一个特征与另一个特征区分开来，而不表示对特征的任何限制。应理解的是，用语“包括”、“包括有”、“具有”、“包含”和/或“包含有”，当在本说明书中使用时表示存在所陈述的特征、元件和/或部件，但不排除存在或附加有一个或多个其它特征、元件、部件和/或它们的组合。此外，当诸如“...中的至少一个”的表述出现在所列特征的列表之后时，修饰整个所列特征，而不是修饰列表中的单独元件。此外，当描述本申请的实施方式时，使用“可”表示“本申请的一个或多个实施方式”。并且，用语“示例性的”旨在指代示例或举例说明。

除非另外限定，否则本文中使用的所有用语(包括技术用语和科学用语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是，用语(例如在常用词典中定义的用语)应被解释为具有与它们在相关技术的上下文中的含义一致的含义，并且将不被以理想化或过度正式意义解释，除非本文中明确如此限定。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1是根据本申请实施例的语音填表装置1000的框图。

语音填表装置1000包括：表单生成器1100，生成具有多个选项的表单，多个选项中的每个选项由预定词汇构成；语音采集器1200，采集用户用于选择多个选项中的至少一个选项的语音；匹配器1300，利用预定词汇进行训练并将语音与多个选项中的至少一个选项进行匹配；以及表单填写器1400，基于所匹配的至少一个选项填写表单。

在例如医生为患者进行诊断的同时录入患者诊断信息的使用场景下，可能不便于利用键盘和鼠标等输入装置进行输入。语音输入在这种情境下可以作为一种解放双手的输入方式。现有技术中，语音输入往往是针对非结构化文本的应用场景。诸如，语音识别器需要识别大段的语音，生成例如医疗文书的大段文字。在这种情况下，一方面需要大量的声音样本作为训练集，另一方面需要大量的计算资源(例如，GPU等)对语音识别模型进行训练。这样大大加大了应用语音输入的成本。另外，在数据分析中，非结构化的数据也难以应用。出于便于描述的目的，本申请的实施例基于填写诊断书的应用场景进行阐释。然而，本领域技术人员可领会，本申请的技术方案可应用于除此之外的多种合适的场景。

本申请的表单生成器1100可生成具有多个选项的表单，多个选项中的每个选项由预定词汇构成。图2示出了由表单生成器1100生成的示例性表单2000。

示例性表单2000包括表头2100、条目2200和选项2300。表头表示该表格的主题。例如，表单生成器1100可针对医院不同的科室的不同诊断项目生成不同的表单2000。不同的表单2000的主题由表头2100来区分。在本示例中，表头2100“右侧外耳评估”可表示此表格用于耳鼻喉科对于右侧外耳的诊断。

条目2200表示待诊断/评估的条目，诸如耳廓形态、外耳道形态、外耳道骨部和外耳道炎症等。例如，医生需要在单次诊断中对上述条目进行诊断和/或评估，并填写相应的诊断结果。

选项2300可由预定词汇构成。例如，针对条目“耳廓形态”的选项可仅包括如下词汇：形态可；小；形态不规则；部分钙化；肥大；未显示；以及N/A(或，其它)。针对条目“外耳道形态”的选项可仅包括如下词汇：形态可；狭窄；局部闭塞；全程闭塞；扩大；低位；以及N/A(或，其它)。针对条目“外耳道骨部”的选项可仅包括如下词汇：未见异常；软组织充填；未显示；以及N/A(或，其它)。针对条目“外耳道炎症”的选项可仅包括如下词汇：未见软组织影；可见软组织影；以及N/A(或，其它)。

综上，表单生成器1100生成的表单2000具有结构化的特征。一方面，这种结构化的特征可便于数据的分析和管理。另一方面，在该结构化的表单2000中，所涉及的词汇是固定且明确的，这也降低了对下文中所介绍的匹配器1300进行训练所需的成本。例如，在对非结构化的数据进行处理的情况下，为了训练和优化语音识别模型，用于训练语音识别模型的每个训练集包含的标准化人声样本达到20GB以上。另外，每训练一次，都需要使用两部以上GPU服务器训练4-5日。

语音采集器1200可采集用户用于选择多个选项中的至少一个选项的语音。例如，当医生在诊断耳廓形态时，可发出“耳廓形态尚可”的语音以选择与耳廓形态对应的选项“形态可”。再如，当医生在诊断耳廓形态时，可发出“耳廓形态肥大”的语音以选择与耳廓形态对应的选项“肥大”。

根据本申请的实施例，语音采集器1200可例如包括麦克风以采集用户的语音。此外，语音采集器1200可包括滤波器以对采集的语音进行降噪处理。例如，可采用带通滤波器以保留20至20000赫兹的声音信号并滤除其余声音信号。再例如，可利用高斯滤波等滤波算法以去除声音信号中的白噪声。

匹配器1300可利用预定词汇进行训练并将语音与多个选项中的至少一个选项进行匹配。匹配器1300可包括人工智能(AI)语音识别模块并执行语音识别模型来识别由语音采集器1200采集的语音。

例如，匹配器1300可包括利用深度学习(Deep Learning)实现的语音识别模型。在这种情况下，语音识别模型包括由多个层构成的深度神经网络(DNN)。DNN中的每一层均负责对上一层数据进行特征提取或诸如池化操作等特征处理。

语音识别模型的建立和使用可划分为训练阶段(Training Phase)和测试阶段(Test Phase)。一般而言，这样的语音识别模型需要经历训练阶段才具备语音识别功能，从而在测试阶段完成语音识别。在训练阶段，可利用预定词汇进行训练。例如，训练集可包括多个声音样本，每个声音样本都被标注有一个预定词汇。

为了处理的方便，每一预定词汇都可被预先编码。例如，可将预定词汇以独热(One-Hot)码的方式进行编码。独热码编码是这样一种编码方式，***有多少个状态，该编码就具有多少个比特。这些比特中，只有一个为1，而其余均为0。例如，***整理了5000个预定词汇(即，5000种可能的状态)，则独热码即具有5000个比特。此时，独热码可看作一个向量，每一元素仅可以是0或1。仅与目标预定词汇对应的元素的比特为1，而其余元素均为0。在实际应用中，可以为***预留至少一个比特用于表征未被***整理的词汇。通过独热码的编码方式，可以实现文本字符向数字化数据的转换。

预定词汇在训练过程中用作参考值(Ground Truth)。训练阶段可迭代地进行多次。每一次训练都将标注有预定词汇的声音样本沿DNN正向传播一次以预测出该声音样本的答案。然后，将所预测出的答案与用作参考值的预定词汇进行比较以获取预测误差。随后，将预测误差在DNN中反向传播以逐层校正网络参数。例如，可采用随机梯度下降算法来校正DNN中每层的权重和偏置值从而优化参数。这样的训练可迭代执行直至满足收敛条件。例如，可迭代执行这样的训练直至预测误差小于预设值。再例如，可迭代执行这样的训练，直至训练次数达到预设值。在训练阶段结束后，语音识别模型会记忆最后一次训练所优化更新得到的网络参数。然后，在测试阶段，语音识别模型可对采集的语音进行识别，并将采集的语音与多个选项中的至少一个选项进行匹配。

由于表单生成器1100生成的表单中的每个选项均由预定词汇构成，并且这样的预定词汇数量有限，所以训练匹配器1300所需的训练集的规模可显著降低，并且训练匹配器1300所需的计算资源也可显著降低。

根据本申请的实施例，匹配器1300利用针对用户定制的语音以及与所定制的语音匹配的预定词汇进行训练。例如，在语音填表装置1000仅供特定用户使用的情况下，可由该特定用户录制符合习惯的语音文件以作为训练语音使用。可为每个训练语音手动标注与之匹配的预定词汇以作为参考值。例如，用户可发出带有地方口音的语音“耳廓形态尚可”并将其录制为训练语音。用户或产品生产商等可为该训练语音匹配预定词汇“耳廓形态”和“形态可”以作为参考值。用户可就同一内容录制多个训练语音。所有的训练语音以及阈值匹配的预定词汇共同构成训练集以对匹配器1300进行训练。通过这种方式，训练后的匹配器1300可为该特定用户提供定制化的语音服务。这样的语音服务可针对用户的口音、语言习惯、语种等进行适配。

在语音识别领域，由于语音信息具有先后的连贯性，对语音中每一词语的解译均需参考其上下文的信息，因此前馈式神经网络的处理效果可能欠佳。基于此，本申请的匹配器1300配置有递归神经网络(RNN)。与前馈式网络不同，RNN的输入不仅包括当前的输入，还包括RNN在上一个时刻(或帧)所处理的信息。因而，在本申请的实施例中，可通过RNN，基于在先被提取的词语提取当前词语的多个词语特征。通过这种方式，由于考虑到了词语的上下文信息，因而根据每个词语而提取出的词语特征将具有更强的字词语义表征能力，从而提高了语音识别的准确率。这样的RNN可包括各种具体实例，例如，长短期记忆单元(LSTM)。

表单填写器1400，基于所匹配的至少一个选项填写表单2000。例如，表单填写器1400可用实心圆点或勾号来标注表单2000中的由匹配器1300所匹配选择的选项。在这种情况下，表单填写器1400包括交互器，交互器在表单2000中勾选所匹配的至少一个选项并通知用户对至少一个选项的勾选。例如，交互器可包括扬声器。扬声器提供声音反馈以通知用户对所述至少一个选项的勾选。再例如，交互器可包括图像生成器。图像生成器提供视觉反馈以通知用户对所述至少一个选项的勾选。

图3示出了根据本申请实施例的语音填表方法3000。语音填表方法3000包括：步骤S3100，生成具有多个选项的表单，所述多个选项中的每个选项由预定词汇构成；步骤S3200，采集用户用于选择所述多个选项中的至少一个选项的语音；步骤S3300，利用所述预定词汇进行训练并将所述语音与所述多个选项中的至少一个选项进行匹配；以及步骤S3400，基于所匹配的至少一个选项填写所述表单

本申请实施例还提供了一种电子***，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图4，其示出了适于用来实现本申请实施例的终端设备或服务器的电子***的结构示意图。如图4所示，电子***包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)401，和/或一个或多个图像处理器(GPU)413等，处理器可以根据存储在只读存储器(ROM)402中的可执行指令或者从存储部分408加载到随机访问存储器(RAM)403中的可执行指令而执行各种适当的动作和处理。通信部412可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器402和/或随机访问存储器630中通信以执行可执行指令，通过总线404与通信部412相连、并经通信部412与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如：生成具有多个选项的表单，所述多个选项中的每个选项由预定词汇构成；采集用户用于选择所述多个选项中的至少一个选项的语音；利用所述预定词汇进行训练并将所述语音与所述多个选项中的至少一个选项进行匹配；以及基于所匹配的至少一个选项填写所述表单。

此外，在RAM 403中，还可存储有装置操作所需的各种程序和数据。CPU 401、ROM402以及RAM 403通过总线404彼此相连。在有RAM 403的情况下，ROM 402为可选模块。RAM403存储可执行指令，或在运行时向ROM 402中写入可执行指令，可执行指令使处理器401执行上述通信方法对应的操作。输入/输出(I/O)接口405也连接至总线404。通信部412可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

需要说明的，如图4所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图4的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本申请公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如：生成具有多个选项的表单，所述多个选项中的每个选项由预定词汇构成；采集用户用于选择所述多个选项中的至少一个选项的语音；利用所述预定词汇进行训练并将所述语音与所述多个选项中的至少一个选项进行匹配；以及基于所匹配的至少一个选项填写所述表单。

在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本申请的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.语音填表装置，其特征在于，所述语音填表装置包括：

表单生成器，生成具有多个选项的表单，所述多个选项中的每个选项由预定词汇构成；

语音采集器，采集用户用于选择所述多个选项中的至少一个选项的语音；

匹配器，利用所述预定词汇进行训练并将所述语音与所述多个选项中的至少一个选项进行匹配；以及

表单填写器，基于所匹配的至少一个选项填写所述表单。

2.根据权利要求1所述的语音填表装置，其特征在于，所述语音采集器包括滤波器，所述滤波器对所述语音进行降噪。

3.根据权利要求1所述的语音填表装置，其特征在于，所述匹配器利用针对用户定制的语音以及与所定制的语音匹配的预定词汇进行训练。

4.根据权利要求1所述的语音填表装置，其特征在于，所述匹配器配置有递归神经网络，所述递归神经网络利用标注有所述预定词汇的训练语音作为训练集进行训练。

5.根据权利要求3所述的语音填表装置，其特征在于，所述递归神经网络包括长短期记忆单元。

6.根据权利要求1所述的语音填表装置，其特征在于，所述表单填写器包括交互器，所述交互器在所述表单中勾选所匹配的至少一个选项并通知用户对所述至少一个选项的勾选。

7.根据权利要求6所述的语音填表装置，其特征在于，所述交互器包括：

扬声器，提供声音反馈以通知用户对所述至少一个选项的勾选；和/或

图像生成器，提供视觉反馈以通知用户对所述至少一个选项的勾选。

8.语音填表方法，其特征在于，所述语音填表方法包括：

生成具有多个选项的表单，所述多个选项中的每个选项由预定词汇构成；

采集用户用于选择所述多个选项中的至少一个选项的语音；

利用所述预定词汇进行训练并将所述语音与所述多个选项中的至少一个选项进行匹配；以及

基于所匹配的至少一个选项填写所述表单。

9.语音填表***，其特征在于，所述语音填表***包括：

存储器，存储可执行指令；

一个或多个处理器，与所述存储器通信以执行可执行指令从而完成以下操作：

采集用户用于选择所述多个选项中的至少一个选项的语音；

基于所匹配的至少一个选项填写所述表单。

10.一种用于语音填表的非暂时性计算机存储介质，所述非暂时性计算机存储介质存储计算机可读指令，所述计算机可读指令在被执行时致使处理器执行以下操作：

采集用户用于选择所述多个选项中的至少一个选项的语音；

基于所匹配的至少一个选项填写所述表单。