CN108986790A - 语音识别联系人的方法和装置 - Google Patents

语音识别联系人的方法和装置 Download PDF

Info

Publication number
CN108986790A
CN108986790A CN201811148211.4A CN201811148211A CN108986790A CN 108986790 A CN108986790 A CN 108986790A CN 201811148211 A CN201811148211 A CN 201811148211A CN 108986790 A CN108986790 A CN 108986790A
Authority
CN
China
Prior art keywords
contact person
default
phoneme sequence
identification
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811148211.4A
Other languages
English (en)
Inventor
张腾飞
宋晔
欧阳能钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811148211.4A priority Critical patent/CN108986790A/zh
Publication of CN108986790A publication Critical patent/CN108986790A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例公开了语音识别联系人的方法和装置。该方法的一具体实施方式包括:对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列;将目标标识对应的音素序列与用于标识预设联系人集合中的预设联系人的联系人标识对应的音素组合进行匹配,根据匹配结果从预设联系人集合中确定出语音查询式所查询的目标联系人。该实施方式提升了离线语音识别的效率和精度。

Description

语音识别联系人的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及语音技术领域,尤其涉及语音识别联系人的方法和装置。
背景技术
通常移动终端的语音识别需要借助于服务器的计算能力,在一些场景中离线语音识别也可以为用户提供较精准的语音服务。离线语音识别联系人是在操作***不使用网络的场景下,通过离线语音识别应用将用户发出的语音信息中的名称与本地保存的联系人姓名进行比较,得到最符合用户期望查找的联系人姓名。
上述离线语音识别联系人的技术中,以汉语语言为例,本地的语音识别应用对用户的语音识别之后,返回用户发音相似的常用汉字组合,然后将该汉字组合转化为对应的拼音全称,逐一与联系人的拼音全称做比对,得到匹配结果。
发明内容
本申请实施例提出了语音识别联系人的方法和装置。
第一方面,本申请实施例提供了一种语音识别联系人的方法,包括:对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列;将目标标识对应的音素序列与用于标识预设联系人集合中的预设联系人的联系人标识对应的音素组合进行匹配,根据匹配结果从预设联系人集合中确定出语音查询式所查询的目标联系人。
在一些实施例中,上述方法还包括:确定预设联系人集合中的预设联系人的联系人标识对应的音素组合。
在一些实施例中,上述确定预设联系人集合中的预设联系人的联系人标识对应的音素组合,包括:根据字库中的单字与音素的对应关系,对预设联系人集合中的预设联系人的联系人标识按照所包含的单字进行音素分解,得到预设联系人集合中的预设联系人的联系人标识对应的音素组合。
在一些实施例中,上述对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列,包括:基于声学模型对语音查询式进行解码,得到语音查询式对应的音素序列;基于语言模型将语音查询式对应的音素序列转化为对应的文本识别结果;将文本识别结果与预设的指令模板进行匹配,从文本识别结果中提取出与预设的指令模板匹配的指令文本段;从语音查询式对应的音素序列中剔除与指令文本段对应的音素序列,得到用于标识所查询的目标联系人的目标标识对应的音素序列。
在一些实施例中,上述对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列,包括:将语音查询式输入已训练的人物标识音素提取模型,得到用于标识所查询的目标联系人的目标标识对应的音素序列。
第二方面,本申请实施例提供了一种语音识别联系人的装置,包括:识别单元,被配置为对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列;匹配单元,被配置为将目标标识对应的音素序列与用于标识预设联系人集合中的预设联系人的联系人标识对应的音素组合进行匹配,根据匹配结果从预设联系人集合中确定出语音查询式所查询的目标联系人。
在一些实施例中,上述装置还包括:确定单元,被配置为确定预设联系人集合中的预设联系人的联系人标识对应的音素组合。
在一些实施例中,上述确定单元进一步被配置为按照如下方式确定预设联系人集合中的预设联系人的联系人标识对应的音素组合:根据字库中的单字与音素的对应关系,对预设联系人集合中的预设联系人的联系人标识按照所包含的单字进行音素分解,得到预设联系人集合中的预设联系人的联系人标识对应的音素组合。
在一些实施例中,上述识别单元进一步被配置为按照如下方式对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列:基于声学模型对语音查询式进行解码,得到语音查询式对应的音素序列;基于语言模型将语音查询式对应的音素序列转化为对应的文本识别结果;将文本识别结果与预设的指令模板进行匹配,从文本识别结果中提取出与预设的指令模板匹配的指令文本段;从语音查询式对应的音素序列中剔除与指令文本段对应的音素序列,得到用于标识所查询的目标联系人的目标标识对应的音素序列。
在一些实施例中,上述识别单元进一步被配置为按照如下方式对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列:将语音查询式输入已训练的人物标识音素提取模型,得到用于标识所查询的目标联系人的目标标识对应的音素序列。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面提供的语音识别联系人的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现第一方面提供的语音识别联系人的方法。
本申请上述实施例的语音识别联系人的方法和装置,通过对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列;将目标标识对应的音素序列与用于标识预设联系人集合中的预设联系人的联系人标识对应的音素组合进行匹配,根据匹配结果从预设联系人集合中确定出语音查询式所查询的目标联系人,优化了语音识别联系人的流程,省去了将语音查询式对应的音素转化为汉字、再将汉字转化为对应的拼音的步骤,能够提升联系人匹配效率。
此外,由于音素是比拼音更小的语音单位,因此,基于音素匹配的联系人识别方法更有利于区分相似发音的音素序列与音素组合,所以本申请上述实施例的语音识别联系人的方法还可以提升识别的准确率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请实施例可以应用于其中的示例性***架构图;
图2是根据本申请的语音识别联系人的方法的一个实施例的流程图;
图3是根据本申请的语音识别联系人的方法的另一个实施例的流程图;
图4是本申请的语音识别联系人的装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的语音识别联系人的方法或语音识别联系人的装置的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102,网络以及服务器103。网络用以在终端设备101、102和服务器103之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102可以通过网络与服务器103交互,以接收或发送消息等。终端设备101、102上可以安装有各种语音信息交互应用,例如语音助手应用、信息搜索应用、地图应用、社交平台应用、音视频播放应用等。
终端设备101、102可以是具有音频信号采集功能的设备,可以是具有麦克风并支持互联网访问的各种电子设备,包括但不限于车载终端、智能音箱、智能手机、平板电脑、智能手表、笔记本电脑、膝上便携型电脑、电子书阅读器等。
服务器103可以是提供音频信号处理的服务器,例如语音识别服务器。在网络通信质量良好时,服务器103可以对终端设备101、102发送的音频信号进行解码,识别出音信信号对应的文本。服务器103可以将语音信号的识别结果通过网络反馈给终端设备101、102。
终端设备101、102也可以在网络通信质量较差或网络不可用时,对采集的用户110的音频信号进行解析,判断用户意图,并进行响应。例如用户发出音频信号“打电话给XXX”,终端设备101、102可以离线查找通讯录找到用户希望联系的联系人姓名,并执行拨打电话的操作。终端设备101、102可以包含用于执行物理运算的部件(例如GPU等处理器),本申请实施例所提供的语音识别联系人的方法可以由终端设备101、102执行,相应地,语音识别联系人的装置可以设置于终端设备101、102中。
应该理解,图1中的终端设备、网络、服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、服务器。并且,在本申请实施例中,上述***架构可以不包含网络和服务器。
继续参考图2,其示出了根据本申请的语音识别联系人的方法的一个实施例的流程200。该语音识别联系人的方法,包括以下步骤:
步骤201,对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列。
在本实施例中,语音识别联系人的方法的执行主体可以接收语音查询式。语音查询式可以是由用户发出的语音查询请求生成的。具体来说,语音查询式可以是根据用户发出的语音查询请求进行编码生成的语音信号,其中可以包含所请求查询的内容的语音编码。
在实践中,用户可以向上述执行主体发出请求查询目标联系人的语音查询请求,例如可以发出“打电话给张三”的语音请求。上述执行主体可以根据用户的语音请求生成对应的语音查询式。
上述执行主体可以在本地对接收到的语音查询式进行识别,在识别过程中,可以提取语音查询式的声学特征,例如提取基频特征、梅尔倒谱频率特征等,基于提取出的声学特征对语音查询式的每一个语音帧进行解析,得到各语音帧对应的音素,然后合并连续且相同的音素,形成语音查询式对应的音素序列。
然后基于各语音帧的对应的音素,采用语言模型搜索最优的解码路径,在搜索最优路径过程中,可以逐一输出语音查询式对应的单字或单词,这时可以判断输出的单字或单词是否为用于标识联系人的单字或单词,具体可以基于常用人物标识(例如人名、称谓)库构建关键字库和关键词库,例如可以构建包含常用姓氏的关键词库。在搜索最优路径的过程中,可以判断当前解码得出的单字或单词是否在上述关键字库或关键词库中。如果是,可以确定当前解码得出的单字或单词为用于标识所查询的目标联系人的目标标识中的一个单字或一个单词。可选地,如果当前解码得出的单字或单词在上述关键字库或关键词库中,还可以结合该单字的上下文判断该单字或单词是否为用于标识所查询的目标联系人的目标标识中的一个单字或一个单词。以汉语为例,如果解码得到的单字为“刘”,可以在常用姓氏库中匹配到“刘”,则确定该单字为用于标识目标联系人的目标标识中的单字;如果解码得到的单字为“司”,且该单字之后的一个单字为“马”,则在常用姓氏库中匹配到姓氏“司马”,也可以确定“司”、“马”为用于标识所查询的目标联系人的目标标识中的单字。
在搜索最优的解码路径过程中,如果确定出一个或多个单字或单词为用于标识目标联系人的目标标识,则可以将该用于标识目标联系人的目标标识对应的音素序列从语音查询式对应的音素序列中提取出来,得到目标标识对应的音素序列。在这里,目标标识可以是目标联系人的称谓,可以用目标联系人的姓名、职务、与本地用户的社会关系(例如表哥、二舅等亲属称谓)等表示。
在本实施例的一些可选的实现方式中,用户发出的语音查询式可以是由联系人标识和相应的操作指令组合而成的,例如“给XX打电话”,其中“给…打电话”为操作指令,“XX”为所查询的目标联系人的联系人标识。这样,可以通过分离语音查询式中的联系人标识和操作指令来提取出用于标识所查询的目标联系人的目标标识对应的音素序列。可以按照如下方式对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列:首先基于声学模型对语音查询式进行解码,得到语音查询式对应的音素序列;然后基于语言模型将语音查询式对应的音素序列转化为对应的文本识别结果;之后将文本识别结果与预设的指令模板进行匹配,从文本识别结果中提取出与预设的指令模板匹配的指令文本段;从语音查询式对应的音素序列中剔除与指令文本段对应的音素序列,得到用于标识所查询的目标联系人的目标标识对应的音素序列。
具体地,可以首先提取语音查询式的声学特征,然后基于声学模型对声学特征进行解码,得到语音查询式对应的音素序列。然后基于语言模型对音素序列进行解码,搜索最优的解码路径,得到语音查询式的文本识别结果。之后,可以采用模糊匹配或精确匹配的方式对语音查询式对应的文本识别结果与预设的指令模板进行匹配。预设的指令模板可以是指示执行预设操作的指令模板,例如“打电话给”、“给….发微信”、“呼叫”等等。可以从文本识别结果中提取出与预设的指令模板匹配的文本段,将文本识别结果中除了与预设的指令模板匹配的文本段之外的其他文本段作为用于标识目标联系人的目标标识。最后,可以从语音查询式对应的音素序列中确定出与预设的指令模板匹配的文本段对应的音素并将其剔除,则可以得到与目标标识对应的音素序列。
在本实施例的另一些可选的实现方式中,可以按照如下方式对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列:将语音查询式输入已训练的人物标识音素提取模型,得到用于标识所查询的目标联系人的目标标识对应的音素序列。
具体来说,可以预先训练人物标识音素提取模型,在训练时可以将包含人物标识的指令文本对应的语音数据作为样本语音数据,标注出包含人物标识的指令文本中的人物标识的标准读音,并转化为对应的音素序列。在训练过程中通过调整待训练的人物标识音素提取模型的参数来使得待训练的人物标识音素提取模型对样本用语音数据中所包含的人物标识对应的音素序列的预测结果与标注结果趋于一致。在基于大量的样本语音数据训练得出人物标识音素提取模型之后,可以将接收到的语音查询式输入该已训练的人物标识音素提取模型,提取出其中的人物标识对应的音素序列,则得到语音查询式的识别结果中用于标识所查询的目标联系人的目标标识对应的音素序列。
步骤202,将目标标识对应的音素序列与用于标识预设联系人集合中的预设联系人的联系人标识对应的音素组合进行匹配,根据匹配结果从预设联系人集合中确定出语音查询式所查询的目标联系人。
在本实施例中,可以获取预设联系人集合中的预设联系人的联系人标识对应的音素组合,其中联系人标识用于标识预设联系人。然后将步骤201提取出的目标标识对应的音素序列与预设联系人集合中的预设联系人的联系人标识对应的音素组合进行匹配。其中,预设联系人集合可以是本地联系人集合,例如可以是上述执行主体所保存的通讯录所包含的所有联系人的集合,预设联系人的联系人标识可以是预设联系人的称谓,例如姓名、职务称谓等。可以采用各种字符串匹配方式对待匹配的目标标识对应的音素序列和用于标识预设联系人集合中的预设联系人的联系人标识对应的音素组合进行匹配,例如可以计算相似度或差异度。具体地,可以例如采用编辑距离(Levenshtein distance)的方式计算两个字符串之间的距离,根据计算得出的距离来确定匹配度打分。距离越近,则表明待匹配的两个字符串越相似,匹配度打分越高。
可以对目标标识对应的音素序列与本地的每一个预设联系人的联系人标识对应的音素组合进行匹配度打分,然后可以确定匹配度打分最高的预设联系人为目标标识所标识的目标联系人。由此实现了在用户语音查询时识别用户所查询的目标联系人。
可选地,可以按照匹配度打分的排序,提供至少一个匹配结果,即确定出至少一个目标联系人的候选结果,并且按照匹配度打分的排序对匹配结果进行排序。
需要说明的是,每个预设联系人的联系人标识可以至少对应一个音素组合。在一些场景中,预设联系人的联系人标识中包含多音字时,例如预设联系人姓名中包含“都”、“乐”、“重”等多音字时,该联系人的联系人标识可以对应与其所包含的多音字的读音组合数量相同的音素组合。
本申请上述实施例的语音识别联系人的方法,通过对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列;将目标标识对应的音素序列与用于标识预设联系人集合中的预设联系人的联系人标识对应的音素组合进行匹配,根据匹配结果从预设联系人集合中确定出语音查询式所查询的目标联系人,优化了离线语音识别联系人的流程,省去了将语音查询式对应的音素转化为汉字、再将汉字转化为对应的拼音的步骤,能够提升联系人匹配效率。
此外,由于音素是比拼音更小的语音单位,因此,基于音素匹配的联系人识别方法更有利于区分相似发音的音素序列与音素组合,所以本申请上述实施例的语音识别联系人的方法还可以提升识别的准确率。
继续参考图3,其示出了根据本申请的语音识别联系人的方法的另一个实施例的流程图。如图3所示,本实施例的语音识别联系人的方法流程300,包括以下步骤:
步骤301,对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列。
在本实施例中,语音识别联系人的方法的执行主体可以接收根据用户的语音查询联系人请求生成的语音查询式,然后可以对语音查询式进行识别。具体可以提取语音查询式的声学特征,然后利用声学模型将语音查询式转化为对应的音素序列。之后可以利用语言模型对音素序列进行解码,依次输出语音查询式中的单字或单词,在利用语言模型对音素序列解码过程中,可以检测每一个当前解码得到的单字或单词是否为由常用联系人标识库中的联系人标识所包含的单字或单词构建的预设关键字库中的单字或预设关键词库中的单词,若是,则可以提取出当前解码得到的单字对应的音素,进而提取出用于标识目标联系人的目标标识对应的音素序列。
在本实施例的一些可选的实现方式中,可以首先基于声学模型对语音查询式进行解码,得到语音查询式对应的音素序列;然后基于语言模型将语音查询式对应的音素序列转化为对应的文本识别结果;之后将文本识别结果与预设的指令模板进行匹配,从文本识别结果中提取出与预设的指令模板匹配的指令文本段;从语音查询式对应的音素序列中剔除与指令文本段对应的音素序列,得到用于标识所查询的目标联系人的目标标识对应的音素序列。其中,预设的指令模板可以是指示执行预设操作的指令模板,例如“打电话给”、“给….发微信”、“呼叫”等等。
在本实施例的另一些可选的实现方式中,可以将语音查询式输入已训练的人物标识音素提取模型,得到用于标识所查询的目标联系人的目标标识对应的音素序列。其中,已训练的人物标识音素提取模型可以用于提取输入的语音数据中人物标识对应的音素序列。
步骤302,确定预设联系人集合中的预设联系人的联系人标识对应的音素组合。
在本实施例中,可以获取预设联系人集合,然后将预设联系人集合中的预设联系人的联系人标识转化为对应的音素组合。预设联系人集合可以是发出语音查询请求的用户的通讯录中的联系人的集合,可以通过保存在上述执行主体本地的通讯录获取。预设联系人的联系人标识可以是预设联系人的称谓,例如姓名、职务称谓、社会关系称谓等。
具体地,可以根据汉语拼音词典或其他语言的发音词典标注出预设联系人的联系人标识对应的拼音或读音,然后对标注出的拼音或其他语种的读音按照对应的语种进行音素分解,得到预设联系人标识对应的音素组合。
在本实施例的一些可选的实现方式中,可以通过如下步骤3021的方式确定预设联系人集合中的预设联系人的联系人标识对应的音素组合:
步骤3021,根据字库中的单字与音素的对应关系,对预设联系人集合中的预设联系人的联系人标识按照所包含的单字进行音素分解,得到预设联系人集合中的预设联系人的联系人标识对应的音素组合。
具体来说,在步骤3021中,可以根据预先构建的音素与基础字库中的单字之间的对照关系,将预设联系人的联系人标识中的每个单字或单词转化为对应的音素,然后按照顺序组合形成预设联系人的联系人标识对应的音素组合。这样,可以直接根据音素与单字的对照关系快速地确定出预设联系人的联系人标识对应的音素组合。
步骤303,将目标标识对应的音素序列与用于标识预设联系人集合中的预设联系人的联系人标识对应的音素组合进行匹配,根据匹配结果从预设联系人集合中确定出语音查询式所查询的目标联系人。
在本实施例中,可以将步骤301提取出的目标标识对应的音素序列与步骤302确定出的预设联系人的联系人标识对应的音素组合进行匹配。可以采用各种字符串匹配方式对待匹配的目标标识对应的音素序列和用于标识预设联系人集合中的预设联系人的联系人标识对应的音素组合进行匹配,例如可以计算相似度或差异度。作为示例,可以采用编辑距离(Levenshtein distance)的方式计算两个字符串之间的距离,根据计算得出的距离来确定匹配度打分。距离越近,则表明待匹配的两个字符串越相似,匹配度打分越高。
本实施例的语音识别联系人的方法流程的步骤301、步骤303分别与前述实施例的步骤201、步骤202一致,步骤301、步骤303的具体实现方式可以参考步骤201、步骤202的描述,此处不再赘述。
本实施例的语音识别联系人的方法,通过增加的确定预设联系人集合中的预设联系人的联系人标识对应的音素组合的步骤,可以在离线状态下快速、实时地构建用于匹配用户所查询的目标联系人的预设联系人的联系人标识对应的音素组合,在构建预设联系人的联系人标识对应的音素组合时可以为本地通讯录中每一个联系人确定对应的音素组合,避免在通讯录更新后预先确定的预设联系人集合中的预设联系人的联系人标识对应的音素组合未能及时更新对匹配结果的影响,能够进一步提升离线语音识别联系人的识别精度。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种语音识别联系人的装置的一个实施例,该装置实施例与图2和图3所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例的语音识别联系人的装置400包括识别单元401和匹配单元402。其中,识别单元401可以被配置为对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列;匹配单元402可以被配置为将目标标识对应的音素序列与用于标识预设联系人集合中的预设联系人的联系人标识对应的音素组合进行匹配,根据匹配结果从预设联系人集合中确定出语音查询式所查询的目标联系人。
在一些实施例中,上述装置400还可以包括:确定单元,被配置为确定预设联系人集合中的预设联系人的联系人标识对应的音素组合。
在一些实施例中,上述确定单元可以进一步被配置为按照如下方式确定预设联系人集合中的预设联系人的联系人标识对应的音素组合:根据字库中的单字与音素的对应关系,对预设联系人集合中的预设联系人的联系人标识按照所包含的单字进行音素分解,得到预设联系人集合中的预设联系人的联系人标识对应的音素组合。
在一些实施例中,上述识别单元401可以进一步被配置为按照如下方式对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列:基于声学模型对语音查询式进行解码,得到语音查询式对应的音素序列;基于语言模型将语音查询式对应的音素序列转化为对应的文本识别结果;将文本识别结果与预设的指令模板进行匹配,从文本识别结果中提取出与预设的指令模板匹配的指令文本段;从语音查询式对应的音素序列中剔除与指令文本段对应的音素序列,得到用于标识所查询的目标联系人的目标标识对应的音素序列。
在一些实施例中,上述识别单元401可以进一步被配置为按照如下方式对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列:将语音查询式输入已训练的人物标识音素提取模型,得到用于标识所查询的目标联系人的目标标识对应的音素序列。
应当理解,装置400中记载的诸单元与参考图2和图3描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置400及其中包含的单元,在此不再赘述。
本申请上述实施例的语音识别联系人的装置400,通过利用识别语音查询式得到的用于标识所查询的目标联系人的目标标识对应的音素序列来进行联系人匹配,优化了语音识别联系人的流程,省去了将语音查询式对应的音素转化为汉字、再将汉字转化为对应的拼音的步骤,能够提升联系人匹配效率。同时,由于音素是比拼音更小的语音单位,因此,基于音素匹配的联系人识别装置更有利于区分相似发音的音素序列与音素组合,所以上述语音识别联系人的装置还可以提升识别的准确率。
下面参考图5,其示出了适于用来实现本申请实施例的电子设备的计算机***500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机***500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分505;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括识别单元和匹配单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,识别单元还可以被描述为“对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列;将目标标识对应的音素序列与用于标识预设联系人集合中的预设联系人的联系人标识对应的音素组合进行匹配,根据匹配结果从预设联系人集合中确定出语音查询式所查询的目标联系人。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种语音识别联系人的方法,包括:
对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列;
将所述目标标识对应的音素序列与用于标识预设联系人集合中的预设联系人的联系人标识对应的音素组合进行匹配,根据匹配结果从所述预设联系人集合中确定出所述语音查询式所查询的目标联系人。
2.根据权利要求1所述的方法,其中,所述方法还包括:
确定预设联系人集合中的预设联系人的联系人标识对应的音素组合。
3.根据权利要求2所述的方法,其中,所述确定预设联系人集合中的预设联系人的联系人标识对应的音素组合,包括:
根据字库中的单字与音素的对应关系,对所述预设联系人集合中的预设联系人的联系人标识按照所包含的单字进行音素分解,得到所述预设联系人集合中的预设联系人的联系人标识对应的音素组合。
4.根据权利要求1-3任一项所述的方法,其中,所述对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列,包括:
基于声学模型对所述语音查询式进行解码,得到所述语音查询式对应的音素序列;
基于语言模型将所述语音查询式对应的音素序列转化为对应的文本识别结果;
将所述文本识别结果与预设的指令模板进行匹配,从所述文本识别结果中提取出与所述预设的指令模板匹配的指令文本段;
从所述语音查询式对应的音素序列中剔除与所述指令文本段对应的音素序列,得到所述用于标识所查询的目标联系人的目标标识对应的音素序列。
5.根据权利要求1-3任一项所述的方法,其中,所述对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列,包括:
将所述语音查询式输入已训练的人物标识音素提取模型,得到所述用于标识所查询的目标联系人的目标标识对应的音素序列。
6.一种语音识别联系人的装置,包括:
识别单元,被配置为对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列;
匹配单元,被配置为将所述目标标识对应的音素序列与用于标识预设联系人集合中的预设联系人的联系人标识对应的音素组合进行匹配,根据匹配结果从所述预设联系人集合中确定出所述语音查询式所查询的目标联系人。
7.根据权利要求6所述的装置,其中,所述装置还包括:
确定单元,被配置为确定预设联系人集合中的预设联系人的联系人标识对应的音素组合。
8.根据权利要求7所述的装置,其中,所述确定单元进一步被配置为按照如下方式确定预设联系人集合中的预设联系人的联系人标识对应的音素组合:
根据字库中的单字与音素的对应关系,对所述预设联系人集合中的预设联系人的联系人标识按照所包含的单字进行音素分解,得到所述预设联系人集合中的预设联系人的联系人标识对应的音素组合。
9.根据权利要求6-8任一项所述的装置,其中,所述识别单元进一步被配置为按照如下方式对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列:
基于声学模型对所述语音查询式进行解码,得到所述语音查询式对应的音素序列;
基于语言模型将所述语音查询式对应的音素序列转化为对应的文本识别结果;
将所述文本识别结果与预设的指令模板进行匹配,从所述文本识别结果中提取出与所述预设的指令模板匹配的指令文本段;
从所述语音查询式对应的音素序列中剔除与所述指令文本段对应的音素序列,得到所述用于标识所查询的目标联系人的目标标识对应的音素序列。
10.根据权利要求6-8任一项所述的装置,其中,所述识别单元进一步被配置为按照如下方式对接收到的语音查询式进行语音识别,从识别结果中提取出用于标识所查询的目标联系人的目标标识对应的音素序列:
将所述语音查询式输入已训练的人物标识音素提取模型,得到所述用于标识所查询的目标联系人的目标标识对应的音素序列。
11.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201811148211.4A 2018-09-29 2018-09-29 语音识别联系人的方法和装置 Pending CN108986790A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811148211.4A CN108986790A (zh) 2018-09-29 2018-09-29 语音识别联系人的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811148211.4A CN108986790A (zh) 2018-09-29 2018-09-29 语音识别联系人的方法和装置

Publications (1)

Publication Number Publication Date
CN108986790A true CN108986790A (zh) 2018-12-11

Family

ID=64543126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811148211.4A Pending CN108986790A (zh) 2018-09-29 2018-09-29 语音识别联系人的方法和装置

Country Status (1)

Country Link
CN (1) CN108986790A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109996026A (zh) * 2019-04-23 2019-07-09 广东小天才科技有限公司 基于穿戴式设备的视频特效互动方法、装置、设备及介质
CN110310631A (zh) * 2019-06-28 2019-10-08 北京百度网讯科技有限公司 语音识别方法、装置、服务器和存储介质
CN111147444A (zh) * 2019-11-20 2020-05-12 维沃移动通信有限公司 一种交互方法及电子设备
CN111312226A (zh) * 2020-02-17 2020-06-19 出门问问信息科技有限公司 一种语音识别方法、设备及计算机可读存储介质
CN112309398A (zh) * 2020-09-30 2021-02-02 音数汇元(上海)智能科技有限公司 工作时长监控方法、装置、电子设备和存储介质
CN112331207A (zh) * 2020-09-30 2021-02-05 音数汇元(上海)智能科技有限公司 服务内容监控方法、装置、电子设备和存储介质
CN112447176A (zh) * 2019-08-29 2021-03-05 株式会社东芝 信息处理装置、关键词检测装置以及信息处理方法
CN112735394A (zh) * 2020-12-16 2021-04-30 青岛海尔科技有限公司 一种语音的语义解析方法及装置
CN113808593A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 语音交互***、相关方法、装置及设备
CN113889083A (zh) * 2021-11-03 2022-01-04 广州博冠信息科技有限公司 语音识别方法及装置、存储介质、电子设备
CN114124875A (zh) * 2021-11-04 2022-03-01 维沃移动通信有限公司 语音消息处理方法、装置、电子设备及介质
CN115101064A (zh) * 2022-07-20 2022-09-23 安克创新科技股份有限公司 指令词识别方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1167950A (zh) * 1996-03-19 1997-12-17 西门子公司 语音识别计算机模块及基于音素的数字语音信号变换方法
CN107016994A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 语音识别的方法及装置
US9747891B1 (en) * 2016-05-18 2017-08-29 International Business Machines Corporation Name pronunciation recommendation
CN108122555A (zh) * 2017-12-18 2018-06-05 北京百度网讯科技有限公司 通讯方法、语音识别设备和终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1167950A (zh) * 1996-03-19 1997-12-17 西门子公司 语音识别计算机模块及基于音素的数字语音信号变换方法
CN107016994A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 语音识别的方法及装置
US9747891B1 (en) * 2016-05-18 2017-08-29 International Business Machines Corporation Name pronunciation recommendation
CN108122555A (zh) * 2017-12-18 2018-06-05 北京百度网讯科技有限公司 通讯方法、语音识别设备和终端设备

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109996026A (zh) * 2019-04-23 2019-07-09 广东小天才科技有限公司 基于穿戴式设备的视频特效互动方法、装置、设备及介质
CN109996026B (zh) * 2019-04-23 2021-01-19 广东小天才科技有限公司 基于穿戴式设备的视频特效互动方法、装置、设备及介质
CN110310631A (zh) * 2019-06-28 2019-10-08 北京百度网讯科技有限公司 语音识别方法、装置、服务器和存储介质
CN112447176A (zh) * 2019-08-29 2021-03-05 株式会社东芝 信息处理装置、关键词检测装置以及信息处理方法
CN111147444A (zh) * 2019-11-20 2020-05-12 维沃移动通信有限公司 一种交互方法及电子设备
CN111147444B (zh) * 2019-11-20 2021-08-06 维沃移动通信有限公司 一种交互方法及电子设备
CN111312226A (zh) * 2020-02-17 2020-06-19 出门问问信息科技有限公司 一种语音识别方法、设备及计算机可读存储介质
CN113808593A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 语音交互***、相关方法、装置及设备
CN112331207A (zh) * 2020-09-30 2021-02-05 音数汇元(上海)智能科技有限公司 服务内容监控方法、装置、电子设备和存储介质
CN112309398A (zh) * 2020-09-30 2021-02-02 音数汇元(上海)智能科技有限公司 工作时长监控方法、装置、电子设备和存储介质
CN112735394A (zh) * 2020-12-16 2021-04-30 青岛海尔科技有限公司 一种语音的语义解析方法及装置
CN113889083A (zh) * 2021-11-03 2022-01-04 广州博冠信息科技有限公司 语音识别方法及装置、存储介质、电子设备
CN114124875A (zh) * 2021-11-04 2022-03-01 维沃移动通信有限公司 语音消息处理方法、装置、电子设备及介质
CN114124875B (zh) * 2021-11-04 2023-12-19 维沃移动通信有限公司 语音消息处理方法、装置、电子设备及介质
CN115101064A (zh) * 2022-07-20 2022-09-23 安克创新科技股份有限公司 指令词识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108986790A (zh) 语音识别联系人的方法和装置
CN109817213B (zh) 用于自适应语种进行语音识别的方法、装置及设备
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
CN107657017B (zh) 用于提供语音服务的方法和装置
CN111696535B (zh) 基于语音交互的信息核实方法、装置、设备和计算机存储介质
US10978047B2 (en) Method and apparatus for recognizing speech
CN107492379B (zh) 一种声纹创建与注册方法及装置
CN107945786B (zh) 语音合成方法和装置
CN109036384B (zh) 语音识别方法和装置
CN107610709B (zh) 一种训练声纹识别模型的方法及***
US11217236B2 (en) Method and apparatus for extracting information
WO2022057712A1 (zh) 电子设备及其语义解析方法、介质和人机对话***
CN113205817B (zh) 语音语义识别方法、***、设备及介质
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
CN114357973B (zh) 意图识别方法、装置、电子设备及存储介质
KR102046486B1 (ko) 정보 입력 방법
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN109462482A (zh) 声纹识别方法、装置、电子设备及计算机可读存储介质
CN109858045A (zh) 机器翻译方法和装置
CN112906380A (zh) 文本中角色的识别方法、装置、可读介质和电子设备
CN117093687A (zh) 问题应答方法和装置、电子设备、存储介质
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
CN113836945B (zh) 意图识别方法、装置、电子设备和存储介质
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN113763925B (zh) 语音识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211