CN108122555A - 通讯方法、语音识别设备和终端设备 - Google Patents
通讯方法、语音识别设备和终端设备 Download PDFInfo
- Publication number
- CN108122555A CN108122555A CN201711364939.6A CN201711364939A CN108122555A CN 108122555 A CN108122555 A CN 108122555A CN 201711364939 A CN201711364939 A CN 201711364939A CN 108122555 A CN108122555 A CN 108122555A
- Authority
- CN
- China
- Prior art keywords
- contact person
- language model
- terminal device
- address list
- target language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005611 electricity Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/274—Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
- H04M1/2745—Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
- H04M1/27453—Directories allowing storage of additional subscriber data, e.g. metadata
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本发明提出一种通讯方法、语音识别设备和终端设备,其中,方法包括:从终端设备上采集通讯录文本,其中,通讯录文本中存储有至少一个联系人,利用通讯录文本作为训练语料进行语言模型的训练,得到终端设备对应的目标语言模型,从终端设备上采集用于呼叫目标联系人的语音,基于与终端设备对应的目标语言模型对语音进行识别,得到目标联系人发送给终端设备进行呼叫。该方法用目标语言模型对呼叫目标联系人的语音进行识别时,能够准确识别出目标联系人并准确拨打目标联系人,解决了由于同音不同字,可能会存在将人名识别错误,进而错误拨打联系人的问题,提高了对联系人的识别准确率,进而提高了正确拨打联系人的概率。
Description
技术领域
本发明涉及终端设备技术领域,尤其涉及一种通讯方法、语音识别设备和终端设备。
背景技术
随着语音识别技术的发展,语音识别已应用于多个领域。例如,通过语音输入联系人的名字拨打电话,这种拨打电话的方法,给用户的生活带来了极大的便利。
但是,每个终端设备中通讯录中联系人不同,不同的终端设备中可能存在同音不同字的名字,从而在语音输入联系人的名字时,可能会存在将名字识别错误的情况,从而不能准确地拨打联系人。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种通讯方法,根据终端设备上的通讯录文本进行语言模型的训练,得到与终端设备对应的目标语言模型,从而根据该目标语言模型对呼叫目标联系人的语音进行识别,将得到目标联系人发送给终端设备进行呼叫,提高对联系人的识别准确率。
本发明的第二个目的在于提出另一种通讯方法。
本发明的第三个目的在于提出一种语音识别设备。
本发明的第四个目的在于提出一种终端设备。
本发明的第五个目的在于提出一种计算机设备。
本发明的第六个目的在于提出一种计算机程序产品。
本发明的第七个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种通讯方法,包括:
从终端设备上采集通讯录文本;其中,所述通讯录文本中存储有至少一个联系人;
利用所述通讯录文本作为训练语料进行语言模型的训练,得到所述终端设备对应的目标语言模型;
从所述终端设备上采集用于呼叫目标联系人的语音;
基于所述目标语言模型对所述语音进行识别,得到所述目标联系人发送给终端设备进行呼叫。
本发明实施例的通讯方法,通过从终端设备上采集通讯录文本,其中,通讯录文本中存储有至少一个联系人,利用通讯录文本作为训练语料进行语言模型的训练,得到终端设备对应的目标语言模型,从终端设备上采集用于呼叫目标联系人的语音,基于与终端设备对应的目标语言模型对语音进行识别,得到目标联系人发送给终端设备进行呼叫。本实施例中,利用从终端设备上采集的通讯录文本作为训练语料进行语言模型的训练,得到与终端设备对应的目标语言模型,从而用该语言模型对呼叫目标联系人的语音进行识别时,能够准确识别出目标联系人并准确拨打目标联系人,解决了由于同音不同字,可能会存在将人名识别错误,进而错误拨打联系人的问题,提高了对联系人的识别准确率,进而提高了正确拨打联系人的概率。
为达上述目的,本发明第二方面实施例提出了一种通讯方法,包括:
向语音识别设备发送通讯录文本;其中,所述通讯录文本中存储有至少一个联系人;
采集用户用于呼叫目标联系人的语音并发送给所述语音识别设备进行识别;
接收所述语音识别设备返回的所述目标联系人;所述目标联系人是由所述语音识别设备通过目标语言模型识别出的,所述目标语言模型为利用所述通讯录文本进行语言模型的训练得到的;
呼叫所述目标联系人。
本发明实施例的通讯方法,通过向语音识别设备发送通讯录文本,采集用户用于呼叫目标联系人的语音并发送给语音识别设备进行识别,接收语音识别设备返回的目标联系人,并呼叫目标联系人,其中,目标联系人是由语音识别设备通过目标语言模型识别出的,目标语言模型为利用通讯录文本进行语言模型的训练得到的。本实施例中,利用通讯录文本作为训练语料进行语言模型的训练,得到目标语言模型,从而语音识别设备通过目标语言模型对呼叫目标联系人的语音进行识别,能够准确识别出目标联系人并准确拨打目标联系人,解决了由于同音不同字,可能会存在将人名识别错误,进而错误拨打联系人的问题,提高了对联系人的识别准确率,进而提高了正确拨打联系人的概率。
为达上述目的,本发明第三方面实施例提出了一种语音识别设备,包括:
第一采集模块,用于从终端设备上采集通讯录文本;其中,所述通讯录文本中存储有至少一个联系人;
训练模块,用于利用所述通讯录文本作为训练语料进行语言模型的训练,得到所述终端设备对应的目标语言模型;
第二采集模块,用于从所述终端设备上采集用于呼叫目标联系人的语音;
识别模块,用于基于所述目标语言模型对所述语音进行识别,得到所述目标联系人发送给终端设备进行呼叫。
本发明实施例的语音识别设备,通过从终端设备上采集通讯录文本,其中,通讯录文本中存储有至少一个联系人,利用通讯录文本作为训练语料进行语言模型的训练,得到终端设备对应的目标语言模型,从终端设备上采集用于呼叫目标联系人的语音,基于与终端设备对应的目标语言模型对语音进行识别,得到目标联系人发送给终端设备进行呼叫。本实施例中,利用从终端设备上采集的通讯录文本作为训练语料进行语言模型的训练,得到与终端设备对应的目标语言模型,从而用该语言模型对呼叫目标联系人的语音进行识别时,能够准确识别出目标联系人并准确拨打目标联系人,解决了由于同音不同字,可能会存在将人名识别错误,进而错误拨打联系人的问题,提高了对联系人的识别准确率,进而提高了正确拨打联系人的概率。
为了实现上述目的,本发明第四方面实施例提出了一种终端设备,包括:
发送模块,用于向语音识别设备发送通讯录文本;其中,所述通讯录文本中存储有至少一个联系人;
采集发送模块,用于采集用户用于呼叫目标联系人的语音并发送给所述语音识别设备进行识别;
接收模块,用于接收所述语音识别设备返回的所述目标联系人;所述目标联系人是由所述语音识别设备通过目标语言模型识别出的,所述目标语言模型为利用所述通讯录文本进行语言模型的训练得到的;
呼叫模块,用于呼叫所述目标联系人。
本发明实施例的终端设备,通过向语音识别设备发送通讯录文本,采集用户用于呼叫目标联系人的语音并发送给语音识别设备进行识别,接收语音识别设备返回的目标联系人,并呼叫目标联系人,其中,目标联系人是由语音识别设备通过目标语言模型识别出的,目标语言模型为利用通讯录文本进行语言模型的训练得到的。本实施例中,利用通讯录文本作为训练语料进行语言模型的训练,得到目标语言模型,从而语音识别设备通过目标语言模型对呼叫目标联系人的语音进行识别,能够准确识别出目标联系人并准确拨打目标联系人,解决了由于同音不同字,可能会存在将人名识别错误,进而错误拨打联系人的问题,提高了对联系人的识别准确率,进而提高了正确拨打联系人的概率。
为了实现上述目的,本发明第五方面实施例提出了一种计算设备,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的通讯方法,或者实现如第二方面实施例所述的通讯方法。
为了实现上述目的,本发明第六方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时实现如第二方面实施例所述的通讯方法,或者实现如第二方面实施例所述的通讯方法。
为了实现上述目的,本发明第七方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的通讯方法,或者实现如第二方面实施例所述的通讯方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种通讯方法的流程示意图;
图2为本发明实施例提供的另一种通讯方法的流程示意图;
图3为本发明实施例提供的又一种通讯方法的流程示意图;
图4为本发明实施例提供的实现通讯方法的过程示意图;
图5为本发明实施例提供的再一种通讯方法的流程示意图;
图6为本发明实施例提供的一种语音识别设备的结构示意图;
图7为本发明实施例提供的一种终端设备的结构示意图;
图8为适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的通讯方法、语音识别设备和终端设备。
下面从语音识别设备侧,描述本发明实施例提出的一种通讯方法。图1为本发明实施例提供的一种通讯方法的流程示意图。
如图1所示,该通讯方法包括以下步骤:
步骤101,从终端设备上采集通讯录文本;其中,通讯录文本中存储有至少一个联系人。
本实施例中,可将手机、平板电脑、智能手表等具有拨打联系人功能的终端设备上的通讯录文本,通过无线或者有线的方式,发送给语音识别设备。
可以理解的是,通讯录文本可以是电话通讯录文本、QQ中的通讯录文本、微信通讯录文本等等,其中,通讯录文本中存储有至少一个联系人,包括但不限于联系人的名字、工作地址、邮箱等信息。
当然,终端设备也可将联系人的名字、电话号码、QQ号码、微信号等信息整合后,形成一个通讯录文本,发送给语音识别设备。
步骤102,利用通讯录文本作为训练语料进行语言模型的训练,得到终端设备对应的目标语言模型。
本实施例中,语音识别设备根据接收到的通讯录文本,从通讯录文本中提取出联系人的名字,作为训练语料进行语言模型的训练,以得到与终端设备对应的目标语言模型。
步骤103,从终端设备上采集用于呼叫目标联系人的语音。
本实施例中,当用户在终端设备上输入呼叫目标联系人的语音时,如“给XXX打电话”,终端设备可通过麦克风采集呼叫联系人的语音,并发送给语音识别设备。
步骤104,基于目标语言模型对语音进行识别,得到目标联系人发送给终端设备进行呼叫。
语音识别设备接收到待识别的语音后,通过与终端设备对应的目标语言模型对语音进行识别,得到目标联系人的名字,并将目标联系人发送给终端设备,终端设备接收到目标联系人后,根据目标联系人的名字,提取到对应的电话号码,或者QQ号码等进行拨打。
本实施例中,通过将从终端设备上采集的通讯录文本作为训练语料,对语言模型进行训练,得到与终端设备对应的目标语言模型,从而在对呼叫目标联系人的语音进行识别时,可以准确地识别出目标联系人的名字,进而准确地拨打目标联系人。
下面介绍语音识别设备从一个或多个终端设备上采集通讯录文本,并训练得到与每个终端设备对应的目标语言模型的情况。图2为本发明实施例提供的另一种通讯方法的流程示意图。
如图2所示,该通讯方法包括以下步骤:
步骤201,从终端设备上采集通讯录文本和终端设备的标识信息。
本实施例中,在从一个或多个终端设备上采集通讯录文本时,同时采集终端设备的标识信息。其中,终端设备的标识信息用于表示终端设备的唯一性,包括但不限于用户识别号(Called User Identification number,简称CUID)、国际移动用户识别码(International Mobile Subscriber Identification Number,简称IMSI)等等。
步骤202,对通讯录文本进行处理,获取到通讯录文本的编码数据。
由于采集的通讯录文本可能包含非法字符,为了提高训练语料的质量,提高目标语言模型的识别准确率,可先对训练语料进行预处理。具体地,对通讯录文本进行大小转换写、简繁体转换、去除非法字符等处理,得到只有汉字、字母等预先定义的合法字符的文本。
然后,对预处理后的每个字符进行编码,使每个字符都有唯一的编号,从而得到每个字符的编码数据。其中,编码数据中携带有字符在通讯录文本中的位置信息。
步骤203,利用编码数据进行语言模型的训练,得到目标语言模型。
本实施例中,在语音识别设备中,可能具有原始语言模型,即默认的语言模型时,针对每个终端设备,利用编码数据可对原始语言模型进行更新训练或者重新训练,得到与终端设备对应的目标语言模型。
其中,训练得到的目标语言模型用于获取每个字符的相关字符的位置信息,如编号,以及每个相关字符出现在字符后面的第一概率。
步骤204,建立目标语言模型与标识信息之间的映射关系。
针对每个终端设备训练得到目标语言模型,为了便于查找与终端设备对应的目标语言模型,语音识别设备建立目标语言模型与终端设备的标识之间的映射关系。
步骤205,从终端设备上采集用于呼叫目标联系人的语音。
当用户在某终端设备上输入呼叫目标联系人的语音时,终端设备可通过麦克风采集呼叫目标联系人的语音,并发送给语音识别设备,从而使语音识别设备从终端设备上采集到用于呼叫目标联系人的语音。
步骤206,从语音中提取终端设备的标识信息。
语音识别设备接收到终端设备发送的语音后,可从语音中提取出发送语音的终端设备的标识信息。
步骤207,利用与终端设备的标识信息匹配的目标语言模型替换解码器中的原始语言模型。
语音识别设备根据终端设备的标识信息,查询目标语言模型与标识之间的映射关系,从一个或多个目标语言模型中,查找与终端设备的标识信息匹配的目标语言模型,以获取与终端设备对应的目标语言模型。
步骤208,基于与终端设备的标识匹配的目标语言模型进行语音识别,得到目标联系人发送给终端设备进行呼叫。
在获取到与终端设备的标识匹配的目标语言模型后,基于此目标语言模型,对从与此目标语言模型对应的终端设备上,采集的呼叫目标联系人的语音进行识别。
具体地,利用目标语言模型对待识别的语音进行识别,获取语音的当前语音帧的第一识别字符,以及第一识别字符的相关字符的位置信息。然后,利用第一识别字符的相关字符的位置信息和相关字符的第一概率,预测得到语音的下一语音帧的预测字符。
进一步地,提取下一语音帧的语音特征,如梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients,简称MFCC),即MFCC特征。之后,根据提取的语音特征对预测字符进行更新,以提高预测的准确率,得到下一语音帧的第二识别字符以及第二识别字符的相关字符的位置信息,直到对语音的最后一语音帧识别完成,得到目标联系人,即目标联系人的名字。
在识别得到目标联系人后,将目标联系人反馈给终端设备。终端设备接收到目标联系人后,根据目标联系人提取存储的目标联系人的手机号码、或者QQ号码、或者微信号码等,对目标联系人进行呼叫。
举例来说,若用户打开手机上拨打电话的界面后,语音输入“给XXX打电话”,手机将采集的语音发送给语音识别设备,语音识别设备根据语音中手机的标识信息,查找与手机对应的目标语言模型替换原始语言模型并进行语音识别,得到目标联系人,语音识别设备将目标联系人发送给手机,在手机接收到语音识别设备发送的目标联系人后,根据目标联系人提取对应手机号码,并进行拨打。
又如,若用户打开手机上应用程序的聊天界面,如百度hi,语音输入“呼叫XXX进行视频”,手机将采集的语音发送给语音识别设备进行识别。语音识别设备根据语音中手机的标识信息,查找与手机对应的目标语言模型进语音识别,得到目标联系人,并发送给手机。手机接收到目标联系人后,从用户的百度hi通讯录中查找目标联系人的账号,并进行视频呼叫。
本发明实施例的通讯方法,当语音识别设备对某终端设备上采集的呼叫目标联系人的语音进行识别时,可根据该终端设备的标识信息,通过查询目标语言模型与终端设备标识之间的映射关系,查找与该终端设备对应的目标语言模型,从而根据与终端设备对应的目标语言模型,对呼叫目标联系人的语音进行识别,可以准确地识别出该终端设备上的目标联系人,解决了现有的由于不同终端设备上通讯录不同,可能存在同音不同字的情况,从而可能会导致将人名识别错误的问题。本实施例中,针对不同的终端设备不再采用默认的语言模型进行语音识别,提高了识别的准确率。
为了减少编码数据对语音识别设备内存的占用,可将编码数据缓存到读取平台中,下面通过又一个实施例,描述本发明实施例提出的通讯方法。图3为本发明实施例提供的又一种通讯方法的流程示意图。
如图3所示,该通讯方法包括以下步骤:
步骤301,从终端设备上采集通讯录文本;其中,通讯录文本中存储有至少一个联系人。
本实施例中,通讯录文本可以是电话通讯录文本、QQ中的通讯录文本、微信通讯录文本等等,其中,通讯录文本中存储有至少一个联系人,包括但不限于联系人的名字、电话号码等信息。
当然,终端设备也可将联系人的名字、电话号码、QQ号码、微信号等信息整合后,形成一个通讯录文本,发送给语音识别设备。如图4所示,终端设备将通讯录文本发送给语音识别设备。其中,图4中实线表示上传过程,虚线表示识别过程。
步骤302,对通讯录文本进行处理,获取到通讯录文本的编码数据。
由于采集的通讯录文本可能包含非法字符,为了提高训练语料的质量,提高目标语言模型的识别准确率,可先对训练语料进行预处理。具体地,对通讯录文本进行大小转换写、简繁体转换、去除非法字符等处理,得到只有汉字、字母等预先定义的合法字符的文本。
然后,对预处理后的每个字符进行编码,使每个字符都有唯一的编号,从而得到每个字符的编码数据。其中,编码数据中携带有字符在通讯录文本中的位置信息。
步骤303,将编码数据缓存到读取平台中。
语音识别设备获取通讯录文本的编码数据后,如图4所示,将编码数据缓存到读取平台中进行存储,可减少编码数据对语音识别设备存储空间的占用。
步骤304,从终端设备上采集用于呼叫目标联系人的语音。
某时刻,用户在终端设备上输入呼叫目标联系人的语音,以对目标联系人拨打电话,这时,终端设备可通过麦克风采集呼叫目标联系人的语音。如图4所示,终端设备将采集的呼叫目标联系人的语音发送给语音识别设备。
步骤305,从语音中提取终端设备的标识信息。
语音识别设备接收到终端设备发送的语音后,可从语音中提取出发送语音的终端设备的标识信息。
步骤306,根据标识信息,从读取平台中读取与标识对应的编码数据。
如图4所示,语音识别设备根据标识信息,从读取平台中读取与终端设备的标识如CUID对应的编码数据,也就是读取与终端设备对应的编码数据。
步骤307,利用编码数据进行语言模型的训练,得到终端设备对应的目标语言模型。
本实施例中,利用与终端设备对应的编码数据进行语言模型的训练,得到与终端设备对应的目标语言模型。其中,训练得到的目标语言模型用于获取每个字符的相关字符的位置信息,如编号,以及每个相关字符出现在字符后面的第一概率。
步骤308,基于终端设备对应的目标语言模型进行语音识别,得到目标联系人发送给终端设备进行呼叫。
在训练得到与终端设备对应的目标语言模型后,基于此目标语言模型,对从终端设备上采集的呼叫目标联系人的语音进行识别。具体的识别过程可参见上述实施例中记载的相关内容。在识别得到目标联系人后,如图4所示,语音识别设备将目标联系人发送给终端设备,终端设备接收到的根据目标联系人,对其进行呼叫。
可以理解的是,可对从多个终端设备上采集的通讯录文本分别进行处理,获得与终端设备对应的编码数据,然后根据终端设备的标识信息,将编码数据缓存到读取平台中,从而在语音识别设备对某个终端设备上采集的呼叫目标联系人的语音首次进行识别时,先根据终端设备的标识信息,从读取平台中读取与终端设备对应的编码数据,对编码数据进行语言模型的训练,得到与终端设备对应的目标语言模型,最终利用目标语言模型对采集的呼叫目标联系人的语音进行识别。
当语音识别设备再次对从该终端设备采集的呼叫目标联系人的语音进行识别时,可根据已训练好的目标语言模型进行识别。
本发明实施例的通讯方法,通过将编码数据缓存到读取平台中,节省了语音识别设备的内存,并且能够实现语音识别设备对从终端设备上采集的呼叫目标联系人的语音中,准确地识别出目标联系人,并准确拨打目标联系人。
本发明实施例的通讯方法,通过从终端设备上采集通讯录文本,其中,通讯录文本中存储有至少一个联系人,利用通讯录文本作为训练语料进行语言模型的训练,得到终端设备对应的目标语言模型,从终端设备上采集用于呼叫目标联系人的语音,基于与终端设备对应的目标语言模型对语音进行识别,得到目标联系人发送给终端设备进行呼叫。本实施例中,利用从终端设备上采集的通讯录文本作为训练语料进行语言模型的训练,得到与终端设备对应的目标语言模型,从而用该语言模型对呼叫目标联系人的语音进行识别时,能够准确识别出目标联系人并准确拨打目标联系人,解决了由于同音不同字,可能会存在将人名识别错误,进而错误拨打联系人的问题,提高了对联系人的识别准确率,进而提高了正确拨打联系人的概率。
为了实现上述实施例,本发明还提出一种通讯方法。下面从终端设备侧,描述本发明实施例提供的一种通讯方法。图5为本发明实施例提供的再一种通讯方法的流程示意图。
如图5所示,该通讯方法包括:
步骤501,向语音识别设备发送通讯录文本;其中,通讯录文本中存储有至少一个联系人。
本实施例中,终端设备可将本地存储的通讯录文本,如电话通讯录文本、QQ通讯录文本、百度hi通讯录文本等等,发送给语音识别设备。其中,通讯录文本中存储有至少一个联系人,包括但不限于联系人的名字、电话号码等信息。
步骤502,采集用户用于呼叫目标联系人的语音并发送给语音识别设备进行识别。
当用户在终端设备上输入呼叫目标联系人的语音时,终端设备可通过麦克风采集用户输入的呼叫目标联系人的语音,并发送给语音识别设备进行识别。语音识别设备接收到待识别的语音后,根据与终端设备对应的目标语言模型对语音进行识别,得到目标联系人,并返回给终端设备。其中,目标语言模型是语音识别设备利用预先从终端设备上采集的通讯录文本进行语言模型的训练得到的。
步骤503,接收语音识别设备返回的目标联系人。
步骤504,呼叫目标联系人。
终端设备可根据目标联系人,从通讯录文本中查找目标联系人并进行呼叫。
本发明实施例的通讯方法,通过向语音识别设备发送通讯录文本,采集用户用于呼叫目标联系人的语音并发送给语音识别设备进行识别,接收语音识别设备返回的目标联系人,并呼叫目标联系人,其中,目标联系人是由语音识别设备通过目标语言模型识别出的,目标语言模型为利用通讯录文本进行语言模型的训练得到的。本实施例中,利用通讯录文本作为训练语料进行语言模型的训练,得到目标语言模型,从而语音识别设备通过目标语言模型对呼叫目标联系人的语音进行识别,能够准确识别出目标联系人并准确拨打目标联系人,解决了由于同音不同字,可能会存在将人名识别错误,进而错误拨打联系人的问题,提高了对联系人的识别准确率,进而提高了正确拨打联系人的概率。
为了实现上述实施例,本发明还提出一种语音识别设备。图6为本发明实施例提供的一种语音识别设备的结构示意图。
如图6所示,该语音识别设备包括:第一采集模块610、训练模块620、第二采集模块630、识别模块640。
其中,第一采集模块610用于从终端设备上采集通讯录文本;其中,通讯录文本中存储有至少一个联系人。
训练模块620用于利用通讯录文本作为训练语料进行语言模型的训练,得到终端设备对应的目标语言模型。
第二采集模块630用于从终端设备上采集用于呼叫目标联系人的语音。
识别模块640用于基于目标语言模型对所述语音进行识别,得到目标联系人发送给终端设备进行呼叫。
需要说明的是,前述对从语音识别设备侧描述的通讯方法实施例的解释说明,也适用于该实施例的语音识别设备,故在此不再赘述。
本发明实施例的语音识别设备,通过从终端设备上采集通讯录文本,其中,通讯录文本中存储有至少一个联系人,利用通讯录文本作为训练语料进行语言模型的训练,得到终端设备对应的目标语言模型,从终端设备上采集用于呼叫目标联系人的语音,基于与终端设备对应的目标语言模型对语音进行识别,得到目标联系人发送给终端设备进行呼叫。本实施例中,利用从终端设备上采集的通讯录文本作为训练语料进行语言模型的训练,得到与终端设备对应的目标语言模型,从而用该语言模型对呼叫目标联系人的语音进行识别时,能够准确识别出目标联系人并准确拨打目标联系人,解决了由于同音不同字,可能会存在将人名识别错误,进而错误拨打联系人的问题,提高了对联系人的识别准确率,进而提高了正确拨打联系人的概率。
为了实现上述实施例,本发明还提出一种终端设备。图7为本发明实施例提供的一种终端设备的结构示意图。
如图7所示,该终端设备包括:发送模块710、采集发送模块720、接收模块730、呼叫模块740。
其中,发送模块710用于向语音识别设备发送通讯录文本;其中,通讯录文本中存储有至少一个联系人。
采集发送模块720用于采集用户用于呼叫目标联系人的语音并发送给语音识别设备进行识别。
接收模块730用于接收语音识别设备返回的目标联系人;目标联系人是由语音识别设备通过目标语言模型识别出的,目标语言模型为利用通讯录文本进行语言模型的训练得到的。
呼叫模块740用于呼叫目标联系人。
本发明实施例的终端设备,通过向语音识别设备发送通讯录文本,采集用户用于呼叫目标联系人的语音并发送给语音识别设备进行识别,接收语音识别设备返回的目标联系人,并呼叫目标联系人,其中,目标联系人是由语音识别设备通过目标语言模型识别出的,目标语言模型为利用通讯录文本进行语言模型的训练得到的。本实施例中,利用通讯录文本作为训练语料进行语言模型的训练,得到目标语言模型,从而语音识别设备通过目标语言模型对呼叫目标联系人的语音进行识别,能够准确识别出目标联系人并准确拨打目标联系人,解决了由于同音不同字,可能会存在将人名识别错误,进而错误拨打联系人的问题,提高了对联系人的识别准确率,进而提高了正确拨打联系人的概率。
为了实现上述实施例,本发明还提出一种计算机设备,包括处理器和存储器。
其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述从语音识别设备侧描述的所述通讯方法,或者实现如前述从终端设备侧描述的所述通讯方法。
图8示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图8显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图8未显示,通常称为“硬盘驱动器”)。尽管图8中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
为实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令由处理器执行时实现如前述实施例从语音识别设备侧描述的通讯方法,或者实现如前述实施例从终端设备侧描述的通讯方法。
为实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述从语音识别设备侧描述的通讯方法,实现如前述从终端设备侧描述的通讯方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (13)
1.一种通讯方法,其特征在于,包括:
从终端设备上采集通讯录文本;其中,所述通讯录文本中存储有至少一个联系人;
利用所述通讯录文本作为训练语料进行语言模型的训练,得到所述终端设备对应的目标语言模型;
从所述终端设备上采集用于呼叫目标联系人的语音;
基于所述目标语言模型对所述语音进行识别,得到所述目标联系人发送给终端设备进行呼叫。
2.根据权利要求1所述的方法,其特征在于,所述利用所述通讯录文本作为训练语料进行语言模型的训练,得到所述终端设备对应的目标语言模型,包括:
对所述通讯录文本进行处理,获取到所述通讯录文本的编码数据;其中,所述编码数据中携带字符在所述通讯录文本中位置信息;
利用所述编码数据进行语言模型的训练,得到所述目标语言模型;其中,目标语言模型用于获取每个字符的相关字符的位置信息以及每个相关字符出现在所述字符后面的第一概率。
3.根据权利要求2所述的方法,其特征在于,还包括:
在从终端设备上采集用户的通讯录文本时,获取所述终端设备的标识信息;
所述利用所述编码数据进行语言模型的训练,以得到所述目标语言模型之后,还包括:
建立所述目标语言模型与所述标识信息之间的映射关系。
4.根据权利要求3所述的方法,其特征在于,所述基于所述目标语言模型对所述语音进行识别之前,还包括:
从所述语音中提取所述终端设备的标识信息;
根据所述终端设备的标识信息,查询所述映射关系,获取与所述终端设备的标识信息匹配的所述目标语言模型;
利用与所述终端设备的标识信息匹配的所述目标语言模型替换解码器中的原始语言模型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述目标语言模型对所述语音进行识别,得到所述目标联系人发送给终端设备进行呼叫,包括:
将所述语音输入到所述解码器中;
利用所述目标语言模型对所述语音进行识别,获取所述语音的当前语音帧的第一识别字符以及所述第一识别字符的相关字符的位置信息;
根据所述第一识别字符的相关字符的位置信息和所述相关字符的所述第一概率,预测得到所述语音的下一语音帧的预测字符;
提取所述下一语音帧的语音特征对所述预测字符进行更新,得到所述下一语音帧的第二识别字符以及所述第二识别字符的相关字符的位置信息,直到对所述语音的最后一语音帧识别完成后,得到所述目标联系人;
将所述目标联系人反馈给所述终端设备,以使所述终端设备发起对所述目标联系人的呼叫。
6.根据权利要求2所述的方法,其特征在于,所述对所述通讯录文本进行处理,获取到所述通讯录文本的编码数据之后,还包括:
将所述编码数据缓存到读取平台中;
所述利用所述编码数据进行语言模型的训练,得到所述目标语言模型,包括:
从所述读取平台中读取所述编码数据;
利用所述编码数据进行语言模型的训练,得到所述目标语言模型。
7.一种通讯方法,其特征在于,包括:
向语音识别设备发送通讯录文本;其中,所述通讯录文本中存储有至少一个联系人;
采集用户用于呼叫目标联系人的语音并发送给所述语音识别设备进行识别;
接收所述语音识别设备返回的所述目标联系人;所述目标联系人是由所述语音识别设备通过目标语言模型识别出的,所述目标语言模型为利用所述通讯录文本进行语言模型的训练得到的;
呼叫所述目标联系人。
8.根据权利要求7所述的方法,其特征在于,还包括:
向所述语音识别设备发送所述通信录文本时,同时发送终端设备的标识信息。
9.一种语音识别设备,其特征在于,包括:
第一采集模块,用于从终端设备上采集通讯录文本;其中,所述通讯录文本中存储有至少一个联系人;
训练模块,用于利用所述通讯录文本作为训练语料进行语言模型的训练,得到所述终端设备对应的目标语言模型;
第二采集模块,用于从所述终端设备上采集用于呼叫目标联系人的语音;
识别模块,用于基于所述目标语言模型对所述语音进行识别,得到所述目标联系人发送给终端设备进行呼叫。
10.一种终端设备,其特征在于,包括:
发送模块,用于向语音识别设备发送通讯录文本;其中,所述通讯录文本中存储有至少一个联系人;
采集发送模块,用于采集用户用于呼叫目标联系人的语音并发送给所述语音识别设备进行识别;
接收模块,用于接收所述语音识别设备返回的所述目标联系人;所述目标联系人是由所述语音识别设备通过目标语言模型识别出的,所述目标语言模型为利用所述通讯录文本进行语言模型的训练得到的;
呼叫模块,用于呼叫所述目标联系人。
11.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-6中任一所述的通讯方法,或者实现如权利要求7-8中任一所述的通讯方法。
12.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时实现如权利要求1-6中任一所述的通讯方法,或者实现如权利要求7-8中任一所述的通讯方法。
13.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的通讯方法,实现如权利要求7-8中任一所述的通讯方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711364939.6A CN108122555B (zh) | 2017-12-18 | 2017-12-18 | 通讯方法、语音识别设备和终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711364939.6A CN108122555B (zh) | 2017-12-18 | 2017-12-18 | 通讯方法、语音识别设备和终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108122555A true CN108122555A (zh) | 2018-06-05 |
CN108122555B CN108122555B (zh) | 2021-07-23 |
Family
ID=62230202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711364939.6A Active CN108122555B (zh) | 2017-12-18 | 2017-12-18 | 通讯方法、语音识别设备和终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108122555B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108986790A (zh) * | 2018-09-29 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 语音识别联系人的方法和装置 |
CN110246493A (zh) * | 2019-05-06 | 2019-09-17 | 百度在线网络技术(北京)有限公司 | 通讯录联系人查找方法、装置及存储介质 |
CN111798856A (zh) * | 2020-07-07 | 2020-10-20 | 云知声智能科技股份有限公司 | 基于移动终端的语音录入方法及装置、移动终端、服务器和存储介质 |
CN112165557A (zh) * | 2020-08-24 | 2021-01-01 | 浙江智源企业服务有限公司 | 一种支持多种方言的外呼*** |
CN112182170A (zh) * | 2020-09-10 | 2021-01-05 | 五邑大学 | 一种远程交互*** |
CN113470631A (zh) * | 2021-06-28 | 2021-10-01 | 北京小米移动软件有限公司 | 语音信号处理方法及装置、电子设备及存储介质 |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133235A1 (en) * | 2006-12-01 | 2008-06-05 | Simoneau Laurent | Method to train the language model of a speech recognition system to convert and index voicemails on a search engine |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
CN101379550A (zh) * | 2006-02-06 | 2009-03-04 | 日本电气株式会社 | 语音识别设备、语音识别方法、以及用于识别语音的程序 |
CN102497481A (zh) * | 2011-12-02 | 2012-06-13 | 深圳市车音网科技有限公司 | 语音拨号方法、装置及*** |
CN102722525A (zh) * | 2012-05-15 | 2012-10-10 | 北京百度网讯科技有限公司 | 通讯录人名的语言模型建立方法、语音搜索方法及其*** |
CN102902362A (zh) * | 2011-07-25 | 2013-01-30 | 腾讯科技(深圳)有限公司 | 文字输入方法及*** |
CN103065630A (zh) * | 2012-12-28 | 2013-04-24 | 安徽科大讯飞信息科技股份有限公司 | 用户个性化信息语音识别方法及*** |
CN103903619A (zh) * | 2012-12-28 | 2014-07-02 | 安徽科大讯飞信息科技股份有限公司 | 一种提高语音识别准确率的方法及*** |
CN103971679A (zh) * | 2014-05-28 | 2014-08-06 | 锤子科技(北京)有限公司 | 一种联系人语音搜索方法、装置及移动终端 |
CN104079711A (zh) * | 2013-03-29 | 2014-10-01 | 上海城际互通通信有限公司 | 一种基于语音识别的呼叫方法 |
WO2014172635A1 (en) * | 2013-04-18 | 2014-10-23 | Nuance Communications, Inc. | Updating population language models based on changes made by user clusters |
US20150081293A1 (en) * | 2013-09-19 | 2015-03-19 | Maluuba Inc. | Speech recognition using phoneme matching |
CN104751848A (zh) * | 2013-12-25 | 2015-07-01 | 三亚中兴软件有限责任公司 | 通话声音识别方法及装置 |
US20150262581A1 (en) * | 2013-05-13 | 2015-09-17 | Google Inc. | Multiple Recognizer Speech Recognition |
CN105027197A (zh) * | 2013-03-15 | 2015-11-04 | 苹果公司 | 训练至少部分语音命令*** |
CN105489220A (zh) * | 2015-11-26 | 2016-04-13 | 小米科技有限责任公司 | 语音识别方法及装置 |
CN105869635A (zh) * | 2016-03-14 | 2016-08-17 | 江苏时间环三维科技有限公司 | 一种语音识别方法及*** |
CN105895103A (zh) * | 2015-12-03 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 一种语音识别方法及装置 |
CN106095742A (zh) * | 2016-06-20 | 2016-11-09 | 北京金山安全软件有限公司 | 一种文本内容生成方法与服务器 |
CN106448669A (zh) * | 2016-10-17 | 2017-02-22 | 珠海格力电器股份有限公司 | 一种结合手机通讯录和语音识别的控制方法及*** |
CN106487976A (zh) * | 2016-10-28 | 2017-03-08 | 努比亚技术有限公司 | 移动终端拨号装置和方法 |
-
2017
- 2017-12-18 CN CN201711364939.6A patent/CN108122555B/zh active Active
Patent Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101379550A (zh) * | 2006-02-06 | 2009-03-04 | 日本电气株式会社 | 语音识别设备、语音识别方法、以及用于识别语音的程序 |
US20080133235A1 (en) * | 2006-12-01 | 2008-06-05 | Simoneau Laurent | Method to train the language model of a speech recognition system to convert and index voicemails on a search engine |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
CN102902362A (zh) * | 2011-07-25 | 2013-01-30 | 腾讯科技(深圳)有限公司 | 文字输入方法及*** |
CN102497481A (zh) * | 2011-12-02 | 2012-06-13 | 深圳市车音网科技有限公司 | 语音拨号方法、装置及*** |
CN102722525A (zh) * | 2012-05-15 | 2012-10-10 | 北京百度网讯科技有限公司 | 通讯录人名的语言模型建立方法、语音搜索方法及其*** |
CN103065630A (zh) * | 2012-12-28 | 2013-04-24 | 安徽科大讯飞信息科技股份有限公司 | 用户个性化信息语音识别方法及*** |
CN103903619A (zh) * | 2012-12-28 | 2014-07-02 | 安徽科大讯飞信息科技股份有限公司 | 一种提高语音识别准确率的方法及*** |
CN105027197A (zh) * | 2013-03-15 | 2015-11-04 | 苹果公司 | 训练至少部分语音命令*** |
CN104079711A (zh) * | 2013-03-29 | 2014-10-01 | 上海城际互通通信有限公司 | 一种基于语音识别的呼叫方法 |
WO2014172635A1 (en) * | 2013-04-18 | 2014-10-23 | Nuance Communications, Inc. | Updating population language models based on changes made by user clusters |
US20150262581A1 (en) * | 2013-05-13 | 2015-09-17 | Google Inc. | Multiple Recognizer Speech Recognition |
CN105229728A (zh) * | 2013-05-13 | 2016-01-06 | 谷歌公司 | 多识别器语音识别 |
US20150081293A1 (en) * | 2013-09-19 | 2015-03-19 | Maluuba Inc. | Speech recognition using phoneme matching |
CN104751848A (zh) * | 2013-12-25 | 2015-07-01 | 三亚中兴软件有限责任公司 | 通话声音识别方法及装置 |
CN103971679A (zh) * | 2014-05-28 | 2014-08-06 | 锤子科技(北京)有限公司 | 一种联系人语音搜索方法、装置及移动终端 |
CN105489220A (zh) * | 2015-11-26 | 2016-04-13 | 小米科技有限责任公司 | 语音识别方法及装置 |
CN105895103A (zh) * | 2015-12-03 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 一种语音识别方法及装置 |
CN105869635A (zh) * | 2016-03-14 | 2016-08-17 | 江苏时间环三维科技有限公司 | 一种语音识别方法及*** |
CN106095742A (zh) * | 2016-06-20 | 2016-11-09 | 北京金山安全软件有限公司 | 一种文本内容生成方法与服务器 |
CN106448669A (zh) * | 2016-10-17 | 2017-02-22 | 珠海格力电器股份有限公司 | 一种结合手机通讯录和语音识别的控制方法及*** |
CN106487976A (zh) * | 2016-10-28 | 2017-03-08 | 努比亚技术有限公司 | 移动终端拨号装置和方法 |
Non-Patent Citations (2)
Title |
---|
JING ZHENG: ""Combing Discriminative feature and model training for large vocabulary Speech Recognition"", 《ICASSP》 * |
王玺源: ""基于HMM语音识别算法和IOS平台的移动客户端实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108986790A (zh) * | 2018-09-29 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 语音识别联系人的方法和装置 |
CN110246493A (zh) * | 2019-05-06 | 2019-09-17 | 百度在线网络技术(北京)有限公司 | 通讯录联系人查找方法、装置及存储介质 |
CN111798856A (zh) * | 2020-07-07 | 2020-10-20 | 云知声智能科技股份有限公司 | 基于移动终端的语音录入方法及装置、移动终端、服务器和存储介质 |
CN112165557A (zh) * | 2020-08-24 | 2021-01-01 | 浙江智源企业服务有限公司 | 一种支持多种方言的外呼*** |
CN112182170A (zh) * | 2020-09-10 | 2021-01-05 | 五邑大学 | 一种远程交互*** |
CN113470631A (zh) * | 2021-06-28 | 2021-10-01 | 北京小米移动软件有限公司 | 语音信号处理方法及装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108122555B (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108122555A (zh) | 通讯方法、语音识别设备和终端设备 | |
CN110288077B (zh) | 一种基于人工智能的合成说话表情的方法和相关装置 | |
CN110534092B (zh) | 语音音素识别方法和装置、存储介质及电子装置 | |
CN107945792A (zh) | 语音处理方法和装置 | |
CN205647778U (zh) | 一种智能会议*** | |
CN101981614A (zh) | 媒体处理服务器设备及其媒体处理方法 | |
CN110381221B (zh) | 呼叫处理方法、装置、***、设备和计算机存储介质 | |
CN110149805A (zh) | 双向语音翻译***、双向语音翻译方法和程序 | |
WO2018108013A1 (zh) | 一种媒体显示方法及终端 | |
JP2001273283A (ja) | 言語を識別しかつ音声再生装置を制御する方法及び通信デバイス | |
JP6233798B2 (ja) | データを変換する装置及び方法 | |
CN110033760A (zh) | 语音识别的建模方法、装置及设备 | |
CN101473636A (zh) | 用于检索信息的方法和*** | |
CN101437195A (zh) | 使用通信设备的化身控制 | |
CN104468959A (zh) | 移动终端通话过程中显示图像的方法、装置及移动终端 | |
CN108197572A (zh) | 一种唇语识别方法和移动终端 | |
US20180288109A1 (en) | Conference support system, conference support method, program for conference support apparatus, and program for terminal | |
CN110427455A (zh) | 一种客服服务方法、装置和存储介质 | |
CN109327614B (zh) | 全球同声传译手机及方法 | |
CN106713111A (zh) | 一种添加好友的处理方法、终端及服务器 | |
US9110888B2 (en) | Service server apparatus, service providing method, and service providing program for providing a service other than a telephone call during the telephone call on a telephone | |
WO2019156536A1 (ko) | 학습 데이터 중 식별 가능하지만 학습 가능성이 없는 데이터의 레이블화를 통한, 대화형 ai 에이전트 시스템을 위한 지식베이스 모델의 구축 또는 갱신 방법, 컴퓨터 장치, 및 컴퓨터 판독 가능 기록 매체 | |
CN111199160A (zh) | 即时通话语音的翻译方法、装置以及终端 | |
CN112201275A (zh) | 声纹分割方法、装置、设备及可读存储介质 | |
CN108364638A (zh) | 一种语音数据处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |