CN106534548A - 语音纠错方法和装置 - Google Patents

语音纠错方法和装置 Download PDF

Info

Publication number
CN106534548A
CN106534548A CN201611034174.5A CN201611034174A CN106534548A CN 106534548 A CN106534548 A CN 106534548A CN 201611034174 A CN201611034174 A CN 201611034174A CN 106534548 A CN106534548 A CN 106534548A
Authority
CN
China
Prior art keywords
error correction
text data
word
content
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611034174.5A
Other languages
English (en)
Other versions
CN106534548B (zh
Inventor
刘迪源
刘聪
王智国
胡国平
潘嘉
潘青华
黄鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201611034174.5A priority Critical patent/CN106534548B/zh
Publication of CN106534548A publication Critical patent/CN106534548A/zh
Application granted granted Critical
Publication of CN106534548B publication Critical patent/CN106534548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. short messaging services [SMS] or e-mails
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72439User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for image or video messaging

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种语音纠错方法和装置,该语音纠错方法包括:接收用户语音数据;确定当前纠错模式,所述纠错模式包括:语义纠错模式或者索引纠错模式;根据所述用户语音数据和所述当前纠错模式,对待纠错内容进行纠错;将纠错后的内容反馈给用户。该方法能够提高纠错准确度和适用范围,从而更好满足用户需求,提升用户体验。

Description

语音纠错方法和装置
技术领域
本申请涉及自然语言理解技术领域,尤其涉及一种语音纠错方法和装置。
背景技术
随着人工智能相关技术的日益成熟,越来越多的智能设备进入用户的生活中,人与机器的交互日渐平常。交互过程中使用频率最高的一般为语音交互,这种交互方式可以解放人的双手,从而受到用户的喜爱,如语音输入,语音对话。现在越来越多的智能设备提供语音纠错的功能,让用户可以使用语音对智能设备中的显示内容进行修改,进一步解放了人的双手,大大提高了用户体验。
相关技术中,语音纠错的方法一般是对文本数据进行纠错,具体纠错时,用户必须按照固定模式进行纠错,导致限制较多,纠错准确度较低,无法满足用户需求。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的一个目的在于提出一种语音纠错方法,该方法可以提高纠错准确度和适用范围,从而更好满足用户需求,提升用户体验。
本申请的另一个目的在于提出一种语音纠错装置。
为达到上述目的,本申请第一方面实施例提出的语音纠错方法,包括:接收用户语音数据;确定当前纠错模式,所述纠错模式包括:语义纠错模式或者索引纠错模式;根据所述用户语音数据和所述当前纠错模式,对待纠错内容进行纠错;将纠错后的内容反馈给用户。
本申请第一方面实施例提出的语音纠错方法,通过确定纠错模式,可以选择适合当前场景的纠错模式,从而提高纠错准确度;通过对待纠错内容进行纠错,不限于对文本数据进行处理,可以扩展适用范围;因此,通过提高纠错准确度和扩展适用范围,可以更好满足用户需求,提升用户体验。
为达到上述目的,本申请第二方面实施例提出的语音纠错装置,包括:接收模块,用于接收用户语音数据;确定模块,用于确定当前纠错模式,所述纠错模式包括:语义纠错模式或者索引纠错模式;纠错模块,用于根据所述用户语音数据和所述当前纠错模式,对待纠错内容进行纠错;反馈模块,用于将纠错后的内容反馈给用户。
本申请第二方面实施例提出的语音纠错装置,通过确定纠错模式,可以选择适合当前场景的纠错模式,从而提高纠错准确度;通过对待纠错内容进行纠错,不限于对文本数据进行处理,可以扩展适用范围;因此,通过提高纠错准确度和扩展适用范围,可以更好满足用户需求,提升用户体验。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例提出的语音纠错方法的流程示意图;
图2是本申请另一个实施例提出的语音纠错方法的流程示意图;
图3是本申请实施例中为待纠错文本数据中每个词构建索引的示意图;
图4是本申请实施例中待纠错文本数据及对应的候选词和候选索引的示意图;
图5是本申请一个实施例提出的语音纠错装置的结构示意图;
图6是本申请另一个实施例提出的语音纠错装置的结构示意图;
图7是本申请另一个实施例提出的语音纠错装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一个实施例提出的语音纠错方法的流程示意图。
如图1所示,本实施例的方法包括:
S11:接收用户语音数据。
所述用户语音数据一般为用户针对显示的错误内容进行纠错的语音数据,所述显示的错误内容如显示的错误文本数据,当然也可以为其它显示内容,如图像。
本实施例中,在语音纠错时,可以分为多种纠错模式,比如分别称为语义纠错模式和索引纠错模式,相应的,用户语音数据可以为语义纠错模式时的语音数据,也可以为索引纠错模式时的语音数据。
假设待纠错内容为文本数据,且该文本数据为“合肥到北京的火车票”,而用户想订的是南京到北京的火车票,则用户可以通过语音进行纠错,如用户说出语义纠错模式时的语音数据,如为“把合肥修改为南京”。索引纠错模式时的语音数据是索引,索引一般是数字编号,如用户说出“二点二”。
所述用户语音数据一般根据用户需要修改的内容确定,具体内容本申请不作限定。
S12:确定当前纠错模式,所述纠错模式包括:语义纠错模式或者索引纠错模式。
一些示例中,可以由***自动确定当前纠错模式。
一些示例中,可以由***接收用户选择的当前纠错模式。
进一步的,***自动确定当前纠错模式时,可以是***对用户的历史发音或当前发音或用户当前所处的环境进行分析,自动确定当前纠错模式;如用户发音较标准,用户所处的环境比较安静时,用户语音数据的质量较高,语义理解准确度较高,***可以自动确定当前纠错模式类型为语义纠错模式;反之如果用户发音不标准或者用户所处的环境噪声较大时,用户语音数据的质量较低,语义理解准确度不高,而数字的识别效果一般比对汉字的识别效果好,则***可以自动确定当前纠错模式类型为索引纠错模式。或者,
***自动确定当前纠错模式时,也可以是***根据用户历史选择的纠错模式,自动确定当前纠错模式;如用户历史通常选择语义纠错模式,则表明用户习惯使用语义纠错模式,则***可以自动确定当前纠错模式为语义纠错模式。
***接收用户选择的当前纠错模式时,例如,***将两种纠错模式作为选项,通过显示或语音播放等方式提供给用户,用户通过手势、语音或按键等操作选择当前纠错模式。
需要说明的是,虽然图1中S11和S12相互连接,但是这只是一种示例,在实际实施时,当前纠错模式可以与接收的用户语音数据有关,比如对接收的用户语音数据进行分析,判断发音是否标准,根据发音是否标准确定当前纠错模式,此时,S11和S12可以相互连接。或者,当前纠错模式也可以与接收的用户语音数据无关,比如,***自动分析用户当前所处的环境确定当前纠错模式时,或者根据用户选择确定当前纠错模式时,并非是根据接收的用户语音数据确定的当前纠错模式,此时,S11和S12并不相互连接,是分离的。
S13:根据所述用户语音数据和所述当前纠错模式,对待纠错内容进行纠错。
在语义纠错模式下,主要通过对用户语音数据进行语义理解后,根据语义理解结果对待纠错内容进行纠错。在索引纠错模式下,主要通过对待纠错内容建立索引,用户通过待纠错内容的索引进行纠错。
所述待纠错内容包括:文本数据和非文本数据,非文本数据包括但不限于:图像、视频、音频、应用程序。
在语义纠错模式下,用户语音数据一般是文本数据对应的语音数据。以图像为例,用户语音数据为“删掉第五张图像”或者“在第二张图像后中***一张林志玲的图像”等;以应用程序为例,用户语音数据可以为“关掉360浏览器,打开IE浏览器”等;在索引纠错模式下,如预先对显示的视频构建索引后,并显示出每个视频相应的候选索引,用户语音数据一般为候选索引对应的语音数据。
S14:将纠错后的内容反馈给用户。
比如,待纠错文本数据为“合肥到北京的火车票”,用户语音数据为“把合肥修改为南京”,则经过语音纠错后,将“南京到北京的火车票”反馈给用户。反馈可以通过内容显示或者语音播放等方式进行。
本实施例中,通过确定纠错模式,可以选择适合当前场景的纠错模式,从而提高纠错准确度;通过对待纠错内容进行纠错,不限于对文本数据进行处理,可以扩展适用范围;因此,通过提高纠错准确度和扩展适用范围,可以更好满足用户需求,提升用户体验。
图2是本申请另一个实施例提出的语音纠错方法的流程示意图。
本实施例以待纠错内容为待纠错文本数据为例。
如图2所示,本实施例的方法包括:
S21:接收用户语音数据。
S22:确定当前纠错模式,所述纠错模式包括:语义纠错模式或者索引纠错模式。
S21-S22的具体内容可以参见S11-S12,在此不再详述。
在不同的纠错模式下,将采用相应的纠错方法进行纠错。
具体的,在语义纠错模式下,执行S23-S24;之后执行S28。在索引纠错模式下,执行S25-S27;之后执行S28。
S23:对所述用户语音数据进行语音识别,得到用户语音数据对应的识别文本数据。
语音识别可以采用各种已有或将来出现的技术,在此不再详述。
S24:根据所述识别文本数据确定纠错信息,并根据所述纠错信息对待纠错文本数据进行纠错,得到纠错后的文本数据。
一些示例中,可以根据所述识别文本数据和预设的纠错规则,确定纠错信息,进而采用纠错信息进行纠错;该方法可以称为基于规则的方法。
一些示例中,可以提取所述识别文本数据和待纠错文本数据的纠错特征,根据所述纠错特征和预先构建的语音纠错模型,确定纠错信息,进而采用纠错信息进行纠错;该方法可以称为基于模型的方法。
所述纠错信息可以包括:错误词和纠错词;纠错词和纠错位置;错误词和纠错位置;或者,错误词、纠错词和纠错位置。
下面对上述两种方法分别进行说明。
方法一:基于规则的方法。
所述基于规则的方法通过预定义语音纠错的规则,根据所述纠错规则直接确定纠错信息。所述纠错规则可以根据应用需求预先确定,具体本申请不作限定。
以纠错规则包括三种为例,即替换性纠错规则、删除性纠错规则、及***性纠错规则,所述替换性纠错即需要将文本数据中错误词替换成相应纠错词;所述***性纠错即需要在文本数据中相应地方***纠错词;所述删除性纠错即需要将文本数据中错误词删除。如下为每种纠错规则实例,其中“**”表示错语词或纠错词,“/”前后表示两个词是或者的关系:
(1)替换性纠错规则:把/将**改成/修改成**
前一个“**”表示错误词,后一个“**”表示纠错词;
(2)***性纠错规则:在**后面/前面加入/加上**
“**后面/前面”表示纠错位置,该规则下具体是纠错词***的位置,后一个“**”表示纠错词;
(3)删除性纠错规则:删除/去掉**后面/前面的“**”
“**后面/前面”表示纠错位置,该规则下具体是错误词删除的位置,后一个“**”表示错误词。
在根据识别文本数据和纠错规则确定纠错信息时,可以根据所述识别文本数据确定当前适用的纠错规则,以及,对所述识别文本数据与所述当前适用的纠错规则进行匹配,确定纠错信息。
具体的,***先根据用户语音数据对应的识别文本数据判定当前适用的纠错规则,具体判定时,可以根据识别文本数据中关键词确定,如识别文本数据中包含“修改”、“替换”或“改成”等关键词时,则可以确定当前适用的纠错规则为替换性纠错规则;然后使用相应类型的纠错规则(如替换性纠错规则)与识别文本数据进行字符串匹配,确定出纠错信息。
在根据识别文本数据和纠错规则确定纠错信息时,也可以对所述识别文本数据与每种纠错规则进行匹配,确定纠错信息。即直接将识别文本数据与所有纠错规则依次进行匹配,将匹配上的纠错信息确定为最终采用的纠错信息。
确定出纠错信息后,可以依据该纠错信息对待纠错文本数据进行纠错。
具体纠错时,可以先确定纠错位置,比如纠错信息中包括错误词时,将错误词的位置作为纠错位置,或者直接获取纠错信息中包括的纠错位置;再在纠错位置进行相应处理,如在纠错位置替换上纠错词,或者,在纠错位置***纠错词,或者,在纠错位置删除错误词。
以下为基于规则的一些纠错示例:
(1)替换性纠错
待纠错文本数据:合肥到北京的火车票
用户语音数据对应的识别文本数据:把“合肥”修改为“南京”
纠错后的文本数据:南京到北京的火车票
(2)***性纠错
待纠错文本数据:我想去打篮球
用户语音数据对应的识别文本数据:打篮球前面加入东校区体育馆
纠错后的文本数据:我想去东校区体育馆打篮球
(3)删除性纠错
待纠错文本数据:我的电话是五一二六八八八八
用户语音数据对应的识别文本数据:删除一个八
纠错后的文本数据:我的电话是五一二六八八八
方法二:基于模型的方法。
由于预设的纠错规则是有限的,为了提高覆盖范围,可以使用基于模型的纠错方法。
基于模型的纠错方法中,首先提取识别文本数据和待纠错内容的纠错特征,再根据提取出的特征和预先构建的语音纠错模型,确定纠错信息。
以待纠错内容为待纠错文本数据为例,基于模型确定纠错信息可以包括:
(1)分别对待纠错文本数据和识别文本数据进行分词。
(2)提取所述待纠错文本数据和识别文本数据中每个词的纠错特征。
所述纠错特征包括待纠错文本数据中每个词的位置,每个词的词向量,每个词的上下文词的词向量,每个词与其上下文词之间的互信息,每个词的纠错概率,及用户语音数据识别文本数据中每个词的词向量、每个词的上下文词的词向量,每个词与其上下文词之间的互信息;
其中,每个词的上下文词指每个词前面的词或后面的词,具体向前后考虑多少个词,可以根据应用需求确定,如考虑2个词;待纠错文本数据中每个词的纠错概率可以根据用户历史习惯得到,如用户经常对一个词进行纠错,则可以设置该词的纠错概率较大;每个词与其上下文词的互信息可以通过现有技术计算得到。
(3)根据提取出的纠错特征和预先构建的语音纠错模型,确定纠错信息。
具体确定时,直接将提取出的纠错特征作为语音纠错模型的输入特征,输出为相应错误词和/或纠错词,及纠错位置;对于***性纠错不用输出错误词,即错误词输出参数为空,只需要输出纠错词及相应纠错位置即可,对于删除性纠错不用输出纠错词,即纠错词输出参数为空,只需要输出错误词及相应纠错位置即可,对于替换性纠错可以同时输出错误词、纠错词及纠错位置。
所述语音纠错模型通过预先收集大量待纠错文本数据及相应纠错文本数据,采用深度学习的方法构建得到,具体构建时,首先需要标注待纠错文本数据中的纠错位置,及待纠错文本数据中的错误词和/或纠错词;然后提取待纠错文本数据及纠错文本数据中每个词的纠错特征;最后将所述纠错特征作为纠错模型的输入,将待纠错文本数据的纠错位置及纠错文本中的错误词和/或纠错词作为模型的输出,根据所述标注结果对纠错模型进行参数训练,所述纠错模型如深度神经网络模型。
S25:为待纠错文本数据建立候选词及候选索引。
具体可以包括:
(1)对待纠错文本数据进行分词;
具体可以采用各种已有或将来出现的技术实现。
(2)为分词得到的词构建索引。
具体的,可以直接对每个词按照先后顺序进行编号,将编号作为每个词的索引。
如待纠错文本数据是“这是一个美妙的童话故事”,经过分词后,可以为每个词构建如图3所示的索引,其中,每个词上面的数字为相应词的索引。
(3)确定所述词对应的词对词,并确定所述词对词的候选得分;
例如,对应每个词,可以从词库中找到与该词存在词对关系的其他词,作为该词的词对词,具体可以包括:该词的近义词、同音词和错误词等。
一个词的词对词的候选得分可以根据该词与该词对词组成的词对的词对得分计算得到。而每个词对的词对得分可以根据相应的词对类别计算得到,比如,词对为近义词对时,词对得分可以根据词对中词的语义相似度计算得到;词对为同音词对时,词对得分可以根据词对中词的发音相似度计算得到;词对为错误词对时,词对得分可以根据错误词对出现频率计算得到。具体的词对得分的计算方式可以采用各种已有或将来出现的技术。
在根据词对得分计算词对词的候选得分时,具体的,如果该词与该词对词组成的词对包括多个类别的词对,则将多个类别的词对的词对得分进行累加后,将累加得分作为该词对词的候选得分。如果该词与该词对词组成的词对为一个类别的词对,则将该一个类别的词对的词对得分作为该词对词的候选得分。
例如,一个词为“美妙”,其近义词包括“美好”和“美丽”,且“美妙”与“美好”组成的近义词对的词对得分为0.7,“美妙”与“美丽”组成的近义词对的词对得分为0.5;其同音词包括“每秒”,且“美妙”与“每秒”组成的同音词对的词对得分为0.6;其错误词包括“美好”和“奇妙”,且“美妙”与“美好”组成的错误词对的词对得分为0.4,“美妙”与“奇妙”组成的近义词对的词对得分为0.2;依据上述示例,“美好”与“美妙”组成的词对包括近义词对和错误词对,即词对类别为多个,则此时,将近义词对的词对得分与错误词对的词对得分进行累加后,将累加得分作为“美好”的候选得分,即,“美好”的候选得分为0.7+0.4=1.1;“每秒”与“美妙”只组成了同音词对,则“每秒”的候选得分为其组成的同音词对的词对得分,即“每秒”的候选得分为0.6。
可以理解的是,可以预先在词库中找到每个词对,并计算每个词对的词对得分,在确定当前的待纠错文本数据时,直接从已计算得到的词对得分中,找到当前的待纠错文本数据所需要的词对得分。当然,也并不排除在线计算的方式,比如确定当前的待纠错文本数据所需的词对,并实时计算所需词对的词对得分。
(4)根据所述词对应的词对词的候选得分,确定所述词的候选词,以及根据所述词的索引和所述候选词的候选得分,为所述候选词构建候选索引。
具体的,可以选择候选得分高于预定阈值的词对词作为相应词的候选词。
在为候选词构建索引时,可以根据候选词的候选得分从大到小的顺序依次进行编号,将编号作为候选词的候选索引;以及在对候选词进行编号时,可以以该候选词对应的词的编号为基准进行。例如,一个词的编号为3,则该词的候选词按照候选得分从大到小的顺序,依次按照3.1、3.2、...进行编号。
例如,为待纠错文本数据建立的候选词和候选索引可以如图4所示。
可以理解的是,待纠错文本数据对应的候选词和候选索引可以根据待纠错文本数据的变化而实时更新。
S26:对所述用户语音数据进行语音识别,得到所述用户语音数据对应的识别文本数据,所述识别文本数据包括:纠错索引。
语音识别可以采用各种已有或将来出现的技术,在此不再详述。
纠错索引是指待使用的正确词所对应的索引,比如用户说出“三点一”。
S27:在待纠错内容中,用所述纠错索引对应的候选内容替换对应的错误内容,得到纠错后的文本数据。
如用户说出“三点一”时,由于“三点一”对应的候选内容为“美好”,则用“美好”替换对应的错误内容,即替换“美妙”,从而可以得到纠错后的内容为“这是一个美好的童话故事”。
需要说明的是,当候选词中没有用户需要的纠错词时,用户可以使用语义纠错模式进行纠错。
S28:将纠错后的文本数据反馈给用户。
比如,待纠错文本数据为“合肥到北京的火车票”,用户语音数据为“把合肥修改为南京”,则经过语音纠错后,将“南京到北京的火车票”反馈给用户。反馈可以通过内容显示或者语音播放等方式进行。
本实施例中,通过确定纠错模式,可以选择适合当前场景的纠错模式,从而提高纠错准确度;通过对待纠错内容进行纠错,不限于对文本数据进行处理,可以扩展适用范围;因此,通过提高纠错准确度和扩展适用范围,可以更好满足用户需求,提升用户体验。进一步的,在语义纠错模式下可以基于规则也可以基于模型进行纠错,可以进一步扩大使用范围和准确度;在索引纠错模式下通过用户说出索引进行纠错,由于仅需要用户说出数字,相对于说出文本的方式,可以方便用户使用,并且数字相对来讲易于语音识别,从而可以降低实现复杂度。
图5是本申请一个实施例提出的语音纠错装置的结构示意图。
如图5所示,本实施例的装置50包括:接收模块51、确定模块52、纠错模块53和反馈模块54。
接收模块51,用于接收用户语音数据;
确定模块52,用于确定当前纠错模式,所述纠错模式包括:语义纠错模式或者索引纠错模式;
纠错模块53,用于根据所述用户语音数据和所述当前纠错模式,对待纠错内容进行纠错;
反馈模块54,用于将纠错后的内容反馈给用户。
一些实施例中,参见图6,如果当前纠错模式为语义纠错模式,所述纠错模块53包括:
语音识别子模块5301,用于对所述用户语音数据进行语音识别,得到所述用户语音数据对应的识别文本数据;
纠错子模块5302,用于根据所述识别文本数据确定纠错信息,并根据所述纠错信息对待纠错内容进行纠错,得到纠错后的内容。
一些实施例中,所述纠错子模块5302用于根据所述识别文本数据确定纠错信息,包括:
根据所述识别文本数据和预设的纠错规则,确定纠错信息;
和/或,
提取所述识别文本数据和待纠错内容的纠错特征,根据所述纠错特征和预先构建的语音纠错模型,确定纠错信息。
一些实施例中,所述纠错子模块5302用于根据所述识别文本数据和预设的纠错规则,确定纠错信息,包括:
根据所述识别文本数据确定当前适用的纠错规则,以及,对所述识别文本数据与所述当前适用的纠错规则进行匹配,确定纠错信息;或者,
对所述识别文本数据与每种纠错规则进行匹配,确定纠错信息。
一些实施例中,所述纠错信息包括:
错误词和纠错词;纠错词和纠错位置;错误词和纠错位置;或者,错误词、纠错词和纠错位置。
一些实施例中,参见图7,如果当前纠错模式为索引纠错模式,所述纠错模块53包括:
建立子模块5311,用于为待纠错内容建立候选内容及候选索引;
语音识别子模块5312,用于对所述用户语音数据进行语音识别,得到所述用户语音数据对应的识别文本数据,所述识别文本数据包括:纠错索引;
纠错子模块5313,用于在待纠错内容中,用所述纠错索引对应的候选内容替换对应的错误内容,得到纠错后的内容。
一些实施例中,如果待纠错内容为待纠错文本数据,则所述候选内容为候选词,所述建立子模块5311具体用于:
对待纠错文本数据进行分词;
为分词得到的词构建索引;
确定所述词对应的词对词,并确定所述词对词的候选得分;
根据所述词的索引和所述词对应的词对词的候选得分,确定所述词的候选词,以及根据所述词的索引和所述候选词的候选得分,为所述候选词构建候选索引。
一些实施例中,所述待纠错内容包括:
文本数据和非文本数据。
可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见方法实施例的相关描述,在此不再详细说明。
本实施例中,通过确定纠错模式,可以选择适合当前场景的纠错模式,从而提高纠错准确度;通过对待纠错内容进行纠错,不限于对文本数据进行处理,可以扩展适用范围;因此,通过提高纠错准确度和扩展适用范围,可以更好满足用户需求,提升用户体验。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种语音纠错方法,其特征在于,包括:
接收用户语音数据;
确定当前纠错模式,所述纠错模式包括:语义纠错模式或者索引纠错模式;
根据所述用户语音数据和所述当前纠错模式,对待纠错内容进行纠错;
将纠错后的内容反馈给用户。
2.根据权利要求1所述的方法,其特征在于,如果当前纠错模式为语义纠错模式,所述根据所述用户语音数据和所述当前纠错模式,对待纠错内容进行纠错,包括:
对所述用户语音数据进行语音识别,得到所述用户语音数据对应的识别文本数据;
根据所述识别文本数据确定纠错信息,并根据所述纠错信息对待纠错内容进行纠错,得到纠错后的内容。
3.根据权利要求2所述的方法,其特征在于,所述根据所述识别文本数据确定纠错信息,包括:
根据所述识别文本数据和预设的纠错规则,确定纠错信息;
和/或,
提取所述识别文本数据和待纠错内容的纠错特征,根据所述纠错特征和预先构建的语音纠错模型,确定纠错信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述识别文本数据和预设的纠错规则,确定纠错信息,包括:
根据所述识别文本数据确定当前适用的纠错规则,以及,对所述识别文本数据与所述当前适用的纠错规则进行匹配,确定纠错信息;或者,
对所述识别文本数据与每种纠错规则进行匹配,确定纠错信息。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述纠错信息包括:
错误词和纠错词;纠错词和纠错位置;错误词和纠错位置;或者,错误词、纠错词和纠错位置。
6.根据权利要求1所述的方法,其特征在于,如果当前纠错模式为索引纠错模式,所述根据所述用户语音数据和所述当前纠错模式,对待纠错内容进行纠错,包括:
为待纠错内容建立候选内容及候选索引;
对所述用户语音数据进行语音识别,得到所述用户语音数据对应的识别文本数据,所述识别文本数据包括:纠错索引;
在待纠错内容中,用所述纠错索引对应的候选内容替换对应的错误内容,得到纠错后的内容。
7.根据权利要求6所述的方法,其特征在于,如果待纠错内容为待纠错文本数据,则所述候选内容为候选词,所述为待纠错内容建立候选内容及候选索引,包括:
对待纠错文本数据进行分词;
为分词得到的词构建索引;
确定所述词对应的词对词,并确定所述词对词的候选得分;
根据所述词对应的词对词的候选得分,确定所述词的候选词,以及根据所述词的索引和所述候选词的候选得分,为所述候选词构建候选索引。
8.根据权利要求1所述的方法,其特征在于,所述待纠错内容包括:
文本数据和非文本数据。
9.一种语音纠错装置,其特征在于,包括:
接收模块,用于接收用户语音数据;
确定模块,用于确定当前纠错模式,所述纠错模式包括:语义纠错模式或者索引纠错模式;
纠错模块,用于根据所述用户语音数据和所述当前纠错模式,对待纠错内容进行纠错;
反馈模块,用于将纠错后的内容反馈给用户。
10.根据权利要求9所述的装置,其特征在于,如果当前纠错模式为语义纠错模式,所述纠错模块包括:
语音识别子模块,用于对所述用户语音数据进行语音识别,得到所述用户语音数据对应的识别文本数据;
纠错子模块,用于根据所述识别文本数据确定纠错信息,并根据所述纠错信息对待纠错内容进行纠错,得到纠错后的内容。
11.根据权利要求10所述的装置,其特征在于,所述纠错子模块用于根据所述识别文本数据确定纠错信息,包括:
根据所述识别文本数据和预设的纠错规则,确定纠错信息;
和/或,
提取所述识别文本数据和待纠错内容的纠错特征,根据所述纠错特征和预先构建的语音纠错模型,确定纠错信息。
12.根据权利要求10所述的装置,其特征在于,所述纠错子模块用于根据所述识别文本数据和预设的纠错规则,确定纠错信息,包括:
根据所述识别文本数据确定当前适用的纠错规则,以及,对所述识别文本数据与所述当前适用的纠错规则进行匹配,确定纠错信息;或者,
对所述识别文本数据与每种纠错规则进行匹配,确定纠错信息。
13.根据权利要求10-12任一项所述的方法,其特征在于,所述纠错信息包括:
错误词和纠错词;纠错词和纠错位置;错误词和纠错位置;或者,错误词、纠错词和纠错位置。
14.根据权利要求9所述的方法,其特征在于,如果当前纠错模式为索引纠错模式,所述纠错模块包括:
建立子模块,用于为待纠错内容建立候选内容及候选索引;
语音识别子模块,用于对所述用户语音数据进行语音识别,得到所述用户语音数据对应的识别文本数据,所述识别文本数据包括:纠错索引;
纠错子模块,用于在待纠错内容中,用所述纠错索引对应的候选内容替换对应的错误内容,得到纠错后的内容。
15.根据权利要求14所述的装置,其特征在于,如果待纠错内容为待纠错文本数据,则所述候选内容为候选词,所述建立子模块具体用于:
对待纠错文本数据进行分词;
为分词得到的词构建索引;
确定所述词对应的词对词,并确定所述词对词的候选得分;
根据所述词对应的词对词的候选得分,确定所述词的候选词,以及根据所述词的索引和所述候选词的候选得分,为所述候选词构建候选索引。
16.根据权利要求9所述的装置,其特征在于,所述待纠错内容包括:
文本数据和非文本数据。
CN201611034174.5A 2016-11-17 2016-11-17 语音纠错方法和装置 Active CN106534548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611034174.5A CN106534548B (zh) 2016-11-17 2016-11-17 语音纠错方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611034174.5A CN106534548B (zh) 2016-11-17 2016-11-17 语音纠错方法和装置

Publications (2)

Publication Number Publication Date
CN106534548A true CN106534548A (zh) 2017-03-22
CN106534548B CN106534548B (zh) 2020-06-12

Family

ID=58357791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611034174.5A Active CN106534548B (zh) 2016-11-17 2016-11-17 语音纠错方法和装置

Country Status (1)

Country Link
CN (1) CN106534548B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992001A (zh) * 2017-03-29 2017-07-28 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和***
CN107221328A (zh) * 2017-05-25 2017-09-29 百度在线网络技术(北京)有限公司 修改源的定位方法及装置、计算机设备及可读介质
CN107463601A (zh) * 2017-06-13 2017-12-12 北京百度网讯科技有限公司 基于人工智能的对话理解***构建方法、装置、设备及计算机可读存储介质
CN107480118A (zh) * 2017-08-16 2017-12-15 科大讯飞股份有限公司 文本编辑方法及装置
CN107544726A (zh) * 2017-07-04 2018-01-05 百度在线网络技术(北京)有限公司 基于人工智能的语音识别结果纠错方法、装置及存储介质
CN107832447A (zh) * 2017-11-22 2018-03-23 北京百度网讯科技有限公司 用于移动终端的用户反馈纠错方法、装置及其设备
CN109215660A (zh) * 2018-07-09 2019-01-15 维沃移动通信有限公司 语音识别后文本纠错方法及移动终端
CN109243433A (zh) * 2018-11-06 2019-01-18 北京百度网讯科技有限公司 语音识别方法和装置
CN109389977A (zh) * 2018-11-01 2019-02-26 腾讯大地通途(北京)科技有限公司 一种语音交互方法及装置
CN109994105A (zh) * 2017-12-29 2019-07-09 宝马股份公司 信息输入方法、装置、***、车辆以及可读存储介质
CN110211577A (zh) * 2019-07-19 2019-09-06 宁波方太厨具有限公司 终端设备及其语音交互方法
CN110413445A (zh) * 2018-04-28 2019-11-05 北京搜狗科技发展有限公司 输入处理方法、装置、电子设备和存储介质
CN110415679A (zh) * 2019-07-25 2019-11-05 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
CN110717021A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 人工智能面试中获取输入文本和相关装置
CN110781665A (zh) * 2019-10-29 2020-02-11 腾讯科技(深圳)有限公司 纠错对的质量评估方法、装置、设备及存储介质
CN110929875A (zh) * 2019-10-12 2020-03-27 平安国际智慧城市科技股份有限公司 基于机器学习的智能语言学习方法、***、装置及介质
CN111626049A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN112365892A (zh) * 2020-11-10 2021-02-12 杭州大搜车汽车服务有限公司 人机对话方法、装置、电子装置及存储介质
CN116229975A (zh) * 2023-03-17 2023-06-06 杭州盈禾嘉田科技有限公司 智能交互场景下的田间病虫害语音填报***及方法
CN112365892B (zh) * 2020-11-10 2024-07-16 杭州大搜车汽车服务有限公司 人机对话方法、装置、电子装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN104464736A (zh) * 2014-12-15 2015-03-25 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置
CN104978964A (zh) * 2014-04-14 2015-10-14 美的集团股份有限公司 语音控制指令纠错方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN104978964A (zh) * 2014-04-14 2015-10-14 美的集团股份有限公司 语音控制指令纠错方法和***
CN104464736A (zh) * 2014-12-15 2015-03-25 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992001B (zh) * 2017-03-29 2020-05-22 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和***
CN106992001A (zh) * 2017-03-29 2017-07-28 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和***
US10528670B2 (en) 2017-05-25 2020-01-07 Baidu Online Network Technology (Beijing) Co., Ltd. Amendment source-positioning method and apparatus, computer device and readable medium
CN107221328A (zh) * 2017-05-25 2017-09-29 百度在线网络技术(北京)有限公司 修改源的定位方法及装置、计算机设备及可读介质
CN107221328B (zh) * 2017-05-25 2021-02-19 百度在线网络技术(北京)有限公司 修改源的定位方法及装置、计算机设备及可读介质
CN107463601A (zh) * 2017-06-13 2017-12-12 北京百度网讯科技有限公司 基于人工智能的对话理解***构建方法、装置、设备及计算机可读存储介质
US11727302B2 (en) 2017-06-13 2023-08-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for building a conversation understanding system based on artificial intelligence, device and computer-readable storage medium
CN107463601B (zh) * 2017-06-13 2021-02-12 北京百度网讯科技有限公司 基于人工智能的对话理解***构建方法、装置、设备及计算机可读存储介质
CN107544726A (zh) * 2017-07-04 2018-01-05 百度在线网络技术(北京)有限公司 基于人工智能的语音识别结果纠错方法、装置及存储介质
CN107480118A (zh) * 2017-08-16 2017-12-15 科大讯飞股份有限公司 文本编辑方法及装置
CN107480118B (zh) * 2017-08-16 2024-05-31 科大讯飞股份有限公司 文本编辑方法及装置
CN107832447A (zh) * 2017-11-22 2018-03-23 北京百度网讯科技有限公司 用于移动终端的用户反馈纠错方法、装置及其设备
CN109994105A (zh) * 2017-12-29 2019-07-09 宝马股份公司 信息输入方法、装置、***、车辆以及可读存储介质
CN110413445B (zh) * 2018-04-28 2024-02-02 北京搜狗科技发展有限公司 输入处理方法、装置、电子设备和存储介质
CN110413445A (zh) * 2018-04-28 2019-11-05 北京搜狗科技发展有限公司 输入处理方法、装置、电子设备和存储介质
CN109215660A (zh) * 2018-07-09 2019-01-15 维沃移动通信有限公司 语音识别后文本纠错方法及移动终端
CN109389977A (zh) * 2018-11-01 2019-02-26 腾讯大地通途(北京)科技有限公司 一种语音交互方法及装置
CN109389977B (zh) * 2018-11-01 2021-07-16 腾讯大地通途(北京)科技有限公司 一种语音交互方法及装置
CN109243433A (zh) * 2018-11-06 2019-01-18 北京百度网讯科技有限公司 语音识别方法和装置
CN109243433B (zh) * 2018-11-06 2021-07-09 北京百度网讯科技有限公司 语音识别方法和装置
CN110211577B (zh) * 2019-07-19 2021-06-04 宁波方太厨具有限公司 终端设备及其语音交互方法
CN110211577A (zh) * 2019-07-19 2019-09-06 宁波方太厨具有限公司 终端设备及其语音交互方法
CN110415679A (zh) * 2019-07-25 2019-11-05 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
CN110415679B (zh) * 2019-07-25 2021-12-17 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
US11328708B2 (en) 2019-07-25 2022-05-10 Beijing Baidu Netcom Science And Technology Co., Ltd. Speech error-correction method, device and storage medium
CN110717021A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 人工智能面试中获取输入文本和相关装置
CN110717021B (zh) * 2019-09-17 2023-08-29 平安科技(深圳)有限公司 人工智能面试中获取输入文本和相关装置
CN110929875A (zh) * 2019-10-12 2020-03-27 平安国际智慧城市科技股份有限公司 基于机器学习的智能语言学习方法、***、装置及介质
CN110781665A (zh) * 2019-10-29 2020-02-11 腾讯科技(深圳)有限公司 纠错对的质量评估方法、装置、设备及存储介质
CN110781665B (zh) * 2019-10-29 2023-04-07 腾讯科技(深圳)有限公司 纠错对的质量评估方法、装置、设备及存储介质
CN111626049A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN111626049B (zh) * 2020-05-27 2022-12-16 深圳市雅阅科技有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN112365892A (zh) * 2020-11-10 2021-02-12 杭州大搜车汽车服务有限公司 人机对话方法、装置、电子装置及存储介质
CN112365892B (zh) * 2020-11-10 2024-07-16 杭州大搜车汽车服务有限公司 人机对话方法、装置、电子装置及存储介质
CN116229975B (zh) * 2023-03-17 2023-08-18 杭州盈禾嘉田科技有限公司 智能交互场景下的田间病虫害语音填报***及方法
CN116229975A (zh) * 2023-03-17 2023-06-06 杭州盈禾嘉田科技有限公司 智能交互场景下的田间病虫害语音填报***及方法

Also Published As

Publication number Publication date
CN106534548B (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN106534548A (zh) 语音纠错方法和装置
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN110457688B (zh) 纠错处理方法及装置、存储介质和处理器
WO2021203581A1 (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN105869634B (zh) 一种基于领域的带反馈语音识别后文本纠错方法及***
US9396724B2 (en) Method and apparatus for building a language model
CN107797984B (zh) 智能交互方法、设备及存储介质
US9190054B1 (en) Natural language refinement of voice and text entry
TWI437449B (zh) 多重模式輸入方法及輸入方法編輯器系統
US8818926B2 (en) Method for personalizing chat bots
CN111833853B (zh) 语音处理方法及装置、电子设备、计算机可读存储介质
CN107077843A (zh) 对话控制装置和对话控制方法
CN108711420A (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
CN107301860A (zh) 基于中英文混合词典的语音识别方法及装置
CN107195295A (zh) 基于中英文混合词典的语音识别方法及装置
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
WO2014190732A1 (en) Method and apparatus for building a language model
WO2021179701A1 (zh) 多语种语音识别方法、装置及电子设备
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN108509409A (zh) 一种自动生成语义相近句子样本的方法
CN107369439A (zh) 一种语音唤醒方法和装置
CN112487139A (zh) 基于文本的自动出题方法、装置及计算机设备
CN106649253A (zh) 基于后验证的辅助控制方法及***
CN109543176A (zh) 一种基于图向量表征的丰富短文本语义方法及装置
CN110688450A (zh) 一种基于蒙特卡洛树搜索的关键词生成方法、基于强化学习的关键词生成模型及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant