CN109545223B - 应用于用户终端的语音识别方法及终端设备 - Google Patents
应用于用户终端的语音识别方法及终端设备 Download PDFInfo
- Publication number
- CN109545223B CN109545223B CN201710864800.1A CN201710864800A CN109545223B CN 109545223 B CN109545223 B CN 109545223B CN 201710864800 A CN201710864800 A CN 201710864800A CN 109545223 B CN109545223 B CN 109545223B
- Authority
- CN
- China
- Prior art keywords
- interface
- text information
- current display
- information
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000014509 gene expression Effects 0.000 claims abstract description 145
- 238000004590 computer program Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 abstract description 13
- 238000004891 communication Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- AZFKQCNGMSSWDS-UHFFFAOYSA-N MCPA-thioethyl Chemical compound CCSC(=O)COC1=CC=C(Cl)C=C1C AZFKQCNGMSSWDS-UHFFFAOYSA-N 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- 241000736892 Thujopsis dolabrata Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明适用于通信技术领域,提供了一种应用于用户终端的语音识别方法及终端设备。该方法包括:获取用户输入的语音信息,并根据所述语音信息识别出对应的文字信息;确定当前显示界面的界面类型;所述界面类型包括列表界面和播放界面;在当前显示界面为列表界面或播放界面时,将所述文字信息与当前显示界面的界面类型对应的正则表达式进行匹配。本发明通过在用户终端进行语义分析,没有在语义服务器中进行语义分析,能够简化语义分析过程,减少语义分析的时间;通过确认当前显示界面选择对应的正则表达式,能够减少用户终端语义分析中进行匹配的正则表达式,从而减少匹配时间,进一步减少用户终端语义分析的时间,提高语音识别的效率,提升用户体验。
Description
技术领域
本发明属于通信技术领域,尤其涉及一种应用于用户终端的语音识别方法及终端设备。
背景技术
目前市场上已出现众多的聊天机器人和语音控制***产品,例如语音智能电视、语音智能手机等,这些产品可以根据用户的语音输入进行语音识别,从语音识别结果中利用分词技术提取出关键字,而有针对性的进行聊天回复或功能控制。但是这些产品所采用的语音识别技术在语义分析上较为薄弱,需要上传到服务器,通过服务器结合众多语料库和机器学习等技术才能进行实现语义分析,语义分析所需时间长,服务器返回语义分析结果时,用户终端的界面可能已经被用户切换到其他界面,使用户终端无法执行语义分析结果对应的操作。因此现有的语音识别技术中通过服务器进行语义分析的分析时间长,导致语音识别效率低,影响用户正常的操作。
发明内容
有鉴于此,本发明实施例提供了一种应用于用户终端的语音识别方法及终端设备,以解决目前语音识别技术中通过服务器进行语义分析的分析时间长,导致语音识别效率低的问题。
本发明实施例的第一方面提供了一种应用于用户终端的语音识别方法,包括:
获取用户输入的语音信息,并根据所述语音信息识别出对应的文字信息;
确定当前显示界面的界面类型;所述界面类型包括列表界面和播放界面;
在当前显示界面为列表界面或播放界面时,将所述文字信息与当前显示界面的界面类型对应的正则表达式进行匹配。
本发明实施例的第二方面提供了一种应用于用户终端的语音识别装置,包括:
获取模块,用于获取用户输入的语音信息,并根据所述语音信息识别出对应的文字信息;
查找模块,用于确定当前显示界面的界面类型;所述界面类型包括列表界面和播放界面;
匹配模块,用于在当前显示界面为列表界面或播放界面时,将所述文字信息与当前显示界面的界面类型对应的正则表达式进行匹配。
本发明实施例的第三方面提供了一种语音识别终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面中的应用于用户终端的语音识别方法。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中的应用于用户终端的语音识别方法。
本发明实施例与现有技术相比存在的有益效果是:根据语音信息识别出对应的文字信息,通过确认当前显示界面的界面类型,将文字信息与当前显示界面的界面类型对应的正则表达式进行匹配,实现对语音信息的语音识别,通过在用户终端进行语义分析,没有在语义服务器中进行语义分析,能够简化语义分析过程,减少语义分析的时间;通过确认当前显示界面选择对应的正则表达式,能够减少用户终端语义分析中进行匹配的正则表达式,从而减少匹配时间,进一步减少用户终端语义分析的时间,提高语音识别的效率,提升用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的应用于用户终端的语音识别方法的实现流程图;
图2是本发明另一实施例提供的应用于用户终端的语音识别方法的实现流程图;
图3是本发明另一实施例提供的应用于用户终端的语音识别方法的实现流程图;
图4是本发明另一实施例提供的应用于用户终端的语音识别方法中匹配影视标题的实现流程图;
图5是本发明实施例提供的应用于用户终端的语音识别装置的示意图;
图6是本发明实施例提供的语音识别终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1为本发明实施例提供的应用于用户终端的语音识别方法的实现流程图,详述如下:
在S101中,获取用户输入的语音信息,并根据所述语音信息识别出对应的文字信息。
在本实施例中,语音识别装置可以获取到用户输入的语音信息,可以通过语音识别引擎或语音转换功能等识别出语音信息的内容,将语音信息转换为文字信息,以便于后续对文字信息进行处理。
在S102中,确定当前显示界面的界面类型;所述界面类型包括列表界面和播放界面。
在本实施例中,语音识别方法可应用于智能电视、智能手机、平板电脑等终端设备中。终端设备包括显示器,可以在显示器上进行桌面显示、视频播放等。当前显示界面为用户输入语音信息时的界面,用户输入的语音信息中包含的操作即是对当前显示界面进行操作。可以根据当前显示界面的界面信息确定当前显示界面的界面类型,其中显示界面的界面信息中包括界面类型;或者根据当前显示界面的内容确定当前显示界面的界面类型。
列表界面为在用户进行关键词搜索后,终端设备显示的与关键词相关项目的界面。列表界面的显示形式包括但不限于图标排列形式或标题名称排列形式。例如,用户通过关键词进行影视搜索后,列表界面显示与关键词相关的影视项目,可以为4行5列的图标排列形式,每个图标代表一个影视项目;也可以为10行的标题名称排列形式,每一行代表一个影视项目。播放界面为正在进行视频播放的界面,例如进行电影播放或电视节目播放等。
在S103中,在当前显示界面为列表界面或播放界面时,将所述文字信息与当前显示界面的界面类型对应的正则表达式进行匹配。
在本实施例中,由于不同的显示界面,用户能够进行的操作也有所不同,所以列表界面和播放界面分别对应有各自不同的正则表达式。列表界面和播放界面可以各自对应一个或多个正则表达式。正则表达式为使用一些抽象出来用来代表某类字符的特定字符组成的字符串,用于在大量字符中匹配(寻找)符合自身字符规则的字符串。因此可以使用正则表达式与文本信息进行匹配,实现语义分析。
终端设备可以建立正则表达式,并将正则表达式预置于存储器中,在进行语音识别过程时,调用预置的正则表达式。在当前显示界面为列表界面时,将文字信息与列表界面对应的正则表达式进行匹配;在当前显示界面为播放界面时,将文字信息与播放界面对应的正则表达式进行匹配。
在文字信息与当前显示界面的界面类型对应的正则表达式匹配成功后,得到文字信息的语义分析结果,终端设备可以根据语义分析结果执行用户语音信息对应的操作。
本发明实施例根据语音信息识别出对应的文字信息,通过确认当前显示界面的界面类型,将文字信息与当前显示界面的界面类型对应的正则表达式进行匹配,实现对语音信息的语音识别,通过在用户终端进行语义分析,没有在语义服务器中进行语义分析,能够简化语义分析过程,减少语义分析的时间;通过确认当前显示界面选择对应的正则表达式,能够减少用户终端语义分析中进行匹配的正则表达式,从而减少匹配时间,进一步减少用户终端语义分析的时间,提高语音识别的效率,提升用户体验。
作为本发明的一个实施例,如图2所示,所述界面类型还包括查询界面;在S102之后,还包括:
在S201中,在当前显示界面为查询界面时,将所述语音信息和/或所述文字信息上传至语义服务器,以使所述语义服务器对所述语音信息和/或所述文字信息进行语义分析。
在本实施例中,查询界面为终端设备显示的用户可以通过关键词进行内容搜索的界面。语义服务器为能够对语音信息和/或文字信息进行语义分析的服务器,例如语义服务器可以结合语料库,通过机器学习等算法进行语义分析,语义服务器能够实现对复杂语音和复杂文字的语义分析,识别能力强。由于根据语音信息进行内容查询的语义分析过程较为复杂,采用正则表达式进行语义分析的分析时间较长,因此可以使用语义服务器进行语义分析。将语音信息和/或文字信息上传至语义服务器,语义服务器对语音信息和/或文字信息进行语义分析。
具体地,语义服务器可以从语音信息和/或文字信息中提取出针对不同维度匹配条件的关键词,组成查询条件,对影视数据库进行查询并将查询结果返回给终端设备,终端设备将查询结果显示给用户;语义服务器也可以从语音信息和/或文字信息中提取出针对不同维度匹配条件的关键词,组成查询条件并将查询条件返回给终端设备,终端设备根据查询条件对影视数据库进行查询并将查询结果显示给用户。
通过在查询页面采用语义服务器对语音信息和/或文字信息进行语义分析,能够弥补正则表达式对复杂内容进行语义分析的不足,从而提高语音识别的效率和准确度。
作为本发明的一个实施例,如图3所示,在S103之后,还包括:
在S301中,若所述文字信息与当前显示界面的界面类型对应的正则表达式匹配失败,则将所述语音信息和/或所述文字信息上传至语义服务器。
在本实施例中,将文字信息与当前显示界面的界面类型对应的正则表达式进行匹配,若文字信息与当前显示界面的界面类型对应的正则表达式匹配成功,则得到文字信息对应的语义分析结果,终端设备可根据语义分析结果进行控制,以实现用户操作;若文字信息与当前显示界面的界面类型对应的正则表达式匹配失败,则表明该文字信息较为复杂或文字信息中包含的不是常规的操作信息,通过正则表达式不能实现对文字信息的语义分析,可以将语音信息和/或文字信息上传至语义服务器,以使语义服务器对语音信息和/或文字信息进行语义分析。
在通过匹配正则表达式对语音信息进行语义分析失败后,通过语义服务器进行语义分析,能够实现对用户输入的非常规的语音信息的识别。
作为本发明的一个实施例,所述列表界面对应的正则表达式包括翻页表达式、详情查看表达式和播放表达式。
在本实施例中,终端设备当前显示界面为列表界面时,用户通常进行的操作包括翻页、对某一项进行详情查看、对某一项进行播放等。因此,终端设备中列表界面对应的正则表达式可以包括翻页表达式、详情查看表达式和播放表达式。下面分别进行举例说明。
翻页表达式可以包括动词部分、数词部分和量词部分。翻页最常见的说法是“下一页”,考虑同音字、数字和中文对应、简化说法、扩展说法等,可使用如下正则表达式:
(下|换|翻)(1|一|)(页|夜|批)。
翻页表达式可匹配“下一页”、“下一夜”、“下1页”、“下页”、“换一批”等形式的说法,分别对应常用词、同音字、数字、简化以及扩展说法。具体各个部分使用哪些词,还可对大量的用户体验进行统计,选择频度较高的词汇,以提高匹配的准确度,进而提高语音识别的准确度。
用户进行详情查看操作,最常见的说法为使用位置定位“第几个的详情”或者使用标题定位即“某某影片的详情”。详情查看表达式要点在于需要根据当前列表的影片数量来限制位置序号,以及考虑中文和数字的对应。终端设备可以根据列表界面的项目个数确定详情查看表达式中的数词部分。例如每页显示的项目数量为5个,相应的正则表达式形式可以为:
(第)([1-5]|[一二三四五])(个|部|步)(的|)(详情|介绍|简介)。
详情查看表达式可匹配“第一个的详情”、“第1个简介”、“第一部详情”等说法。
用户输入的播放操作的说法与详情查看操作相类似,但除了需要根据影片位置或标题名称进行定位之外,还要避免和详情查看操作有冲突的说法,例如“播放第一个的详情”应进入详情操作,所以需要避开与详情有关的关键字。因此播放表达式形式可以为:
(播放|打开|进入)(第)([1-5]|[一二三四五])(个|部|步)(?!.?(详情|介绍|简介))。
播放表达式可匹配“播放第一个”、“打开第1个”、“进入第1部”等信息,但不会匹配“播放第一个的详情”。
可选地,若列表界面对应多个正则表达式,在文字信息与列表界面对应的正则表达式进行匹配之前,可以先确定与文字信息对应的正则表达式。可以从文字信息中提取出关键词,根据关键词确定文字信息中包含的操作种类,根据操作种类确定与文字信息对应的正则表达式。
可选地,将文字信息与列表界面对应的正则表达式进行匹配可以包括,将列表界面对应的正则表达式按照预设次序,依次与文字信息进行匹配;若任一正则表达式与文字信息匹配成功,则得到文字信息的语义分析结果,从而实现语音识别。
根据用户在列表界面可能出现的语音操作,针对性的设置列表界面对应的正则表达式,使用户终端对列表界面对应的用户语音指令进行语义分析时,正则表达式匹配更为精准,减少匹配时间,从而减少语义分析的时间,提高语音识别效率。
作为本发明的一个实施例,所述列表界面对应的正则表达式还可以包括位置定位表达式和/或标题定位表达式。
其中,位置定位表达式可以用于根据位置对用户所选择的列表界面中的项目进行定位,例如第5个,第3行第2个等。标题定位表达式用于根据标题名称对用户所选择的列表界面中的项目进行定位,例如大话西游、肖申克的救赎等。位置定位表达式和标题定位表达式可以作为构成详情查看表达式以及播放表达式中的一个组成部分,也可以作为单独的正则表达式进行匹配。
由于标题中有时包含标点符号、数字、副标题等,在建立的标题定位表达式中可以包含标点符号分割部分、数字中文转换部分和副标题选取部分中的一个或多个部分。
其中,标点符号可用于标题的字符串分割,对分割结果的各子字符串作为正则表达式“或”操作的元素。例如,《那些年,我们一起追的女孩》通过分割成“那些年”和“我们一起追的女孩”两个部分,组成匹配该标题的标题定位表达式可以为:
那些年|我们一起追的女孩。
由于语音识别数字结果的不确定性,识别后的文字信息可能为***数字或中文数字的形式,所以正则表达式匹配含有数字(***数字或中文数字)的标题需要进行数字中文转换,转换前后的结果作为正则表达式“或”操作的元素。例如,《斯巴达三百勇士》中的“三百”转换为数字是“300”,组成匹配该标题的标题定位表达式可以为:
斯巴达(三百|300)勇士。
另外,对于表示年份的***数字需要转换为按年份习惯读法对应的中文数字,例如《1942》应该转换为“一九四二”而不是“一千九百四十二”。非年份的***数字则可以同时包括两种读法,所以匹配“101”的正则表达式可以为:
101|一百零一|一零一。
考虑到很多影视标题使用“之”子连接主标题和副标题,所以对含“之”的标题进行分割获取主标题和副标题,作为正则表达式“或”操作的元素。例如,《黄飞鸿之英雄有梦》以“之”字分割成“黄飞鸿”和“英雄有梦”两个子串,组成匹配该标题的标题定位表达式可以为:
黄飞鸿之英雄有梦|黄飞鸿|英雄有梦。
通过位置定位表达式和/或标题定位表达式,使正则表达式对文字信息中的用户选择的项目确定更为准确,从而提高识别准确度。
作为本发明的一个实施例,如图4所示,还包括:
在S401中,判断所述文字信息中是否包含影视标题。
具体地,可以提取文字信息中的关键字,根据提取到的关键字判断文字信息中是否包含影视标题。
在S402中,若所述文字信息中包含影视标题,则在预置标题库中查找所述影视标题。
在本实施例中,预置标题库为终端设备预先存储的包含名称容易混淆的影视标题的数据库。由于有些影视标题容易和惯用词汇相混淆,导致识别错误,例如,“天将雄师”与“天降雄狮”,“私人订制”与“私人定制”,“变形计”与“变形记”等,可以将这些影视标题以及与影视标题容易混淆的惯用词汇组成预置标题库。
在S403中,若在所述预置标题库中查找到所述影视标题,则将所述预置标题库中与所述影视标题对应的词汇信息添加到所述标题定位表达式中。
在本实施例中,若在所述预置标题库中查找到文字信息中包含的影视标题,则表明该影视标题为易于混淆的影视标题,通过常规的正则表达式与文字信息进行匹配,容易匹配失败或得出错误的语义分析结果。为避免这种情况发生,可以将预置标题库中该影视标题对应的词汇信息添加到标题定位表达式中,其中影视标题在预置标题库中对应的词汇信息包括与该影视标题易于混淆的惯用词汇,这样能够使正则表达式对易于混淆的影视标题的匹配更为精准,减少匹配失败和匹配错误的发生,从而提高语音识别的准确度。
作为本发明的一个实施例,所述播放界面对应的正则表达式包括播放控制表达式和定点播放表达式。
在本实施例中,在播放界面,用户可以使用语音进行的操作包括暂停、播放、快进、后退等播放控制操作和切换到某个时间点播放的定点播放操作。相应的,播放界面对应的正则表达式可以包括播放控制表达式和定点播放表达式。下面分别进行举例说明。
播放控制表达式可以包括经常出现的同音字和单字指令等,例如,播放控制表达式可以包括:
(暂|)停|涨停|展厅;
(播|波|拨)放|接着(播|放)|继续;
快进|往前|前进;
后退|倒退|快退。
定点播放表达式可以包括时间点部分,需要进行时间点的匹配和解析。例如,定点播放表达式可以包括:
(跳|转|播)(到|第)(\\d{0,3}[一二三四五六七八九十]{0,4})(小时|时|分钟|分|秒|h|min|s)。
其中,时间点的匹配考虑了数字和中文对应,可匹配“跳到1小时2分钟3秒”、“转第一分钟”、“跳到1h2min3s”等。
根据用户在播放界面可能出现的语音操作,针对性的设置播放界面对应的正则表达式,使用户终端对播放界面对应的用户语音指令进行语义分析时,正则表达式匹配更为精准,减少匹配时间,从而减少语义分析的时间,提高语音识别效率。
作为本发明的一个实施例,该方法还可以包括:
若当前显示界面为列表界面或播放界面,则播放预置的操作提示信息。
在本实施例中,操作提示信息可以以语音的形式提醒用户,或者以文字形式在屏幕上显示。终端设备可以预先存储列表界面对应的操作提示信息和播放界面对应的操作提示信息。例如,列表界面对应的操作提示信息可以为“您可以进行的操作:下一页、第一个详情、播放那些年”;播放界面对应的操作提示信息可以为“您可以进行的操作:暂停、播放、快进、快退、跳到1分钟”。
可选地,在显示界面切换到列表界面后的预设时间内,若没有接收到用户输入的语音信息,则播放预置的操作提示信息。在文字信息与列表界面或播放界面对应的正则表达式匹配失败的次数超过预设次数后,播放预置的操作提示信息。
在列表界面或播放界面,用户可能不知道如何使用语音进行控制,或者用户输入的语音信息与正则表达式的形式相差较大,终端设备不能进行语义分析,类似这些情况下,可以播放预置的操作提示信息以提示用户输入适合的语音信息。操作提示信息的内容可以与对应正则表达式的内容一致,以便用户在根据操作提示信息输入的语音信息能够与正则表达式进行匹配,能够准确识别用户输入的语音信息。
本发明实施例根据语音信息识别出对应的文字信息,通过确认当前显示界面的界面类型,将文字信息与当前显示界面的界面类型对应的正则表达式进行匹配,实现对语音信息的语音识别,通过在用户终端进行语义分析,没有在语义服务器中进行语义分析,能够简化语义分析过程,减少语义分析的时间;通过确认当前显示界面选择对应的正则表达式,能够减少用户终端语义分析中进行匹配的正则表达式,从而减少匹配时间,进一步减少用户终端语义分析的时间,提高语音识别的效率,提升用户体验。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的应用于用户终端的语音识别方法,图5示出了本发明实施例提供的应用于用户终端的语音识别装置的示意图。为了便于说明,仅示出了与本实施例相关的部分。
参照图5,该装置包括获取模块51、查找模块52和匹配模块53。
获取模块51,用于获取用户输入的语音信息,并根据所述语音信息识别出对应的文字信息。
查找模块52,用于确定当前显示界面的界面类型;所述界面类型包括列表界面和播放界面。
匹配模块53,用于在当前显示界面为列表界面或播放界面时,将所述文字信息与当前显示界面的界面类型对应的正则表达式进行匹配。
优选地,所述界面类型还包括查询界面;该装置还可包括第一上传模块。
第一上传模块,用于在当前显示界面为查询界面时,将所述语音信息和/或所述文字信息上传至语义服务器,以使所述语义服务器对所述语音信息和/或所述文字信息进行语义分析。
优选地,该装置还可包括第二上传模块。
第二上传模块,用于若所述文字信息与当前显示界面的界面类型对应的正则表达式匹配失败,则将所述语音信息和/或所述文字信息上传至语义服务器。
优选地,所述列表界面对应的正则表达式包括翻页表达式、详情查看表达式和播放表达式;所述播放界面对应的正则表达式包括播放控制表达式和定点播放表达式。
优选地,所述列表界面对应的正则表达式包括位置定位表达式和/或标题定位表达式。
优选地,该装置还可包括判断模块。判断模块用于:
判断所述文字信息中是否包含影视标题;
若所述文字信息中包含影视标题,则在预置标题库中查找所述影视标题;
若在所述预置标题库中查找到所述影视标题,则将所述预置标题库中与所述影视标题对应的词汇信息添加到所述标题定位表达式中。
优选地,该装置还可包括提示模块。提示模块用于:
若当前显示界面为列表界面或播放界面,则播放预置的操作提示信息。
本发明实施例根据语音信息识别出对应的文字信息,通过确认当前显示界面的界面类型,将文字信息与当前显示界面的界面类型对应的正则表达式进行匹配,实现对语音信息的语音识别,通过在用户终端进行语义分析,没有在语义服务器中进行语义分析,能够简化语义分析过程,减少语义分析的时间;通过确认当前显示界面选择对应的正则表达式,能够减少用户终端语义分析中进行匹配的正则表达式,从而减少匹配时间,进一步减少用户终端语义分析的时间,提高语音识别的效率,提升用户体验。
图6是本发明一实施例提供的语音识别终端设备的示意图。如图6所示,该实施例的语音识别终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如语音识别程序。所述处理器60执行所述计算机程序62时实现上述各个语音识别方法实施例中的步骤,例如图1所示的步骤101至103。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块51至53的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述语音识别终端设备6中的执行过程。例如,所述计算机程序62可以被分割成获取模块、查找模块和匹配模块,各模块具体功能如下:
获取模块,用于获取用户输入的语音信息,并根据所述语音信息识别出对应的文字信息;
查找模块,用于确定当前显示界面的界面类型;所述界面类型包括列表界面和播放界面;
匹配模块,用于在当前显示界面为列表界面或播放界面时,将所述文字信息与当前显示界面的界面类型对应的正则表达式进行匹配。
所述语音识别终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述语音识别终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是语音识别终端设备6的示例,并不构成对语音识别终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述语音识别终端设备还可以包括输入输出设备、网络接入设备、总线、显示器等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述语音识别终端设备6的内部存储单元,例如语音识别终端设备6的硬盘或内存。所述存储器61也可以是所述语音识别终端设备6的外部存储设备,例如所述语音识别终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述语音识别终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述语音识别终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (9)
1.一种应用于用户终端的语音识别方法,其特征在于,包括:
获取用户输入的语音信息,并根据所述语音信息识别出对应的文字信息;
确定当前显示界面的界面类型;所述界面类型包括列表界面和播放界面;
在当前显示界面为列表界面或播放界面时,将所述文字信息与当前显示界面的界面类型对应的正则表达式进行匹配;
将所述文字信息与当前显示界面的界面类型对应的正则表达式进行匹配之前,预先确定与所述文字信息对应的正则表达式,包括:
从所述文字信息中提取出关键词之后,根据所述关键词确定所述文字信息包含的操作种类;
根据所述操作种类确定与所述文字信息对应的正则表达式;
其中,所述列表界面和所述播放界面各自对应至少一个正则表达式,所述正则表达式用于在大量字符中匹配符合自身字符规则的字符串;
所述界面类型还包括查询界面;
在所述确定当前显示界面的界面类型之后,还包括:
在当前显示界面为查询界面时,将所述语音信息和/或所述文字信息上传至语义服务器,以使所述语义服务器对所述语音信息和/或所述文字信息进行语义分析。
2.如权利要求1所述的应用于用户终端的语音识别方法,其特征在于,在将所述文字信息与当前显示界面的界面类型对应的正则表达式进行匹配之后,还包括:
若所述文字信息与当前显示界面的界面类型对应的正则表达式匹配失败,则将所述语音信息和/或所述文字信息上传至语义服务器。
3.如权利要求1所述的应用于用户终端的语音识别方法,其特征在于,所述列表界面对应的正则表达式包括翻页表达式、详情查看表达式和播放表达式;所述播放界面对应的正则表达式包括播放控制表达式和定点播放表达式。
4.如权利要求1所述的应用于用户终端的语音识别方法,其特征在于,所述列表界面对应的正则表达式包括位置定位表达式和/或标题定位表达式。
5.如权利要求4所述的应用于用户终端的语音识别方法,其特征在于,还包括:
判断所述文字信息中是否包含影视标题;
若所述文字信息中包含影视标题,则在预置标题库中查找所述影视标题;
若在所述预置标题库中查找到所述影视标题,则将所述预置标题库中与所述影视标题对应的词汇信息添加到所述标题定位表达式中。
6.如权利要求1至5任一项所述的语音识别方法,其特征在于,还包括:
若当前显示界面为列表界面或播放界面,则播放预置的操作提示信息。
7.一种应用于用户终端的语音识别装置,应用如权利要求1所述的语音识别方法,其特征在于,包括:
获取模块,用于获取用户输入的语音信息,并根据所述语音信息识别出对应的文字信息;
查找模块,用于确定当前显示界面的界面类型;所述界面类型包括列表界面和播放界面;
匹配模块,用于在当前显示界面为列表界面或播放界面时,将所述文字信息与当前显示界面的界面类型对应的正则表达式进行匹配;
第一上传模块,用于在当前显示界面为查询界面时,将所述语音信息和/或所述文字信息上传至语义服务器,以使所述语义服务器对所述语音信息和/或所述文字信息进行语义分析。
8.一种语音识别终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710864800.1A CN109545223B (zh) | 2017-09-22 | 2017-09-22 | 应用于用户终端的语音识别方法及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710864800.1A CN109545223B (zh) | 2017-09-22 | 2017-09-22 | 应用于用户终端的语音识别方法及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109545223A CN109545223A (zh) | 2019-03-29 |
CN109545223B true CN109545223B (zh) | 2022-03-01 |
Family
ID=65828501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710864800.1A Active CN109545223B (zh) | 2017-09-22 | 2017-09-22 | 应用于用户终端的语音识别方法及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109545223B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110338747B (zh) * | 2019-06-13 | 2022-09-09 | 宁波明星科技发展有限公司 | 视力检查的辅助方法、存储介质、智能终端及辅助装置 |
CN111309299A (zh) * | 2020-01-15 | 2020-06-19 | 珠海格力智能装备有限公司 | 工业机器人语言处理方法、装置、存储介质和电子设备 |
CN112309388A (zh) * | 2020-03-02 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104469530A (zh) * | 2014-11-28 | 2015-03-25 | 四川长虹电器股份有限公司 | 智能电视语音控制设置菜单的方法 |
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机*** |
CN105957530A (zh) * | 2016-04-28 | 2016-09-21 | 海信集团有限公司 | 一种语音控制方法、装置和终端设备 |
CN106162254A (zh) * | 2016-06-30 | 2016-11-23 | 深圳市九洲电器有限公司 | 一种用户语音分析方法及*** |
CN106710598A (zh) * | 2017-03-24 | 2017-05-24 | 上海与德科技有限公司 | 语音识别方法及装置 |
CN106847284A (zh) * | 2017-03-09 | 2017-06-13 | 深圳市八圈科技有限公司 | 电子设备、计算机可读存储介质及语音交互方法 |
CN106970906A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种基于语句分段的语义分析方法 |
-
2017
- 2017-09-22 CN CN201710864800.1A patent/CN109545223B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104469530A (zh) * | 2014-11-28 | 2015-03-25 | 四川长虹电器股份有限公司 | 智能电视语音控制设置菜单的方法 |
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机*** |
CN106970906A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种基于语句分段的语义分析方法 |
CN105957530A (zh) * | 2016-04-28 | 2016-09-21 | 海信集团有限公司 | 一种语音控制方法、装置和终端设备 |
CN106162254A (zh) * | 2016-06-30 | 2016-11-23 | 深圳市九洲电器有限公司 | 一种用户语音分析方法及*** |
CN106847284A (zh) * | 2017-03-09 | 2017-06-13 | 深圳市八圈科技有限公司 | 电子设备、计算机可读存储介质及语音交互方法 |
CN106710598A (zh) * | 2017-03-24 | 2017-05-24 | 上海与德科技有限公司 | 语音识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109545223A (zh) | 2019-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10210243B2 (en) | Method and system for enhanced query term suggestion | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
CN107918496B (zh) | 一种输入纠错方法和装置、一种用于输入纠错的装置 | |
US11630825B2 (en) | Method and system for enhanced search term suggestion | |
CN101782833B (zh) | 一种智能操作***及方法 | |
CN111459977B (zh) | 自然语言查询的转换 | |
CN109545223B (zh) | 应用于用户终端的语音识别方法及终端设备 | |
US8290925B1 (en) | Locating product references in content pages | |
CN111198936B (zh) | 一种语音搜索方法、装置、电子设备及存储介质 | |
US20120109994A1 (en) | Robust auto-correction for data retrieval | |
CN112926300A (zh) | 图像搜索方法、图像搜索装置及终端设备 | |
CN116013307A (zh) | 一种标点预测方法、装置、设备以及计算机存储介质 | |
CN104281275A (zh) | 一种英文的输入方法和装置 | |
CN111832264A (zh) | 基于pdf文件的签名位置确定方法、装置及设备 | |
US9317189B1 (en) | Method to input content in a structured manner with real-time assistance and validation | |
CN107329964A (zh) | 一种文本处理方法及装置 | |
CN117453437A (zh) | 数据库语句处理方法、装置、计算机设备和存储介质 | |
US9208143B2 (en) | Electronic device and dictionary data display method | |
CN111858966A (zh) | 知识图谱的更新方法、装置、终端设备及可读存储介质 | |
CN117033309A (zh) | 一种数据转换方法、装置、电子设备及可读存储介质 | |
CN106202423A (zh) | 一种文件排序方法和设备 | |
WO2012090027A1 (en) | Language models for input text prediction | |
US10853559B2 (en) | Symmetric text replacement | |
CN112346578A (zh) | 输入方法及装置 | |
CN103870822A (zh) | 词语识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 516006 TCL science and technology building, No. 17, Huifeng Third Road, Zhongkai high tech Zone, Huizhou City, Guangdong Province Applicant after: TCL Technology Group Co.,Ltd. Address before: 516006 Guangdong province Huizhou Zhongkai hi tech Development Zone No. nineteen District Applicant before: TCL Corp. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |