CN104123085B - 通过语音访问多媒体互动网站的方法和装置 - Google Patents
通过语音访问多媒体互动网站的方法和装置 Download PDFInfo
- Publication number
- CN104123085B CN104123085B CN201410015324.2A CN201410015324A CN104123085B CN 104123085 B CN104123085 B CN 104123085B CN 201410015324 A CN201410015324 A CN 201410015324A CN 104123085 B CN104123085 B CN 104123085B
- Authority
- CN
- China
- Prior art keywords
- voice
- link
- visited
- page
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012544 monitoring process Methods 0.000 claims abstract description 12
- 230000009191 jumping Effects 0.000 claims abstract description 6
- 239000000284 extract Substances 0.000 claims description 4
- 238000009434 installation Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004540 process dynamic Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04847—Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/134—Hyperlinking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
- G06F9/453—Help systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供了通过语音访问多媒体互动网站的方法和装置。其中,该方法包括:为所述多媒体互动网站上的至少一个链接编译可选的人机交互方式,所述可选的人机交互方式至少包括:语音方式和非语音方式;监听用户在所述多媒体互动网站上选择的待***,并识别用户针对所述待***选择的人机交互方式;当识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面,引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;判断所述语音数据是否满足设定的用于触发所述待***的要求,如果是,提供所述待***对应的信息。采用本发明,能够通过语音实现用户与多媒体网站互动。
Description
技术领域
本申请涉及网络技术,特别涉及通过语音访问多媒体互动网站的方法和装置。
背景技术
目前,随着网站技术的不断发展,已产生了很多多媒体网站。其中,在多媒体网站中,有一种人机强交互性质的网站,简称多媒体互动网站。
其中,用户与多媒体互动网站交互的方式很多,包括但不限于以下几种:
1,点击触发方式,比如,用户通过鼠标点击多媒体互动网站中的链接进入链接对应的网页等;
2,滚轮触发方式,比如,用户通过鼠标中的滚轮触发多媒体互动网站中的链接进入链接对应的网页等;
3,键盘触发方式,比如用户通过键盘触发多媒体互动网站中的链接进入链接对应的网页等;
4、触控方式,比如,用户通过触控选择多媒体互动网站中的链接进入链接对应的网页等。
在上述用户与多媒体互动网站交互的方式中,不管采用哪种方式,都无法实现通过语音实现用户访问多媒体互动网站。
因此,一种通过语音实现用户访问多媒体互动网站的方法是当前亟待解决的技术问题。
发明内容
本申请提供了本申请提供了通过语音访问多媒体互动网站的方法和装置,以通过语音实现用户访问多媒体互动网站。
本申请提供的技术方案包括:
一种通过语音访问多媒体互动网站的方法,所述多媒体互动网站具有人机交互功能,该方法包括:
为所述多媒体互动网站上的至少一个链接编译可选的人机交互方式,所述可选的人机交互方式至少包括:语音方式和非语音方式;
监听用户在所述多媒体互动网站上选择的待***,并识别用户针对所述待***选择的人机交互方式;
当识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面,引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;
判断所述语音数据是否满足设定的用于触发所述待***的要求,如果是,提供所述待***对应的信息。
一种通过语音访问多媒体互动网站的装置,所述多媒体互动网站具有人机交互功能,该装置应用于多媒体网站的客户端,包括:
显示单元,用于显示多媒体互动网站,所述多媒体互动网站上的至少一个链接编译了可选的人机交互方式,所述可选的人机交互方式至少包括:语音方式和非语音方式;
监听单元,用于监听用户在所述多媒体互动网站选择的待***;
识别单元,用于识别用户针对所述待***选择的人机交互方式;
引导单元,用于所述识别单元识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面,引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;
判断单元,用于判断所述语音数据是否满足设定的用于触发所述待***的要求,如果是,提供所述待***对应的信息。
由以上技术方案可以看出,本发明中,通过在多媒体互动网站上的链接编译可选的人机交互方式,监听用户在所述多媒体互动网站选择的待***,识别用户针对所述待***选择的人机交互方式;当识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面;引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;判断所述语音数据是否满足设定的用于触发所述待***的要求,如果是,提供所述待***对应的信息,这能够通过语音方式代替传统的鼠标、键盘等方式实现用户与多媒体互动网站之间的互动,这能够提高用户访问多媒体互动网站的效率。
附图说明
图1为本发明实施例提供的方法流程图;
图2为本发明实施例提供的多媒体网站上的链接示意图;
图3为本发明实施例提供的包含语音方式的页面示意图;
图4为本发明实施例提供的步骤104实现流程图;
图5为本发明实施例提供的语音音谱示意图;
图6为本发明实施例提供的另一语音音谱示意图;
图7为本发明实施例提供的装置结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本申请提供了通过语音访问多媒体互动网站的方法。这里,多媒体互动网站具有人机交互功能。
参见图1,图1为本发明提供的方法流程图。如图1所示,该流程可应用于客户端,包括以下步骤:
步骤101,为所述多媒体互动网站上的至少一个链接编译可选的人机交互方式。
这里,多媒体互动网站,其一般是人机强交互性质的网站。本发明中,在现有多媒体互动网站上做了少许改进,即:针对多媒体互动网站上部分或全部的链接编译可选的人机交互方式。
其中,作为本发明的一个实施例,所述可选的人机交互方式至少包括:语音方式和非语音方式。
作为本发明的一个实施例,所述语音方式通过用于表示有麦克风的提示按钮实现;而所述非语音方式通过用于表示无麦克风的提示按钮实现。图2示出了多媒体互动网站上一个链接比如“我要当男主角”上编译的可选的人机交互方式。
步骤102,监听用户在所述多媒体互动网站上选择的待***,并识别用户针对所述待***选择的人机交互方式。
当用户进入多媒体互动网站时,用户会根据自己的兴趣在多媒体互动网站上选择待访问的链接。
当用户在所述多媒体互动网站选择完待***后,基于步骤101描述的,假如针对该待***编译了可选的人机交互方式,则用户会从可选的人机交互方式中选择其待使用的交互方式,比如选择语音方式,或者选择非语音方式。
步骤103,当识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面,引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据。
作为本发明的一个实施例,本步骤103中,所述跳转至用于引导用户提供语音的页面包括:
通过动画形式展示一个与所述待***关联且用于引导用户提供语音的新的页面;其中,所述页面中包含用于引导用户提供语音的引导信息。如图3所示,图3示出了通过动画形式展示的一个与待***关联且用于引导用户提供语音的新的页面。在该新页面中,“请对着麦克风说:”为引导信息,引导用户对着麦克风提供语音数据。并且,在图3中,还包括一个进程框,用于表示用户的状态,当用户对着麦克风提供语音数据时,该进程框内的进程动态变化,反之,当用户停止对着麦克风提供语音数据时,该进程框内的进程不变。
基于跳转的页面包含引导信息的前提,则本步骤103中,引导用户在所述页面提供语音具体可为:
通过所述页面中的引导信息引导用户在所述页面提供语音。
需要说明的是,本步骤103是以识别出用户选择语音方式为前提执行的,而如果本发明中,当识别出用户选择非语音方式时,则可执行以下步骤:
提示用户基于设定的非语音方式触发所述链接。
其中,该非语音方式与现有人机交互方式类似,包括但不限于以下任一种方式或任意组合:
鼠标;
键盘;
触控。
步骤104,判断所述语音数据是否满足设定的用于触发所述待***的要求,如果是,提供所述待***对应的信息。
优选地,作为本发明的一个优选实施例,本步骤104中,当判断出所述语音数据不满足设定的用于触发所述待***的要求,则可引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据,即返回执行步骤103。
至此,完成图1所示流程。
从图1所示流程可以看出,本发明中,通过语音方式代替传统的鼠标、键盘等方式实现用户与多媒体网站之间的互动,这能够提高用户访问多媒体网站的效率。
优选地,作为本发明的一个实施例,在上面描述中,多媒体互动网站上的链接编译的可选人机交互方式可通过Flash工具编译。
基于多媒体互动网站上的链接编译的可选人机交互方式通过Flash工具编译,则在上述步骤103中,获取用户在所述页面提供的语音数据可为:
通过Flash中脚本语言ActionScript的声音应用接口(SoundMixer API)获取用户在所述页面提供的语音数据。
另外,本发明中,作为本发明的一个实施例,上述步骤104中的判断可通过图4所示流程实现:
参见图4,图4为本发明实施例提供的步骤104实现流程图。如图4所示,该流程可包括以下步骤:
步骤401,从获取的语音数据中提取出语音音谱。
本发明中,该获取的语音数据是一个二进制数据。而从该二进制数据组成的语音数据中提取出语音音谱可通过隐马尔可夫模型(HMM)状态关联的数据进行操作的快速傅立叶变换(fft)实现。
其中,该提取出的语音音谱由左通道、右通道组成。图5示出了fftmode为true时的一种语音音谱,图6示出了fftmode为false时的另一种语音音谱。
从图5或图6示出的语音音谱可以看出,该语音音谱具体可由左通道、右通道组成。
步骤402,依据所述语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量。
本发明中,其中,从语音音谱中的两个不同通道识别出的文字数量结果相同,因此,可选择从语音音谱中的单一通道比如左通道或者右通道即可识别出语音音谱关联的文字数量。
具体地,在语音音谱中,不同起伏的两个语音就是两个不同的汉字,基于此,依据该不同起伏的两个语音就是两个不同汉字的原则从语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量。
步骤403,判断在步骤402识别出的文字数量是否为所述待***要求的文字数量,如果是,确定所述语音数据满足设定的用于触发所述待***的要求,如果否,确定所述语音数据不满足设定的用于触发所述待***的要求。
假如所述待***要求的文字数量为3个汉字,则本步骤403就判断在步骤402识别出的文字数量是否为3个汉字,如果是,则确定所述语音数据满足设定的用于触发所述待***的要求,如果否,确定所述语音数据不满足设定的用于触发所述待***的要求。
至此,完成图4所示的流程。
可以看出,通过图4所示的流程,能够完成步骤104中判断语音数据是否满足设定的用于触发所述待***的要求,但是,需要说明的是,图4所示流程只是判断语音数据是否满足设定的用于触发所述待***的要求的一种举例,并非用于限定本发明。
本领域技术人员还可以采用其他方式判断语音数据是否满足设定的用于触发所述待***的要求,下面仅举2个例子说明:
例1,基于现有语音识别***识别获取的语音数据中是否存在设定的语音数据,假如设定的语音数据为“我愿意”,则就基于现有语音识别***识别获取的语音数据中是否“我愿意”,如果是,则确定所述语音数据满足设定的用于触发所述待***的要求,如果否,确定所述语音数据不满足设定的用于触发所述待***的要求。
例2,该例2主要是例1和图4所示流程的结合,即先基于现有语音识别***识别获取的语音数据中是否存在设定的语音数据,只有从获取的语音数据中识别出设定的语音数据时,才执行图4所示流程,否则,确定所述语音数据不满足设定的用于触发所述待***的要求。通过例2,能够更加精准依据用户需求触发所述待***。
至此,完成本发明提供的方法描述。
下面对本发明提供的装置进行描述:
参见图7,图7为本发明实施例提供的装置结构图。该装置应用于多媒体互动网站的客户端,所述多媒体互动网站具有人机交互功能,如图7所示,该装置可包括:
显示单元,用于显示多媒体互动网站,所述多媒体互动网站上的至少一个链接编译了可选的人机交互方式,所述可选的人机交互方式至少包括:语音方式和非语音方式;
监听单元,用于监听用户在所述多媒体互动网站选择的待***;
识别单元,用于识别用户针对所述待***选择的人机交互方式;
引导单元,用于所述识别单元识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面,引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;
判断单元,用于判断所述语音数据是否满足设定的用于触发所述待***的要求,如果是,提供所述待***对应的信息。
优选地,作为本发明的一个实施例,所述跳转至用于引导用户提供语音的页面包括:
通过动画形式展示一个与所述待***关联且用于引导用户提供语音的新的页面;其中,所述页面中包含用于引导用户提供语音的引导信息;
基于此,所述引导用户在所述页面提供语音包括:
通过所述新页面中的引导信息引导用户在所述页面提供语音。
优选地,本发明中,所述所述判断语音数据是否满足设定的用于触发所述待***的要求包括:
从所述语音数据中提取出语音音谱,所述语音音谱由左通道、右通道组成;
依据所述语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量;
判断所述文字数量是否为所述待***要求的文字数量,
如果是,确定所述语音数据满足设定的用于触发所述待***的要求;
如果否,确定所述语音数据不满足设定的用于触发所述待***的要求。
优选地,本发明中,所述语音方式通过用于表示有麦克风的提示按钮实现;
所述非语音方式通过用于表示无麦克风的提示按钮实现。
优选地,本发明中,所述多媒体互动网站上的链接是通过Flash编译的;
所述语音数据是通过Flash中脚本语言ActionScript的声音应用接口SoundMixer API获取的。
至此,完成图7所示的装置描述。
由以上技术方案可以看出,本发明中,通过在多媒体互动网站上的链接编译可选的人机交互方式,监听用户在所述多媒体互动网站选择的待***;识别用户针对所述待***选择的人机交互方式;当识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面;引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;判断所述语音数据是否满足设定的用于触发所述待***的要求,如果是,提供所述待***对应的信息,这能够通过语音方式代替传统的鼠标、键盘等方式实现用户与多媒体互动网站之间的互动,这能够提高用户访问多媒体互动网站的效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (8)
1.一种通过语音访问多媒体互动网站的方法,所述多媒体互动网站具有人机交互功能,其特征在于,该方法包括:
为所述多媒体互动网站上的至少一个链接编译可选的人机交互方式,所述可选的人机交互方式至少包括:语音方式和非语音方式;
监听用户在所述多媒体互动网站上选择的待***,并识别用户针对所述待***选择的人机交互方式;
当识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面,引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;
从获取的语音数据中提取出语音音谱,依据所述语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量;判断所述文字数量是否为所述待***要求的文字数量,如果是,确定所述语音数据满足设定的用于触发所述待***的要求,提供所述待***对应的信息。
2.根据权利要求1所述的方法,其特征在于,所述跳转至用于引导用户提供语音的页面包括:
通过动画形式展示一个与所述待***关联且用于引导用户提供语音的新的页面;其中,所述页面中包含用于引导用户提供语音的引导信息;
所述引导用户在所述页面提供语音包括:
通过所述页面中的引导信息引导用户在所述页面提供语音。
3.根据权利要求1或2所述的方法,其特征在于,
所述语音方式通过用于表示有麦克风的提示按钮实现;
所述非语音方式通过用于表示无麦克风的提示按钮实现。
4.根据权利要求1或2所述的方法,其特征在于,所述多媒体互动网站上的链接是通过Flash编译的;
所述语音数据是通过Flash中脚本语言ActionScript的声音应用接口SoundMixer API获取的。
5.一种通过语音访问多媒体互动网站的装置,所述多媒体互动网站具有人机交互功能,其特征在于,该装置应用于多媒体网站的客户端,包括:
显示单元,用于显示多媒体互动网站,所述多媒体互动网站上的至少一个链接编译了可选的人机交互方式,所述可选的人机交互方式至少包括:语音方式和非语音方式;
监听单元,用于监听用户在所述多媒体互动网站选择的待***;
识别单元,用于识别用户针对所述待***选择的人机交互方式;
引导单元,用于所述识别单元识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面,引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;
判断单元,用于从获取的语音数据中提取出语音音谱,依据所述语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量;判断所述文字数量是否为所述待***要求的文字数量,如果是,判定所述语音数据满足设定的用于触发所述待***的要求,提供所述待***对应的信息。
6.根据权利要求5所述的装置,其特征在于,所述跳转至用于引导用户提供语音的页面包括:
通过动画形式展示一个与所述待***关联且用于引导用户提供语音的新的页面;其中,所述页面中包含用于引导用户提供语音的引导信息;
所述引导用户在所述页面提供语音包括:
通过所述新页面中的引导信息引导用户在所述页面提供语音。
7.根据权利要求5或6所述的装置,其特征在于,
所述语音方式通过用于表示有麦克风的提示按钮实现;
所述非语音方式通过用于表示无麦克风的提示按钮实现。
8.根据权利要求5或6所述的装置,其特征在于,所述多媒体互动网站上的链接是通过Flash编译的;
所述语音数据是通过Flash中脚本语言ActionScript的声音应用接口SoundMixer API获取的。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410015324.2A CN104123085B (zh) | 2014-01-14 | 2014-01-14 | 通过语音访问多媒体互动网站的方法和装置 |
PCT/CN2015/070706 WO2015106688A1 (en) | 2014-01-14 | 2015-01-14 | Method and apparatus for voice access to multimedia interactive website |
US15/177,369 US10936280B2 (en) | 2014-01-14 | 2016-06-09 | Method and apparatus for accessing multimedia interactive website by determining quantity of characters in voice spectrum |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410015324.2A CN104123085B (zh) | 2014-01-14 | 2014-01-14 | 通过语音访问多媒体互动网站的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104123085A CN104123085A (zh) | 2014-10-29 |
CN104123085B true CN104123085B (zh) | 2015-08-12 |
Family
ID=51768514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410015324.2A Active CN104123085B (zh) | 2014-01-14 | 2014-01-14 | 通过语音访问多媒体互动网站的方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10936280B2 (zh) |
CN (1) | CN104123085B (zh) |
WO (1) | WO2015106688A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123085B (zh) * | 2014-01-14 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 通过语音访问多媒体互动网站的方法和装置 |
CN108369804A (zh) * | 2015-12-07 | 2018-08-03 | 雅马哈株式会社 | 语音交互设备和语音交互方法 |
CN111124229B (zh) * | 2019-12-24 | 2022-03-11 | 山东舜网传媒股份有限公司 | 通过语音交互实现网页动画控制的方法、***及浏览器 |
US20240077983A1 (en) * | 2022-09-01 | 2024-03-07 | Lei Zhang | Interaction recording tools for creating interactive ar stories |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102520792A (zh) * | 2011-11-30 | 2012-06-27 | 江苏奇异点网络有限公司 | 用于网络浏览器的语音式交互方法 |
CN102567321A (zh) * | 2010-12-14 | 2012-07-11 | 许德武 | 一种基于语音识别的域名访问和搜索方法 |
CN103377028A (zh) * | 2012-04-20 | 2013-10-30 | 纽安斯通讯公司 | 用于以语音启动人机界面的方法和*** |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6282511B1 (en) * | 1996-12-04 | 2001-08-28 | At&T | Voiced interface with hyperlinked information |
US6101472A (en) * | 1997-04-16 | 2000-08-08 | International Business Machines Corporation | Data processing system and method for navigating a network using a voice command |
US6208965B1 (en) * | 1997-11-20 | 2001-03-27 | At&T Corp. | Method and apparatus for performing a name acquisition based on speech recognition |
JPH11224179A (ja) * | 1998-02-05 | 1999-08-17 | Fujitsu Ltd | 対話インタフェース・システム |
US7082397B2 (en) * | 1998-12-01 | 2006-07-25 | Nuance Communications, Inc. | System for and method of creating and browsing a voice web |
US6768788B1 (en) * | 1999-09-13 | 2004-07-27 | Microstrategy, Incorporated | System and method for real-time, personalized, dynamic, interactive voice services for property-related information |
US7203721B1 (en) * | 1999-10-08 | 2007-04-10 | At Road, Inc. | Portable browser device with voice recognition and feedback capability |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6633846B1 (en) * | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7516190B2 (en) * | 2000-02-04 | 2009-04-07 | Parus Holdings, Inc. | Personal voice-based information retrieval system |
US6629077B1 (en) * | 2000-11-22 | 2003-09-30 | Universal Electronics Inc. | Universal remote control adapted to receive voice input |
GB0029576D0 (en) * | 2000-12-02 | 2001-01-17 | Hewlett Packard Co | Voice site personality setting |
US6999916B2 (en) * | 2001-04-20 | 2006-02-14 | Wordsniffer, Inc. | Method and apparatus for integrated, user-directed web site text translation |
US7054939B2 (en) * | 2001-06-28 | 2006-05-30 | Bellsouth Intellectual Property Corportion | Simultaneous visual and telephonic access to interactive information delivery |
JP2003108475A (ja) * | 2001-09-27 | 2003-04-11 | Brother Ind Ltd | 通信システム、通信装置、およびコンピュータプログラム |
US7650284B2 (en) * | 2004-11-19 | 2010-01-19 | Nuance Communications, Inc. | Enabling voice click in a multimodal page |
US7788248B2 (en) * | 2005-03-08 | 2010-08-31 | Apple Inc. | Immediate search feedback |
US7962842B2 (en) * | 2005-05-30 | 2011-06-14 | International Business Machines Corporation | Method and systems for accessing data by spelling discrimination letters of link names |
IL174107A0 (en) * | 2006-02-01 | 2006-08-01 | Grois Dan | Method and system for advertising by means of a search engine over a data network |
US8036894B2 (en) * | 2006-02-16 | 2011-10-11 | Apple Inc. | Multi-unit approach to text-to-speech synthesis |
US9318108B2 (en) * | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8056070B2 (en) * | 2007-01-10 | 2011-11-08 | Goller Michael D | System and method for modifying and updating a speech recognition program |
US8060371B1 (en) * | 2007-05-09 | 2011-11-15 | Nextel Communications Inc. | System and method for voice interaction with non-voice enabled web pages |
KR101359715B1 (ko) * | 2007-08-24 | 2014-02-10 | 삼성전자주식회사 | 모바일 음성 웹 제공 방법 및 장치 |
US20100306153A1 (en) * | 2009-05-27 | 2010-12-02 | Ruicao Mu | Rule based multimedia communication system on web pages |
GB0911353D0 (en) * | 2009-06-30 | 2009-08-12 | Haq Saad U | Discrete voice command navigator |
CN101667188A (zh) * | 2009-07-24 | 2010-03-10 | 刘雪英 | 一种在博客上实现音频视频留言和评论的方法和*** |
US20130031476A1 (en) * | 2011-07-25 | 2013-01-31 | Coin Emmett | Voice activated virtual assistant |
CN103226950A (zh) * | 2012-01-29 | 2013-07-31 | 特克特朗尼克公司 | 电信网络中的语音处理 |
US9223537B2 (en) * | 2012-04-18 | 2015-12-29 | Next It Corporation | Conversation user interface |
US10175938B2 (en) * | 2013-11-19 | 2019-01-08 | Microsoft Technology Licensing, Llc | Website navigation via a voice user interface |
US9536067B1 (en) * | 2014-01-01 | 2017-01-03 | Bryant Christopher Lee | Password submission without additional user input |
CN104123085B (zh) * | 2014-01-14 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 通过语音访问多媒体互动网站的方法和装置 |
US9288321B2 (en) * | 2014-03-07 | 2016-03-15 | Paypal, Inc. | Interactive voice response interface for webpage navigation |
-
2014
- 2014-01-14 CN CN201410015324.2A patent/CN104123085B/zh active Active
-
2015
- 2015-01-14 WO PCT/CN2015/070706 patent/WO2015106688A1/en active Application Filing
-
2016
- 2016-06-09 US US15/177,369 patent/US10936280B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567321A (zh) * | 2010-12-14 | 2012-07-11 | 许德武 | 一种基于语音识别的域名访问和搜索方法 |
CN102520792A (zh) * | 2011-11-30 | 2012-06-27 | 江苏奇异点网络有限公司 | 用于网络浏览器的语音式交互方法 |
CN103377028A (zh) * | 2012-04-20 | 2013-10-30 | 纽安斯通讯公司 | 用于以语音启动人机界面的方法和*** |
Also Published As
Publication number | Publication date |
---|---|
WO2015106688A1 (en) | 2015-07-23 |
CN104123085A (zh) | 2014-10-29 |
US10936280B2 (en) | 2021-03-02 |
US20160283193A1 (en) | 2016-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509619B (zh) | 一种语音交互方法及设备 | |
US11393476B2 (en) | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface | |
Jiang et al. | Automatic online evaluation of intelligent assistants | |
CN104123085B (zh) | 通过语音访问多媒体互动网站的方法和装置 | |
KR20190109532A (ko) | 서버 사이드 핫워딩 | |
US20150348533A1 (en) | Domain specific language for encoding assistant dialog | |
CN104380284A (zh) | 针对多种语言处理内容的语音合成 | |
KR102256705B1 (ko) | 수정된 용어들을 사용하는 음향 모델 트레이닝 | |
Heck et al. | Exploiting the semantic web for unsupervised spoken language understanding | |
CN103026318A (zh) | 输入法编辑器 | |
US11354754B2 (en) | Generating self-support metrics based on paralinguistic information | |
WO2020186828A1 (zh) | 应用程序快捷跳转方法、装置、电子设备和存储介质 | |
CN110288995B (zh) | 基于语音识别的交互方法、装置、存储介质和电子设备 | |
KR20070102267A (ko) | 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법 | |
CN102141868B (zh) | 快捷操作信息交互页面的方法、输入法***和浏览器插件 | |
Meena et al. | Automatic detection of miscommunication in spoken dialogue systems | |
KR20080086791A (ko) | 음성 기반 감정 인식 시스템 | |
CN109708256B (zh) | 一种语音确定方法、装置、存储介质及空调 | |
CN101751530A (zh) | 检测漏洞攻击行为的方法及设备 | |
CN103399766A (zh) | 更新输入法***的方法和设备 | |
KR20120038686A (ko) | 단말기의 어학 어플리케이션을 통한 학습 평가 방법 및 시스템 | |
US20220269724A1 (en) | Audio playing method, electronic device, and storage medium | |
CN111897511A (zh) | 一种语音绘图方法、装置、设备及存储介质 | |
CN112669842A (zh) | 人机对话控制方法、装置、计算机设备及存储介质 | |
CN103246648A (zh) | 语音输入控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |