CN112004157A - 一种多轮语音交互方法及显示设备 - Google Patents
一种多轮语音交互方法及显示设备 Download PDFInfo
- Publication number
- CN112004157A CN112004157A CN202010800952.7A CN202010800952A CN112004157A CN 112004157 A CN112004157 A CN 112004157A CN 202010800952 A CN202010800952 A CN 202010800952A CN 112004157 A CN112004157 A CN 112004157A
- Authority
- CN
- China
- Prior art keywords
- round
- service
- intention
- target
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 203
- 238000000034 method Methods 0.000 title claims abstract description 89
- 230000002452 interceptive effect Effects 0.000 claims abstract description 172
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 abstract description 47
- 239000010410 layer Substances 0.000 description 38
- 238000004891 communication Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 34
- 230000006870 function Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 235000015277 pork Nutrition 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- YWXYYJSYQOXTPL-SLPGGIOYSA-N isosorbide mononitrate Chemical compound [O-][N+](=O)O[C@@H]1CO[C@@H]2[C@@H](O)CO[C@@H]21 YWXYYJSYQOXTPL-SLPGGIOYSA-N 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 235000015067 sauces Nutrition 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/433—Query formulation using audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/4104—Peripherals receiving signals from specially adapted client devices
- H04N21/4122—Peripherals receiving signals from specially adapted client devices additional display device, e.g. video projector
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/432—Content retrieval operation from a local storage medium, e.g. hard-disk
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种多轮语音交互方法及显示设备,获取用户产生的第一轮交互语音,经过业务意图分析,若存在多业务意图则筛选出第一轮目标业务意图,并基于非目标业务意图的主指令词生成第一轮提示文本。用户在第二轮语音交互时,如果第二轮交互语音与第一轮提示文本中携带的主指令词匹配,则确定第二轮语音交互与第一轮语音交互构成多轮语音交互过程,此时,基于匹配的主指令词对应的业务意图进行查询,基于得到的第二轮查询信息生成第二轮提示文本。可见,该方法及显示设备,在语音交互存在多业务意图时,可通过多轮语音交互提供给用户自行选择的机会,实现多业务意图的实时切换,以更简便地为用户呈现多业务意图的信息,提升用户体验。
Description
技术领域
本申请涉及语音交互技术领域,尤其涉及一种多轮语音交互方法及显示设备。
背景技术
随着智能语音交互技术的发展,用户可与显示设备、智能终端等终端设备进行语音交互,以实现利用终端设备查询相关信息的功能。用户在与终端设备进行语音交互时,经常会存在多业务意图情况,例如:“刘德华”这个输入,存在三个潜在业务意图:看刘德华的影视、听刘德华的音乐、查询刘德华百科信息。可见,针对同一个输入,不同的人可能目标业务意图不一样。
为获得用户输入的目标业务意图,通常依靠语义后台识别算法识别用户业务意图。但是,识别算法很难准确识别用户的目标业务意图,如果语义后台识别的意图和用户目标业务意图不一致,会导致用户体验下降。
为此,目前在语音交互领域,通常采用在终端设备上呈现多TAB(标签列表)页的方式,同时展示用户潜在业务意图的查询信息,用户可以直接在终端设备上通过切换TAB页的方式手动切换业务意图。但是,若某些业务意图需依赖外部APP实现,将无法使用多TAB页的方式来进行切换。
发明内容
本申请提供了一种多轮语音交互方法及显示设备,以解决现有的语音交互存在多业务意图时,易存在无法进行多业务意图切换的问题。
第一方面,本申请提供了一种显示设备,包括:
显示器,被配置为显示第一轮提示文本或第二轮提示文本;
与所述显示器连接的控制器,所述控制器被配置为:
获取用户产生的第一轮交互语音,以及,对所述第一轮交互语音进行业务意图分析,判断是否存在多业务意图,所述多业务意图用于表征不同业务分类;
若存在所述多业务意图,则在所述多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图;
基于非目标业务意图对应的主指令词和所述第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本,所述非目标业务意图对应的主指令词是指所述多业务意图中除第一轮目标业务意图外的其他业务意图分别对应的主指令词;
获取用户基于所述第一轮提示文本产生的第二轮交互语音,以及,判断所述第二轮交互语音是否与所述第一轮提示文本中包含的主指令词匹配;
如果匹配,则基于所述第二轮交互语音对应的第二轮目标查询信息,生成第二轮提示文本。
本申请的一些实施例中,所述控制器在执行所述对第一轮交互语音进行意图分析之前,被进一步配置为:
判断本端是否存在与所述第一轮交互语音对应的多业务意图缓存信息,所述多业务意图缓存信息是指基于所述第一轮交互语音经过业务意图分析得到的存在多业务意图的信息;
如果不存在,则执行所述对第一轮交互语音进行意图分析的步骤。
本申请的一些实施例中,所述控制器在执行所述判断本端是否存在与所述第一轮交互语音对应的多业务意图缓存信息,被进一步配置为:
获取本端设备ID和接收到用户产生的第一轮交互语音的终端设备的目标设备ID;
如果所述本端设备ID和目标设备ID不一致,则确定本端不存在与所述第一轮交互语音对应的多业务意图缓存信息;
如果所述本端设备ID和目标设备ID一致,则确定本端存在与所述第一轮交互语音对应的多业务意图缓存信息。
本申请的一些实施例中,所述控制器在执行所述若存在多业务意图,则在所述多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图,被进一步配置为:
在存在多业务意图时,获取对应的多业务意图缓存信息,所述多业务意图缓存信息包括每个业务意图及对应的评分信息,所述评分信息用于表征对应的业务意图与第一轮交互语音的匹配度;
对比每个所述业务意图的评分信息,将所述评分信息对应的分数值最高的业务意图作为用户的第一轮目标业务意图。
本申请的一些实施例中,所述控制器在执行所述基于非目标业务意图对应的主指令词和所述第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本,被进一步配置为:
基于所述第一轮目标业务意图进行查询,得到第一轮目标查询信息;
获取每个非目标业务意图和指令词对照表,每个所述非目标业务意图对应所述指令词对照表中的至少一个指令词,所述非目标业务意图是指所述多业务意图中除第一轮目标业务意图之外的其他业务意图;
基于所述指令词对照表,在每个所述非目标业务意图对应的至少一个指令词中选出一个指令词作为主指令词;
基于所述第一轮目标查询信息和每个所述非目标业务意图对应的主指令词,生成第一轮提示文本并展示。
本申请的一些实施例中,所述控制器在执行所述判断第二轮交互语音是否与所述第一轮提示文本中包含的主指令词匹配之前,被进一步配置为:
判断本端是否存在与所述第一轮交互语音对应的多业务意图缓存信息;
如果存在,则执行所述判断第二轮交互语音是否与所述第一轮提示文本中包含的主指令词匹配的步骤。
本申请的一些实施例中,所述控制器在执行所述判断第二轮交互语音是否与所述第一轮提示文本中包含的主指令词匹配,被进一步配置为:
获取所述第二轮交互语音对应的语音交互文本和第一轮提示文本中携带的至少一个主指令词;
判断所述语音交互文本与每个所述主指令词的文本是否一致;
如果所述语音交互文本与其中一个主指令词的文本一致,则确定第二轮交互语音与所述第一轮提示文本中包含的主指令词匹配;
如果所述语音交互文本与任一个主指令词的文本均不一致,则确定第二轮交互语音与所述第一轮提示文本中包含的主指令词不匹配。
本申请的一些实施例中,所述控制器被进一步配置为:
如果所述第二轮交互语音与所述第一轮提示文本中包含的主指令词不匹配,则对所述第二轮交互语音进行业务意图分析,判断是否存在多业务意图;
若存在所述多业务意图,则在所述多业务意图中选出匹配度高的业务意图作为用户的第二轮目标业务意图;
基于新非目标业务意图对应的主指令词和所述第二轮目标业务意图对应的第二轮目标查询信息,生成第二轮提示文本,所述非新目标业务意图对应的主指令词是指所述多业务意图中除所述第二轮目标业务意图外的其他业务意图分别对应的主指令词。
本申请的一些实施例中,所述控制器被进一步配置为:
设定所述第一轮交互语音对应的多业务意图缓存信息的失效时间;
从获取到所述多业务意图缓存信息的初始时刻起,经过所述失效时间后,删除所述多业务意图缓存信息。
第二方面,本申请还提供了一种显示设备,包括:
显示器,被配置为显示第一轮提示文本或第二轮提示文本;
遥控器,被配置为产生控制指令;
与显示器和遥控器分别所述显示器连接的控制器,所述控制器被配置为:
获取用户产生的第一轮交互语音,以及,对所述第一轮交互语音进行业务意图分析,判断是否存在多业务意图,所述多业务意图用于表征不同业务分类;
若存在所述多业务意图,则在所述多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图;
对每个非目标业务意图分别设定控制序号,所述非目标业务意图是指所述多业务意图中除第一轮目标业务意图外的其他业务意图;
基于每个所述非目标业务意图对应的控制序号和所述第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本;
接收用户基于所述第一轮提示文本产生的控制指令;
如果所述控制指令对应的序号与其中一个控制序号匹配,则基于所述控制指令确定的第二轮目标业务意图对应的第二轮目标查询信息,生成第二轮提示文本。。
第三方面,本申请还提供了一种多轮语音交互方法,包括以下步骤:
获取用户产生的第一轮交互语音,以及,对所述第一轮交互语音进行业务意图分析,判断是否存在多业务意图,所述多业务意图用于表征不同业务分类;
若存在所述多业务意图,则在所述多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图;
基于非目标业务意图对应的主指令词和所述第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本,所述非目标业务意图对应的主指令词是指所述多业务意图中除第一轮目标业务意图外的其他业务意图分别对应的主指令词;
获取用户基于所述第一轮提示文本产生的第二轮交互语音,以及,判断所述第二轮交互语音是否与所述第一轮提示文本中包含的主指令词匹配;
如果匹配,则基于所述第二轮交互语音对应的第二轮目标查询信息,生成第二轮提示文本。
第四方面,本申请还提供了一种多轮语音交互方法,包括以下步骤:
获取用户产生的第一轮交互语音,以及,对所述第一轮交互语音进行业务意图分析,判断是否存在多业务意图,所述多业务意图用于表征不同业务分类;
若存在所述多业务意图,则在所述多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图;
对每个非目标业务意图分别设定控制序号,所述非目标业务意图是指所述多业务意图中除第一轮目标业务意图外的其他业务意图;
基于每个所述非目标业务意图对应的控制序号和所述第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本;
接收用户基于所述第一轮提示文本产生的控制指令;
如果所述控制指令对应的序号与其中一个控制序号匹配,则基于所述控制指令确定的第二轮目标业务意图对应的第二轮目标查询信息,生成第二轮提示文本。
第五方面,本申请还提供了一种存储介质,该计算机存储介质可存储有程序,该程序执行时可实现包括本申请提供的多轮语音交互方法各实施例中的部分或全部步骤。
由以上技术方案可知,本发明实施例提供的一种多轮语音交互方法及显示设备,获取用户产生的第一轮交互语音,经过业务意图分析,若存在多业务意图,为用户筛选出第一轮目标业务意图,并基于非目标业务意图的主指令词生成第一轮提示文本,以供用户进行业务意图切换。用户在第二轮语音交互时,如果第二轮交互语音与第一轮提示文本中携带的主指令词匹配,则确定第二轮语音交互与第一轮语音交互构成多轮语音交互过程,此时,基于匹配的主指令词对应的业务意图进行查询,基于得到的第二轮查询信息生成第二轮提示文本并进行展示。可见,该方法及显示设备,在语音交互存在多业务意图时,可通过多轮语音交互提供给用户自行选择的机会,实现多业务意图的实时切换,以更简便地为用户呈现多业务意图的信息,提升用户体验。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图;
图2中示例性示出了根据一些实施例的显示设备200的硬件配置框图;
图3中示例性示出了根据一些实施例的控制设备100的硬件配置框图;
图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图;
图5中示例性示出了根据一些实施例的显示设备200中应用程序的图标控件界面显示示意图;
图6中示例性示出了根据一些实施例的显示设备的结构框图;
图7中示例性示出了根据一些实施例的多轮语音交互方法的一种流程图;
图8中示例性示出了根据一些实施例的第一轮语音交互时的数据流图;
图9中示例性示出了根据一些实施例的选择第一轮目标业务意图的方法流程图;
图10中示例性示出了根据一些实施例的生成第一轮提示文本的方法流程图;
图11中示例性示出了根据一些实施例的生成第一轮提示文本的数据流图;
图12中示例性示出了根据一些实施例的第二轮语音交互时的数据流图;
图13中示例性示出了根据一些实施例的匹配主指令词的方法流程图;
图14中示例性示出了根据一些实施例的生成第二轮提示文本的方法流程图;
图15中示例性示出了根据一些实施例的多轮语音交互方法的另一种流程图;
图16中示例性示出了根据一些实施例的显示器展示提示文本的一种展示示意图;
图17中示例性示出了根据一些实施例的显示器展示提示文本的另一种展示示意图。
具体实施方式
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请中使用的术语“模块”,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
本申请中使用的术语“遥控器”,是指电子设备(如本申请中公开的显示设备)的一个组件,通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接,也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如:手持式触摸遥控器,是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。
本申请中使用的术语“手势”,是指用户通过一种手型的变化或手部运动等动作,用于表达预期想法、动作、目的/或结果的用户行为。
图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图。如图1中示出,用户可通过移动终端300和控制装置100操作显示设备200。
在一些实施例中,控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式等,通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备200。如:用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令,来实现控制显示设备200的功能。
在一些实施例中,也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如,使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上,在直观的用户界面(UI)中为用户提供各种控制。
在一些实施例中,移动终端300可与显示设备200安装软件应用,通过网络通信协议实现连接通信,实现一对一控制操作的和数据通信的目的。如:可以实现用移动终端300与显示设备200建立控制指令协议,将遥控控制键盘同步到移动终端300上,通过控制移动终端300上用户界面,实现控制显示设备200的功能。也可以将移动终端300上显示音视频内容传输到显示设备200上,实现同步显示功能。
如图1中还示出,显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的,显示设备200通过发送和接收信息,以及电子节目指南(EPG)互动,接收软件程序更新,或访问远程储存的数字媒体库。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。
显示设备200,可以液晶显示器、OLED显示器、投影显示设备。具体显示设备类型,尺寸大小和分辨率等不作限定,本领技术人员可以理解的是,显示设备200可以根据需要做性能和配置上一些改变。
显示设备200除了提供广播接收电视功能之外,还可以附加提供计算机支持功能的智能网络电视功能,包括但不限于,网络电视、智能电视、互联网协议电视(IPTV)等。
图2中示例性示出了根据一些实施例的显示设备200的硬件配置框图。
在一些实施例中,显示设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示器275,音频输出接口285、存储器260、供电电源290、用户接口265、外部装置接口240中的至少一种。
在一些实施例中,显示器275,用于接收源自第一处理器输出的图像信号,进行显示视频内容和图像以及菜单操控界面的组件。
在一些实施例中,显示器275,包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件。
在一些实施例中,显示视频内容,可以来自广播电视内容,也可以是说,可通过有线或无线通信协议接收的各种广播信号。或者,可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。
在一些实施例中,显示器275用于呈现显示设备200中产生且用于控制显示设备200的用户操控UI界面。
在一些实施例中,根据显示器275类型不同,还包括用于驱动显示的驱动组件。
在一些实施例中,显示器275为一种投影显示器,还可以包括一种投影装置和投影屏幕。
在一些实施例中,通信器220是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如:通信器220可以包括Wifi模块221,蓝牙模块222,有线以太网模块223等其他网络通信协议模块或近场通信协议模块,以及红外接收器中的至少一种。
在一些实施例中,显示设备200可以通过通信器220与外部控制设备100或内容提供设备之间建立控制信号和数据信号发送和接收。
在一些实施例中,用户接口265,可用于接收控制装置100(如:红外遥控器等)红外控制信号。
在一些实施例中,检测器230是显示设备200用于采集外部环境或与外部交互的信号。
在一些实施例中,检测器230包括光接收器,用于采集环境光线强度的传感器,可以通过采集环境光可以自适应性显示参数变化等。
在一些实施例中,检测器230还可以包括图像采集器232,如相机、摄像头等,可以用于采集外部环境场景,以及用于采集用户的属性或与用户交互手势,可以自适应变化显示参数,也可以识别用户手势,以实现与用户之间互动的功能。
在一些实施例中,检测器230还可以包括温度传感器等,如通过感测环境温度。
在一些实施例中,显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时,可调整显示设备200显示图像色温偏冷色调,或当温度偏低的环境时,可以调整显示设备200显示图像偏暖色调。
在一些实施例中,检测器230还包括声音采集器231等,如麦克风,可以用于接收用户的声音。示例性的,包括用户控制显示设备200的控制指令的语音信号,或采集环境声音,用于识别环境场景类型,使得显示设备200可以自适应适应环境噪声。
在一些实施例中,如图2所示,输入/输出接口255被配置为,可进行控制器250与外部其他设备或其他控制器250之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。
在一些实施例中,外部装置接口240可以包括,但不限于如下:可以高清多媒体接口HDMI接口、模拟或数据高清分量输入接口、复合视频输入接口、USB输入接口、RGB端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。
在一些实施例中,如图2所示,调谐解调器210被配置为,通过有线或无线接收方式接收广播电视信号,可以进行放大、混频和谐振等调制解调处理,从多多个无线或有线广播电视信号中解调出音视频信号,该音视频信号可以包括用户所选择电视频道频率中所携带的电视音视频信号,以及EPG数据信号。
在一些实施例中,调谐解调器210解调的频点受到控制器250的控制,控制器250可根据用户选择发出控制信号,以使的调制解调器响应用户选择的电视信号频率以及调制解调该频率所携带的电视信号。
在一些实施例中,广播电视信号可根据电视信号广播制式不同区分为地面广播信号、有线广播信号、卫星广播信号或互联网广播信号等。或者根据调制类型不同可以区分为数字调制信号,模拟调制信号等。或者根据信号种类不同区分为数字信号、模拟信号等。
在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。这样,机顶盒将接收到的广播电视信号调制解调后的电视音视频信号输出给主体设备,主体设备经过第一输入/输出接口接收音视频信号。
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250可以控制显示设备200的整体操作。例如:响应于接收到用于选择在显示器275上显示UI对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
在一些实施例中,所述对象可以是可选对象中的任何一个,例如超链接或图标。与所选择的对象有关操作,例如:显示连接到超链接页面、文档、图像等操作,或者执行与所述图标相对应程序的操作。用于选择UI对象用户命令,可以是通过连接到显示设备200的各种输入装置(例如,鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。
如图2所示,控制器250包括随机存取存储器251(Random Access Memory,RAM)、只读存储器252(Read-Only Memory,ROM)、视频处理器270、音频处理器280、其他处理器253(例如:图形处理器(Graphics Processing Unit,GPU)、中央处理器254(CentralProcessing Unit,CPU)、通信接口(Communication Interface),以及通信总线256(Bus)中的至少一种。其中,通信总线连接各个部件。
在一些实施例中,RAM 251用于存储操作***或其他正在运行中的程序的临时数据在一些实施例中,ROM 252用于存储各种***启动的指令。
在一些实施例中,ROM 252用于存储一个基本输入输出***,称为基本输入输出***(Basic Input Output System,BIOS)。用于完成对***的加电自检、***中各功能模块的初始化、***的基本输入/输出的驱动程序及引导操作***。
在一些实施例中,在收到开机信号时,显示设备200电源开始启动,处理器254运行ROM 252中***启动指令,将存储在存储器的操作***的临时数据拷贝至RAM 251中,以便于启动或运行操作***。当操作***启动完成后,处理器254再将存储器中各种应用程序的临时数据拷贝至RAM 251中,然后,以便于启动或运行各种应用程序。
在一些实施例中,处理器254,用于执行存储在存储器中操作***和应用程序指令。以及根据接收外部输入的各种交互指令,来执行各种应用程序、数据和内容,以便最终显示和播放各种音视频内容。
在一些示例性实施例中,处理器254,可以包括多个处理器。多个处理器可包括一个主处理器以及一个或多个子处理器。主处理器,用于在预加电模式中执行显示设备200一些操作,和/或在正常模式下显示画面的操作。一个或多个子处理器,用于在待机模式等状态下一种操作。
在一些实施例中,图形处理器253,用于产生各种图形对象,如:图标、操作菜单、以及用户输入指令显示图形等。包括运算器,通过接收用户输入各种交互指令进行运算,根据显示属性显示各种对象。以及包括渲染器,对基于运算器得到的各种对象,进行渲染,上述渲染后的对象用于显示在显示器上。
在一些实施例中,视频处理器270被配置为将接收外部视频信号,根据输入信号的标准编解码协议,进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等等视频处理,可得到直接可显示设备200上显示或播放的信号。
在一些实施例中,视频处理器270,包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。
其中,解复用模块,用于对输入音视频数据流进行解复用处理,如输入MPEG-2,则解复用模块进行解复用成视频信号和音频信号等。
视频解码模块,则用于对解复用后的视频信号进行处理,包括解码和缩放处理等。
图像合成模块,如图像合成器,其用于将图形生成器根据用户输入或自身生成的GUI信号,与缩放处理后视频图像进行叠加混合处理,以生成可供显示的图像信号。
帧率转换模块,用于对转换输入视频帧率,如将60Hz帧率转换为120Hz帧率或240Hz帧率,通常的格式采用如插帧方式实现。
显示格式化模块,则用于将接收帧率转换后视频输出信号,改变信号以符合显示格式的信号,如输出RGB数据信号。
在一些实施例中,图形处理器253可以和视频处理器可以集成设置,也可以分开设置,集成设置的时候可以执行输出给显示器的图形信号的处理,分离设置的时候可以分别执行不同的功能,例如GPU+FRC(Frame Rate Conversion))架构。
在一些实施例中,音频处理器280,用于接收外部的音频信号,根据输入信号的标准编解码协议,进行解压缩和解码,以及降噪、数模转换、和放大处理等处理,得到可以在扬声器中播放的声音信号。
在一些实施例中,视频处理器270可以包括一颗或多颗芯片组成。音频处理器,也可以包括一颗或多颗芯片组成。
在一些实施例中,视频处理器270和音频处理器280,可以单独的芯片,也可以于控制器一起集成在一颗或多颗芯片中。
在一些实施例中,音频输出,在控制器250的控制下接收音频处理器280输出的声音信号,如:扬声器286,以及除了显示设备200自身携带的扬声器之外,可以输出至外接设备的发生装置的外接音响输出端子,如:外接音响接口或耳机接口等,还可以包括通信接口中的近距离通信模块,例如:用于进行蓝牙扬声器声音输出的蓝牙模块。
供电电源290,在控制器250控制下,将外部电源输入的电力为显示设备200提供电源供电支持。供电电源290可以包括安装显示设备200内部的内置电源电路,也可以是安装在显示设备200外部电源,在显示设备200中提供外接电源的电源接口。
用户接口265,用于接收用户的输入信号,然后,将接收用户输入信号发送给控制器250。用户输入信号可以是通过红外接收器接收的遥控器信号,可以通过网络通信模块接收各种用户控制信号。
在一些实施例中,用户通过控制装置100或移动终端300输入用户命令,用户输入接口则根据用户的输入,显示设备200则通过控制器250响应用户的输入。
在一些实施例中,用户可在显示器275上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
在一些实施例中,“用户界面”,是应用程序或操作***与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
存储器260,包括存储用于驱动显示设备200的各种软件模块。如:第一存储器中存储的各种软件模块,包括:基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等中的至少一种。
基础模块用于显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息,并进行数模转换以及分析管理的管理模块。
例如,语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器进行显示图像内容的模块,可以用于播放多媒体图像内容和UI界面等信息。通信模块,用于与外部设备之间进行控制和数据通信的模块。浏览器模块,用于执行浏览服务器之间数据通信的模块。服务模块,用于提供各种服务以及各类应用程序在内的模块。同时,存储器260还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。
图3示例性示出了根据一些实施例的控制设备100的配置框图。如图3所示,控制设备100包括控制器110、通信接口130、用户输入/输出接口、存储器、供电电源。
控制设备100被配置为控制显示设备200,以及可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,起用用户与显示设备200之间交互中介作用。如:用户通过操作控制设备100上频道加减键,显示设备200响应频道加减的操作。
在一些实施例中,控制设备100可是一种智能设备。如:控制设备100可根据用户需求安装控制显示设备200的各种应用。
在一些实施例中,如图1所示,移动终端300或其他智能电子设备,可在安装操控显示设备200的应用之后,可以起到控制设备100类似功能。如:用户可以通过安装应用,在移动终端300或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮,以实现控制设备100实体按键的功能。
控制器110包括处理器112和RAM 113和ROM 114、通信接口130以及通信总线。控制器用于控制控制设备100的运行和操作,以及内部各部件之间通信协作以及外部和内部的数据处理功能。
通信接口130在控制器110的控制下,实现与显示设备200之间控制信号和数据信号的通信。如:将接收到的用户输入信号发送至显示设备200上。通信接口130可包括WiFi芯片131、蓝牙模块132、NFC模块133等其他近场通信模块中至少之一种。
用户输入/输出接口140,其中,输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如:用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能,输入接口通过将接收的模拟信号转换为数字信号,以及数字信号转换为相应指令信号,发送至显示设备200。
输出接口包括将接收的用户指令发送至显示设备200的接口。在一些实施例中,可以红外接口,也可以是射频接口。如:红外信号接口时,需要将用户输入指令按照红外控制协议转化为红外控制信号,经红外发送模块进行发送至显示设备200。再如:射频信号接口时,需将用户输入指令转化为数字信号,然后按照射频控制信号调制协议进行调制后,由射频发送端子发送至显示设备200。
在一些实施例中,控制设备100包括通信接口130和输入输出接口140中至少一者。控制设备100中配置通信接口130,如:WiFi、蓝牙、NFC等模块,可将用户输入指令通过WiFi协议、或蓝牙协议、或NFC协议编码,发送至显示设备200.
存储器190,用于在控制器的控制下存储驱动和控制控制设备200的各种运行程序、数据和应用。存储器190,可以存储用户输入的各类控制信号指令。
供电电源180,用于在控制器的控制下为控制设备100各元件提供运行电力支持。可以电池及相关控制电路。
在一些实施例中,***可以包括内核(Kernel)、命令解析器(shell)、文件***和应用程序。内核、shell和文件***一起组成了基本的操作***结构,它们让用户可以管理文件、运行程序并使用***。上电后,内核启动,激活内核空间,抽象硬件、初始化硬件参数等,运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后,再加载Shell和用户应用程序。应用程序在启动后被编译成机器码,形成一个进程。
图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图。参见图4,在一些实施例中,将***分为四层,从上至下分别为应用程序(Applications)层(简称“应用层”),应用程序框架(Application Framework)层(简称“框架层”),安卓运行时(Androidruntime)和***库层(简称“***运行库层”),以及内核层。
在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作***自带的窗口(Window)程序、***设置程序、时钟程序、相机应用等;也可以是第三方开发者所开发的应用程序,比如嗨见程序、K歌程序、魔镜程序等。在具体实施时,应用程序层中的应用程序包不限于以上举例,实际还可以包括其它应用程序包,本申请实施例对此不做限制。
框架层为应用程序层的应用程序提供应用编程接口(application programminginterface,API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心,这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口,可在执行中访问***中的资源和取得***的服务
如图4所示,本申请实施例中应用程序框架层包括管理器(Managers),内容提供者(Content Provider)等,其中管理器包括以下模块中的至少一个:活动管理器(ActivityManager)用与和***中正在运行的所有活动进行交互;位置管理器(LocationManager)用于给***服务或应用提供了***位置服务的访问;文件包管理器(PackageManager)用于检索当前安装在设备上的应用程序包相关的各种信息;通知管理器(NotificationManager)用于控制通知消息的显示和清除;窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。
在一些实施例中,活动管理器用于:管理各个应用程序的生命周期以及通常的导航回退功能,比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到***桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。
在一些实施例中,窗口管理器用于管理所有的窗口程序,比如获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕,控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。
在一些实施例中,***运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作***会运行***运行库层中包含的C/C++库以实现框架层要实现的功能。
在一些实施例中,内核层是硬件和软件之间的层。如图4所示,内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,触摸传感器、压力传感器等)等。
在一些实施例中,内核层还包括用于进行电源管理的电源驱动模块。
在一些实施例中,图4中的软件架构对应的软件程序和/或模块存储在图2或图3所示的第一存储器或第二存储器中。
在一些实施例中,以魔镜应用(拍照应用)为例,当遥控接收装置接收到遥控器输入操作,相应的硬件中断被发给内核层。内核层将输入操作加工成原始输入事件(包括输入操作的值,输入操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件,根据焦点当前的位置识别该输入事件所对应的控件以及以该输入操作是确认操作,该确认操作所对应的控件为魔镜应用图标的控件,魔镜应用调用应用框架层的接口,启动魔镜应用,进而通过调用内核层启动摄像头驱动,实现通过摄像头捕获静态图像或视频。
在一些实施例中,对于具备触控功能的显示设备,以分屏操作为例,显示设备接收用户作用于显示屏上的输入操作(如分屏操作),内核层可以根据输入操作产生相应的输入事件,并向应用程序框架层上报该事件。由应用程序框架层的活动管理器设置与该输入操作对应的窗口模式(如多窗口模式)以及窗口位置和大小等。应用程序框架层的窗口管理根据活动管理器的设置绘制窗口,然后将绘制的窗口数据发送给内核层的显示驱动,由显示驱动在显示屏的不同显示区域显示与之对应的应用界面。
图5中示例性示出了根据一些实施例的显示设备200中应用程序的图标控件界面显示示意图。在一些实施例中,如图5中所示,应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件,如:直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。
在一些实施例中,直播电视应用程序,可以通过不同的信号源提供直播电视。例如,直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及,直播电视应用程序可在显示设备200上显示直播电视信号的视频。
在一些实施例中,视频点播应用程序,可以提供来自不同存储源的视频。不同于直播电视应用程序,视频点播提供来自某些存储源的视频显示。例如,视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。
在一些实施例中,媒体中心应用程序,可以提供各种多媒体内容播放的应用程序。例如,媒体中心,可以为不同于直播电视或视频点播,用户可通过媒体中心应用程序访问各种图像或音频所提供服务。
在一些实施例中,应用程序中心,可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序,或某些和计算机***或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序,将它们储存在本地储存器中,然后在显示设备200上可运行。
用户在与显示设备进行智能语音交互时,由于用户产生的语料可能因为用语不规范、缩略用语等原因导致产生歧义,即存在多种业务意图,例如:“刘德华”这个输入语料,存在三个潜在业务意图:看刘德华的影视、听刘德华的音乐、查询刘德华百科信息。
显示设备在向用户展示语音交互的搜索信息时,会将与每个业务意图对应的信息均展示给用户,即通常采用在终端设备上呈现多TAB(标签列表)页的方式,同时展示用户潜在业务意图的查询信息。用户可以直接在终端设备上通过切换TAB页的方式手动切换业务意图。但是,若某些业务意图需依赖外部APP实现,将无法使用多TAB页的方式来进行切换。并且,多TAB页的业务代码和单TAB页的业务代码不同,也就是需要维护两套代码,导致代码后期维护困难。
因此,为便于能够简便地为用户呈现多业务意图的信息,本发明实施例提供一种显示设备,可通过多轮语音交互的方式,即使用户输入的交互语音存在多业务意图,可先返回给用户一个潜在业务意图的结果,同时生成提示文本,提示用户在第二轮语音交互时通过指令词切换到其最感兴趣的一个业务意图。通过多轮语音交互,以在用户产生的交互语音存在多业务意图时,提供给用户自行选择的机会,进行多业务意图的及时切换,提升用户体验。
图6中示例性示出了根据一些实施例的显示设备的结构框图。本发明实施例提供的一种显示设备,包括:显示器和控制器,显示器被配置为显示第一轮提示文本或第二轮提示文本;控制器与显示器连接,控制器被配置为执行多轮语音交互方法的相关步骤。
图7中示例性示出了根据一些实施例的多轮语音交互方法的一种流程图;图8中示例性示出了根据一些实施例的第一轮语音交互时的数据流图。参见图7和图8,本发明实施例提供的一种显示设备,在进行多轮语音交互时,控制器被配置为执行下述步骤:
S1、获取用户产生的第一轮交互语音,以及,对第一轮交互语音进行业务意图分析,判断是否存在多业务意图,多业务意图用于表征不同业务分类。
用户向显示设备发起语音交互请求,控制器内配置的语音后台服务获取到用户发起语音交互请求时产生的第一轮交互语音,例如,“我要看电影”、“音乐”等。
控制器接收到第一轮交互语音,先判断本端是否存储有对应的多业务意图缓存信息,多业务意图缓存信息是用户的交互语音存在歧义时产生的多个潜在业务意图的结果。
业务意图是指用户想要执行的业务分类,例如,如果第一轮交互语音为“我想看刘德华的电影”,则业务意图为“影视”。
在一些实施例中,控制器在获取到第一轮交互语音之后,判断本端是否存在与第一轮交互语音对应的多业务意图缓存信息,多业务意图缓存信息是指基于第一轮交互语音经过业务意图分析得到的存在多业务意图的信息;如果不存在,则执行对第一轮交互语音进行意图分析的步骤。
通常情况下,用户在与显示设备进行第一轮语音交互时,由于是首次语音交互,因此,本端不会存在多业务意图缓存信息。
在判断本端不存在多业务意图缓存信息时,再调用控制器内配置的语义引擎对第一轮交互语音进行业务意图分析,以判断第一轮交互语音是否存在多业务意图,即判断第一轮交互语音是否存在歧义。
将第一轮交互语音输入语义引擎,语义引擎可自行分析第一轮交互语音是否存在多业务意图。
例如,如果第一轮交互语音为“我要吃红烧肉”,通过语义引擎分析可得到两个业务意图:点外卖和红烧肉做法,此时,可确定第一轮交互语音存在多业务意图。如果第一轮交互语音为“刘德华的电影”,通过语义引擎分析可得到一个业务意图:搜索刘德华演的电影,此时,可确定第一轮交互语音不存在多业务意图,为单业务意图。
S2、若存在多业务意图,则在多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图。
为便于为用户提供用户最期待的一个业务意图,可在多业务意图中,选出一个与第一轮交互语音匹配度最高的业务意图作为用户的第一轮目标业务意图。
图9中示例性示出了根据一些实施例的选择第一轮目标业务意图的方法流程图。参见图9,在一些实施例中,控制器在执行若存在多业务意图,则在多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图,被进一步配置为:
S21、在存在多业务意图时,获取对应的多业务意图缓存信息,多业务意图缓存信息包括每个业务意图及对应的评分信息,评分信息用于表征对应的业务意图与第一轮交互语音的匹配度。
S22、对比每个业务意图的评分信息,将评分信息对应的分数值最高的业务意图作为用户的第一轮目标业务意图。
若第一轮交互语音存在多业务意图,则获取第一轮交互语音对应的多业务意图缓存信息,以得到每个潜在的业务意图和每个业务意图的评分信息。评分信息由语义引擎基于第一轮交互语音和每个业务意图进行计算相似度得到的分数,分数越高,说明该分数对应的业务意图与第一轮交互语音越匹配,与用户搜索目标业务意图最相似。
因此,将每个潜在的业务意图的评分信息进行对比,选择评分信息所对应的分数值最高的业务意图作为用户的第一轮目标业务意图。
S3、基于非目标业务意图对应的主指令词和第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本,非目标业务意图对应的主指令词是指多业务意图中除第一轮目标业务意图外的其他业务意图分别对应的主指令词。
为实现多业务意图的及时切换,控制器在基于第一轮目标业务意图进行推荐相关查询信息的同时,还将其他潜在的业务意图以指令词的形式同时展示给用户,以便于用户能够基于指令词查询对应的业务意图。
每个业务意图对应多个指令词,但是在展示给用户时,需选择其他一个指令词作为主指令词展示给用户。因此,需获取非目标业务意图对应的主指令词,非目标业务意图对应的主指令词是指多业务意图中除第一轮目标业务意图外的其他业务意图分别对应的主指令词。
在向用户展示查询信息时,展示内容包括基于第一轮目标业务意图查询得到的第一轮目标查询信息和其他业务意图对应的主指令词,并以第一轮提示文本的形式进行展示。
图10中示例性示出了根据一些实施例的生成第一轮提示文本的方法流程图。参见图10,控制器在执行基于非目标业务意图对应的主指令词和第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本,被进一步配置为:
S31、基于第一轮目标业务意图进行查询,得到第一轮目标查询信息。
每个业务意图对应一个微服务,微服务用于执行与该业务意图对应的任务。例如,如果业务意图为音乐,则微服务为打开音乐、播放音乐;若业务意图为刘德华的百科信息,则微服务为搜索刘德华的百科信息。
在确定用户的第一轮目标业务意图之后,即可调用对应的微服务进行查询或搜索,得到第一轮目标查询信息。
S32、获取每个非目标业务意图和指令词对照表,每个非目标业务意图对应指令词对照表中的至少一个指令词,非目标业务意图是指多业务意图中除第一轮目标业务意图之外的其他业务意图。
在第一轮交互语音存在多业务意图,且选择出第一轮目标业务意图后,其余的业务意图均为非目标业务意图。由于每个业务意图均对应至少一个指令词,例如,业务意图“影视”,其对应的指令词可为“影视”、“电影”等。指令词用于启动相应的业务意图对应的微服务,以执行相应的任务。
每个业务意图对应至少一个指令词,形成指令词对照表,并保存在控制器中。每个业务意图的指令词可由用户自定义,也可由语音后台服务默认设定。
S33、基于指令词对照表,在每个非目标业务意图对应的至少一个指令词中选出一个指令词作为主指令词。
由于指令词对照表中可呈现多个业务意图及其对应的多个指令词,在生成提示文本时,需利用其中一个指令词作为主指令词,因此,需在某个非目标业务意图对应的多个指令词中选出一个指令词作为主指令词。选取方法可采用随机的形式,本实施例不做具体限定。
例如,业务意图“影视”,其对应的指令词可为“影视”、“电影”,此时,可选取指令词“影视”作为业务意图“影视”的主指令词。
S34、基于第一轮目标查询信息和每个非目标业务意图对应的主指令词,生成第一轮提示文本并展示。
为便于向用户提供查询结果和第二轮语音交互提示,控制器需基于第一轮目标查询信息和每个非目标业务意图对应的主指令词,生成第一轮提示文本,第一轮提示文本包括提示文本信息和第一轮目标查询信息,提示文本信息基于各个主指令词生成。在显示器中展示第一轮提示文本,以供用户在多业务意图时进行多意图切换。
图11中示例性示出了根据一些实施例的生成第一轮提示文本的数据流图。参见图11,在生成第一轮提示文本时,先基于多业务意图缓存信息判断是否存在多业务意图,如果存在多业务意图,则基于第一轮目标查询信息和每个非目标业务意图对应的主指令词,生成第一轮提示文本。
例如,如果第一轮交互语音为“刘德华”,且确定出第一轮目标业务意图为“百科信息”,其他的业务意图分别为影视和音乐,影视的主指令词是“电影”,音乐的主指令词是“音乐”,则生成的第一轮提示文本中,提示文本信息可表示为“为您找到以下关于刘德华的百科信息,如果您要看电影,请说‘电影’,如果要听歌,请说‘音乐’”。同时展示提示文本信息和刘德华的百科信息。
如果第一轮交互语音不存在多业务意图,仅为单业务意图,则在生成第一轮提示文本时,仅需根据第一轮交互语音对应的业务意图进行查询得到的查询信息生成即可,得到默认的提示文本。例如,如果第一轮交互语音为“刘德华的电影”,则唯一的业务意图为“影视”,基于“影视”进行搜索,得到多个由刘德华参演的电影信息。基于多个由刘德华参演的电影信息,生成的第一轮提示文本中,提示文本信息可表示为“为您找到以下关于刘德华的电影信息”;同时展示提示文本信息和刘德华参演的电影信息。
显示器中显示第一轮提示文本后,用户若想查看其他业务意图的相关信息,则可根据第一轮提示文本的提示,说出第二轮交互语音,若为主指令词,则可选择对应的业务意图进行相关信息的展示。
S4、获取用户基于第一轮提示文本产生的第二轮交互语音,以及,判断第二轮交互语音是否与第一轮提示文本中包含的主指令词匹配。
图12中示例性示出了根据一些实施例的第二轮语音交互时的数据流图。参见图12,用户在查看到第一轮提示文本后,若显示器中展示的第一轮目标查询信息并非自己想要的内容,或者,其对其他业务意图的信息也感兴趣,则可基于第一轮提示文本中的提示,再次与显示设备产生交互语音,即第二轮交互语音。
在进行第二轮语音交互时,需要先判断当前本端设备是否存在与第一轮交互语音对应的多业务意图缓存信息,以确定第二轮语音交互是基于第一轮语音交互后产生的交互过程。
为此,控制器在获取第二轮交互语音之后,以及,在执行判断第二轮交互语音是否与第一轮提示文本中包含的主指令词匹配之前,被进一步配置为:
步骤411、判断本端是否存在与第一轮交互语音对应的多业务意图缓存信息。
步骤412、如果存在,则执行判断第二轮交互语音是否与第一轮提示文本中包含的主指令词匹配的步骤。
判断当前本端设备是否存在与第一轮交互语音对应的多业务意图缓存信息,如果存在,则说明第二轮交互语音是基于第一轮语音交互后产生的交互过程,以便于能够执行多轮语音交互。如果不存在,则可判定为首次与显示设备进行交互,即将第二轮交互语音等效为第一轮交互语音,执行前述基于第一轮交互语音处理的相关步骤,此处不再赘述。
在判断本端设备中是否存在多业务意图缓存信息时,由于在一段时间内,基于同一显示设备进行的语音交互,可确定为多轮语音交互,因此,可依据设备ID来判断本端设备是否存在多业务意图缓存信息。
在一些实施例中,控制器在执行判断本端是否存在与第一轮交互语音对应的多业务意图缓存信息,被进一步配置为:
步骤4111、获取本端设备ID和接收到用户产生的第一轮交互语音的终端设备的目标设备ID。
步骤4112、如果本端设备ID和目标设备ID不一致,则确定本端不存在与第一轮交互语音对应的多业务意图缓存信息。
步骤4113、如果本端设备ID和目标设备ID一致,则确定本端存在与第一轮交互语音对应的多业务意图缓存信息。
如果用户在先后两次与显示设备进行语音交互时,所交互的显示设备应为同一个,则显示设备的ID不变。因此,可根据当前接收到第二轮交互语音的本端设备ID和接收到用户产生的第一轮交互语音的终端设备的目标设备ID进行对比。
如果两个设备ID对比不一致,说明用户先后两次语音交互的显示设备发生变化,即当前接收到的第二轮交互语音并非基于第一轮交互语音之后产生,进而确定本端不存在与第一轮交互语音对应的多业务意图缓存信息。
如果两个设备ID对比一致,说明用户先后两次语音交互的显示设备未发生变化,即当前接收到的第二轮交互语音是基于第一轮交互语音之后产生,进而确定本端存在与第一轮交互语音对应的多业务意图缓存信息。
在判定出第二轮交互语音是基于第一轮交互语音之后产生时,即可将第二轮交互语音与第一轮提示文本中包含的主指令词进行匹配,以进行第二轮语音交互的处理过程。
图13中示例性示出了根据一些实施例的匹配主指令词的方法流程图。参见图13,在一些实施例中,控制器在执行判断第二轮交互语音是否与第一轮提示文本中包含的主指令词匹配,被进一步配置为:
S421、获取第二轮交互语音对应的语音交互文本和第一轮提示文本中携带的至少一个主指令词。
S422、判断语音交互文本与每个主指令词的文本是否一致。
S423、如果语音交互文本与其中一个主指令词的文本一致,则确定第二轮交互语音与第一轮提示文本中包含的主指令词匹配。
S424、如果语音交互文本与任一个主指令词的文本均不一致,则确定第二轮交互语音与第一轮提示文本中包含的主指令词不匹配。
在判断第二轮交互语音是否为第一轮提示文本中提示的主指令词时,将第二轮交互语音对应的语音交互文本与第一轮提示文本中携带的每个主指令词的文本进行对比。如果语音交互文本与其中一个主指令词的文本对比一致,则说明第二轮交互语音是基于第一轮提示语音文本中的主指令词产生,此时,确定第二轮交互语音与第一轮提示文本中包含的主指令词匹配。
如果语音交互文本与任何一个主指令词的文本对比均不一致,则说明第二轮交互语音并非基于第一轮提示语音文本中的主指令词产生,此时,确定第二轮交互语音与第一轮提示文本中包含的主指令词不匹配。
上述实施例采用的是全匹配的匹配方式,即交互语音的文本与主指令词的文本完成一样,即认为匹配一致。而在其他实施例中,还可采用正则匹配方式,即交互语音的文本中存在主指令词的文本,即可认为匹配一致。
在一些实施例中,在采用正则匹配方式时,判断第二轮交互语音对应的语音交互文本中是否存在第一轮提示文本中携带的某个主指令词的文本,若存在其中一个主指令词的文本,则说明第二轮交互语音是基于第一轮提示语音文本中的主指令词产生,此时,确定第二轮交互语音与第一轮提示文本中包含的主指令词匹配。若不存在任一个主指令词的文本,则说明第二轮交互语音并非基于第一轮提示语音文本中的主指令词产生,此时,确定第二轮交互语音与第一轮提示文本中包含的主指令词不匹配。
例如,第一轮提示文本中携带的主指令词为“音乐”和“影视”,在采用全匹配方法时,如果第二轮交互语音对应的语音交互文本为“音乐”,则确定第二轮交互语音与第一轮提示文本中包含的主指令词匹配。
在采用正则匹配方式时,如果第二轮交互语音对应的语音交互文本为“我想看电影”,而“我想看电影”的业务意图为“影视”,此时,可确定第二轮交互语音对应的语音交互文本“我想看电影”中存在主指令词“影视”,则确定第二轮交互语音与第一轮提示文本中包含的主指令词匹配。或者,如果第二轮交互语音对应的语音交互文本为“我想听音乐”,存在主指令词“音乐”,则确定第二轮交互语音与第一轮提示文本中包含的主指令词匹配。
S5、如果匹配,则基于第二轮交互语音对应的第二轮目标查询信息,生成第二轮提示文本。
如果第二轮交互语音与第一轮提示文本中包含的某个主指令词匹配,说明第二轮语音交互与第一轮语音交互构成多轮语音交互过程,且第二轮语音交互过程仅存在一个业务意图,即第二轮交互语音产生的第二轮目标业务意图即为匹配主指令词对应的业务意图,也就是说,主指令词对应的业务意图即为用户所期待的业务意图。
每个业务意图对应一个微服务,微服务用于执行与该业务意图对应的任务。在第二轮交互语音与第一轮提示文本中包含的某个主指令词匹配之后,即可调用对应的微服务基于与第二轮交互语音匹配的主指令词对应的业务意图进行查询或搜索,得到第二轮目标查询信息。
在第二轮语音交互后,用户即可实现业务意图由第一轮目标业务意图到第二轮目标业务意图(与主指令词对应的业务意图)的切换,此时,可根据第二轮目标查询信息,生成第二轮提示文本,第二轮提示文本包括提示文本信息和第二轮目标查询信息,提示文本信息基于第二轮目标查询信息生成。在显示器中展示第二轮提示文本,实现第二轮目标查询信息在显示器中的展示。生成第二轮提示文本的实现过程可参照图10所示的生成第一轮提示文本的实现过程,此处不再赘述。
基于第一轮语义交互与第二轮语音交互构成多轮语音交互过程的场景,例如,用户产生的第一轮交互语音为“我要吃红烧肉”;判断出本端不存在多业务意图缓存信息;调用语义引擎进行意图分析;得到两个业务意图:点外卖和菜谱(红烧肉做法);且外卖的分数高于菜谱的分数;调用外卖的微服务获取外卖的搜索信息;生成第一轮提示文本:为您找到以下关于外卖的结果,您如果要做菜,请说“做菜”进行展示,并展示外卖的搜索信息。其中,指令词“做菜”与业务意图“菜谱”为全匹配方式。
用户产生的第二轮交互语音为“做菜”;判断出本端存在多业务意图缓存信息;与第一轮提示文本中的主指令词(做菜)匹配;查询主指令词“做菜”的意图为菜谱;调用菜谱的微服务获取菜谱的查询信息;生成第二轮提示文本:为您找到以下关于菜谱的结果;返回并展示查询信息。
可见,上述实施例提供的显示设备,可在第一轮语音交互时为用户筛选出第一轮目标业务意图,并基于非目标业务意图的主指令词生成第一轮提示文本,以供用户进行业务意图切换。如果用户在第二轮语音交互时,判断第二轮交互语音是否与第一轮提示文本中携带的主指令词匹配,如果匹配,则确定第二轮语音交互与第一轮语音交互构成多轮语音交互过程,此时,基于匹配的主指令词对应的业务意图进行查询,基于得到的第二轮查询信息生成第二轮提示文本并进行展示。该显示设备可通过多轮语音交互,提供给用户自行选择的机会,实现多业务意图的实时切换,以更简便地为用户呈现多业务意图的信息,提升用户体验。
图14中示例性示出了根据一些实施例的生成第二轮提示文本的方法流程图。参见图12和图14,在一些实施例中,在第二轮交互语音与第一轮提示文本中包含的主指令词进行匹配时,如果不匹配,则第二轮语音交互与第一轮语音交互并未构成多轮语音交互过程,此时,控制器被进一步配置为执行下述步骤:
S61、如果第二轮交互语音与第一轮提示文本中包含的主指令词不匹配,则对第二轮交互语音进行业务意图分析,判断是否存在多业务意图。
S62、若存在多业务意图,则在多业务意图中选出匹配度高的业务意图作为用户的第二轮目标业务意图。
S63、基于新非目标业务意图对应的主指令词和第二轮目标业务意图对应的第二轮目标查询信息,生成第二轮提示文本,非新目标业务意图对应的主指令词是指多业务意图中除第二轮目标业务意图外的其他业务意图分别对应的主指令词。
如果第二轮交互语音与第一轮提示文本中包含的主指令词不匹配,则说明第二轮语音交互与第一轮语音交互并未构成多轮语音交互过程,此时,可将第二轮交互语音作为下一次多轮语音交互过程的第一轮交互语音。
将第二轮交互语音作为下一次多轮语音交互过程的第一轮交互语音进行处理时,需对第二轮交互语音进行意图分析,判断第二轮交互语音是否存在多业务意图。具体实现方式可参照前述实施例中步骤S1所述的关于对第一轮交互语音进行业务意图分析的相关实现过程,此处不再赘述。
多业务意图分析的结果包括两个:存在多业务意图和不存在业务意图。若存在多业务意图,则在多业务意图中选出第二轮目标业务意图。具体的实现过程可参照前述实施例中步骤S2及相关步骤所述的选取第一轮目标业务意图的相关实现过程,此处不再赘述。
获取出第二轮目标业务意图意外的其他业务意图的主指令词,基于新非目标业务意图对应的主指令词和第二轮目标业务意图对应的第二轮目标查询信息,生成第二轮提示文本。具体实现方式可参照前述实施例中步骤S3及相关步骤所述的关于生成第一轮提示文本的相关实现过程,此处不再赘述。
若第二轮交互语音不存在多业务意图,仅为单业务意图,则在生成默认的第二轮提示文本时,仅需根据第二轮交互语音对应的业务意图进行查询得到的查询信息生成即可。
由于第二轮语音交互与第一轮语音交互并未构成多轮语音交互过程时,第二轮交互语音可作为下一次多轮语音交互过程的第一轮交互语音,因此,可依据此场景生成的第二轮提示文本进行下一次语音交互(第三次语音交互),第三次语音交互过程可参照前述实施例提出的构成多轮语音交互过程中的第二轮语音交互过程,此处不再赘述。
在判断某一次语音交互是第一轮语音交互过程还是第二轮语音交互过程,可通过判断显示设备内是否存在多业务意图缓存信息来实现。如果是第一轮语音交互过程,则还未进行业务意图分析,因此,不存在多业务意图缓存信息;如果是第二轮语音交互过程,则已进行过业务意图分析,因此,存在多业务意图缓存信息。
但是,若用户在前一天进行一次语音交互,而在后一天又进行一次语音交互,可见,用户在后一天进行的语音交互应识别为当天的第一次语音交互过程,但由于显示设备内存储有前一天语音交互时的多业务意图缓存信息,则导致将后一天进行的语音交互应识别为前一天的第二次语音交互过程,出现识别错误。
因此,为保证能够进行准确的多轮语音交互,可设定多业务意图缓存信息的失效时间,即每次进行多轮语音交互时的多业务意图缓存信息仅会保存一段时间,超过该时间,就会被删除,以保证能够准确地判定语音交互过程的实现轮次。
在一些实施例中,为保证能够准确地判定语音交互过程的实现轮次,控制器被进一步配置为执行下述步骤:
步骤71、设定第一轮交互语音对应的多业务意图缓存信息的失效时间。
步骤72、从获取到多业务意图缓存信息的初始时刻起,经过失效时间后,删除多业务意图缓存信息。
在一些实施例中,多业务意图缓存信息的失效时间可设定为30秒,也可设置成其他时间,此处不做具体限定。
在语义引擎经过业务意图分析,得到第一轮交互语音对应的多业务意图缓存信息的初始时刻起,经过失效时间之后,控制器调用语音后台服务自动删除多业务意图缓存信息。
例如,在经过第一轮语音交互后,如果在失效时间内,接收到下一次的语音交互,则可将该次语音交互过程识别为第二轮语音交互;如果经过失效时间之后,才接收到下一次的语音交互,则可将该次语音交互过程识别为新的第一轮语音交互过程。
在一些实施例中,在完成一次业务意图切换,即进行多轮语音交互后,语音后台服务也会主动删除多业务意图缓存信息。
在一些实施例中,在进行多轮语音交互过程中,实现多业务意图切换时,第二轮语音交互过程还可采用按键匹配的方法,按键为用于控制显示设备的遥控器的数字按键。
图15中示例性示出了根据一些实施例的多轮语音交互方法的另一种流程图。具体地,参见图15,本发明实施例提供的一种显示设备,包括:显示器,被配置为显示第一轮提示文本或第二轮提示文本;遥控器,被配置为产生控制指令;与显示器和遥控器分别连接的控制器,控制器被配置为执行下述步骤:
S01、获取用户产生的第一轮交互语音,以及,对第一轮交互语音进行业务意图分析,判断是否存在多业务意图,多业务意图用于表征不同业务分类。
S02、若存在多业务意图,则在多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图。
S03、对每个非目标业务意图分别设定控制序号,非目标业务意图是指所述多业务意图中除第一轮目标业务意图外的其他业务意图。
S04、基于每个非目标业务意图对应的控制序号和第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本。
S05、接收用户基于所述第一轮提示文本产生的控制指令。
S06、如果控制指令对应的序号与其中一个控制序号匹配,则基于控制指令确定的第二轮目标业务意图对应的第二轮目标查询信息,生成第二轮提示文本。
步骤S01至S02的实现过程可参照前述实施例中步骤S1至S2的实现过程,此处不再赘述。
控制器在第一轮语音交互过程时,基于第一轮交互语音识别到多业务意图,则对每个业务意图分别设定控制序号。例如,多业务意图分别为“音乐”和“影视”,则可设定控制序号1代表“音乐”,控制序号2代表“影视”。
而后控制器基于控制序号的设定结果和第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本。例如,如果第一轮交互语音为“刘德华”,且确定出第一轮目标业务意图为“百科信息”,其他的业务意图分别为影视和音乐,设定控制序号1代表“音乐”,控制序号2代表“影视”,则生成的第一轮提示文本中,提示文本信息可表示为“为您找到以下关于刘德华的百科信息,如果要听歌,请按‘1’,如果要看电影,请按‘2’”。同时展示提示文本信息和刘德华的百科信息。
用户基于第一轮提示文本触发遥控器上的相应按键,产生控制指令,基于控制指令对应的序号即可切换业务意图到按键对应的业务意图。例如,如果用户触发按键“1”,则确定第二轮目标业务意图为“音乐”,调用音乐对应的微服务查询刘德华演唱的音乐,得到第二轮查询信息。基于第二轮查询信息生成第二轮提示文本,并展示在显示器。
本实施例提供的显示设备在进行多轮语音交互时,与前述实施例提供的实现方式相比,区别仅在于进行业务意图切换(第二轮交互)时采用按键的控制序号的方式。其余实现方式均可参照前述实施例提供的多轮语音交互的实现过程,此处不再赘述。
基于第一轮交互语音对应的多业务意图设定的控制序号仅针对当次多轮语音交互过程有效,在完成当次多轮语音交互过程之后,设定的控制序号被删除。
在进行第二轮语音交互时可采用语音的方式还可采用按键匹配的方式,两种方式择一设定,不能同时应用在同一显示设备中,一种显示设备仅支持一种实现方式。
可见,上述实施例提供的显示设备,可在第一轮语音交互时为用户筛选出第一轮目标业务意图,并基于非目标业务意图的控制序号生成第一轮提示文本,以供用户进行业务意图切换。用户在第二轮交互时,触发遥控器上的按键产生控制指令对应的序号与妻子一个控制序号匹配,则确定第二轮交互与第一轮语音交互构成多轮语音交互过程,此时,基于匹配的控制序号对应的业务意图进行查询,基于得到的第二轮查询信息生成第二轮提示文本并进行展示。该显示设备可通过多轮语音交互,提供给用户自行选择的机会,实现多业务意图的实时切换,以更简便地为用户呈现多业务意图的信息,提升用户体验。
图16中示例性示出了根据一些实施例的显示器展示提示文本的一种展示示意图。在一些实施例中,参见图16,本发明实施例提供的显示设备可为单***单屏的显示设备,即仅具有一个显示器。显示器在展示第一轮提示文本或第二轮提示文本时,在显示器的用户界面上生成提示文本展示区和查询信息展示区。提示文本展示区用于展示提示文本,查询信息展示区用于展示基于目标业务意图得到的查询信息,例如,在第一轮语音交互时,提示文本展示区用于展示第一轮提示文本中的提示文本,查询信息展示区用于展示第一轮目标查询信息。
图17中示例性示出了根据一些实施例的显示器展示提示文本的另一种展示示意图。在一些实施例中,参见图17,本发明实施例提供的显示设备可为双***双屏的显示设备,即显示设备具有两个显示器(主显示器201和副显示器202)。显示器在展示第一轮提示文本或第二轮提示文本时,在主显示器201的用户界面上呈现查询信息展示区,在副显示器202的用户界面上呈现提示文本展示区。提示文本展示区用于展示提示文本,查询信息展示区用于展示基于目标业务意图得到的查询信息,例如,在第一轮语音交互时,第一轮提示文本中的提示文本展示在副显示器中的提示文本展示区,第一轮目标查询信息展示在主显示器中的查询信息展示区。
由以上技术方案可知,本发明实施例提供的一种显示设备,获取用户产生的第一轮交互语音,经过业务意图分析,若存在多业务意图,为用户筛选出第一轮目标业务意图,并基于非目标业务意图的主指令词生成第一轮提示文本,以供用户进行业务意图切换。用户在第二轮语音交互时,如果第二轮交互语音与第一轮提示文本中携带的主指令词匹配,则确定第二轮语音交互与第一轮语音交互构成多轮语音交互过程,此时,基于匹配的主指令词对应的业务意图进行查询,基于得到的第二轮查询信息生成第二轮提示文本并进行展示。可见,该显示设备,在语音交互存在多业务意图时,可通过多轮语音交互提供给用户自行选择的机会,实现多业务意图的实时切换,以更简便地为用户呈现多业务意图的信息,提升用户体验。
图7中示例性示出了根据一些实施例的多轮语音交互方法的一种流程图。参见图7,本发明实施例提供的一种多轮语音交互方法,由图6所示的显示设备中的控制器执行,该方法包括以下步骤:
S1、获取用户产生的第一轮交互语音,以及,对所述第一轮交互语音进行业务意图分析,判断是否存在多业务意图,所述多业务意图用于表征不同业务分类;
S2、若存在所述多业务意图,则在所述多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图;
S3、基于非目标业务意图对应的主指令词和所述第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本,所述非目标业务意图对应的主指令词是指所述多业务意图中除第一轮目标业务意图外的其他业务意图分别对应的主指令词;
S4、获取用户基于所述第一轮提示文本产生的第二轮交互语音,以及,判断所述第二轮交互语音是否与所述第一轮提示文本中包含的主指令词匹配;
S5、如果匹配,则基于所述第二轮交互语音对应的第二轮目标查询信息,生成第二轮提示文本。
图15中示例性示出了根据一些实施例的多轮语音交互方法的另一种流程图。参见图15,本发明实施例提供的一种多轮语音交互方法,由图6所示的显示设备中的控制器执行,该方法包括以下步骤:
S01、获取用户产生的第一轮交互语音,以及,对所述第一轮交互语音进行业务意图分析,判断是否存在多业务意图,所述多业务意图用于表征不同业务分类;
S02、若存在所述多业务意图,则在所述多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图;
S03、对每个非目标业务意图分别设定控制序号,所述非目标业务意图是指所述多业务意图中除第一轮目标业务意图外的其他业务意图;
S04、基于每个所述非目标业务意图对应的控制序号和所述第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本;
S05、接收用户基于所述第一轮提示文本产生的控制指令;
S06、如果所述控制指令对应的序号与其中一个控制序号匹配,则基于所述控制指令确定的第二轮目标业务意图对应的第二轮目标查询信息,生成第二轮提示文本。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的多轮语音交互方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于多轮语音交互方法实施例而言,由于其基本相似于显示设备实施例,所以描述的比较简单,相关之处参见显示设备实施例中的说明即可。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
Claims (12)
1.一种显示设备,其特征在于,包括:
显示器,被配置为显示第一轮提示文本或第二轮提示文本;
与所述显示器连接的控制器,所述控制器被配置为:
获取用户产生的第一轮交互语音,以及,对所述第一轮交互语音进行业务意图分析,判断是否存在多业务意图,所述多业务意图用于表征不同业务分类;
若存在所述多业务意图,则在所述多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图;
基于非目标业务意图对应的主指令词和所述第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本,所述非目标业务意图对应的主指令词是指所述多业务意图中除第一轮目标业务意图外的其他业务意图分别对应的主指令词;
获取用户基于所述第一轮提示文本产生的第二轮交互语音,以及,判断所述第二轮交互语音是否与所述第一轮提示文本中包含的主指令词匹配;
如果匹配,则基于所述第二轮交互语音对应的第二轮目标查询信息,生成第二轮提示文本。
2.根据权利要求1所述的显示设备,其特征在于,所述控制器在执行所述对第一轮交互语音进行意图分析之前,被进一步配置为:
判断本端是否存在与所述第一轮交互语音对应的多业务意图缓存信息,所述多业务意图缓存信息是指基于所述第一轮交互语音经过业务意图分析得到的存在多业务意图的信息;
如果不存在,则执行所述对第一轮交互语音进行意图分析的步骤。
3.根据权利要求2所述的显示设备,其特征在于,所述控制器在执行所述判断本端是否存在与所述第一轮交互语音对应的多业务意图缓存信息,被进一步配置为:
获取本端设备ID和接收到用户产生的第一轮交互语音的终端设备的目标设备ID;
如果所述本端设备ID和目标设备ID不一致,则确定本端不存在与所述第一轮交互语音对应的多业务意图缓存信息;
如果所述本端设备ID和目标设备ID一致,则确定本端存在与所述第一轮交互语音对应的多业务意图缓存信息。
4.根据权利要求1所述的显示设备,其特征在于,所述控制器在执行所述若存在多业务意图,则在所述多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图,被进一步配置为:
在存在多业务意图时,获取对应的多业务意图缓存信息,所述多业务意图缓存信息包括每个业务意图及对应的评分信息,所述评分信息用于表征对应的业务意图与第一轮交互语音的匹配度;
对比每个所述业务意图的评分信息,将所述评分信息对应的分数值最高的业务意图作为用户的第一轮目标业务意图。
5.根据权利要求1所述的显示设备,其特征在于,所述控制器在执行所述基于非目标业务意图对应的主指令词和所述第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本,被进一步配置为:
基于所述第一轮目标业务意图进行查询,得到第一轮目标查询信息;
获取每个非目标业务意图和指令词对照表,每个所述非目标业务意图对应所述指令词对照表中的至少一个指令词,所述非目标业务意图是指所述多业务意图中除第一轮目标业务意图之外的其他业务意图;
基于所述指令词对照表,在每个所述非目标业务意图对应的至少一个指令词中选出一个指令词作为主指令词;
基于所述第一轮目标查询信息和每个所述非目标业务意图对应的主指令词,生成第一轮提示文本并展示。
6.根据权利要求1所述的显示设备,其特征在于,所述控制器在执行所述判断第二轮交互语音是否与所述第一轮提示文本中包含的主指令词匹配之前,被进一步配置为:
判断本端是否存在与所述第一轮交互语音对应的多业务意图缓存信息;
如果存在,则执行所述判断第二轮交互语音是否与所述第一轮提示文本中包含的主指令词匹配的步骤。
7.根据权利要求1或6所述的显示设备,其特征在于,所述控制器在执行所述判断第二轮交互语音是否与所述第一轮提示文本中包含的主指令词匹配,被进一步配置为:
获取所述第二轮交互语音对应的语音交互文本和第一轮提示文本中携带的至少一个主指令词;
判断所述语音交互文本与每个所述主指令词的文本是否一致;
如果所述语音交互文本与其中一个主指令词的文本一致,则确定第二轮交互语音与所述第一轮提示文本中包含的主指令词匹配;
如果所述语音交互文本与任一个主指令词的文本均不一致,则确定第二轮交互语音与所述第一轮提示文本中包含的主指令词不匹配。
8.根据权利要求1所述的显示设备,其特征在于,所述控制器被进一步配置为:
如果所述第二轮交互语音与所述第一轮提示文本中包含的主指令词不匹配,则对所述第二轮交互语音进行业务意图分析,判断是否存在多业务意图;
若存在所述多业务意图,则在所述多业务意图中选出匹配度高的业务意图作为用户的第二轮目标业务意图;
基于新非目标业务意图对应的主指令词和所述第二轮目标业务意图对应的第二轮目标查询信息,生成第二轮提示文本,所述非新目标业务意图对应的主指令词是指所述多业务意图中除所述第二轮目标业务意图外的其他业务意图分别对应的主指令词。
9.根据权利要求1所述的显示设备,其特征在于,所述控制器被进一步配置为:
设定所述第一轮交互语音对应的多业务意图缓存信息的失效时间;
从获取到所述多业务意图缓存信息的初始时刻起,经过所述失效时间后,删除所述多业务意图缓存信息。
10.一种显示设备,其特征在于,包括:
显示器,被配置为显示第一轮提示文本或第二轮提示文本;
遥控器,被配置为产生控制指令;
与显示器和遥控器分别所述显示器连接的控制器,所述控制器被配置为:
获取用户产生的第一轮交互语音,以及,对所述第一轮交互语音进行业务意图分析,判断是否存在多业务意图,所述多业务意图用于表征不同业务分类;
若存在所述多业务意图,则在所述多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图;
对每个非目标业务意图分别设定控制序号,所述非目标业务意图是指所述多业务意图中除第一轮目标业务意图外的其他业务意图;
基于每个所述非目标业务意图对应的控制序号和所述第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本;
接收用户基于所述第一轮提示文本产生的控制指令;
如果所述控制指令对应的序号与其中一个控制序号匹配,则基于所述控制指令确定的第二轮目标业务意图对应的第二轮目标查询信息,生成第二轮提示文本。
11.一种多轮语音交互方法,其特征在于,包括以下步骤:
获取用户产生的第一轮交互语音,以及,对所述第一轮交互语音进行业务意图分析,判断是否存在多业务意图,所述多业务意图用于表征不同业务分类;
若存在所述多业务意图,则在所述多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图;
基于非目标业务意图对应的主指令词和所述第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本,所述非目标业务意图对应的主指令词是指所述多业务意图中除第一轮目标业务意图外的其他业务意图分别对应的主指令词;
获取用户基于所述第一轮提示文本产生的第二轮交互语音,以及,判断所述第二轮交互语音是否与所述第一轮提示文本中包含的主指令词匹配;
如果匹配,则基于所述第二轮交互语音对应的第二轮目标查询信息,生成第二轮提示文本。
12.一种多轮语音交互方法,其特征在于,包括以下步骤:
获取用户产生的第一轮交互语音,以及,对所述第一轮交互语音进行业务意图分析,判断是否存在多业务意图,所述多业务意图用于表征不同业务分类;
若存在所述多业务意图,则在所述多业务意图中选出匹配度高的业务意图作为用户的第一轮目标业务意图;
对每个非目标业务意图分别设定控制序号,所述非目标业务意图是指所述多业务意图中除第一轮目标业务意图外的其他业务意图;
基于每个所述非目标业务意图对应的控制序号和所述第一轮目标业务意图对应的第一轮目标查询信息,生成第一轮提示文本;
接收用户基于所述第一轮提示文本产生的控制指令;
如果所述控制指令对应的序号与其中一个控制序号匹配,则基于所述控制指令确定的第二轮目标业务意图对应的第二轮目标查询信息,生成第二轮提示文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010800952.7A CN112004157B (zh) | 2020-08-11 | 2020-08-11 | 一种多轮语音交互方法及显示设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010800952.7A CN112004157B (zh) | 2020-08-11 | 2020-08-11 | 一种多轮语音交互方法及显示设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112004157A true CN112004157A (zh) | 2020-11-27 |
CN112004157B CN112004157B (zh) | 2022-06-21 |
Family
ID=73463120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010800952.7A Active CN112004157B (zh) | 2020-08-11 | 2020-08-11 | 一种多轮语音交互方法及显示设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112004157B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113079400A (zh) * | 2021-03-25 | 2021-07-06 | 海信视像科技股份有限公司 | 显示设备、服务器及语音交互方法 |
CN114005177A (zh) * | 2021-10-29 | 2022-02-01 | 北京百度网讯科技有限公司 | 人物交互检测方法、神经网络及其训练方法、设备和介质 |
CN114095360A (zh) * | 2021-11-12 | 2022-02-25 | 中国联合网络通信集团有限公司 | 一种通信业务开通方法及装置 |
CN114189416A (zh) * | 2021-12-02 | 2022-03-15 | 电子科技大学 | 一种基于一致性正则化的数字调制信号识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016061954A (ja) * | 2014-09-18 | 2016-04-25 | 株式会社東芝 | 対話装置、方法およびプログラム |
CN107527619A (zh) * | 2017-08-29 | 2017-12-29 | 海信集团有限公司 | 语音控制业务的定位方法及装置 |
CN107577385A (zh) * | 2015-09-08 | 2018-01-12 | 苹果公司 | 媒体环境中的智能自动化助理 |
CN109325097A (zh) * | 2018-07-13 | 2019-02-12 | 海信集团有限公司 | 一种语音引导方法及装置、电子设备、存储介质 |
CN109360557A (zh) * | 2018-10-10 | 2019-02-19 | 腾讯科技(北京)有限公司 | 语音控制应用程序的方法、装置和计算机设备 |
CN110737840A (zh) * | 2019-10-22 | 2020-01-31 | 青岛海信电器股份有限公司 | 语音控制方法及显示设备 |
-
2020
- 2020-08-11 CN CN202010800952.7A patent/CN112004157B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016061954A (ja) * | 2014-09-18 | 2016-04-25 | 株式会社東芝 | 対話装置、方法およびプログラム |
CN107577385A (zh) * | 2015-09-08 | 2018-01-12 | 苹果公司 | 媒体环境中的智能自动化助理 |
CN107527619A (zh) * | 2017-08-29 | 2017-12-29 | 海信集团有限公司 | 语音控制业务的定位方法及装置 |
CN109325097A (zh) * | 2018-07-13 | 2019-02-12 | 海信集团有限公司 | 一种语音引导方法及装置、电子设备、存储介质 |
CN109360557A (zh) * | 2018-10-10 | 2019-02-19 | 腾讯科技(北京)有限公司 | 语音控制应用程序的方法、装置和计算机设备 |
CN110737840A (zh) * | 2019-10-22 | 2020-01-31 | 青岛海信电器股份有限公司 | 语音控制方法及显示设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113079400A (zh) * | 2021-03-25 | 2021-07-06 | 海信视像科技股份有限公司 | 显示设备、服务器及语音交互方法 |
CN114005177A (zh) * | 2021-10-29 | 2022-02-01 | 北京百度网讯科技有限公司 | 人物交互检测方法、神经网络及其训练方法、设备和介质 |
CN114005177B (zh) * | 2021-10-29 | 2023-09-19 | 北京百度网讯科技有限公司 | 人物交互检测方法、神经网络及其训练方法、设备和介质 |
CN114095360A (zh) * | 2021-11-12 | 2022-02-25 | 中国联合网络通信集团有限公司 | 一种通信业务开通方法及装置 |
CN114095360B (zh) * | 2021-11-12 | 2024-02-13 | 中国联合网络通信集团有限公司 | 一种通信业务开通方法及装置 |
CN114189416A (zh) * | 2021-12-02 | 2022-03-15 | 电子科技大学 | 一种基于一致性正则化的数字调制信号识别方法 |
CN114189416B (zh) * | 2021-12-02 | 2023-01-10 | 电子科技大学 | 一种基于一致性正则化的数字调制信号识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112004157B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112004157B (zh) | 一种多轮语音交互方法及显示设备 | |
CN112055240B (zh) | 一种显示设备及其与遥控器配对的操作提示展示方法 | |
CN112135180B (zh) | 一种内容显示方法和显示设备 | |
CN111836109A (zh) | 显示设备、服务器及自动更新栏目框的方法 | |
CN111770370A (zh) | 显示设备、服务器及媒资推荐的方法 | |
CN111949782A (zh) | 一种信息推荐方法和服务设备 | |
CN112165641A (zh) | 一种显示设备 | |
CN112380420A (zh) | 一种搜索方法及显示设备 | |
CN111954059A (zh) | 屏保的展示方法及显示设备 | |
CN111885400A (zh) | 媒体数据展示方法、服务器及显示设备 | |
CN112272331B (zh) | 一种节目频道列表快速展示的方法及显示设备 | |
CN112162809B (zh) | 显示设备及用户收藏显示方法 | |
CN112073787B (zh) | 显示设备及首页显示方法 | |
CN111836083B (zh) | 显示设备及屏幕发声方法 | |
CN111984167A (zh) | 一种快捷命名的方法及显示设备 | |
CN112017415A (zh) | 虚拟遥控器的推荐方法、显示设备及移动终端 | |
CN112272320B (zh) | 一种显示设备及其重名检测方法 | |
CN111988646B (zh) | 一种应用程序的用户界面显示方法和显示设备 | |
CN112118476B (zh) | 一种快速显示节目预约图标的方法及显示设备 | |
CN113438528A (zh) | 一种组合按键的实现方法及显示设备 | |
CN111914565A (zh) | 电子设备及用户语句的处理方法 | |
CN112261463A (zh) | 显示设备及节目推荐方法 | |
CN111931692A (zh) | 显示设备及图像识别方法 | |
CN112199560A (zh) | 一种设置项的搜索方法及显示设备 | |
CN114390190A (zh) | 显示设备及监测应用启动摄像头的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |