CN111903138A - 信息处理装置、信息处理方法、发送装置以及发送方法 - Google Patents

信息处理装置、信息处理方法、发送装置以及发送方法 Download PDF

Info

Publication number
CN111903138A
CN111903138A CN201980021237.9A CN201980021237A CN111903138A CN 111903138 A CN111903138 A CN 111903138A CN 201980021237 A CN201980021237 A CN 201980021237A CN 111903138 A CN111903138 A CN 111903138A
Authority
CN
China
Prior art keywords
voice
voice response
time
content
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980021237.9A
Other languages
English (en)
Inventor
津留卓己
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN111903138A publication Critical patent/CN111903138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/09Arrangements for device control with a direct linkage to broadcast information or to broadcast space-time; Arrangements for control of broadcast-related services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/76Arrangements characterised by transmission systems other than for broadcast, e.g. the Internet
    • H04H60/81Arrangements characterised by transmission systems other than for broadcast, e.g. the Internet characterised by the transmission system itself
    • H04H60/82Arrangements characterised by transmission systems other than for broadcast, e.g. the Internet characterised by the transmission system itself the transmission system being the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/458Scheduling content for creating a personalised stream, e.g. by combining a locally stored advertisement with an incoming stream; Updating operations, e.g. for OS modules ; time-related management operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4825End-user interface for program selection using a list of items to be played back in a given order, e.g. playlists
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Social Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本技术涉及一种使得可以提高结合内容使用的语音AI辅助服务的便利性的信息处理设备、信息处理方法、发送设备以及发送方法。本发明通过提供包括这样的控制单元的信息处理设备而使得可以提高结合内容使用的语音AI辅助服务的便利性,当结合内容使用语音AI辅助服务时,控制单元基于指示适合于对观看内容的观看者的话语进行语音响应的时间的语音响应时间信息而控制语音响应的时间。例如,本技术适用于与语音AI辅助服务结合的***。

Description

信息处理装置、信息处理方法、发送装置以及发送方法
技术领域
本技术涉及信息处理装置、信息处理方法、发送装置以及发送方法。具体地,本技术涉及能够提高结合内容使用的语音AI辅助服务的便利性的信息处理装置、信息处理方法、发送装置以及发送方法。
背景技术
开发了一种结合广播内容而运行的广播应用程序(例如,见专利文献1)。例如,广播应用程序的使用使得可以显示与广播内容有关的信息。
进一步地,开发了一种关于对用户的话语内容进行分析的语音识别的技术(例如,见专利文献2)。例如,应用于电视机或便携式终端设备的本技术使得可以对用户发出的词汇进行分析并且执行与话语对应的处理。
引用列表
专利文献
专利文献1:日本专利申请特开公开号2013-187781
专利文献2:日本专利申请特开公开号2014-153663
发明内容
发明要解决的问题
近年来,语音AI辅助服务已经快速普及。存在结合诸如电视机等接收器中所回放的广播内容或广播应用程序而使用语音AI辅助服务的情况。在这种情况下,对观看诸如广播内容等内容的观看者的话语的响应语音的输出能够与内容的语音重叠,这可能干扰观看者的观看。由此,存在对这样的技术的需求,即,通过在输出对观看者的话语的响应语音时消除对观看者的观看的干扰而提高语音AI辅助服务的便利性。
鉴于这种情况而做出本技术并且本技术致力于提高结合内容使用的语音AI辅助服务的便利性。
问题的解决方案
根据本技术的第一方面的信息处理装置包括:控制单元,被配置为在结合内容使用语音AI辅助服务时基于语音响应时间信息控制语音响应的时间,语音响应时间信息指示适合于对观看内容的观看者的话语做出语音响应的时间。
根据本技术的第一方面的信息处理装置能够是独立设备或能够是构成一个设备的内部模块。此外,根据本技术的第一方面的信息处理方法是与根据本技术的第一方面的上述所述信息处理装置对应的信息处理方法。
在根据本技术的第一方面的信息处理方法和信息处理装置中,在结合内容使用语音AI辅助服务时,基于指示适合于对观看者内容的观看者的话语做出语音响应的时间的语音响应时间信息来控制语音响应的时间。
根据本技术的第二方面的发送装置包括:生成单元,被配置为在结合内容使用语音AI辅助服务时生成元数据,该元数据包括指示适合于对观看内容的观看者的话语做出语音响应的时间的语音响应时间信息;以及发送单元,被配置为发送已生成的元数据。
根据本技术的第二方面的发送装置能够是独立设备或能够是构成一个设备的内部模块。此外,根据本技术的第二方面的发送方法是与根据本技术的第二方面的上述所述发送装置对应的发送方法。
在根据本技术的第二方面的发送装置和发送方法中,在结合内容使用语音AI辅助服务时,生成包括指示适合于对观看内容的观看者的话语做出语音响应的时间的语音响应时间信息的元数据,并且发送已生成的元数据。
发明效果
根据本技术的第一方面和第二方面,可以提高结合内容使用的语音AI辅助服务的便利性。
应注意,此处所述的有利效果并非是限制性的并且可以获得本公开中描述的任意有利效果。
附图说明
图1是示出应用本技术的内容-语音AI协作***的实施方式的配置的示例的框图。
图2是示出结合内容使用的语音AI辅助服务的响应时间的示例的示图。
图3是示出第一实施方式的配置的第一示例的示图。
图4是示出根据第一实施方式的各个设备的细节配置的第一示例的框图。
图5是示出语音辅助服务器与处理服务器之间的通信的示例的示图。
图6是示出语音辅助服务器与处理服务器之间的通信的示例的示图。
图7是示出语音-用户接口设备与语音辅助服务器之间的通信的示例的示图。
图8是示出描述根据第一实施方式的各个设备中的处理过程的第一示例的流程的流程图。
图9是示出第一实施方式的配置的第二示例的示图。
图10是示出根据第一实施方式的各个设备的细节配置的第二示例的框图。
图11是示出在广播传送***与接收装置之间交换的元数据的示例的示图。
图12是示出MPD的描述的示例的示图。
图13是示出描述根据第一实施方式的各个设备中的处理过程的第二示例的流程的流程图。
图14是示出第二实施方式的配置的示例的示图。
图15是示出根据第二实施方式的各个设备的细节配置的示例的框图。
图16是示出描述根据第二实施方式的各个设备中的处理过程的流程图。
图17是示出根据第三实施方式的各个设备的细节配置的第一示例的框图。
图18是示出描述根据第三实施方式的各个设备中的处理过程的第一示例的流程的流程图。
图19是示出根据第三实施方式的各个设备的细节配置的第二示例的框图。
图20是示出描述根据第三实施方式的各个设备中的处理过程的第二示例的流程的流程图。
图21是示出接收装置的另一配置的示例的框图。
图22是示出计算机的配置的示例的示图。
具体实施方式
现将参考附图对本技术的实施方式进行描述。应注意,按照下列顺序展开描述。
1.***的配置
2.本技术的实施方式
(1)第一实施方式:用于基于语音响应时间进行语音响应的时间控制的配置
(2)第二实施方式:用于基于来自观看者的指令话语进行语音响应的时间控制的配置
(3)第三实施方式:在基于语音响应时间进行语音响应的时间控制时,基于来自观看者的指令话语进行语音响应的时间控制的配置
3.变形
4.计算机的配置
<1.***的配置>
(内容-语音AI协作***的配置)
图1是示出应用本技术的内容-语音AI协作***的实施方式的配置的示例的框图。
内容-语音AI协作***1是用于传送内容的***并且允许结合所传送的内容使用语音AI辅助服务。
在图1中,内容-语音AI协作***1包括广播传送***10、接收装置20、语音-用户接口设备30、语音辅助服务器40以及处理服务器50。
进一步地,在内容-语音AI协作***1中,安装在观看者的房屋中的接收装置20和语音-用户接口设备30能够经由因特网60连接至安装在数据中心等中的的各个服务器(诸如语音辅助服务器40和处理服务器50)以用于交换各种数据。
广播传送***10包括一个或多个广播服务器等。广播传送***10对待传送的内容执行必要的处理并且从安装在发送站处的发送天线发出通过处理而获得的生成的广播信号(广播波)。
例如,接收装置20被配置成诸如电视机和个人计算机等固定接收器、或者诸如智能手机、蜂窝电话、以及平板电脑等移动接收器。接收装置20接收并且处理从广播传送***10发送的广播信号并且对所传送的内容(例如,诸如广播节目或AD等)进行回放。
例如,语音-用户接口设备30是能够执行诸如蓝牙(注册商标)、无线局域网(LAN)、以及蜂窝通信等无线通信、或有线通信的语音处理设备(例如,扬声器),例如,其也被称为智能扬声器或家用代理。例如,除播放音乐之外,这种类型的扬声器能够用作语音AI辅助服务的用户接口、或者能够对诸如照明装置或空调装置等仪器执行语音操作。
语音-用户接口设备30能够结合诸如云端上的语音辅助服务器40等服务器为端用户(内容的观看者)提供语音AI辅助服务。在本说明书中,例如,语音AI辅助服务是结合诸如语音识别或自然语言分析等处理而响应端用户的问题或请求进行适当答复或操作的功能或服务。
语音辅助服务器40具有提供语音AI辅助服务、各种数据库等的功能。语音辅助服务器40响应来自语音-用户接口设备30的请求而执行提供语音AI辅助服务的处理并且经由因特网60向语音-用户接口设备30回复处理结果(响应)。
处理服务器50与语音辅助服务器40协作,以执行提供语音AI辅助服务的处理,并且经由因特网60或网络70(例如,诸如租赁线路等通信线路)将处理结果(响应)发送至语音辅助服务器40。而且,经由因特网60通过处理服务器50获得的处理结果不仅能够发送至语音辅助服务器40,而且还能够发送至接收装置20或语音-用户接口设备30。
内容-语音AI协作***1的配置如上所述。
顺便提及,存在观看者在观看诸如广播节目或TV广告(商业)等内容的同时使用语音AI辅助服务向关于内容的应用程序发出话语的情况。在这种情况下,对观看者的话语的响应语音与诸如广播节目等内容的声音重叠,这引起对内容的观看/收听的干扰。
例如,图2示出了这样的情景,即,在观看者2观看戏剧节目并且希望知道特定情景中出现的女演员是谁的情况下,观看者使用语音AI辅助服务并且发出话语“这个女演员是谁?”。
在这种情况下,语音-用户接口设备30通过麦克风拾取观看者2的话语并且经由因特网60将话语的语音数据发送至语音辅助服务器40。语音辅助服务器40结合为每个广播站提供的处理服务器50执行处理,以生成用于响应话语的语音数据,并且经由因特网60将语音数据发送至语音-用户接口设备30。
在该描述中,存在语音-用户接口设备30从语音辅助服务器40接收用于响应的语音数据并且输出与语音数据对应的响应语音的情况。在这种情况下,因为输出响应语音在时间上与观看者2使用接收装置20观看的戏剧节目中的女演员话语重叠,所以存在观看者2不能收听到女演员发出的话语的可能性。
在图2的示例中,“这个女演员的名字是XXXX并且主要代表作品是…”的响应语音与女演员发出的“是的!我们今天去吃印度食物”的词语重叠。由此,根据语音响应的时间,语音AI辅助服务可能干扰观看者2对戏剧节目的观看/收听。
由此,在结合诸如广播节目等内容使用语音AI辅助服务时,存在通过使对观看者的话语的语音响应是观看者所需的时间以提高语音AI辅助服务的便利性的需求。
由此,本技术允许基于指示适合于对观看者话语进行语音响应的时间的信息(以下被称为语音响应时间信息)来控制语音响应的时间。由此,可以提高结合诸如广播节目等内容使用的语音AI辅助服务的便利性。现描述作为本技术的方式的第一实施方式至第三实施方式。
<2.本技术的实施方式>
(1)第一实施方式
首先,参考图3至图13,将用于基于经由通信或经由广播获取的语音响应时间信息控制语音响应的时间的配置描述为第一实施方式。
(配置的第一示例)
图3是示出第一实施方式的配置的第一示例的示图。
图3示出了按照使用图3中的部分A至C的时间序列,根据观看者2观看的广播节目的进度进行处理的过程。
在10:10:00(10h:10m:00s),当观看者2在观看戏剧节目的同时发出话语“这个女演员是谁?”时,用户接口设备30通过麦克风拾取观看者2的话语,并且将话语的语音数据作为问题请求发送至语音辅助服务器40(图3中的部分A)。
语音辅助服务器40通过结合由产生正在观看的戏剧节目的广播站所提供的处理服务器50执行处理,来生成对话语的响应的语音数据。此外,在本描述中,与用于响应的语音数据一起,生成指示适合于语音响应的时间的语音响应时间信息作为语音响应时间元数据。然后,将语音响应时间元数据(语音响应时间信息)与用于响应的语音数据一起发送至用户接口设备30(图3中的部分B)。
在10:10:02(10h:10m:02s),用户接口设备30从语音辅助服务器40接收到语音响应时间元数据以及用于响应的语音数据,但是,由语音响应时间信息指示的时间(当天时间)是10:10:10,因此,其等待直至该时间(当天时间)(图3中的部分B)。换言之,例如,在正在观看的戏剧节目中,在约10:10:02发生对话情景,并且因此,改变语音响应的时间,以防止其与女演员的话语“是的!我们今天去吃印度食物!”重叠。
然后,当时间到达10:10:10时,时间(当天时间)是由语音响应时间信息指示的时间,用户接口设备30基于等待期间在缓存器中保存的响应语音数据而输出响应语音“这个女演员的名字是XXXX并且主要代表作品是...”(图3中的部分C)。在这种情况下,正在观看的戏剧节目不是对话情景,因此,观看者2不可能干扰戏剧节目的观看。
由此,用户接口设备30可以在适合于语音响应的时间执行语音响应,即,在不涉及对观看的打扰的时间,诸如正在观看的节目发展的对话中断等。基于经由通信获得的语音响应时间元数据(语音响应时间信息)执行此操作。这使得观看者2可以在不干扰节目的观看的情况下收听响应语音(希望知道的信息)。
而且,为了易于理解图3中的描述,给出了使用实际时间作为示例的情况的描述。然而,实际上,可以使用在接收装置20中播放的内容的媒体时间控制语音响应的时间。
(各个设备的细节配置的第一示例)
图4是示出根据第一实施方式的各个设备的细节配置的第一示例的框图。
图4示出了设置在广播站侧(发送侧)上的广播传送***10及设置在本地侧(接收侧)上的接收装置20的配置的示例。此外,图4示出了设置在本地侧上的语音-用户接口设备30的配置与设置在云端上的语音辅助服务器40和处理服务器50的配置的示例。
在图4中,广播传送***10包括节目内容处理单元101、伴随广播的应用程序生成单元102、多路复用器103、以及发送单元104。
节目内容处理单元101对输入其中的内容执行必要的处理(例如,诸如AV编码等)并且将结果提供至多路复用器103。而且,例如,内容是广播节目、广告等、并且从外部服务器、摄像头、记录介质等获取。
伴随广播的应用程序生成单元102生成伴随广播的应用程序并且将其提供至多路复用器103。在本描述中,伴随广播的应用程序是结合诸如广播节目等内容而运行的应用程序。
多路复用器103对从节目内容处理单元101提供的内容和从伴随广播的应用程序生成单元102提供的伴随广播的应用程序执行多路复用并且将生成的流提供至发送单元104。
发送单元104对从多路复用器103提供的流执行必要处理(例如,诸如纠错编码或调制处理等),并且通过安装在发送站处的发送天线发送生成的广播信号(广播流)。
在图4中,接收装置20包括调谐器201、解多路复用器202、AV解码器203、伴随广播的应用程序运行单元204、渲染器205、显示器206、扬声器207、媒体-时间管理单元208、以及通信单元209。
调谐器201通过安装在观看者的房屋等中的接收天线而接收从广播传送***10发送的广播信号(广播流),对其执行必要的处理(例如,诸如解调处理或纠错解码等),并且将生成的流提供至解多路复用器202。
解多路复用器202将从调谐器201提供的流分成视频流、音频流、以及伴随广播的应用程序的流。解多路复用器202将视频和音频流提供至AV解码器203并且将伴随广播的应用程序的流提供至伴随广播的应用程序运行单元204。
AV解码器203对从解多路复用器202提供的视频流进行解码并且将结果提供至渲染器205。此外,AV解码器203还对从解多路复用器202提供的音频流进行解码并且将结果提供至渲染器205。
渲染器205对从AV解码器203提供的视频数据执行渲染并且使生成的视频显示在诸如液晶显示器(LCD)或有机发光二极管(OLED)等显示器206上。
进一步地,渲染器205对从AV解码器203提供的语音数据执行渲染并且通过扬声器207输出生成的音频。在接收装置20中,这允许在显示器206上显示诸如广播节目等内容的视频并且通过扬声器207输出与视频同步的音频。
例如,伴随广播的应用程序运行单元204是与HTML5、JavaScript(注册商标)等兼容的浏览器。伴随广播的应用程序运行单元204基于从解多路复用器202提供的应用数据而运行伴随广播的应用程序并且将视频数据提供至渲染器205。
渲染器205对从伴随广播的应用程序运行单元204提供的视频数据执行渲染并且使生成的视频显示在显示器206上。在接收装置20中,这允许在显示器206上显示与诸如广播节目等内容相结合的伴随广播的应用程序的视频。
媒体-时间管理单元208管理在接收装置20中播放的内容的媒体时间。媒体-时间管理单元208提供响应于来自伴随广播的应用程序运行单元204的查询而播放的内容的当前媒体时间。
通信单元209被配置成与诸如无线LAN或蜂窝通信等无线通信、或有线通信兼容的通信模块。通信单元209根据预定通信方案经由因特网60与处理服务器50(其通信单元501)通信,以交换各种数据。在本描述中,例如,使用WebSocket等执行通信,并且通信单元209能够将从伴随广播的应用程序运行单元204提供的当前媒体时间传送至处理服务器50(其通信单元501)。
在图4中,语音-用户接口设备30包括麦克风301、扬声器302、通信单元303、语音响应输出控制单元304、计时器305、缓存器306、以及设置管理单元307。
麦克风301拾取观看者2的话语并且将话语的语音数据提供至通信单元303。
通信单元303被配置成通信模块,其与诸如无线LAN和蜂窝通信等无线通信、或有线通信兼容。
通信单元303经由因特网60将从麦克风301提供的话语的语音数据发送至语音辅助服务器40。此外,通信单元303经由因特网60接收从语音辅助服务器40发送的用于响应的语音数据和语音响应时间元数据(语音响应时间信息)并且将其提供至语音响应输出控制单元304。而且,尽管将在后面进行详细描述,然而,在第二响应消息中包括并且发送用于响应的语音数据和语音响应时间元数据。
从通信单元303向语音响应输出控制单元304提供用于响应的语音数据和语音响应时间元数据。语音响应输出控制单元304基于经由通信获取的语音响应时间元数据而在与由语音响应时间信息指示的时间对应的时间,将用于响应的语音数据提供至扬声器302。
在本描述中,将由语音响应时间信息指示的时间从语音响应输出控制单元304传送至计时器305来测量时间,并且缓存器306临时保存用于响应的语音数据,直至达到适合于语音响应的时间。然后,当达到适合于语音响应的时间时,语音响应输出控制单元304读取临时保存在缓存器306中的用于响应的语音数据并且将其提供至扬声器302。
扬声器302输出与从语音响应输出控制单元304提供的用于响应的语音数据对应的响应语音。
设置管理单元307根据观看者2的设置输入而进行各种设置。在本描述中,例如,在输出响应语音时,设置等由是否等待直至适合于语音响应的时间的时间控制构成。而且,在本描述中,通过观看者2用按钮或触摸面板(未示出)的操作输入接收设置输入,或者观看者2通过麦克风301的语音输入接收设置输入。
在图4中,语音辅助服务器40包括通信单元401、通信单元402、语音分析单元403、以及消息生成单元404。
通信单元401经由因特网60接收从语音-用户接口设备30发送的话语的语音数据并且将其提供至语音分析单元403。
语音分析单元403对从通信单元401提供的话语的语音数据进行分析并且将话语的语音数据转换成文本数据。语音分析单元403将与话语的语音数据的分析结果对应的请求消息提供至通信单元402。
通信单元402经由网络70将从语音分析单元403提供的请求消息发送至处理服务器50。此外,通信单元402经由网络70接收从处理服务器50发送的第一响应消息并且将第一响应消息提供至消息生成单元404。
消息生成单元404对从通信单元402提供的第一响应消息进行转换,以生成用于响应语音-用户接口设备30的第二响应消息,并且将其提供至通信单元401。
而且,在本描述中,为便于描述,从处理服务器50发送并且由语音辅助服务器40接收的响应消息不同于从语音辅助服务器40发送并且由语音-用户接口设备30接收的响应消息。为了对其进行区分,将前者称为第一响应消息,并且将后者称为第二响应消息。
消息生成单元404包括语音生成单元404-1和元数据合并单元404-2。此外,第一响应消息包括语音响应数据和语音响应时间元数据(语音响应时间信息)。
语音生成单元404-1将从处理服务器50传送的第一响应消息中所包括的语音响应数据转换成用于响应的语音数据。元数据合并单元404-2将从处理服务器50传送的第一响应消息中所包括的语音响应时间元数据(语音响应时间信息)与包括用于响应的语音数据的第二响应消息进行合并。
由此,在消息生成单元404中,语音生成单元404-1和元数据合并单元404-2对包括文本-格式数据(语音响应数据和语音响应时间元数据)的第一响应消息(例如,HTTP响应数据)进行处理。由此,生成包括语音-格式数据(响应语音数据)和文本-格式数据(语音响应时间元数据)的第二响应消息(例如,HTTP响应)。而且,将参考图5至图7描述第一响应消息和第二响应消息的细节。
通信单元410经由因特网60将从管理生成单元404提供的第二响应消息发送至语音-用户接口设备30。
而且,通信单元401和通信单元402被配置成通信模块,即,与无线通信或有线通信兼容。此外,在图4中,为便于描述,将通信单元401和通信单元402描述为独立通信模块,但是,能够将其集成为一个通信模块。
在图4中,处理服务器50包括通信单元501、处理单元502、以及记录单元503。
通信单元501经由网络70接收从语音辅助服务器40发送的请求消息并且将其提供至处理单元502。此外,通信单元501通过使用WebSocket等进行通信而接收从接收装置20发送的当前媒体时间并且将其提供至处理单元502。而且,通信单元501被配置成通信模块,其与无线通信或有线通信兼容。
处理单元502基于从通信单元501提供的请求消息而提取记录单元503中所记录的语音响应数据并且将结果提供至通信单元501。该语音响应数据是对观看者2的话语进行语音响应的数据。
进一步地,处理单元502基于从通信单元501提供的当前媒体时间从记录单元503中所记录的语音响应时间元数据(整个节目的元数据)中提取指示适合于语音响应的时间的语音响应时间信息。然后,处理单元502将其作为语音响应时间元数据提供至通信单元501。
记录单元503是诸如半导体存储器、HDD、或光盘等记录介质,并且能够将诸如语音响应数据和语音响应时间元数据等各种数据记录在其中。而且,语音响应数据和语音响应时间元数据并不局限于被记录在记录单元503中的数据,并且例如,能够基于诸如从外部服务器获取或记录在记录单元503中的数据或者从外部服务器获取的数据等各种类型的数据而通过处理单元502生成。
通信单元501经由网络70将从处理单元502提供的语音响应数据和语音响应时间元数据作为第一响应消息发送至语音辅助服务器40。
而且,内容-语音AI协作***1执行被称为技能(skill)的程序,这使得可以结合诸如广播节目等内容使用语音AI辅助服务。例如,在语音辅助服务器40中,从多个技能之中指定目标技能并且通过所指定的目标技能的端点URL将目标技能与处理服务器50的处理单元502相结合。由此,执行对观看者的话语做出语音响应的处理。换言之,可以说,处理单元502构成目标技能的一部分。
在本描述中,技能包括诸如响应什么样的语音、什么功能使用什么词语作为参数、或哪一处理服务器(处理程序)实际上执行功能等信息。此外,技能是指用于基于上述所述信息执行与从语音-用户接口设备30发送的语音对应的处理的程序(计算机程序)。
内容-语音AI协作***1的配置如上所述,并且现在参考图5至图7详细给出在语音辅助服务器40与处理服务器50之间通过通信所交换的语音响应数据和语音响应时间元数据的描述。
如图5中所示,在处理服务器50中,记录单元503中记录有经由通信而传送的语音响应时间元数据。提供该语音响应时间元数据作为经由广播传送的每个广播节目的整个节目的元数据。图5中的示例示出了如下四个语音-响应时间。
第一语音响应时间:2018-01-29 18:00:05至2018-01-29 18:00:55
第二语音响应时间:2018-01-29 18:01:05至2018-01-29 18:01:55
第三语音响应时间:2018-01-29 18:02:05至2018-01-29 18:02:55
第四语音响应时间:2018-01-29 18:03:05至2018-01-29 18:03:55
...
处理单元502通过使用接收装置20与处理服务器50之间的WebSocket等通信而获取当前媒体时间,因此,可以基于该媒体时间从整个节目的元数据中仅提取适合于语音响应的一个语音响应时间。然后,处理单元502通过HTTP响应的预定格式的消息等将所提取的一个语音响应时间(语音响应时间信息)作为语音响应时间元数据发送至语音辅助服务器40。
如图6中所示,在本描述中,当从整个节目的元数据中提取第三语音响应时间作为适合于语音响应的时间时,存在使用HTTP响应作为第一响应消息的情况。在这种情况下,在HTTP响应的主体中描述所提取的第三语音响应时间的文本数据。此外,可以在HTTP响应的主体中描述语音响应数据的文本数据。
例如,可以将上述所述文本数据描述为JavaScript(注册商标)对象记号(JSON)的格式的数据。由具有冒号(:)的键值对表达JSON格式对象,并且这些配对由逗号(,)隔开,列出了零个或多个配对,并且将整体封闭在大括号({})中。
在图6的示例中,关于语音响应数据(“输出语言”)的对象,将“纯文本”格式描述为“类型”值,并且将“XXXX”的文本数据描述为“文本”值。此外,关于语音响应时间的对象(“responseTiming”),将开始时间“2018-01-29T18:02:05Z”描述为“开始”值并且将结束时间“2018-01-29T18:02:55Z”描述为“结束”值。
进一步地,语音辅助服务器40接收并且处理该HTTP响应。例如,在使用HTTP响应作为第二响应消息的情况下,执行如图7中所示的处理。
换言之,语音辅助服务器40将从处理服务器50接收的HTTP响应的主体中所描述的语音响应数据的文本数据转换成用于响应的语音数据,并且通过将其与语音响应时间的文本数据(语音响应时间信息)进行合并而生成多部分HTTP响应。
由此,在语音辅助服务器40中,对从处理服务器50接收的第一响应消息(HTTP响应)进行处理,并且将文本格式数据(语音响应数据和语音响应时间元数据(语音响应时间信息))转换成语音格式的数据(响应的语音数据)和文本格式的数据(语音响应时间元数据(语音响应时间信息))。然后,语音辅助服务器40将转换的结果作为第二响应消息(多部分格式的HTTP响应)发送至语音-用户接口设备30。
而且,尽管提供整个节目的元数据作为经由通信传送的语音响应时间元数据,然而,能够针对特定节目的全部时区或一些时区准备语音响应时间。此外,在本技术的实施方式中,语音响应时间元数据能够表示整个节目的元数据或能够表示从元数据中提取的语音响应时间信息,并且因此,在必须进行区分的情况下,明确指出。
(各个设备中的处理的第一示例的过程)
现参考图8中的流程图描述第一实施方式的各个设备中的处理的第一示例的过程。
在本描述中,执行步骤S101的处理作为预设置。换言之,在语音-用户接口设备30中,设置管理单元307设置为根据观看者2的指令而开启响应语音的输出的自动定时控制。
在该预设置之后,广播传送***10发送广播流(S131)。在这种情况下,在广播传送***10中,伴随广播的应用程序生成单元102生成伴随广播的应用程序,并且多路复用器103将所生成的伴随广播的应用程序***到包括诸如广播节目等内容的流中。
接收装置20接收广播流,播放诸如广播节目等内容,并且执行步骤S132的处理。在步骤S132中,伴随广播的应用程序运行单元204基于从通过解多路复用器202分离的流所获得的应用程序数据而运行伴随广播的应用程序。这允许接收装置20对观看者2所选择的广播节目进行回放并且运行与节目链接的伴随广播的应用程序。
因此,在正在观看广播节目的观看者2发出问题话语的情况下,执行步骤S102中的处理操作及后续步骤。
具体地,在语音-用户接口设备30中,麦克风301拾取观看者2的话语,并且将话语的语音数据发送至语音辅助服务器40。然后,在语音辅助服务器40中,对来自语音-用户接口设备30的话语的语音数据进行分析,并且将与分析结果对应的请求消息发送至处理服务器50。
处理服务器50经由网络70接收该请求消息,并且执行步骤S103和S104的处理操作。
在步骤S103中,处理单元502基于来自语音辅助服务器40的请求消息而获取当前媒体时间。在该阶段,例如,处理服务器50(其通信单元501)与接收装置20(其通信单元209)根据WebSocket的通信方案等而彼此进行通信。由此,可以使处理单元502从运行伴随广播的应用程序的伴随广播的应用程序运行单元204获取当前媒体时间。
在步骤S104,处理单元502基于所获取的当前媒体时间,从记录单元503中所记录的整个节目的元数据中提取指示适合于语音响应的时间的语音响应时间信息。然后,处理单元502将所提取的语音响应时间信息与和请求消息对应的语音响应数据一起作为第一响应消息发送至语音辅助服务器40。
在本描述中,例如,除不干扰观看的时间之外,诸如正在观看的节目的发展中对话中断等,能够视为适合于语音响应的时间还包括响应语音的时间长度(响应长度)。换言之,即使不干扰观看,在该时间内不能完成响应语音的输出的情况下,能够提取另一较长的时间作为适合于语音响应的时间。此外,例如,在接收装置20中正在播放的内容的回放时间轴上,存在能够提取最近时区作为适合于语音响应的时间的情况。即使在这种情况下,当在观看者的话语之后,需要花费时间输出响应语音时,能够提取更早的时区作为适合于语音响应的时间。
在语音辅助服务器40中,基于来自处理服务器50的第一请求消息而从语音响应数据生成用于响应的语音数据,并且将语音响应时间信息与用于响应的语音数据进行合并,以生成第二响应消息。语音-用户接口设备30经由因特网60接收第二响应消息,并且执行步骤S105至S108中的处理操作。
在步骤S105中,语音响应输出控制单元304基于来自语音辅助服务器40的第二响应消息而确认是否将语音响应时间信息添加至用于响应的语音数据。在步骤S105中判断添加语音响应时间信息的情况下(在S105中,“是”),处理进行至步骤S106。
在步骤S106,语音响应输出控制单元304通过向设置管理单元307进行询问而确认(判断)是否将自动定时控制设置为开启。在步骤S106中确定通过例如预设置处理将自动定时控制设置为开启的情况下(在S106中,“是”),处理进行至步骤S107。
在步骤S107,语音响应输出控制单元304基于所添加的语音响应时间信息,等待直至达到适合于语音响应的时间。然后,当达到适合于语音响应的时间时,语音响应输出控制单元304通过将用于响应的语音数据提供至扬声器302而输出响应语音(S108)。
由此,可以使语音-用户接口设备30在适合于语音响应的时间执行语音响应,即,在不干扰观看的时间,诸如正在观看的节目的发展中对话中断等。基于经由通信获取的语音响应时间元数据(语音响应时间信息)执行此操作。这使得可以在不干扰观看者观看节目的情况下,使观看者2收听到响应语音(希望知道的信息)。
而且,在语音-用户接口设备3中,在判断不添加语音响应时间信息的情况下(在S105中,“否”),或在判断将自动定时控制设置为关闭的情况下(在S106中,“否”),跳过步骤S107的处理并且执行步骤S108的处理。换言之,在这种情况下,在不等待语音响应时间的情况下,立即输出响应语音。
在基于经由通信获取的语音响应时间元数据(语音响应时间信息)控制对观看者2的话语的语音响应的时间的情况下,给出处理过程的上述描述作为第一实施方式的各个设备中的处理的第一示例的过程。
(配置的第二示例)
图9是示出第一实施方式的配置的第二示例的示图。
与图3相似,图9按照参考图9中的部分A至C的时间序列方式示出了根据观看者2正在观看的广播节目的进度的处理过程。另一方面,图9中所示的处理与图3中所示的处理的不同之处在于,经由广播而非经由通信发送用于响应的语音数据和语音响应时间元数据。
接收装置20将从广播传送***10发送的语音响应时间元数据(整个节目的元数据)与诸如广播节目等内容和伴随广播的应用程序一起获取并且记录。响应来自用户接口设备30的询问,接收装置20能够从整个记录节目的元数据中提取指示适合于语音响应的时间的语音响应时间信息并且将其作为语音响应时间元数据进行通知。
在10:10:00(10h:10m:00s),当观看者2在观看戏剧节目的同时发出话语“这个女演员是谁?”时,用户接口设备30通过麦克风拾取观看者2的话语并且将话语的语音数据发送至语音辅助服务器40(图9中的部分A)。
在10:10:02(10h:10m:02s),用户接口设备30从语音辅助服务器40接收用于响应的语音数据,但是,基于从接收装置20获取的语音响应时间元数据,由语音响应时间信息指示的时间(当天时间)是10:10:10,因此,其等待直至该时间(当天时间)(图9中的部分B)。换言之,在正在观看的戏剧节目中,在约10:10:02出现对话情景,并且因此,将语音响应的时间移位,以防止其与女演员的话语等重叠。
然后,当时间达到10:10:10时,时间是由语音响应时间信息指示的时间(当天时间),用户接口设备30基于等待期间保存在缓存器中的用于响应的语音数据而输出响应语音“这个女演员的名字是XXXX并且主要代表作品是…”(图9中的部分C)。
由此,可以使用户接口设备30在适合于语音响应的时间执行语音响应,即,在不干扰观看的时间,诸如正在观看的节目的发展对话中断等。基于经由广播获得的语音响应时间元数据(语音响应时间信息)执行此操作。这使得观看者2可以在不干扰观看节目的情况下收听响应语音(希望知道的信息)。
而且,与图3相似,还给出了使用实际时间的情况的描述作为图9中的示例。然而,实际上,可以使用接收装置20中播放的内容的媒体时间控制语音响应的时间。
(各个设备的细节配置的第二示例)
图10是示出根据第一实施方式的各个设备的细节配置的第二示例的框图。
与图4相似,图10示出了设置在广播站侧(发送侧)上的广播传送***10和设置在本地侧(接收侧)上的接收装置20的配置的示例,此外,图10示出了设置在本地侧上的语音-用户接口设备30的配置及设置在云端上的语音辅助服务器40和处理服务器50的配置的示例。
在图10中,广播传送***10包括节目内容处理单元101、伴随广播的应用程序生成单元102、多路复用器103、发送单元104、以及元数据生成单元105。换言之,与图4中所示的配置相比较,在图10所示的广播传送***10中,添加了元数据生成单元105。
元数据生成单元105生成语音响应时间元数据并且将其提供至多路复用器103。语音响应时间元数据是针对经由广播传送的每个节目的整个节目的元数据,并且包括作为包括适合于语音响应的时间的语音响应时间信息所提取的元数据候选。
多路复用器103对从元数据生成单元105提供的语音响应时间元数据与内容和伴随广播的应用程序一起进行多路复用,并且将生成流提供至发送单元104。
在图10中,接收装置20包括调谐器201、解多路复用器202、AV解码器203、伴随广播的应用程序运行单元204、渲染器205、显示器206、扬声器207、媒体-时间管理单元208、通信单元210、语音响应时间元数据管理单元211、以及记录单元212。换言之,与图4中所示的配置相比较,图10中所示的接收装置20具有通信单元210、语音响应时间元数据管理单元211、以及记录单元212作为附加的部件,来取代通信单元209。
例如,通信单元210被配置成通信模块,其与诸如蓝牙(注册商标)、无线LAN、以及蜂窝通信等无线通信、或有线通信兼容。通信单元210根据预定通信方案与语音-用户接口设备30(具体地,其通信单元309)通信,以交换各种数据。
语音响应时间元数据管理单元211获取从通过解多路复用器202分离的流而获得的语音响应时间元数据(整个节目的元数据)并且将其记录在记录单元212中。
进一步地,在从语音-用户接口设备30(其语音响应输出控制单元304)接收语音响应时间元数据获取请求的情况下,语音响应时间元数据管理单元211对媒体-时间管理单元208进行询问,以获取当前媒体时间。语音响应时间元数据管理单元211基于所获取的当前媒体时间,从记录单元212中所记录的语音响应时间元数据(整个节目的元数据)中提取指示适合于语音响应的时间的语音响应时间信息。然后,语音响应时间元数据管理单元211将语音响应时间信息作为语音响应时间元数据发送至语音-用户接口设备30。
记录单元212是诸如半导体存储器、HDD、或光盘等记录介质,并且能够将包括语音响应时间元数据的各种数据记录其中。
在图10中,语音-用户接口设备30包括麦克风301、扬声器302、通信单元303、语音响应输出控制单元304、计时器305、缓存器306、设置管理单元307、语音分析单元308、以及通信单元309。换言之,与图4中所示的配置相比较,在图10所示的语音-用户接口设备30中,添加了语音分析单元308和通信单元309。
语音分析单元308对从麦克风301提供的话语的语音数据进行处理并且将其提供至通信单元303。此外,语音分析单元308对话语的语音数据进行分析,并且结合设置管理单元307基于话语的语音数据的分析结果而执行定时控制目标话语设置。
例如,通信单元309被配置成支持诸如蓝牙(注册商标)等无线通信或有线通信的通信模块。通信单元309根据预定通信方案与接收装置20(其通信单元210)通信,以交换各种数据。而且,为便于描述,在图10中,将通信单元303和通信单元309描述为独立的通信模块,但是,能够将通信单元303和通信单元309集成为一个通信模块。
从通信单元303向语音响应输出控制单元304提供用于响应的语音数据并且从通信单元309向语音响应输出控制单元304提供语音响应时间元数据。语音响应输出控制单元304基于经由广播获取的语音响应时间元数据在与由语音响应时间信息指示的时间(适合于语音响应的时间)对应的时间将用于响应的语音数据提供至扬声器302。
在图10中,语音辅助服务器40包括通信单元401、通信单元402、语音分析单元403、以及语音生成单元404-1。换言之,在图10所示的语音辅助服务器40中,不经由通信传送语音响应时间元数据并且因此不需要执行与其有关的处理。由此,与图4中的配置不同,省去了图4中所示的消息生成单元404的元数据合并单元405-2。
进一步地,在图10中,处理服务器50包括通信单元501、处理单元502、以及记录单元503。换言之,图10中所示的处理服务器50具有与图4中所示的配置相似的配置,但是不经由通信传送语音响应时间元数据,并且因此,在记录单元503中,不记录语音响应时间元数据,而是仅记录语音响应数据。
内容-语音AI协作***1的配置如上所述。参考图11和图12详细给出了经由广播在广播传送***10与接收装置20之间交换语音响应时间元数据的描述。
如图11中所示,在广播传送***10中,元数据生成单元105生成经由广播传送的语音响应时间元数据。对于经由广播传送的各个节目(不包括直播),生成该语音响应时间元数据作为整个节目的元数据。
第一语音响应时间:2018-01-29 18:00:05~2018-01-29 18:00:55
第二语音响应时间:2018-01-29 18:01:05~2018-01-29 18:01:55
第三语音响应时间:2018-01-29 18:02:05~2018-01-29 18:02:55
第四语音响应时间:2018-01-29 18:03:05~2018-01-29 18:03:55
...
多路复用器103将语音响应时间元数据转换成适合于内容的格式并且将其***到其中对内容和伴随广播的应用程序被多路复用的流中。
在本描述中,例如,在将内容作为与经由HTTP(DASH)的MPEG-动态自适应流兼容的流传送的情况下,可以使用媒体呈现描述(MPD)发送语音响应时间元数据,媒体呈现描述(MPD)是视频或音频文件的控制信息。
图12示出了其中将语音响应时间元数据***到MPD中的示例。在本示例中,MPD将时间段(Period)、自适应集(AdaptationSet)、以及表示(Representation)的元素包括在层级结构中。
元素Period是描述诸如广播节目等内容的配置的元素。此外,构成内容的诸如视频、音频、以及字幕等的组成的各个流所使用的元素AdaptationSet和Representation能够描述各个流的属性。
进一步地,可以在元素Period中描述元素EventStream。此外,在元素EventStream中能够将属性schemeIdUri和timescale描述为其属性。
在属性schemeIdUri中,描述了用于标识方案的统一资源标识符(URI)。在图12的MPD描述示例中,将“urn:XXX”定义为用于标识发送语音响应时间元数据的方案的URI并且将“urn:XXX”描述成属性schemeIdUri的属性值。此外,在属性timescale中,将timescale“1000”描述为其属性值。
元素EventStream是元素Event的上级元素。在元素Event中,能够将其中指定呈现时间(开始时间)的属性presentationTime和其中指定自开始时间起的时间段的属性duration描述为其属性。
在图12的MPD描述示例中,将整个节目的元数据划分成与其对应的各个元素时间段并且将整个节目的元数据描述为元素EventStream中的属性presentationTime和duration的属性值。
具体地,在第一Period元素(属性开始=‘PT0S’)中描述了整个节目的元数据中所描述的第一语音响应时间和第二语音响应时间,并且在第二Period元素(属性开始=‘PT2M0S’)中描述了第三语音响应时间和第四语音响应时间。
如上所述,使用MPD发送语音响应时间元数据使得接收装置20可以从广播流中所***的MPD获取语音响应时间元数据(整个节目的元数据)并且将其记录在记录单元212中。然后,可以使接收装置20响应于来自语音-用户接口设备30的询问而从记录单元212中所记录的语音响应时间元数据(整个节目的元数据)中,提取指示适合于语音响应的时间的语音响应时间信息并且将其作为语音响应时间元数据进行通知。
而且,尽管提供整个节目的元数据作为经由广播而传送的语音响应时间元数据,然而,能够针对特定节目的全部时区或一些时区准备语音响应时间。
(各个设备中的处理的第二示例的过程)
现参考图13中的流程图描述第一实施方式的各个设备中的处理的第二示例的过程。
在本描述中,执行步骤S151的处理作为预设置。换言之,在语音-用户接口设备30中,设置管理单元307根据观看者2的指令设置为开启自动定时控制。此外,在本描述中,设置定时控制目标的调用名称或用于获取语音响应时间元数据的目的地(元数据获取通信的目的地)。
而且,调用名称是用于调用技能的调用名称。换言之,端用户(观看内容的观看者)在使用技能时需要说出调用名称。在本描述中,例如,能够将“电视秀”设置为定时控制目标的调用名称,并且能够将接收装置20设置为用于元数据获取通信的目的地。
在预设置之后,在广播传送***10中执行步骤S181至S182的处理操作。
换言之,元数据生成单元105生成语音响应时间元数据(整个节目的元数据),并且多路复用器103将所生成的语音响应时间元数据***到包括诸如广播节目等内容的流中(S181)。此外,发送单元104发送其中***了语音响应时间元数据的广播流(S182)。
通过接收装置20接收广播流,播放诸如广播节目等内容,并且执行步骤S183的处理。在步骤S183,语音响应时间元数据管理单元211获取从通过解多路复用器202分离的流所获得的语音响应时间元数据。将语音响应时间元数据(整个节目的元数据)记录在记录单元212中。
然后,在观看广播节目的观看者2发出问题话语的情况下,执行步骤S152的处理操作及后续步骤。
具体地,在语音-用户接口设备30中,麦克风301拾取观看者2的话语,并且将话语的语音数据发送至语音辅助服务器40(S152)。然后,在语音辅助服务器40中,对来自语音-用户接口设备30的话语的语音数据进行分析,并且将与分析结果对应的请求消息发送至处理服务器50。
在这种情况下,在语音-用户接口设备30中,语音分析单元308与设置管理单元307协作,以基于话语的语音数据的分析结果从观看者2的话语中提取通过预设置处理而设置的目标调用名称(S151)并且将从中提取了调用名称的话语设置为定时控制目标话语(S153)。
进一步地,处理服务器50从语音辅助服务器40接收经由网络70发送的请求消息,并且执行步骤S154的处理。
在步骤S154,处理单元502基于来自语音辅助服务器40的请求消息提取记录单元503中所记录的语音响应数据并且将其发送至语音辅助服务器40。在语音辅助服务器40中,语音生成单元404-1生成与语音响应数据对应的用于响应的语音数据并且将其发送至语音-用户接口设备30。
语音-用户接口设备30经由因特网60接收用于响应的该语音数据,并且执行步骤S155的处理操作及后续步骤。
在步骤S155,语音响应输出控制单元304通过向设置管理单元307进行询问而确认(判断)所接收的用于响应的语音数据是否是对定时控制目标话语的响应。在步骤S155中判断所接收的响应是对步骤S153的处理中所设置的定时控制目标话语的响应的情况下(在S155,“是”),处理进行至步骤S156。
在步骤S156,语音响应输出控制单元304通过向设置管理单元307进行询问而确认(判断)是否将自动定时控制设置为开启。在步骤S156中确定通过预设置处理(S151)将自动定时控制设置为开启的情况下(在S156中,“是”),处理进行至步骤S157。
在步骤S157,语音响应输出控制单元304通过从接收装置20接收语音响应时间元数据而获取语音响应时间信息,在预设置处理(S151)中,语音响应时间元数据被设置为元数据获取通信的目的地。
换言之,在本描述中,语音响应输出控制单元304将语音响应时间元数据获取请求派送至接收装置20,并且因此,接收装置20执行步骤S158至S159的处理操作。
在步骤S158,语音响应时间元数据管理单元211通过基于来自语音-用户接口设备30的获取请求向媒体-时间管理单元208进行询问,来获取当前媒体时间。
在步骤S159,语音响应时间元数据管理单元211基于所获取的当前媒体时间,从记录单元212中所记录的语音响应时间元数据(整个节目的元数据)中提取指示适合于语音响应的时间的语音响应时间信息。然后,语音响应时间元数据管理单元211将所提取的信息作为语音响应时间元数据发送至语音-用户接口设备30。在本描述中,例如,除了不干扰观看的时间(诸如正在观看的节目的发展对话中断等)之外,适合于语音响应的时间可以认为还包括响应语音的时间长度(响应长度)、正在播放的内容的回放时间轴上的时区等。
语音-用户接口设备30接收语音响应时间元数据(语音响应时间信息),并且执行步骤S160至S161的处理操作。
在步骤S160,语音响应输出控制单元304基于所获取的语音响应时间信息而等待,直至达到适合于语音响应的时间。然后,当达到适合于语音响应的时间时,语音响应输出控制单元304通过向扬声器302提供用于响应的语音数据而输出响应语音(S161)。
由此,语音-用户接口设备30可以在适合于语音响应的时间执行语音响应,即,在不干扰观看的时间,诸如正在观看的节目的发展对话中断等。基于经由广播所获取的语音响应时间元数据(语音响应时间信息)执行此操作。这使得可以在不干扰节目的观看的情况下,使观看者2收听到响应语音(希望知道的信息)。
而且,在语音-用户接口设备30中,在判断所接收的响应不是对定时控制目标话语的响应的情况下(在S155,“否”),或在判断将自动定时控制设置为关闭的情况下(在S156,“否”),跳过步骤S157至S160的处理并且执行步骤S161的处理。换言之,在这种情况下,在不等待语音响应时间的情况下,立即输出响应语音。
在基于经由广播获取的语音响应时间元数据(语音响应时间信息)控制对观看者2的话语的语音响应的时间的情况下,给出处理过程的上述描述作为第一实施方式的各个设备中的处理的第二示例的过程。
如上所述,在第一实施方式中,存在语音-用户接口设备30的语音响应输出控制单元304结合诸如广播节目等内容使用语音AI辅助服务的情况。在这种情况下,基于指示适合于对观看内容的观看者的话语进行语音响应的时间的语音响应时间信息而控制语音响应的时间。该语音响应时间信息可以是在诸如广播节目等内容的回放时间轴上指示适合于语音响应的时间的信息。
在本描述中,在经由通信获取语音响应时间信息(语音响应时间元数据)的情况下,在接收装置20(第一设备)中播放诸如广播节目等内容,并且由处理服务器50(第二设备)经由通信传送语音响应时间信息。在处理服务器50(第二设备)中,从语音响应时间元数据(整个节目的元数据)中提取指示适合于对接收装置20(第一设备)中所播放的内容进行语音响应的时间的语音响应时间信息并且将其传送。该语音响应时间元数据包括关于内容的回放时间轴上的全部或部分时间的语音响应时间信息。因此,在语音-用户接口设备30中,语音响应输出控制单元304基于经由通信传送的语音响应时间信息而控制语音响应的时间。
进一步地,在经由广播获取语音响应时间信息(语音响应时间元数据)的情况下,在接收装置20(第一设备)中播放诸如广播节目等内容。由广播传送***10的广播服务器(第二设备)经由广播传送语音响应时间信息。在广播服务器(第二设备)中,传送包括关于内容的回放时间轴上的全部或部分时间的语音响应时间信息的语音响应时间元数据(整个节目的元数据)。在接收装置20(第一设备)中,从经由广播传送的语音响应时间元数据(整个节目的元数据)中提取指示适合于对正在播放的内容进行语音响应的时间的语音响应时间信息。因此,在语音-用户接口设备30中,语音响应输出控制单元304基于通过接收装置20(第一设备)提取的语音响应时间信息而控制语音响应的时间。
可以说,具有该功能的语音-用户接口设备30是包括语音响应输出控制单元304的信息处理装置。
(2)第二实施方式
顺便提及,尽管上述所述第一实施方式示出了基于***侧上的语音响应时间信息控制对观看者的话语进行语音响应的时间的配置,然而,认为语音响应的时间不同于取决于观看者2的希望时间。
因此,现参考图14至图16描述基于观看者2的指令话语控制语音响应的时间的配置作为第二实施方式。
(配置的示例)
图14是示出第二实施方式的配置的示例的示图。
图14示出了按照使用图14中的部分A至D的时间序列根据观看者2所观看的广播节目的进度的处理的过程。
如图14中的A示出的,当观看者2在观看戏剧节目的同时发出话语“这个女演员是谁?”时,用户接口设备30通过麦克风拾取观看者2的话语,并且将话语的语音数据发送至语音辅助服务器40。
因此,如图14中的部分B示出的,语音辅助服务器40结合由正在观看的戏剧节目的广播站提供的处理服务器50而执行处理、并且因此生成对话语的响应语音数据并且将其发送至用户接口设备30。
然后,用户接口设备30从语音辅助服务器40输出与用于响应的语音数据对应的响应语音,但是,响应语音的输出与正在观看的戏剧节目的对话情景重叠。在这种情况下,在观看者2给出诸如“等一会儿!”等停止指令(等待指令)的情况下,停止响应语音的输出并且呈现指示其处于等待状态的图标(以下称为等待图标),以使响应在等待。
换言之,如图14中的部分C所示,停止从用户接口设备30输出响应语音,并且在接收装置20的屏幕上显示等待图标251,以叠加在戏剧节目的视频上。
然而,当正在观看的戏剧节目继续并且例如频道转换至电视广告时,在观看者2给出诸如“现在可以!”等开始指令(等待释放指令)的情况下,开始(重新开始)已经停止的响应语音的输出并且擦除等待图标251。
换言之,如图14中的部分D所示,开始(重新开始)响应语音的输出。用户接口设备30基于来自语音辅助服务器40的用于响应的语音数据而输出响应语音“这个女演员的名字是XXXX并且主要代表作品是…”。
在这种情况下,在接收装置20中,播放电视广告,并且例如,在不干扰观看戏剧节目的观看者2的观看的时间输出语音响应。换言之,在本示例中,观看者2希望不仅在对话情景中而且还在无对话的情景中集中注意力于戏剧节目,并且因此,观看者等待做出响应,直至播放电视广告。
(各个设备的细节配置的示例)
图15是示出第二实施方式的各个设备的细节配置的示例的框图。
与图4和图10相似,图15示出了广播传送***10和接收装置20的配置的示例,此外,图15示出了设置在本地侧上的语音-用户接口设备30及设置在云端上的语音辅助服务器40和处理服务器50的配置的示例。
而且,在图15中,广播传送***10的配置与图4中所示的配置相似,并且因此,此处省去其描述。此外,在图15中,语音辅助服务器40和处理服务器50的配置与图10中所示的配置相似,并且由此,此处省去其描述。
在图15中,接收装置20包括调谐器201、解多路复用器202、AV解码器203、伴随广播的应用程序运行单元204、渲染器205、显示器206、扬声器207、通信单元210、以及语音响应等待通知单元213。换言之,与图4中所示的配置相比较,图15中所示的接收装置20的配置设置有语音响应等待通知单元213和通信单元210,代替了媒体-时间管理单元208和通信单元209。
在从语音-用户接口设备30(其语音响应输出控制单元304)接收指示等待状态的通知的情况下,语音响应等待通知单元213指示渲染器205显示等待图标。此外,在从语音-用户接口设备(其语音响应输出控制单元304)接收指示释放状态的通知的情况下,语音响应等待通知单元213指示渲染器205删除等待图标。
在图15中,语音-用户接口设备30包括麦克风301、扬声器302、通信单元303、语音响应输出控制单元304、缓存器306、语音分析单元308、以及通信单元309。换言之,与图4中所示的配置相比较,在图15所示的语音-用户接口设备30中,作为被排出的计时器305和设置管理单元307的替代,添加了语音分析单元308和通信单元309。
语音分析单元308对从麦克风301提供的话语的语音数据进行分析,并且基于通过分析所获得的结果,确认(判断)是否对响应语音的输出执行停止指令(等待指令)或开始指令(等待释放指令)的话语。
在判断不对响应语音的输出执行停止指令或开始指令的话语的情况下,语音分析单元308将话语的语音数据提供至通信单元303。这允许经由因特网60将话语的语音数据发送至语音辅助服务器40。此外,在判断对响应语音的输出执行停止指令或开始指令的话语的情况下,语音分析单元308将判断结果通知给语音响应输出控制单元304。
在指示停止输出响应语音的情况下,语音响应输出控制单元304基于来自语音分析单元308的通知执行控制以停止当前正在输出的响应语音的输出,并且在指示开始(重新开始)响应语音的输出的情况下,执行控制以开始(重新开始)处于等待状态(停止)的响应语音的输出。此外,语音响应输出控制单元304基于来自语音分析单元308的通知进行控制,使得将指示等待状态或释放状态的通知提供给接收装置20(其语音响应等待通知单元213)。
(各个设备中的处理过程)
现参考图16中的流程图描述第二实施方式的各个设备中的处理过程。
在观看接收装置20中所播放的广播节目的观看者2发出话语的情况下,在语音-用户接口设备30中,麦克风301拾取话语(S201)。此外,语音分析单元308对所拾取的话语的语音数据进行分析并且基于分析结果确认(判断)是否发出关于响应语音的输出的停止指令(等待指令)或开始指令(等待释放指令)(S202)。
在本描述中,根据步骤S202中的判断处理结果执行下列三种处理操作之一:正常话语、停止话语、以及开始话语。
在第一种情况下,在步骤S202的判断处理中,在判断发出正常话语(例如,诸如“这个女演员是谁?”的话语等),而非发出关于响应语音的输出的停止指令或开始指令的话语的情况下,处理进行至步骤S203并且执行正常话语处理。
在该正常话语处理中,语音-用户接口设备30将话语的语音数据发送至语音辅助服务器40(S203A)。语音辅助服务器40对来自语音-用户接口设备30的话语的语音数据进行分析并且基于分析结果生成请求消息。
处理服务器50接收该请求消息并且执行步骤S203B的处理。换言之,处理单元502基于请求消息提取语音响应数据并且将所提取的数据发送至语音辅助服务器40。在语音辅助服务器40中,基于语音响应数据生成用于响应的语音数据并且将其发送至语音-用户接口设备30。
在语音-用户接口设备30中,语音响应输出控制单元304使扬声器302输出与来自语音辅助服务器40的用于响应的语音数据对应的响应语音。这使得观看者2可以确认从语音-用户接口设备30输出的响应语音。
在第二种情况下,在步骤S202的判断处理中,在判断发出停止响应语音的输出的指令(例如,诸如话语“等一会儿!”)的情况下,处理进行至步骤S204,并且执行停止话语处理。
在该停止话语处理中,语音-用户接口设备30执行步骤S204A至S204C的处理操作。换言之,语音分析单元308向语音响应输出控制单元304通知(公告)停止响应语音的输出(S204A)。
这使语音响应输出控制单元304根据来自语音分析单元308的通知,而停止当前从扬声器302输出响应语音(S204B)。在这种情况下,语音响应输出控制单元304使缓存器306临时保存用于响应的语音数据。
进一步地,语音响应输出控制单元304通知接收装置20响应语音的输出处于等待状态(S204C)。接收装置20通过使用诸如蓝牙(注册商标)等无线通信来接收指示等待状态的通知,并且执行步骤S204D的处理。
换言之,语音响应等待通知单元213基于来自语音-用户接口设备30(其语音响应输出控制单元304)的指示等待状态的通知,指示渲染器205显示等待图标(S204D)。这允许在接收装置20的显示器206的屏幕上显示等待图标251,并且因此,观看者2能够使用观看者自身的话语确认响应语音正在等待。
在第三种情况下,在步骤S202的判断处理中,在判断发出开始响应语音的输出的指令(例如,诸如话语“现在可以”等)的情况下,处理进行至步骤S205并且执行开始话语处理。
在该开始话语处理中,语音-用户接口设备30执行步骤S205A至S205C的处理。换言之,语音分析单元308使语音响应输出控制单元304通知开始响应语音的输出(S205A)。
这允许语音响应输出控制单元304根据来自语音分析单元308的通知,使扬声器302输出与临时保存在缓存器306中的用于响应的语音数据对应的响应语音,并且重新开始处于等待的响应语音的输出(S205B)。
进一步地,语音响应输出控制单元304向接收装置20通知,正在等待的响应语音的输出被释放(S205C)。接收装置20接收指示释放状态的通知并且执行步骤S205D的处理。
换言之,语音响应等待通知单元213基于来自语音-用户接口设备30的指示释放状态的通知,指示渲染器205删除等待图标(S205D)。这允许擦除接收装置20的显示器206的屏幕上的等待图标251。
例如,在观看者2观看戏剧节目直至电视广告的期间使响应语音的输出处于等待的情况下,观看者2能够发出开始响应语音的输出的指令。相应地,观看者2能够确认响应语音“这个女演员的名字是XXXX并且主要代表作品是…”。这使得观看者2可以在观看者希望听到的时间收听响应语音(希望知道的信息)。
在基于观看者2的指令话语控制语音响应的时间的情况下,给出处理过程的上述描述作为第二实施方式的各个设备中的处理过程。
而且,等待图标是指示响应语音的输出处于等待状态的信息的示例,并且只要能够通知其处于等待状态的信息,则能够使用其他类型的信息。此外,例如,在接收装置20或语音-用户接口设备30中,能够使用灯的闪光作为等待信息。
(3)第三实施方式
顺便提及,在第一实施方式中,***侧基于语音响应时间信息控制对观看者的话语的语音响应的时间。由此,假设一些人希望在取决于观看者2的希望时间听到语音响应。换言之,与第二实施方式中所示的配置相似,第一实施方式中所示的配置也能够基于观看者2的指令话语执行语音响应的时间的控制。
由此,参考图17至图20,基于经由通信或广播所获取的语音响应时间元数据(语音响应时间信息)及观看者2的指令话语而控制语音响应的时间的配置被示出作为第三实施方式。
(各个设备的细节配置的第一示例)
图17是示出根据第三实施方式的各个设备的细节配置的第一示例的框图。
与图4和图15相似,图17示出了广播传送***10和接收装置20的配置的示例,此外,图17示出了设置在本地侧上的语音-用户接口设备30的配置及设置在云端上的语音辅助服务器40和处理服务器50的配置的示例。
而且,在图17中,广播传送***10、语音辅助服务器40、以及处理服务器50在配置上与图4中示出的那些相似,并且因此省去其描述。
在图17中,接收装置20包括调谐器201、解多路复用器202、AV解码器203、伴随广播的应用程序运行单元204、渲染器205、显示器206、扬声器207、媒体-时间管理单元208、通信单元209、通信单元210、以及语音响应等待通知单元213。换言之,与图4中所示的配置相比较,图17中所示的接收装置20的配置添加了语音响应等待通知单元213和通信单元210。
在从语音-用户接口设备30(其语音响应输出控制单元304)接收指示等待状态的通知的情况下,语音响应等待通知单元213指示渲染器205显示等待图标,并且在接收指示释放状态的通知的情况下,指示渲染器205删除等待图标。
在图17中,语音-用户接口设备30包括麦克风301、扬声器302、通信单元303、语音响应输出控制单元304、计时器305、缓存器306、设置管理单元307、语音分析单元308、以及通信单元309。换言之,与图4中所示的配置相比较,在图17所示的语音-用户接口设备30的配置中,添加了语音分析单元308和通信单元309。
当等待直至基于经由通信获取的语音响应时间元数据(语音响应时间信息)的语音响应时间期间,语音响应输出控制单元304使接收装置20(其语音响应等待通知单元213)发出指示等待状态的通知。此外,当基于来自语音分析单元308的通知而指示开始(重新开始)响应语音的输出时,语音响应输出控制单元304开始(重新开始)处于等待状态(处于停止状态)的响应语音的输出。此时,语音响应输出控制单元304基于来自语音分析单元308的通知进行控制,使得将指示释放状态的通知提供至接收装置20(其语音响应等待通知单元213)。
(各个设备中的处理的第一示例的过程)
现参考图18中的流程图描述第三实施方式的各个设备中的处理的第一示例的过程。
在观看接收装置20中所播放的广播节目的观看者2发出问题的情况下,执行步骤S301至S303的处理操作。
与上述所述图8中的步骤S102至S107相似,在步骤S301至S303,将与话语的语音数据的分析结果对应的请求消息发送至处理服务器50。在处理服务器50中,基于从接收装置20获取的当前媒体时间,从语音响应时间元数据(整个节目的元数据)中提取指示适合于语音响应的时间的语音响应时间信息,并且发送与请求消息对应的语音响应数据(S301和S302)。
然后,由语音-用户接口设备30经由因特网60接收用于响应的语音数据和语音响应时间元数据(语音响应时间信息)。语音响应输出控制单元304基于经由通信获取的语音响应时间元数据(语音响应时间信息)等待,直至语音响应时间(S303)。
在步骤S304,语音响应输出控制单元304向接收装置20通知响应语音的输出处于等待状态。接收装置20接收指示其处于等待状态的通知并且执行步骤S305的处理。
换言之,语音响应等待通知单元213基于来自语音-用户接口设备30(其语音响应输出控制单元304)的指示等待状态的通知而指示渲染器205显示等待图标(S305)。这允许在接收装置20的显示器206的屏幕上显示等待图标251,并且因此,观看者2能够确认响应语音正在等待。
在本描述中,例如,当观看者2确认等待图标251并且通知语音响应处于等待状态时,视为需要发出指令话语以开始响应语音(例如,诸如“现在可以”等)的输出(S306和S307)。
在这种情况下,在语音-用户接口设备30中,语音分析单元308对通过麦克风301拾取的话语的语音数据进行分析,并且执行步骤S308至S310的处理操作。换言之,语音分析单元308向语音响应输出控制单元304通知开始输出响应语音(S308)。
这允许语音响应输出控制单元304根据来自语音分析单元308的通知,使扬声器302输出与临时保存在缓存器306中的用于响应的语音数据对应的响应语音,并且重新开始正在等待的响应语音的输出(S309)。
进一步地,语音响应输出控制单元304向接收装置20通知释放正在等待的响应语音的输出(S310)。接收装置20接收指示释放状态的通知并且执行步骤S311的处理。
换言之,语音响应等待通知单元213基于来自语音-用户接口设备30的指示释放状态的通知,指示渲染器205删除等待图标251,以使得删除显示器206的屏幕上所显示的等待状态(S311)。
而且,本示例假设了注意到等待图标251的观看者2发出开始指令。然而,在不发出开始指令的话语的情况下,例如,当之后达到由语音响应时间信息指示的时间时,从扬声器302输出响应语音。
在基于经由通信获取的语音响应时间元数据(语音响应时间信息)及观看者2的指令话语控制语音响应的时间的情况下,给出了处理过程的上述描述作为第三实施方式的各个设备中的处理的第一示例的过程。
(各个设备的细节配置的第二示例)
图19是示出根据第三实施方式的各个设备的细节配置的第二示例的框图。
与图10和图15相似,图19示出了广播传送***10和接收装置20的配置的示例,此外,图19示出了设置在本地侧上的语音-用户接口设备30的配置及设置在云端上的语音辅助服务器40和处理服务器50的配置的示例。
而且,在图19中,广播传送***10、语音辅助服务器40、以及处理服务器50在配置上与图10中示出的配置相似,并且因此省去其描述。
在图19中,接收装置20包括调谐器201、解多路复用器202、AV解码器203、伴随广播的应用程序运行单元204、渲染器205、显示器206、扬声器207、媒体-时间管理单元208、通信单元210、语音响应时间元数据管理单元211、记录单元212、以及语音响应等待通知单元213。换言之,与图10中所示的配置相比较,图19中所示的接收装置20的配置添加了语音响应等待通知单元213。
在从语音-用户接口设备30(其语音响应输出控制单元304)接收指示等待状态的通知的情况下,语音响应等待通知单元213指示渲染器205显示等待图标,并且在接收指示释放状态的通知的情况下,指示渲染器205删除等待图标。
在图19中,语音-用户接口设备30包括麦克风301、扬声器302、通信单元303、语音响应输出控制单元304、计时器305、缓存器306、设置管理单元307、语音分析单元308、以及通信单元309。换言之,图19中所示的语音-用户接口设备30具有与图10中所示的语音-用户接口设备30相似的配置,但是,语音响应输出控制单元304以及语音分析单元308的处理细节不同。
当等待直至基于经由广播获取的语音响应时间元数据(语音响应时间信息)的语音响应时间时,语音响应输出控制单元304使接收装置20(其语音响应等待通知单元213)发出指示等待状态的通知。此外,当基于来自语音分析单元308的通知而指示开始(重新开始)响应语音的输出时,语音响应输出控制单元304开始(重新开始)处于等待状态(处于停止状态)的响应语音的输出。此时,语音响应输出控制单元304基于来自语音分析单元308的通知进行控制,使得将指示释放状态的通知给至接收装置20(其语音响应等待通知单元213)。
(各个设备中的处理的第二示例的过程)
现参考图20中的流程图描述第三实施方式的各个设备中的处理的第二示例的过程。
在观看接收装置20中所播放的广播节目的观看者发出问题的情况下,执行步骤S351至S354的处理操作。
与上述所述图13中的步骤S152至S160相似,在步骤S351至S354,将与话语的语音数据的分析结果对应的请求消息发送至处理服务器50,并且发送与请求消息对应的语音响应数据(S351和S352)。
另一方面,在语音-用户接口设备30中,在所接收的响应的语音数据是对定时控制目标话语的响应的情况下,从接收装置20获取语音响应时间元数据(语音响应时间信息)(S353)。相应地,语音响应输出控制单元304基于经由广播获取的语音响应时间元数据(语音响应时间信息)而等待,直至语音响应时间(S354)。
与上述所述图18中的步骤S304至S305相似,在步骤S355至S356,语音响应输出控制单元304通知响应语音的输出处于等待状态,并且在接收装置20接收该通知时,语音响应等待通知单元213指示显示等待图标。
进一步地,与上述所述图18中的步骤S306至S311相似,在步骤S357至S362,在观看者2发出开始响应语音的输出的指令的情况下,在语音-用户接口设备30中,重新开始处于等待状态的响应语音的输出。此外,在这种情况下,语音响应输出控制单元304通知响应语音的输出处于释放状态,并且在接收装置20接收到该通知时,语音响应等待通知单元213发出删除所显示的等待图标的指令。
在基于经由广播获取的语音响应时间元数据(语音响应时间信息)及观看者2的指令话语而控制语音响应的时间的情况下,给出处理过程的上述描述作为第三实施方式的各个设备中的处理的第二示例的过程。
如上所述,在第三实施方式中,存在语音-用户接口设备30的语音响应输出控制单元304将诸如广播节目等内容与语音AI辅助服务相结合使用的情况。在这种情况下,基于指示适合于对观看内容的观看者的话语进行语音响应的时间的语音响应时间信息及观看者的话语而控制语音响应的时间。
进一步地,在语音-用户接口设备30中,当等待达到语音响应的时间时,语音响应输出控制单元304能够使指示其处于等待状态的信息呈现。进一步地,在观看者给出开始语音响应的指令的情况下,语音响应输出控制单元304能够使处于等待状态的语音响应开始输出。
进一步地,在等待语音响应的时间的情况下,语音响应输出控制单元304向播放诸如广播节目等内容的接收装置20(第一设备)发出指示等待状态的通知(第一消息)。在接收装置20(第一设备)中,基于指示等待状态的通知(第一消息)显示等待图标251(图标)。在观看者发出开始语音响应的指令的情况下,将指示释放状态的通知(第二消息)提供至接收装置20(第一设备)。在接收装置20(第一设备)中,可以基于指示释放状态的通知(第二消息)而删除等待图标251(图标)的显示。
可以说,具有这种功能的语音-用户接口设备30是包括语音响应输出控制单元304的信息处理装置。
如上所述,在第一实施方式所示的配置中,在***侧上自动控制语音响应的时间。由此,例如,对于希望早点听到响应语音的观看者,存在冗余干扰的可能性,因为其与主要部分的对话重叠。由此,与第二实施方式相似,在第三实施方式的配置中,即使在语音-用户接口设备30基于语音响应时间信息等待响应语音的输出期间,会使接收装置20显示等待图标。希望早点听到响应语音的观看者对等待图标进行确认,并且当识别响应语音的输出处于等待状态时,则发出诸如“现在可以!”等响应语音输出的开始指令,这能够使得立即听到响应语音。而且,不同于第二实施方式的配置,如果自动定时调整适合于观看者,则还存在不需要冗余交互的优点。
<3.变形>
(其他配置的示例)
给出了接收装置20与语音-用户接口设备30是不同的设备的上述描述。然而,例如,如图21中示出的,能够对这些设备进行集成,以形成一个设备(信息处理装置)。
换言之,图21中示出的接收装置20是支持语音AI辅助服务的设备,诸如电视机或智能手机。除调谐器201至媒体-时间管理单元208及语音响应等待通知单元213之外,接收装置20还设置有在语音-用户接口设备30的一侧上的麦克风301、通信单元303、语音响应输出控制单元304、计时器305、缓存器306、设置管理单元307、以及语音分析单元308。然而,在图21中,还使用扬声器207作为语音-用户接口设备30的一侧上的扬声器302。此外,还使用通信单元303作为接收装置20的一侧上的通信单元209。
在图21所示的接收装置20中,语音响应输出控制单元304基于语音响应时间信息而控制语音响应的时间。此外,语音响应等待通知单元213呈现等待图标。
而且,参考图21描述了其中接收装置20与语音AI辅助服务兼容的配置。然而,语音响应等待通知单元213等的功能设置在语音-用户接口设备30的一侧,并且能够从接收装置20的一侧获取必要的信息。此外,尽管图21中示出了与第三实施方式对应的配置,然而,能够对接收装置20和语音-用户接口设备30进行集成,这与第一实施方式和第二实施方式相似。
进一步地,作为用于提供语音AI辅助服务的功能,存在本地侧上的功能(例如,诸如语音响应输出控制单元304或语音分析单元308的功能等)与云端上的功能(例如,诸如语音分析单元403和语音生成单元404-1、元数据合并单元404-2的功能等)。然而,能够在本地侧上的设备(终端)或云端上的设备(服务器)中实现全部这些功能,或者能够在本地侧上的设备(终端)或云端上的设备(服务器)中实现这些功能中的一些功能。
进一步地,在上述所述图1的内容-语音AI协作***1中,示出了其中将一个接收装置20(例如,电视机)和一个语音-用户接口设备30(智能扬声器)安装在观看者的房屋中的情况。然而,例如,可以针对每个观看者的房屋提供将应用了本技术的接收装置20和语音-用户接口设备30。此外,尽管假设将接收装置20和语音-用户接口设备30安装在观看者的房屋的相同的房间中,然而,能够将其安装在不同的房间中。进一步地,能够为一个接收装置20提供多个语音-用户接口设备30,或相反,能够为一个语音-用户接口设备30提供多个接收装置20。
进一步地,在上述所述图1的内容-语音AI协作***1中,示出了其中安装一个语音辅助服务器40和一个处理服务器50的情况,但是,例如,可以为每个功能或提供商(例如,广播公司)安装多个这些服务器。另一方面,能够通过一个或多个服务器集成并且提供语音辅助服务器40和处理服务器50的全部或部分功能。
(广播***的示例)
作为用于将从广播传送***10传送的广播信号(数字广播信号)发送至接收装置20的广播***,例如,可以应用高级的电视***委员会(ATSC),即,美国等所采用的***。除此之外,可以应用集成服务数字广播(ISDB),即,日本及其他国家采用的***,或可以应用数字视频广播(DVB),即,欧洲国家等采用的***。此外,传输路径并不局限于陆地广播,并且例如,其还能够应用于使用广播卫星(BS)、通信卫星(CS)等的卫星广播、或者诸如有线电视(CATV)等有线广播。
进一步地,上述广播传送***10包括一个或多个广播服务器等。例如,在一般数字广播***中,能够将多路复用器103(多路复用器服务器)和发送单元104(发送服务器)安装在不同的地方。更具体地,例如,将多路复用器103安装在广播站,而将发送单元104安装在发送站。进一步地,能够将节目内容处理单元101(节目内容服务器)、伴随广播的应用程序生成单元102(伴随广播的应用程序服务器)、以及元数据生成单元105(元数据服务器)与多路复用器103(多路复用器服务器)安装在相同的位置(例如,广播站内的地方)或不同的地方(例如,广播站之外的地方)。
(内容应用程序的示例)
而且,在上述描述中,例示了节目和广播作为待传送的内容,但是,应用本技术的内容不仅包括移动图像或音乐,而且还包括诸如电子书、游戏、以及广告等任意类型的内容应用程序。此外,在上文中,将广播传送***10经由广播进行的传送描述为内容的传送路线,但是,提供顶级(OTT)服务等的通信分布***能够经由通信传送流。进一步地,能够经由广播或通信传送包括诸如节目等内容的全部组成(例如,诸如视频、音频、或字幕等),或者能够经由广播或通信传送组成的一部分(经由通信或广播传送剩余部分)。
进一步地,例如,伴随广播的应用程序可以是以诸如HTML5等标记语言或者诸如JavaScript(注册商标)等脚本语言开发的应用程序,但并不局限于此。例如,其可以是以诸如Java(注册商标)等编程语言开发的应用程序。此外,伴随广播的应用程序并不局限于通过浏览器(伴随广播的应用程序运行单元204)运行的应用程序,而是能够在操作***(OS)环境等中作为所谓的本机应用程序而运行。
进一步地,给出了其中由广播传送***10经由广播传送伴随广播的应用程序的情况的上述描述,其并不局限于此。例如,生成伴随广播的应用程序的应用程序服务器能够经由通信(经由因特网60)传送伴随广播的应用程序。此外,给出了伴随广播的应用程序与经由广播传送的内容结合的上述描述,但是,其能够是结合经由通信所传送的内容而运行的应用程序。
(其他)
而且,此处使用的术语是示例,并且实际上,在一些情况下,使用其他术语。然而,这些术语的不同在于形式不同,但对象的实质内容是相同的。例如,在一些情况下,将上述所述“技能”称为“动作”、“应用程序”等。进一步地,在一些情况下,将上述所述“AI辅助服务”称为“AI辅助服务”等。
<4.计算机的配置>
能够通过硬件或软件执行上述所述一系列过程。在由软件执行一系列过程的情况下,将构成软件的程序安装在计算机中。图22是示出由程序执行上述所述一系列的处理的计算机的示例性硬件配置的示图。
在该计算机1000中,中央处理单元(CPU)1001、只读存储器(ROM)1002、以及随机访问存储器(RAM)1003通过总线1004彼此连接。输入/输出接口1005进一步连接至总线1004。输入单元1006、输出单元1007、记录单元1008、通信单元1009、以及驱动器1010连接至输入/输出接口1005。
输入单元1006包括键盘、鼠标、麦克风等。输出单元1007包括显示器、扬声器等。记录单元1008包括硬盘、非易失性存储器等。通信单元1009包括网络接口等。驱动器1010驱动诸如磁盘、光盘、磁光盘、或半导体存储器等可移除记录介质1011。
在上述所述配置的计算机1000中,CPU 1001经由输入/输出接口1005和总线1004将记录在ROM 1002或记录单元1008中的程序加载到RAM 1003中并且运行程序。由此,执行上述一系列的处理。
例如,提供记录在可移除记录介质1011(即,封装介质等)中由计算机1000(CPU1001)执行的程序。此外,可以经由诸如局域网、因特网、或数字卫星广播等有线或无线传输介质提供程序。
在计算机1000中,能够通过将可移除记录介质1011安装在驱动器1010上而经由输入/输出接口1005将程序安装在记录单元1008上。此外,通信单元1009能够经由有线或无线传输介质接收程序并且能够将程序安装在记录单元1008上。此外,能够将程序提前安装在ROM 1002或记录单元1008上。
此处,在本说明书中,由计算机根据程序而执行的过程不一定必须按照流程图中描述的时间顺序执行。即,由计算机根据程序执行的过程还包括并行或单独执行的过程(例如。并行过程或对象过程)。此外,可以通过一个计算机(处理器)处理程序或者可以通过多个计算机分布并且处理程序。
此外,本技术的实施方式并不局限于上述所述实施方式,并且在不偏离本技术的范围的情况下,可以做出各种变化和变形。
此外,本技术还可以配置成如下。
(1)一种信息处理装置,包括:
控制单元,被配置为在结合内容使用语音AI辅助服务时,基于指示适合于对观看内容的观看者的话语的语音响应的时间的语音响应时间信息控制语音响应的时间。
(2)根据(1)所述的信息处理装置,
其中,语音响应时间信息是指示内容的回放时间轴上适合于语音响应的时间的信息。
(3)根据(1)或(2)所述的信息处理装置,
其中,经由通信获取语音响应时间信息。
(4)根据(3)所述的信息处理装置,
其中,通过第一设备对内容进行回放;
由第二设备经由通信传送语音响应时间信息;
第二设备从包括作为内容的回放时间轴上的全部或部分时间的对象的语音响应时间信息的元数据中提取指示适合于对第一设备中所播放的内容进行语音响应的时间的语音响应时间信息;并且
控制单元基于经由通信传送的语音响应时间信息而控制语音响应的时间。
(5)根据(1)或(2)所述的信息处理装置,
其中,经由广播获取语音响应时间信息。
(6)根据(5)所述的信息处理装置,
其中,通过第一设备对内容进行回放;
由第二设备经由广播传送语音响应时间信息;
第二设备传送包括作为内容的回放时间轴上的全部或部分时间的对象的语音响应时间信息的元数据;
第一设备从经由广播传送的元数据中提取指示适合于对正在播放的内容的语音响应的时间的语音响应时间信息;并且
控制单元基于通过第一设备提取的语音响应时间信息而控制语音响应的时间。
(7)根据(1)至(6)中任一项所述的信息处理装置,
其中,控制单元基于观看者的话语而控制语音响应的时间。
(8)根据(7)所述的信息处理装置,
其中,在等待直至达到语音响应的时间时,控制单元使指示等待状态的信息呈现。
(9)根据(7)所述的信息处理装置,
其中,在从观看者接收开始语音响应的指令时,控制单元使处于等待状态的语音响应开始。
(10)根据(9)所述的信息处理装置,
其中,在等待直至达到语音响应的时间时,控制单元向第一设备通知对指示等待状态的第一消息的内容进行回放;
第一设备基于已通知的第一消息而使指示等待状态的图标显示;
在从观看者接收开始语音响应的指令时,控制单元向第一设备通知指示释放语音响应的等待状态的第二消息;并且
第一设备基于已通知的第二消息而使指示等待状态的显示图标被擦除。
(11)根据(2)所述的信息处理装置,
其中,语音响应时间信息包括其间不输出正在播放的内容的发出语音的时间作为适合于语音响应的时间。
(12)根据(1)至(11)中任一项所述的信息处理装置,
其中,内容是经由广播传送的广播内容;并且
语音响应是对观看广播内容的观看者的话语的响应。
(13)根据(3)或(4)所述的信息处理装置,
其中,经由通信使用HTTP响应一起传送语音响应的语音数据以及语音响应时间信息。
(14)根据(5)或(6)所述的信息处理装置,
其中,经由广播传送内容作为与MPEG-DASH兼容的流;并且
使用MPD经由广播传送语音响应时间信息。
(15)根据(1)至(14)中任一项所述的信息处理装置,
其中,信息处理装置被配置成语音处理设备,语音处理设备配置为用作语音AI辅助服务的用户接口。
(16)根据(1)至(14)中任一项所述的信息处理装置,
其中,信息处理装置被配置成接收装置,接收装置配置为接收并且回放经由广播传送的内容。
(17)一种通过信息处理装置执行的信息处理方法,该方法包括:
在结合内容使用语音AI辅助服务时,由信息处理装置基于指示适合于对观看内容的观看者的话语进行语音响应的时间的语音响应时间信息,控制语音响应的时间。
(18)一种发送装置,包括:
生成单元,被配置为在结合内容使用语音AI辅助服务时生成包括指示适合于对观看内容的观看者的话语进行语音响应的时间的语音响应时间信息的元数据;和
发送单元,被配置为发送已生成的元数据。
(19)根据(18)所述的发送装置,
其中,生成单元生成MPD,所述MPD表现为通过标识信息能够识别作为内容的回放时间轴上的全部或部分时间的对象的语音响应时间信息,所述标识信息用于识别为语音AI辅助服务所使用的所述语音响应时间信息;并且
发送单元经由广播将内容与MPD一起作为与MPEG-DASH兼容的流传送。
(20)一种通过发送装置执行的发送方法,方法包括:
在结合内容使用语音AI辅助服务时,通过发送装置生成包括指示适合于对观看内容的观看者的话语进行语音响应的时间的语音响应时间信息的元数据;并且
通过发送装置发送已生成的元数据。
参考标号列表
1 内容-语音AI协作***
10 广播传送***
20 接收装置
30 语音-用户接口设备
40 语音辅助服务器
50 处理服务器
60 因特网
70 网络
101 节目内容处理单元
102 伴随广播的应用程序生成单元
103 多路复用器
104 发送单元
105 元数据生成单元
201 调谐器
202 解多路复用器
203 AV解码器
204 伴随广播的应用程序运行单元
205 渲染器
206 显示器
207 扬声器
208 媒体-时间管理单元
209 通信单元
210 通信单元
211 语音响应时间元数据管理单元
212 记录单元
213 语音响应等待通知单元
301 麦克风
302 扬声器
303 通信单元
304 语音响应输出控制单元
305 计时器
306 缓存器
307 设置管理单元
308 语音分析单元
309 通信单元
401 通信单元
402 通信单元
403 语音分析单元
404 消息生成单元
404-1 语音生成单元
404-2 元数据合并单元
501 通信单元
502 处理单元
503 记录单元
1000 计算机
1001 CPU

Claims (20)

1.一种信息处理装置,包括:
控制单元,被配置为在结合内容使用语音AI辅助服务时,基于语音响应时间信息控制语音响应的时间,所述语音响应时间信息指示适合于对观看所述内容的观看者的话语进行所述语音响应的时间。
2.根据权利要求1所述的信息处理装置,
其中,所述语音响应时间信息是指示所述内容的回放时间轴上适合于所述语音响应的时间的信息。
3.根据权利要求2所述的信息处理装置,
其中,经由通信获取所述语音响应时间信息。
4.根据权利要求3所述的信息处理装置,
其中,通过第一设备对所述内容进行回放;
由第二设备经由通信传送所述语音响应时间信息;
所述第二设备从包括作为所述内容的所述回放时间轴上的全部或部分时间的对象的所述语音响应时间信息的元数据中提取指示适合于对所述第一设备中播放的所述内容进行所述语音响应的所述时间的所述语音响应时间信息;并且
所述控制单元基于经由通信传送的所述语音响应时间信息来控制所述语音响应的时间。
5.根据权利要求2所述的信息处理装置,
其中,经由广播获取所述语音响应时间信息。
6.根据权利要求5所述的信息处理装置,
其中,通过第一设备对所述内容进行回放;
由第二设备经由广播传送所述语音响应时间信息;
所述第二设备传送包括作为所述内容的所述回放时间轴上的全部或部分时间的对象的所述语音响应时间信息的元数据;
所述第一设备从经由广播传送的所述元数据中提取指示适合于对正在播放的所述内容进行所述语音响应的所述时间的所述语音响应时间信息;并且
所述控制单元基于通过所述第一设备提取的所述语音响应时间信息来控制所述语音响应的时间。
7.根据权利要求1所述的信息处理装置,
其中,所述控制单元基于所述观看者的话语来控制所述语音响应的时间。
8.根据权利要求7所述的信息处理装置,
其中,在等待直至达到所述语音响应的时间时,所述控制单元使指示等待状态的信息被呈现。
9.根据权利要求8所述的信息处理装置,
其中,在从所述观看者接收开始所述语音响应的指令时,所述控制单元使处于所述等待状态的所述语音响应开始。
10.根据权利要求9所述的信息处理装置,
其中,在等待直至达到所述语音响应的时间时,所述控制单元向第一设备通知对指示所述等待状态的第一消息的内容进行回放;
所述第一设备基于通知的所述第一消息而使指示所述等待状态的图标显示;
在从所述观看者接收开始所述语音响应的所述指令时,所述控制单元向所述第一设备通知指示释放所述语音响应的所述等待状态的第二消息;并且
所述第一设备基于通知的所述第二消息而使指示所述等待状态的显示图标被擦除。
11.根据权利要求2所述的信息处理装置,
其中,所述语音响应时间信息包括正在播放的所述内容的发出语音不输出的时间作为适合于所述语音响应的所述时间。
12.根据权利要求1所述的信息处理装置,
其中,所述内容是经由广播传送的广播内容;并且
所述语音响应是对观看所述广播内容的所述观看者的所述话语的响应。
13.根据权利要求4所述的信息处理装置,
其中,经由通信使用HTTP响应将所述语音响应时间信息与所述语音响应的语音数据一起传送。
14.根据权利要求6所述的信息处理装置,
其中,经由广播将所述内容作为与MPEG-DASH兼容的流传送;并且
经由广播使用MPD传送所述语音响应时间信息。
15.根据权利要求1所述的信息处理装置,
其中,所述信息处理装置被配置成语音处理设备,所述语音处理设备被配置为用作所述语音AI辅助服务的用户接口。
16.根据权利要求1所述的信息处理装置,
其中,所述信息处理装置被配置成接收装置,所述接收装置被配置为接收并且回放经由广播传送的所述内容。
17.一种通过信息处理装置执行的信息处理方法,所述信息处理方法包括:
在结合内容使用语音AI辅助服务时,由所述信息处理装置基于指示适合于对观看内容的观看者的话语进行语音响应的时间的语音响应时间信息来控制所述语音响应的时间。
18.一种发送装置,包括:
生成单元,被配置为在结合内容使用语音AI辅助服务时生成元数据,所述元数据包括语音响应时间信息,所述语音响应时间信息指示适合于对观看内容的观看者的话语进行语音响应的时间;和
发送单元,被配置为发送已生成的所述元数据。
19.根据权利要求18所述的发送装置,
其中,所述生成单元生成MPD,所述MPD表现为通过识别信息能识别作为所述内容的回放时间轴上的全部或部分时间的对象的所述语音响应时间信息,所述识别信息用于识别为语音AI辅助服务所使用的所述语音响应时间信息;并且
所述发送单元经由广播将所述内容与所述MPD一起作为与MPEG-DASH兼容的流传送。
20.一种通过发送装置执行的发送方法,所述发送方法包括:
在结合内容使用语音AI辅助服务时,通过所述发送装置生成元数据,所述元数据包括语音响应时间信息,所述语音响应时间信息指示适合于对观看所述内容的观看者的话语进行语音响应的时间;并且
通过所述发送装置发送已生成的所述元数据。
CN201980021237.9A 2018-03-29 2019-03-15 信息处理装置、信息处理方法、发送装置以及发送方法 Pending CN111903138A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018064977 2018-03-29
JP2018-064977 2018-03-29
PCT/JP2019/010762 WO2019188393A1 (ja) 2018-03-29 2019-03-15 情報処理装置、情報処理方法、送信装置、及び送信方法

Publications (1)

Publication Number Publication Date
CN111903138A true CN111903138A (zh) 2020-11-06

Family

ID=68058377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980021237.9A Pending CN111903138A (zh) 2018-03-29 2019-03-15 信息处理装置、信息处理方法、发送装置以及发送方法

Country Status (6)

Country Link
US (2) US11438650B2 (zh)
EP (1) EP3780640A4 (zh)
JP (1) JP7366003B2 (zh)
KR (1) KR102630037B1 (zh)
CN (1) CN111903138A (zh)
WO (1) WO2019188393A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565535A (zh) * 2022-09-21 2023-01-03 深圳琪乐科技有限公司 一种智能语音客服***
US11798545B2 (en) 2020-01-08 2023-10-24 Beijing Xiaomi Pinecone Electronics Co., Ltd. Speech interaction method and apparatus, device and storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115244615A (zh) * 2021-02-25 2022-10-25 松下知识产权经营株式会社 声音控制方法、服务器装置、以及发声体

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080299894A1 (en) * 2007-06-01 2008-12-04 Kabushiki Kaisha Toshiba Mobile communication device
JP2008301362A (ja) * 2007-06-01 2008-12-11 Toshiba Corp 移動無線端末装置
JP2008306426A (ja) * 2007-06-07 2008-12-18 Toshiba Corp 携帯電話機
JP2010004545A (ja) * 2009-07-21 2010-01-07 Toshiba Corp 移動無線端末装置
CN102549553A (zh) * 2009-10-19 2012-07-04 夏普株式会社 网络***、通信方法、通信设备以及记录有通信程序的计算机可读取的记录介质
CN104284249A (zh) * 2013-07-11 2015-01-14 腾讯科技(深圳)有限公司 视频播放方法及装置
CN106462646A (zh) * 2015-03-31 2017-02-22 索尼公司 控制设备、控制方法和计算机程序
CN107003797A (zh) * 2015-09-08 2017-08-01 苹果公司 媒体环境中的智能自动化助理
WO2017197184A1 (en) * 2016-05-13 2017-11-16 Google Llc Led design language for visual affordance of voice user interfaces
US20170329848A1 (en) * 2016-05-13 2017-11-16 Google Inc. Personalized and Contextualized Audio Briefing
WO2017197329A1 (en) * 2016-05-13 2017-11-16 Google Llc Personalized and contextualized audio briefing
WO2018005334A1 (en) * 2016-06-27 2018-01-04 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US20180081618A1 (en) * 2016-09-16 2018-03-22 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Audio segment playback coordination

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6993606B1 (en) * 1999-11-18 2006-01-31 Sony Corporation Communication method and communication apparatus for data communication between devices connected by a network
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
JP5903939B2 (ja) 2012-03-08 2016-04-13 ソニー株式会社 受信装置、受信方法、及びプログラム
JP2014153663A (ja) 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
EP3157909B1 (en) 2014-06-20 2021-04-07 Principia Biopharma Inc. Lmp7 inhibitors
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10332513B1 (en) * 2016-06-27 2019-06-25 Amazon Technologies, Inc. Voice enablement and disablement of speech processing functionality
US10271093B1 (en) * 2016-06-27 2019-04-23 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US10033870B1 (en) * 2017-04-12 2018-07-24 Noble Systems Corporation Agent interaction with a party using multiple channels of communication
US20190034542A1 (en) * 2017-07-26 2019-01-31 Scripps Networks Interactive, Inc. Intelligent agent system and method of accessing and delivering digital files
US11025919B2 (en) * 2017-10-03 2021-06-01 Koninklijke Kpn N.V. Client-based adaptive streaming of nonlinear media

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080299894A1 (en) * 2007-06-01 2008-12-04 Kabushiki Kaisha Toshiba Mobile communication device
JP2008301362A (ja) * 2007-06-01 2008-12-11 Toshiba Corp 移動無線端末装置
JP2008306426A (ja) * 2007-06-07 2008-12-18 Toshiba Corp 携帯電話機
JP2010004545A (ja) * 2009-07-21 2010-01-07 Toshiba Corp 移動無線端末装置
CN102549553A (zh) * 2009-10-19 2012-07-04 夏普株式会社 网络***、通信方法、通信设备以及记录有通信程序的计算机可读取的记录介质
CN104284249A (zh) * 2013-07-11 2015-01-14 腾讯科技(深圳)有限公司 视频播放方法及装置
CN106462646A (zh) * 2015-03-31 2017-02-22 索尼公司 控制设备、控制方法和计算机程序
CN107003797A (zh) * 2015-09-08 2017-08-01 苹果公司 媒体环境中的智能自动化助理
WO2017197184A1 (en) * 2016-05-13 2017-11-16 Google Llc Led design language for visual affordance of voice user interfaces
US20170329848A1 (en) * 2016-05-13 2017-11-16 Google Inc. Personalized and Contextualized Audio Briefing
WO2017197329A1 (en) * 2016-05-13 2017-11-16 Google Llc Personalized and contextualized audio briefing
WO2018005334A1 (en) * 2016-06-27 2018-01-04 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US20180081618A1 (en) * 2016-09-16 2018-03-22 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Audio segment playback coordination

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11798545B2 (en) 2020-01-08 2023-10-24 Beijing Xiaomi Pinecone Electronics Co., Ltd. Speech interaction method and apparatus, device and storage medium
CN115565535A (zh) * 2022-09-21 2023-01-03 深圳琪乐科技有限公司 一种智能语音客服***
CN115565535B (zh) * 2022-09-21 2024-04-12 南京浮点智算数字科技有限公司 一种智能语音客服***

Also Published As

Publication number Publication date
KR102630037B1 (ko) 2024-01-29
WO2019188393A1 (ja) 2019-10-03
US20210006862A1 (en) 2021-01-07
EP3780640A1 (en) 2021-02-17
US11930248B2 (en) 2024-03-12
JP7366003B2 (ja) 2023-10-20
US11438650B2 (en) 2022-09-06
JPWO2019188393A1 (ja) 2021-04-15
US20220360849A1 (en) 2022-11-10
EP3780640A4 (en) 2021-02-17
KR20200136382A (ko) 2020-12-07

Similar Documents

Publication Publication Date Title
US9154833B2 (en) Information processing apparatus, data management method, and program
JP6247309B2 (ja) 双方向サービスを処理する装置及び方法
KR101887246B1 (ko) 수신 장치, 수신 방법 및 프로그램
US11930248B2 (en) Information processing apparatus, information processing method, transmission apparatus, and transmission method
EP3100458B1 (en) Method and apparatus for synchronizing the playback of two electronic devices
WO2010066189A1 (zh) 一种快速浏览节目的方法及装置
JP2013009359A (ja) 放送通信連携受信装置
JP2010245773A (ja) コンテンツ配信システム、コンテンツ受信端末、コンテンツの配信方法およびプログラム
WO2012157753A1 (ja) 放送通信連携受信装置
CN111869227B (zh) 接收装置、接收方法、信号处理设备和信号处理方法
JP2013118615A (ja) 受信機、周辺機器、プログラム及び放送システム
US11343588B2 (en) Information processing apparatus, information processing method, transmission apparatus, and transmission method
KR102628917B1 (ko) 송신 장치, 수신 장치, 및 데이터 처리 방법
US20150026752A1 (en) Information processing method, information processing device, and information processing system
JP2017092601A (ja) 受信機およびプログラム
JP2023134110A (ja) 放送システム、受信機、受信方法、及びプログラム
JP2022183550A (ja) 受信装置、クライアント端末装置、およびプログラム
JP5584729B2 (ja) 放送通信連携受信装置
KR100862612B1 (ko) 장면 표현 언어를 이용한 이동 멀티미디어 방송 컨텐츠의선별 저작 및 디코딩 방법
JP2012257239A (ja) 放送通信連携受信装置
JP2012257238A (ja) 放送通信連携受信装置
KR20100047657A (ko) 인터랙티브 서비스 제공 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination