CN110232915B - 声音内容控制装置、声音内容控制方法以及存储介质 - Google Patents

声音内容控制装置、声音内容控制方法以及存储介质 Download PDF

Info

Publication number
CN110232915B
CN110232915B CN201910166985.8A CN201910166985A CN110232915B CN 110232915 B CN110232915 B CN 110232915B CN 201910166985 A CN201910166985 A CN 201910166985A CN 110232915 B CN110232915 B CN 110232915B
Authority
CN
China
Prior art keywords
sound
information
output
article
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910166985.8A
Other languages
English (en)
Other versions
CN110232915A (zh
Inventor
长沼立巳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Publication of CN110232915A publication Critical patent/CN110232915A/zh
Application granted granted Critical
Publication of CN110232915B publication Critical patent/CN110232915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及声音内容控制装置、声音内容控制方法以及存储介质。在抑制对用户以外的人的影响的同时,能够适当地理解向用户输出的声音的内容。声音内容控制装置(1)包括:声音分类部(38),对用户发出的声音进行分析,并将声音分类为第一声音和第二声音中的某一个;处理执行部(34),对声音进行分析,执行用户所请求的处理;声音内容生成部(36),基于处理执行部(34)执行的处理内容,生成作为向用户输出的声音用的文章数据的输出文章。当被分类为第一声音时,声音内容生成部(36)生成第一输出文章作为输出文章,当被分类为第二声音时,声音内容生成部(36)生成第二输出文章作为输出文章,所述第二输出文章与第一输出文章相比省略了信息。

Description

声音内容控制装置、声音内容控制方法以及存储介质
技术领域
本发明涉及声音内容控制装置、声音内容控制方法以及存储介质。
背景技术
例如,如专利文献1所示,提出了分析检测出的用户的声音并进行与用户的意图对应的处理的声音控制装置。另外,还提出了以下的声音控制装置:通过声音输出进行了用户希望的处理,或者通过声音输出用户的询问内容。
【在先技术文献】
专利文献
专利文献1:日本特公平7-109560号公报。
发明内容
但是,在使用输出声音的声音处理装置的情况下,存在位于用户以外的周围的人也能听到该声音的情况。例如,在周围的人睡觉时,该声音有可能成为麻烦。在这样的情况下,也可以减小要输出的声音本身,但如果过小,则用户自身也难以听到该声音,有可能无法理解内容。因此,在向用户输出声音的情况下,要求在抑制对用户以外的影响的同时,能够适当地理解向用户输出的声音的内容。
本发明鉴于上述课题,目的在于提供一种以下的声音内容控制装置、声音内容控制方法以及存储介质:在向用户输出声音的情况下,抑制对用户以外的人的影响的同时,能够适当地理解向用户输出的声音的内容。
本发明的一个方式涉及的声音内容控制装置,包括:声音获取部,获取用户发出的声音;声音分类部,对由所述声音获取部获取的声音进行分析,将所述声音分类为第一声音和第二声音中的某一个;处理执行部,对由所述声音获取部获取的声音进行分析,并执行所述用户请求的处理;以及声音内容生成部,基于所述处理执行部执行的处理内容来生成输出文章,所述输出文章是向所述用户输出的声音用的文章数据,当被分类为所述第一声音时,所述声音内容生成部生成第一输出文章作为所述输出文章,当被分类为所述第二声音时,所述声音内容生成部生成第二输出文章作为所述输出文章,所述第二输出文章与所述第一输出文章相比省略了信息。
本发明的一实施方式涉及的声音内容控制方法,包括:声音获取步骤,获取用户发出的声音;声音分类步骤,对在所述声音获取步骤中获取的声音进行分析,将所述声音分类为第一声音和第二声音中的某一个;处理执行步骤,对在所述声音获取步骤中获取的声音进行分析,并执行所述用户希望的处理;以及声音内容生成步骤,基于在所述处理执行步骤中执行的处理内容,来生成输出文章,所述输出文章是向所述用户输出的声音用的文章数据,在所述声音内容生成步骤中,当被分类为所述第一声音时,生成第一输出文章作为所述输出文章,当被分类为所述第二声音时,生成第二输出文章作为所述输出文章,所述第二输出文章省略了包含在所述第一输出文章中的信息的一部分。
本发明的一个方式涉及的存储介质存储有声音内容控制程序,该声音内容控制程序使计算机执行以下步骤:声音获取步骤,获取用户发出的声音;声音分类步骤,对在所述声音获取步骤中获取的声音进行分析,将所述声音分类为第一声音和第二声音中的某一个;处理执行步骤,对在所述声音获取步骤中获取的声音进行分析,并执行所述用户希望的处理;以及声音内容生成步骤,基于在所述处理执行步骤中执行的处理内容,来生成输出文章,所述输出文章是向所述用户输出的声音用的文章数据,在所述声音内容生成步骤中,当被分类为所述第一声音时,生成第一输出文章作为所述输出文章,当被分类为所述第二声音时,生成第二输出文章作为所述输出文章,所述第二输出文章省略了包含在所述第一输出文章中的信息的一部分。
根据本发明,在向用户输出声音的情况下,能够抑制对用户以外的人的影响,并且能够适当地理解向用户输出的声音的内容。
附图说明
图1是第一实施方式涉及的声音内容控制装置的示意图。
图2是第一实施方式涉及的声音内容控制装置的示意框图。
图3是说明属性信息的一例的表。
图4是用于说明获取信息的表。
图5是表示第一实施方式的输出文章的输出处理的流程的流程图。
图6是表示输出文章的输出处理的流程的另一例的流程图。
图7是第二实施方式涉及的声音处理***的示意性框图。
具体实施方式
以下,基于附图对本发明的实施方式进行详细说明。另外,本发明并不是通过以下说明的实施方式来限定本发明。
(第一实施方式)
首先,对第一实施方式进行说明。图1是第一实施方式涉及的声音内容控制装置的示意图。如图1所示,第一实施方式涉及的声音内容控制装置1通过声音检测部10检测用户H发出的声音V1,对检测出的声音V1进行分析并进行规定的处理,通过声音输出部12输出声音V2。这里,声音V2向用户H输出,但在声音内容控制装置1的周围有其他人的情况下,也存在到达其他人的情况。在该人睡觉时等,声音V2有可能打扰其他人。本实施方式涉及的声音内容控制装置1分析声音V1,调整作为声音V2输出的文章,由此,能够抑制声音V2对用户H以外的人的影响,用户H能够适当地理解声音V2的内容。
图2是第一实施方式涉及的声音内容控制装置的示意框图。如图2所示,声音内容控制装置1具有声音检测部10、声音输出部12、点亮部14、控制部16、通信部18和存储部20。声音内容控制装置1是所谓的智能扬声器(AI扬声器),但只要是发挥后述的功能的装置,就不限于此。声音内容控制装置1例如也可以是智能手机或平板电脑等。
声音检测部10是麦克风,检测用户H发出的声音V1。用户H向声音检测部10发出声音V1,以包含希望声音内容控制装置1执行的处理内容的信息。另外,声音检测部10也可以说是接受来自外部的信息的输入部,输入部也可以设置在声音检测部10以外,例如,也可以设置通过用户H的操作来调整声音V2的音量的开关等。声音输出部12是扬声器,将控制部16生成的文章(后述的输出文章)作为声音V2输出。点亮部14例如是LED(发光二极管)等光源,通过控制部16的控制而点亮。通信部18是例如Wi-Fi(注册商标)模块、天线等与外部服务器等进行通信的机构,通过控制部16的控制,与未图示外部服务器进行信息的发送接收。通信部18通过Wi-Fi等无线通信与外部服务器进行信息的发送接收,但也可以通过与电缆等连接来通过有线通信与外部服务器进行信息的发送接收。存储部20是存储控制部16的运算内容、程序的信息等的存储器,并且例如包括RAM(随机存取存储器)、ROM(只读存储器)和闪存(闪速存储器)等外部存储装置中的至少一个。
控制部16是运算装置、即CPU(中央处理单元)。控制部16具有声音获取部30、声音分析部32、处理执行部34、声音内容生成部36、声音分类部38和输出控制部40。声音获取部30、声音分析部32、处理执行部34、声音内容生成部36、声音分类部38、输出控制部40通过读出存储在存储部20中的软件(程序),来执行后述的处理。
声音获取部30获取声音检测部10检测出的声音V1。声音分析部32执行声音获取部30获取的声音V1的声音分析,将声音V1变换为文本数据。文本数据是包含作为声音V1发出的文章的文字数据(文本数据)。声音分析部32例如从声音V1中检测基于每个时间的振幅或波长等的声音波形。然后,声音分析部32根据存储了声音波形和字符之间的关系的表,将每个时间的声音波形分别置换为字符,由此,将声音V1变换为文本数据。但是,声音分析部32只要能够将声音V1变换为文本数据,则变换的方法是任意的。
处理执行部34基于声音分析部32生成的文本数据,检测声音V1中包含的、希望声音内容控制装置1执行的处理内容的信息,并执行该处理。处理执行部34包括意图分析部50和处理部52。
意图分析部50获取由声音分析部32生成的文本数据,基于文本数据提取意图信息I,并基于意图信息I提取属性信息E。意图信息I是表示用户H的意图的信息,即意向。属性信息E是与意图信息I相关联的信息,并且是表示在执行用户H希望的处理时所需的条件的信息。也就是说,属性信息E是实体。
首先,对意图信息I的提取处理进行说明。意图信息I即意向,换言之,是表示用户H希望在声音内容控制装置1进行怎样的处理的信息。换言之,意图信息I是用户H对声音内容控制装置1请求进行怎样的处理的信息。意图分析部50例如使用自然语言处理,从文本数据中提取意图信息I。在本实施方式中,意图分析部50根据存储在存储部20中的多个训练数据,从文本数据中提取意图信息I。这里的训练数据是对文本数据预先设定了意图信息I的数据。即,意图分析部50提取与声音分析部32生成的文本数据类似的训练数据,将该训练数据的意图信息I设为声音分析部32生成的文本数据的意图信息I。另外,训练数据也可以不存储在存储部20中,意图分析部50也可以控制通信部18从外部服务器提取训练数据。另外,只要意图分析部50从文本数据中提取意图信息I即可,意图信息I的提取方法是任意的。例如,意图分析部50也可以读出存储在存储部20中关键字和意图信息I间的关系表,在文本数据中包含关系表中的关键字的情况下,提取与该关键字关联的意图信息I。
例如,如果文本数据是文章“今天的天气是”,则意图分析部50执行如上所述的分析,并识别为向用户H通知天气的信息是用户H请求的处理的信息、即意图信息I。另外,意图分析部50例如在文本数据是“点亮照明灯”这样的文章的情况下,进行上述那样的分析,并识别为接通照明灯的电源这样的处理识别是用户H请求的处理的信息、即意图信息I。这样,意图信息I被分类为通知所请求的信息的意思的信息和如请求那样控制设备的意思的信息。
另外,基于文本数据的意图信息I的提取方法不限于此,可以是任意的。例如,声音内容控制装置1也可以预先将关键字和意图信息I的关系表存储在存储部20中,在用户H发出的声音V1的文本数据包含该关键字的情况下,检测与该关键字相关联的意图信息I。这种情况的示例包括将关键字“您好”与天气信息和新闻信息相关联。在这种情况下,当用户H发出“您好”的声音V1时,意图分析部50检测天气信息和新闻信息作为意图信息I。
接下来,对属性信息E进行说明。图3是说明属性信息的一例的表。属性信息E,即实体是在执行被提取为意图信息I的、用户H所请求的处理时所需要的条件,即参数。例如,当意图信息I是天气信息时,属性信息E包括指示是哪里的天气预报的位置的信息和指示是什么时候的天气预报的日期和时间的信息。进一步说,如图3所示,属性信息E包含属性参数E0和属性内容E1的信息。属性参数E0是表示参数的种类、即是怎样的条件的信息,属性内容E1是指该属性参数E0的内容。即,在属性信息E是场所的信息的情况下,属性参数E0是表示条件是场所的信息,属性内容E1是表示场所是东京的信息。另外,在属性信息E是日期时间的信息的情况下,属性参数E0是表示条件是日期时间的信息,属性内容E1是表示日期时间是X年Y月Z日的信息。
在本实施例中,意图分析部50基于提取的意图信息I提取属性信息E。更具体地,意图分析部50从提取的意图信息I中选择并提取属性参数E0。意图分析部50读出存储在存储部20中意图信息I与属性参数E0间的关系表,并从关系表中检测与提取出的意图信息I一致的意图信息I。然后,意图分析部50提取与一致的意图信息I相关联的属性参数E0。但是,意图分析部50也可以经由通信部18与外部服务器进行通信,从外部服务器获取关系表。
意图分析部50在提取出属性参数E0后,对每个属性参数E0设定属性内容E1。意图分析部50例如从由声音分析部32生成的文本数据中提取属性内容E1。即,如果文本数据中包含“今天”这样的关键词,则将日期时间的属性参数E0的属性内容E1设定为今日。另外,意图分析部50也可以预先设定针对属性参数E0的属性内容E1。例如,如果意图信息I是天气信息,则在存储部20预先存储表示场所的属性内容E1是“东京”这样的设置数据。这样,即使在文本数据中不包含表示场所的关键字的情况下,意图分析部50也能够将场所的属性内容E1设定为“东京”。另外,意图分析部50也可以通过通信部18与外部服务器进行通信来设定属性内容E1。此时,例如,意图分析部50通过GPS(位置信息定位***)等的通信获取当前的场所,将其设定为属性内容E1。
意图分析部50如上所述提取意图信息I和属性信息E,但是意图信息I和属性信息E的提取方法不限于上述,可以是任意方法。另外,图3是天气信息为意图信息I的情况,但在其他情况下也同样能够提取意图信息I和属性信息E。例如,在接通照明的电源的信息是意图信息I的情况下,属性信息E包含照明的场所的信息和何时接通电源这样的日期时间的信息。
返回图2,处理部52基于意图信息I的内容,执行用户请求的处理。处理部52在意图信息I是控制设备的意思的情况下,执行意图信息I的内容的处理。例如,处理部52接通由属性信息E示出的场所的照明的电源。
图4是用于说明获取信息的表。处理部52在意图信息I是通知被请求的信息的意思的情况下,获取被请求的信息、即获取信息A。获取信息A是用于通知用户H的信息,换言之,如果是用户H正在请求通知的信息,则是由处理执行部34判断了的信息。处理部52基于由意图分析部50提取的意图信息I对获取信息A进行获取。更详细地说,处理部52从提取出的意图信息I中选择并提取获取参数A0。处理部52读出存储在存储部20中意图信息I与获取参数A0间的关系表,从关系表中检测出与提取出的意图信息I一致的意图信息I。然后,处理部52提取与一致的意图信息I相关联的获取参数A0。这里,处理部52也可以经由通信部18与外部服务器进行通信,从外部服务器获取关系表。
处理部52在提取了获取参数A0后,根据属性信息E,按照每个获取参数A0来对获取内容信息A1进行获取。具体而言,处理部52按照每个获取参数A0获取成为属性参数E0设定的属性内容E1时的获取内容信息A1。处理部52通过通信部18与外部服务器(外部设备)进行通信,按照每个获取参数A0,从外部服务器对获取内容信息A1进行获取。这里,处理部52在存储部20中存储有获取内容信息A1的情况下,也可以从存储部20对获取内容信息A1进行获取。即,所谓获取内容信息A1,可以说是处理部52从外部服务器或存储部20等数据库获取的数据。
这样,获取内容信息A1是处理部52通过与外部服务器的通信或从存储部20的读出而获取的信息。在图4的示例中,意图信息I是天气,而获取参数A0是天气、气温和降水概率。在该情况下,处理部52获取针对X年Y月Z日的东京的天气、气温以及降水概率的各获取参数A0的获取内容信息A1。在图4的例子中,关于天气的获取内容信息A1是“晴间多云”,关于气温的获取内容信息A1是“最高气温25度,最低气温15度”,关于降水概率的获取内容信息A1是“20%”。
如上所述,处理部52基于属性信息E获取每个获取参数A0的获取内容信息A1。另外,在本实施方式中,意图信息I与多个获取参数A0相关联。然而,一个获取参数A0可以与意图信息I相关联。在这种情况下,可以说意图信息I本身是获取参数A0。
返回图2,声音内容生成部36根据处理部52获取的获取内容信息A1生成输出文章。输出文章是使声音输出部12输出的声音V2用的文章的数据,即文本数据。输出文章也可以是对话数据。声音内容生成部36具有生成第一输出文章作为输出文章的第一输出文章生成部60,以及生成第二输出文章作为输出文章的第二输出文章生成部62。在说明第一输出文章生成部60和第二输出文章生成部62之前,对声音分类部38进行说明。
声音分类部38对声音获取部30获取的声音V1进行分析,将声音V1分类为第一声音V1A和第二声音V1B中的任一个。在本实施方式中,声音分类部38分析声音V1,在声音V1是耳语的情况下,将该声音V1分类为第二声音V1B。然后,声音分类部38在声音V1不是耳语的情况下,将该声音V1分类为第一声音V1A。耳语是指不使声带振动而无声化时的声音,例如只要是在后述的方法中被分类为第二声音V1B的声音,这并不局限于不使声带振动而使声带无声化时的声音。
例如,声音分类部38获取声音V1的强度的时间波形,通过对该时间波形进行傅立叶变换,获取表示每个频率声音V1的强度的频谱。然后,声音分类部38将频谱所具有的规定强度以上的峰值的频率作为特征量,对声音V1是第一声音V1A还是第二声音V1B进行分类。例如,声音分类部38在峰值频率为阈值以下的情况下作为耳语,分类为第二声音V1B,在峰值的频率大于阈值的情况下,设为不是耳语而分类为第一声音VB。这里,声音分类部38也可以通过任意的方法对第一声音V1A和第二声音V1B进行分类。例如,声音分类部38也可以将频谱的峰值的斜率作为特征量,对第一声音V1A和第二声音V1B进行分类。另外,声音分类部38也可以将声音V1音量、声音V1中包含的用户H的发音的速度、以及声音V1中的人的发音与风声的音量比中的任意一个作为特征量,对第一声音V1A和第二声音V1B进行分类。另外,在声音内容控制装置1中也可以设置接近传感器,根据接近传感器检测结果计算用户H与声音内容控制装置1间的距离,将该距离作为特征量,对第一声音V1A和第二声音V1B进行分类。另外,声音分类部38还可以从声音V1导出梅尔频率倒谱系数作为特征量,并基于梅尔频率倒谱系数对第一声音V1A和第二声音V1B进行分类。在这些情况下,声音分类部38预先对特征量设定阈值,根据特征量是否超过阈值,来分类为第一声音V1A和第二声音V1B中的某一个。
这样,声音分类部38使用声音获取部30获取的声音V1,对声音V1进行分类。即,即使声音V1意义相同,在声音V1是耳语的情况下,声音分类部38将其分类为第二声音V1B,在声音V1不是耳语的情况下,声音分类部38将其分类为第一声音V1A。
另外,声音分类部38不限于根据声音V1对是第一声音V1A还是第二声音V1B进行分类的方法。也可以通过对声音获取部30获取的声音V1进行文字分析来生成声音V1的文本数据,使用声音V1的文本数据进行分类。例如,声音分类部38也可以不是根据是否是耳语的判定、而是根据例如声音V1中包含的关键字对声音V1进行分类。即,可以是:在声音V1中包含存储部20存储的关键字的情况下,声音分类部38将其分类为第二声音V1B,在声音V1中不包含存储部20存储的关键字的情况下,声音分类部38将其分类为第一声音V1A。
声音分类部38可以使用以上说明的分类方法中的任意一种,也可以组合以上说明的分类方法来进行分类。
声音内容生成部36在通过声音分类部38将声音V1分类为第一声音V1A的情况下,使第一输出文章生成部60生成第一输出文章。即,声音内容生成部36在声音V1被分类为第一声音V1A的情况下,不生成第二输出文章而生成第一输出文章。第一输出文章生成部60将由处理执行部34获取的包含意图信息I、属性信息E(更详细地说是属性内容E1)和获取信息A的全部信息的文章作为第一输出文章生成。即,第一输出文章是包括由处理执行部34获取的所有意图信息I、属性内容E1和获取信息A的文本数据。
在图3和图4的例子中,意图信息I是“天气”,属性内容E1是“X年Y月Z日”、“东京”。然后,在获取信息A中,获取参数A0是“天气”、“气温”、“降水概率”,获取内容信息A1是“晴间多云”、“最高气温25度、最低气温15度”、“20%”。此时,第一输出文章生成部60例如将“X年Y月Z日的东京的天气是晴间多云,降水概率为20%,最高气温25度,最低气温15度”这样的文章,作为第一输出文章生成。意图信息I、属性内容E1和获取信息A分别是单独的信息。第一输出文章生成部60为了使第一输出文章成为包含意图信息I、属性内容E1和获取信息A的文章,在第一输出文章中加入信息。即,第一输出文章生成部60将意图信息I、属性内容E1、以及获取信息A以外的信息(单词)添加到第一输出文章中。作为添加的信息(单词),如果是日语的话,就是“です”等礼貌词或者是“は”等助词等,如果是英语的话则是冠词等。以下,将该信息设为文章用信息。
另一方面,声音内容生成部36在通过声音分类部38将声音V1分类为第二声音V1B的情况下,使第二输出文章生成部62生成第二输出文章。即,声音内容生成部36在声音V1被分类为第二声音V1B的情况下,不生成第一输出文章而生成第二输出文章。第二输出文章生成部62与第一输出文章相比,以省略信息的一部分的方式生成文章,由此生成第二输出文章。因此,第二输出文章的文章量比第一输出文章少。进一步说,在假定根据相同的意图信息I、属性信息E和获取信息A生成了第一输出文章和第二输出文章的情况下,第二输出文章由于与第一输出文章相比所包含的信息被省略,因此文章量比第一输出文章少。
具体而言,第二输出文章生成部62生成第二输出文章,使得不包含处理执行部34获取的意图信息I、属性内容E1、以及获取信息A以及在生成第一输出文章的情况下添加的文章用信息中的至少一者。换言之,在假定根据相同意图信息I、属性信息E和获取信息A生成了第一输出文章的情况下,第二输出文章生成部62通过省略包含在第一输出文章中的意图信息I、属性内容E1、获取信息A和文章用信息中的至少一者来生成第二输出文章。
在不包括意图信息I的情况下,即,在省略意图信息I的情况下,例如,在第二输出文章中,省略作为意图信息I的“天气”,而成为“X年Y月Z日的东京晴间多云,降水概率为20%,最高气温25度,最低气温15度”。由于意图信息I是想要询问的信息的种类,因此即使省略该意图信息I,用户H也能够掌握内容。
另外,在不包含属性内容E1、即省略属性内容E1的情况下,例如,第二输出文章省略作为属性内容E1的“X年Y月Z日”和“东京”,而成为“天气晴间多云,降水概率为20%,最高气温25度,最低气温15度”。通常将属性内容E1包含在声音V1中,因此即使省略属性内容E1,用户H也能够掌握内容。换言之,第二输出文章生成部62可以选择包含在声音V1中的信息作为省略的信息、即不包含在第二输出文章中的信息。即,第二输出文章生成部62将包含在用户H发出的声音V1中的信息作为被省略的信息的一部分。另外,例如即使属性内容E1不包含在声音V1中,也存在属性内容E1作为设定数据存储在存储部20中的情况。在该情况下,识别出属性内容E1被设定为设定数据、即默认的数据,因此即使不包含属性内容E1,用户H也能够理解内容。另外,在属性内容E1有多个的情况下,第二输出文章生成部62可以省略全部的属性内容E1,也可以仅省略一部分的属性内容E1。
另外,在不包含文章用信息、即省略文章用信息的情况下,例如,第二输出文章省略作为文章用信息的单词,而成为“X年Y月Z日东京的天气晴间多云,降水概率为20%,最高气温25度,最低气温15度”。即,例如在日语的情况下,例如作为文章用信息而省略礼貌词,例如在英语的情况下省略冠词。
另一方面,由于获取信息A是用户H想要询问的信息,因此与意图信息I、属性内容E1和文章用信息相比,优选不省略。特别是,由于获取内容信息A1是提供给用户H的数据本身,因此优选不省略。即,优选第二输出文章生成部62从获取内容信息A1以外的信息中选择省略的信息来生成第二输出文章。进一步而言,优选第二输出文章生成部62不选择获取内容信息A1作为省略的信息,而使获取内容信息A1包含在第二输出文章中。这样,通过从获取内容信息A1以外信息中选择不包含在第二输出文章中的信息,不选择获取内容信息A1作为不包含在第二输出文章中的信息,能够使用户H掌握内容的同时,适当地减少文章量。
这里,第二输出文章生成部62有时也省略获取信息A,以下对该情况进行说明。例如,第二输出文章生成部62也可以选择获取信息A中的获取参数A0作为省略的信息。此时,第二输出文章省略了作为获取参数A0的“天气”、“降水概率”、“气温(最高气温、最低气温)”,而成为“X年Y月Z日的东京晴间多云,20%,15度到25度”。由于获取参数A0是与用户H想要询问的获取内容信息A1关联的信息,因此如果被通知了获取内容信息A1,则用户H能够识别是针对哪个获取参数A0的获取内容信息A1。
更具体地,在获取内容信息A1是包括单位的数值信息的情况下,第二输出文章生成部62选择与获取内容信息A1关联的获取参数A0、即选择表示数值信息的种类的信息作为省略的信息。在获取内容信息A1包含单位的情况下,用户H能够根据该单位识别获取参数A0。
另外,在获取内容信息A1是表示数值范围信息的情况下,第二输出文章生成部62选择与该获取内容信息A1关联的获取参数A0作为省略的信息。该情况下的要被省略的获取参数A0是表示是数值范围中的最大值的信息(在该例中为“最高气温”)和表示是数值范围中的最小值的信息(在该例中为“最低气温”)。
另外,在获取内容信息A1是指示开始和结束的信息的情况下,第二输出文章生成部62选择与该获取内容信息A1关联的获取参数A0作为省略信息。表示开始和结束的信息例如是乘车站为东京站、到达站为横滨站时的信息。在这种情况下,东京站是表示开始的信息,横滨站是表示结束的信息。该情况下,例如第一输出文章为“上车站是东京站,下车站是横滨站”,但第二输出文章省略了作为获取参数A0的“上车站”和“下车站”,而成为“从东京站到横滨站”。即,在该情况下,作为获取参数A0的“上车站”是表示相当于开始的获取内容信息A1为开始的信息,作为获取参数A0的“下车站”可以说是表示相当于结束的获取内容信息A1是结束的信息。即使在以上的情况下,由于第二输出文章包含有“从A到B”这样的获取内容信息A1,因此即使省略获取参数A0,用户H也能够掌握内容。
另外,第二输出文章生成部62在获取了多个意图信息I、多个获取内容信息A1情况下,也可以选择一部分获取内容信息A1作为省略的信息。例如,在提取了多个意图信息I的情况下,第二输出文章生成部62省略属于某一个意图信息I的获取内容信息A1。例如,第二输出文章生成部62省略在设为文章的情况下文章量变多的、属于意图信息I的获取内容信息A1来作为优先级低的信息。例如,说明在声音V1为“早上好”的情况下设定为提取天气和新闻作为意图信息I的情况。在该情况下,在与新闻相关的输出文章比与天气相关的输出文章长的情况下,第二输出文章生成部62省略与新闻相关的获取内容信息A1,留下与天气相关的获取内容信息A1。
另外,在针对一个意图信息I获取了多个获取内容信息A1的情况下,第二输出文章生成部62也可以省略某一个获取内容信息A1。例如,在意图信息I是通知拥堵的信息的情况下,第二输出文章生成部62对获取内容信息A1进行获取而成为每个场所的拥堵信息。在该情况下,第二输出文章生成部62将例如远离当前位置场所的拥堵信息、拥堵的规模小的场所的拥堵信息等重要度低的拥堵信息(获取内容信息A1)作为优先级低信息而省略。
这样,在有多个获取内容信息A1、省略多个获取内容信息A1中一部分的情况下,第二输出文章生成部62选择优先级低的获取内容信息A1作为省略的信息。第二输出文章生成部62预先设定优先级并存储在存储部20中,根据该优先级,选择优先级低的获取内容信息A1。即,例如,将文章量少作为优先级高的信息,或者将距当前位置近的拥堵信息作为优先级高的信息来存储。
如上所述,第二输出文章生成部62通过省略意图信息I、属性内容E1、获取信息A和文章用信息中的至少某一个来生成第二输出文章。即,意图信息I、属性内容E1、获取信息A和文章用信息可以说是可省略的信息。第二输出文章生成部62可以选择以上说明的可省略的信息作为全部省略的信息,也可以仅省略可省略的信息中的一部分。例如,声音内容控制装置1预先设定可省略的信息中的、实际省略的信息。例如,在将意图信息I和属性内容E1设定为省略的信息的情况下,第二输出文章生成部62在生成第二输出文章时,不管意图信息I和属性内容E1的种类,总是省略意图信息I和属性内容E1。另外,声音内容控制装置1也可以将表示实际省略的信息的种类的表存储在存储部20中。在这种情况下,例如,由于被省略的意图信息I(例如天气等)和未被省略的信息(例如时间等)被区分,因此根据信息的种类能够适当地选择省略的信息。
声音内容生成部36如上所述生成输出文章。以上的说明是意图信息I是通知信息的意思的内容的情况下的输出文章的生成方法。在意图信息I是控制设备的意思的内容的情况下,声音内容生成部36也同样地以比第一输出文章更省略信息的方式生成第二输出文章。在该情况下,声音内容生成部36在执行了基于处理部52的控制(例如接通照明的电源的控制)之后,将说明该控制的执行状况的文章作为输出文章生成。更详细地说,在被分类为第一声音V1A的情况下,声音内容生成部36作为第一输出文章生成“是,接受了处理”这样的文本数据。即,第一输出文章包含“是”等回答的信息和“接受了处理”等接在回答的信息之后的文章的信息。另一方面,在被分类为第二声音V1B的情况下,声音内容生成部36作为第二输出文章生成“是”这样的文本数据。即,在该情况下,第二输出文章包含回答的信息,省略接在回答的信息之后的文章的信息。因此,即使在该情况下,也可以说在被分类为第二声音V1B的情况下,声音内容生成部36省略了生成了第一输出文章的情况下所包含的一部分信息。
返回图2,输出控制部40获取声音内容生成部36生成的输出文章,即第一输出文章或第二输出文章。输出控制部40将作为该文本数据的输出文章变换为声音数据,并将该声音数据作为声音V2输出到声音输出部12。输出控制部40在通过调整音量开关设定为相同音量的情况下,将读取第一输出文章的声音V2的音量和读取第二输出文章的声音V2的音量设为相同音量。即,输出控制部40在第一输出文章和第二输出文章中不改变声音V2的音量。但是,输出控制部40也可以在第一输出文章和第二输出文章中改变声音V2的音量。另外,输出控制部40也可以在输出声音V2时、处理部52的处理结束时、检测出声音V1时等,控制点亮部14使其点亮。
控制部16具有如上所述的结构。以下,基于流程图说明控制部16的输出文章的输出处理的流程。图5是表示第一实施方式的输出文章的输出处理的流程的流程图。如图5所示,控制部16通过声音获取部30获取输入声音、即声音V1的声音数据(步骤S10)。控制部16通过声音分析部32对声音获取部30获取的声音V1的声音数据进行分析来生成文本数据(步骤S12)。然后,控制部16通过意图分析部50从文本数据中提取意图信息I和属性信息E(步骤S14)。在提取了意图信息I和属性信息E之后,控制部16通过处理部52进行执行基于意图信息I的处理或者获取基于意图信息I的获取信息中的某一个(步骤S16)。即,在意图信息I是控制设备的意思的内容的情况下,处理部52执行由意图信息I和属性信息E规定的内容的处理(例如接通照明的电源)。另一方面,在意图信息I是通知信息的意思的内容的情况下,处理部52基于意图信息I和属性信息E对获取信息A进行获取。具体而言,处理部52根据意图信息I和属性信息E提取获取参数A0,并按照每个获取参数A0对获取内容信息A1进行获取。另外,如果在步骤S10中获取了输入声音、即声音V1,则控制部16通过声音分类部38将声音V1分类为第一声音V1A、第二声音V1B中的某一个(步骤S18)。
控制部16判定声音V1是否是第一声音V1A(步骤S20),在是第一声音V1A情况下(步骤S20;是),由第一输出文章生成部60生成第一输出文章(步骤S22)。另一方面,在不是第一声音V1A情况下(步骤S20;否)、即是第二声音V1B的情况下,控制部16通过第二输出文章生成部62生成第二输出文章(步骤S24)。控制部16在生成了输出文章、即第一输出文章或第二输出文章后,通过输出控制部40使该输出文章利用声音输出部12作为声音V2输出(步骤S26),并结束处理。即,在生成第一输出文章后,输出控制部40将该第一输出文章变换为声音数据,由声音输出部12作为声音V2输出。然后,在生成了第二输出文章的情况下,输出控制部40将该第二输出文章变换为声音数据,由声音输出部12作为声音V2输出。
本实施方式的声音内容控制装置1具有声音分类部38、处理执行部34、声音内容生成部36。声音分类部38对声音获取部30获取的、用户H发出的声音V1进行分析,并将声音V1分类为第一声音V1A和第二声音V1B中的某一个。处理执行部34对声音获取部30获取的声音V1进行分析,并执行用户请求的处理。声音内容生成部36根据处理执行部34执行的处理内容,生成输出文章,该输出文章是向用户H输出的声音V2用的文章数据(文本数据)。在被分类为第一声音V1A的情况下,声音内容生成部36生成第一输出文章作为输出文章。在分类为第二声音V1B的情况下,声音内容生成部36生成与第一输出文章相比省略了一部分信息的第二输出文章,作为输出文章。进而,在本实施方式中,在被分类为第二声音V1B情况下,声音内容生成部36以与第一输出文章相比省略一部分信息的方式生成文章,由此,生成与第一输出文章相比文章量少的第二输出文章作为输出文章。
作为输出文章的声音数据输出的声音V2被向用户H输出,如上所述,有时也会到达位于声音内容控制装置1周围的用户H以外的人。在判断为不想对周围人产生声音V2的影响的情况下,用户H通过耳语发出声音V1等,相对于判断为可以产生声音V2的影响的情况,即使在传递相同内容的情况下,也使声音V1变化。声音内容控制装置1分析用户声音V1,在检测出被分类为第一声音V1A的声音V1的情况下,判断为可以不考虑对用户H以外的人的影响,生成用于声音V2的第一输出文章。另一方面,声音内容控制装置1在检测出被分类为第二声音V1B声音V1的情况下,判断为需要考虑对用户H以外的人的影响,生成文章量比第一输出文章少第二输出文章。由此,声音内容控制装置1在需要考虑对用户H以外的人的影响的情况下,能够减少作为声音V2发出的文章量,缩短输出声音V2的长度,抑制对用户H以外的人的影响。进而,声音内容控制装置1为了省略一部分信息而生成第二输出文章,通过调整省略的信息,用户H能够适当地理解声音V2的内容、即第二输出文章的内容。
此外,处理执行部34具有基于声音V1提取指示用户H的意图的意图信息I的意图分析部50,以及基于意图信息I获取通知给用户H的获取内容信息A1的处理部52。声音内容生成部36将包含获取内容信息A1的文章数据作为输出文章。该声音内容控制装置1由于使基于意图信息I获取的获取内容信息A1包含在输出文章中,因此能够将用户H希望的信息适当地传递给用户H。
另外,在被分类为第二声音V1B的情况下,声音内容生成部36从获取内容信息A1以外的信息中选择省略的信息来生成第二输出文章。获取内容信息A1有时指用户H请求的信息本身。声音内容生成部36由于从获取内容信息A1以外选择省略的信息,因此能够不省略获取内容信息A1地通知信息,能够使用户H适当地理解声音V2的内容。
另外,声音内容生成部36不选择获取内容信息A1作为省略的信息,而使获取内容信息A1包含在第二输出文章中。声音内容生成部36能够不省略获取内容信息A1地通知信息,能够使用户H适当地理解声音V2的内容。
另外,声音内容生成部36从预先设定的表中选择省略的信息。声音内容控制装置1由于从存储在存储部20中的表中选择省略的信息,因此能够适当地选择省略的信息,使用户H能够适当地理解声音V2内容。
另外,声音内容生成部36选择用户H发出的声音V1中包含的信息作为省略的信息。用户H发出的声音V1中包含的信息即使省略,用户H也容易理解意思。声音内容控制装置1通过省略这样的声音V1中包含的信息,能够在适当地理解声音V2的内容的同时,抑制对用户H以外的人的影响。
另外,声音内容生成部36在获取内容信息A1中包含有包含单位的数值信息的情况下,选择表示数值信息的种类的信息(获取参数A0)作为省略信息。声音内容控制装置1通过省略与包含单位的获取内容信息A1关联的获取参数A0,能够适当地理解声音V2的内容,并抑制对用户H以外的人的影响。
在从处理执行部34获取了多种获取内容信息A1的情况下,声音内容生成部36选择优先级低的获取内容信息A1作为省略的信息。声音内容控制装置1通过省略优先级低的获取内容信息A1,能够适当地理解声音V2的内容,并抑制对用户H以外的人的影响。
声音内容生成部36从多种获取内容信息A1中选择作为输出文章时文章量变多的上述获取内容信息A1,作为省略的信息。声音内容控制装置1通过省略文章量变多的获取内容信息A1,能够抑制对用户H以外的人的影响。
声音内容生成部36预先决定优先级,根据预先决定的优先级,选择省略的信息。声音内容控制装置1通过预先确定优先级,能够在适当地理解声音V2的内容的同时,抑制对用户H以外的人的影响。
声音分类部38在用户发出的声音V1是耳语的情况下,将声音V1分类为第二声音V2B。该声音内容控制装置1检测出耳语并在该情况下生成第二输出文章,由此适当地检测是否为对用户H以外人造成影响的状况,并能够适当地抑制其影响。
图6是表示输出文章的输出处理的流程的另一例的流程图。另外,在是第二声音V1B的情况下,本实施方式的声音内容生成部36不生成第一输出文章,而生成第二输出文章。不过,声音内容生成部36也可以在生成了第一输出文章之后,通过省略生成的第一输出文章的信息的一部分来生成第二输出文章。即,在该情况下,如图6所示,在步骤S16中进行了处理部52的处理之后,声音内容生成部36不参照声音V1的分类结果、即不管分类结果如何都生成第一输出文章(步骤S17)。声音内容生成部36在生成第一输出文章之后,在判断为是第一声音V1A情况下(步骤S20A;是)转移到步骤S26,并将该第一输出文章作为输出文章。另一方面,声音内容生成部36在生成第一输出文章之后,在判断为不是第一声音V1A(步骤S20A;否)、即判断为是第二声音V1B的情况下,通过省略生成的第一输出文章的一部分信息来生成第二输出文章(步骤S24A),将第二输出文章作为输出文章。该情况下的第二输出文章中的信息的省略方法可以是已述的方法。
(第二实施方式)
接着,对第二实施方式进行说明。第一实施方式涉及的声音内容控制装置1具有声音检测部10和声音输出部12,但第二实施方式涉及的声音内容控制装置1A不具有声音检测部10和声音输出部12。在第二实施方式中,对结构与第一实施方式相同的部分省略说明。
图7是根据第二实施例的音频处理***的示意性框图。如图7所示,第二实施方式涉及的声音处理***100具有声音内容控制装置1A和响应装置2A。响应装置2A例如是智能扬声器,具有声音检测部10、声音输出部12、点亮部14和通信部15A。声音内容控制装置1A是位于远离响应装置2A的地方的装置(服务器),具有控制部16、通信部18A和存储部20。声音内容控制装置1A和响应装置2A通过无线通信连接,但也可以通过有线通信连接。
声音内容控制装置1A通过经由通信部15A和通信部18A的信息通信,获取声音检测部10检测出的声音V1。然后,声音内容控制装置1A执行与第一实施方式相同的处理,生成输出文章,将该输出文章输出到响应装置2A。响应装置2A通过声音输出部12将输出文章变换为声音数据,并作为声音V2输出。这里,声音内容控制装置1A也可以生成输出文章的声音数据,并发送到响应装置2A。在这种情况下,声音输出部12将获取的声音数据作为声音V2输出。这样,声音处理***100具有声音内容控制装置1A、检测用户H发出声音V1的声音检测部10、以及将声音内容生成部36生成的输出文章作为声音(V2)输出的声音输出部(12)。这样,声音内容控制装置1A即使与响应装置2A分体,也能够起到与第一实施方式同样的效果。
以上,对本发明的实施方式进行了说明,但实施方式并不限定于这些实施方式的内容。另外,上述构成要素包括本领域技术人员能够容易想到的要素、实质上相同的要素、所谓等同范围的要素。进而,上述的构成要素可以适当组合。进而,在不脱离上述实施方式的主旨的范围内,能够进行构成要素的各种省略、置换或变更。
符号说明
1声音内容控制装置、10声音检测部、12声音输出部、16控制部、30声音获取部、32声音分析部、34处理执行部、36声音内容生成部、38声音分类部、40输出控制部、50意图分析部、52处理部、A获取信息、E属性信息、H用户、I意图信息、V1、V2声音、V1A第一声音、V1B第二声音。

Claims (6)

1.一种声音内容控制装置,包括:
声音获取部,获取用户发出的声音;
声音分类部,对由所述声音获取部获取的声音进行分析,将所述声音分类为第一声音和第二声音中的某一个;
处理执行部,对由所述声音获取部获取的声音进行分析,并执行所述用户请求的处理;
声音内容生成部,基于所述处理执行部执行的处理内容来生成输出文章,所述输出文章是向所述用户输出的声音用的文章数据;以及
输出控制部,调整通过变换所述输出文章而得到的语音数据的音量,
当被分类为所述第一声音时,所述声音内容生成部生成第一输出文章作为所述输出文章,当被分类为所述第二声音时,所述声音内容生成部生成第二输出文章作为所述输出文章,所述第二输出文章与所述第一输出文章相比省略了信息,
所述输出控制部调整所述语音数据的音量,使得通过变换所述第一输出文章而得到的语音数据的音量不同于通过变换所述第二输出文章而得到的语音数据的音量。
2.如权利要求1所述的声音内容控制装置,其中,
所述处理执行部包括:
意图分析部,基于由所述声音获取部获取的声音来提取意图信息,所述意图信息表示所述用户的意图;以及
处理部,基于所述意图信息获取向所述用户通知的获取内容信息,
所述声音内容生成部将包含所述获取内容信息的文章数据作为所述输出文章。
3.如权利要求1或2所述的声音内容控制装置,其中,
所述声音内容生成部将所述用户发出的声音中包含的信息设为被省略的信息的一部分。
4.如权利要求1或2所述的声音内容控制装置,其中,
当所述用户发出的声音是耳语时,所述声音分类部将所述用户发出的声音分类为所述第二声音。
5.一种声音内容控制方法,包括:
声音获取步骤,获取用户发出的声音;
声音分类步骤,对在所述声音获取步骤中获取的声音进行分析,将所述声音分类为第一声音和第二声音中的某一个;
处理执行步骤,对在所述声音获取步骤中获取的声音进行分析,并执行所述用户希望的处理;
声音内容生成步骤,基于在所述处理执行步骤中执行的处理内容,来生成输出文章,所述输出文章是向所述用户输出的声音用的文章数据;以及
输出控制步骤,调整通过变换所述输出文章而得到的语音数据的音量,
在所述声音内容生成步骤中,当被分类为所述第一声音时,生成第一输出文章作为所述输出文章,当被分类为所述第二声音时,生成第二输出文章作为所述输出文章,所述第二输出文章省略了包含在所述第一输出文章中的信息的一部分,
在所述输出控制步骤中,调整所述语音数据的音量,使得通过变换所述第一输出文章而得到的语音数据的音量不同于通过变换所述第二输出文章而得到的语音数据的音量。
6.一种存储介质,存储有声音内容控制程序,该声音内容控制程序使计算机执行以下步骤:
声音获取步骤,获取用户发出的声音;
声音分类步骤,对在所述声音获取步骤中获取的声音进行分析,将所述声音分类为第一声音和第二声音中的某一个;
处理执行步骤,对在所述声音获取步骤中获取的声音进行分析,并执行所述用户希望的处理;
声音内容生成步骤,基于在所述处理执行步骤中执行的处理内容,来生成输出文章,所述输出文章是向所述用户输出的声音用的文章数据;以及
输出控制步骤,调整通过变换所述输出文章而得到的语音数据的音量,
在所述声音内容生成步骤中,当被分类为所述第一声音时,生成第一输出文章作为所述输出文章,当被分类为所述第二声音时,生成第二输出文章作为所述输出文章,所述第二输出文章省略了包含在所述第一输出文章中的信息的一部分,
在所述输出控制步骤中,调整所述语音数据的音量,使得通过变换所述第一输出文章而得到的语音数据的音量不同于通过变换所述第二输出文章而得到的语音数据的音量。
CN201910166985.8A 2018-03-06 2019-03-06 声音内容控制装置、声音内容控制方法以及存储介质 Active CN110232915B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-039754 2018-03-06
JP2018039754A JP7000924B2 (ja) 2018-03-06 2018-03-06 音声内容制御装置、音声内容制御方法、及び音声内容制御プログラム

Publications (2)

Publication Number Publication Date
CN110232915A CN110232915A (zh) 2019-09-13
CN110232915B true CN110232915B (zh) 2023-05-30

Family

ID=67843327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910166985.8A Active CN110232915B (zh) 2018-03-06 2019-03-06 声音内容控制装置、声音内容控制方法以及存储介质

Country Status (3)

Country Link
US (1) US11069337B2 (zh)
JP (1) JP7000924B2 (zh)
CN (1) CN110232915B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7010073B2 (ja) * 2018-03-12 2022-01-26 株式会社Jvcケンウッド 出力内容制御装置、出力内容制御方法、及び出力内容制御プログラム
CN112863476B (zh) * 2019-11-27 2024-07-02 阿里巴巴集团控股有限公司 个性化语音合成模型构建、语音合成和测试方法及装置
KR20210130465A (ko) * 2020-04-22 2021-11-01 현대자동차주식회사 대화 시스템 및 그 제어 방법
JP2022103675A (ja) * 2020-12-28 2022-07-08 本田技研工業株式会社 情報処理装置、情報処理方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105122361A (zh) * 2013-04-03 2015-12-02 Lg电子株式会社 终端及其控制方法
CN106790938A (zh) * 2016-11-16 2017-05-31 上海趣讯网络科技有限公司 一种基于人工智能的人机交互车载***
US20170337921A1 (en) * 2015-02-27 2017-11-23 Sony Corporation Information processing device, information processing method, and program

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07109560B2 (ja) 1990-11-30 1995-11-22 富士通テン株式会社 音声認識装置
US9117444B2 (en) * 2012-05-29 2015-08-25 Nuance Communications, Inc. Methods and apparatus for performing transformation techniques for data clustering and/or classification
US9570090B2 (en) * 2015-05-26 2017-02-14 Google Inc. Dialog system with automatic reactivation of speech acquiring mode
US20160379638A1 (en) * 2015-06-26 2016-12-29 Amazon Technologies, Inc. Input speech quality matching
KR20170034154A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 콘텐츠 제공 방법 및 이를 수행하는 전자 장치
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
TWI657433B (zh) * 2017-11-01 2019-04-21 財團法人資訊工業策進會 語音互動裝置及應用其之語音互動方法
US10685648B2 (en) * 2017-11-08 2020-06-16 International Business Machines Corporation Sensor fusion model to enhance machine conversational awareness
US10565994B2 (en) * 2017-11-30 2020-02-18 General Electric Company Intelligent human-machine conversation framework with speech-to-text and text-to-speech
US10540970B2 (en) * 2017-12-12 2020-01-21 Amazon Technologies, Inc. Architectures and topologies for vehicle-based, voice-controlled devices
US10522143B2 (en) * 2018-02-27 2019-12-31 Microsoft Technology Licensing, Llc Empathetic personal virtual digital assistant

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105122361A (zh) * 2013-04-03 2015-12-02 Lg电子株式会社 终端及其控制方法
US20170337921A1 (en) * 2015-02-27 2017-11-23 Sony Corporation Information processing device, information processing method, and program
CN106790938A (zh) * 2016-11-16 2017-05-31 上海趣讯网络科技有限公司 一种基于人工智能的人机交互车载***

Also Published As

Publication number Publication date
US11069337B2 (en) 2021-07-20
US20190279611A1 (en) 2019-09-12
JP2019152833A (ja) 2019-09-12
JP7000924B2 (ja) 2022-01-19
CN110232915A (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
CN110232915B (zh) 声音内容控制装置、声音内容控制方法以及存储介质
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US11393491B2 (en) Artificial intelligence device capable of controlling operation of another device and method of operating the same
US10403282B2 (en) Method and apparatus for providing voice service
US20170084274A1 (en) Dialog management apparatus and method
US11580969B2 (en) Artificial intelligence device and method of operating artificial intelligence device
KR20090085673A (ko) 음성 인식을 이용한 콘텐츠 선택
KR102281504B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법
US20170243588A1 (en) Speech recognition method, electronic device and speech recognition system
CN110265005B (zh) 输出内容控制装置、输出内容控制方法以及存储介质
KR20210153165A (ko) 음성 인식 기능을 제공하는 인공 지능 기기, 인공 지능 기기의 동작 방법
CN113678119A (zh) 用于生成自然语言响应的电子装置及其方法
KR20220138669A (ko) 개인화 오디오 정보를 제공하기 위한 전자 장치 및 방법
KR20190094310A (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
US20220028368A1 (en) Information processing device, information processing method, and program
KR20220086265A (ko) 전자 장치 및 전자 장치의 동작 방법
US20230136611A1 (en) Artificial intelligence apparatus and method for controlling the same
US20230335120A1 (en) Method for processing dialogue and dialogue system
US11443732B2 (en) Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
US20220319497A1 (en) Electronic device and operation method thereof
CN117390518A (zh) 识别方法、装置、设备及存储介质
KR20230065054A (ko) 쿼리문에 관련된 검색 결과를 제공하는 전자 장치 및 방법
KR20190094295A (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
KR20220137437A (ko) 전자 장치 및 전자 장치의 동작 방법
EP3447659A1 (en) Digital assistant and method of operation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant