CN101165779B - 信息处理装置和方法、程序及记录介质 - Google Patents

信息处理装置和方法、程序及记录介质 Download PDF

Info

Publication number
CN101165779B
CN101165779B CN200710162893XA CN200710162893A CN101165779B CN 101165779 B CN101165779 B CN 101165779B CN 200710162893X A CN200710162893X A CN 200710162893XA CN 200710162893 A CN200710162893 A CN 200710162893A CN 101165779 B CN101165779 B CN 101165779B
Authority
CN
China
Prior art keywords
continuous
characteristic quantity
data
music
amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200710162893XA
Other languages
English (en)
Other versions
CN101165779A (zh
Inventor
小林由幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2006296143A external-priority patent/JP4239109B2/ja
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN101165779A publication Critical patent/CN101165779A/zh
Application granted granted Critical
Publication of CN101165779B publication Critical patent/CN101165779B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种信息处理装置。分析部分在预定频带的每个中按时间顺序连续地分析按时间顺序连续的声音数据。连续特征量提取部分从所述分析部分的分析结果中提取连续特征量,所述连续特征量是按时间顺序连续的特征量。分割部分将所述连续特征量分割成多个区域,所述多个区域中的每个具有预定的长度。区域特征量提取部分从所述连续特征量被分割成的多个区域中的每个中提取区域特征量,所述区域特征量是由一个标量或向量表示的特征量。目标特征量评估部分根据所述区域特征量的每个评估目标特征量,所述目标特征量是表示声音数据的一个特征的特征量。

Description

信息处理装置和方法、程序及记录介质
相关申请的交叉引用
本发明包含涉及于2006年10月20日向日本专利局提交的日本专利申请JP 2006-286261以及于2006年10月31日向日本专利局提交的日本专利申请JP 2006-296143的主题,其全部内容通过引用结合于此。
技术领域
本发明涉及一种信息处理装置和方法、一种程序以及一种记录介质,具体地讲,涉及允许提取数据特征的信息处理装置和方法、程序以及记录介质。
背景技术
以预定方式处理信息和从数据中提取表示数据特征的特征量的技术是公知的。在这些技术中,表示按时间顺序连续的预定区域的数据的特征的特征量可以被提取。
在相关技术参考中,在使用声音识别处理的结果的信息处理的执行过程中,对其执行声音识别处理的目标是变化的。声音识别处理的声音识别环境设置根据目标而改变。此后,根据改变后的设置对改变后的目标执行声音识别处理(例如,见日本专利特许公开2005-195834)。
发明内容
然而,当数据被预划分成多个区域并提取每个区域的特征时,将难以考虑前面的区域(或多个区域)对当前区域的影响。
当尽量增加最终获得的特征量的分辨率时,有必要增加将被划分的数据的重叠。结果,处理量与分辨率成比例地增加。
当数据实时输入时,由于每当存储了预定量的数据就执行处理,所以从数据中提取特征的算法越复杂,在数据被输入之后直到最终获得特征量的时间延迟就越长。
换言之,通过区域的数据被输入的时间和数据被处理的时间之和获得在数据被输入之后直到最终获得的特征量被输出的时间延迟(等待时间)。因此,从数据中提取特征的算法越复杂,处理数据所需的时间就越长,即,时间延迟(等待时间)越长。
此外,当从表示连续量的数据中直接提取特征时,有必要设计专用模型和更多的教师数据(teacher data)用来学习特征提取设备的参数。在相关技术中,没有使用通用特征提取设备。此外,没有用少量教师数据来学习参数。
考虑到上面的问题,期望提供允许数据的特征被容易且快速地提取的技术。
根据本发明的实施例,提供了一种信息处理装置。该信息处理装置包括分析部分、连续特征量提取部分、分割部分、区域特征量提取部分和目标特征量评估部分。分析部分在预定频带的每个中按时间顺序连续地分析按时间顺序连续的声音数据。连续特征量提取部分从所述分析部分的分析结果中提取连续特征量,所述连续特征量是按时间顺序连续的特征量。分割部分将所述连续特征量分割成多个区域,所述多个区域中的每个具有预定的长度。区域特征量提取部分从所述连续特征量被分割成的多个区域中的每个中提取区域特征量,所述区域特征量是由一个标量或向量表示的特征量。目标特征量评估部分从所述区域特征量的每个中评估目标特征量,所述目标特征量是表示声音数据的一个特征的特征量。
可以通过学习由按时间顺序连续的声音数据和表示在连续特征量被分割成的多个区域中的每个区域中表示声音数据的一个正确特征的特征量构成的教师数据来预创建目标特征量评估部分。
分析部分可以将按时间顺序连续的声音数据按时间顺序连续地分析成每个八音阶的12平均律的音程(musical interval)的声音。连续特征量提取部分可以从作为所述分析部分的分析结果获得的并且表示每个八音阶的12平均律(12equal temperament)的音程的能量的数据中提取连续特征量。
目标特征量评估部分可以评估将音乐或谈话标识为声音数据的特征的目标特征量。
信息处理装置还可包括平滑部分,用于通过获得目标特征量的滑动平均值来平滑目标特征量。
信息处理装置还可包括存储部分,用于将标识由所评估的目标特征量表示的特征的标记添加到声音数据,并存储已经添加了标记的声音数据。
信息处理装置还可包括算法创建部分,用于根据GA(遗传算法)或GP(遗传规划)创建从按时间顺序连续的声音数据中提取连续特征量的算法。
根据本发明的实施例,提供了一种信息处理方法。在预定频带的每个中按时间顺序连续地分析按时间顺序连续的声音数据。从分析结果中提取连续特征量,所述连续特征量是按时间顺序连续的特征量。所述连续特征量被分割成多个区域,所述多个区域中的每个具有预定的长度。从所述连续特征量被分割成的多个区域中的每个中提取区域特征量,所述区域特征量是由一个标量或向量表示的特征量。根据所述区域特征量的每个评估目标特征量,所述目标特征量是表示声音数据的一个特征的特征量。
根据本发明的实施例,提供了一种由计算机执行的程序。在预定频带的每个中按时间顺序连续地分析按时间顺序连续的声音数据。从分析步骤的分析结果中提取连续特征量,所述连续特征量是按时间顺序连续的特征量。将所述连续特征量分割成多个区域,所述多个区域中的每个具有预定的长度。从所述连续特征量被分割成的多个区域中的每个中提取区域特征量,所述区域特征量是由一个标量或向量表示的特征量。根据所述区域特征量的每个评估目标特征量,所述目标特征量是表示声音数据的一个特征的特征量。
根据本发明的实施例,提供了一种记录介质,在所述记录介质上记录了由计算机执行的程序。在预定频带的每个中按时间顺序连续地分析按时间顺序连续的声音数据。从分析结果中提取连续特征量,所述连续特征量是按时间顺序连续的特征量。所述连续特征量被分割成多个区域,所述多个区域中的每个具有预定的长度。从所述连续特征量被分割成的多个区域中的每个中提取区域特征量,所述区域特征量是由一个标量或向量表示的特征量。根据所述区域特征量的每个评估目标特征量,所述目标特征量是表示声音数据的一个特征的特征量。
根据本发明的实施例,在预定频带的每个中按时间顺序连续地分析按时间顺序连续的声音数据。从分析结果中提取连续特征量,所述连续特征量是按时间顺序连续的特征量。所述连续特征量被分割成多个区域,所述多个区域中的每个具有预定的长度。从所述连续特征量被分割成的多个区域中的每个中提取区域特征量,所述区域特征量是由一个标量或向量表示的特征量。从所述区域特征量的每个中评估目标特征量,所述目标特征量是表示声音数据的一个特征的特征量。
根据本发明的实施例,可以从数据中提取特征。
根据本发明的实施例,可以容易且快速地从数据中提取特征。
通过下面对如附图所示出的本发明的优选实施方式的详细描述,本发明的这些和其它目的、特征和优点将变得更加明显。
附图说明
结合附图,从下面的详细描述中,将更全面地理解本发明,其中类似的标号表示类似的元件,其中:
图1是描述从具有预定长度的连续数据的每部分中获得特征的示意图;
图2是示出根据本发明示例性实施例的信息处理装置的结构的方框图;
图3是描述提取目标特征量的处理的流程图;
图4是描述提取连续特征量的示意图;
图5是描述分割连续特征量的示意图;
图6是描述提取区域特征量的示意图;
图7是描述评估目标特征量的示意图;
图8是描述确定在单位时间间隔处声音数据是音乐还是谈话的示意图;
图9是示出根据本发明实施例的信息处理装置的另一结构的方框图;
图10是描述将标记添加到声音数据的处理的流程图;
图11是描述时间-音程数据的示意图;
图12是描述从时间-音程数据中提取连续音乐特征量的示意图;
图13是描述分割连续音乐特征量的示意图;
图14是描述提取区域特征量的示意图;
图15是描述确定帧是音乐还是谈话的示意图;
图16是描述每帧是音乐还是谈话的确定结果被平滑的示意图;
图17是示出已经添加了标记的示例性声音数据的示意图;
图18是描述算法创建部分的处理概要的示意图;
图19是描述算法创建部分的处理概要的示意图;
图20是描述算法创建部分的处理概要的示意图;
图21是示出算法创建部分的功能结构的方框图;
图22是描述算法创建处理的流程图;
图23是描述示例性算法创建处理的示意图;
图24是描述执行用基因(gene)表示的处理的示意图;
图25是描述评价基因的示意图;
图26是示出个人计算机的示例性结构的方框图。
具体实施方式
接着,将描述本发明的实施例。本发明的组成部分和本发明的该说明书中描述的实施例之间的关系如下。这部分中的描述表示支持说明书中阐述的发明的实施例被描述于该说明书中。因此,即使一些实施例没有在这部分中作为与本发明的组成部分相对应的实施例被描述,也不意味着这些实施例不与该组成部分相对应。相反,即使实施例在这部分中作为组成部分被描述,也不意味着这些实施例不与组成部分之外的部分相对应。
根据本发明的实施例,信息处理装置包括分析部分(例如,在图9中示出的时间-音程分析部分81)、连续特征量提取部分(例如,在图9中示出的连续音乐特征量提取部分82)、分割部分(例如,在图9中示出的帧分割部分83)、区域特征量提取部分(例如,在图9中示出的区域特征量提取部分84)、以及目标特征量评估部分(例如,在图9中示出的音乐/谈话确定部分85)。分析部分在预定频带的每一个中按时间顺序连续分析按时间连续的声音数据。连续特征量提取部分从分析部分的分析结果中提取作为按时间顺序连续的特征量的连续特征量。分割部分将连续特征量分割成多个区域,每个区域具有预定的长度。区域特征量提取部分从连续特征量被分割成的区域的每一个中提取作为由一个标量或向量表示的特征量的区域特征量。目标特征量评估部分从区域特征量的每一个中评估作为表示声音数据的一个特征的特征量的目标特征量。
信息处理装置还可包括平滑部分(例如,在图9中示出的数据平滑部分86),该平滑部分通过获得目标特征量的滑动平均值来平滑目标特征量。
信息处理装置还可包括存储部分(例如,在图9中示出的声音存储部分87),该存储部分将标记添加到声音数据并存储添加了标记的声音数据,所述标记标识由所评价的目标特征量表示的特征。
信息处理装置还可包括算法创建部分(例如,在图18中示出的算法创建部分101),该算法创建部分创建根据GA(遗传算法)或GP(遗传规划)创建从按时间顺序连续的声音数据中提取连续的特征量的算法。
根据本发明的实施例,在信息处理方法和程序中,在每个预定频带中按时间顺序连续地分析按时间顺序连续的声音数据(例如,在图10中所示的步骤S51)。从分析结果中提取作为按时间顺序连续的特征量的连续特征量(例如,在图10中所示的步骤S52)。连续的特征量被分割成多个区域,每个区域具有预定的长度(例如,在图10中所示的步骤S53)。从连续特征量被分割成的多个区域的每个区域中提取作为由一个标量或向量表示的特征量的区域特征量(例如,在图10中所示的步骤S54)。从区域特征量的每个中评估作为表示声音数据的一个特征的特征量的目标特征量(例如,在图10中所示的步骤S55)。
首先,如图1所示,将描述将自动特征提取算法应用于作为按时间顺序连续的数据的连续数据并根据该算法从连续数据中以预定长度的间隔获得特征的技术。例如,从连续输入的作为例如波形数据的连续数据中以预定长度的间隔获得作为A、B和C之一的特征。
图2是示出根据本发明实施例的信息处理装置11的结构的方框图。信息处理装置11从连续数据中以预定长度的间隔提取特征。信息处理装置11由连续特征量提取部分31、连续特征分割部分32、区域特征量提取部分33和目标特征量评估部分34组成。
连续特征量提取部分31获得作为从外部输入的按时间连续的数据的连续数据并且从所获得的连续数据中提取作为按时间顺序连续的特征量的连续特征量。连续特征量提取部分31从连续数据中提取至少一个连续特征量。连续特征量提取部分31将所提取的连续特征量相继提供到连续特征分割部分32。
换言之,作为按时间顺序连续的特征量的连续特征量按它们被提取的次序被提供到连续特征分割部分32。
连续特征分割部分32将从连续特征量提取部分31提供的连续特征量的每一个分割成多个区域,每个区域具有预定的长度。换言之,连续特性分割部分32创建连续特征量中每个的至少一个区域。连续特征分割部分32按连续特征量中的每个特征量被分割成多个区域的次序将连续特征量中的每一个的区域相继提供到区域特征量提取部分33。
区域特征量提取部分33从连续特征量中的每个特征量被连续特征分割部分32分割成的区域的每一个中提取作为由一个标量或向量表示的特征量的区域特征量。换言之,区域特征量提取部分33从连续特征量中的每个特征量的区域的每一个中提取至少一个区域特征量。区域特征量提取部分33按区域特征量被提取的次序将所提取的区域特征量提供给目标特征量评估部分34。
目标特征量评估部分34评估在具有预定长度的每个区域中最终将获得的目标特征量。换言之,目标特征量评估部分34从区域特征量提取部分33提取的区域特征量中评估目标特征量,所述目标特征量是在每个具有预定长度的区域中表示数据的一个特征的特征量。目标特征量评估部分34输出已经被目标特征量评估部分34评估的目标特征量。
接着,参照图3所示的流程图,将描述提取目标特征量的处理。在步骤S11,信息处理装置11的连续特征量提取部分31从作为从外部输入的按时间顺序连续的数据的连续数据中提取至少一个连续变化的连续特征量。
例如,如图4所示,连续特征量提取部分31从连续数据中提取连续变化的三个连续特征量,例如连续特征量1、连续特征量2和连续特征量3。
更具体地讲,当连续数据是声音数据时,连续特征量提取部分31从连续数据中提取表示每个时刻的声音音量的连续特征量1、表示每个时刻的12平均律的音程的声音(例如,Do、Re或Mi的声音)的连续特征量2、以及表示每个时刻的右声道信号和左声道信号的平衡的连续特征量3。
当连续数据是运动图像数据时,连续特征量提取部分31从连续数据中提取表示每个时刻运动图像的亮度的连续特征量1、表示每个时刻运动量的连续特征量2、和表示每个时刻运动图像的颜色的连续特征量3。
连续特征量提取部分31按连续特征量被提取的次序将所提取的连续特征量相继提供到连续特征分割部分32。
在步骤S12,连续特征分割部分32将至少一个连续特征量分割成多个区域,所述多个区域中的每个具有预定的长度。
例如,连续特征分割部分32将例如连续数据的连续特征量1、连续特征量2和连续特征量3之类的连续特征量中的每一个划分成多个区域,所述多个区域中的每个具有由图5中所示的相邻垂直线表示的预定长度,并且连续特征分割部分32将例如连续特征量1、连续特征量2和连接特征量3之类的连续特征量的每一个分割成多个区域,所述多个区域中的每个具有预定的长度。
多个连续特征量以它们在相同的位置以相同的长度被分割的方式被分割。
本示例中,长度可以基于时间、连续数据的数据量、或者连续数据的预定单位(例如,帧)。
连续特征分割部分32可以将每个连续特征量分割成每个区域具有预定长度的多个区域,使得每个分割区域与相邻的分割区域重叠。
更具体地讲,例如,连续特征分割部分32将从作为声音数据的连续数据中提取的表示每个时刻的声音音量的连续特征量1、表示每个时刻12平均律的音程的声音的连续特征量2、以及表示每个时刻右声道信号和左声道信号的平衡的连续特征量3分割成多个区域,每个区域具有5秒、10秒或15秒长度的声音数据。
作为替代,例如,连续特征分割部分32将从作为运动图像数据的连续数据中提取的表示每个时刻的运动图像亮度的连续特征量1、表示每个时刻的运动量的连续特征量2、以及表示每个时刻运动图像的颜色的连续特征量3分割成多个区域,每个区域具有30帧、150帧或300帧长度的运动图像数据。
连续特征分割部分32将连续特征量已经被分割成的多个区域按它们被分割的次序提供到区域特征量提取部分33。
在步骤S13,区域特征量提取部分33提取与已经被分割成各多个区域的至少一个连续特征量相对应的由一个标量或向量表示的至少一个区域特征量,所述多个区域的每一个具有预定的长度。
例如,区域特征量提取部分33将至少一种预定的处理应用于连续特征量中的每个特征量被分割成的多个区域中的每一个,以从连续特征量的每个中提取作为由至少一个标量或向量表示的特征量的至少一个区域特征量。
一个区域特征量将一个区域的特征表示为一个标量或一个向量。
例如,如图6所示,区域特征量提取部分33从作为声音数据的连续数据中提取的表示第一区域的每个时刻的声音音量的连续特征量1的平均值。因此,区域特征量提取部分33提取0.2作为第一区域的区域特征量。相似地,区域特征量提取部分33获得从作为声音数据的连续数据中提取的表示第二和第三区域的每个时刻的声音音量的连续特征量1的平均值。因此,区域特征量提取部分33提取-0.05和0.05分别作为第二和第三区域的区域特征量。
此外,区域特征量提取部分33获得从作为声音数据的连续数据中提取的表示第一、第二和第三区域的每个时刻的声音音量的连续特征量1的方差。结果,区域特征量提取部分33提取0.2、0.15和0.1,分别作为第一、第二和第三区域的区域特征量。
此外,区域特征量提取部分33获得从作为声音数据的连续数据中提取的表示第一、第二和第三区域中的每个时刻的声音音量的连续特征量1的梯度。因此,区域特征量提取部分33提取0.3、-0.2和0.0,分别作为第一、第二和第三区域的区域特征量。
相似地,区域特征量提取部分33提取表示第四区域和后面区域的连续特征量1的平均值、方差和梯度的区域特征量。
此外,区域特征量提取部分33提取从作为声音数据的连续数据中提取的各个区域的表示连续特征量2的平均值、方差和梯度的区域特征量以及表示连续特征量3的平均值、方差和梯度的区域特征量,所述连续特征量2表示各个时刻12平均律的音程的声音,所述连续特征量3表示各个时刻右声道信号和左声道信号的平衡。
当连续数据是运动图像数据时,区域特征量提取部分33提取从连续数据中提取的各个区域的表示连续特征量1、连续特征量2和连续特征量3的平均值、方差和梯度的区域特征量,所述连续特征量1表示各个时刻运动图像的亮度,所述连续特征量2表示各个时刻的运动量,所述连续特征量3表示各个时刻的运动图像的颜色。
在步骤S14,目标特征量评估部分34根据区域特征量评估每个区域的目标特征量。此后,处理完成。
换言之,在步骤S14,目标特征量评估部分34评估最终将从在步骤S13提取的每个区域的区域特征量中提取的目标特征量。例如,如图7所示,当已经提取例如区域特征量1至区域特征量7之类的区域特征量时,例如已经提取0.2作为区域特征量1、0.2作为区域特征量2、0.3作为区域特征量3、-0.5作为区域特征量4、1.23作为区域特征量5、0.42作为区域特征量6、以及0.11作为区域特征量7时,目标特征量评估部分34根据区域特征量1至7评估目标特征量。
当连续数据是声音数据时,目标特征量表示声音的有无、预定仪器性能的有无、噪声的有无等等。
当连续数据是运动图像数据时,目标特征量表示人(群)的有无、预定物体的有无、物体的预定运动的有无(例如,物体是否在跳舞)等等。
因此,在步骤S14,目标特征量评估部分34评估作为如下特征量的目标特征量,所述特征量表示来自每个区域中的区域特征量的数据的一个特征。
换言之,目标特征量评估部分34将预定的处理施加到每个区域中的区域特征量,并评估每个区域中的目标特征量。
例如,目标特征量评估部分34通过学习由区域特征量和目标特征量构成的教师数据来预创建,所述目标特征量表示每个区域中的数据的一个正确特征。换言之,目标特征量评估部分34通过学习由每个区域中按时间顺序连续的数据和目标特征量构成的教师数据来预创建,从所述按时间顺序连续的数据中提取区域特征量,所述目标特征量表示每个区域中整个数据的一个正确特征。
例如,根据如回归、分类、SVM(支持向量机)、或GP(遗传规划)等技术通过机器学习教师数据来创建目标特征量评估部分34。
以这样的方式,可以提取预定区域中的连续数据的特征。
从按时间顺序连续的连续数据中提取按时间顺序连续的连续特征量。从连续特征量中分割具有预定长度的区域。从已经从连续特征量中分割的连续特征量的区域中提取作为由一个标量或向量表示的特征量的区域特征量。目标特征量是表示每个区域中连续数据的一个特征的特征量。因此,可以容易且快速地在每个区域中提取连续数据的特征。
接着,将更具体地描述本发明的实施例。
如图8所示,自动音乐/谈话确定算法应用于作为按时间顺序连续的数据的声音数据的输入,以在每个单位时间中确定声音数据是音乐还是谈话并输出每个单位时间中声音数据是音乐或谈话的结果。
例如,在具有预定长度声音的声音数据的每个单位时间,表示声音波形的波形数据的声音数据的确定结果被输出为谈话(T)、谈话(T)、谈话(T)、谈话(T)、音乐(M)、音乐(M)、音乐(M)、音乐(M)、音乐(M)和音乐(M)。
图9是示出根据本发明实施例的信息处理装置51的结构的方框图。在每个单位时间,信息处理装置51确定输入的声音数据是音乐还是谈话。信息处理装置51由时间-音程分析部分81、连续音乐特征量提取部分82、帧分割部分83、区域特征量提取部分84、音乐/谈话确定部分85、数据平滑部分86和声音存储部分87构成。
时间-音程分析部分81在预定频带的每个中按时间顺序连续地分析按时间连续的声音数据。例如,时间-音程分析部分81在每个八音阶的12平均律的音程和时间两个轴上分析按时间顺序连续的声音数据。时间-音程分析部分81获得表示每个八音阶的12平均律的音程的能量并且作为分析结果按时间顺序连续的时间-音程数据,并将时间-音程数据按其被分析的次序提供到连续音乐特征量提取部分82。按时间顺序连续的时间-音程数据被提供到连续音乐特征量提取部分82,使得它们按它们被分析的次序在时间上连续。
连续音乐特征量提取部分82从时间-音程数据中提取作为按时间顺序连续的特征量的连续音乐特征量,所述时间-音程数据是从时间-音程分析部分81提供的按时间顺序连续的数据。连续音乐特征量提取部分82将所提取的连续音乐特征量按其被提取的次序提供到帧分割部分83。作为按时间顺序连续的特征量的连续音乐特征量被提供到帧分割部分83,使得它们按被其提取的次序在时间上连续。
帧分割部分83将从连续音乐特征量提取部分82提供的连续音乐特征量分割成多个帧,所述多个帧中的每个具有预定的长度。帧分割部分83将已经被分割成帧的连续音乐特征量作为基于帧的连续音乐特征量按其被分割成帧的次序提供到区域特征量提取部分84。
区域特征量提取部分84从基于帧的连续音乐特征量中提取作为每帧中由一个标量或向量表示的特征量的区域特征量。区域特征量提取部分84将所提取的区域特征量按它们被提取的次序提供到音乐/谈话确定部分85。
音乐/谈话确定部分85根据由区域特征量提取部分84提取的区域特征量的每个评估目标特征量,所述目标特征量是声音数据的每一帧的特征并表示用于标识音乐或谈话的特征。换言之,音乐/谈话确定部分85评估每帧中将音乐或谈话标识为声音数据的一个特征的目标特征量。
音乐/谈话确定部分85将表示所获得的标识音乐或谈话每帧的特征的基于帧的音乐/谈话确定结果作为评估结果提供到数据平滑部分86。
数据平滑部分86获得从音乐/谈话确定部分85提供的基于帧的音乐/谈话确定结果的滑动平均值,并根据所获得的滑动平均值平滑目标特征量。数据平滑部分86获得连续音乐/谈话确定结果作为平滑结果,并将连续音乐/谈话确定结果提供到声音存储部分87。
声音存储部分87根据从数据平滑部分86提供的连续音乐/谈话确定结果创建标识音乐或谈话的标记,并将所创建的标记添加到声音数据。声音存储部分87例如将被标记的声音数据存储到记录介质(未示出)。
换言之,声音存储部分87将表示被评估的目标特征量的标记添加到声音数据,并存储得到的被标记的声音数据。
声音存储部分87可以用这样的方式存储被标记的声音数据,使得声音存储部分87将被标记的声音数据记录到通过网络连接到信息处理装置11的服务器(未示出)。
图10是描述将标记添加到声音数据的处理的流程图。在步骤S51,时间-音程分析部分81在时间和每个八音阶的12平均律的音程两个轴分析按时间顺序连续的声音数据的波形,并根据分析结果创建时间-音程数据。
例如,如图11所示,在步骤S51,时间-音程分析部分81将声音数据划分成多个八音阶分量,并获得每个八音阶的12平均律的音乐电平的能量,在每个八音阶的12平均律的音程和时间两个轴上分析声音数据,并根据分析结果创建时间-音程数据。
更具体地讲,当声音数据是立体声数据时,时间-音程分析部分81获得声音数据的右声道数据和左声道数据中的每个的多个八音阶中的每个的12平均律的音程的能量,并添加从每个八音阶的左声道数据获得的能量和从右声道数据获得的能量,以创建时间-音程数据。
时间-音程分析部分81创建作为按时间顺序连续的数据的时间-音程数据。时间-音程分析部分81将所创建的时间-音程数据按它们创建的次序提供到连续音乐特征量提取部分82。
在步骤S52,连续音乐特征量提取部分82从时间-音程数据中提取多个连续音乐特征量。
例如,在步骤S52,连续音乐特征量提取部分82从表示每个八音阶的12平均律的音程的能量的时间-音程数据中提取按时间顺序变化的连续的音乐特征量,例如连续音乐特征量1、连续音乐特征量2和连续音乐特征量3。例如,如图12所示,连续音乐特征量提取部分82从表示每个八音阶的12平均律的音程的能量的时间-音程数据中提取表示每个时刻音乐范围的电平比的连续音乐特征量1、表示每个时刻右声道和左声道的电平差或能量差的连续音乐特征量2、以及表示诸如例如起音(attack)、衰减(decay)、维持(sustain)、消逝(release)等包络参数的连续音乐特征量3。作为替代,例如,连续音乐特征量提取部分82从表示每个八音阶的12平均律的音程的能量的时间-音程数据中提取表示每个时刻的节奏比的连续音乐特征量1、表示每个时刻的声音数目的连续音乐特征量2、和表示每个时刻的和声结构的连续音乐特征量3。
此外,连续音乐特征量提取部分82可以从表示每个八音阶的12平均律的音程的能量的时间-音程数据中提取表示声音密度、音程变化等的连续音乐特征量。
连续音乐特征量提取部分82将所提取的连续音乐特征量按它们被提取的次序提供到帧分割部分83。
在步骤S53,帧分割部分83将连续音乐特征量中的每个划分成多个帧并获得基于帧的连续音乐特征量。
例如,如图13所示,帧分割部分83将例如连续音乐特征量1、连续音乐特征量2和连续音乐特征量3之类的连续音乐特征量中的每个划分成多个帧。本示例中,帧是由图13中所示的垂直线表示的时刻和由与该垂直线相邻的垂直线表示的时刻之间的时间段。帧是具有预定长度的时间段。
帧分割部分83将例如连续音乐特征量1、连续音乐特征量2、和连续音乐特征量3之类的连续音乐特征量分割成多个帧。
帧分割部分83将多个连续音乐特征量分割成多个帧,使得它们在相同的位置以相同的长度被分割。
帧分割部分83将划分成多个帧的基于帧的连续音乐特征量按它们被划分的次序提供到区域特征量提取部分84。
在步骤S54,区域特征量提取部分84计算所划分的基于帧的连续音乐特征量的平均值和方差,以在每帧中提取区域特征量。
区域特征量提取部分84将至少一个预定的处理应用于基于帧的连续音乐特征量中的每个并从基于帧的连续音乐特征量的每个中提取作为由至少一个标量或向量表示的特征量的区域特征量。
例如,如图14所示,区域特征量提取部分84获得表示每个时刻每个音乐范围的电平比的基于帧的连续音乐特征量1的第一帧的平均值。因此,区域特征量提取部分84提取0.2作为第一帧的区域特征量。相似地,区域特征量提取部分84获得表示每个时刻每个音乐范围的电平比的基于帧的连续音乐特征量1的第二和第三帧的平均值。因此,区域特征量提取部分84提取-0.05和0.05分别作为第二和第三帧的区域特征量。
此外,区域特征量提取部分84获得表示每个时刻每个音乐范围的电平比的基于帧的连续音乐特征量1的第一、第二和第三帧的方差。因此,区域特征量提取部分84提取0.2、0.15和0.1分别作为第一、第二和第三帧的区域特征量。
区域特征量提取部分84提取表示基于帧的连续音乐特征量1的第四帧和后面帧的平均值或方差的区域特征量。
此外,例如,如图14所示,区域特征量提取部分84获得表示每个时刻右声道和作声道的能量差或电平差的基于帧的连续音乐特征量的第一帧的平均值。因此,区域特征量提取部分84获得0.1作为第一帧的区域特征量。相似地,区域特征量提取部分84获得基于帧的连续音乐特征量2的第二和第三帧的平均值。因此,区域特征量提取部分84提取0.4和0.5分别作为第二和第三帧的区域特征量。
此外,区域特征量提取部分84获得表示每个时刻右声道和左声道的能量差或电平差的基于帧的连续音乐特征量2的第一、第二和第三帧的方差。因此,区域特征量提取部分84提取0.3、-0.2和0.0分别作为第一、第二和第三帧的区域特征量。
相似地,区域特征量提取部分84提取表示基于帧的连续音乐特征量2的第四帧和后面帧的平均值或方差的区域特征量。
区域特征量提取部分84从基于帧的连续音乐特征值3的帧中提取区域特征量。
区域特征量提取部分84将所提取的区域特征量提供到音乐/谈话确定部分85。
在步骤S55,音乐/谈话确定部分85根据区域特征量确定每帧是音乐还是谈话。
例如,音乐/谈话确定部分85将由预创建的目标特征量提取公式表示的相对简单的运算(例如,四则算术运算、指数运算等)应用于已经被输入的区域特征量中的至少一个区域特征量,并获得基于帧的音乐/谈话确定结果作为运算结果,所述基于帧的音乐/谈话确定结果是表示音乐的概率的目标特征量。音乐/谈话确定部分85预存储目标特征量提取公式。
当目标特征量表示音乐的概率并且预定区域的目标特征量为0.5或更大时,音乐/谈话确定部分85输出表明帧为音乐的基于帧的音乐/谈话确定结果。当目标特征量表示音乐的概率并且预定区域的目标特征量小于0.5时,音乐/谈话确定部分85输出表明帧是谈话的基于帧的音乐/谈话确定结果。
例如,如图15所示,当例如区域特征量1至区域特征量7之类的区域特征量已在每帧中被提取时,音乐/谈话确定部分85根据作为区域特征量1的0.2、作为区域特征量2的0.2、作为区域特征量3的0.3、作为区域特征量4的-0.5、作为区域特征量5的1.23、作为区域特征量6的0.42以及作为区域特征量7的0.11确定该帧是音乐还是谈话。
例如,通过学习由每帧中的区域特征量和正确表示每帧是音乐还是谈话的目标特征量构成的教师数据来预创建音乐/谈话确定部分85。换言之,通过使用由每帧中按时间顺序连续的声音数据和正确表示每帧是音乐还是谈话的目标特征量构成的教师数据学习目标特征量提取公式来预创建音乐/谈话确定部分85,从所述按时间顺序连续的声音数据中提取区域特征量。
通过遗传地学习由按时间连续的声音数据和正确地表明每帧是音乐还是谈话的目标特征量构成的教师数据来预创建预存储在音乐/谈话确定部分85中的目标特征量提取公式。
学习创建目标特征量提取公式的算法的示例包括回归、分类、SVM(支持向量机)、和GP(遗传规划)。
音乐/谈话确定部分85将表示每帧是音乐还是谈话的确定结果的基于帧的音乐/谈话确定结果提供到数据平滑部分86。
在步骤S56,数据平滑部分86平滑每帧是音乐还是谈话的确定结果。
例如,数据平滑部分86对每帧是音乐还是谈话的确定结果进行滤波,以平滑确定结果。更具体地说,数据平滑部分86由滑动平均滤波器构成。在步骤S56,数据平滑部分86获得帧的音乐/谈话确定结果的滑动平均值,来平滑音乐/谈话确定结果。
在图16中,21帧的基于帧的音乐/谈话确定结果为谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、音乐(M)、音乐(M)、音乐(M)、谈话(T)、音乐(M)、音乐(M)、音乐(M)、谈话(T)、音乐(M)、音乐(M)、音乐(M)、音乐(M)。因此,第十三帧和第十七帧是谈话(T),第十二帧、第十四帧、第十六帧和第十八帧是音乐(M)。接着,将描述这种情形。
当每帧的长度充分减小时,预定数目的谈话帧连续或预定数目的音乐帧连续。换言之,音乐帧的前面和后面不是谈话帧。相似地,谈话帧的前面和后面不是音乐帧。因此,如图16中示出的第一序列所表示地,21帧排列成这样的次序:谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、音乐(M)、音乐(M)、音乐(M)、音乐(M)、音乐(M)、音乐(M)、音乐(M)、音乐(M)、音乐(M)、音乐(M)、音乐(M)、音乐(M)。换言之,由图16中示出的第二序列所表示的基于帧的音乐/谈话确定结果包含在第十三帧和第十七帧处的谈话帧的确定错误。
数据平滑部分86获得帧的音乐/谈话确定结果的滑动平均值,来平滑音乐/谈话确定结果。结果,数据平滑部分86获得21帧序列的连续音乐/谈话确定结果:谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、谈话(T)、音乐(M)、音乐(M)、音乐(M)、谈话(T)、音乐(M)、音乐(M)、音乐(M)、谈话(T)、音乐(M)、音乐(M)、音乐(M)、音乐(M),这里,第十三帧和第十七帧是音乐(M)。
因此,通过平滑确定结果,可以有效地对错误进行滤波。
数据平滑部分86将通过获得基于帧的音乐/谈话确定结果的运动平均值而平滑的连续音乐/谈话确定结果提供到声音存储部分87。
在步骤S57,声音存储部分87将标识音乐或谈话的标记添加到声音数据的每帧,并存储被标记的声音数据。此后,处理完成。
例如,如图17所示,声音存储部分87将标识音乐或谈话的标记添加到声音数据的每帧。换言之,声音存储部分87将标识音乐的标记添加到作为连续音乐/谈话确定结果的被确定为音乐的声音数据帧,并将标识谈话的标记添加到作为连续音乐/谈话确定结果的被确定为谈话的声音数据帧。声音存储部分87将添加了标识音乐或谈话的标记的声音数据记录和存储到例如硬盘或光盘之类的记录介质。
当再现已经添加了标识音乐或谈话的标记的音乐数据时,参照标记,只有声音数据的音乐区域或谈话区域可以被再现。相反,当再现已经添加了标识音乐或谈话的标记的声音数据时,参照标记,可以以这样的方式再现声音数据:只有音乐区域或谈话区域被相继从声音数据中跳过。
如上所述,当已经提取了由于时间恒定而导致受连续数据的过去值影响的连续特征量时,可以获得考虑了连续数据的过去区域对当前区域的影响的目标特征量。
在获得目标特征量的处理中,大部分算术运算用于提取连续特征量。因此,与连续特征量被分割的重叠范围的增加相对应的时间分辨率的提高没有大幅增加处理的算术运算。换言之,目标特征量的时间分辨率可以以比以前更加简单的结构提高,而不需要增加处理中的算术运算。
在输入连续数据的同时可以提取连续特征量。因此,在这个实施例中连续数据输入之后直到获得特征的等待时间比现有技术中连续数据被划分成多个区域并从多个区域中提取特征的等待时间小。
不管是根据现有技术的连续数据被划分成多个区域并从多个区域中提取特征的情况还是根据本发明的这个实施例的从连续数据中提取连续特征量、将所提取的连续特征量划分成多个区域、然后从多个区域中获得特征的情况,连续数据被输入之后直到最终将要获得的特征量被输出的时间延迟(等待时间)都通过将用于输入区域数据的时间段和用于处理数据的时间段相加来给出。
当连续数据被划分成多个区域并从多个区域中提取特征时,用于输入区域数据的时间段小于用于处理数据的时间段。
相反,当从连续数据中提取连续特征量、将连续特征量划分成多个区域、并从多个区域中提取特征时,虽然用于区域数据的时间段与将连续数据划分成多个区域并从多个区域中提取特征的情况下的时间段几乎相同,但是用于处理数据的时间段小。
因此,当从连续数据提取连续特征量、将所提取的连续特征量划分成多个区域、然后从多个区域中获得特征时,时间延迟(等待时间)可以比将连续数据划分成多个区域并从多个区域中提取特征的情况下的时间延迟小。
此外,作为目标特征量评估部分34或音乐/谈话确定部分85,可以使用简单的结构,所述简单的结构根据由标量或向量表示的区域特征量获得表示正确数据的目标特征量。因此,可以通过普通机器学习处理或统计分析处理中所使用的各种类型算法之一来创建目标特征量评估部分34或音乐/谈话确定部分85,而不需要根据目标问题准备特定的模型。
此外,可以通过学习连续数据和由每个时刻(取样点)添加了表示一个正确特征的标记的连续数据构成的教师数据来自动创建用于从连续数据中提取连续特征量并存储于在图1所示的连续特征量提取部分31或图9所示的时间-音程分析部分81和连续音乐特征量提取部分82的连续特征量提取算法。
接着,参照图18至图25,将描述自动创建连续特征量提取算法的处理。
当自动创建连续特征量提取算法时,图18所示的算法创建部分101重新设置于图2所示的信息处理装置11或图9所示的信息处理装置51中。算法创建部分101自动创建连续特征量提取算法,所述连续特征量提取算法从由外部输入的连续数据中自动提取连续特征量。
具体地讲,如图19所示,算法创建部分101通过输入连续数据和由连续数据的每个时刻表示一个正确特征的标记构成的教师数据根据GA(遗传算法)或GP(遗传规划)执行机器学习处理,创建作为机器学习处理的结果创建连续特征量提取算法,并输出所创建的连续特征量提取算法。
更具体地讲,如图20所示,算法创建部分101创建各种滤波器(功能)的组合,根据作为所创建的滤波器的组合的结果输出的连续特征量评价连续数据中每个标记表示的特征的精确等级,并根据GA(遗传算法)或GP(遗传规划)从滤波器的无限组合中检索输出连续特征量的滤波器的组合,利用所述连续特征量能够以更高的精度评价连续数据的特征。
图21是示出算法创建部分101的功能结构的方框图。算法创建部分101由第一代基因创建部分121、基因评价部分122以及第二代或后代基因创建部分123构成。
第一代基因创建部分121创建表示滤波器的各种组合的第一代基因。
基因评价部分122评价精度等级,在所述精度等级中,可以根据由第一代基因创建部分121或者第二代或后代基因创建部分123创建的每个基因表示的滤波处理从教师数据的连续数据中提取的连续特征量来评估由教师数据的标记表示的连续数据的特征。基因评价部分122由执行部分141、评价部分142和教师数据存储部分143构成。
执行部分141输入存储在教师数据存储部分143中的教师数据的连续数据,相继执行由各个基因表示的滤波处理,并提取输入连续数据的连续特征量。执行部分141将所提取的连续特征量提供到评价部分142。
如后面将参照图22所描述的那样,评价部分142计算表示所评估的精度等级的评价值,在所述精度等级中,可以根据由第一代基因创建部分121或者第二代或后代基因创建部分123创建的每个基因的执行部分141从教师数据的连续数据中提取的连续特征量来评估由教师数据的标记表示的连续数据的特征。评价部分142将所评价的基因和表示评价值的信息提供到第二代或后代基因创建部分123的选择部分151、互换部分152和突变部分153。此外,评价部分142命令随机创建部分154创建预定数目的基因。评价部分142确定评价值已经变稳定并且基因的进化已经收敛后,评价部分142将这些基因和它们的评价值提供到选择部分151。
教师数据存储部分143存储从外部输入的教师数据。
第二代或后代基因创建部分123创建第二代或后代基因。如上所述,第二代或后代基因创建部分123由选择部分151、互换部分152、突变部分153以及随机创建部分154构成。
如后面将参照图22所描述的,选择部分151根据通过评价部分142获得的评价值选择从当代继承到下一代的基因,并将所选择的基因作为下一代基因提供到基因评价部分122。选择部分151确定基因的进化已经收敛后,选择部分151从具有较高评价值的基因中选择预定数目的基因,并输出由所选择的基因表示的滤波器组合作为连续特征量提取算法。
如后面将参照图22所描述的,互换部分152通过改变从当代的具有较高评价值的基因中选择的两个基因所表示的滤波器的一部分来将两个基因互换。互换部分152将已经互换的基因作为下一代基因提供到基因评价部分122。
如后面将参照图22所描述的,突变部分153通过随机改变从当代的具有较高评价值的基因中随机选择的基因的滤波器的一部分来突变基因。转变部分153将突变的基因作为下一代基因提供到基因评价部分122。
如后面将参照图22所描述的,随机创建部分154通过随机组合各种类型的滤波器来创建新的基因。随机创建部分154将所创建的基因作为下一代基因提供到基因评价部分122。
构成由算法生产部分101创建的基因的滤波器是实时输入的时间序列数据,即用于连续数据的滤波器。这些滤波器的示例包括算术运算滤波器(用于四则算术运算、指数运算、微分运算、积分运算、以及绝对值运算)、LPF(低通滤波器)、HPF(高通滤波器)、BPF(带通滤波器)、IIR(无限脉冲响应)滤波器、FIR(有限脉冲响应)滤波器、均衡声音音量的实时电平最大化器、追踪音程的音调追踪器以及创建连续数据包络的电平计。
基因以滤波器被设置的形式来表示,所述滤波器按它们被执行的次序来设置,例如“音调追踪器→微分滤波器→绝对值滤波器(ABS)→LPF”。
图22是描述由算法创建部分101执行的算法创建处理的流程图。
接着,如图23所示,将举例说明参照图9描述的在每个单位时刻确定输入的声音数据是音乐还是谈话的信息处理装置51中,算法创建部分101创建从声音数据中提取连续音乐特征量的连续音乐特征量提取算法的处理。换言之,将举例说明算法创建部分101创建与图9所示的时间-音程分析部分81和连续音乐特征量提取部分82相对应的连续特征量提取算法的处理。
在步骤S101中,第一代基因创建部分121创建第一代基因。具体地讲,第一代基因创建部分121通过随机组合用于实时输入的时间序列数据(即,连续数据)的各种类型的滤波器来创建预定数目的基因。第一代基因创建部分121将所创建的基因提供到基因评价部分122。
在步骤S102中,执行部分141从第一代基因创建部分121提供的基因中选择还没被评价的一个基因。在这种情况下,执行部分141从第一代基因创建部分121创建的第一代基因中选择还没被评价的一个基因作为评价目标。
在步骤S103中,执行部分141选择还没被处理的一片教师数据。具体地讲,执行部分141从存储在教师数据存储部分143中的教师数据中选择一片还没被作为当前评价目标的基因处理的教师数据。
在步骤S104中,执行部分141利用作为评价目标的基因提取所选择的教师数据的连续特征量。具体地讲,执行部分141通过输入所选择的教师数据的连续数据并相继执行由作为评价目标的基因表示的滤波器的处理来提取所选择的教师数据的连续特征量。
当创建连续音乐特征量提取算法时,如图24所示,通过对作为教师数据的声音数据执行由作为评价目标的基因表示的处理,即通过相继执行由作为评价目标的基因表示的滤波处理,提取波形作为连续音乐特征量,所述波形的声音数据已被滤波。
执行部分141将所提取的连续特征量提供到评价部分142。
在步骤S105中,执行部分141确定是否所有教师数据已经被处理。当存储在教师数据存储部分143中的教师数据中存在这样的教师数据——对于作为评价目标的基因来讲,还未从所述教师数据中提取连续特征量——时,执行部分141确定还没处理完所有教师数据。此后,流程返回步骤S103。此后,重复步骤S103至步骤S105,直到在步骤S105处理完所有教师数据。
当步骤S105中的确定结果表明所有教师数据已经被处理时,流程前进至步骤S106。
在步骤S106,评价部分142评价基因。
当连续音乐特征量提取算法创建时,如图25所示,评价部分142从滤波后的波形中计算表示特征量的精度等级的评价值,所述特征量表示由教师数据的标记表示的连续数据的特征,即作为信息处理装置51的目标特征量表示音乐或谈话的特征量,所述滤波后的波形是根据作为评价目标的基因提取的连续音乐特征量。
接着,将举例说明计算评价值的方法。
当教师数据的标记的值(即,表示连续数据的特征的特征量)由连续的数值表示时,例如,以正确的数据序列表示的特征量是由0.0到1.0的范围内的连续数值表示的音乐的速度感,例如,Pearson相关系数的绝对值被用作基因的评价值。具体地讲,假定教师数据的标记的值用变量X表示,且相应的连续特征量的值用变量Y表示,变量X和变量Y的相关系数r通过下面的公式(1)获得。
r=(变量X和变量Y的协方差)/{(变量X的标准差)×(变量Y的标准差)}
r = 1 n - 1 Σ i = 1 n ( X i - X ‾ ) ( Y i - Y ‾ ) 1 n - 1 Σ i = 1 n ( X i - X ‾ ) 2 1 n - 1 Σ i = 1 n ( Y i - Y ‾ ) 2 . . . ( 1 )
这里,
Figure G200710162893XD00242
是X的平均值,
Figure G200710162893XD00243
是Y的平均值。
从连续数据提取的连续特征量的值与由教师数据的标记表示的连续数据的特征量的值的相关性越弱,相关系数r越接近0。相反,相关性越强,相关系数r越接近1.0或-1.0。换言之,很可能利用根据由作为评价目标的基因表示的滤波器组合提取的连续特征量评估的连续数据的特征量的精度越高,相关系数r越接近于1.0或-1.0,而精度越低,相关系数r越接近于0。
当教师数据的标记的值(即,表示连续数据的特征的特征量)被分为预定的类时,如上面所举例说明的,目标特征量被分类成谈话或音乐或者声音存在状态或声音缺失状态,那么例如,Fisher判别比(FDR)被用作评价值。
例如,当目标特征量被分为两类时,换言之,当目标特征量用二进制值表示时,在由作为评价目标的基因表示的处理中提取的连续特征量的值根据教师数据的相应标记的值被分成两组,所述组由组X和组Y表示,从而,通过下面的公式(2)获得FDR。
FDR=(X的平均值-Y的平均值)2/{(X的标准差+Y的标准差)}
...(2)
在作为评价目标的基因表示的处理中提取的连续特征量的值和所述值所属的组的相关性越弱,即在作为评价目标的基因表示的处理中提取的连续特征量的值和由教师数据的标记表示的特征量的相关性越弱,FDR的值越小。相反,在作为评价目标的基因表示的处理中提取的连续特征量的值和所述值所属的组的相关性越强,即在作为评价目标的基因表示的处理中提取的连续特征量的值和由教师数据的标记表示的特征量的相关性越强,FDR的值越大。换言之,很可能FDR值越大,利用根据由作为评价目标的基因表示的滤波器组合提取的连续特征量评估的连续数据的特征量的精度越高,反之,FDR值越小,精度越低。
计算基因的评价值的上述方法是示例性的。更确切地说,优选使用具有在由基因表示的处理中提取的连续特征量和由教师数据的标记表示的特征量的适当方法。
当计算数目由于存在连续特征量的多个样本而增加时,如果必要,可以对连续特征量的样品数目十中抽一。
在步骤S107中,评价部分142确定是否所有的基因已经被评价。当步骤S107的确定结果表明还没完成所有基因的评价时,流程返回步骤S102。重复步骤S102至步骤S107,直到步骤S107的确定结果表明所有基因已经被评价。
当步骤S107的确定结果表明所有基因已经被评价时,在这种情况下,第一代的所有基因已经被评价,流程前进到步骤S108。
在步骤S108中,评价部分142将上代基因的评价值与当前代基因的评价值作比较。在这种情况下,由于第一代基因正被评价并且上代基因的评价值还没被存储,所以评价部分142存储第一代基因的评价值的最大值作为当前基因的评价值。
在步骤S109中,评价部分142确定预定代中评价值是否已经被更新。在这种情况下,由于步骤S108中评价值已经改变,所以流程前进到步骤S110。
在步骤S110中,选择部分151选择基因。具体地讲,评价部分142将当代的所有基因和表示这些基因的评价值的信息提供到选择部分151。选择部分151从具有较高评价值的基因中选择预定数目的基因,并将所选择的基因作为下一代基因提供到基因评价部分122。
在步骤S111中,互换部分152将基因互换。具体地讲,评价部分142将当代的所有基因和表示这些基因的评价值的信息提供到互换部分152。互换部分152从具有的评价值比预定值高的基因中随机选择两个基因,并在所选择的基因之间互换滤波器。因此,互换部分152通过重新组合由基因表示的滤波器来互换两个基因。互换部分152互换预定数目的基因并将已经互换的基因作为下一代基因提供到基因评价部分122。
在步骤S112中,突变部分153突变基因。具体地讲,评价部分142将当代的所有基因和表示这些基因的评价值的信息提供到突变部分153。突变部分153通过从具有的评价值比预定值高的基因中随机选择预定数目的基因并且随机改变所选择所基因的滤波器的一部分来突变基因。突变部分153将所突变的基因作为下一代基因提供到基因评价部分122。
在步骤S113中,随机创建部分154随机创建基因。具体地讲,评价部分142命令随机创建部分154创建预定数目的基因。随机创建部分154在与第一代基因创建部分121相同的处理中随机地创建预定数目的基因。随机创建部分154将所创建的基因作为下一代基因提供到基因评价部分122。
此后,流程返回到步骤S102。重复步骤S102至步骤S107,直到在步骤S107确定第二代的所有基因已经被评价。
当步骤S107的确定结果表明所有基因已经被评价时,即第二代的所有基因已经被评价时,流程前进到步骤S108。
在步骤S108,在这种情况下,评价部分142将已经存储的上一代基因的评价值(即,第一代基因的评价值)与第二代基因的评价值中的最大值作比较。当第二代基因的评价值中的最大值大于第一代基因的评价值时,评价部分142用第二代基因的评价值的最大值更新当前基因的评价值。当第二代基因的评价值中的最大值等于或小于第一代基因的评价值时,评价部分142不用第二代基因的评价值的最大值更新当前基因的评价值,而使用当前基因的评价值。
重复步骤S102至步骤S113,直到在步骤S109确定在预定数目代中评价值没被更新。换言之,创建并评价新一代基因,将上一代基因的评价值和新一代基因的评价值的最大值作比较,当新一代基因的评价值的最大值大于上一代的基因的评价值时,更新当代基因的评价值,直到在预定数目的代中基因的评价值没被更新。
当步骤S109中的确定结果表明在预定数目的代中基因的评价值没被更新时,即基因的评价值是稳定的并且基因的进化已经收敛时,流程前进到步骤S114。
作为替代,在步骤S109,可以确定当代基因的评价值的最大值是否等于或大于预定的阈值。在这种情况下,当步骤S109中的确定结果表明当代基因的评价值的最大值小于预定的阈值时,即利用由当代基因表示的滤波器的组合评估的特征量的精度不满足期望值时,流程前进到步骤S110。相反,当步骤S109的确定结果表明当代基因的评价值的最大值等于或大于预定的阈值时,即利用由当代基因表示的滤波器的组合评价的特征量的精度满足期望值时,流程前进到步骤S114。
在步骤S114中,选择部分151选择用于连续特征量提取算法的基因。此后,算法创建处理完成。具体地讲,评价部分142将当代的所有基因和这些基因的评价值提供到选择部分151。选择部分151从当代的所有基因中选择预定数目的(至少一个)具有最大评价值的基因,并输出由所选择的基因表示的滤波器的组合作为连续特征量提取算法。
作为替代,在步骤S114,可以从当代的所有基因中选择具有的评价值比预定的阈值高的所有基因,并且可以输出由所选择的基因表示的滤波器的组合作为连续特征量提取算法。
通过这样的方式,创建图2所示的信息处理装置11或图9所示的信息处理装置51中使用的从连续数据中提取连续特征量的连续特征量提取算法。
由于连续特征量提取算法根据GA或GP自动创建,所以可以从比手动创建的算法更多的滤波器组合中获得提取更适于评估目标特征量的连续特征量的滤波器的组合。因此,可以期望提高目标特征量的评估精度。
在图2所示的信息处理装置11或图9所示的信息处理装置51中,可以仅由算法创建部分101创建提取连续特征量的连续特征量提取算法。或者,可以手动创建连续特征量提取算法。或者,可以并列使用算法创建部分101创建的连续特征量提取算法和手动创建的连续特征量提取算法。
在前面的描述中,举例说明了处理例如声音数据或运动图像数据之类的连续数据的信息处理装置。然而,作为实施例,本发明可应用于记录和再现声音数据或运动图像数据的记录/再现装置、记录声音数据或运动图像数据的记录装置、再现声音数据或运动图像数据的再现装置等等。更具体地讲,作为实施例,本发明可以应用于具有内置光盘驱动器或硬盘的记录播放器、具有内置半导体存储器的便携式记录器或播放器、数字视频相机、移动电话等等。
在前面的描述中,目标特征量表示最终将获得的特征例如音乐或谈话。或者,目标特征量可以是表示诸如音乐或谈话的概率之类的最终将获得的特征的概率的值。
当通过学习处理创建目标特征量提取公式并根据目标特征量提取公式执行算术运算时,可以提取数据的特征。当在每个预定的频带中按时间顺序连续地分析按时间顺序连续的声音数据时,从分析结果中提取连续特征量作为按时间顺序连续的特征量,将连续特征量分割成多个区域,所述区域中的每个具有预定的长度,从每个区域中提取作为由一个标量或向量表示的特征量的区域特征量,并从区域特征量中评估作为表示声音数据的一个特征的特征量的目标特征量,因而可以容易并快速地提取声音数据的特征。
可以通过硬件或软件执行前面的处理序列。当通过软件执行处理序列时,构成软件的程序内置于计算机的专用硬件中或者从程序记录介质安装到例如通用个人计算机中,通用个人计算机根据其上安装的各种程序执行各种类型的功能。
图26是示出根据程序执行前述处理序列的个人计算机的示例性结构的方框图。CPU(中央处理单元)201根据存储在ROM(只读存储器)202或者存储部分208中的程序执行各种类型的处理。必要时,RAM(随机存取存储器)203存储使得CPU 201执行处理的程序、数据等。通过总线204将CPU 201、ROM 202和RAM 203相互连接。
输入输出接口205也通过总线204连接到CPU 201。由键盘、鼠标、麦克风等构成的输入部分206和由显示器、扬声器等构成的输出部分207连接到输入输出接口205。CPU 201根据从输入部分206输入的命令执行各种类型的处理。CPU 201将处理结果输出到输出部分207。
连接到输入输出接口205的存储部分208例如由硬盘构成。存储部分208存储使CPU 201执行处理的程序和各种类型的数据。通信部分209通过例如因特网或局域网之类的网络与外部设备通信。
或者,程序可通过通信部分209获得,并存储在存储部分208中。
当例如磁盘、光盘、磁-光盘、半导体存储器等可移除介质211附接到连接于输入输出接口205的驱动器210时,驱动器210使得可移除介质211被读取并从中获得程序、数据等。必要时,所获得的程序和数据被传送到存储部分208并存储在存储部分208中。
如图26所示,存储安装到计算机并被计算机执行的程序的程序记录介质由可移除介质211构成,可移除介质211是封装介质例如磁盘(包括软盘)、光盘(包括CD-ROM(压缩盘-只读存储器)、DVD(数字通用盘)、磁-光盘)、或者半导体存储器、临时或永久存储程序的ROM202、或者构成存储部分208的硬盘。必要时,程序通过例如路由器或调制解调器之类的作为接口的通信部分209或者通过例如局域网、因特网、或数字卫星广播之类的有线或无线通信介质存储到程序记录介质。
本说明书中,描述存储在程序记录介质中的程序的步骤以它们被描述的次序按时间顺序被处理。或者,这些步骤可以并列或分离地执行。
本领域技术人员应该明白,根据设计要求和其它因素可以作出各种修改、组合、子组合和变更,只要它们在所附权利要求或其等同物的范围之内。

Claims (7)

1.一种信息处理装置,包括:
分析装置,用于在预定频带的每个中按时间顺序连续地分析按时间顺序连续的声音数据;
连续特征量提取装置,用于从所述分析装置的分析结果中提取连续特征量,所述连续特征量是按时间顺序连续的特征量;
分割装置,用于将所述连续特征量分割成多个区域,所述多个区域中的每个具有预定的长度;
区域特征量提取装置,用于从所述连续特征量被分割成的多个区域中的每个中提取区域特征量,所述区域特征量是由一个标量或向量表示的特征量;以及
目标特征量评估装置,用于根据所述区域特征量的每个评估目标特征量,所述目标特征量是表示声音数据的一个特征的特征量,
其特征在于:
所述分析装置将按时间顺序连续的声音数据作为每个八音阶的12平均律的音程的声音按时间顺序连续地进行分析,并且
所述连续特征量提取装置从作为所述分析装置的分析结果中获得的并且表示每个八音阶的12平均律的音程的能量的数据中提取连续特征量。
2.如权利要求1所述的信息处理装置,
其中,通过学习由按时间顺序连续的声音数据和在所述连续特征量被分割成的多个区域中的每个区域中表示声音数据的一个正确特征的特征量构成的教师数据来预创建所述目标特征量评估装置。
3.如权利要求1所述的信息处理装置,
其中,所述目标特征量评估装置评估将音乐或谈话标识为声音数据的特征的目标特征量。
4.如权利要求1所述的信息处理装置,还包括:
平滑装置,用于通过获得目标特征量的滑动平均值来平滑目标特征量。
5.如权利要求1所述的信息处理装置,还包括:
存储装置,用于将标识由所评估的目标特征量表示的特征的标记添加到声音数据,并存储已经添加了标记的声音数据。
6.如权利要求1所述的信息处理装置,还包括:
算法创建装置,用于根据遗传算法GA或遗传规划GP创建从按时间顺序连续的声音数据中提取连续特征量的算法。
7.一种信息处理方法,包括下面的步骤:
在预定频带的每个中按时间顺序连续地分析按时间顺序连续的声音数据;
从分析步骤的分析结果中提取连续特征量,所述连续特征量是按时间顺序连续的特征量;
将所述连续特征量分割成多个区域,所述多个区域中的每个具有预定的长度;
从所述连续特征量被分割成的多个区域中的每个中提取区域特征量,所述区域特征量是由一个标量或向量表示的特征量;以及
根据所述区域特征量的每个评估目标特征量,所述目标特征量是表示声音数据的一个特征的特征量,
其特征在于:
该分析步骤将按时间顺序连续的声音数据作为每个八音阶的12平均律的音程的声音按时间顺序连续地进行分析,并且
该连续特征量提取步骤从作为分析步骤的分析结果中获得的并且表示每个八音阶的12平均律的音程的能量的数据中提取连续特征量。
CN200710162893XA 2006-10-20 2007-10-22 信息处理装置和方法、程序及记录介质 Expired - Fee Related CN101165779B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2006286261 2006-10-20
JP2006-286261 2006-10-20
JP2006286261 2006-10-20
JP2006296143 2006-10-31
JP2006296143A JP4239109B2 (ja) 2006-10-20 2006-10-31 情報処理装置および方法、プログラム、並びに記録媒体
JP2006-296143 2006-10-31

Publications (2)

Publication Number Publication Date
CN101165779A CN101165779A (zh) 2008-04-23
CN101165779B true CN101165779B (zh) 2010-06-02

Family

ID=39334444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710162893XA Expired - Fee Related CN101165779B (zh) 2006-10-20 2007-10-22 信息处理装置和方法、程序及记录介质

Country Status (2)

Country Link
JP (1) JP5007714B2 (zh)
CN (1) CN101165779B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080276935A1 (en) 2006-11-20 2008-11-13 Lixiao Wang Treatment of asthma and chronic obstructive pulmonary disease with anti-proliferate and anti-inflammatory drugs
JP5771582B2 (ja) * 2012-08-27 2015-09-02 日本電信電話株式会社 音響信号分析装置、方法、及びプログラム
CN104464702B (zh) * 2014-10-27 2017-07-21 叶煦舟 基于遗传算法的和弦伴奏生成方法
CN105161094A (zh) * 2015-06-26 2015-12-16 徐信 一种语音音频切分手动调整切分点的***及方法
CN107305773B (zh) * 2016-04-15 2021-02-09 美特科技(苏州)有限公司 语音情绪辨识方法
CN106448701B (zh) * 2016-08-30 2019-10-25 河北师范大学 一种声乐综合训练***
JP6672478B2 (ja) * 2016-12-20 2020-03-25 パイオニア株式会社 生体音解析方法、プログラム、記憶媒体及び生体音解析装置
CN113362864B (zh) * 2021-06-16 2022-08-02 北京字节跳动网络技术有限公司 音频信号处理的方法、装置、存储介质及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1264889A (zh) * 1999-02-23 2000-08-30 摩托罗拉公司 语音识别***中的特征提取方法
GB2358253A (en) * 1999-05-12 2001-07-18 Kyushu Kyohan Company Ltd Signal identification device using genetic algorithm and on-line identification system
CN1452159A (zh) * 2002-04-18 2003-10-29 赵荣椿 语音控制装置及方法
CN1455389A (zh) * 2002-09-30 2003-11-12 中国科学院声学研究所 语音识别***及用于语音识别***的特征矢量集的压缩方法
CN1471078A (zh) * 2002-07-03 2004-01-28 日本先锋公司 字识别设备、字识别方法和字识别程序
CN1494054A (zh) * 2002-09-24 2004-05-05 松下电器产业株式会社 特征量提取装置
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
CN1666252A (zh) * 2002-07-08 2005-09-07 里昂中央理工学院 为声音信号分配声级的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2871204B2 (ja) * 1991-08-21 1999-03-17 日本電気株式会社 楽音採譜装置
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
JP4099576B2 (ja) * 2002-09-30 2008-06-11 ソニー株式会社 情報識別装置及び方法、並びにプログラム及び記録媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1264889A (zh) * 1999-02-23 2000-08-30 摩托罗拉公司 语音识别***中的特征提取方法
GB2358253A (en) * 1999-05-12 2001-07-18 Kyushu Kyohan Company Ltd Signal identification device using genetic algorithm and on-line identification system
CN1452159A (zh) * 2002-04-18 2003-10-29 赵荣椿 语音控制装置及方法
CN1471078A (zh) * 2002-07-03 2004-01-28 日本先锋公司 字识别设备、字识别方法和字识别程序
CN1666252A (zh) * 2002-07-08 2005-09-07 里昂中央理工学院 为声音信号分配声级的方法和装置
CN1494054A (zh) * 2002-09-24 2004-05-05 松下电器产业株式会社 特征量提取装置
CN1455389A (zh) * 2002-09-30 2003-11-12 中国科学院声学研究所 语音识别***及用于语音识别***的特征矢量集的压缩方法
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal

Also Published As

Publication number Publication date
CN101165779A (zh) 2008-04-23
JP5007714B2 (ja) 2012-08-22
JP2009058970A (ja) 2009-03-19

Similar Documents

Publication Publication Date Title
CN101165779B (zh) 信息处理装置和方法、程序及记录介质
JP5115966B2 (ja) 楽曲検索システム及び方法並びにそのプログラム
CN101038739B (zh) 用于附加元数据的方法和设备
CN101916564B (zh) 信息处理装置、旋律线提取方法和低音线提取方法
JP4775379B2 (ja) さまざまなセグメントクラスを指定するための装置および方法
CN101751912B (zh) 信息处理设备和声音素材捕获方法
CN101452696B (zh) 信号处理装置、信号处理方法和程序
CN102956230B (zh) 对音频信号进行歌曲检测的方法和设备
Poliner et al. A classification approach to melody transcription
CN1998044B (zh) 音频信号分类方法和***
CN102547521B (zh) 内容再现设备和方法
JP6723120B2 (ja) 音響処理装置および音響処理方法
JP2008506141A (ja) 楽曲分類方法
JP2008515011A (ja) オーディオ作品のセグメンテーションを変更するための装置および方法
CN102486920A (zh) 音频事件检测方法和装置
CN104050974A (zh) 声音信号分析设备以及声音信号分析方法和程序
CN102456342A (zh) 音频处理装置和方法以及程序
EP1898320A1 (en) Musical composition searching device, musical composition searching method, and musical composition searching program
JP2008515012A (ja) 楽曲の時間セグメントをグループ化するための装置および方法
KR101675957B1 (ko) 신호 성분 분석을 이용한 음악 인기도 예측 시스템 및 방법
US20130311410A1 (en) Information Processing Apparatus, Information Processing Method, and Program
Schwarz et al. Methods and datasets for DJ-mix reverse engineering
EP1914720B1 (en) Information processing apparatus and method, program, and record medium
JP2009110212A (ja) 情報処理装置、情報処理方法、およびプログラム
JP5035598B2 (ja) 情報処理装置および方法、並びに、プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100602

Termination date: 20181022

CF01 Termination of patent right due to non-payment of annual fee