CN108292499A

CN108292499A - 技巧确定装置和记录介质

Info

Publication number: CN108292499A
Application number: CN201680068752.9A
Authority: CN
Inventors: 成山隆; 成山隆一; 松本秀; 松本秀一
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2015-11-27
Filing date: 2016-11-25
Publication date: 2018-07-17
Also published as: US20180277144A1; JP2017097267A; US10643638B2; WO2017090720A1; JP6631199B2

Abstract

根据本发明的实施例的一种技巧确定装置设有：输入声采集单元，其采集输入声；音高检测单元，其基于由输入声采集单元采集的输入声而按照时序来检测音高；音量检测单元，其基于由输入声采集单元采集的输入声而按照时序来检测音量；第一起始点检测单元，其针对每个预定时段确定由音量检测单元检测到的音量的变化是否等于或大于规定的阈值，并且检测其中音量的变化等于或大于规定的阈值的时段的起始点作为第一起始点；以及技巧确定单元，其基于由第一起始点检测单元检测到的第一起始点之后的音量的改变和第一起始点之后的音高的变化，来确定输入声的技巧。

Description

技巧确定装置和记录介质

技术领域

本发明涉及一种确定输入声的技巧的技术。

背景技术

卡拉OK装置包括分析和评价歌声的功能。为了评价歌唱，使用了各种方法。作为这些方法中的一种，例如，专利文献1公开了一种卡拉OK装置，其通过分别将不同的音乐元素(诸如频率(音调)、音量等)分级来将歌唱分级，并基于这些分级结果计算总分。

[引文列表]

[专利文献]

专利文献1：日本专利申请特开No.2006-31041

发明内容

[技术问题]

卡拉OK装置检测和评价作为技巧的特征歌唱部分。然而，因为在歌唱中存在各种的技巧，所以存在有些技巧无法被传统卡拉OK装置检测到的问题。

本发明的一个问题是确定输入声的技巧。

[技术方案]

根据本发明的一个实施例，提供了一种技巧确定装置，该技巧确定装置包括：输入声采集单元，其采集输入声；音高检测单元，其基于由输入声采集单元采集的输入声而按照时序来检测音高；音量检测单元，其基于由输入声采集单元采集的输入声而按照时序来检测音量；第一起始点检测单元，其针对每个预定时段确定由音量检测单元检测到的音量的变化是否等于或大于预定阈值，并且检测其中音量的变化等于或大于阈值的时段的起始点作为第一起始点；以及技巧确定单元，其基于由第一起始点检测单元检测到的第一起始点之后的音量的改变和第一起始点之后的音高的变化，来确定输入声的技巧。

技巧确定单元可基于第一起始点之后的预定时段中的音高的变化来确定技巧。

技巧确定装置还可包括第二起始点检测单元，其检测其中通过音高检测单元检测到的音高以超过预定宽度而周期性地变化的音高变化时段的起始点作为第二起始点，其中，技巧确定单元可基于第一起始点和第二起始点来确定技巧。

技巧确定单元可基于音量的变化与音高的变化之间的相关性来确定技巧。

技巧确定装置还可包括评价单元，其基于技巧确定单元确定的技巧来计算输入声的评价值。

根据本发明的一个实施例，提供了一种程序，该程序使得计算机执行以下处理，所述处理包括：采集输入声；基于输入声而按照时序来检测音高；基于输入声而按照时序来检测音量；针对每个预定时段确定检测到的音量的变化是否等于或大于预定阈值，并且检测其中音量的变化等于或大于所述阈值的时段的起始点作为第一起始点；以及基于检测到的第一起始点之后的音量的改变和第一起始点之后的音高的变化，来确定输入声的技巧。

[发明的有益效果]

根据本发明的一个实施例，可正确地确定输入声的技巧。

附图说明

图1是示出根据本发明的一个实施例的技巧确定装置1的结构的框图。

图2是示出本发明的一个实施例中的技巧确定功能和评价功能的结构的框图。

图3是用于描述本发明的一个实施例中的第一起始点的检测的概念的图。

图4中的(a)是用于描述本发明的一个实施例中的振动与下降确定的概念的图。

图4中的(b)是用于描述本发明的一个实施例中的振动与下降确定的概念的图。

图5中的(a)是用于描述本发明的一个实施例中的颤音确定的概念的图。

图5中的(b)是用于描述本发明的一个实施例中的颤音确定的概念的图。

图6中的(a)是用于描述本发明的一个实施例中的渐弱音确定的概念的图。

图6中的(b)是用于描述本发明的一个实施例中的渐弱音确定的概念的图。

图7中的(a)是用于描述本发明的一个实施例中的渐强音确定的概念的图。

图7中的(b)是用于描述本发明的一个实施例中的渐强音确定的概念的图。

图8是示出本发明的一个实施例中的技巧确定功能的修改示例的框图。

图9是用于描述本发明的一个实施例的修改示例中的第二起始点的检测的概念的图。

图10中的(a)是用于描述本发明的一个实施例的修改示例中的振动与下降确定的概念的图。

图10中的(b)是用于描述本发明的一个实施例的修改示例中的振动与下降确定的概念的图。

具体实施方式

在下文中，参照附图详细描述本发明的实施例中的技巧确定装置。下面描述的以下实施例仅是本发明的实施例的示例，并且本发明不被这些实施例限制。

<第一实施例>

参照附图详细描述本发明的第一实施例中的技巧确定装置。根据第一实施例的技巧确定装置是一种包括确定歌唱用户(下文中可称作歌手)的歌声的功能的装置。该技巧确定装置按照时序检测歌声的音高和音量，并且基于音量的改变和音高的变化确定特定技巧。

[硬件]

图1是示出本发明的第一实施例中的技巧确定装置10的结构的框图。例如，技巧确定装置1是包括歌唱分级功能的卡拉OK装置。技巧确定装置10包括控制单元11、存储单元13、操作单元15、显示单元17、通信单元19和信号处理单元21。声输入单元(例如，麦克风)23和声输出单元(例如，扬声器)25连接至信号处理单元21。这些结构经总线互相连接。

控制单元11包括诸如CPU的算术处理电路。控制单元11通过CPU执行存储在存储单元13中的控制程序13a，以在技巧确定装置10上实现各种功能。待实现的功能包括歌唱技巧确定功能。另外，待实现的功能可包括基于通过技巧确定而确定的技巧的歌唱评价功能。

存储单元13是诸如非易失性存储器或硬盘的存储装置。存储单元13存储用于实现技巧确定功能的控制程序13a。控制程序13a可包括歌唱评价功能。可按照存储在诸如磁记录介质、光学记录介质、光磁记录介质或半导体存储器的计算机可读记录介质中的状态提供控制程序13a。在这种情况下，仅要求技巧确定装置10包括读记录介质的装置。另外，可经诸如互联网的网络下载控制程序13a。

另外，存储单元13存储音乐作品数据13b和歌声数据13c作为关于歌唱的数据。另外，存储单元13可存储评价参考数据13d。音乐作品数据13b包括关于卡拉OK歌曲的数据，例如，引导旋律数据、伴奏数据和歌词数据等。引导旋律数据是指示歌曲的旋律的数据。伴奏数据是指示歌曲的伴奏的数据。引导旋律数据和伴奏数据可为用MIDI格式表示的数据。歌词数据是使得歌曲的歌词显示出来的数据和指示改变显示的歌词字幕的颜色的时间的数据。歌声数据13c是与歌手输入至声输入单元23的歌声对应的数据。在当前实施例中，在通过技巧确定功能确定歌声之前，将歌声数据13c存储在存储单元13中。评价参考数据13d是评价功能作为评价歌声的参考而使用的信息，并且可为预先与指示待评价的歌曲(当输入歌声时被输出的歌曲)的音乐作品数据关联的参考声数据。

操作单元15是诸如设置在操作面板和遥控器上的操作按钮、键盘、鼠标的装置，根据输入操作将信号输出至控制单元11。显示单元17是其中基于控制单元11的控制显示画面的诸如液晶显示器、有机EL显示器等的显示装置。注意，可使用操作单元15和显示单元17集成在一起的触摸面板装置。通信单元19基于控制单元11的控制连接至诸如互联网或LAN的通信线，以将信息发送至诸如服务器的外部装置和从其接收信息。注意，存储单元13的功能可通过能够与通信单元19进行通信的外部装置来实现。

信号处理单元21包括从MIDI格式的信号产生音频信号的声源、A/D转换器、D/A转换器等。歌声通过声输入单元23转换为输入至信号处理单元21的电信号。在信号处理单元21中，对信号进行A/D转换，并且将其输出至控制单元11。歌声存储在存储单元13中，作为歌声数据13c。另外，通过控制单元11读伴奏数据，在信号处理单元21中对其进行D/A转换，并且将其从声输出单元25输出，作为歌曲的伴奏。这里，可从声输出单元25输出引导旋律。

[技巧确定功能]

对通过执行存储在存储单元13中的控制程序13a的技巧确定装置10的控制单元11实现的技巧确定功能进行描述。注意，实现下面描述的技巧确定功能的一部分或全部结构来可通过硬件实现。

图2是示出本发明的第一实施例的技巧确定功能100的结构的框图。参照图2，技巧确定功能100包括输入声采集单元103、音高检测单元105、音量检测单元107、起始点检测单元109和技巧确定单元111。

输入声采集单元103采集与输入至声输入单元23的歌声对应的歌声数据(输入声)。注意，输入声采集单元103直接从信号处理单元21采集歌声数据，但是可采集曾存储在存储单元13中的歌声数据。另外，输入声采集单元103不限于采集指示到达声输入单元23的输入声的歌声数据，并且可通过通信单元19经网络采集指示到达外部装置的输入声的歌声数据。在当前实施例中，输入声采集单元103按次序输出在重播音乐作品数据期间按次序输入的歌声数据。

音高检测单元105基于输入声采集单元103采集的歌声数据而按照时序来检测歌声的音高。也就是说，音高检测单元105针对每一帧(以预定时段划分的每个数据样本)检测当由歌声数据指示的语音信号的波形从负改变为正时的零点交叉(zero cross)，并且测量这些零点交叉之间的时间间隔，以指定歌声的音高(频率)。这里，从该语音信号中，可通过低通滤波器去除作为噪声分量的高频分量或者可通过高通滤波器去除直流分量。另外，音高检测单元105可根据通过对歌声数据执行FFT(快速傅立叶变换)获得的频谱中指定音高。音高检测单元105基于时序将指示按照上述方式检测到的音高的信息输出至技巧确定单元111。

音量检测单元107基于通过输入声采集单元103采集的歌声数据而按照时序检测歌声的音量。音量检测单元107基于歌声数据来检测歌声的音量(音量波形)的时间变化。在当前实施例中，音量检测单元107基于由歌声数据指示的语音信号的振幅来检测音量。音量检测单元107基于时序将指示检测到的音量的数据输出至起始点检测单元109。

起始点检测单元109基于指示通过音量检测单元107检测的音量的数据针对每一帧(以预定时段划分的各个数据样本)确定音量的变化是否等于或大于预定阈值ΔVth。当连续地检测到其中音量的变化等于或大于预定阈值ΔVth的预定数量的帧或更多帧(例如，两帧或更多帧)时，起始点检测单元109识别其中音量的变化等于或大于预定阈值Vth的所述多个帧作为音量改变时段，并且检测构造音量改变时段的所述多个帧中的第一帧的起始点作为音量改变的起始点(第一起始点)。起始点检测单元109将指示检测到的音量改变的起始点的数据输出至技巧确定单元111。

技巧确定功能100可包括伴奏输出单元101，其读取与歌手指定的歌曲对应的伴奏数据并且使得伴奏声经信号处理单元21从声输出单元25输出。在这种情况下，在输出伴奏声的时段中到达声输入单元23的输入声被识别为待确定的歌声。

图3是用于描述检测通过起始点检测单元109执行的起始点的概念的图。图3示出了指示歌声的音量按照时序的音量波形，竖直轴表示音量(V)，水平轴表示时间(T)。在图3中，示出了帧f_n-1至f_n+6。帧f的长度为任意的。起始点检测单元109确定帧fn-1至fn+6中的每一个的音量的变化是否等于或大于预定阈值ΔVth。例如，当帧f_n、f_n+1、f_n+2、f_n+3和f_n+4中的每一个的音量的变化等于或大于预定阈值ΔVth(ΔVn≥ΔVth、ΔVn+1≥ΔVth、ΔVn+2≥ΔVth、ΔVn+3≥ΔVth并且ΔVn+4≥ΔVth)时，起始点检测单元109识别出帧f_n至f_n+4(也就是说，帧f_n的起始点t1至帧f_n+4的终止点t6)作为音量改变时段，并且检测作为形成音量改变时段的帧f_n至f_n+4中的初始帧的帧f_n的起始点t1作为音量改变的起始点(第一起始点)。

技巧确定单元111基于由起始点检测单元109检测到的第一起始点t1(音量改变的起始点)之后的音量的改变和音量改变的起始点之后的音高的变化确定歌声的技巧。例如，技巧确定单元111确定振动与下降(Nuki)、颤音、渐强音和渐弱音，作为歌唱技巧。

图4示出了用于描述通过技巧确定单元111执行的振动与下降(Nuki)确定的概念的图。振动与下降(Nuki)是在音量减小的情况下使音高振动的技巧。图4中的(a)示出了歌声的音高波形的一个示例。在图4中的(a)中，竖直轴表示音高(P)，并且水平轴表示时间(T)。图4中的(b)示出了与图4中的(a)对应的歌声的音量波形的示例。在图4中的(b)中，竖直轴表示音量(V)，并且水平轴表示时间(T)。在图4中的(a)和图4中的(b)中，按照时序示出了相同时段中的音高波形和音量波形。在图4中的(b)中，由起始点检测单元109检测到的第一起始点(音量改变的起始点)被视为t1，并且从t1至t6的时段被视为音量改变时段。技巧确定单元111可定义第一起始点(音量改变的起始点)t1之后的音量改变时段中的预定时段的至少一部分作为检测区段，并且可确定当音高以超过预先在检测区段中定义的预定宽度(ΔPw)而竖直地振动时的第一起始点t1之后的歌声中包括振动与下降(Nuki)。例如，如图4中的(b)所示，预定时段(检测时段)可从当音量从第一起始点(音量改变起始点)t1的减小变得等于或大于预定值(ΔVa)时的点t4(检测时段的起始点)至音量改变时段的终止点t6。当音高以超过预先在从t4至t6的检测区段中定义的预定宽度(ΔPw)而竖直地振动时，技巧确定单元111可确定在第一起始点t1之后的歌声中包括振动与下降(Nuki)。注意，检测时段的设置不限于上述示例。

仅要求检测时段是在上述第一起始点t1之后的音量改变时段中的至少预定部分时段，并且可将音量改变时段的整个时段(t1至t6)设为检测时段。当技巧确定单元111确定在歌声中包括振动与下降(Nuki)时，如果音高在第一起始点t1之后的音量减小的期间(也就是说，图4中的(b)中的音量改变时段(从t1至t6的时段))以超过预先定义的预定宽度(ΔPw)竖直地振动，则技巧确定单元111可确定在第一起始点t1之后的歌声中包括振动与下降(Nuki)。例如，如果在音量改变时段的整个时段中存在超过预先定义的预定宽度的音高的振动，则可确定在第一起始点t1之后的歌声中包括振动与下降(Nuki)。

图5示出了用于描述通过技巧确定单元111执行的颤音确定的概念的图。颤音是一种主要使音高振动的技巧。图5中的(a)示出了歌声的音高波形的一个示例。在图5中的(a)中，竖直轴表示音高(P)，并且水平轴表示时间(T)。图5中的(b)示出了与图5中的(a)对应的歌声的音量波形的示例。在图5中的(b)中，竖直轴表示音量(V)，并且水平轴表示时间(T)。在图5中的(a)和图5中的(b)中，按照时序示出了相同时段中的音高波形和音量波形。图5中的(b)所示的歌声的音量波形不包括音量改变时段。也就是说，图5中的(b)示出了当从t0至t8未检测到其中音量的变化等于或大于预定阈值ΔVth的帧时的歌声的音量波形。如图5所示，当音高在非音量改变时段的时段中以超过预先定义的预定宽度(ΔPw)周期性地变化时，技巧确定单元111确定音高的变化源于颤音，并且歌声中包括颤音。

注意，虽然图5中的(b)示出了在不包括音量改变时段的时段中的歌声的音量波形，但是与音高的振动同步，颤音可伴随有等于或大于预定阈值ΔVth的音量的变化。也就是说，在非音量改变时段的时段中，颤音不限于超过音高的预定宽度(ΔPw)的周期性变化。在其中存在与音高的振动同步的音量的变化的音量改变时段中，当音高以超过预先定义的预定宽度(ΔPw)而周期性地变化时，技巧确定单元111可确定歌声中包括颤音。

图6示出了用于描述通过技巧确定单元111执行的渐弱音确定的概念的图。图6中的(a)示出了歌声的音高波形的一个示例。在图6中的(a)中，竖直轴表示音高(P)，并且水平轴表示时间(T)。图6中的(b)示出了与图6中的(a)对应的歌声的音量波形的示例。在图6中的(b)中，竖直轴表示音量(V)，并且水平轴表示时间(T)。在图6中的(a)和图6中的(b)中，按照时序示出了相同时段中的音高波形和音量波形。在图6中的(b)中，通过起始点检测单元109检测到的第一起始点(音量改变的起始点)被视为t1，并且从t1至t6的时段被视为音量改变时段。如图6所示，当第一起始点t1之后的音量减小，并且在第一起始点t1之后的音量改变时段中不存在超过预先定义的预定宽度(ΔPw)的音高的周期性变化(不存在音高的变化)，技巧确定单元111确定在第一起始点t1之后的歌声中包括渐弱音。

图7示出了用于描述通过技巧确定单元111执行的渐强音确定的概念的图。图7中的(a)示出了歌声的音高波形的一个示例。在图7中的(a)中，竖直轴表示音高(P)，并且水平轴表示时间(T)。图7中的(b)示出了与图7中的(a)对应的歌声的音量波形的示例。在图7中的(b)中，竖直轴表示音量(V)，并且水平轴表示时间(T)。在图7中的(a)和图7中的(b)中，按照时序示出了相同时段中的音高波形和音量波形。在图7中的(b)中，通过起始点检测单元109检测到的第一起始点(音量改变的起始点)被视为t1，并且从t1至t6的时段被视为音量改变时段。如图7所示，当第一起始点t1之后的音量增大并且在第一起始点t1之后的音量改变时段中不存在超过预先定义的预定宽度(ΔPw)的音高的周期性变化(不存在音高的变化)时，技巧确定单元111确定在第一起始点t1之后的歌声中包括渐强音。

如上所述，第一实施例中的技巧确定装置10从输入的歌声数据中按照时序来检测音高和音量，并且基于音量的变化(音量的改变)和音高的变化(也就是说，基于音量的变化(音量的改变)与音高的变化之间的相关性)来确定特定技巧。可针对每个预定帧通过少量算术操作执行从检测音高和音量至技巧确定的一系列处理，因此，不需要歌声数据的积累和机器学习。这允许在减少算术操作的量的同时实时地正确地确定特定技巧。

<修改示例>

虽然上面描述了本发明的实施例，但是本发明不限于上述实施例，而是可按照其它各种模式实施。下面描述其它模式的示例。

(第一修改示例)

作为通过技巧确定装置10实现的功能，除上述歌唱技巧确定功能100之外，可包括基于通过技巧确定而确定的技巧的歌唱评价功能。在下文中，描述了通过执行存储在存储单元13中的控制程序13a的技巧确定装置10的控制单元11实现的评价功能200。实现评价功能200的结构的一部分或整体可通过硬件实现。

在图2中，与技巧确定功能100一起，还示出了评价功能200，其基于由技巧确定功能100确定的技巧来对歌唱执行评价。参照图2，评价功能200包括技巧采集单元201、音高采集单元203、音量采集单元205、参考数据采集单元207、比较单元209和评价单元211。

技巧采集单元201采集指示技巧确定功能100中的技巧确定单元111确定的歌声的技巧的数据，并且将采集的数据输出至比较单元209。音高采集单元203按照时序采集指示通过技巧确定功能100中的音高检测单元105检测到的音高的数据，并且将采集的数据输出至比较单元209。音量采集单元205按照时序采集指示通过技巧确定功能100中的音量检测单元107检测到的歌声的音量的数据，并且将采集的数据输出至比较单元。参考数据采集单元207读取和采集与存储在存储单元13中的歌声对应的评价参考数据13d，并且将采集的数据输出至比较单元209。注意，评价参考数据13d仅需要用于指示声音作为评价的参考，因此可不需要用于指示语音作为歌唱的良好示例。

比较单元209将指示歌声的音高的采集的数据、歌声的音量的数据以及指示歌声的技巧的数据与歌声对应的评价参考数据13d进行比较。比较单元209可按照时序将指示歌声的音高的采集的数据与包括在评价参考数据13d中的参考音高数据进行比较，可按照时序将指示歌声的音量的采集的数据与包括在评价参考数据13d中的参考音量数据进行比较，或者可将指示歌声的技巧的采集的数据与包括在评价参考数据13d中的参考歌唱技巧数据进行比较。例如，关于诸如振动与下降(Nuki)和颤音的技巧，比较单元209可针对频率的标准差、频率的平均值、音高的振幅的平均值、音高的振幅的标准差、音高的振幅的线性逼近直线的斜率等将采集的歌声的技巧与包括在评价参考数据13d中的参考歌唱技巧进行比较。比较单元209将比较结果输出至评价单元211。

评价单元211基于从比较单元209输出的比较结果计算评价值，作为歌声的评价指数。随着指示歌手的歌声的音高的数据、指示歌声的音量的数据和指示歌声的技巧的数据以及它们对应的歌声的评价参考数据13d之间的匹配度变高，评价单元211计算更高的评价值，并且随着失配度变高，计算更低的评价值。另外，对于诸如振动与下降(Nuki)或颤音的高难度的技巧，当歌手的歌声与歌声的评价参考数据13d之间的匹配度高时，评价单元211可提供加权值。注意，当评价歌唱中的技巧时，评价单元211不用将歌手的歌声与评价参考数据13d进行比较。例如，当在歌唱中检测到预定技巧时，评价单元211可按照时序将加权值提供至评价值，而不管技巧检测位置如何。评价单元211的评价结果可显示在显示单元17上。

(第二修改示例)

在上述实施例中，在技巧确定功能100中，技巧确定单元111基于起始点检测单元109检测到的第一起始点(音量改变的起始点)之后的音量改变时段中存在或不存在音高的变化来确定歌声中的振动与下降(Nuki)技巧。然而，当检测音量改变时段中的音高的变化的起始点作为第二起始点并且第一起始点(音量改变的起始点)与第二起始点(音高的变化的起始点)之间的差在预定时段范围内时，技巧确定单元111可确定在音量改变时段中在歌声中包括振动与下降(Nuki)。

图8是示出本发明的第一实施例的修改示例中的技巧确定功能100a的结构的框图。参照图8，技巧确定功能100a包括输入声采集单元103、音高检测单元105、音量检测单元107、第一起始点检测单元109a、技巧确定单元111a和第二起始点检测单元113。技巧确定功能100a中的输入声采集单元103、音高检测单元105和音量检测单元107与上述技巧确定功能100中的那些相似，因此省略了对它们的描述。另外，第一起始点检测单元109a与技巧确定功能100中的起始点检测单元109相似，因此省略对其的描述。技巧确定功能100a可包括读取与歌手指定的歌曲音乐作品对应的伴奏数据并将伴奏声经信号处理单元21从声输出单元25输出的伴奏输出单元101。

技巧确定功能100a中的第二起始点检测单元113针对指示通过音高检测单元105检测到的音高的数据来检测音高是否以超过预先定义的预定宽度而周期性地变化。第二起始点检测单元113当检测音高的周期性变化时指定其中检测音高的周期性变化的时段作为音高变化时段，并且检测音高变化时段的起始点作为第二起始点。第二起始点检测单元113将检测到的起始点输出至技巧确定单元111a。

图9是用于描述第二起始点检测单元113中的第二起始点检测的概念的图。图9示出了按照时序指示歌声的音高的音高波形，竖直轴表示音高(P)，水平轴表示时间(T)。第二起始点检测单元113检测其中音高以超过预先定义的预定宽度(ΔPw)而周期性地变化的区段。通过举例的方式，第二起始点检测单元113针对指示通过音高检测单元105检测到的音高的数据和针对每个帧(以预定时段划分的各个数据样本)确定每个帧中的音高的变化是否超过预先定义的预定宽度(ΔPw)。当检测到其中音高的变化超过预先定义的预定宽度(ΔPw)的预定数量的帧或更多帧(例如，两帧或更多帧)时，第二起始点检测单元113检测其中音高的变化超过预先定义的预定宽度(ΔPw)的所述多个帧作为其中音高以超过预先定义的预定宽度(ΔPw)而周期性地变化的区段。在图9中，示出了帧f_n-1至f_n+5。帧f的长度为任意的。参照图9，第二起始点检测单元113可检测帧f_n-1至f_n+3，作为其中音高的变化超过预先定义的预定宽度(ΔPw)的帧，以及作为其中音高以超过预先定义的预定宽度(ΔPw)而周期性地变化的区段。

接着，第二起始点检测单元113在其中音高以超过预先定义的预定宽度(ΔPw)而周期性地变化的区段中检测音高的最大值(Pmax)和最小值(Pmin)，并且计算最大值(Pmax)与最小值(Pmin)之间的中间值作为参考值(Pref)。接着，在其中音高以超过预先定义的预定宽度(ΔPw)而周期性地变化的区段中，第二起始点检测单元113检测当音高匹配参考值(Pref)时的定时。例如，在图9中，可指定当音高具有参考值(Pref)时的时间(也就是说，时间t9至t17)作为当音高具有参考值(Pref)时的定时。接着，第二起始点检测单元113测量其中出现当音高具有参考值(Pref)的定时的时间间隔，并且指定一个区段作为音高变化时段，在该区段中，(1)测量到的时间间隔在预先预定的范围内、(2)连续预定次数或更多次(例如，三次或更多次)检测到当音高具有参考值(Pref)时的定时以及(3)音高以超过预定宽度(ΔPw)而周期性地变化的。作为音高变化时段的起始点(第二起始点)，按照时序，当在音高变化时段中音高具有参考值(Pref)时的第一定时被视为音高变化时段的起始点(第二起始点)。另外，作为音高变化时段的终止点，按照时序，当在音高变化时段中音高具有参考值(Pref)时的最后定时被视为音高变化时段的终止点。例如，在图9中，指定从t10至t17的时段作为音高变化时段，作为音高变化的起始时段的第二起始时段是t10，并且音高变化的终止点是t17。注意，在图9中，t9与t10之间的间隔不在预先定义的范围内。第二起始点检测单元113按照上述方式检测音高变化的起始点作为第二起始点，并且将指示检测到的第二起始点的数据输出至技巧确定单元111a。

注意，上述检测音高变化时段的方法仅是示例，并且不意味着限制。作为检测音高变化时段的方法的另一示例，例如，参照具有100音分的可变音高的引导旋律，可检测指示音高(当音高从负改变为正或从正改变为负的定时)的数据的零点交叉点，可测量到其中出现零点交叉点的时间间隔，并且可指定这样的区段作为音高变化时段，在该区段中，(1)测量到的时间间隔在预先预定的范围内、(2)预定次数或更多次(例如，三次或更多次)连续地检测到零点交叉点以及(3)音高以超过预定宽度(ΔPw)而周期性地变化。在这种情况下，作为音高变化时段的起始点(第二起始点)，在其中音高超过预先定义的预定宽度(ΔPw)的区段中，可将从按照时序的第一音高峰(音高的振幅参照0音分变得最大)的时间点开始的预先定义的时段中并且按照时序当出现第一零点交叉时的时间点视为音高变化时段的起始点(第二起始点)。另外，作为音高变化时段的终止点，在其中音高超过预先定义的预定宽度(ΔPw)的区段中，可将从按照时序的最后一个音高峰(音高的振幅参照0音分变得最大)的时间点开始的预先定义的时段中并且按照时序当出现最后一个零点交叉时的时间点视为音高变化时段的终止点。

技巧确定单元111a基于通过第一起始点检测单元109a检测到的第一起始点(音量改变的起始点)之后的音量的改变和第一起始点之后的音高的变化确定歌声的技巧。具体地说，除第一起始点之后的音量的改变和第一起始点之后的音高的变化以外，当技巧确定单元111a确定振动与下降(Nuki)作为歌唱技巧时，技巧确定单元111a使用由第二起始点检测单元113检测到的第二起始点(音高的变化的起始点)。在下文中，描述了通过技巧确定单元111a的振动与下降(Nuki)确定。注意，通过技巧确定单元111a对颤音、渐弱音和渐强音的确定与通过技巧确定单元111对它们的确定相似，并且因此省略它们的描述。

图10示出了用于描述通过技巧确定单元111执行的振动与下降(Nuki)确定的概念的图。图10中的(a)示出了歌声的音高波形的一个示例。在图10中的(a)中，竖直轴表示音高(P)，并且水平轴表示时间(T)。图10中的(b)示出了与图10中的(a)对应的歌声的音量波形的示例。在图10中的(b)中，竖直轴表示音量(V)，并且水平轴表示时间(T)。在图10中的(a)和图10中的(b)中，按照时序示出了相同时段中的音高波形和音量波形。在图10中的(a)中，第二起始点检测单元113检测到的第二起始点(音高的变化的起始点)被视为t10，并且从t10至t17的时段被视为音高变化时段。另外，在图10中的(b)中，由第一起始点检测单元109a检测到的第一起始点(音量改变的起始点)被视为t1，并且采用从t1至t6的音量改变时段。在该示例中，假设图10中的(a)中的t10与图10中的(b)中的t3匹配。

如图10所示，当第一起始点t1之后的音量减小时，在第一起始点t1之后的音高以超过预先定义的预定宽度(在这种情况下，ΔPw)而竖直地振动，并且第一起始点t1和第二起始点t10在预定时段的范围内，技巧确定单元111a确定在第一起始点t1之后的歌声中包括振动与下降(Nuki)。也就是说，当确定在歌声中包括振动与下降(Nuki)时，如果在第一起始点t1之后的音量减小的过程中(也就是说，在图10中的(b)中的音量改变时段(从t1至t6的时段)中)音高以超过预先定义的预定宽度ΔPw而竖直地振动，并且第二起始点(t10＝t3)在从第一起始点(t1)开始的预定时间间隔内，则可确定在第一起始点t1之后的歌声中包括振动与下降(Nuki)。

按照这种方式，除音量改变的起始点(第一起始点)之后的音量的改变和音量改变的起始点之后的音高的变化之外，当确定振动与下降(Nuki)在歌声中时，使用音高的变化的起始点(第二起始点)，从而进一步提高振动与下降(Nuki)确定的精度。

在上文中，已描述了这样的示例，在该实施例中，在音量改变时段中当音高以超过预先定义的预定宽度(ΔPw)而竖直地振动，并且第一起始点(音量改变的起始点)与第二起始点(音高的变化的起始点)之间的差在预定时段的范围内时，技巧确定单元111确定在音量改变时段中的歌声中包括振动与下降(Nuki)。然而，本发明不限于该示例。例如，如参照图4中的(a)和图4中的(b)所述，当第一起始点(音量改变的起始点)之后的音量改变时段中的至少预定部分时段定义为检测区段时，在检测区段中，音高以超过预先定义的预定宽度(ΔPw)而竖直地振动，并且检测时段的起始点与第二起始点(音高的变化的起始点)之间的差在预定时段的范围内，技巧确定单元111可确定在第一起始点t1之后的歌声中包括振动与下降(Nuki)。

在上述技巧确定功能100和100a中，由输入声采集单元103采集的歌声数据指示的声音不限于歌手的语音，而可为通过歌唱合成的语音或乐器声。当声音是乐器声时，单声的音乐演奏是优选的。注意，当声音是乐器声时，辅音和元音的概念是不存在的，但是根据音乐演奏方法，每个声音的发声起始点处都有类似于歌唱的趋势。因此，即使在乐器声的情况下，也可以进行类似的确定。

根据本领域技术人员基于作为本发明的实施例描述并且包括本发明的要点的结构的理解，通过添加组件、删除组件或组件的设计改变或者通过添加处理、省略处理或处理的条件改变所获得的那些也被包括在本发明的范围内。

此外，即使与上述实施例的模式所带来的操作和效果不同但从本说明书的描述中显而易见并且可以被本领域技术人员容易预测的其他操作和效果也被解释为是自然由本发明启示的。

[附图标记列表]

10：技巧确定装置

11：控制单元

13：存储单元

15：操作单元

17：显示单元

19：通信单元

21：信号处理单元

23：声输入单元

25：声输出单元

100、100a：技巧确定功能

101：伴奏输出单元

103：输入声采集单元

105：音高检测单元

107：音量检测单元

109：起始点检测单元

109a：第一起始点检测单元

111、111a：技巧确定单元

113：第二起始点检测单元

200：评价功能

201：技巧采集单元

203：音高采集单元

205：音量采集单元

207：参考数据采集单元

209：比较单元

211：评价单元

Claims

1.一种技巧确定装置，包括：

输入声采集单元，其采集输入声；

音高检测单元，其基于由所述输入声采集单元采集的输入声而按照时序来检测音高；

音量检测单元，其基于由所述输入声采集单元采集的输入声而按照时序来检测音量；

第一起始点检测单元，其针对每个预定时段确定由所述音量检测单元检测到的音量的变化是否等于或大于预定阈值，并且检测其中音量的变化等于或大于所述阈值的时段的起始点作为第一起始点；以及

技巧确定单元，其基于由所述第一起始点检测单元检测到的第一起始点之后的音量的改变和所述第一起始点之后的音高的变化，来确定所述输入声的技巧。

2.根据权利要求1所述的技巧确定装置，其中，

所述技巧确定单元基于所述第一起始点之后的预定时段中的音高的变化来确定所述技巧。

3.根据权利要求1所述的技巧确定装置，还包括第二起始点检测单元，该第二起始点检测单元检测其中通过所述音高检测单元检测到的音高以超过预定宽度而周期性地变化的音高变化时段的起始点作为第二起始点，其中，

所述技巧确定单元基于所述第一起始点和所述第二起始点来确定所述技巧。

4.根据权利要求1至3中的任一项所述的技巧确定装置，其中

所述技巧确定单元基于所述音量的变化与所述音高的变化之间的相关性来确定所述技巧。

5.根据权利要求1所述的技巧确定装置，还包括：评价单元，其基于所述技巧确定单元确定的技巧来计算所述输入声的评价值。

6.一种计算机可读记录介质，其上记录有使得计算机执行以下处理的程序，所述处理包括：

采集输入声；

基于所述输入声而按照时序来检测音高；

基于所述输入声而按照时序来检测音量；

针对每个预定时段确定检测到的音量的变化是否等于或大于预定阈值，并且检测其中音量的变化等于或大于所述阈值的时段的起始点作为第一起始点；以及

基于检测到的第一起始点之后的音量的改变和所述第一起始点之后的音高的变化，来确定所述输入声的技巧。