CN116171472A - 信息处理装置、信息处理方法和程序 - Google Patents
信息处理装置、信息处理方法和程序 Download PDFInfo
- Publication number
- CN116171472A CN116171472A CN202180063454.1A CN202180063454A CN116171472A CN 116171472 A CN116171472 A CN 116171472A CN 202180063454 A CN202180063454 A CN 202180063454A CN 116171472 A CN116171472 A CN 116171472A
- Authority
- CN
- China
- Prior art keywords
- data
- evaluation
- user input
- input data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 64
- 238000003672 processing method Methods 0.000 title claims description 12
- 238000011156 evaluation Methods 0.000 claims abstract description 254
- 238000000034 method Methods 0.000 claims description 47
- 238000000605 extraction Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 25
- 238000000926 separation method Methods 0.000 claims description 25
- 239000000284 extract Substances 0.000 claims description 17
- 230000008569 process Effects 0.000 description 24
- 238000004891 communication Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 230000008859 change Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 238000013075 data extraction Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 102100035353 Cyclin-dependent kinase 2-associated protein 1 Human genes 0.000 description 2
- 102100029860 Suppressor of tumorigenicity 20 protein Human genes 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/04—Sound-producing devices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/056—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/091—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/155—Musical effects
- G10H2210/195—Modulation effects, i.e. smooth non-discontinuous variations over a time interval, e.g. within a note, melody or musical transition, of any sound parameter, e.g. amplitude, pitch, spectral response, playback speed
- G10H2210/201—Vibrato, i.e. rapid, repetitive and smooth variation of amplitude, pitch or timbre within a note or chord
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2230/00—General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
- G10H2230/005—Device type or category
- G10H2230/015—PDA [personal digital assistant] or palmtop computing devices used for musical purposes, e.g. portable music players, tablet computers, e-readers or smart phones in which mobile telephony functions need not be used
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
本发明适当地生成评价数据以与用户输入数据进行比较。信息处理装置具有比较单元,该比较单元将基于第一用户输入数据生成的评价数据与第二用户输入数据进行比较。
Description
技术领域
本公开内容涉及信息处理装置、信息处理方法和程序。
背景技术
已知一种对根据用户的动作输入的数据(下文中称为用户输入数据)进行评价的装置。例如,下面的专利文献1描述了一种对根据用户的歌唱获得的用户歌唱数据进行评价的歌唱评价装置。
引文列表
专利文献
专利文献1:日本专利申请特许公开第2001-117568号
发明内容
本发明要解决的问题
在该领域中,期望执行用于适当地评价用户输入数据的处理。
本公开内容的目的是提供执行用于适当地评价用户输入数据的处理的信息处理装置、信息处理方法和程序。
问题的解决方案
本公开内容提供了例如一种信息处理装置,包括:比较单元,其将基于第一用户输入数据生成的评价数据与第二用户输入数据进行比较。
本公开内容提供了例如一种信息处理方法,其中,比较单元将基于第一用户输入数据生成的评价数据与第二用户输入数据进行比较。
本公开内容提供了例如一种用于使计算机执行信息处理方法的程序,其中,比较单元将基于第一用户输入数据生成的评价数据与第二用户输入数据进行比较。
本公开内容提供了例如一种信息处理装置,包括:特征量提取单元,其提取用户输入数据的特征量;以及评价数据生成单元,其基于用户输入数据的特征量生成用于评价用户输入数据的评价数据。
本公开内容提供了例如一种信息处理方法,其中,特征量提取单元提取用户输入数据的特征量,以及评价数据生成单元基于用户输入数据的特征量生成用于评价用户输入数据的评价数据。
本公开内容提供了例如一种用于使计算机执行信息处理方法的程序,其中,特征量提取单元提取用户输入数据的特征量,以及评价数据生成单元基于用户输入数据的特征量生成用于评价用户输入数据的评价数据。
附图说明
图1是示出根据第一实施方式的信息处理装置的配置示例的框图。
图2是示出根据第一实施方式的第一特征量提取单元的配置示例的框图。
图3是在描述根据第一实施方式的评价数据候选生成单元时要参考的图。
图4是示出根据第一实施方式的第二特征量提取单元的配置示例的框图。
图5是示出根据第一实施方式的评价数据生成单元的配置示例的框图。
图6A至图6C是在描述根据第一实施方式的评价数据生成单元时参考的图。
图7是示出根据第一实施方式的用户歌唱评价单元的配置示例的框图。
图8是用于描述根据第一实施方式的信息处理装置的操作示例的流程图。
图9是用于描述第二实施方式的图。
图10是用于描述第二实施方式的图。
具体实施方式
在下文中,将参照附图描述本公开内容的实施方式等。注意,将按照以下顺序给出描述。
<本公开内容中要考虑的问题>
<第一实施方式>
<第二实施方式>
<修改>
下面描述的实施方式等是本公开内容的优选具体示例,并且本公开内容的内容不限于这些实施方式等。
<本公开内容中要考虑的问题>
首先,为了便于理解本公开内容,将参考本公开内容的背景来描述本公开内容中要考虑的问题。
在用于娱乐的卡拉OK和用于改进演奏乐器的应用中,通常使用通过机器对用户的歌唱或演奏乐器进行自动地评价和评分的***。例如,用于评价乐器演奏的***的基本机制使用表示正确演奏的正确演奏数据作为评价数据,将正确演奏数据与从用户的演奏提取的用户演奏数据进行比较以测量匹配度,并且根据匹配度执行评价。
例如,在歌唱或者诸如吉他或小提琴的具有音高的乐器的情况下,可以将与要演奏的音乐的伴奏或节奏时间上同步的乐谱信息和音高时间轨迹信息用作正确的演奏数据,可以将从用户演奏的乐器声音中提取的音高轨迹用作用户演奏数据,计算正确的演奏数据与用户演奏数据之间的偏差程度,并且根据计算结果执行评价。此外,除了音高轨迹之外,指示音量的时间变化的音量轨迹信息可以用作正确的数据。此外,对于不具有可以由用户控制的音高的乐器(例如,鼓等),打击定时、打击的强度和音量的差异经常被用作用于评价的数据。
由于正确的演奏数据需要正确地表达面向用户的演奏,所以从原始音乐作品手动地执行音高等的注释,并且正确的演奏数据通常被存储为诸如乐器数字接口(MIDI)数据的乐谱信息。然而,需要大量劳动来手动创建正确的演奏数据(例如,顺序发布的大量新曲等),并且需要时间来评价演奏,或者通常从注释的目标中省略具有低优先级的音乐。
此外,在预先准备的正确演奏数据中,通常不可能表达用户想要的原始音乐作品的演奏。例如,在具有合唱(和声)、小提琴二重奏等的歌曲中,需要确定用户正在演奏哪个部分,然后使用与用户正在演奏的部分对应的正确演奏数据。否则,无法正确评价用户的演奏。此外,在手动注释数据中,包括在原始音乐作品的演奏中的精细表达(例如,颤音、转调等)经常被省略,并且即使用户熟练地演奏这些表达,也难以评价这些表达。将考虑上述要点详细描述本公开内容的实施方式。
<第一实施方式>
[信息处理装置的配置示例]
图1是示出根据第一实施方式的信息处理装置(信息处理装置1)的配置示例的框图。根据本实施方式的信息处理装置1被配置为对根据用户的歌唱输入的用户歌唱数据进行评价的歌唱评价装置。
如图1所示,将原始音乐数据和用户歌唱数据输入至信息处理装置1。原始音乐数据是与用户歌唱数据类型相同的数据。原始音乐数据即,包括歌声信号和乐器的声音信号的混合声音数据,原始音乐数据经由网络或各种媒体被输入至信息处理装置1。注意,在图1中,未示出获取原始音乐数据的通信单元、媒体驱动器等。
用户的歌唱由诸如麦克风、骨传导传感器、加速度传感器等的传感器收集,然后由模数(AD)转换器转换成数字信号。注意,在图1中,未示出收集用户的歌唱的传感器和AD转换器。
信息处理装置1包括声源分离单元11、第一特征量提取单元12、评价数据候选生成单元13、第二特征量提取单元14、评价数据生成单元15、比较单元16、用户歌唱评价单元17和歌唱评价通知单元18。
声源分离单元11对作为混合声音数据的原始音乐数据执行声源分离。作为声源分离的方法,可以应用已知的声源分离方法。例如,作为声源分离的方法,可以应用本公开内容的申请人先前提出的WO2018/047643A中描述的方法、使用独立成分分析的方法等。通过由声源分离单元11执行的声源分离,将原始音乐数据分离成歌声信号和每个乐器的声源信号。歌声信号包括与多个部分(例如,主调部分、和声部分等)对应的信号。
第一特征量提取单元12提取经受声源分离单元11的声源分离的歌声信号的特征量。将所提取的歌声信号的特征量提供给评价数据候选生成单元13。
评价数据候选生成单元13基于由第一特征量提取单元12提取出的特征量,生成多个评价数据候选。将所生成的多个评价数据的候选提供给评价数据生成单元15。
数字信号的用户歌唱数据被输入至第二特征量提取单元14。第二特征量提取单元14计算用户歌唱数据的特征量。此外,第二特征量提取单元14提取与包括在用户歌唱数据中的歌唱表现(例如,颤音或震音)对应的数据(下文中称为歌唱表现数据)。由第二特征量提取单元14提取的用户歌唱数据的特征量被提供给评价数据生成单元15和比较单元16。此外,由第二特征量提取单元14提取的歌唱表现数据被提供给用户歌唱评价单元17。
评价数据生成单元15生成要与用户歌唱数据进行比较的评价数据(正确数据)。例如,评价数据生成单元15基于由第二特征量提取单元14提取的用户歌唱数据的特征量,通过从由评价数据候选生成单元13提供的多个评价数据候选中选择一个评价数据来生成评价数据。
比较单元16将用户歌唱数据与评价数据进行比较。更具体地,比较单元16将用户歌唱数据的特征量与基于用户歌唱数据的特征量生成的评价数据进行比较。将比较结果提供给用户歌唱评价单元17。
用户歌唱评价单元17基于比较单元16的比较结果和从第二特征量提取单元14提供的歌唱表现数据来评价用户的歌唱熟练度。用户歌唱评价单元17对评价结果进行评分,并且生成与评价结果对应的评论、动画等。
歌唱评价通知单元18是显示用户歌唱评价单元17的评价结果的装置。例如,歌唱评价通知单元18的示例包括显示器、扬声器及其组合。注意,歌唱评价通知单元18可以是与信息处理装置1分离的装置。例如,歌唱评价通知单元18可以是用户拥有的平板终端、智能电话或电视装置,或者可以是平板终端或设置在卡拉OK棒中的显示器。
注意,在本实施方式中,表达歌唱音高的歌唱F0(F零)被用作待评价的数值数据和评价数据。F0表示基本频率。此外,由于F0每次改变,所以以时间序列排列的每个时间的F0被适当地称为F0轨迹。例如,通过对F0的连续时间变化在时间方向上执行平滑处理来获得F0轨迹。例如,通过应用移动平均滤波器来执行平滑处理。
(第一特征量提取单元)
接下来,将描述信息处理装置1的每个单元的详细配置示例和要执行的处理。图2是示出第一特征量提取单元12的详细配置示例的框图。第一特征量提取单元12包括短时傅立叶变换单元121和F0似然计算单元122。
短时傅立叶变换单元121从经过AD转换处理的歌声信号的波形中切出特定长度,并且将诸如汉宁窗(Hanning Window)、汉明窗(Hamming Window)等的窗函数应用于切出的长度。该切出单元被称为帧。通过对一帧的数据应用短时傅立叶变换来计算歌声信号的每个时刻的短时帧频谱。注意,在要切出的帧之间可能存在交叠,并且以该方式,时间-频率域中的信号变化在连续帧之间被平滑。
F0似然计算单元122针对通过短时傅立叶变换单元121的处理获得的每个频谱来计算表示每个频率仓的F0相似度的F0似然。例如,可以将次谐波求和(SHS)应用于F0似然的计算。SHS是通过针对基本频率的每个候选计算谐波分量的功率之和来确定每个时刻处的基本频率的方法。另外,可以使用已知的方法,例如,通过鲁棒主成分分析从由短时傅立叶变换获得的频谱图中分离歌唱,以及针对所分离的歌唱使用SHS通过维特比(Viterbi)搜索来估计F0的方法等。将由F0似然计算单元122计算出的F0似然提供给评价数据候选生成单元13。
(评价数据候选生成单元)
评价数据候选生成单元13参考从F0似然计算单元122提供的F0似然,并且针对每个时刻提取F0的两个或更多个频率来生成评价数据的候选。下文中,将评价数据的候选适当地称为评价F0候选。
在提取了N个评价F0候选的情况下,评价数据候选生成单元13仅需要选择与前N个峰位置对应的频率。注意,N的值可以被预先设置,或者例如,可以被自动地设置为作为由声源分离单元11进行声源分离的结果而获得的歌声信号的部分的数量。
图3是用于描述评价F0候选的图。在图3中,水平轴表示频率,竖直轴表示由F0似然计算单元122计算出的F0似然。例如,如图3所示,在N=2的情况下,评价数据候选生成单元13将与F0似然度高的两个峰对应的频率(在图3的示例中,为约350Hz至650Hz)设置为评价F0候选。评价数据候选生成单元13将多个评价F0候选提供给评价数据生成单元15(见图1)。
(第二特征量提取单元)
图4是示出第二特征量提取单元14的详细配置示例的框图。第二特征量提取单元14包括提取用户歌唱数据F0(下文中称为歌唱F0)的歌唱F0提取单元141和歌唱表现数据提取单元142。
例如,歌唱F0提取单元141将用户歌唱数据划分为短时帧,并且通过已知的F0提取方法针对每个时间帧提取歌唱F0。作为已知的F0提取方法,可以应用“M.Morise:Harvest:Ahigh-performance fundamental frequency estimator from speech signals,inProc.INTERSPEECH,2017”或“A.Camacho and J.G.Harris,A.sawtooth waveforminspired pitch estimator for speech and music,J.Acoust.Soc.of Am.,2008”。提取的歌唱F0被提供给评价数据生成单元15和比较单元16。
歌唱表现数据提取单元142提取歌唱表现数据。例如,使用包括由歌唱F0提取单元141提取的若干帧的歌唱F0的歌唱F0轨迹来提取歌唱表现数据。作为从歌唱F0轨迹提取歌唱表现数据的方法,可以应用已知的方法,例如,基于原始歌唱F0轨迹与执行平滑处理之后的歌唱F0轨迹之间的差提取歌唱表现数据的方法、通过对歌唱F0执行FFT来检测颤音等的方法、通过绘制相位平面中歌唱F0轨迹来可视化诸如颤音等的歌唱表现数据的方法等。由歌唱表现数据提取单元142提取的歌唱表现数据被提供给用户歌唱评价单元17。
(评价数据生成单元)
图5是示出评价数据生成单元15的详细配置示例的框图。评价数据生成单元15包括第一八度音阶舍入处理单元151、第二八度音阶舍入处理单元152和评价F0选择单元153。
第一八度音阶舍入处理单元151执行将F0舍入到一个八度音阶的处理,以针对评价F0的每个候选正确地评价(允许)具有一个八度音阶差的歌唱。此处,可以通过以下式1和式2来执行对每个频率f[Hz]一个八度音阶的舍入处理。
[数学公式1]
[数学公式2]
通过将频率f舍入到从0到12的音符数(note numbers)来获得fround,并且floor()表示floor函数。
第二八度音阶舍入处理单元152对歌唱F0执行将F0舍入到一个八度音阶的处理,以正确地评价(允许)具有一个八度音阶差的歌唱。第二八度音阶舍入处理单元152执行与第一八度音阶舍入处理单元151类似的处理。
评价F0选择单元153基于歌唱F0从多个评价F0候选中选择评价F0。通常,用户唱歌以尽可能接近原始音乐数据的音高等,以获得高评价。例如,评价F0选择单元153基于前提从多个评价F0候选中选择与歌唱F0最接近的候选作为评价F0。
将参照图6A至图6C进行具体描述。在图6A至图6C中,水平轴表示时间,竖直轴表示音高。例如,在上述N的值为2的情况下,存在两个评价F0候选。在下文中,这样的两个候选被称为评价F0候选A1和评价F0候选A2。具体地,例如,评价F0候选A1是与主调部分对应的F0,而例如,评价F0候选A2是与和声部分对应的F0。注意,图6A至图6C示出指示在每个短时帧频谱中提取的F0的时间变化的轨迹。
在图6A中,线L1指示评价F0候选A1的时间轨迹,线L2指示评价F0候选A2的时间轨迹。
此处,在歌唱F0轨迹由图6B中的线L3指示的情况下,评价F0选择单元153选择接近线L3的线L1,即,评价F0候选A1作为评价F0。
此处,在歌唱F0轨迹由图6C中的线L4指示的情况下,评价F0选择单元153选择接近线L4的线L2,即,评价F0候选A2作为评价F0。如上所述,在本实施方式中,评价数据生成单元15通过对多个评价F0候选执行选择处理来生成评价F0。将评价F0提供给比较单元16。
(比较单元)
比较单元16将歌唱F0与评价F0进行比较,并且将比较结果提供给用户歌唱评价单元17。例如,比较单元16实时地比较针对每帧获得的歌唱F0和评价F0。
(用户歌唱评价单元)
图7是示出用户歌唱评价单元17的详细配置示例的框图。用户歌唱评价单元17包括F0偏差评价单元171、歌唱表现评价单元172和歌唱评价整合单元173。
比较单元16的比较结果(例如,歌唱F0相对于评价F0的偏差)被提供给F0偏差评价单元171。F0偏差评价单元171评价偏差。例如,在偏差大的情况下减小评价值,并且在偏差小的情况下增大评价值。F0偏差评价单元171将偏差的评价值提供给歌唱评价整合单元173。
由歌唱表现数据提取单元142提取的歌唱表现数据被提供给歌唱表现评价单元172。歌唱表现评价单元172评价歌唱表现数据。例如,在将颤音或震音提取为歌唱表现数据的情况下,歌唱表现评价单元172计算颤音或震音的大小、次数、稳定性等,并且将计算结果设置为加分要素。歌唱表现评价单元172将对歌唱表现数据的评价提供给歌唱评价整合单元173。
例如,当用户完成歌唱时,歌唱评价整合单元173对F0偏差评价单元171的评价和歌唱表现评价单元172的评价进行整合,并且计算关于用户的歌唱的最终歌唱评价。例如,歌唱评价整合单元173获得从F0偏差评价单元171提供的评价值的平均值,并且对所获得的平均值进行评分。然后,通过将从歌唱表现评价单元172提供的加分要素添加到分数而获得的值被设置为最终歌唱评价。歌唱评价包括关于用户的歌唱的分数、评论等。歌唱评价整合单元173输出与最终歌唱评价对应的歌唱评价数据。
注意,如何使用F0的偏差或歌唱表现来生成歌唱评价不限于上述方法,而是可以应用已知的算法。歌唱评价通知单元18执行与歌唱评价数据对应的显示(例如,分数显示)和音频再现(例如,评论再现)。
[信息处理装置的操作示例]
接下来,将参照图8的流程图来描述信息处理装置1的操作示例。当启动卡拉OK时,开始原始音乐数据的再现,并且用户开始歌唱。
当处理开始时,在步骤ST11中将原始音乐数据输入至信息处理装置1。然后,处理进行到步骤ST12。
在步骤ST12中,声源分离单元11对原始音乐数据执行声源分离。作为声源分离的结果,歌声信号与原始音乐数据分离。然后,处理进行到步骤ST13。
在步骤ST13中,第一特征量提取单元12提取歌声信号的特征量。将所提取的特征量提供给评价数据候选生成单元13。然后,处理进行到步骤ST14。
在步骤ST14中,评价数据候选生成单元13基于从第一特征量提取单元12提供的特征量生成多个评价F0候选。多个评价F0候选被提供给评价数据生成单元15。
与步骤ST15至步骤ST18相关的处理和与步骤ST11至步骤ST14相关的处理并行地执行。在步骤ST15中,通过麦克风等收集用户的歌唱,从而将用户歌唱数据输入至信息处理装置1。然后,处理进行到步骤ST16。
在步骤ST16中,第二特征量提取单元14提取用户歌唱数据的特征量。例如,歌唱F0被提取为特征量。所提取的歌唱F0被提供给评价数据生成单元15和比较单元16。
此外,在步骤ST17中,第二特征量提取单元14执行歌唱表现数据提取处理以提取歌唱表现数据。所提取的歌唱表现数据被提供给用户歌唱评价单元17。
在步骤ST18中,评价数据生成单元15执行评价数据生成处理。例如,评价数据生成单元15通过选择接近歌唱F0的评价F0候选来生成评价数据。然后,处理进行到步骤ST19。
在步骤ST19中,比较单元16将歌唱F0与由评价数据生成单元15选择的评价F0进行比较。然后,处理进行到步骤ST20。
在步骤ST20中,用户歌唱评价单元17基于由比较单元16获得的比较结果和用户歌唱表现数据来评价用户的歌唱(用户歌唱评价处理)。然后,处理进行到步骤ST21。
在步骤ST21中,歌唱评价通知单元18执行提供由用户歌唱评价单元17生成的歌唱评价的通知的歌唱评价通知处理。然后,该过程结束。
[效果]
根据本实施方式,例如,可以获得以下效果。
可以通过基于用户输入数据生成评价数据来适当地生成评价数据。因此,可以适当地评价用户输入数据。例如,即使在包括多个部分的情况下,也可以生成与用户歌唱的部分对应的评价数据,从而可以适当地评价用户的歌唱。因此,这可以关于歌唱评价防止用户感觉到不适。
在本实施方式中,基于用户输入数据实时地生成评价数据。因此,这消除了针对大量乐曲中的每一个预先生成评价数据的需要。因此,可以显著减少引入歌唱评价功能的劳动。
<第二实施方式>
接下来,将描述第二实施方式。注意,除非另外指定,否则对与第一实施方式的配置相同或类似的配置给出相同的附图标记,并且将适当地省略冗余描述。第二实施方式是其中将第一实施方式中描述的信息处理装置1的功能分布到多个装置的示意性实施方式。
如图9所示,本实施方式包括评价数据提供装置2和用户终端3。在评价数据提供装置2与用户终端3之间执行通信。通信可以是有线或无线的,但是在本实施方式中,假设是无线通信。无线通信的示例包括经由诸如因特网等的网络、局域网(LAN)、蓝牙(注册商标)、Wi-Fi(注册商标)等的通信。
评价数据提供装置2包括执行上述通信的通信单元2A。此外,用户终端3包括执行上述通信的用户终端通信单元3A。通信单元2A和用户终端通信单元3A包括对应于通信***的调制/解调电路、天线等
如图10所示,例如,评价数据提供装置2包括声源分离单元11、第一特征量提取单元12、评价数据候选生成单元13、第二特征量提取单元14以及评价数据生成单元15。此外,用户终端3包括比较单元16、用户歌唱评价单元17和歌唱评价通知单元18。
例如,用户歌唱数据被输入至用户终端3,并且用户歌唱数据经由用户终端通信单元3A被发送至评价数据提供装置2。用户歌唱数据由通信单元2A接收。评价数据提供装置2通过执行与第一实施方式的处理类似的处理来生成评价F0。然后,评价数据提供装置2经由通信单元2A将所生成的评价F0发送至用户终端3。
用户终端通信单元3A接收评价F0。用户终端3通过执行与第一实施方式的处理类似的处理来生成评价F0。用户终端3将用户歌唱数据与评价F0进行比较,并且通过执行与第一实施方式的处理类似的处理,基于比较结果和歌唱表现数据向用户通知歌唱评价。
例如,包括在用户终端3中的比较单元16和用户歌唱评价单元17的功能可以被提供为可以安装在用户终端3中的应用。
注意,在对用户的歌唱实时地执行上述处理的情况下,将用户歌唱数据存储在缓冲存储器等中,直到从评价数据提供装置2发送评价F0。
<修改>
尽管上面已经具体描述了本公开内容的实施方式,但是本公开内容不限于上述实施方式,并且可以基于本公开内容的技术构思进行各种修改。
在上述实施方式中,评价数据生成单元15通过从多个评价F0候选中选择预定的评价F0来生成评价数据,但并不限于该选择。例如,可以使用经过舍入处理的用户的歌唱F0从原始音乐数据和F0似然直接生成评价F0。例如,可以在执行对F0的搜索的范围被限制为执行舍入处理的用户的歌唱F0周围的范围(例如,约±3半音)的同时估计评价F0。作为估计评价F0的方法,例如,可以应用提取与其范围如上所述被限制为评价F0的F0似然的最大值对应的F0的方法或通过自相关方法从声学信号估计评价F0的方法。
在生成评价F0时所涉及的数据(第一用户输入数据)和待评价的数据(第二用户输入数据)是相同的数据,即,用户的歌唱F0,但是本发明不限于此。例如,第二用户输入数据可以是与当前用户的歌唱对应的用户歌唱数据,而第一用户输入数据可以是在当前用户的歌唱之前输入的用户的歌唱。在这种情况下,可以通过与先前用户的歌唱对应的用户歌唱数据来生成评价F0。然后,可以使用先前生成的评价F0来评价当前用户歌唱数据。预先生成的评价F0可以存储在信息处理装置1的存储单元中,或者可以在执行歌唱评价时从外部装置下载。
在上述实施方式中,比较单元16实时地执行比较处理,但是本发明不限于此。例如,可以在用户的歌唱开始之后累积歌唱F0和评价F0,并且可以在用户的歌唱结束之后执行比较处理。此外,在上述实施方式中,以一帧为单位比较歌唱F0和评价F0。然而,可以适当地改变处理的单位,使得以若干帧等为单位来比较歌唱F0和评价F0。
在上述实施方式中,通过声源分离来获得歌声信号,但是可以不对原始音乐数据执行声源分离处理。然而,为了获得准确的特征量,在第一特征量提取单元12之前执行声源分离的配置是优选的。
在卡拉OK***中,有时可以将诸如音高改变、节奏改变等的改变信息设置为原始音乐作品。将这样的改变信息设置为性能元信息。在设置性能元信息的情况下,可以基于性能元信息对每个评价F0候选执行音高改变处理或节奏改变处理。然后,可以将经受音高改变等的歌唱F0与经受音高改变等的评价候选F0进行比较。
在上述实施方式中,使用F0作为评价数据,但也可以使用其他频率和数据作为评价数据。
可以应用在上述每个处理中通过机器学习获得的机器学习模型。此外,用户可以是使用装置的用户,而不是装置的所有者。
此外,可以适当地组合上述实施方式和修改的一个或多个任意选择的方面。此外,上述实施方式的配置、方法、步骤、形状、材料、数值等可以在不脱离本公开内容的主旨的情况下彼此组合。
注意,本公开内容还可以具有以下配置。
(1)一种信息处理装置,包括:
比较单元,其将基于第一用户输入数据生成的评价数据与第二用户输入数据进行比较。
(2)根据(1)所述的信息处理装置,还包括:
评价单元,其基于所述比较单元的比较结果来评价用户输入数据。
(3)根据(1)所述的信息处理装置,
其中,所述第一用户输入数据和所述第二用户输入数据是相同的用户输入数据,以及
所述比较单元将所述评价数据与所述第二用户输入数据实时地进行比较。
(4)根据(1)所述的信息处理装置,
其中,所述第一用户输入数据和所述第二用户输入数据是相同的用户输入数据,以及
所述比较单元在完成所述第二用户输入数据的输入之后将所述评价数据与所述第二用户输入数据进行比较。
(5)根据(1)至(4)中任一项所述的信息处理装置,
其中,所述第一用户输入数据是时间上在所述第二用户输入数据之前输入的数据。
(6)根据(1)至(5)中任一项所述的信息处理装置,
其中,所述评价数据由外部装置提供。
(7)根据(1)至(5)中任一项所述的信息处理装置,包括:
存储所述评价数据的存储单元。
(8)根据(1)至(7)中任一项所述的信息处理装置,
其中,所述第一用户输入数据和所述第二用户输入数据是以下中的任何一个:用户的歌唱数据、用户的话语数据、以及用户进行的演奏的的演奏数据。
(9)根据(2)所述的信息处理装置,包括:
通知单元,其通知由所述评价单元进行的评价。
(10)一种信息处理方法,
其中,比较单元将基于第一用户输入数据生成的评价数据与第二用户输入数据进行比较。
(11)一种用于使计算机执行信息处理方法的程序,
其中,所述比较单元将基于第一用户输入数据生成的评价数据与第二用户输入数据进行比较。
(12)一种信息处理装置,包括:
特征量提取单元,其提取用户输入数据的特征量;以及
评价数据生成单元,其基于所述用户输入数据的所述特征量生成用于评价所述用户输入数据的评价数据。
(13)根据(12)所述的信息处理装置,包括:
声源分离单元,其通过对包括与所述用户输入数据类型相同的数据的混合声音数据执行声源分离,将与所述用户输入数据类型相同的数据从混合声音数据中分离;以及
评价数据候选生成单元,其基于由所述声源分离单元分离的数据的特征量来生成多个评价数据候选,
其中,所述评价数据生成单元通过基于所述用户输入数据的所述特征量从所述多个评价数据候选中选择一个评价数据来生成所述评价数据。
(14)根据(13)所述的信息处理装置,包括:
比较单元,其将所述用户输入数据与所述评价数据进行比较;以及
评价单元,其基于所述比较单元的比较结果来评价所述用户输入数据。
(15)根据(14)所述的信息处理装置,包括:
通知单元,其通知由所述评价单元进行的评价。
(16)一种信息处理方法,
其中,特征量提取单元提取用户输入数据的特征量,以及
评价数据生成单元基于所述用户输入数据的所述特征量生成用于评价所述用户输入数据的评价数据。
(17)一种用于使计算机执行信息处理方法的程序,
其中,特征量提取单元提取用户输入数据的特征量,以及
评价数据生成单元基于所述用户输入数据的所述特征量生成用于评价所述用户输入数据的评价数据。
<应用示例>
接下来,将描述本公开内容的应用示例。在上述实施方式中,用户歌唱数据被描述为用户输入数据的示例,但是也可以使用其他数据。例如,用户输入数据可以是用户的乐器的演奏数据(下文中称为用户演奏数据),或者信息处理装置1可以是评价用户的演奏的装置。在这种情况下,用户演奏数据的示例包括通过收集乐器的演奏和从电子乐器等发送的诸如MIDI的演奏信息而获得的演奏数据。此外,可以评价演奏(例如,鼓演奏)的节奏和击打的定时。
用户输入数据可以是话语数据。例如,本公开内容还可以应用于练习多个台词中的特定台词。通过应用本公开内容,由于可以将特定台词用作评价数据,所以可以正确地评价用户的台词练习。本发明不仅可以应用于台词练习,而且可以应用于通过使用混合有多个发言者的数据来模仿特定发言者的外语的练习。
用户输入数据不限于音频数据,并且可以是图像数据。例如,用户在查看由多个跳舞者(例如,主跳舞者和伴舞者)进行的舞蹈的图像数据的同时进行舞蹈练习。由摄像装置捕获用户的舞蹈的图像数据。例如,通过已知方法基于图像数据检测用户和跳舞者的特征点(身体的关节等)。生成具有与检测到的用户的特征点的移动相似的移动的特征点的跳舞者的舞蹈作为评价数据。将与所生成的评价数据对应的跳舞者的舞蹈与用户的舞蹈进行比较,并且对舞蹈的熟练度进行评价。如上所述,本公开内容可以应用于各种领域。
附图标记列表
1信息处理装置
15评价数据生成单元
16比较单元
17用户歌唱评价单元
Claims (17)
1.一种信息处理装置,包括:
比较单元,其将基于第一用户输入数据生成的评价数据与第二用户输入数据进行比较。
2.根据权利要求1所述的信息处理装置,还包括:
评价单元,其基于所述比较单元的比较结果来评价用户输入数据。
3.根据权利要求1所述的信息处理装置,
其中,所述第一用户输入数据和所述第二用户输入数据是相同的用户输入数据,以及
所述比较单元将所述评价数据与所述第二用户输入数据实时地进行比较。
4.根据权利要求1所述的信息处理装置,
其中,所述第一用户输入数据和所述第二用户输入数据是相同的用户输入数据,以及
所述比较单元在完成所述第二用户输入数据的输入之后将所述评价数据与所述第二用户输入数据进行比较。
5.根据权利要求1所述的信息处理装置,
其中,所述第一用户输入数据是时间上在所述第二用户输入数据之前输入的数据。
6.根据权利要求1所述的信息处理装置,
其中,所述评价数据由外部装置提供。
7.根据权利要求1所述的信息处理装置,包括:
存储所述评价数据的存储单元。
8.根据权利要求1所述的信息处理装置,
其中,所述第一用户输入数据和所述第二用户输入数据是以下中的任何一个:用户的歌唱数据、用户的话语数据、以及用户进行的演奏的演奏数据。
9.根据权利要求2所述的信息处理装置,包括:
通知单元,其通知由所述评价单元进行的评价。
10.一种信息处理方法,
其中,比较单元将基于第一用户输入数据生成的评价数据与第二用户输入数据进行比较。
11.一种用于使计算机执行信息处理方法的程序,
其中,比较单元将基于第一用户输入数据生成的评价数据与第二用户输入数据进行比较。
12.一种信息处理装置,包括:
特征量提取单元,其提取用户输入数据的特征量;以及
评价数据生成单元,其基于所述用户输入数据的特征量生成用于评价所述用户输入数据的评价数据。
13.根据权利要求12所述的信息处理装置,包括:
声源分离单元,其通过对包括与所述用户输入数据类型相同的数据的混合声音数据执行声源分离,将与所述用户输入数据类型相同的数据从所述混合声音数据中分离;以及
评价数据候选生成单元,其基于由所述声源分离单元分离的数据的特征量来生成多个评价数据候选,
其中,所述评价数据生成单元通过基于所述用户输入数据的特征量从所述多个评价数据候选中选择一个评价数据来生成所述评价数据。
14.根据权利要求13所述的信息处理装置,包括:
比较单元,其将所述用户输入数据与所述评价数据进行比较;以及
评价单元,其基于所述比较单元的比较结果来评价所述用户输入数据。
15.根据权利要求14所述的信息处理装置,包括:
通知单元,其通知由所述评价单元进行的评价。
16.一种信息处理方法,
其中,特征量提取单元提取用户输入数据的特征量,以及
评价数据生成单元基于所述用户输入数据的特征量生成用于评价所述用户输入数据的评价数据。
17.一种用于使计算机执行信息处理方法的程序,
其中,特征量提取单元提取用户输入数据的特征量,以及
评价数据生成单元基于所述用户输入数据的特征量生成用于评价所述用户输入数据的评价数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020164089 | 2020-09-29 | ||
JP2020-164089 | 2020-09-29 | ||
PCT/JP2021/030000 WO2022070639A1 (ja) | 2020-09-29 | 2021-08-17 | 情報処理装置、情報処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116171472A true CN116171472A (zh) | 2023-05-26 |
Family
ID=80949983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180063454.1A Pending CN116171472A (zh) | 2020-09-29 | 2021-08-17 | 信息处理装置、信息处理方法和程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230335090A1 (zh) |
CN (1) | CN116171472A (zh) |
WO (1) | WO2022070639A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7335316B2 (ja) * | 2021-12-27 | 2023-08-29 | Line株式会社 | プログラム及び情報処理装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005148599A (ja) * | 2003-11-19 | 2005-06-09 | Konami Co Ltd | カラオケ装置、カラオケ方法、および、プログラム |
JP5311069B2 (ja) * | 2010-08-03 | 2013-10-09 | ブラザー工業株式会社 | 歌唱評価装置及び歌唱評価プログラム |
JP6810676B2 (ja) * | 2017-11-28 | 2021-01-06 | 株式会社エクシング | 歌唱評価装置、歌唱評価プログラム及びカラオケ装置 |
-
2021
- 2021-08-17 US US18/245,351 patent/US20230335090A1/en active Pending
- 2021-08-17 CN CN202180063454.1A patent/CN116171472A/zh active Pending
- 2021-08-17 WO PCT/JP2021/030000 patent/WO2022070639A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022070639A1 (ja) | 2022-04-07 |
US20230335090A1 (en) | 2023-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9224375B1 (en) | Musical modification effects | |
Paulus et al. | Measuring the similarity of Rhythmic Patterns. | |
US6856923B2 (en) | Method for analyzing music using sounds instruments | |
JP5582915B2 (ja) | 楽譜位置推定装置、楽譜位置推定方法および楽譜位置推定ロボット | |
US20080300702A1 (en) | Music similarity systems and methods using descriptors | |
CN109979483B (zh) | 音频信号的旋律检测方法、装置以及电子设备 | |
Collins | Using a Pitch Detector for Onset Detection. | |
JP6420345B2 (ja) | 音源評価方法、これに使用される演奏情報分析方法及び記録媒体並びにこれを利用した音源の評価装置 | |
Miron et al. | Generating data to train convolutional neural networks for classical music source separation | |
JP2008015214A (ja) | 歌唱力評価方法及びカラオケ装置 | |
JP5790496B2 (ja) | 音響処理装置 | |
US20230335090A1 (en) | Information processing device, information processing method, and program | |
Weiß et al. | Chroma-based scale matching for audio tonality analysis | |
JP4271667B2 (ja) | デュエットの同期性を採点するカラオケ採点装置 | |
JP2008015211A (ja) | ピッチ抽出方法、歌唱力評価方法、歌唱訓練プログラム及びカラオケ装置 | |
JP5092589B2 (ja) | 演奏クロック生成装置、データ再生装置、演奏クロック生成方法、データ再生方法およびプログラム | |
WO2019180830A1 (ja) | 歌唱評価方法及び装置、プログラム | |
Kitahara et al. | Instrogram: A new musical instrument recognition technique without using onset detection nor f0 estimation | |
Marolt | Networks of adaptive oscillators for partial tracking and transcription of music recordings | |
JP2006301019A (ja) | ピッチ通知装置およびプログラム | |
JP2013210501A (ja) | 素片登録装置,音声合成装置,及びプログラム | |
JP2008015212A (ja) | 音程変化量抽出方法、ピッチの信頼性算出方法、ビブラート検出方法、歌唱訓練プログラム及びカラオケ装置 | |
JPWO2008001779A1 (ja) | 基本周波数推定法および音響信号推定システム | |
JP5810947B2 (ja) | 発声区間特定装置、音声パラメータ生成装置、及びプログラム | |
CN115171729B (zh) | 音频质量确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |