CN106297755A - 一种用于乐谱图像识别的电子设备及识别方法 - Google Patents

一种用于乐谱图像识别的电子设备及识别方法 Download PDF

Info

Publication number
CN106297755A
CN106297755A CN201610859907.2A CN201610859907A CN106297755A CN 106297755 A CN106297755 A CN 106297755A CN 201610859907 A CN201610859907 A CN 201610859907A CN 106297755 A CN106297755 A CN 106297755A
Authority
CN
China
Prior art keywords
note
image
head
sound
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610859907.2A
Other languages
English (en)
Other versions
CN106297755B (zh
Inventor
宋晴
杨录
贾文赫
王智慧
杨李怡
刘小欧
辛学仕
陈海鹏
杨敏
姜佳男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201610859907.2A priority Critical patent/CN106297755B/zh
Publication of CN106297755A publication Critical patent/CN106297755A/zh
Application granted granted Critical
Publication of CN106297755B publication Critical patent/CN106297755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/32Constructional details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/441Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
    • G10H2220/455Camera input, e.g. analyzing pictures from a video camera and using the analysis results as control data

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开的一种用于乐谱图像识别的电子设备及识别方法,包括壳体、发声部件、设置在壳体内的主板以及设置在壳体第一端部的图像扫描部件;主板上设置有主控电路及分别与主控电路电连接的声卡电路和电源电路;通过摄像头获取待处理的五线谱图像传递给主控电路;主控电路对待处理的五线谱图像进行识别,识别出每个完整音符;主控电路根据识别出的完整音符,发送对应的声音数字信号给声卡电路,声卡电路将收到的声音数字信号转换成可播放的模拟信号,传递给发声部件进行播放;本发明设备解决现有技术中存在的图像采集模块与识别模块分离,使用不便的问题。方法采用音符分类器与卷积神经网络级联进行音符识别,具有识别速度快,识别精度高的优点。

Description

一种用于乐谱图像识别的电子设备及识别方法
技术领域
本发明涉及图像识别技术领域,特别涉及一种用于乐谱图像识别的电子设备及识别方法。
背景技术
图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。
现有技术中的乐谱图像识别设备,包括图像采集模块和计算机,图像采集模块以拍照或者扫描乐谱的方式采集乐谱的图像数据,输入到计算机中,通过计算机中的识别模块对采集到的图像数据进行分析识别。
但是,应用上述的乐谱图像识别设备,存在以下技术问题:图像采集模块与识别模块分离,需要依赖计算机工作,工作过程较长,影响使用的便利性。
现有技术中的乐谱图像识别方法,大多基于传统计算机视觉方法,在识别精度和识别速度上不是十分理想,无法做到快速精准识别,甚至需要对待识别的乐谱做出高度规范化要求,不利于日常场景的使用。
发明内容
本发明实施例的目的在于提供一种用于乐谱图像识别的电子设备及识别方法,可以解决现有技术中的乐谱图像识别设备图像采集模块与识别模块分离,使用不便,及现有技术中的乐谱图像识别方法识别精度和识别速度不理想的问题。
为达到上述目的,本发明实施例公开了,一种用于乐谱图像识别的电子设备,包括壳体、发声部件、设置在壳体内的主板以及设置在所述壳体第一端部的图像扫描部件;
所述主板上设置有主控电路及分别与主控电路电连接的声卡电路和电源电路;
所述图像扫描部件包括扫描滚轮以及设置在扫描滚轮上方的摄像头,所述扫描滚轮和摄像头均与所述主控电路电连接;所述摄像头将拍摄的乐谱图像发送给主控电路进行处理;
所述发声部件与所述声卡电路相连,按主控电路发送的声音信号发出声音;
所述电源电路分别与所述扫描滚轮、摄像头及发声部件电连接为其供电;
所述壳体的第二端部设置有电池舱及舱盖,电池舱与主板上的电源电路相连。
优选的,所述壳体为笔状壳体;所述图像扫描部件设置在笔状壳体的第一端部;
所述发声部件安装在所述图像扫描部件上方,所述图像扫描部件和发声部件使第一端部形成为笔尖状;
所述主板安装在笔状壳体内靠近笔尖的位置;
所述笔状壳体内设置有至少2个主板安装柱;所述主板通过所述至少2个主板安装柱固定在笔状壳体内。
优选的,所述笔状壳体的第二端部设置有电池舱及舱盖,电池舱与主板上的电源电路相连。
优选的,所述笔状壳体的第二端部设置有外接电源线,外接电源线与主板上的电源电路相连。
本发明实施例还公开了,一种乐谱图像识别方法,包括,
通过摄像头获取待处理的五线谱图像传递给主控电路;
主控电路对待处理的五线谱图像进行识别,识别出每个完整音符;
主控电路根据识别出的完整音符,发送对应的声音数字信号给声卡电路,声卡电路将收到的声音数字信号转换成可播放的模拟信号,传递给发声部件进行播放;
所述的主控电路对待处理的五线谱图像进行识别,包括,
对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;
采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;
采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;
根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。
优选的,所述的音符分类器的训练过程,包括:
建立正样本数据集和负样本数据集,数据集中包括定位框的位置数据及定位框内的五线谱图像的图像数据,正样本数据集为包括完整音符的图像数据,负样本数据集为包括除过完整音符之外的其余乐谱可能出现的图像数据;
提取正样本数据集和负样本数据集中每个样本的通道特征,训练音符分类器。
优选的,所述的对待处理的五线谱图像进行音符定位分割,包括,
在待处理的五线谱图像上随机选取若干个候选定位框,逐个扫描定位框,对每个定位框内的图像提取所述的通道特征,将提取的通道特征输入到音符分类器中,判断定位框内的图像为正样本或者为负样本,正样本判定为乐谱中的完整音符,负样本判定为乐谱背景舍弃,从而得到待处理的五线谱图像中的完整音符,对照音符分类器中定位框的位置数据得到每个完整音符在图像中的位置。
优选的,所述的卷积神经网络的训练过程,包括,
建立音符符头数据集,包括实心符头、空心符头和背景三种分类数据;
构建卷积神经网络,包括2个卷积层,2个下采样层和1个全连接层;
将音符符头数据集中的符头图像数据输入到卷积神经网络中,完成训练。
优选的,所述的采用卷积神经网络对分割获得的音符符头进行识别,包括,
将音符定位分割得到的完整音符,输入到卷积神经网络中,通过和音符符头数据集里的数据对比,得出是实心符头、空心符头或者背景,舍弃背景,同时对照音符符头数据集里的符头的位置数据,确定完整音符中符头的位置。
优选的,所述的待处理的五线谱图像,具体为:对五线谱图像进行去噪、对比度增强、灰度化、减少噪声或光照不均匀的处理,得到的二值图像。
由上述的技术方案可见,本发明电子设备实施例通过将发声部件、主板以及图像扫描部件全部集成在一个设备中,大幅度提升了产品的便携性,解决现有技术中存在的图像采集模块与识别模块分离,使用不便的问题。
本发明识别方法实施例,对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。相较于传统计算机视觉方法,本发明采用音符分类器与卷积神经网络级联进行音符识别,具有识别速度快,识别精度高的优点。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明电子设备的一种实施例结构示意图;
图2是本发明电子设备实施例中主板的电路示意图;
图3是本发明电子设备实施例中主板的控制原理图;
图4是本发明乐谱识别方法第一种实施例的流程图;
图5是本发明识别方法第一种实施例中主控电路对待处理的五线谱图像进行识别的流程图;
图6是本发明识别方法第二种实施例中主控电路对待处理的五线谱图像进行识别的流程图;
图7是本发明乐谱识别方法第二种实施例中单边边缘检测方法原理图;
图8是本发明乐谱识别方法第二种实施例中五线位置坐标检测的效果图;
图9是本发明乐谱识别方法第二种实施例中音符分类器的训练过程示意图;
图10是本发明乐谱识别方法第二种实施例中正样本数据集和负样本数据集的样本示意图;
图11是本发明乐谱识别方法第二种实施例中音符定位分割的流程图;
图12是本发明乐谱识别方法第二种实施例中音符定位分割的效果图;
图13是本发明乐谱识别方法第二种实施例中卷积神经网络的训练过程示意图;
图14是本发明乐谱识别方法第二种实施例中卷积神经网络结构图;
图15是本发明乐谱识别方法第二种实施例中音符符头识别的流程图;
图中,1.舱盖,2.电池舱,3.主板,4.摄像头,5.扫描滚轮,6.主板安装柱,7.发声部件,8.LED补光灯。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明用于乐谱图像识别的电子设备的一种实施例的结构,如图1所示,壳体为笔状壳体,图像扫描部件设置在笔状壳体的第一端部,发声部件7安装在图像扫描部件上方,图像扫描部件和发声部件7使第一端部形成为笔尖状;图像扫描部件包括扫描滚轮5以及设置在扫描滚轮5上方的摄像头4。
主板3安装在笔状壳体内靠近笔尖的位置。笔状壳体内设置有至少2个主板安装柱6,主板3通过至少2个主板安装柱6固定在笔状壳体内。如图2所示,主板3上设置有主控电路及分别与主控电路电连接的声卡电路和电源电路;扫描滚轮5和摄像头4均与主控电路电连接;摄像头4将拍摄的乐谱图像发送给主控电路进行处理;发声部件7与声卡电路相连,按主控电路发送的声音信号发出声音。
笔状壳体的第二端部设置有电池舱2及舱盖1,电池舱2与主板3上的电源电路相连。应该说明的是,设置电池舱2及舱盖1,目的是给主板3上的电源电路供电,也可以选择其他结构用于供电,比如:在笔状壳体的第二端部设置外接电源线,外接电源线与主板3上的电源电路相连。
优选的,摄像头4上还设置有LED补光灯8,用于给摄像头4补光。
优选的,发声部件7为扬声器。应该说明的是,发声部件7为现有技术中的发声装置,目的是完成发声的功能。
优选的,摄像头4采用CMOS图像传感器OV7620实现;主控电路采用微处理器Argus3芯片实现。如图3所示,微处理器Argus3芯片内嵌ARM9TDMI核,芯片内集成一个高速缓存、一个专用的RAM和各种丰富的应用接口,支持SPAM、FLASH等格式,并提供视频处理引擎和图像处理器。
优选的,在图像扫描部件的外部设置有与笔状壳体活动连接的保护套,保护套的形状与笔尖形状相配合,用于保护摄像头4。
本发明乐谱图像识别方法的第一种实施例,如图4所示,包括,
步骤101:通过摄像头获取待处理的五线谱图像传递给主控电路;
步骤102:主控电路对待处理的五线谱图像进行识别,识别出每个完整音符;
步骤103:主控电路根据识别出的完整音符,发送对应的声音数字信号给声卡电路,声卡电路将收到的声音数字信号转换成可播放的模拟信号,传递给发声部件进行播放;
所述的主控电路对待处理的五线谱图像进行识别,如图5所示,包括,
步骤1021:对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;
步骤1022:采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;
步骤1023:采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;
步骤1024:根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。
本发明乐谱图像识别方法的第二种实施例,如图6所示,与识别方法第一种实施例的区别在于,所述的主控电路对待处理的五线谱图像进行识别,包括,
步骤2021:对得到的五线谱图像进行去噪、对比度增强、灰度化、减少噪声或光照不均匀的处理,得到二值图像;
步骤2022:对得到的二值图像采用单边边缘检测方法描绘出图像的边缘信息,再通过hough直线检测方法检测出五线位置坐标;
步骤2023:采用预设的音符分类器,对得到的二值图像进行音符定位分割,得到每个完整音符在图像中的位置;
步骤2024:采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;
步骤2025:根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。
本发明乐谱图像识别方法的第二种实施例中的其他步骤可参考第一种实施例,此处不再赘述。
优选的,本发明识别方法第二种实施例中步骤2022所述的单边边缘检测方法,包括:
a)选用Sobel算子,分别求出水平方向上和垂直方向上的梯度值:
水平梯度:sx=(a2+2a3+a4)-(a0+2a7+a6)
垂直梯度:sy=(a0+2a1+a2)-(a6+2a5+a4)
幅值:
Sobel模板:
其中,a0-a7代表8个邻域像素点;
b)采用非极大值抑制对水平方向上和垂直方向上的梯度值进行抑制,即仅保留每个方向梯度直线上的最大值的点,其余点的值均设为0;
c)采用自适应阈值方法得到每个区域中待设置阈值的大小,使用该阈值作为是否连接边缘的条件限制,描绘出图像的边缘信息。
为了更好的说明单边边缘检测方法的有益效果,以下将传统的canny边缘检测方法和本发明采用的单边边缘检测方法做一对比说明:
1)传统的canny边缘检测方法步骤包括:
a)通过求取图像中每个像素的一阶偏导并计算梯度方向和幅值,从而得出各点在不同方向上的幅值,过程中会涉及到不同的算子模板,例如Robert算子、Prewitt算子等;
b)对梯度幅值进行非极值抑制,图像梯度幅值矩阵中的元素值越大,说明图像中该点的梯度值越大,但不足以确定该点就是边缘点,故需要寻找像素点在一条直线上的极值,将非极值点所对应的灰度值置为0,这样可以剔除掉一大部分非边缘的点;
c)用双阈值算法检测和连接边缘,选择两个阈值,根据高阈值得到一个边缘图像。在高阈值图像中把边缘链接成轮廓,当到达轮廓的端点时,算法会在断点的8值邻域点中寻找满足低阈值的点,再根据此点收集新的边缘,直到整个图像边缘闭合,形成整个边缘图像。
2)本发明采用的单边边缘检测方法步骤包括:
a)改变原有的canny算法常用的模板算子,进而选用Sobel算子(a0-a7代表8个邻域像素点),分别求出水平方向上和垂直方向上的梯度值;
水平梯度:sx=(a2+2a3+a4)-(a0+2a7+a6)
垂直梯度:sy=(a0+2a1+a2)-(a6+2a5+a4)
幅值:
Sobel模板:
b)同样对每个方向上的梯度值进行抑制,但由于需要的是直线单边的边缘,所以需要改变抑制方法,将原方法中的非极值抑制改为非极大值抑制,即仅保留每个方向梯度直线上的最大值的点,其余点的值均设为0,如图7所示,以(3*3)的区域作为比较块,分别将中心像素与(1、5)(2、6)(3、7)(4、8)相比较,将非极大值点设为0;
c)采用自适应阈值方法得到每个区域中待设置阈值的大小,使用该阈值作为是否连接边缘的条件限制,该方法借鉴了自适应二值化中的方式,这样同时减少了光照等因素对不同区域的影响。
应该说明的是,所述的自适应阈值方法,为现有技术中的常用方法。
经上述对比,传统canny方法检测时发现每条五线均出现双边边缘,影响定位效果,本发明采用非极大值抑制仅保留梯度单边极值,加入自适应阈值条件,使得五线较好的呈现出单边边缘;
应该说明的是,步骤2022中的hough直线检测方法,是现有技术中的常用直线检测方法,能够根据得到的图像的边缘信息检测出五线位置坐标,如图8所示,为本实施例中五线谱定位的效果图。
优选的,本发明识别方法第二种实施例中步骤2023音符分类器的训练过程,如图9所示,包括:
步骤301:建立正样本数据集和负样本数据集,如图10所示,数据集中包括定位框的位置数据及定位框内的五线谱图像的图像数据,正样本数据集为包括完整音符的图像数据,负样本数据集为包括除过完整音符之外的其余乐谱可能出现的图像数据;
步骤302:提取正样本数据集和负样本数据集中每个样本的通道特征,训练音符分类器。
应该说明的是,此处的负样本可以是残缺的音符图像、五线谱图像、乐谱背景图像等,但不限于列举的上述图像。
优选的,每个样本的通道特征,包括,灰度和颜色、线性滤波、非线性变换、逐点变换、梯度直方图。应该说明的是,所述的5种通道特征,为现有技术中的积分通道特征,定义解释如下:
灰度和颜色:灰度是一种简单的通道,LUV颜色空间也是三个常用的通道;
线性滤波:利用线性变换得到通道,如将图像与不同方向的Gabor滤波器进行卷积得到的通道,其中的每一个通道包含不同方向的边缘信息,从而得到图像不同尺度的纹理信息;
非线性变换:计算图像梯度幅值,捕获边缘强度信息;捕获边缘梯度信息,梯度则既包含边缘强度又包含边缘方向,对于彩图而言,则需要在3个通道分别计算梯度,并将对应位置的3个梯度的最大响应作为最后输出;二值化图像,将图像分别以两个不同阈值进行二值化;
逐点变换:通道中的任一像素可以通过任意一个函数作为后处理进行变化。如通过Log运算,可以得到局部乘法算子exp(∑ilog(xi))=∏ixi,类似的,对每个像素计算p次幂可用于求解广义均值;
梯度直方图:是一个加权直方图,它的bin索引是通过梯度的方向计算出来的,而其权值则是通过梯度的幅值计算而来的,也就是说这里的通道是这样计算的:Qθ(x,y)=G(x,y)*1[Θ(x,y)=θ],这里G(x,y)和Θ(x,y)分别是代表图像的梯度幅值和量化梯度方向,与此同时进行不同尺度的模糊,可以计算出来不同尺度的梯度信息。此外,借助于梯度幅值信息,对计算出来的直方图进行归一化,此方法类似于HOG特征。
优选的,定位框为矩形块定位框,根据五线间距interval确定定位框的大小,定位框高度height和宽度width分别根据公式计算得出:
height=5*interval;width=2.5*interval。
优选的,本发明识别方法第二种实施例中步骤2023中对待处理的五线谱图像进行音符定位分割,如图11所示,包括,
在待识别的二值图上随机选取若干个候选定位框,逐个扫描定位框,对每个定位框内的图像提取所述的通道特征,将提取的通道特征输入到音符分类器中,判断定位框内的图像为正样本或者为负样本,正样本判定为乐谱中的完整音符,负样本判定为乐谱背景舍弃,从而得到待识别的二值图中的完整音符,对照音符分类器中定位框的位置数据得到每个完整音符在图像中的位置,如图12所示。
本实施例中随机选取2000个候选定位框。
优选的,本发明识别方法第二种实施例中步骤2024中的卷积神经网络的训练过程,如图13所示,包括,
步骤401:建立音符符头数据集,包括实心符头、空心符头和背景三种分类数据;
步骤402:如图14所示,构建卷积神经网络,包括2个卷积层,2个下采样层和1个全连接层;
步骤403:将音符符头数据集中的符头图像数据输入到卷积神经网络中,完成训练。
本实施例中的音符符头数据集包括2000张实心符头,1500张空心符头和4000张背景图像。
本实施例采用caffe框架卷积神经网络,caffe框架是一个清晰,可读性高,快速的深度学习框架,其模型结构简单、参数较少,在许多环境下(笔记本、手机等)只需要实现简单的卷积和全连接前向网络即可进行音符识别,不需要另行配置caffe环境,十分方便简单。
优选的,本发明识别方法第二种实施例中步骤2025中的采用卷积神经网络对分割获得的音符符头进行识别,如图15所示,包括,
将音符定位分割得到的完整音符,输入到卷积神经网络中,通过和音符符头数据集里的数据对比,得出是实心符头、空心符头或者背景,舍弃背景,同时对照音符符头数据集里的符头的位置数据,确定完整音符中符头的位置。
实际应用中,可根据识别出来的音符信息生成可播放的电子乐谱,进行播放。
采用上述第二种实施例进行音符识别,硬件为三星galaxy S3,CPU进行测试,音符识别速度达到了500fps,准确率为98.71%。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种用于乐谱图像识别的电子设备,其特征在于,包括壳体、发声部件、设置在壳体内的主板以及设置在所述壳体第一端部的图像扫描部件;
所述主板上设置有主控电路及分别与主控电路电连接的声卡电路和电源电路;
所述图像扫描部件包括扫描滚轮以及设置在扫描滚轮上方的摄像头,所述扫描滚轮和摄像头均与所述主控电路电连接;所述摄像头将拍摄的乐谱图像发送给主控电路进行处理;
所述发声部件与所述声卡电路相连,按主控电路发送的声音信号发出声音;
所述电源电路分别与所述扫描滚轮、摄像头及发声部件电连接为其供电;
所述壳体的第二端部设置有电池舱及舱盖,电池舱与主板上的电源电路相连。
2.根据权利要求1所述的用于乐谱图像识别的电子设备,其特征在于,所述壳体为笔状壳体;所述图像扫描部件设置在笔状壳体的第一端部;
所述发声部件安装在所述图像扫描部件上方,所述图像扫描部件和发声部件使第一端部形成为笔尖状;
所述主板安装在笔状壳体内靠近笔尖的位置;
所述笔状壳体内设置有至少2个主板安装柱;所述主板通过所述至少2个主板安装柱固定在笔状壳体内。
3.根据权利要求2所述的用于乐谱图像识别的电子设备,其特征在于,所述笔状壳体的第二端部设置有电池舱及舱盖,电池舱与主板上的电源电路相连。
4.根据权利要求2所述的用于乐谱图像识别的电子设备,其特征在于,所述笔状壳体的第二端部设置有外接电源线,外接电源线与主板上的电源电路相连。
5.一种基于权利要求1-4任意一项所述电子设备的乐谱图像识别方法,其特征在于,包括,
通过摄像头获取待处理的五线谱图像传递给主控电路;
主控电路对待处理的五线谱图像进行识别,识别出每个完整音符;
主控电路根据识别出的完整音符,发送对应的声音数字信号给声卡电路,声卡电路将收到的声音数字信号转换成可播放的模拟信号,传递给发声部件进行播放;
所述的主控电路对待处理的五线谱图像进行识别,包括,
对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;
采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;
采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;
根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。
6.根据权利要求5所述的乐谱图像识别方法,其特征在于,所述的音符分类器的训练过程,包括:
建立正样本数据集和负样本数据集,数据集中包括定位框的位置数据及定位框内的五线谱图像的图像数据,正样本数据集为包括完整音符的图像数据,负样本数据集为包括除过完整音符之外的其余乐谱可能出现的图像数据;
提取正样本数据集和负样本数据集中每个样本的通道特征,训练音符分类器。
7.根据权利要求6所述的乐谱图像识别方法,其特征在于,所述的对待处理的五线谱图像进行音符定位分割,包括,
在待处理的五线谱图像上随机选取若干个候选定位框,逐个扫描定位框,对每个定位框内的图像提取所述的通道特征,将提取的通道特征输入到音符分类器中,判断定位框内的图像为正样本或者为负样本,正样本判定为乐谱中的完整音符,负样本判定为乐谱背景舍弃,从而得到待处理的五线谱图像中的完整音符,对照音符分类器中定位框的位置数据得到每个完整音符在图像中的位置。
8.根据权利要求5所述的乐谱图像识别方法,其特征在于,所述的卷积神经网络的训练过程,包括,
建立音符符头数据集,包括实心符头、空心符头和背景三种分类数据;
构建卷积神经网络,包括2个卷积层,2个下采样层和1个全连接层;
将音符符头数据集中的符头图像数据输入到卷积神经网络中,完成训练。
9.根据权利要求8所述的乐谱图像识别方法,其特征在于,所述的采用卷积神经网络对分割获得的音符符头进行识别,包括,
将音符定位分割得到的完整音符,输入到卷积神经网络中,通过和音符符头数据集里的数据对比,得出是实心符头、空心符头或者背景,舍弃背景,同时对照音符符头数据集里的符头的位置数据,确定完整音符中符头的位置。
10.根据权利要求5所述的乐谱图像识别方法,其特征在于,所述的待处理的五线谱图像,具体为:对五线谱图像进行去噪、对比度增强、灰度化、减少噪声或光照不均匀的处理,得到的二值图像。
CN201610859907.2A 2016-09-28 2016-09-28 一种用于乐谱图像识别的电子设备及识别方法 Active CN106297755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610859907.2A CN106297755B (zh) 2016-09-28 2016-09-28 一种用于乐谱图像识别的电子设备及识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610859907.2A CN106297755B (zh) 2016-09-28 2016-09-28 一种用于乐谱图像识别的电子设备及识别方法

Publications (2)

Publication Number Publication Date
CN106297755A true CN106297755A (zh) 2017-01-04
CN106297755B CN106297755B (zh) 2023-06-13

Family

ID=57715584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610859907.2A Active CN106297755B (zh) 2016-09-28 2016-09-28 一种用于乐谱图像识别的电子设备及识别方法

Country Status (1)

Country Link
CN (1) CN106297755B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945780A (zh) * 2017-11-23 2018-04-20 北京物灵智能科技有限公司 一种基于计算机视觉的乐器演奏方法及装置
CN108665888A (zh) * 2018-05-11 2018-10-16 西安石油大学 一种将书面符号、图像转换成音频数据的***及方法
CN108766463A (zh) * 2018-04-28 2018-11-06 平安科技(深圳)有限公司 电子装置、基于深度学习的乐曲演奏风格识别方法及存储介质
CN110796146A (zh) * 2019-10-11 2020-02-14 上海上湖信息技术有限公司 一种银行卡***识别方法、模型训练方法及装置
CN112133264A (zh) * 2020-08-31 2020-12-25 广东工业大学 一种乐谱识别方法及装置
CN112925944A (zh) * 2021-03-10 2021-06-08 上海妙克信息科技有限公司 一种曲谱识别方法、终端设备及计算机可读存储介质
CN113076967A (zh) * 2020-12-08 2021-07-06 无锡乐骐科技有限公司 一种基于图像和音频的乐谱双重识别***
CN115019600A (zh) * 2022-01-17 2022-09-06 滁州职业技术学院 一种音乐五线谱识谱器及其识谱方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0997060A (ja) * 1995-09-29 1997-04-08 Kawai Musical Instr Mfg Co Ltd 楽譜認識装置
CN1283832A (zh) * 1999-08-10 2001-02-14 曾平蔚 光扫描读谱方法与装置
JP2003242439A (ja) * 2003-02-07 2003-08-29 Kawai Musical Instr Mfg Co Ltd 楽譜認識装置
CN103646247A (zh) * 2013-09-26 2014-03-19 惠州学院 一种乐谱识别方法
CN105022993A (zh) * 2015-06-30 2015-11-04 北京邮电大学 一种基于图像识别技术的五线谱播放***
CN206097909U (zh) * 2016-09-28 2017-04-12 北京邮电大学 一种用于乐谱图像识别的电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0997060A (ja) * 1995-09-29 1997-04-08 Kawai Musical Instr Mfg Co Ltd 楽譜認識装置
CN1283832A (zh) * 1999-08-10 2001-02-14 曾平蔚 光扫描读谱方法与装置
JP2003242439A (ja) * 2003-02-07 2003-08-29 Kawai Musical Instr Mfg Co Ltd 楽譜認識装置
CN103646247A (zh) * 2013-09-26 2014-03-19 惠州学院 一种乐谱识别方法
CN105022993A (zh) * 2015-06-30 2015-11-04 北京邮电大学 一种基于图像识别技术的五线谱播放***
CN206097909U (zh) * 2016-09-28 2017-04-12 北京邮电大学 一种用于乐谱图像识别的电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘晓翔等: "乐谱识别中音符结构分析方法" *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945780A (zh) * 2017-11-23 2018-04-20 北京物灵智能科技有限公司 一种基于计算机视觉的乐器演奏方法及装置
CN108766463A (zh) * 2018-04-28 2018-11-06 平安科技(深圳)有限公司 电子装置、基于深度学习的乐曲演奏风格识别方法及存储介质
WO2019205383A1 (zh) * 2018-04-28 2019-10-31 平安科技(深圳)有限公司 电子装置、基于深度学习的乐曲演奏风格识别方法及存储介质
CN108665888A (zh) * 2018-05-11 2018-10-16 西安石油大学 一种将书面符号、图像转换成音频数据的***及方法
CN110796146A (zh) * 2019-10-11 2020-02-14 上海上湖信息技术有限公司 一种银行卡***识别方法、模型训练方法及装置
CN112133264A (zh) * 2020-08-31 2020-12-25 广东工业大学 一种乐谱识别方法及装置
CN112133264B (zh) * 2020-08-31 2023-09-22 广东工业大学 一种乐谱识别方法及装置
CN113076967A (zh) * 2020-12-08 2021-07-06 无锡乐骐科技有限公司 一种基于图像和音频的乐谱双重识别***
CN112925944A (zh) * 2021-03-10 2021-06-08 上海妙克信息科技有限公司 一种曲谱识别方法、终端设备及计算机可读存储介质
CN115019600A (zh) * 2022-01-17 2022-09-06 滁州职业技术学院 一种音乐五线谱识谱器及其识谱方法

Also Published As

Publication number Publication date
CN106297755B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN106297755A (zh) 一种用于乐谱图像识别的电子设备及识别方法
CN106446952B (zh) 一种乐谱图像识别方法及装置
WO2020151489A1 (zh) 基于面部识别的活体检测的方法、电子设备和存储介质
Fang et al. Bottom-up saliency detection model based on human visual sensitivity and amplitude spectrum
CN106874826A (zh) 人脸关键点跟踪方法和装置
US8750573B2 (en) Hand gesture detection
CN104596929B (zh) 确定空气质量的方法及设备
US8792722B2 (en) Hand gesture detection
CN103164692B (zh) 一种基于计算机视觉的特种车辆仪表自动识别***及方法
CN104794479B (zh) 基于局部笔画宽度变换的自然场景图片中文本检测方法
CN104202547B (zh) 投影画面中提取目标物体的方法、投影互动方法及其***
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
CN103955499B (zh) 一种基于即时计算与动态追踪的视觉体验增强方法
CN109871845B (zh) 证件图像提取方法及终端设备
CN106056064A (zh) 一种人脸识别方法及人脸识别装置
CN111104867A (zh) 基于部件分割的识别模型训练、车辆重识别方法及装置
CN104166841A (zh) 一种视频监控网络中指定行人或车辆的快速检测识别方法
CN108121985A (zh) 一种基于机器视觉的双指针仪表读数方法
CN110378946A (zh) 深度图处理方法、装置以及电子设备
CN102713938A (zh) 用于均匀和非均匀照明变化中的改善的特征检测的尺度空间正规化技术
CN104281839A (zh) 一种人体姿势识别方法和装置
CN103034838A (zh) 一种基于图像特征的特种车辆仪表类型识别与标定方法
CN106204658A (zh) 运动图像跟踪方法及装置
CN103345644A (zh) 在线训练的目标检测方法及装置
Su et al. A novel forgery detection algorithm for video foreground removal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant