CN107578772A - 融合声学特征和发音运动特征的发音评估方法和*** - Google Patents
融合声学特征和发音运动特征的发音评估方法和*** Download PDFInfo
- Publication number
- CN107578772A CN107578772A CN201710708049.6A CN201710708049A CN107578772A CN 107578772 A CN107578772 A CN 107578772A CN 201710708049 A CN201710708049 A CN 201710708049A CN 107578772 A CN107578772 A CN 107578772A
- Authority
- CN
- China
- Prior art keywords
- feature
- pronunciation
- fusion
- data
- intelligibility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 185
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 117
- 238000011156 evaluation Methods 0.000 claims abstract description 20
- 210000000214 mouth Anatomy 0.000 claims description 21
- 210000000056 organ Anatomy 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 230000001755 vocal effect Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 15
- 210000003128 head Anatomy 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 7
- 210000005182 tip of the tongue Anatomy 0.000 claims description 5
- 230000004886 head movement Effects 0.000 claims description 4
- 238000009434 installation Methods 0.000 claims description 4
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 210000001061 forehead Anatomy 0.000 claims description 3
- 210000001595 mastoid Anatomy 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000000205 computational method Methods 0.000 claims description 2
- 238000013075 data extraction Methods 0.000 claims 1
- 210000002105 tongue Anatomy 0.000 description 17
- 230000008569 process Effects 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000004069 differentiation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 241001466559 Torgos Species 0.000 description 3
- 201000008482 osteoarthritis Diseases 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002889 sympathetic effect Effects 0.000 description 2
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 208000028389 Nerve injury Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000006931 brain damage Effects 0.000 description 1
- 208000029028 brain injury Diseases 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002224 dissection Methods 0.000 description 1
- 230000005713 exacerbation Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 210000000088 lip Anatomy 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000008764 nerve damage Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000472 traumatic effect Effects 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/11—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
- A61B5/1113—Local tracking of patients, e.g. in a hospital or private home
- A61B5/1114—Tracking parts of the body
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/11—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
- A61B5/1121—Determining geometric values, e.g. centre of rotation or angular range of movement
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/68—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
- A61B5/6801—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient specially adapted to be attached to or worn on the body surface
- A61B5/6813—Specially adapted to be attached to a specific body part
- A61B5/6814—Head
- A61B5/682—Mouth, e.g., oral cavity; tongue; Lips; Teeth
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B2562/00—Details of sensors; Constructional details of sensor housings or probes; Accessories for sensors
- A61B2562/02—Details of sensors specially adapted for in-vivo measurements
- A61B2562/0204—Acoustic sensors
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B2562/00—Details of sensors; Constructional details of sensor housings or probes; Accessories for sensors
- A61B2562/02—Details of sensors specially adapted for in-vivo measurements
- A61B2562/0219—Inertial sensors, e.g. accelerometers, gyroscopes, tilt switches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Veterinary Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Surgery (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Dentistry (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Physiology (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Geometry (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Epidemiology (AREA)
- Probability & Statistics with Applications (AREA)
Abstract
本发明公开了一种融合声学特征和发音运动特征的发音评估方法和***,其通过采集音频数据和发音运动数据,并对所述音频数据提取声学特征,对所述发音运动数据提取发音运动特征,根据时间对应关系将所述声学特征和所述发音运动特征进行特征融合和策略融合,有效利用两类特征的互补性,保证评价的客观性和全面性,从而得到更准确、更可靠的特征融合评估结果和决策融合评估结果,使得发音评估更加客观准确。
Description
技术领域
本发明涉及发音评估技术领域,特别是一种融合声学特征和发音运动特 征的发音评估方法及其应用该方法的***。
背景技术
言语的感知和生成是多重听觉器官、发音器官在短时间内协同工作的结 果。部分人由于先天性和外伤性造成脑部或神经受损,从而无法控制特定肌 肉发出正确语音,表现为发音、发声、共鸣、韵律异常,这就是构音障碍。
语音可懂度就是听众可以准确获得说话者语音信号表达信息的程度,对 于构音障碍的严重程度往往是通过语音的可懂度进行发音评估的,疾病越严 重,语音的可懂度也就越低。近年来,对于构音障碍的研究逐渐增多,但大 多是利用声学参数进行可懂度的分析,忽略了异常的发音器官运动才是造成 异常声音的源头,从而使得评估方法不够全面,评估结果不可靠。因此,制 定出一套可靠的、不依赖于主观评价的、客观准确的评价标准尤为重要。
发明内容
本发明为解决上述问题,提供了一种融合声学特征和发音运动特征的发 音评估方法和***,其通过采集音频数据和对应的发音运动数据和分别提取 声学特征和对应的发音运动特征,并对该声学特征和发音运动特征进行融合 处理,从而得到更准确、更可靠的融合评估结果,使得发音评估更加客观准 确。
为实现上述目的,本发明采用的技术方案为:
一种融合声学特征和发音运动特征的发音评估方法,其包括以下步骤:
(10)采集音频数据和发音运动数据,并对所述音频数据提取声学特征, 对所述发音运动数据提取发音运动特征,其中,所述音频数据和所述发音运 动数据在时间上相对应;
(20)根据时间对应关系将所述声学特征和所述发音运动特征进行特征 融合的处理,得到融合特征;
(30)根据所述融合特征进行训练得到融合特征可懂度判别模型;
(40)利用所述融合特征可懂度判别模型得到特征融合评估结果。
优选的,还进一步根据所述声学特征和所述发音运动特征进行分别训练 得到声学特征可懂度判别模型和发音运动特征可懂度判别模型,并将所述声 学特征可懂度判别模型的评估结果和所述发音运动特征可懂度判别模型的评 估结果进行策略融合的处理,得到策略融合评估结果。
优选的,所述的步骤(10)中进行采集音频数据和发音运动数据,是利 用电磁式发音动作描迹***进行采集所述音频数据和发音运动数据,通过在 发音器官放置空间传感器,并计算所述空间传感器在磁场中的三维空间坐标 和角度,得到所述发音运动数据,并在采集所述发音运动数据的同时进行采 集时间上相对应的所述音频数据;其中,所述发音器官包括嘴唇,所述发音 运动数据包括嘴唇运动数据。
优选的,还进一步在鼻梁放置空间传感器,所述的步骤(10)中对所述 发音运动数据提取发音运动特征,是采用以所述鼻梁的空间传感器作为坐标 原点,计算嘴唇上的空间传感器距离所述坐标原点的相对距离;以嘴唇上四 个空间传感器的三维坐标距离x,y,z作为运动特征,每一个采样点作为一 帧,对每帧数据按如下公式提取发音运动特征:
lip=[x1...x4,y1...y4,z1...z4]T;
其中x,y,z的下标分别代表上嘴唇运动数据、下嘴唇运动数据、左嘴 角运动数据、右嘴角运动数据。
优选的,所述的步骤(20)中进行特征融合的处理,是根据所述音频数 据和所述发音运动数据的采样率进行设置所述声学特征和所述发音运动特征 的窗长,根据所述窗长进行设置窗移,并以所述窗移对所述声学特征和所述 发音运动特征进行特征融合。
优选的,所述策略融合的处理,是通过对所述声学特征可懂度判别模型 的评估结果和所述发音运动特征可懂度判别模型的评估结果分别设置不同的 权重比例,根据该权重比例进行计算策略融合评估结果;其计算方法如下:
其中,LL表示所述策略融合评估结果,表示所述声学特征可 懂度判别模型的评估结果,表示所述发音运动特征可懂度判别模 型的评估结果,k表示评估结果的等级分类,w表示权重,argmax函数表示 寻找具有最大评分的参量。
对应的,本发明还提供一种融合声学特征和发音运动特征的发音评估系 统,其包括:
特征提取模块,用于采集音频数据和发音运动数据,并对所述音频数据 提取声学特征,对所述发音运动数据提取发音运动特征,其中,所述音频数 据和所述发音运动数据在时间上相对应;
特征融合模块,其根据时间对应关系将所述声学特征和所述发音运动特 征进行特征融合的处理,得到融合特征;
模型训练模块,根据所述融合特征进行训练得到融合特征可懂度判别模 型;
发音评估模块,利用所述融合特征可懂度判别模型得到特征融合评估结 果。
优选的,还包括策略融合模块;
所述模型训练模块还进一步根据所述声学特征和所述发音运动特征进行 分别训练得到声学特征可懂度判别模型和发音运动特征可懂度判别模型;
所述策略融合模块将所述声学特征可懂度判别模型的评估结果和所述发 音运动特征可懂度判别模型的评估结果进行策略融合的处理,得到策略融合 评估结果。
优选的,还包括数据采集模块,其利用电磁式发音动作描迹***进行采 集所述音频数据和发音运动数据,通过在发音器官放置空间传感器,并计算 所述空间传感器在磁场中的三维空间坐标和角度,得到所述发音运动数据, 并在采集所述发音运动数据的同时进行采集时间上相对应的所述音频数据。
优选的,所述发音器官包括以下一种以上:舌头、嘴唇、嘴角、门牙; 其中,所述舌头的空间传感器设置在舌尖、舌中、舌后;所述嘴唇的空间传 感器设置在上嘴唇中部、下嘴唇中部;所述嘴角的空间传感器设置在左嘴角、 右嘴角;所述门牙的空间传感器设置在下门牙并用于跟踪下颌的运动。
进一步的,还包括在头部位置设置空间传感器进行检测头部运动数据, 并根据所述头部运动数据对所述发音运动数据进行校正;所述头部位置包括 以下一种以上:额头、鼻梁、耳后;其中,所述耳后的空间传感器设置在耳 朵后面的乳突骨上。
优选的,所述模型训练模块是通过将所述声学特征或所述发音运动特征 或所述融合特征分别输入高斯混合模型-隐马尔可夫模型进行训练,得到对应 的声学特征可懂度判别模型、发音运动特征可懂度判别模型、融合特征可懂 度判别模型。
本发明的有益效果是:
(1)本发明通过采集音频数据和对应的发音运动数据和分别提取声学特 征和对应的发音运动特征,并对该声学特征和发音运动特征进行特征融合, 通过融合特征进行模型的训练,从而得到更准确、更可靠的特征融合评估结 果,使得发音评估更加客观准确;
(2)本发明还进一步根据所述声学特征和所述发音运动特征进行分别训 练得到声学特征可懂度判别模型和发音运动特征可懂度判别模型,并将各个 模型的评估结果进行策略融合的处理,得到策略融合评估结果,将该策略融 合评估结果与所述特征融合评估结果相互验证和相互参考,使得发音评估结 果更加客观准确;
(3)本发明不仅检测发音器官的发音运动数据,还包括在头部位置设置 空间传感器进行检测头部运动数据,并根据所述头部运动数据对所述发音运 动数据进行校正,使得数据更准确、可靠。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部 分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的 不当限定。在附图中:
图1为本发明一种融合声学特征和发音运动特征的发音评估方法的流程简 图;
图2为本发明一种融合声学特征和发音运动特征的发音评估***的结构示意 图;
图3为空间传感器分布示意图之一;
图4为空间传感器分布示意图之二。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明 白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处 所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的一种融合声学特征和发音运动特征的发音评估方 法,其特征在于,包括以下步骤:
(10)采集音频数据和发音运动数据,并对所述音频数据提取声学特征, 对所述发音运动数据提取发音运动特征,其中,所述音频数据和所述发音运 动数据在时间上相对应;
(20)根据时间对应关系将所述声学特征和所述发音运动特征进行特征 融合的处理,得到融合特征;
(30)根据所述融合特征进行训练得到融合特征可懂度判别模型;
(40)利用所述融合特征可懂度判别模型得到特征融合评估结果。
(50)根据所述声学特征和所述发音运动特征进行分别训练得到声学特 征可懂度判别模型和发音运动特征可懂度判别模型,并将所述声学特征可懂 度判别模型的评估结果和所述发音运动特征可懂度判别模型的评估结果进行 策略融合的处理,得到策略融合评估结果。
所述的步骤(10)中进行采集音频数据和发音运动数据,是利用电磁式 发音动作描迹***进行采集所述音频数据和发音运动数据,本实施例中,是 采用3DAG500电磁式发音动作描迹***(EMA***)采集的发音运动数据和 音频数据;通过在发音器官放置空间传感器,并计算所述空间传感器在磁场 中的三维空间坐标和角度,得到所述发音运动数据,并在采集所述发音运动 数据的同时进行采集时间上相对应的所述音频数据;其中,所述发音器官包 括嘴唇,所述发音运动数据包括嘴唇运动数据。由于构音障碍患者舌头异常 运动,会使得传感器在运动过程中脱落,造成得到舌头运动数据难以采集到 有效数据。因此,本实施例中,选择利用嘴唇运动数据作为主要的发音运动 数据。
EMA***是利用空间传感器在交变磁场中产生的交变电流这一现象,计 算得出空间传感器在磁场中的三维空间坐标和角度,进行运动数据的采集。 并在采集空间传感器位置信息的同时,同步采集音频信号。所述空间传感器 由薄且重量轻的电缆连接到记录设备上,使其不妨碍EMA立方体内头部的自 由运动。
所述的步骤(10)中对所述音频数据提取声学特征,进一步包括:
(11).将所述音频数据s(n)通过高通滤波器进行预加重的处理,得到 加重数据;高通滤波器关系可以表示为:H(z)=1-az-1([a∈[0.9,1]);经过预 加重后的信号表示为:s'(n)=s(n)-as(n-1),本实施例中a值取0.95。
(12).对所述加重数据的每一帧进行加窗处理,得到加窗数据;本实施 例中,取20ms为一帧,由于帧边界处频谱能量的可能存在泄露情况,选用汉 宁窗对每一帧都进行加窗处理。
(13).对每一帧进行快速傅里叶变换(FFT变换),从时域数据转变为 频域数据,并计算其谱线能量;
(14).将所述加窗数据的每一帧的谱线能量通过Mel滤波器,并计算在 Mel滤波器中的能量;
(15).对Mel滤波器的能量取对数后计算DCT(离散余弦变换)倒谱, 得到Mel频率倒谱系数(MFCC);
(16).以所述Mel频率倒谱系数作为特征参数,得到所述声学特征。
Mel频率倒谱系数(MFCC)是基于人耳听觉频域特性,将线性幅度谱映射 到基于听觉感知的Mel非线性幅度谱中,再转换到倒谱上。前后帧之间的变 化信息也有助于识别不同的语音特性,所以MFCC一般还会加入倒谱系数每一 维的一阶差分和二阶差分。本实施例中采用13维MFCC,以及其一阶差分和 二阶差分为声学特征。
所述的步骤(20)中进行特征融合的处理,是根据所述音频数据和所述 发音运动数据的采样率进行设置所述声学特征和所述发音运动特征的窗长, 根据所述窗长进行设置窗移,并以所述窗移对所述声学特征和所述发音运动 特征进行特征融合,从而能够有效利用两类特征点互补性优势进行建模。本 实施例中,所述音频数据的采样率为16000Hz,所述发音运动数据的采样率 200Hz,为了同步两类特征,对声学特征的窗长设置为20ms,运动特征窗长 为5ms,提取特征时的窗移为5ms。本实施例中,得到的融合特征 (Acoustic-Articulatory)的特征维度为51。利用融合特征训练出四等级 (正常、轻微、中等、严重)的可懂度判别的GMM-HMM模型。隐马尔科夫模 型状态数为3个,混合高斯数为24。
所述的步骤(30)中,模型训练是通过将所述声学特征或所述发音运动 特征或所述融合特征分别输入高斯混合模型-隐马尔可夫模型(GMM-HMM模 型)进行训练,得到对应的声学特征可懂度判别模型、发音运动特征可懂度 判别模型、融合特征可懂度判别模型。通过借助GMM-HMM模型,并分别利用 所述声学特征和所述发音运动特征进行训练出判别不同级别可懂度的可懂度 判别模型,从而进行可懂度的评估。考虑语音信号的时序特性,利用HMM对 其进行建模,同时使用GMM模型计算每个HMM的状态发射概率。这就是GMM-HMM模型。可懂度的程度与其严重程度成正比,根据语音病理学家的诊 断,划分为轻微、中等,严重,再加上正常人的对照,共四组群体。分别对 每一个群体训练GMM-HMM模型。为验证不同特征对可懂度判别的影响不同, 对于声学特征和发音运动特征分别训练GMM-HMM模型,隐马尔科夫模型是无 跨越的从左向右模型,它的状态数为3个,混合高斯数为8,得到声学特征 可懂度判别模型(记为Acoustic-GMM-HMM)、发音运动特征可懂度判别模型 (记为Articulatory-GMM-HMM)。
所述的步骤(40)中,利用所述融合特征可懂度判别模型得到特征融合 评估结果,是运用所述融合特征可懂度判别模型,进行不同级别可懂度的判 断。
所述的步骤(50)中,所述策略融合的处理,是通过对所述声学特征可 懂度判别模型的评估结果和所述发音运动特征可懂度判别模型的评估结果分 别设置不同的权重比例,根据该权重比例进行计算策略融合评估结果;即, 将所述声学特征可懂度判别模型(Acoustic-GMM-HMM)和所述发音运动特征 可懂度判别模型(Articulatory-GMM-HMM)按如下公式进行决策融合:
其中,LL表示所述策略融合评估结果(即,决策融合后的最大似然值 得分),表示所述声学特征可懂度判别模型的评估结果,表示所述发音运动特征可懂度判别模型的评估结果,k表示评估结果的等级 分类,w表示权重,argmax函数表示寻找具有最大评分的参量;本实施例 中,k为1、2、3、4,分别代表正常、轻微、中等、严重四个等级;w表示 所述声学特征可懂度判别模型(Acoustic-GMM-HMM)的权重,取值为0.5;1-w表示所述发音运动特征可懂度判别模型(Articulatory-GMM-HMM)的权 重。
如图2所示,本发明还提供一种融合声学特征和发音运动特征的发音评 估***,其包括:
数据采集模块,其利用电磁式发音动作描迹***进行采集所述音频数据 和发音运动数据,通过在发音器官放置空间传感器,并计算所述空间传感器 在磁场中的三维空间坐标和角度,得到所述发音运动数据,并在采集所述发 音运动数据的同时进行采集时间上相对应的所述音频数据;
特征提取模块,用于采集音频数据和发音运动数据,并对所述音频数据 提取声学特征,对所述发音运动数据提取发音运动特征,其中,所述音频数 据和所述发音运动数据在时间上相对应;
特征融合模块,其根据时间对应关系将所述声学特征和所述发音运动特 征进行特征融合的处理,得到融合特征;
模型训练模块,根据所述融合特征进行训练得到融合特征可懂度判别模 型;
发音评估模块,利用所述融合特征可懂度判别模型得到特征融合评估结 果;
策略融合模块,所述模型训练模块还进一步根据所述声学特征和所述发 音运动特征进行分别训练得到声学特征可懂度判别模型和发音运动特征可懂 度判别模型;所述策略融合模块将所述声学特征可懂度判别模型的评估结果 和所述发音运动特征可懂度判别模型的评估结果进行策略融合的处理,得到 策略融合评估结果。
如图3和图4所示,本实施例中,所述发音器官包括以下一种以上:舌 头、嘴唇、嘴角、门牙;其中,所述舌头的空间传感器设置在舌尖(TT-舌 尖解剖面后的1厘米)、舌中(TM-舌尖传感器后3厘米)、舌后(TB-舌 中传感器后2厘米);所述嘴唇的空间传感器设置在上嘴唇中部(UL)、下嘴 唇中部(LL);所述嘴角的空间传感器设置在左嘴角(LM)、右嘴角(RM);所述门牙的空间传感器设置在下门牙(JA)并用于跟踪下颌的运动。发音器官 主要是由嘴唇、牙齿、舌头、腭部等构成。其中,舌头和嘴唇与其他部位密 切配合,阻挡气流、改变口腔共鸣器的形状,在发音中起着重要作用。因此, 我们首先对舌头发音器官数据分析,然而由于构音障碍患者舌头异常运动, 会使得传感器在运动过程中脱落,造成得到舌头运动数据难以采集到有效数 据。因此,本实施例中,选择利用嘴唇发音器官的运动数据作为主要的发音运动数据。
进一步的,还包括在头部位置设置空间传感器进行检测头部运动数据, 并根据所述头部运动数据对所述发音运动数据进行校正;所述头部位置包括 以下一种以上:额头、鼻梁、耳后;其中,所述耳后的空间传感器设置在耳 朵后面的乳突骨上,起到参考和记录头部运动的作用。
本实施例中,我们利用空间传感器采集到的三维空间坐标来进行分析, 还进一步在鼻梁放置空间传感器,所述的步骤(10)中对所述发音运动数据 提取发音运动特征,是采用以所述鼻梁的空间传感器作为坐标原点,计算嘴 唇上的空间传感器距离所述坐标原点的相对距离;以嘴唇上四个空间传感器 的三维坐标距离x,y,z作为运动特征,每一个采样点作为一帧,对每帧数 据按如下公式提取发音运动特征:
lip=[x1...x4,y1...y4,z1...z4]T;
其中x,y,z的下标分别代表上嘴唇运动数据、下嘴唇运动数据、左嘴 角运动数据、右嘴角运动数据。发音运动特征共12维。
所述模型训练模块是通过将所述声学特征或所述发音运动特征或所述融 合特征分别输入高斯混合模型-隐马尔可夫模型进行训练,得到对应的声学特 征可懂度判别模型、发音运动特征可懂度判别模型、融合特征可懂度判别模 型。
本实施例中,基于音频数据和发音运动数据的Torgo数据集为例对整个 ***算法流程进行简述,具体步骤如下:
1)Torgo数据集输入
表1 实验数据集信息
如表1所示,***的输入分别为包含严重、中等、轻微、正常四个可懂 度级别,可懂度的级别的判断根据语音病理专家的诊断得到。数据集被试数 量分别为3、2、2、7,发音样本数分别为567条、876条、671条、4289条。
2)数据特征的提取
表2 提取特征条件
EMA设备同步采集音频数据和发音运动数据,在这里以表2的设置分别 提取声学特征、运动特征,以及对两类特征的融合A-A特征。
3)训练可懂度判别模型
Acoustic | Articulatory | Feature-fusion | Decision-fusion | |
轻微 | 93.47% | 97.63% | 99.28% | 99.15% |
中等 | 83.79% | 98.08% | 98.36% | 98.11% |
严重 | 94.19% | 97.56% | 97.88% | 97.07% |
正常 | 99.86% | 96.81% | 98.30% | 97.95% |
平均 | 96.50% | 97.06% | 98.21% | 98.00% |
表3 可懂度判别评估结果
在获取数据的音频特征和运动特征后,通过GMM-HMM方法,进行可懂度 判别模型的训练。如表3前两列所示,使用运动特征的GMM-HMM判别模型对 言语障碍者准确率有明显的提高,但是对于正常人来说,使用MFCC的声学特 征准确率更高。总的来说,使用运动特征的GMM-HMM比使用声学特征的 GMM-HMM平均提升了0.56个百分点。说明使用运动特征对言语障碍者的可懂 度判别是非常有效的。
4)特征融合和决策融合的模型训练
表4 可懂度判别kappa系数指标
考虑到声学特征对于正常人的判别效果好,运动特征对于障碍人的判别 效果好。为将两类特征的互补作用更好的应用,提出了使用特征融合A-A特 征训练GMM-HMM模型,以及使用声学特征GMM-HMM和运动特征GMM-HMM做决 策融合。如表3后两列所示,特征融合和决策融合能够结合两类特征的互补 优势,进一步提高了判别效果。
本发明不仅利用音频数据,还利用言语障碍者的发音运动数据,从发音 运动的方面对构音障碍进行可懂度级别的判断。发音运动数据的重点在于对 言语障碍者的运动数据进行特征提取,通过对数据的分析,舌头运动数据不 稳定、不易获取,因此,本实施例中主要以嘴唇的发音运动数据为主要依据, 可以有效区别言语障碍者可懂度程度。
同时,在对言语障碍者可懂度评估中,通过提取发音运动特征改善了传 统基于音频数据的声学特征的方法,并通过Torgo数据集和准确率和kappa 系数说明了其可行性。
本发明通过特征融合和决策融合,将传统的语音声学特征和发音运动特 征结合起来,有效利用两类特征的互补性,保证评价的客观性和全面性,通 过融合方法,结果比单独使用声学特征或单独使用发音运动特征在对可懂度 程度分类上有明显优势。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个 实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似 的部分互相参见即可。对于***实施例而言,由于其与方法实施例基本相似, 所以描述的比较简单,相关之处参见方法实施例的部分说明即可。并且,在 本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包 含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要 素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、 物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一 个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设 备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述 实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关 的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到 的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限 于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他 组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领 域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明 的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (12)
1.一种融合声学特征和发音运动特征的发音评估方法,其特征在于,包括以下步骤:
(10)采集音频数据和发音运动数据,并对所述音频数据提取声学特征,对所述发音运动数据提取发音运动特征,其中,所述音频数据和所述发音运动数据在时间上相对应;
(20)根据时间对应关系将所述声学特征和所述发音运动特征进行特征融合的处理,得到融合特征;
(30)根据所述融合特征进行训练得到融合特征可懂度判别模型;
(40)利用所述融合特征可懂度判别模型得到特征融合评估结果。
2.根据权利要求1所述的一种融合声学特征和发音运动特征的发音评估方法,其特征在于:还进一步根据所述声学特征和所述发音运动特征进行分别训练得到声学特征可懂度判别模型和发音运动特征可懂度判别模型,并将所述声学特征可懂度判别模型的评估结果和所述发音运动特征可懂度判别模型的评估结果进行策略融合的处理,得到策略融合评估结果。
3.根据权利要求1或2所述的一种融合声学特征和发音运动特征的发音评估方法,其特征在于:所述的步骤(10)中进行采集音频数据和发音运动数据,是利用电磁式发音动作描迹***进行采集所述音频数据和发音运动数据,通过在发音器官放置空间传感器,并计算所述空间传感器在磁场中的三维空间坐标和角度,得到所述发音运动数据,并在采集所述发音运动数据的同时进行采集时间上相对应的所述音频数据;其中,所述发音器官包括嘴唇,所述发音运动数据包括嘴唇运动数据。
4.根据权利要求3所述的一种融合声学特征和发音运动特征的发音评估方法,其特征在于:还进一步在鼻梁放置空间传感器,所述的步骤(10)中对所述发音运动数据提取发音运动特征,是采用以所述鼻梁的空间传感器作为坐标原点,计算嘴唇上的空间传感器距离所述坐标原点的相对距离;以嘴唇上四个空间传感器的三维坐标距离x,y,z作为运动特征,每一个采样点作为一帧,对每帧数据按如下公式提取发音运动特征:
lip=[x1...x4,y1...y4,z1...z4]T;
其中x,y,z的下标分别代表上嘴唇运动数据、下嘴唇运动数据、左嘴角运动数据、右嘴角运动数据。
5.根据权利要求1或2所述的一种融合声学特征和发音运动特征的发音评估方法,其特征在于:所述的步骤(20)中进行特征融合的处理,是根据所述音频数据和所述发音运动数据的采样率进行设置所述声学特征和所述发音运动特征的窗长,根据所述窗长进行设置窗移,并以所述窗移对所述声学特征和所述发音运动特征进行特征融合。
6.根据权利要求2所述的一种融合声学特征和发音运动特征的发音评估方法,其特征在于:所述策略融合的处理,是通过对所述声学特征可懂度判别模型的评估结果和所述发音运动特征可懂度判别模型的评估结果分别设置不同的权重比例,根据该权重比例进行计算策略融合评估结果;其计算方法如下:
<mrow>
<mi>L</mi>
<mi>L</mi>
<mo>=</mo>
<munder>
<mrow>
<mi>arg</mi>
<mi>max</mi>
</mrow>
<mi>k</mi>
</munder>
<mo>{</mo>
<mi>w</mi>
<mo>&times;</mo>
<msubsup>
<mi>LL</mi>
<mrow>
<mi>a</mi>
<mi>c</mi>
<mi>o</mi>
<mi>u</mi>
<mi>s</mi>
<mi>t</mi>
<mi>i</mi>
<mi>c</mi>
</mrow>
<mi>k</mi>
</msubsup>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>w</mi>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<msubsup>
<mi>LL</mi>
<mrow>
<mi>a</mi>
<mi>r</mi>
<mi>t</mi>
<mi>i</mi>
<mi>c</mi>
<mi>u</mi>
<mi>l</mi>
<mi>a</mi>
<mi>t</mi>
<mi>o</mi>
<mi>r</mi>
<mi>y</mi>
</mrow>
<mi>k</mi>
</msubsup>
<mo>}</mo>
<mo>;</mo>
</mrow>
其中,LL表示所述策略融合评估结果,表示所述声学特征可懂度判别模型的评估结果,表示所述发音运动特征可懂度判别模型的评估结果,k表示评估结果的等级分类,w表示权重,argmax函数表示寻找具有最大评分的参量。
7.一种融合声学特征和发音运动特征的发音评估***,其特征在于,包括:
特征提取模块,用于采集音频数据和发音运动数据,并对所述音频数据提取声学特征,对所述发音运动数据提取发音运动特征,其中,所述音频数据和所述发音运动数据在时间上相对应;
特征融合模块,其根据时间对应关系将所述声学特征和所述发音运动特征进行特征融合的处理,得到融合特征;
模型训练模块,根据所述融合特征进行训练得到融合特征可懂度判别模型;
发音评估模块,利用所述融合特征可懂度判别模型得到特征融合评估结果。
8.根据权利要求7所述的一种融合声学特征和发音运动特征的发音评估***,其特征在于:还包括策略融合模块;
所述模型训练模块还进一步根据所述声学特征和所述发音运动特征进行分别训练得到声学特征可懂度判别模型和发音运动特征可懂度判别模型;
所述策略融合模块将所述声学特征可懂度判别模型的评估结果和所述发音运动特征可懂度判别模型的评估结果进行策略融合的处理,得到策略融合评估结果。
9.根据权利要求7或8所述的一种融合声学特征和发音运动特征的发音评估***,其特征在于:还包括数据采集模块,其利用电磁式发音动作描迹***进行采集所述音频数据和发音运动数据,通过在发音器官放置空间传感器,并计算所述空间传感器在磁场中的三维空间坐标和角度,得到所述发音运动数据,并在采集所述发音运动数据的同时进行采集时间上相对应的所述音频数据。
10.根据权利要求9所述的一种融合声学特征和发音运动特征的发音评估方法,其特征在于:所述发音器官包括以下一种以上:舌头、嘴唇、嘴角、门牙;其中,所述舌头的空间传感器设置在舌尖、舌中、舌后;所述嘴唇的空间传感器设置在上嘴唇中部、下嘴唇中部;所述嘴角的空间传感器设置在左嘴角、右嘴角;所述门牙的空间传感器设置在下门牙并用于跟踪下颌的运动。
11.根据权利要求9所述的一种融合声学特征和发音运动特征的发音评估方法,其特征在于:还包括在头部位置设置空间传感器进行检测头部运动数据,并根据所述头部运动数据对所述发音运动数据进行校正;所述头部位置包括以下一种以上:额头、鼻梁、耳后;其中,所述耳后的空间传感器设置在耳朵后面的乳突骨上。
12.根据权利要求7或8所述的一种融合声学特征和发音运动特征的发音评估***,其特征在于:所述模型训练模块是通过将所述声学特征或所述发音运动特征或所述融合特征分别输入高斯混合模型-隐马尔可夫模型进行训练,得到对应的声学特征可懂度判别模型、发音运动特征可懂度判别模型、融合特征可懂度判别模型。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710708049.6A CN107578772A (zh) | 2017-08-17 | 2017-08-17 | 融合声学特征和发音运动特征的发音评估方法和*** |
US16/616,459 US11786171B2 (en) | 2017-08-17 | 2018-09-17 | Method and system for articulation evaluation by fusing acoustic features and articulatory movement features |
PCT/CN2018/105942 WO2019034184A1 (zh) | 2017-08-17 | 2018-09-17 | 融合声学特征和发音运动特征的发音评估方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710708049.6A CN107578772A (zh) | 2017-08-17 | 2017-08-17 | 融合声学特征和发音运动特征的发音评估方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107578772A true CN107578772A (zh) | 2018-01-12 |
Family
ID=61034267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710708049.6A Pending CN107578772A (zh) | 2017-08-17 | 2017-08-17 | 融合声学特征和发音运动特征的发音评估方法和*** |
Country Status (3)
Country | Link |
---|---|
US (1) | US11786171B2 (zh) |
CN (1) | CN107578772A (zh) |
WO (1) | WO2019034184A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108922563A (zh) * | 2018-06-17 | 2018-11-30 | 海南大学 | 基于偏差器官形态行为可视化的口语学习矫正方法 |
CN109360645A (zh) * | 2018-08-01 | 2019-02-19 | 太原理工大学 | 一种构音障碍发音运动异常分布的统计分类方法 |
WO2019034184A1 (zh) * | 2017-08-17 | 2019-02-21 | 厦门快商通科技股份有限公司 | 融合声学特征和发音运动特征的发音评估方法和*** |
CN109697976A (zh) * | 2018-12-14 | 2019-04-30 | 北京葡萄智学科技有限公司 | 一种发音识别方法及装置 |
CN110223671A (zh) * | 2019-06-06 | 2019-09-10 | 标贝(深圳)科技有限公司 | 语言韵律边界预测方法、装置、***和存储介质 |
CN111210838A (zh) * | 2019-12-05 | 2020-05-29 | 中国船舶工业综合技术经济研究院 | 一种言语认知能力的评价方法 |
CN111951828A (zh) * | 2019-05-16 | 2020-11-17 | 上海流利说信息技术有限公司 | 发音测评方法、装置、***、介质和计算设备 |
CN112927696A (zh) * | 2019-12-05 | 2021-06-08 | 中国科学院深圳先进技术研究院 | 一种基于语音识别的构音障碍自动评估***和方法 |
CN113496696A (zh) * | 2020-04-03 | 2021-10-12 | 中国科学院深圳先进技术研究院 | 一种基于语音识别的言语功能自动评估***和方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3618061B1 (en) * | 2018-08-30 | 2022-04-27 | Tata Consultancy Services Limited | Method and system for improving recognition of disordered speech |
CN113314100B (zh) * | 2021-07-29 | 2021-10-08 | 腾讯科技(深圳)有限公司 | 口语测试的评估、结果显示方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1924994A (zh) * | 2005-08-31 | 2007-03-07 | 中国科学院自动化研究所 | 一种嵌入式语音合成方法及*** |
CN101292281A (zh) * | 2005-09-29 | 2008-10-22 | 独立行政法人产业技术综合研究所 | 发音诊断装置、发音诊断方法、存储媒介、以及发音诊断程序 |
CN102063903A (zh) * | 2010-09-25 | 2011-05-18 | 中国科学院深圳先进技术研究院 | 言语交互训练***及方法 |
CN103218924A (zh) * | 2013-03-29 | 2013-07-24 | 上海众实科技发展有限公司 | 一种基于音视频双模态的口语学习监测方法 |
WO2015030471A1 (en) * | 2013-08-26 | 2015-03-05 | Seli Innovations Inc. | Pronunciation correction apparatus and method thereof |
CN106409030A (zh) * | 2016-12-08 | 2017-02-15 | 河南牧业经济学院 | 一种个性化外语口语学习*** |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4836218A (en) * | 1984-04-09 | 1989-06-06 | Arthrotek, Inc. | Method and apparatus for the acoustic detection and analysis of joint disorders |
KR101035768B1 (ko) * | 2009-01-02 | 2011-05-20 | 전남대학교산학협력단 | 립 리딩을 위한 입술 영역 설정 방법 및 장치 |
JP2012088675A (ja) * | 2010-10-19 | 2012-05-10 | Inokuma Kazuhito | 音声分析機能を持つ言語発音学習装置及びそのシステム |
US8913103B1 (en) * | 2012-02-01 | 2014-12-16 | Google Inc. | Method and apparatus for focus-of-attention control |
US9159321B2 (en) * | 2012-02-27 | 2015-10-13 | Hong Kong Baptist University | Lip-password based speaker verification system |
CN102663928A (zh) | 2012-03-07 | 2012-09-12 | 天津大学 | 一种聋人学习说话的电子教学方法 |
US20140365221A1 (en) * | 2012-07-31 | 2014-12-11 | Novospeech Ltd. | Method and apparatus for speech recognition |
US9911358B2 (en) * | 2013-05-20 | 2018-03-06 | Georgia Tech Research Corporation | Wireless real-time tongue tracking for speech impairment diagnosis, speech therapy with audiovisual biofeedback, and silent speech interfaces |
US9589357B2 (en) * | 2013-06-04 | 2017-03-07 | Intel Corporation | Avatar-based video encoding |
JP2016129661A (ja) * | 2015-01-09 | 2016-07-21 | パナソニックIpマネジメント株式会社 | 判定システム、制御信号出力システム、リハビリシステム、判定方法、制御信号出力方法、コンピュータプログラム、脳波信号取得システム |
US10888265B2 (en) * | 2015-10-07 | 2021-01-12 | Donna Edwards | Jaw function measurement apparatus |
EP3226570A1 (en) * | 2016-03-31 | 2017-10-04 | Thomson Licensing | Synchronizing audio and video signals rendered on different devices |
CN107578772A (zh) * | 2017-08-17 | 2018-01-12 | 天津快商通信息技术有限责任公司 | 融合声学特征和发音运动特征的发音评估方法和*** |
-
2017
- 2017-08-17 CN CN201710708049.6A patent/CN107578772A/zh active Pending
-
2018
- 2018-09-17 US US16/616,459 patent/US11786171B2/en active Active
- 2018-09-17 WO PCT/CN2018/105942 patent/WO2019034184A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1924994A (zh) * | 2005-08-31 | 2007-03-07 | 中国科学院自动化研究所 | 一种嵌入式语音合成方法及*** |
CN101292281A (zh) * | 2005-09-29 | 2008-10-22 | 独立行政法人产业技术综合研究所 | 发音诊断装置、发音诊断方法、存储媒介、以及发音诊断程序 |
CN102063903A (zh) * | 2010-09-25 | 2011-05-18 | 中国科学院深圳先进技术研究院 | 言语交互训练***及方法 |
CN103218924A (zh) * | 2013-03-29 | 2013-07-24 | 上海众实科技发展有限公司 | 一种基于音视频双模态的口语学习监测方法 |
WO2015030471A1 (en) * | 2013-08-26 | 2015-03-05 | Seli Innovations Inc. | Pronunciation correction apparatus and method thereof |
CN106409030A (zh) * | 2016-12-08 | 2017-02-15 | 河南牧业经济学院 | 一种个性化外语口语学习*** |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019034184A1 (zh) * | 2017-08-17 | 2019-02-21 | 厦门快商通科技股份有限公司 | 融合声学特征和发音运动特征的发音评估方法和*** |
US11786171B2 (en) | 2017-08-17 | 2023-10-17 | Xiamen Kuaishangtong Tech. Corp., Ltd. | Method and system for articulation evaluation by fusing acoustic features and articulatory movement features |
CN108922563A (zh) * | 2018-06-17 | 2018-11-30 | 海南大学 | 基于偏差器官形态行为可视化的口语学习矫正方法 |
CN108922563B (zh) * | 2018-06-17 | 2019-09-24 | 海南大学 | 基于偏差器官形态行为可视化的口语学习矫正方法 |
CN109360645B (zh) * | 2018-08-01 | 2021-06-11 | 太原理工大学 | 一种构音障碍发音运动异常分布的统计分类方法 |
CN109360645A (zh) * | 2018-08-01 | 2019-02-19 | 太原理工大学 | 一种构音障碍发音运动异常分布的统计分类方法 |
CN109697976A (zh) * | 2018-12-14 | 2019-04-30 | 北京葡萄智学科技有限公司 | 一种发音识别方法及装置 |
CN111951828A (zh) * | 2019-05-16 | 2020-11-17 | 上海流利说信息技术有限公司 | 发音测评方法、装置、***、介质和计算设备 |
CN110223671B (zh) * | 2019-06-06 | 2021-08-10 | 标贝(深圳)科技有限公司 | 语言韵律边界预测方法、装置、***和存储介质 |
CN110223671A (zh) * | 2019-06-06 | 2019-09-10 | 标贝(深圳)科技有限公司 | 语言韵律边界预测方法、装置、***和存储介质 |
CN112927696A (zh) * | 2019-12-05 | 2021-06-08 | 中国科学院深圳先进技术研究院 | 一种基于语音识别的构音障碍自动评估***和方法 |
CN111210838A (zh) * | 2019-12-05 | 2020-05-29 | 中国船舶工业综合技术经济研究院 | 一种言语认知能力的评价方法 |
CN111210838B (zh) * | 2019-12-05 | 2023-09-15 | 中国船舶工业综合技术经济研究院 | 一种言语认知能力的评价方法 |
CN113496696A (zh) * | 2020-04-03 | 2021-10-12 | 中国科学院深圳先进技术研究院 | 一种基于语音识别的言语功能自动评估***和方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200178883A1 (en) | 2020-06-11 |
US11786171B2 (en) | 2023-10-17 |
WO2019034184A1 (zh) | 2019-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107578772A (zh) | 融合声学特征和发音运动特征的发音评估方法和*** | |
JP6906067B2 (ja) | 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体 | |
Rudzicz et al. | The TORGO database of acoustic and articulatory speech from speakers with dysarthria | |
Sandoval et al. | Automatic assessment of vowel space area | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
US8708702B2 (en) | Systems and methods for learning using contextual feedback | |
Wang et al. | Articulatory distinctiveness of vowels and consonants: A data-driven approach | |
Zimmermann et al. | Articulatory patterns of an adventitiously deaf speaker: Implications for the role of auditory information in speech production | |
Golabbakhsh et al. | Automatic identification of hypernasality in normal and cleft lip and palate patients with acoustic analysis of speech | |
Wang et al. | Phoneme-level articulatory animation in pronunciation training | |
CN102426834B (zh) | 测试英文口语韵律水平的方法 | |
Whitfield et al. | Examining acoustic and kinematic measures of articulatory working space: Effects of speech intensity | |
TWI749663B (zh) | 發聲監控之方法及系統 | |
Kim et al. | A kinematic study of critical and non-critical articulators in emotional speech production | |
CN107452370A (zh) | 一种中文鼻韵母发音障碍患者的判断装置的使用方法 | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
CN109360645B (zh) | 一种构音障碍发音运动异常分布的统计分类方法 | |
Abdullaeva et al. | Formant set as a main parameter for recognizing vowels of the Uzbek language | |
Berger | Measurement of vowel nasalization by multi-dimensional acoustic analysis | |
Ansari et al. | A deep learning model to snore detection using smart phone | |
Jeyalakshmi et al. | Deaf speech assessment using digital processing techniques | |
de Menezes et al. | A method for lexical tone classification in audio-visual speech | |
Kourkounakis | Toward smart classrooms: Automated detection of speech analytics and disfluency with deep learning | |
CN116705070B (zh) | 一种唇腭裂术后说话发音及鼻音矫正方法及*** | |
CN112731289B (zh) | 一种基于加权模板匹配的双耳声源定位方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180726 Address after: 361000 room 640, Chuang Chuang building, Pioneer Park, torch high tech Zone, Xiamen, Fujian Applicant after: XIAMEN KUAISHANGTONG TECH. Corp.,Ltd. Address before: 300354 Segotep No. 15, Xinzhuang Town, Jinnan District, Tianjin, 15, 401 Applicant before: TIANJIN KUAISHANG COMMUNICATION TECHNOLOGY CO.,LTD. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180112 |