KR20100086729A - 오디오 신호 판별을 위한 특징벡터 생성 방법, 및 상기 특징벡터를 이용한 음란성 멀티미디어 콘텐츠 판별 방법 및장치 - Google Patents

오디오 신호 판별을 위한 특징벡터 생성 방법, 및 상기 특징벡터를 이용한 음란성 멀티미디어 콘텐츠 판별 방법 및장치 Download PDF

Info

Publication number
KR20100086729A
KR20100086729A KR1020090006112A KR20090006112A KR20100086729A KR 20100086729 A KR20100086729 A KR 20100086729A KR 1020090006112 A KR1020090006112 A KR 1020090006112A KR 20090006112 A KR20090006112 A KR 20090006112A KR 20100086729 A KR20100086729 A KR 20100086729A
Authority
KR
South Korea
Prior art keywords
audio signal
feature vector
mfcc
capsular
multimedia content
Prior art date
Application number
KR1020090006112A
Other languages
English (en)
Other versions
KR101040906B1 (ko
Inventor
이용주
김봉완
Original Assignee
원광대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 원광대학교산학협력단 filed Critical 원광대학교산학협력단
Priority to KR1020090006112A priority Critical patent/KR101040906B1/ko
Publication of KR20100086729A publication Critical patent/KR20100086729A/ko
Application granted granted Critical
Publication of KR101040906B1 publication Critical patent/KR101040906B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성, 음악 및 음란 동영상 등의 멀티미디어 콘텐츠에 포함된 오디오 신호의 판별을 위해 사용되는 특징벡터를 생성하는 방법에 관한 것으로, 멜프리컨시 캡스트럴 모듈레이션 에너지(Mel-frequency Cepstrum Modualtion Energy, MCME)만을 사용하거나 또는 이와 더불어 멜프리컨시 캡스트럴 계수(Mel-Frequency Cepstral Coefficients, MFCC)를 동시에 사용하되, 오디오 신호의 일부 구간을 이용하여 고속으로 생성하는, 멀티미디어 콘텐츠의 오디오 신호 판별을 위한 특징벡터 생성 방법에 관한 것이다.
본 발명은 멀티미디어 콘텐츠에 포함된 오디오 신호로부터 특징벡터를 추출하여 음란 여부를 판단하는 음란성 멀티미디어 콘텐츠의 판별 방법 및 장치에 관한 것으로, 멜프리컨시 캡스트럴 모듈레이션 에너지(Mel-frequency Cepstrum Modualtion Energy, MCME)만을 사용하거나 또는 이와 더불어 멜프리컨시 캡스트럴 계수(Mel-Frequency Cepstral Coefficients, MFCC)를 동시에 사용하되, 오디오 신호의 일부 구간을 이용하여 고속으로 생성된 특징벡터를 이용한, 음란성 멀티미디어 콘텐츠의 판별 방법 및 장치에 관한 것이다.
MFCC, MCME, 음란, 특징벡터

Description

오디오 신호 판별을 위한 특징벡터 생성 방법, 및 상기 특징벡터를 이용한 음란성 멀티미디어 콘텐츠 판별 방법 및 장치{METHOD FOR PRODUCING FEATURE VECTORS USED IN THE DISCRIMINATION OF AUDIO INFORMATION, AND METHOD AND APPARATUS FOR CLASSIFYING ADULT MOVIES BY USING THE FEATURE VECTORS}
본 발명은 음성, 음악 및 음란 동영상 등의 멀티미디어 콘텐츠에 포함된 오디오 신호의 판별을 위해 사용되는 특징벡터를 생성하는 방법에 관한 것으로, 멜프리컨시 캡스트럴 모듈레이션 에너지(Mel-frequency Cepstrum Modualtion Energy, MCME, 이하 “MCME"라 함)만을 사용하거나 또는 이와 더불어 멜프리컨시 캡스트럴 계수(Mel-Frequency Cepstral Coefficients, MFCC, 이하 “MFCC"라 함)를 동시에 사용하되, 오디오 신호의 일부 구간을 이용하여 고속으로 생성하는, 멀티미디어 콘텐츠의 오디오 신호 판별을 위한 특징벡터 생성 방법에 관한 것이다.
본 발명은 멀티미디어 콘텐츠에 포함된 오디오 신호로부터 특징벡터를 추출하여 음란 여부를 판단하는 음란성 멀티미디어 콘텐츠의 판별 방법 및 장치에 관한 것으로, MCME 만을 사용하거나 또는 이와 더불어 MFCC를 동시에 사용하되, 오디오 신호의 일부 구간을 이용하여 고속으로 생성된 특징벡터를 이용한, 음란성 멀티미디어 콘텐츠의 판별 방법 및 장치에 관한 것이다.
최근 대량의 멀티미디어 콘텐츠가 인터넷을 통해 공개 및 유통되면서, 음란성 콘텐츠가 청소년에게 무방비로 노출되는 사례가 증가하고 있다.
종래에는, 이러한 사례를 방지하기 위한 음란성 콘텐츠 판별 방법으로서, 파일 이름 등에서 선택된 키워드를 이용하여 판별하는 방법을 사용하거나, 콘텐츠 영상 이미지를 분석하여 판별하는 방법이 사용되었다.
그러나 키워드 판별 방법은 파일 이름을 변경시키는 등의 회피 방법에 대처하기 힘들고, 이미지 분석 판별 방법은 배경색, 조명, 색의 분포, 화이트 밸런스 및 피부색 등과 같이 분석 변수들의 종류가 많고 또한 각 변수의 정도(level)가 다양하여 정확한 판별에 어려움이 있음은 물론 분석 시간이 오래 걸리는 등의 문제점이 있었다.
따라서 본 발명의 발명자들은 논문 “오디오 신호에 기반한 음란 동영상 판별”(대한음성학회지 : 말소리, no.63, pp.139-151, 2007년 9월)에서, 멀티미디어 콘텐츠에 포함된 오디오 신호를 분석하여, 음란성을 판단하는 방법을 제시한바 있다.
상기 논문의 방법은 음성 위주 콘텐츠, 음악 위주 콘텐츠 및 음란 영상 위주 콘텐츠에 포함되어 있는 오디오 신호들은 그 특징이 상이하다는 것에 착안한 것으로서, 구체적으로 보면, 음성의 경우 자음과 모음의 연속적 발성으로 신호 스펙트럼 포락선의 변화가 다른 신호에 비해 빠르고, 음악의 경우에는 록큰롤 같이 빠른 음악도 음성에 비해 신호 스펙트럼 포락선 변화가 빠르지 않고, 음란 영상의 경우 유사한 음향적 특징이 일정한 주기로 매우 분명하게 반복되고 있다는 특징에 기반한 것이다.
즉 멀티미디어 콘텐츠에 포함된 오디오 신호를 판별하기 위해서는, 음란 영상에서 자주 출현하는 교성, 신음소리 등의 음향적 특징뿐만 아니라 단위시간당 변화 특징까지 고려하여 오디오 신호를 분석하는 것이 요구되는 것이다.
따라서 상기 논문은, 임의의 시간에 존재하는 음향적 특성을 반영하는 특징벡터인 MFCC 뿐만 아니라, 단위시간당 변화를 반영하는 특징벡터로서 본 발명자들이 새로이 MCME를 제안하여, MCME 또는 MCME + MFCC로 이루어진 특징벡터로 멀티미디어 콘텐츠의 오디오 신호를 판별하는 방법을 제안한 바 있다.
또한 더 나아가서, 상기 논문은, 멀티미디어 콘텐츠에서 MFCC, MCME, MCME + MFCC 등의 특징벡터를 추출하여 실험한 결과, 기대한 바와 같이, MCME, MCME + MFCC의 특징벡터가 탁월한 판별 효과를 거두었음을 밝혔다.
그러나 상기 논문의 방법은 판별 대상이 되는 멀티미디어 콘텐츠의 오디오 신호 전체를 분석 대상으로 하고 있는바, 동일한 판별 효과를 보유하되 보다 적은 계산량과 빠른 분석 속도가 가능하도록 하는 방안이 결여되어 있으므로 이에 대한 개선 방법이 필요하다 하겠다.
따라서 본 발명의 목적은, 음성, 음악 및 음란 동영상 등의 멀티미디어 콘텐츠에 포함된 오디오 신호의 판별을 위해 사용되는 특징벡터로써 MCME 만을 사용하거나 또는 이와 더불어 MFCC 를 동시에 사용하되, 오디오 신호의 일부 구간을 이용하여 고속으로 특징벡터를 생성함에 있다.
또한 본 발명의 목적은, 멀티미디어 콘텐츠에 포함된 오디오 신호로부터 특징벡터를 추출하여 음란 여부를 판단하는 음란성 멀티미디어 콘텐츠의 판별 방법 및 장치를 제공하되, MCME 만을 사용하거나 또는 이와 더불어 MFCC 를 동시에 사용하되, 오디오 신호의 일부 구간을 이용하여 고속으로 생성된 특징벡터를 이용한, 음란성 멀티미디어 콘텐츠의 판별 방법 및 장치를 제공함에 있다.
상기 기술적 과제를 달성하기 위하여, 본 발명에 따른 멀티미디어 콘텐츠의 오디오 신호 판별을 위한 특징벡터 생성 방법은 멀티미디어 콘텐츠의 오디오 신호의 특징을 판별하는 특징벡터로 사용하기 위하여, 다음의 수학식을 이용하여 멜프리컨시 캡스트럴 모듈레이션 에너지(Mel-frequency Cepstrum Modualtion Energy, MCME)를 생성하되, 오디오 신호의 일부 구간을 이용하여 생성하는 것을 특징으로 한다.
Figure 112009004784310-PAT00001
여기서, n은 프레임의 인덱스이고, q는 모듈레이션 주파수의 인덱스이고, C[n,l]은 n번째 프레임의 l번 인덱스의 MFCC 성분이고, L은 MFCC 특징벡터의 차수이고, P는 MFCC 특징벡터에서 푸리에 변환을 수행하기 위한 푸리에 변환 사이즈이고, E(n)은 n번째 프레임에 포함된 오디오 신호의 각 값에 제곱을 취하고 이를 더한 값이다.
본 발명인 멀티미디어 콘텐츠에 포함된 오디오 신호의 판별을 위한 특징벡터 생성 방법은, MCME 만을 사용하거나 또는 이와 더불어 MFCC를 동시에 사용하여 특징벡터를 생성하되, 오디오 신호의 일부 구간을 이용함으로써 고속으로 특징벡터를 생성할 수 있는 효과가 있다.
본 발명인 음란성 멀티미디어 콘텐츠의 판별 방법 및 장치는, MCME 만을 사용하거나 또는 이와 더불어 MFCC 를 동시에 사용하여 생성된 특징벡터를 이용하되, 오디오 신호의 일부 구간을 이용하여 고속으로 생성된 특징벡터를 이용함으로써 고속으로 음란성을 판별할 수 있는 효과가 있다.
이하, 도면을 참조하여 설명하기에 앞서, 본 발명의 요지를 드러내기 위해서 필요하지 않은 사항 즉 통상의 지식을 가진 당업자가 자명하게 부가할 수 있는 공 지 구성에 대해서는 도시하지 않거나, 구체적으로 기술하지 않았음을 밝혀둔다.
먼저, MFCC는 인간의 청각 특성을 반영하여, 임의의 시간에 존재하는 오디오 신호의 음향적 특성을 드러내는 특징벡터이다.
MFCC 는 오디오 신호에 푸리에 변환을 취하여 스펙트럼을 구한 후, 구한 스펙트럼에 대해 멜 스케일에 맞춘 삼각 필터 뱅크를 대응시켜 각 밴드에서의 크기의 합을 구하고 필터 뱅크 출력값에 로그를 취한 후, 이산 코사인 변환을 하여 구해진다.
MFCC 는 음성인식 기술 분야에서 통상적으로 사용되는 것이므로 보다 구체적인 기술은 생략한다.
MCME는, 본 발명의 발명자들이 상기 논문 “오디오 신호에 기반한 음란 동영상 판별”(대한음성학회지 : 말소리, no.63, pp.139-151, 2007년 9월)에서 새로이 제안한 것으로, MFCC 영역에서 푸리에 변환을 수행하여 구해진 에너지 값이다.
즉 MFCC가 특정 시간에 존재하는 오디오 신호의 음향적 특성을 반영한다면 MCME는 보다 넓은 시간 구간에서의 음향적 특성의 변화 양상을 표현한다.
MCME의 정의는 하기 [수학식 1]과 같다.
Figure 112009004784310-PAT00002
여기에서, n은 프레임의 인덱스를 의미한다.
또한 q는 모듈레이션 주파수의 인덱스를 의미하는데, 낮은 q는 시간에 따른 변화가 적음을 의미하며 높은 q는 시간에 따른 변화가 많음을 의미한다.
또한 C[n,l]은 n번째 프레임의 l번 인덱스의 MFCC 성분을, L은 MFCC 특징벡터의 차수를, P는 MFCC 특징벡터에서 푸리에 변환을 수행하기 위한 푸리에 변환 사이즈를 각각 의미한다.
또한 E(n)은 n번째 프레임의 에너지를 의미하며, n번째 프레임에 포함된 오디오 신호의 각 값에 제곱을 취하고 이를 더한 값이다.
도 1은 본 발명의 일 실시예에 따른 특징 벡터 생성 방법이다.
먼저, S110 단계에서는, 멀티미디어 콘텐츠에서 1개의 MCME를 구할 수 있을 길이의 오디오 신호를 획득한다.
이는 음란성 멀티미디어 콘텐츠의 경우, 유사한 음향적 특징이 일정한 주기로 분명하게 반복되고 있을 뿐만 아니라, 그 재생 구간의 길이가 최소한 몇 분 ~ 몇 십 분으로 상당히 긴 편이므로, 콘텐츠 전체의 오디오 신호에 대하여 특징벡터를 추출할 필요 없이, 음란성 음향적 특징이 드러나기에 충분할 정도의 일정한 간격마다 특징벡터를 추출하여 이를 기반으로 음란성 여부를 판단하더라도 성능의 저하는 없으면서 분석 속도를 향상시킬 수 있다는 점에 기반 한다.
일 실시예로서, 1개의 MCME를 구할 수 있을 길이(Length)의 계산식은 하기 [수학식 2]와 같다.
Figure 112009004784310-PAT00003
여기에서 P는 MFCC 특징벡터에서 MCME를 구하기 위해 푸리에 변환을 수행하기 위한 DFT (Discrete Fourier Transform) 사이즈를, A는 MFCC를 구하기 위한 프레임 윈도우의 전진 크기를, W는 MFCC를 구하기 위한 프레임 윈도우의 크기를 각각 의미한다.
길이(Length)를 구하기 위한 예로서, 만약 MFCC를 구하기 위한 해밍 윈도우의 크기(W)가 25 msec이고, 윈도우를 10 msec씩 전진(A)하면서 MFCC를 구하며, MCME를 구하기 위해 32포인트(P)의 FFT(Fast Fourier Transform)을 수행한다면, 1개의 MCME를 구하기 위한 길이(Length)는 335 msec (= 32 * 10 msec + (25 msec - 10 msec))가 된다.
S120 단계에서는, S110 단계에서 획득한 오디오 신호 구간에 대해서만 샘플링 주파수(Sampling frequency) 정규화를 수행한다.
멀티미디어 콘텐츠로부터 추출한 오디오 신호의 샘플링 주파수는 44.1 KHz, 48 KHz, 22 KHz, 11 KHz, 32 KHz, 16 KHz 등과 같이 다양할 수 있으며, 이러한 다양한 샘플링 주파수를 갖는 오디오 신호로부터 바로 특징벡터를 추출할 경우에는, 정상 오디오 신호 모델 및 음란 오디오 신호 모델의 학습에 사용된 오디오 신호의 샘플링 주파수와 다를 경우(sampling frequency mismatch) 판별 성능이 저하될 우려가 있다.
따라서 S120 단계에서는, 판별하려고 하는 멀티미디어 콘텐츠에 포함된 오디오 신호의 샘플링 주파수가 정상 오디오 신호 모델 및 음란 오디오 신호 모델의 학습에 사용된 샘플링 주파수 보다 높은 경우에는 다운 샘플링(down sampling)과정 을, 낮은 경우에는 업 샘플링(up sampling)과정을 각각 거쳐서 학습에 사용된 샘플링 주파수와 맞추어 주게 된다.
S130 단계에서는, 1개의 MCME를 구하기 위한 MFCC 및 로그 에너지(Log Energy)를 추출한다. [수학식 1]을 참조하여 보면, MCME를 구하기 위해서는, 분자 및 분모에 대응되는 값 즉 MFCC 및 로그 에너지(Log Energy)의 추출이 필요함을 알 수 있다.
또한 추후 MFCC를 MCME에 합하여 새로운 특징벡터를 구하기 위해서도 필요하다.
여기에서, MFCC를 추출하기 위한 방법은 본 기술분야에서 통상적인 방법으로 수행되는 것으로서 구체적인 기술은 생략한다.
또한 로그 에너지(Log Energy)는 음향적 특성의 변화 양상을 드러내기 위한 것으로서, [수학식 1]의 분모에 표시되어 있다.
바람직하게, 향후 MCME 계산이나 또는 MFCC + MCME 계산에 사용하기 위해서, 추출된 MFCC 및 Log Energy 각 값을 별도의 메모리에 저장한다.
S140 단계에서는, S130 단계에서 구한 추출한 MFCC 및 로그 에너지(Log Energy)를 이용하여 1개의 MCME 특징벡터를 추출한다.
바람직하게, 향후 MFCC + MCME 계산에 사용하기 위해서, 추출된 MFCC 특징벡터를 별도의 메모리에 저장한다.
S 150 단계에서는, 현재 위치가 멀티미디어 콘텐츠에 포함된 오디오 신호 전체 구간의 끝인지를 체크한다.
S 160 단계는, S 150 단계에서 오디오 신호 전체 구간의 끝이 아니라고 판단되면, S 110 단계에서 획득한 오디오 신호의 끝에서부터 미리 정한 간격만큼 오디오 신호를 스킵하고, 다시 S 110 단계로 돌아가게 된다.
실험적으로 보면, MCME 특징벡터로만 멀티미디어 콘텐츠의 오디오 신호를 판별할 때, 일정 간격마다 MCME를 추출하는 것이 오디오 신호 전체에 대해서 MCME를 추출하는 것보다 월등하게 빠른 속도를 보이고 있다.
구체적으로 보면, 1.6초 마다 1개의 MCME 특징 벡터를 추출할 경우 성능 저하는 전혀 없으면서 4.8배 빠른 속도로 오디오 신호를 판별하였으며, 6.4초 마다 1개의 MCME 특징 벡터를 추출할 경우 0.18%의 판별 성능 저하는 있었으나 속도는 19.1배의 향상이 있다.
이는 샘플링 주파수 정규화, MFCC 및 로그 에너지(Log Energy) 추출, MCME 특징벡터 추출 및 CMS 등의 신호처리 과정이 전체 오디오 신호에 대해 수행하는 것이 아니고, 일정한 간격마다 수행하므로 계산량과 시간이 현저하게 절약되는 것에 기인한다.
바람직하게, 콘텐츠에서 음란성 음향이 있는 구간을 충분히 반영하여 판별 성능에 지장이 없도록 스킵 간격을 적절히 조절한다.
S 160 단계 이후에 다시 S 110 단계 ~ S 150 단계를 거치게 되는 경우, 새로이 추출된 MFCC, 로그 에너지(Log Energy) 및 MCME는 그 전에 구해졌던 각각의 값들에 더해지게 되며, 특히 MFCC 및 MCME의 경우에는 벡터의 차수가 증가되면서 새로운 특징벡터로 형성된다.
S 170 단계 및 S 180 단계는 MCME + MFCC 의 특징벡터를 생성할 경우에만 수행되는 단계이므로, 만약 MCME 로만 오디오 신호를 판별하는 특징벡터로 사용할 시에는 수행되지 않을 수도 있다.
S 170 단계는, S 150 단계에서 오디오 신호 전체 구간의 끝이라고 판단되면, 추출된 MFCC 특징벡터에 대하여 CMS(Cepstral Mean Subtraction)를 적용한다.
즉 S 130 단계에서 추출되어 별도 메모리에 저장되어 있던 MFCC 특징벡터에 대하여 CMS(Cepstral Mean Subtraction)를 적용하는 것으로, MFCC 특징벡터의 각 계수(coefficients)들의 전체 평균을 구한 후, 이 계수별 평균값을 MFCC 특징벡터에서 빼어주는 과정이다.
여기에서, CMS(Cepstral Mean Subtraction)은 CMN (Cepstral Mean Normalization)으로도 불리는 과정으로서, 채널 (전송 채널 및 마이크로 폰 등) 특성에 따른 음향적 특성의 변화를 보상하는 테크닉으로 널리 사용되는 과정이다.
일반적으로 멀티미디어 콘텐츠들은 다양한 환경에서 다양한 장비를 이용하여 제작되므로 각 콘텐츠마다 채널 특성이 상이한바, 이를 보상하는 CMS를 적용하여 판별 성능을 좋게 할 수 있다.
그러나 이는 콘텐츠 특성 및 판별 성능의 조건에 따라 적용이 되지 않을 수도 있는 것이므로, S 170 단계는 일종의 선택 사항으로서 수행된다.
S 180 단계는 MCME + MFCC 특징벡터를 생성하는 단계로서, 기 서술하였듯이 MCME 로만 오디오 신호를 판별할 시에는 수행되지 않는다.
S 130 단계에서 추출되어 별도 메모리에 저장되어 있던 MFCC 특징벡터와 S 140 단계에서 추출되어 별도 메모리에 저장되어 있던 MCME 특징벡터를 합하여 MCME + MFCC 특징벡터가 생성된다.
예를 들어, MCME의 차수가 15차이고, MFCC의 차수가 12차라면, 27차의 MCME + MFCC 특징벡터가 생성된다.
도 2는 본 발명의 일 실시예에 따른 특징벡터를 이용한 음란성 멀티미디어 콘텐츠 판별 장치이다.
특징벡터 추출부(100)는 멀티미디어 콘텐츠 오디오 신호의 일부 구간을 이용하여 음란성 판별을 위한 특징벡터를 추출하는 구성요소로서, 도 1에 도시한 바의 방법을 이용하여 MCME 또는 MCME + MFCC 의 특징벡터를 구한다.
음란성 판별부(200)는 특징벡터 추출부(100)에서 추출된 특징벡터와 음향모델(300)을 이용하여 멀티미디어 콘텐츠의 음란성을 판별하는 구성요소이다.
음향모델(300)에는 음란 오디오 신호 모델 및 정상 오디오 신호 모델이 포함될 수 있는데, 음란 오디오 신호 모델에는 음란성 콘텐츠에서 자주 출현하는 교성, 신음소리, 접촉음 등의 음향적 특징 및 이 음향적 특징의 시간당 변화 특징에 대한 통계적 정보가 저장되며, 사전에 음란 콘텐츠의 오디오 신호로부터 MCME 및 MCME + MFCC의 특징벡터가 추출되어 학습된다.
정상 오디오 신호 모델은 스포츠, 뉴스, 음악, 음성 등 다양한 오디오 신호로부터 MCME 및 MCME + MFCC의 특징벡터가 추출되어 학습된다.
음란성 판별부(200)는 특징벡터 추출부(100)에서 추출된 특징벡터를 이용하여 음향모델(300)에 포함된 정상 오디오 신호 모델 및 음란 오디오 신호 모델과의 확률적 유사함을 계산하고 음란 오디오 신호 모델일 확률이 높으면 음란성 콘텐츠로 판별하게 된다.
여기에서, 음란성 판별부(200)는 음성인식 분야에서 많이 사용되는 HMM(Hidden Markov Model), GMM(Gaussian Mixture Model), SVM(Support Vector Machine)외에 인공 신경망, 유전자 알고리즘 등을 사용할 수 있다.
한편 상기에서 도 1 및 도 2를 이용하여 서술한 것은, 본 발명의 주요 사항만을 서술한 것으로, 그 기술적 범위 내에서 다양한 설계가 가능한 만큼, 본 발명이 도 1 및 도 2에 한정되는 것이 아님은 자명하다.
도 1은 본 발명의 일 실시예에 따른 특징벡터 생성 방법.
도 2는 본 발명의 일 실시예에 따른 특징벡터를 이용한 음란성 멀티미디어 콘텐츠 판별 장치.
<도면의 주요 부분에 대한 부호의 설명>
100 : 특징벡터 추출부 200 : 음란성 판별부
300 : 음향모델

Claims (7)

  1. 멀티미디어 콘텐츠의 오디오 신호의 특징을 판별하는 특징벡터로 사용하기 위하여, 다음의 수학식을 이용하여 멜프리컨시 캡스트럴 모듈레이션 에너지(Mel-frequency Cepstrum Modualtion Energy, MCME)를 생성하되,
    오디오 신호의 일부 구간을 이용하여 생성하는 것을 특징으로 하는, 멀티미디어 콘텐츠의 오디오 신호 판별을 위한 특징벡터 생성 방법.
    Figure 112009004784310-PAT00004
    여기서, n은 프레임의 인덱스이고, q는 모듈레이션 주파수의 인덱스이고, C[n,l]은 n번째 프레임의 l번 인덱스의 MFCC 성분이고, L은 MFCC 특징벡터의 차수이고, P는 MFCC 특징벡터에서 푸리에 변환을 수행하기 위한 푸리에 변환 사이즈이고, E(n)은 n번째 프레임에 포함된 오디오 신호의 각 값에 제곱을 취하고 이를 더한 값이다.
  2. 제 1 항에 있어서, 오디오 신호의 일부 구간을 이용하여 생성하는 것은,
    1개의 멜프리컨시 캡스트럴 모듈레이션 에너지를 구할 수 있을 길이의 오디오 신호를 획득하는 단계;
    멜프리컨시 캡스트럴 모듈레이션 에너지를 생성하는 단계;
    오디오 신호 전체 구간의 끝인지를 판단하는 단계;
    오디오 신호 전체 구간의 끝이면 작업을 종료하고, 끝이 아니면 미리 정한 간격만큼 오디오 신호를 스킵 하고 상기 오디오 신호 획득 단계로 돌아가는 단계;를 포함하는 것을 특징으로 하는, 멀티미디어 콘텐츠의 오디오 신호 판별을 위한 특징벡터 생성 방법.
  3. 멀티미디어 콘텐츠의 오디오 신호의 특징을 판별하는 특징벡터로 사용하기 위하여, 청구항 1의 수학식을 이용하여 멜프리컨시 캡스트럴 모듈레이션 에너지를 생성하고, 이를 멜프리컨시 캡스트럴 계수(Mel-Frequency Cepstral Coefficients, MFCC) 와 합하여 특징벡터를 생성하되,
    오디오 신호의 일부 구간을 이용하여 생성하는 것을 특징으로 하는, 멀티미디어 콘텐츠의 오디오 신호 판별을 위한 특징벡터 생성 방법.
  4. 제 3 항에 있어서, 오디오 신호의 일부 구간을 이용하여 생성하는 것은,
    1개의 멜프리컨시 캡스트럴 모듈레이션 에너지를 구할 수 있을 길이의 오디오 신호를 획득하는 단계;
    멜프리컨시 캡스트럴 모듈레이션 에너지를 생성하는 단계;
    오디오 신호 전체 구간의 끝인지를 판단하는 단계;
    오디오 신호 전체 구간의 끝이면 멜프리컨시 캡스트럴 모듈레이션 에너지와 멜프리컨시 캡스트럴 계수를 합하는 단계;
    오디오 신호 전체 구간의 끝이 아니면 미리 정한 간격만큼 오디오 신호를 스킵 하고 상기 오디오 신호 획득 단계로 돌아가는 단계;를 포함하는 것을 특징으로 하는, 멀티미디어 콘텐츠의 오디오 신호 판별을 위한 특징벡터 생성 방법.
  5. 제 3 항에 있어서, 오디오 신호의 일부 구간을 이용하여 생성하는 것은,
    1개의 멜프리컨시 캡스트럴 모듈레이션 에너지를 구할 수 있을 길이의 오디오 신호를 획득하는 단계;
    멜프리컨시 캡스트럴 모듈레이션 에너지를 생성하는 단계;
    오디오 신호 전체 구간의 끝인지를 판단하는 단계;
    오디오 신호 전체 구간의 끝이면, 멜프리컨시 캡스트럴 계수에 캡스트럴 민 서브트랙션(Cepstral Mean Subtraction, CMS)를 적용한 후, 다시 멜프리컨시 캡스트럴 모듈레이션 에너지를 합하는 단계;
    오디오 신호 전체 구간의 끝이 아니면 미리 정한 간격만큼 오디오 신호를 스킵 하고 상기 오디오 신호 획득 단계로 돌아가는 단계;를 포함하는 것을 특징으로 하는, 멀티미디어 콘텐츠의 오디오 신호 판별을 위한 특징벡터 생성 방법.
  6. 멀티미디어 콘텐츠의 오디오 신호에서 특징벡터를 추출하는 단계;
    상기 특징벡터 및, 정상 오디오 신호 모델 및 음란 오디오 신호 모델을 포함하는 음향모델을 이용하여 멀티미디어 콘텐츠의 음란성을 판별하는 단계;를 포함하되,
    상기 특징벡터를 추출하는 단계는 청구항 1 내지 5 중 한 항의 방법을 이용하는 것을 특징으로 하는, 음란성 멀티미디어 콘텐츠 판별 방법.
  7. 특징벡터 추출부;
    음란성 판별부;
    음향모델;을 포함하되,
    상기 특징벡터 추출부는 청구항 1 내지 5 중 한 항의 방법을 이용하여 멀티미디어 콘텐츠의 오디오 신호로부터 특징벡터를 추출하고, 상기 음란성 판별부는 상기 특징벡터 추출부에서 추출한 특징벡터와 상기 음향모델을 이용하여 멀티미디어 콘텐츠의 음란성을 판별하고, 상기 음향모델은 정상 오디오 신호 모델과 음란 오디오 신호 모델을 포함하는 것을 특징으로 하는 음란성 멀티미디어 콘텐츠 판별 장치.
KR1020090006112A 2009-01-23 2009-01-23 오디오 신호 판별을 위한 특징벡터 생성 방법, 및 상기 특징벡터를 이용한 음란성 멀티미디어 콘텐츠 판별 방법 및장치 KR101040906B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090006112A KR101040906B1 (ko) 2009-01-23 2009-01-23 오디오 신호 판별을 위한 특징벡터 생성 방법, 및 상기 특징벡터를 이용한 음란성 멀티미디어 콘텐츠 판별 방법 및장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090006112A KR101040906B1 (ko) 2009-01-23 2009-01-23 오디오 신호 판별을 위한 특징벡터 생성 방법, 및 상기 특징벡터를 이용한 음란성 멀티미디어 콘텐츠 판별 방법 및장치

Publications (2)

Publication Number Publication Date
KR20100086729A true KR20100086729A (ko) 2010-08-02
KR101040906B1 KR101040906B1 (ko) 2011-06-10

Family

ID=42753725

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090006112A KR101040906B1 (ko) 2009-01-23 2009-01-23 오디오 신호 판별을 위한 특징벡터 생성 방법, 및 상기 특징벡터를 이용한 음란성 멀티미디어 콘텐츠 판별 방법 및장치

Country Status (1)

Country Link
KR (1) KR101040906B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421585A (zh) * 2021-05-10 2021-09-21 云境商务智能研究院南京有限公司 一种音频指纹库生成方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101128521B1 (ko) * 2005-11-10 2012-03-27 삼성전자주식회사 오디오 데이터를 이용한 이벤트 검출 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421585A (zh) * 2021-05-10 2021-09-21 云境商务智能研究院南京有限公司 一种音频指纹库生成方法及装置

Also Published As

Publication number Publication date
KR101040906B1 (ko) 2011-06-10

Similar Documents

Publication Publication Date Title
US11869261B2 (en) Robust audio identification with interference cancellation
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
Singh et al. Multimedia utilization of non-computerized disguised voice and acoustic similarity measurement
Zão et al. Speech enhancement with EMD and hurst-based mode selection
US9257121B2 (en) Device and method for pass-phrase modeling for speaker verification, and verification system
US20120143363A1 (en) Audio event detection method and apparatus
JPH0990974A (ja) 信号処理方法
Venter et al. Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings
Yang et al. BaNa: A noise resilient fundamental frequency detection algorithm for speech and music
US9058384B2 (en) System and method for identification of highly-variable vocalizations
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Shrawankar et al. Adverse conditions and ASR techniques for robust speech user interface
Giganti et al. Speaker-independent microphone identification in noisy conditions
Aroon et al. Speaker recognition system using Gaussian Mixture model
Korkmaz et al. Unsupervised and supervised VAD systems using combination of time and frequency domain features
Pattanayak et al. Pitch-robust acoustic feature using single frequency filtering for children’s KWS
Latorre et al. Speech intonation for TTS: study on evaluation methodology.
KR101040906B1 (ko) 오디오 신호 판별을 위한 특징벡터 생성 방법, 및 상기 특징벡터를 이용한 음란성 멀티미디어 콘텐츠 판별 방법 및장치
Nandi et al. Implicit excitation source features for robust language identification
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
Matrouf et al. Modeling nuisance variabilities with factor analysis for GMM-based audio pattern classification
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
Girirajan et al. Hybrid Feature Extraction Technique for Tamil Automatic Speech Recognition System in Noisy Environment
Akesh et al. Real-Time Subtitle Generator for Sinhala Speech
Chaudhari et al. Effect of varying MFCC filters for speaker recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140429

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150507

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160519

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170518

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180509

Year of fee payment: 8