KR20140041556A - 음성 검출 시스템, 장치 및 방법 - Google Patents

음성 검출 시스템, 장치 및 방법 Download PDF

Info

Publication number
KR20140041556A
KR20140041556A KR1020137033361A KR20137033361A KR20140041556A KR 20140041556 A KR20140041556 A KR 20140041556A KR 1020137033361 A KR1020137033361 A KR 1020137033361A KR 20137033361 A KR20137033361 A KR 20137033361A KR 20140041556 A KR20140041556 A KR 20140041556A
Authority
KR
South Korea
Prior art keywords
touch screen
communication device
mobile communication
voice activity
parameters
Prior art date
Application number
KR1020137033361A
Other languages
English (en)
Inventor
아리 헤이만
유리 예후데이
Original Assignee
본 톤 커뮤니케이션즈 (이스라엘) 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 본 톤 커뮤니케이션즈 (이스라엘) 엘티디. filed Critical 본 톤 커뮤니케이션즈 (이스라엘) 엘티디.
Publication of KR20140041556A publication Critical patent/KR20140041556A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)

Abstract

이동 통신 시스템은: a) 터치 스크린을 구비한 이동 통신 장치; 및, b) 상기 터치 스크린의 일정 영역에 적용되는 압력과, 시간에 따라서 그것의 변화를 나타내는 데이타를 상기 터치 스크린으로부터 수신하기에 적합한 음성 활동 분석기;를 포함한다.

Description

음성 검출 시스템, 장치 및 방법{SYSTEM, DEVICE AND METHOD FOR DETECTING SPEECH}
본 발명은 휴대용 전화기와 같은 통신 장치에 관련된 터치 스크린의 신규한 사용, 그리고 그러한 사용을 위해 설계된 통신 장치에 관한 것이다. 또한, 본 발명은 음성 발생의 감지에 의한 이동 통신 장치의 작동에 관한 것이다.
이동 통신 장치는 지난 10년간 실제적으로 진화하여 왔고, 이러한 진화는 PDA와 같은 휴대용 컴퓨터, 및 휴대용 또는 무선 전화기와 같은 전화장치 사이에서 많은 경우에 차별이 없도록 하였다. 사용자는 휴대용 또는 무선 전화기를 사용하는 것과 거의 유사하게, VoIP, 또는 휴대폰-지원 PDA를 통해 통신할 수 있다. 아이폰과 갤럭시와 같은 제품들은 완전히 다른 종류의 장치들 사이의 구분을 흐리게 했다. 간략화를 위하여, 이하의 상세한 설명의 여러 경우에서는, "전화기"를 참조하여 설명될 것이지만, 그러한 용어는 상기 언급된 것들을 포함하여 모든 가능한 통신 기기를 포함하는 것으로 이해되어야 한다.
전화기의 광범위한 사용은, 매우 다른 상태에서, 매우 다른 환경에서, 그리고 사용자가 다양한 활동을 하고 있을 때, 사용되는 장치로서 그것들을 변화시켰다. 예를 들면, 동일한 휴대폰이 조용한 방에서 사용될 수도 있고, 파티에서의 시끄러운 환경에서, 또는 외부의 바람부는 조건 하에서 사용될 수도 있다. 또한, 사용자가 다른 활동에 종사하는 때에, 이러한 전화기상의 실제 또는 가상 버튼을 누르는 것과 같은 추가적인 작업을 수행하기 위해 단지 손이 하나이거나, 또는 전혀 손을 사용할 수 없는 경우에도, 휴대폰은 사용된다.
특히 하나의 도전적인 영역은, 소음 환경에서 특별히 통신 품질을 향상시키기 위하여, 그리고 사용자의 음성에 의해서 조절되는 임의의 다른 작업을 수행하기 위한 것과 같이, 그 두가지를 위한 사용자의 음성 활동의 인식에 관한 것이다.
따라서, 통신 장치에서 사용자의 음성과 관련된 매개 변수들을 감지하는 방법 및 장치에 대한 필요성이 존재하며, 이러한 매개 변수들은 상기 통신 장치 내부에서 추가적인 프로세스를 수행하는 데에 사용될 수 있다.
본 발명의 목적은, 통신 장치에 제공된 터치 스크린을 이용하고, 통신 장치의 사용자 음성과 관련된 매개 변수들을 검출할 수 있는 간단하고 비교적 저렴한 방법을 제공하는 데에 있다.
본 발명의 다른 목적은, 사용자의 음성과 관련된 매개 변수들을 검출할 수 있는 통신 장치를 제공하는 데에 있다.
본 발명의 다른 목적 및 이점들은 이하의 설명이 진행됨에 따라서 명백해질 것이다.
본 발명의 이동 통신 시스템은:
a) 터치 스크린을 구비한 이동 통신 장치; 및,
b) 상기 터치 스크린의 일정 영역에 적용되는 압력과, 시간에 따라서 그것의 변화를 나타내는 데이타를 상기 터치 스크린으로부터 수신하기에 적합한 음성 활동 분석기;를 포함한다.
본 발명의 일 실시 예에 따르면, 상기 음성 활동 분석기는:
A) 클러스터들(clusters)들을 식별하기 위한 클러스터 프로세서;
B) 상기 클러스터 프로세서에 의해서 식별된 클러스터들로부터 매개 변수들을 추출하는 특징 추출기;
C) 상기 매개 변수들을 분석하는 특징 분석기; 및
D) 상기 매개 변수들을 처리하여 사용자가 말하는 지의 여부를 결정하기에 적합한 음성 활동 의사 결정 요소;들을 포함한다.
본 발명의 일 실시 예에서, 상기 음성 활동 분석기는 상기 이동 통신 장치와 일체형이지만, 본 발명의 다른 실시 예에 따르면, 상기 음성 활동 분석기는 이동 통신 장치로부터 멀리 떨어진 원격 위치에 있고, 그와 통신하도록 되어 있다. 상기 음성 활동 분석기와 상기 이동 통신 장치 사이의 통신은 임의의 적합한 방식으로서 수행될 수 있으며, 전형적으로는, 그러나 제한적이지는 않으며, 무선 인터넷(Wi-Fi) 또는 블루투스를 통하여 수행하거나, 또는 임의의 유선 또는 무선 수단에 의해서 실행된다.
본 발명에 따른 이동 통신 장치는 휴대용 전화기, 무선 전화기, PDA 등과 같은 다른 타입일 수 있다.
또한, 본 발명은 터치 스크린을 구비한 이동 통신 장치의 사용자가 상기 이동 통신 장치로 말하는 지의 여부를 결정하기 위한 방법에 관한 것이며:
(i) 상기 터치 스크린과 사용자의 볼(cheek) 사이의 접촉으로부터 생성된 그리드 포인트들의 클러스터들을 나타내는 신호들을 상기 터치 스크린으로부터 얻고;
(ⅱ) 시간 경과에 따라서 상기 클러스터들의 압력 관련 매개 변수들의 동력학을 분석하며; 그리고
(ⅲ) 상기 분석으로부터, 음성 활동이 존재하는 지를 결정하는 단계;들을 포함한다.
이하의 상세한 설명에서 더욱 자세히 설명되는 바와 같이, 클러스터들은 터치 스크린상의 그들의 좌표들에 의해서 미분되어지는 화소들 또는 화소 그룹들을 포함한다. 상기 사용자의 볼과 터치 스크린 사이의 접촉으로부터 얻어질 수 있는 매개 변수들은 다른 종류일 수 있으며, 예를 들면 중심, 경계, 영역 및 방향, 또는 상기 매개 변수들의 2종 이상의 조합으로부터 선택될 수 있다.
또한, 본 발명은 상기 장치가 사용자의 귀 근처로 이동되었는 지의 여부를 나타내는 표시를 얻도록 상기 이동 통신 장치내에 제공된 센서들을 이용하는 장치 및 방법을 포함한다.
본 발명은 통신 장치에 제공된 터치 스크린을 이용하고, 통신 장치의 사용자 음성과 관련된 매개 변수들을 검출할 수 있는 간단하고 비교적 저렴한 방법을 제공할 수 있다.
그리고, 본 발명은 사용자의 음성과 관련된 매개 변수들을 검출할 수 있는 통신 장치를 제공한다.
도면에서:
도 1은 본 발명에 관련된 전형적인 상황을 도시한다:
도 lA는 터치 스크린을 탑재한 휴대용 전화기를 구비한 사용자가 그의 볼에 전화기를 위치시킨 상태를 도시한다.
도 1B는 예시적인 휴대용 전화기의 정면도를 도시한다.
도 2는 터치 스크린의 2차원 그리드 표현을 개략적으로 도시한다;
도 3은 본 발명의 실시 예에 따라서 구축되고 작동되는 음성 활동 검출(SAD)에 적합한 예시적인 터치 스크린 요소들을 도시한다;
도 4는 개략적인 SAD 분석 시스템을 도시한다; 그리고
도 5는 상기 터치 스크린으로부터 얻어진 데이터의 분석을 예시한다:
도 5A는 특징 분석기에 의해서 수행된 시간 분석 프로세스의 흐름도이다;
도 5B는 특징 추출기에 의해서 추출된 매개 변수들의 입력을 나타낸다.
이하의 상세한 설명에서 다수의 특정 세부 사항들은 본 발명의 완전한 이해를 제공하기 위해서 설명된 것이다. 그러나, 본 발명은 이러한 특정 세부 사항들 없이도 실시될 수 있다는 것을 당업자들은 잘 이해할 수 있을 것이다. 본 발명을 모호하게 하지 않도록 하기 위하여, 다른 예들에서, 잘 알려진 방법, 절차 및 부품들은 너무 상세하게 설명되지 않았다.
사람이 터치 스크린의 휴대용 전화기를 사용하여 말할 때, 그는 전형적으로 그의 귀에 전화기를 대고, 전화기 패널의 일부분은 그의 볼에 닿는 상태이다. 출원인은 놀랍게도, 상기 전화기의 터치 스크린 상에 사용자의 볼에 의해서 생성되는 압력에 의해서 생성된 신호를 분석하여 상기 전화기를 기능적으로 조작하기 위해 사용될 수 있는 매개 변수들을 추출하는 것이 가능하다는 것을 발견하였다. 사용자가 말하는 동안, 음성 활동 변화의 결과로서 볼에 의하여 상기 터치 스크린 상에 생성된 압력은 그 크기 및 그 위치 모두에서 변화한다. 그러한 압력으로부터 추출된 매개 변수들은 가장 간단한 경우에는 사용자가 말하는 지의 여부를 결정하고, 보다 복잡한 경우에는 사용자가 느리게 또는 빠르게 또는 크게 말하는 것과 같은 음성 패턴에 관련된 유용한 정보를 제공하는지 여부를 결정하기 위해 사용될 수 있다. 따라서, 본 발명의 실시 예에 따르면, 상기 터치 스크린은 음성 활동 검출(SAD)을 위해서 활용될 수 있다.
도 lA를 참조하면, 이는 볼(30)에 대해 배치되는, 터치 스크린을 구비한 휴대용 전화기(20)를 갖는 사용자(10)를 도시한다. 도 1B를 참조하면, 터치 스크린(40)에 의해서 점유되는 표면적을 보여주는 예시적인 휴대용 전화기(20)의 정면도를 도시한다. 당업자들은 명백하게 알 수 있는 바와 같이, 임의의 상업적 크기의 터치 스크린은, 그것들이 말하는 사람의 볼에 접촉할 때 신호를 생성하며, 예를 들면 iPhone 4와 같은 더 큰 크기의 터치 스크린을 사용하는 것이 바람직하지만, 그 크기가 식별 신호들을 생성하기에 충분할 정도로 사용될 수 있는 것이라면, 본 발명은 임의의 특정 크기에 제한되지 않는다.
사용자(10)가 말할 때, 볼(30)은 터치 스크린(40)과 접촉될 수 있고, 그것에 압력을 가할 수 있다는 것을 잘 이해할 수 있을 것이다. 실제로, 이것이 대부분의 사용자들에게는 자연적인 위치이다. 터치 스크린(40)에 대한 볼(30)의 압력과 위치는, 사용자(10)가 휴대용 전화기(20)에 대해 말하는 동안에 걸쳐서 동적으로 변화하고, 볼(30)의 다른 부분은 언제라도 한번에 스크린(40)의 다른 영역과 접촉될 수 있다. 또한 대화 도중에 사용자(10)가 말을 하지 않는 기간이 있을 수 있고, 따라서 볼(30)은 스크린(40) 상에서 움직이지 않을 수 있다.
도 2를 참조하면, 이는 스크린(40)의 2차원 그리드 표현을 도시한다. 스크린(40) 상의 단일 그리드 요소(41)(화소의 크기에 따라서 하나의 화소, 또는 복수의 화소들로 이루어진 그리드 요소일 수 있음)는 그것의 "i"및 "j" 좌표로 지칭될 수 있다. 클러스터들(50, 60) 및(70)들은, 개략적으로 전화 통화 도중에, 언젠가 볼(30)이 스크린(40)에 접촉하는 영역의 스냅 샷(snapshot)을 나타낸다. 용어 "클러스터"는, 여기에서 압력이 동일한 시점에 인가되는 다수의 인접 그리드 요소들을 나타내는데 사용된다. 각각의 개별적인 클러스터는 스크린(40)의 다른 표면 영역을 덮는 하나 이상의 화소를 포함할 수 있으며, 스크린(40)에 대해 가해지는 다른 압력을 검출할 수 있다. 임의의 클러스터의 형상, 역학 및 방향의 분석은, 이하에서 보다 상세히 설명되는 바와 같이, 분석을 위해서 활용될 수 있는 다른 매개 변수들을 제공할 수 있다는 것을 잘 이해할 수 있을 것이다. 여기에서 사용되는 용어 "역학(dynamics)"은, 지정된 시간 간격 도중에, 클러스터들의 형태 변화를 초래할 수 있는 특정 클러스터들에서 발생할 수 있는 압력의 변화를 의미한다.
도 3을 참조하면, 이는 본 발명의 실시 예에 따라서 구축되고 작동하는 예시적인 터치 스크린 SAD(100)의 요소들을 도시한다. 시스템(100)은 터치 스크린(40), 터치 스크린 제어기(110) 및 어플리케이션 프로세서(120)를 포함한다. 어플리케이션 프로세서(120)는 음성 활동 분석기(130)를 포함한다. 터치 스크린(40)은 제어 장치(110)에 의해서 제어되며, 이는 차례로 볼(20)에 의해서 스크린(40)에 대해 가해지는 압력에 관한 정보를 프로세서(120)에 제공한다. 그 다음, 프로세서(120)는 임의의 시간(n)에서 스크린(40)의 각 그리드 요소(IJ)에서 압력(P)을 해석한다. 시간(n)에서 점(i,j)에서의 압력, P(i,j,n)은, 그 후 프로세서(120)를 통해, 음성 활동 분석기(130)에 제공된다. 상기 압력의 샘플링 속도는, 당업자에게는 명백한 바와 같이, 사용될 터치 스크린의 타입, 음성-관련 매개 변수들에 의해서 개시 또는 제어되어야 하는 프로세스의 유형, 뿐만 아니라 특정 응용 예에서 요구되는 정확도 수준에 따라서, 물론 달라질 것이다. 표시된 샘플링 속도는, 각각의 그리드 요소 당 50-100Hz 범위 이내이지만, 물론 많은 다른 샘플링 속도가 용도에 따라 사용될 수 있으며, 당업자는 자신이 사용하고자 하는 샘플링 속도를 각각의 경우에 결정할 것이다. 본 발명은 임의의 특정 샘플링 속도에 제한되지 않는다.
일부 응용 예에 대하여, 시간(k)에서 음성 주파수(f) 마다 음성 활동을 아는 것이 유용할 수도 있다는 것을 이해할 수 있을 것이다. 따라서, 음성 활동 분석기(130)로부터 출력은 PSAD(k,f)로 표시될 수 있다. 또한, PSAD(k,f)는 0 또는 1의 이진 신호(음성 활성 = 0, 음성 비활성 = 1), 또는 0 내지1 사이의 임의의 값으로서 제공될 수 있다는 것을 이해할 수 있을 것이다. 이 값은, 시간(k)에서의 주파수(f)에서, 음성 활성이 검출될 확률을 나타낸다.
다른 방법들이 음성 활성을 분석하기 위해 사용될 수 있고, 그러한 하나의 방법 및 시스템이 도 4에 괸련하여 도시되어 있으며, 이는 개략적으로 음성 활동을 분석하기 위한, SAD 분석 시스템(200)을 도시한다. SAD 분석 시스템(200)은 음성 활동 분석기(130)의 일부가 될 수도 있고, 개별적으로 제공될 수 있으며, 이러한 예시적인 실시 예에서, 그것은 클러스터 프로세서(210), 특징 추출기(220), 특징 분석기(230)와 SAD 의사 결정기(240)를 포함한다.
예시적인 실시 예에 따르면, 클러스터 프로세서(210)는 터치 스크린 제어기(40)(도 3)로부터 P(i,j,n)를 수신하고, 만일 사용자가 말하는 경우, 그러한 클러스터들(40, 50, 60)과 같은, 클러스터들의 존재를 식별한다. 클러스터 프로세서(210)는 http://en.wikipedia.org/wiki/Segmentation_(image_processing)에 관련된 일 예와 같이, 2차원의 세분화 및 클러스터링에 사용되는 임의의 표준 분할 클러스터링 알고리즘을 구현할 수 있다
형상, 방향 및 다른 특징들이 각각의 클러스터들에 대해 분석될 수 있다는 것을 이해할 수 있을 것이다. 특징 추출기(220)는 각각의 클러스터들에 대해 서로 다른 매개 변수들을 추출하고, 이 정보를 특징 분석기(230)에 전달하며, 이는 그 다음 각각의 매개 변수들의 시간 거동을 분석한다. 특징 추출기(220)에 의해서 추출되는 예시적인 매개 변수들은, 예를 들면, 클러스터들의 중심(CoG), 그 둘레의 길이, 그 영역과 그 방향 등을 포함한다.
도 5A를 참조하면, 이는 특정 예에 따라서, 특징 분석기(230)(도 4)에 의해서 실행된 시간 분석 프로세스와, 특징 추출기(220)에 의해서 추출된 매개 변수들(도 5B 참조)의 흐름도이다. 시간(n)에서 추출된 매개 변수들의 계산된 값은, 대역 통과 필터(300)로 통과되어 미리 정의된 범위내의 매개 변수들만이 허용되는 것을 보장한다. 이는 잘못된 판독이 고려되지 않도록 하는 것을 보장하기 위한 것이다. 예를 들면, 만일 사용자(10)가 말하지 않는 기간 동안 껌을 씹는다면, 터치 스크린(40) 상에는 여전히 어떤 움직임이 감지될 수 있다. 그러나, 껌을 씹는 동작은 낮은 주파수에서 이루어지는 것이 일반적이며, P(i,j,n)의 주파수 판독은 사전 정의된 임계 값 이하로 떨어질 수 있으므로, 계산에 고려되지 않을 수도 있다. 도 5A는 이러한 특정 예에 있어서, 대역 통과 필터(300)를 지난 데이터(301)의 흐름에 대해 이루어진 처리를 도시한다. 상기 추출된 매개 변수들(301)은, 선택된 시간주기에 걸친 그들의 변화에 따라서 점수가 주어진다. 예를 들면, 특정 클러스터의 중심은, 그것이 시간에 걸쳐서 일정하게 변화하고 있는지를 파악하기 위하여 모니터링될 수 있다. 이것은 만일 사용자(10)가 스크린(40)을 그의 볼에 대해 누른 도중에 이야기하고 있지 않다면, 압력은 여전히 스크린(40)에 의해서 검출될 수 있지만, 특정 클러스터들의 중심이 크게 변화하지 않을 수 있기 때문이다. 점수(320)는 중심 매개 변수들에 대해서, 그리고 마찬가지로 영역 및 방향과 같은 다른 매개 변수들에 대해서 계산될 수 있다. 모든 매개 변수들에 걸친 최종 평균 점수(330)가 그 다음 계산되고, SAD 분석기(240)로 제공될 수 있다. SAD 분석기(240)는, 그 다음 음성 활동이 있는지 아닌지의 여부에 대한 최종 결정을 내린다.
또한, 본 발명의 터치 스크린 SAD(100)는 휴대용 전화기(20)의 어플리케이션 프로세서내에, 또는 임의의 전용 하드웨어나 범용 프로세서상에서 구현될 수 있음을 잘 이해할 수 있을 것이다. 예를 들면, 터치 스크린상에서 볼의 압력을 통해서 수집된 데이터는, 예를 들면, 무선 인터넷 또는 블루투스를 통해서 먼거리의 프로세서로 전달될 수 있고, 여기서 분석을 수행하고 결정을 내리게 되며, 이러한 분석 결과는 동일한 채널 또는 다른 것들을 통해서, 전화기(20)로 피드백될 수 있다.
만일 사용자(10)가 시끄러운 환경에서 휴대용 전화기(20)에 말하는 경우, 휴대용 전화기의 마이크는, 이를 둘러싼 주변 소음과 결합된 음성 신호를 픽업할 수도 있다는 것을 이해할 수 있을 것이다. 만일 아무런 소음 삭제 기술이 없는 경우에는, 대화의 다른 쪽의 상대방은 사용자(10)가 말을 하지 않는 경우에도 소음을 들을 것이다.
소음 제거 또는 소음 억제를 위한 기술은 당업계에서 많은 기술이 잘 알려져 있고, 그리고 많은 휴대폰들과 헤드셋들이 주변 배경 소음의 영향을 줄이기 위해 다양한 기술들을 사용한다. 이들 기술들의 대부분이 성공하기 위해서는, 사용자가 말하는 지의 여부를 아는 것이 중요하다. 주변 소음이 높은 경우, 대부분의 SAD 알고리즘은 이점에서 신뢰성이 있는 결정을 제공하지 못한다.
그러나, 터치 스크린 SAD(100)는, 그것이 단지 화면에 대한 이동 및 압력만을 검출하기 때문에, 주위 소음에 일반적으로 둔감한 것임을 이해할 수 있을 것이다. 상기 설명된 바와 같은 터치 스크린 SAD(100)의 사용은, 사용자가 말하는 지의 여부에 관련된 정보에 의존하는 적합한 소음 삭제 기술과 함께, 매우 시끄러운 환경에서 고품질의 음성 통화를 얻을 수 있도록 하는 것임을 더욱 잘 이해할 수 있을 것이다.
상기 휴대용 전화기는 이동 채널을 통해서 전송되는 음성을 압축하기 위하여 음성 압축 알고리즘을 사용하는 것을 이해할 수 있을 것이다. 현재 사용되는 보다 인기있는 알고리즘 중의 하나는, 적응성 멀티-레이트이다(AMR - 참조, 예를 들면, http://en.wikipedia.org/wiki/Adaptive_Multi-Rate_audio_codec을 참조). 이 알고리즘은 음성 신호를 분석하여, 사용자가 말하는 지의 여부를 검출할 수 있는 무음 검출기로서 작용할 수 있다. 사용자가 말하지 않을 때에는 보다 적은 비트가 송신되고, 그것은 휴대용 전화기 통신 사업자에 대해서는 매우 바람직한 특징이며, 그 이유는 휴대용 전화기 채널의 용량을 증가시키기 때문이다. 그러나 시끄러운 환경에서, 상기 알고리즘은 음성 신호와 소음 신호를 구분할 수 없으며, 상기 무음 검출기는 비효율적이고, 전송되는 비트 수는 높을 것이다. 터치 스크린 SAD(100)는 시끄러운 환경에서도 안정적인 무음 검출기를 제공할 수 있으며, 이는 이동 채널을 통한 전송 효율을 크게 향상시킬 수 있다는 점을 잘 이해할 수 있을 것이다.
휴대용 전화기의 사용 도중에 방출되는 방사선의 양이 몇몇 사용자에게는 문제가 될 수 있다는 것을 이해할 수 있을 것이다. 본 발명의 다른 실시 예에서, 터치 스크린 SAD(100)는 P(i,j,n) 판독이 있는지 여부를 결정함으로써, 사용자(10)가 자신의 얼굴에 휴대용 전화기(20)를 접촉시킬 때를 결정하기 위해 사용될 수 있다. 만일 판독이 존재하는 경우, 본 대안적인 실시 예에 따르면, 음성 활동 분석기(130)는 그 후, 프로세서(120)에 통지한다(도 3). 그 다음, 프로세서(120)는 송신 전력을 감소시키기 위해 휴대용 전화기(20)의 중앙 처리 장치(CPU)에 지시한다. 동일한 방식으로, 프로세서(120)는 휴대용 전화기(20)가 송신하지 않을 때에는 보다 적은 전력이 요구될 수 있기 때문에, 배터리 사용을 줄이기 위해 CPU 전력을 줄이도록 CPU를 지시할 수 있다. 터치 전화기 SAD(100)는 지시기로서, 무음 검출기로서, 그리고 휴대용 전화기의 방출을 줄이며, 전력을 절약하는 수단으로서 이용될 수 있다는 것을 이해할 수 있을 것이다.
본 발명은 추가적인 수단과 함께 몇몇 경우에서 이용될 수 있다. 예를 들면, 현대 통신 장치는 가속도계 등과 같은 센서들을 갖추고 있으며, 이러한 것들은 상기 장치가 사용자의 귀로 이동된 때를 결정하기에 적합한 것으로서, 예를 들면 스크린상에서 터치 명령을 중화(neutralize)시켜서, 사용자가 그의 볼로서 원치 않게 이를 활성화시키지 않도록 하기 위함이다. 그러한 정보를 상기 터치 스크린 - 볼의 상호 작용으로부터의 입력과 조합시키는 것도, 역시 본 발명의 범위 내에 속한다.
다르게 구체적으로 언급되지 않는 한, 이전 설명으로부터 명백하게 알 수 있는 바와 같이, 본 명세서를 통해서, "처리", "연산", "계산", "결정"등과 같은 용어들을 사용하는 설명은, 컴퓨터 시스템의 레지스터 및/또는 메모리 내에서 전자와 같은 물리적인 량으로서 표현된 데이터를, 상기 컴퓨팅 시스템의 메모리, 레지스터 또는 다른 그러한 정보 저장, 전송 또는 디스플레이 장치내에서 물리적인 량으로서 표현된 유사한 다른 데이터로 조작 및/또는 변환하는 컴퓨터, 컴퓨팅 시스템, 또는 그와 유사한 전자 컴퓨팅 장치의 작동 및/또는 프로세스를 의미하는 것으로 이해된다.
본 발명의 실시 예들은 본 발명의 작동을 수행하기 위한 장치를 포함할 수 있다. 이 장치는 원하는 목적을 위해 특별히 구성될 수 있거나, 또는 컴퓨터내에 저장된 컴퓨터 프로그램에 의해서 선택적으로 활성화 또는 재구성된 범용 컴퓨터를 포함할 수 있다. 그러한 컴퓨터 프로그램은 컴퓨터 판독 가능한 기억 매체에 저장될 수 있으며, 예를 들면, 이에 제한되지는 않으며, 플로피 디스크, 광 디스크, 광 자기 디스크를 포함하는 임의의 타입의 디스크, 읽기 전용 메모리(ROMs), 컴팩트 디스크 읽기 전용 메모리(CD-ROMs), 랜덤 액세스 메모리(RAMs), 전기적으로 프로그램 가능한 읽기 전용 메모리(EPROMs), 전기적으로 소거가능한 및 프로그램 가능한 읽기 전용 메모리(EEPROMs), 자기 또는 광학 카드, 플래시 메모리, 또는 임의의 다른 타입의 매체로서, 전자 명령들을 저장하고, 그리고 컴퓨터 시스템 버스에 결합되기에 적합한 것들을 모두 포함한다.
본 발명의 임의의 특징들이 여기에서 도시되고 설명되었지만, 많은 변형, 대체, 변경 및 등가물들이 당업자에게는 명백할 것이다. 따라서, 첨부된 특허청구범위는 본 발명의 진정한 기술 사상 내에 속하는 그러한 모든 변형 및 변경들을 포함하도록 의도된 것으로 이해되어야 한다.

Claims (11)

  1. a) 터치 스크린을 구비한 이동 통신 장치; 및,
    b) 상기 터치 스크린의 일정 영역에 적용되는 압력과, 시간에 따라서 그것의 변화를 나타내는 데이타를 상기 터치 스크린으로부터 수신하기에 적합한 음성 활동 분석기;를 포함하는 이동 통신 시스템.
  2. 제1항에 있어서, 상기 음성 활동 분석기는:
    A) 클러스터들(clusters)들을 식별하기 위한 클러스터 프로세서;
    B) 상기 클러스터 프로세서에 의해서 식별된 클러스터들로부터 매개 변수들을 추출하는 특징 추출기;
    C) 상기 매개 변수들을 분석하는 특징 분석기; 및
    D) 상기 매개 변수들을 처리하여 사용자가 말하는 지의 여부를 결정하기에 적합한 음성 활동 의사 결정 요소;들을 포함하는 것임을 특징으로 하는 시스템.
  3. 제1항에 있어서, 상기 음성 활동 분석기는 상기 이동 통신 장치와 일체형인 것임을 특징으로 하는 시스템.
  4. 제1항에 있어서, 상기 음성 활동 분석기는 상기 이동 통신 장치로부터 원격으로 멀리 위치되며, 그것과 통신하는 것임을 특징으로 하는 시스템.
  5. 제1항에 있어서, 상기 음성 활동 분석기와 상기 이동 통신 장치 간의 통신은 무선 인터넷 또는 블루투스, 또는 임의의 유선 또는 무선 수단에 의해서 수행되는 것임을 특징으로 하는 시스템.
  6. 제3항 또는 제4항에 있어서, 상기 이동 통신 장치는 휴대용 전화기인 것임을 특징으로 하는 시스템.
  7. 제3항 또는 제4항에 있어서, 상기 이동 통신 장치는 무선 전화기인 것임을 특징으로 하는 시스템.
  8. (i) 터치 스크린과 사용자의 볼(cheek) 사이의 접촉으로부터 생성된 그리드 포인트들의 클러스터들을 나타내는 신호들을 상기 터치 스크린으로부터 얻고;
    (ⅱ) 시간 경과에 따라서 상기 클러스터들의 압력 관련 매개 변수들의 동력학을 분석하며; 그리고
    (ⅲ) 상기 분석으로부터, 음성 활동이 존재하는 지를 결정하는 단계;들을 포함하고, 터치 스크린을 구비한 이동 통신 장치의 사용자가 상기 이동 통신 장치로 말하는 지의 여부를 결정하기 위한 방법.
  9. 제8항에 있어서, 상기 클러스터들은 상기 터치 스크린상의 그들의 좌표들에 의해서 미분되어지는 화소들 또는 화소 그룹들을 포함하는 것임을 특징으로 하는 방법.
  10. 제8항에 있어서, 상기 매개 변수들은 중심, 경계, 영역 및 방향, 또는 상기 매개 변수들의 2종 이상의 조합으로부터 선택되는 것임을 특징으로 하는 방법.
  11. 제8항에 있어서, 상기 장치가 사용자의 귀 근처로 이동되었는 지의 여부를 나타내는 표시를 상기 이동 통신 장치내에 제공된 센서들로부터 획득하는 것을 추가 포함함을 특징으로 하는 방법.
KR1020137033361A 2011-06-15 2012-06-14 음성 검출 시스템, 장치 및 방법 KR20140041556A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161497105P 2011-06-15 2011-06-15
US61/497,105 2011-06-15
PCT/IL2012/000233 WO2012172543A1 (en) 2011-06-15 2012-06-14 System, device and method for detecting speech

Publications (1)

Publication Number Publication Date
KR20140041556A true KR20140041556A (ko) 2014-04-04

Family

ID=47356611

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137033361A KR20140041556A (ko) 2011-06-15 2012-06-14 음성 검출 시스템, 장치 및 방법

Country Status (6)

Country Link
US (1) US9230563B2 (ko)
EP (1) EP2721607A1 (ko)
JP (1) JP2014525159A (ko)
KR (1) KR20140041556A (ko)
CN (1) CN103650032A (ko)
WO (1) WO2012172543A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552376B2 (en) 2011-06-09 2017-01-24 MemoryWeb, LLC Method and apparatus for managing digital files
JP6569926B2 (ja) * 2016-08-17 2019-09-04 パナソニックIpマネジメント株式会社 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム
US10936178B2 (en) 2019-01-07 2021-03-02 MemoryWeb, LLC Systems and methods for analyzing and organizing digital photos and videos

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7265494B2 (en) * 1998-10-09 2007-09-04 Azoteq Pty Ltd. Intelligent user interface with touch sensor technology
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
JP2002268681A (ja) * 2001-03-08 2002-09-20 Canon Inc 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法
US7433484B2 (en) * 2003-01-30 2008-10-07 Aliphcom, Inc. Acoustic vibration sensor
US7254775B2 (en) * 2001-10-03 2007-08-07 3M Innovative Properties Company Touch panel system and method for distinguishing multiple touch inputs
US6728385B2 (en) * 2002-02-28 2004-04-27 Nacre As Voice detection and discrimination apparatus and method
US7251605B2 (en) * 2002-08-19 2007-07-31 The United States Of America As Represented By The Secretary Of The Navy Speech to touch translator assembly and method
CA2522006C (en) * 2003-04-10 2013-05-28 Vivometrics, Inc. Systems and methods for respiratory event detection
US20080082018A1 (en) * 2003-04-10 2008-04-03 Sackner Marvin A Systems and methods for respiratory event detection
EP1524586A1 (en) * 2003-10-17 2005-04-20 Sony International (Europe) GmbH Transmitting information to a user's body
US7542026B2 (en) * 2003-11-03 2009-06-02 International Business Machines Corporation Apparatus method and system for improved feedback of pointing device event processing
US8164573B2 (en) * 2003-11-26 2012-04-24 Immersion Corporation Systems and methods for adaptive interpretation of input from a touch-sensitive input device
US6856259B1 (en) * 2004-02-06 2005-02-15 Elo Touchsystems, Inc. Touch sensor system to detect multiple touch events
US7664642B2 (en) * 2004-03-17 2010-02-16 University Of Maryland System and method for automatic speech recognition from phonetic features and acoustic landmarks
US7457741B2 (en) * 2004-03-30 2008-11-25 National Institute of Advnaced Industrial Science and Technology Device for transmitting speech information
US20060033625A1 (en) * 2004-08-11 2006-02-16 General Electric Company Digital assurance method and system to extend in-home living
WO2006059679A1 (ja) * 2004-12-02 2006-06-08 Matsushita Electric Industrial Co., Ltd. 携帯端末装置
US7683889B2 (en) * 2004-12-21 2010-03-23 Microsoft Corporation Pressure based selection
US7855718B2 (en) * 2007-01-03 2010-12-21 Apple Inc. Multi-touch input discrimination
US8130203B2 (en) * 2007-01-03 2012-03-06 Apple Inc. Multi-touch input discrimination
US10437459B2 (en) * 2007-01-07 2019-10-08 Apple Inc. Multitouch data fusion
US8503686B2 (en) * 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US20090264789A1 (en) * 2007-09-26 2009-10-22 Medtronic, Inc. Therapy program selection
US8125458B2 (en) * 2007-09-28 2012-02-28 Microsoft Corporation Detecting finger orientation on a touch-sensitive device
US9767817B2 (en) * 2008-05-14 2017-09-19 Sony Corporation Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking
CN101295223A (zh) * 2008-06-06 2008-10-29 马晶 实现快捷操作的***及其操作方法、通讯终端及使用方法
US8094009B2 (en) * 2008-08-27 2012-01-10 The Invention Science Fund I, Llc Health-related signaling via wearable items
US8271262B1 (en) * 2008-09-22 2012-09-18 ISC8 Inc. Portable lip reading sensor system
US8294047B2 (en) * 2008-12-08 2012-10-23 Apple Inc. Selective input signal rejection and modification
JP5157969B2 (ja) * 2009-03-09 2013-03-06 ソニー株式会社 情報処理装置、閾値設定方法及びそのプログラム
US8984431B2 (en) * 2009-03-16 2015-03-17 Apple Inc. Device, method, and graphical user interface for moving a current position in content at a variable scrubbing rate
US9254383B2 (en) * 2009-03-20 2016-02-09 ElectroCore, LLC Devices and methods for monitoring non-invasive vagus nerve stimulation
US8412531B2 (en) * 2009-06-10 2013-04-02 Microsoft Corporation Touch anywhere to speak
US20110010172A1 (en) * 2009-07-10 2011-01-13 Alon Konchitsky Noise reduction system using a sensor based speech detector
FR2949007B1 (fr) * 2009-08-07 2012-06-08 Nanotec Solution Dispositif et procede d'interface de commande sensible a un mouvement d'un corps ou d'un objet et equipement de commande integrant ce dispositif.
US8179376B2 (en) * 2009-08-27 2012-05-15 Research In Motion Limited Touch-sensitive display with capacitive and resistive touch sensors and method of control
US8269511B2 (en) * 2009-09-08 2012-09-18 Synaptics Incorporated Sensing and defining an input object
US8624933B2 (en) * 2009-09-25 2014-01-07 Apple Inc. Device, method, and graphical user interface for scrolling a multi-section document
US9357921B2 (en) * 2009-10-16 2016-06-07 At&T Intellectual Property I, Lp Wearable health monitoring system
TWI423144B (zh) * 2009-11-10 2014-01-11 Inst Information Industry Combined with the audio and video behavior identification system, identification methods and computer program products
ES2466366T3 (es) * 2009-12-21 2014-06-10 Fundación Tecnalia Research & Innovation Sistema y procedimiento de supervisión del bienestar afectivo
US8531412B1 (en) * 2010-01-06 2013-09-10 Sprint Spectrum L.P. Method and system for processing touch input
US8698762B2 (en) * 2010-01-06 2014-04-15 Apple Inc. Device, method, and graphical user interface for navigating and displaying content in context
US20120019557A1 (en) * 2010-07-22 2012-01-26 Sony Ericsson Mobile Communications Ab Displaying augmented reality information
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US8773377B2 (en) * 2011-03-04 2014-07-08 Microsoft Corporation Multi-pass touch contact tracking
US8786561B2 (en) * 2011-05-18 2014-07-22 Microsoft Corporation Disambiguating intentional and incidental contact and motion in multi-touch pointing devices
US8587542B2 (en) * 2011-06-01 2013-11-19 Motorola Mobility Llc Using pressure differences with a touch-sensitive display screen

Also Published As

Publication number Publication date
CN103650032A (zh) 2014-03-19
JP2014525159A (ja) 2014-09-25
EP2721607A1 (en) 2014-04-23
US20140207444A1 (en) 2014-07-24
WO2012172543A1 (en) 2012-12-20
US9230563B2 (en) 2016-01-05

Similar Documents

Publication Publication Date Title
CN110139262B (zh) 蓝牙通信控制方法及相关产品
KR102216048B1 (ko) 음성 명령 인식 장치 및 방법
Zhang et al. Accelword: Energy efficient hotword detection through accelerometer
EP2911149B1 (en) Determination of an operational directive based at least in part on a spatial audio property
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
KR102339657B1 (ko) 전자 장치 및 이의 제어 방법
CN105657125B (zh) 一种用于调节通话音量的方法与设备
CN109346061B (zh) 音频检测方法、装置及存储介质
CN107742523B (zh) 语音信号处理方法、装置以及移动终端
WO2019020014A1 (zh) 解锁控制方法及相关产品
WO2013040414A1 (en) Mobile device context information using speech detection
CN103247297A (zh) 用于单个和多个发言者的双模式agc
CN112992169A (zh) 语音信号的采集方法、装置、电子设备以及存储介质
CN110364156A (zh) 语音交互方法、***、终端及可读存储介质
KR101559364B1 (ko) 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션
US10582290B2 (en) Earpiece with tap functionality
US11023067B2 (en) Input control using fingerprints
CN110335593A (zh) 语音端点检测方法、装置、设备及存储介质
WO2019015418A1 (zh) 解锁控制方法及相关产品
CN114360527A (zh) 车载语音交互方法、装置、设备及存储介质
CN111158487A (zh) 使用无线耳机与智能终端进行交互的人机交互方法
KR20140041556A (ko) 음성 검출 시스템, 장치 및 방법
CN115831155A (zh) 音频信号的处理方法、装置、电子设备及存储介质
WO2022233308A9 (zh) 佩戴检测方法、可穿戴设备及存储介质
CN105554218B (zh) 一种听筒音量调节方法及相关设备

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid