KR20070070217A - 미디어 콘텐트 아이템의 카테고리에 대하여 사용자에게통지하는 데이터 프로세싱 장치 및 방법 - Google Patents

미디어 콘텐트 아이템의 카테고리에 대하여 사용자에게통지하는 데이터 프로세싱 장치 및 방법 Download PDF

Info

Publication number
KR20070070217A
KR20070070217A KR1020077011314A KR20077011314A KR20070070217A KR 20070070217 A KR20070070217 A KR 20070070217A KR 1020077011314 A KR1020077011314 A KR 1020077011314A KR 20077011314 A KR20077011314 A KR 20077011314A KR 20070070217 A KR20070070217 A KR 20070070217A
Authority
KR
South Korea
Prior art keywords
media content
category
audio
content item
user
Prior art date
Application number
KR1020077011314A
Other languages
English (en)
Inventor
드제브데트 브라제로빅
디클랜 피. 켈리
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20070070217A publication Critical patent/KR20070070217A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명은 미디어 콘텐트 아이템의 카테고리(152)에 대하여 사용자에게 통지하는 방법에 관한 것이다. 방법은: 미디어 콘텐트 아이템의 카테고리를 식별하는 단계, 및 사용자로 하여금 미디어 콘텐트 아이템의 카테고리에 따라 오디오 파라미터(153)를 갖는 가청 신호(156)를 얻을 수 있게 하는 단계를 포함한다. 본 발명은 또한 방법에 따라 기능할 수 있는 장치에 관한 것이다. 본 발명은 또한 미디어 콘텐트 아이템의 카테고리에 대하여 사용자에게 통지하는 가청 신호를 포함하는 오디오 데이터, 복수의 오디오 데이터를 포함하는 데이터베이스, 및 컴퓨터 프로그램 제품에 관한 것이다. 추천기 시스템에서, 사용자가 특정 장르의 미디어 콘텐트 아이템과 관련된 추천기 시스템과 상호작용할 때, 가청 신호가 추천기 시스템에 의해 재생될 수 있다. 본 발명은 EPG 사용자 인터페이스에서 사용될 수 있다.
미디어 콘텐트 아이템, 카테고리, 파라미터, 가청 신호, EPG

Description

미디어 콘텐트 아이템의 카테고리에 대하여 사용자에게 통지하는 데이터 프로세싱 장치 및 방법{Data-processing device and method for informing a user about a category of a media content item}
본 발명은 미디어 콘텐트 아이템의 카테고리에 대하여 사용자에게 통지하는 방법, 및 상기 방법에 따라 기능할 수 있는 장치에 관한 것이다. 본 발명은 또한 미디어 콘텐트 아이템의 카테고리에 대하여 사용자에게 통지하는 가청 신호(audible signal)를 포함하는 오디오 데이터, 복수의 오디오 데이터를 포함하는 데이터베이스, 및 컴퓨터 프로그램 제품에 관한 것이다.
WO0184539A1은 사용자 명령 입력에 응답하여 사용자에게 가청 피드백(auditory feedback)을 제공하는 가전 시스템을 개시한다. 시스템은 미리 녹음된 또는 합성 목소리로, 재생을 위해 선택된 미디어 콘텐트의 아티스트의 이름 및 노래나 앨범의 제목을 발음한다. 합성 목소리는 컴퓨터 문서로부터의 워드들을 확성기를 통해 가청 음성으로 변환하기 위해 텍스트-음성 변환 엔진(text-to-speech engine)을 사용한다.
공지된 시스템은 가청 음성이 사용자에게 만족스럽게 재생되지 않는다는 약점을 갖는다. 가청 피드백은 흥미롭지 않은 방식으로 사용자에게 제공된다.
본 발명의 목적들 중 하나는 시스템을 개선하여 가청 정보가 사용자에게 흥미있는 방식으로 제공되도록 하는 것이다.
본 발명의 방법은 다음 단계들을 포함한다:
- 미디어 콘텐트 아이템의 카테고리를 식별하는 단계,
- 사용자로 하여금 상기 미디어 콘텐트 아이템의 카테고리에 따라 오디오 파라미터를 갖는 가청 신호를 얻을 수 있게 하는 단계.
예를 들어, 특정 TV 프로그램이 영화 장르에 속한다. TV 프로그램의 장르는 EPG(Electronic Program Guide) 데이터로부터 결정된다. TV 프로그램과 함께, EPG 데이터가 TV 세트에 제공된다. TV 프로그램, 즉 영화의 제목이 사용자에게 들리도록(audibly) 제공된다. TV 세트는 적어도 하나의 오디오 파라미터, 예를 들면 시간적 특성 또는 피치(pitch)(예를 들면, 유명한 배우의 목소리의)를 가지는 가청 신호를 생성하며, 사용자는 영화 카테고리를 연상한다. 사용자는 이러한 제목을 갖는 영화를 보지 않았을 수도 있지만, 제목이 제공되는 방법은 사용자에게 그것이 아마도 특정 장르의 영화일 것이라고 암시한다.
WO0184539A1으로부터 공지된 시스템은 상이한 정보 아이템들에 대하여 사용자에게 유사하게 들리는 가청 음성을 생성한다. 따라서, 공지된 시스템이 일부 TV 프로그램에 대하여 사용자에게 통지할 때마다, 이는 동일하게 들린다.
본 발명의 장점은 카테고리가 가청 신호로 명시적으로 발음되지 않을 때에도 사용자에게 제공된 가청 신호가 그로 하여금 미디어 콘텐트 아이템의 카테고리를 찾아낼 수 있게 한다는 것이다. 사용자는 예를 들면, 아이템의 제목만이 제공될 때 미디어 콘텐트 아이템의 카테고리를 이해할 수 있다. 예를 들어, 가청 신호는 "영화" 또는 "뉴스"와 같은 임의의 워드를 포함하지 않을 수 있는데, 왜냐하면 카테고리는 카테고리에 대한 이러한 명시적인 정보 없이도 사용자에게 명백하기 때문이다. 따라서, 본 발명은 종래 기술에서보다 효율적으로 카테고리에 대하여 사용자에게 통지할 수 있다.
본 발명은 미디어 콘텐트 아이템을 사용자에게 추천하기 위한 추천기 시스템에서, 또는 사용자로 하여금 미디어 콘텐트를 브라우즈(browse)할 수 있게 하는 미디어 콘텐트 브라우저 시스템에서 사용될 수 있다.
본 발명의 실시예에서, 미디어 콘텐트 아이템은 둘 또는 그 이상의 카테고리들과 연관된다. 예를 들어, 영화는 액션 장르 및 코미디 장르와 연관되지만, 영화에는 코미디 장면들보다 액션 장면들이 더 많다. 따라서, 영화에 대해 액션 장르가 지배적이다. 영화는 사용자에게 액션 장르와 연관되는 오디오 파라미터를 갖는 가청 신호로 추천된다.
본 발명의 목적은 미디어 콘텐트 아이템의 카테고리에 대하여 사용자에게 통지하기 위한 데이터 프로세싱 장치가
- 미디어 콘텐트 아이템의 카테고리를 식별하고,
- 사용자로 하여금 상기 미디어 콘텐트 아이템의 카테고리에 따라 오디오 파라미터를 갖는 가청 신호를 얻을 수 있게하도록 구성된 데이터 프로세서를 포함하는 것으로 구현된다.
장치는 본 발명의 방법의 단계들에 따라 기능하도록 설계된다.
본 발명에 따라, 오디오 데이터는 가청 신호가 사용자에게 제공될 때 미디어 콘텐트 아이템의 카테고리에 대해 사용자에게 통지하는 상기 가청 신호를 포함하며, 가청 신호는 미디어 콘텐트 아이템의 카테고리에 따라 오디오 파라미터를 갖는다.
본 발명의 이러한 및 다른 양상들이 다음 도면들을 참조하여 예시의 방법으로 더욱 상세히 설명되고 기술될 것이다.
도 1은 카테고리와 연관된 오디오 파라미터를 갖는 적어도 하나의 오디오 샘플이 얻어지는 본 발명에 따른 장치의 실시예의 기능적인 블록도.
도 2는 카테고리와 연관된 특정 문자에 의해 발음된(articulated) 적어도 하나의 오디오 샘플이 얻어지는 본 발명에 따른 장치의 실시예의 기능적인 블록도.
도 3은 가청 신호가 카테고리와 연관된 오디오 파라미터를 사용하는 것에 의해 합성되고 수정되는 본 발명에 따른 장치의 실시예의 기능적인 블록도.
도 4는 영국 여성의 목소리, 프랑스 여성의 목소리, 및 독일 남성의 목소리에 대한 (표준화된) 피치의 편차의 예를 도시하는 도면.
도 5는 (대부분의) 피치 특성들을 유지하는 동안, 오디오 샘플의 시간 길이를 증가시키기 위한 오디오 샘플의 시간-스케일 수정을 나타내는 도면.
도 6은 본 발명의 방법의 실시예들을 도시하는 도면.
도면들 전체에 대하여, 동일 참조 숫자들은 동일하거나 대응하는 구성요소들을 나타낸다.
도 1은 본 발명의 실시예의 블록도이다. 이는 EPG(Electronic Program Guide) 데이터의 EPG 소스(111)와 정보의 인터넷 소스(112)를 도시한다.
예를 들어, EPG 소스(111)는 EPG 데이터를 포함하는 텔레비전 신호들을 전송하는 TV 방송국(도시되지 않음)이다. 대안적으로, EPG 소스는 인터넷을 통하여 (예를 들면, 인터넷 프로토콜(IP)을 이용하여) 다른 장치들과 통신하는 컴퓨터 서버(도시되지 않음)이다. 예를 들어, TV 방송국은 컴퓨터 서버에 하나 또는 그 이상의 TV 채널들에 대한 EPG 데이터를 저장한다.
인터넷 소스(112)는 특정 미디어 콘텐트 아이템의 카테고리에 관련된 인터넷 정보를 저장한다. 예를 들어, 인터넷 소스는 특정 미디어 콘텐트 아이템에 대한 리뷰 기사를 가진 웹 페이지를 저장하는 웹-서버(도시되지 않음)이며, 리뷰 기사는 이러한 미디어 콘텐트 아이템의 장르를 이야기한다.
EPG 소스(111) 및/또는 인터넷 소스(112)는 데이터 프로세싱 장치(150)와 통신하도록 구성된다. 데이터 프로세싱 장치는 미디어 콘텐트 아이템의 카테고리를 식별하기 위하여 EPG 소스 또는 인터넷 소스로부터 EPG 데이터 또는 인터넷 정보를 수신한다.
미디어 콘텐트 아이템은 오디오 콘텐트 아이템, 비디오 콘텐트 아이템, TV 프로그램, 스크린 상의 메뉴 아이템, 미디어 콘텐트와 연관된 버튼과 같은 UI 소자, TV 프로그램의 요약, 미디어 콘텐트 추천기에 의한 미디어 콘텐트 아이템의 순 위값 등일 수 있다.
미디어 콘텐트 아이템은 시각 정보, 오디오 정보, 텍스트 등의 적어도 하나, 또는 이들의 임의의 조합을 포함할 수 있다. "오디오 데이터" 또는 "오디오 콘텐트"라는 표현은 이후로 가청 톤들(tones), 무음, 음성, 음악, 고요, 외부 소음 등을 포함하는 오디오에 속하는 데이터로서 사용된다. "비디오 데이터" 또는 "비디오 콘텐트"라는 표현은 동영상, "스틸 영상들(still pictures)", 비디오 텍스트 등과 같은 볼 수 있는 데이터로서 사용된다.
데이터 프로세싱 장치(150)는 사용자로 하여금 미디어 콘텐트 아이템의 카테고리와 관련되는 가청 신호를 얻을 수 있게 하도록 구성된다. 예를 들어, 데이터 프로세싱 장치는 음악 장르들의 메뉴를 디스플레이하는 터치 스크린을 갖는 오디오 플레이어로 구현된다. 사용자는 "클래식", "록", "재즈" 등과 같은 원하는 음악 장르를 메뉴로부터 선택할 수 있다. 사용자가 록 메뉴 아이템을 누를 때, 오디오 플레이어는 전형적인 록 음악과 같이 들리는 가청 신호를 재생한다. 다른 예에서, 데이터 프로세싱 장치는 TV 프로그램 장르들의 메뉴를 디스플레이하는 디스플레이를 갖는 TV 세트로 구현된다. 사용자는 "영화", "스포츠", "뉴스" 등과 같은 원하는 TV 프로그램 장르를 메뉴로부터 선택할 수 있다. 선택은 메뉴를 제어하기 위한 원격 제어 유닛 상의 상/하 버튼들을 누름으로써 가능하다. 사용자가 뉴스 메뉴 아이템을 선택할 때, TV 세트는 TV 뉴스 방송과 같이 들리는 가청 신호를 재생한다.
데이터 프로세싱 장치(150)는 메모리 수단(151), 예를 들면 공지된 RAM(random access memory) 메모리 모듈을 포함할 수 있다. 메모리 수단은 미디어 콘텐트의 하나 또는 그 이상의 카테고리들을 포함하는 카테고리 표를 저장할 수 있다. 카테고리 표의 예가 다음 표에 도시된다.
카테고리 데이터 오디오 파라미터 또는 파라미터들
전체 중 발음되는 콘텐트, % 음성 속도(분당 워드수)
비디오: 영화: 액션 55-70 220-280
비디오: 영화: 공상 과학 45-60 190-210
비디오: TV 뉴스 55-60 170-200
비디오: 스포츠 55-65 210-230
비디오: 드라마 40-50 140-160
데이터 프로세싱 장치(150)는 수신된 EPG 데이터 또는 인터넷 정보로부터 미디어 콘텐트 아이템의 선택시 미디어 콘텐트 아이템의 카테고리를 식별하도록 구성될 수 있다. 미디어 콘텐트 아이템의 카테고리는 메모리 수단(151)에 저장된 카테고리 데이터(152)에 의해 나타내질 수 있다.
어떠한 경우들에서, 미디어 콘텐트 아이템의 카테고리는 미디어 콘텐트 아이템 자체로부터 명백한데, 예를 들어, 상술된 록 메뉴 아이템의 카테고리는 명백하게 "록"이고, 여기에는 EPG 데이터나 인터넷 정보를 사용할 필요가 없다.
예로써, 미디어 콘텐트 아이템은 TV 프로그램이다. TV 프로그램의 카테고리의 식별은 데이터 프로세싱 장치(150)에 의해 수신된 EPG 데이터의 포맷에 의존한다. EPG 데이터는 전형적으로 TV 채널, 방송 시간 등을 저장하고, 가능하게는 TV 프로그램의 카테고리의 표시를 저장한다. 예를 들어, EPG 데이터가 PSIP(Program and System Information Protocol) 표준으로 포맷된다. PSIP는 DTV(Digital TV) 전송 스트림 내에 요구되는 기본 정보의 운반을 위한 ATSC 표준(Advanced Television Systems Committee)이다. PSIP의 두가지 기본적인 목적들은 디코더에 기본적인 튜 닝 정보를 제공하여 분석(parse)을 돕고, 스트림 내의 다양한 서비스들 및 수신자의 전자 프로그램 가이드(EPG) 디스플레이 생성기를 피드(feed)하는데 필요한 정보를 디코드하는 것이다. PSIP 데이터는 계층적으로 구성된 표들의 집합을 통하여 운반된다. 표준에 따라, 기본 PID(0x1FFB)에서 규정된 직접 채널 변환 표(Directed Channel Change Table;DCCT)라 불리는 표가 또한 있다. 이러한 DCCT에서, 장르 카테고리(Genre Category: dcc_selection_type = 0x07, 0x08, 0x17, 0x18)가 TV 방송국에 의해 전송되는 TV 프로그램의 카테고리를 결정하는데 사용된다.
미디어 콘텐트 아이템의 카테고리를 식별하기 위해 다른 기술들이 사용될 수 있다. 예를 들어, 데이터 프로세싱 장치(150)는 EPG 데이터에서 TV 프로그램의 카테고리가 "비극"으로 표시되는 것을 검출하고, 카테고리 "비극"을 메모리 수단(151)의 카테고리 표와 비교한다. 카테고리 "비극"은 카테고리 표에 저장되어 있지 않다. 그러나, 데이터 프로세싱 장치(150)는 EPG 데이터로부터 추출된 카테고리 "비극"이 메모리 수단(151)에 저장된 카테고리 "드라마"와 관련된다는 것을 확립시키기 위하여 임의의 공지된 발견적(heuristic) 분석을 사용할 수 있다. 예를 들어, R.O. Duda, P.E. Hart, D.G. Stork, Second Edition, Wiley Interscience, 2001의 서적 "패턴 분류법(Pattern Classification)"에 기술된 시청각 콘텐트 분석을 사용하는 것에 의해, 카테고리 "비극"을 갖는, 미디어 콘텐트 아이템으로부터 추출된 오디오/비디오 패턴들을 비교하는 것을 생각해볼 수 있다. 카테고리 "비극"을 갖는, 미디어 콘텐트 아이템으로부터 추출된 패턴이 카테고리 "드라마"에 대하여 미리 정해진 오디오/비디오 패턴(예를 들면, 카테고리 표에 저장된)과 매치하거나 상 관되면, 카테고리 "드라마"에 대한 카테고리 "비극"의 동등성이 확립된다.
장치(150)의 메모리 수단(151)은 카테고리 데이터(152)에 부가하여 카테고리 표에 적어도 하나의 오디오 파라미터(153)를 저장한다. 카테고리 표의 특정 카테고리는 각각의 적어도 하나의 오디오 파라미터에 대응한다.
예를 들어, 오디오 파라미터는 오디오 콘텐트의 음성 속도(speech rate)이다. 이는 가청 신호의 발음 워드들(음운들)의 속도를 결정한다. 예를 들어, 음성 속도는 대략적으로 다음의 값들을 갖는다: 매우 느림 - 분당 80 워드들, 느림 - 120 워드들, 중간(기본) - 180-200 워드들, 빠름 - 300 워드들, 매우 빠름 - 500 워드들(p.7의 표 참조).
다른 예에서, 오디오 파라미터는 가청 신호의 목소리가 들리는 주파수를 나타내는 피치이다. 음성 분석의 분야에서, "피치(pitch)" 및 "기본 주파수(fundamental frequency)"라는 표현들은 종종 교환가능하게 사용된다. 기술적인 용어들에서, 주기적(조화적) 오디오 신호의 기본 주파수는 피치 주기 길이의 역(invrse)이며; 피치 주기는 오디오 신호의 가장 작은 반복 단위이다. 명백하게, 아동 또는 여성의 목소리(예를 들면, 175-256Hz)는 남성의 목소리(예를 들면, 100-150Hz)보다 높은 피치로 말한다. 남성 목소리의 평균 주파수는 약 120Hz이지만, 여성 목소리에 대해서는 약 210Hz이다. 피치의 가능한 값 및 헤르츠로 나타내는 그의 주파수는 음성 속도와 유사하게 매우 낮음, 낮음, 중간, 높음, 매우 높음으로 표현될 수 있다(남성과 여성 목소리들에 대해 상이함).
피치 범위는 억양(inflection)에서 음성의 변화량을 설정하는 것을 허용한 다. 피치 범위는 오디오 파라미터로서 사용될 수 있다. 높은 피치 범위가 선택되면, 워드들은 매우 생기있는 목소리로 말해진다. 낮은 피치 범위는 가청 신호가 보다 균일하게 들리도록 하는데 사용될 수 있다. 따라서, 피치 범위는 가청 신호에 다소의 생기를 제공한다(또는 그 반대이다). 피치 범위는 평균 음성에 대하여 0-100Hz 정도 변화하는 평균 남성 또는 여성 음성의 피치 값으로 표현될 수 있다. (값마다의) 일정한 피치는 반복 톤에 대응한다. 따라서, 이는 피치 범위 뿐만 아니라, 음성의 활력("생기")을 결정하는 그 범위의 피치의 변화 정도(예를 들면, 표준 편차에 의해 측정된)이다. 예를 들어, 뉴스 카테고리는 "진지한" 메세지를 전달하기 위한 피치 범위, 예를 들면, 중간 또는 약간 높은 단조 음성(남성 음성의 120Hz 플러스/마이너스 40Hz)과 연관될 수 있다.
본 발명의 한 실시예에서, 오디오 파라미터는 가청 신호에서 사용된 언어들에 대하여 상이한 값들을 갖는다. 도 4는 오디오 파라미터의 예로서, 영국 여성 음성:0.219, 프랑스 여성:-0.149, 및 독일 남성:-0.229인 (표준화된) 피치의 편차의 계산 예를 도시한다. 도 4에서, 피치는 음성 샘플들(스케일된)에서 측정되며, 이는 Hz인 일반적인 측정의 역(reverse)이다.
도 4에 그려지는 피치 윤곽들은 경험에 대하여 제공되었던 음성 샘플들과 연관된다. 그들은 단지 예들이며 전체 언어를 대표하는 것으로 일반화될 수 없다. 도 4는 여성과 남성 피치 사이의 자연적인 차이를 도시한다. 피치값들은 W.B. Kleijn, K.K. Paliwal(Editors), 1995, Elsevier Science B.V., The Netherlands의 서적 "음성 코딩 및 합성(Speech Coding and Synthesis)"의 챕터 14 "피치 트래킹을 위한 로부스트 알고리즘(A robust Algorithm for Pitch Tracking)"에 기술된 것과 유사한 피치-평가 알고리즘을 이용하여 얻어졌다.
피치가 0이 아닌 도 4의 위치들은 "유성음(voiced speech)"("a", "e", ...와 같이 들리는 모음들)에 대응하고, 0의 값의 부분들은 "무성음(unvoiced speech)"("f","s","h",...와 같이 들리는 모음들) 및 무음에 대응한다. 메모리 수단(151)은 언어 의존 카테고리 표들을 저장할 수 있다.
음악 장르들(예를 들면, "음악:재즈")은 미디어 콘텐트 아이템에 보컬-베이스(40-900), 보컬-테너(130-1300), 보컬-알토(175-1760), 보컬-소프라노(220-2100)의 양과 같은 오디오 파라미터들을 가질 수 있다.
카테고리 표는 단지 카테고리 데이터에 대응하는 하나 또는 그 이상의 오디오 파라미터들의 결정의 예이다. 카테고리 데이터로부터 오디오 파라미터를 결정하는 다른 방법들이 가능하다. 예를 들어, 데이터 프로세싱 장치(150)는 인터넷을 통해 카테고리 데이터(152)를 (원격의) 제3자 서비스 제공자에게 전송하고, 제3자 서비스 제공자로부터 파라미터 또는 파라미터들을 수신한다.
대안적으로, 장치(150)는 사용자로 하여금 미디어 콘텐트 아이템의 카테고리와 관련된 오디오 파라미터를 특정할 수 있도록 하는 사용자 입력 수단(도시되지 않음)을 포함할 수 있다. 사용자 입력, 즉, 오디오 파라미터는 또한 메모리 수단(151)의 카테고리 표에 저장될 수 있다. 사용자 입력 수단은 키보드, 예를 들면 잘 알려진 QWERTY 컴퓨터 키보드, 포인팅 장치, TV 원격 제어 유닛 등일 수 있다. 예를 들면, 포인팅 장치들은 컴퓨터 (무선) 마우스, 광 펜(light pen), 터치패드, 조이스틱, 트랙볼 등과 같은 다양한 형태들로 사용가능하다. 입력은 TV 원격 제어 유닛(도시되지 않음)으로부터 전송된 적외선 신호에 의해 장치(150)로 제공된다.
데이터 프로세싱 장치(150)는 예를 들면, 위성, 지상국, 케이블 또는 다른 링크를 통해 미디어 콘텐트의 (원격) 소스(161 및/또는 162)에 결합된 미디어 콘텐트 분석기(154)("콘텐트 분석기"로도 불림)를 더 포함할 수 있다. 미디어 콘텐트 소스는 TV 방송국에 의해 전송된 방송 텔레비전 신호(161) 또는 다양한 미디어 콘텐트를 저장하기 위한 미디어 콘텐트 데이터베이스(162)일 수 있다.
미디어 콘텐트는 오디오 또는 비디오 테잎들, 광저장 디스크들, 예를 들면 CD-ROM 디스크(Compact Disc Read Only Memory) 또는 DVD 디스크(Digital Versatile Disc), 플로피 및 하드 디스크들 등과 같은 상이한 데이터 캐리어들 상의 데이터베이스(162)에 임의의 포맷, 예를 들면 MPEG(Moving Picture Experts Group), MIDI(Musical Instrument Digital Interface), 쇽웨이브(Shockwave), 퀵타임(QuickTime), WAV(Waveform Audio) 등으로 저장될 수 있다. 예로써, 미디어 콘텐트 데이터베이스(162)는: 컴퓨터 하드 디스크 드라이브, 다용도 플래시 메모리 카드, 예를 들면 "메모리 스틱" 장치 등의 적어도 하나를 포함한다.
하나 또는 그 이상의 오디오 파라미터들이 메모리 수단(153)으로부터 콘텐트 분석기(154)로 공급된다. 오디오 파라미터 또는 파라미터들(153)을 사용하여, 콘텐트 분석기(154)는 미디어 콘텐트 소스(161 또는 162)로부터 사용가능한 미디어 콘텐트로부터, 필요한 오디오 파라미터 또는 파라미터들(153)을 가진 하나 또는 그 이상의 오디오 샘플들을 추출한다.
사용가능한 미디어 콘텐트의 오디오 파라미터들(오디오 파라미터들(153)과 일치할 필요는 없음)은 Yao Wang, Zhu Liu, 및 Jin-Cheng Huang에 의한 논문 "오디오 및 비디오 클루들 모두를 이용한 멀티미디어 콘텐트 분석(MultimediaContent Analysis Using both Audio and Video Clues)", IEEE Signal Processing Magazine, IEEE Inc., New York, NY, pp. 12-36, Vol.17, No 6, November 2000에 기술된 바와 같이 결정될 수 있다. 사용가능한 미디어 콘텐트는 세그먼트(segment)된다. 다음의 두가지 레벨들의 세그먼트들을 특징화하는 오디오 파라미터들이 추출된다: 단기간 프레임 레벨 및 장기간 클립 레벨. 프레임 레벨 오디오 파라미터는 단기간 자동상관 함수와 평균 크기 차분 함수, 0 교차 비율 및 스펙트럼 특성들의 추정일 수 있다(예를 들어, 피치는 프레임의 푸리에 변환 계수들의 크기의 주기 구조로부터 결정된다). 클립 레벨 오디오 파라미터는 음량(volume), 피치 또는 주파수-기반일 수 있다.
콘텐트 분석기(154)는 사용가능한 미디어 콘텐트의 오디오 파라미터를 메모리 수단(151)으로부터 얻은 오디오 파라미터(153)와 비교한다. 매치가 발견되면, 필요한 오디오 파라미터 또는 파라미터들(153)을 갖는 오디오 샘플 또는 샘플들이 사용가능한 미디어 콘텐트로부터 얻어진다.
본 발명의 한 실시예에서, 콘텐트 분석기(154)는 또한 예를 들면, Vijay K. Madisetti, Douglas B. Williams, 1998 by CRC Press LLC의 서적 "디지털 신호 처리 핸드북(The Digital Signal Processing Handbook)"의 챕터 47 "기계에 의한 음성 인식(speech recognition by machine)"에 기술된 패턴 매칭 기술에 의해, 사용 가능한 미디어 콘텐트의 오디오 샘플들 내의 (발음된) 워드들을 인식하도록 구성된다. 오디오 샘플에서 콘텐트 분석기가 미디어 콘텐트 아이템의 카테고리에 대하여 사용자에게 통지하는 가청 신호에 포함을 위해 바람직한 하나 또는 그 이상의 목적 워드들을 식별하면, 오디오 샘플은 가청 신호에 포함된다.
원칙적으로, 오디오 파라미터의 결정은 특정 카테고리와 연관된 오디오 파라미터를 갖는 하나 또는 그 이상의 오디오 샘플들을 얻는 목적을 위한 준수 사양은 아니다. 예를 들어, 이러한 오디오 샘플들은 미리 기록된 오디오 샘플들을 저장하는 데이터베이스(도시되지 않음)로부터 검색가능하다. 오디오 샘플들은 미디어 콘텐트의 특정 카테고리를 나타내는 요청시 데이터베이스로부터 검색될 수 있다. 대안적으로, 오디오 샘플들은 특정 오디오 파라미터를 나타내는 요청시 데이터베이스로부터 검색될 수 있다. 한 실시예에서, 검색된 오디오 샘플은 국부적으로 (예를 들면 캐시 메모리에) 저장될 수 있으며, 즉, 데이터 프로세싱 장치(150)의 메모리 수단(151)에 저장될 수 있으며, 따라서, 필요하다면 오디오 샘플이 원격 데이터베이스로부터 다시 오디오 샘플을 검색하는 대신 로컬 메모리 수단으로부터 얻어진다.
콘텐트 분석기(154)는 미디어 콘텐트 아이템의 카테고리에 따라 오디오 파라미터(153)를 갖는 가청 신호(156)를 구성하기 위한 가청 신호 구성기 (composer;155)(또한 "구성기"로도 불림)에 결합될 수 있다.
하나 이상의 오디오 샘플이 미디어 콘텐트 분석기(154)에 의해 얻어지면, 구성기(155)가 가청 신호(156)를 구성하기 위하여 오디오 샘플들을 함께 "붙이도 록(glue)" 배열될 수 있다. 예를 들어, 쉬어가기(pause)가 개별 워드들인 오디오 샘플들 사이에 삽입된다. 오디오 샘플들이 워드들을 포함하면, 워드들이 발음되는 언어는 어떠한, 예를 들면, Vijay K. Madisetti 등에 의한 챕터 46.2에서 기술된 억양법(accentuation) 기술들, 워드 발음(word pronunciation) 기술들 및 억양 표현(intonation phrasing) 기술들이 오디오 샘플들을 수정하기 위해 적용되는지 결정한다. 예를 들어, 스페인어 또는 핀란드어에는 보다 적은 워드 프로세싱이 필요하다.
단지 하나의 오디오 샘플이 가청 신호(156)에 포함되면, 데이터 프로세싱 장치(150)의 구성기(155)는 오디오 샘플 상에서 임의의 프로세싱 기술(예를 들면 억양법 기술)을 수행하기 위해 필요하지 않을 수도 있다.
장치(150)는 가청 신호를 사용자에게 재생하기 위하여 가청 신호(156)를 스피커(170)로 출력하도록 구성될 수 있다. 대안적으로, 장치(150)는 가청 신호를 포함하는 오디오 데이터(도시되지 않음)를 컴퓨터 네트워크(180), 예를 들면 인터넷을 통하여, 인터넷에 연결된 수신 장치(도시되지 않음) 또는 (원격) 스피커(170)로 전송하도록 구성될 수 있다. 일반적으로 말해서, 가청 신호(156)가 데이터 프로세싱 장치(150)에 결합된 스피커(170)에 의해 사용자에게 재생되어야할 필요는 없으며, 장치(150)는 단지 가청 신호(156)를 얻을 수 있고, 장치(150) 자체는 가청 신호(156)를 재생하도록 설계되지 않을 수 있다. 예를 들어, 데이터 프로세싱 장치는 가청 신호(156)를 클라이언트 장치들로 구성하고 배달하는 것에 의해 서비스들을 클라이언트 장치들(도시되지 않음)에 제공하기 위하여 네트워크된 컴퓨터 서버(도 시되지 않음)이다.
도 2는 본 발명의 실시예의 블록도이다. 장치(150)는 카테고리 표(도시되지 않음)에 카테고리 데이터(152)를 저장하기 위한 메모리 수단(151)을 갖는다. 도 1에 도시된 바와 같은 오디오 파라미터(153) 대신, 카테고리 표는 문자 데이터(153a)를 저장한다. 문자 데이터는, 예를 들어, 사용자가 미디어 콘텐트의 특정 카테고리와 연관시키는 아티스트 또는 유명한 배우의 이름이다. 문자 데이터는 또한 아티스트 또는 배우의 이미지 또는 목소리 특성들을 포함할 수 있다. 다른 예에서, 문자 데이터는 다수의 가족의 이름, 및 구성원의 이미지나 목소리 특성들을 포함한다.
한 실시예에서, 장치(150)는 사용자로 하여금 배우 또는 아티스트의 이름을 입력하게하고 이름과 연관되는 미디어 콘텐트의 카테고리를 나타내는 사용자 입력 수단(도시되지 않음)을 포함한다. 사용자 입력은 또한 메모리 수단(151)의 카테고리 표에 저장될 수 있다.
미디어 콘텐트 분석기(154)는 문자 데이터(152)에 표시된 특정 문자의 음성을 갖는 하나 또는 그 이상의 오디오 샘플들을 얻기 위하여 메모리 수단(151)으로부터 문자 데이터(153a)를 얻는다.
예를 들어, 콘텐트 분석기(154)는 문자가 묘사되는 비디오 프레임을 검출하는 것에 의해 미디어 콘텐트 소스(161 또는 162)로부터 얻어진 TV 프로그램들을 분석한다. 검출은 문자 데이터(152)로부터의 이미지를 사용하는 것에 의해 수행될 수 있다. 복수의 비디오 프레임들이 검출된 후에, 콘텐트 분석기는 또한 비디오 프레 임과 관련된 문자의 음성을 갖는 오디오 샘플 또는 샘플들을 결정할 수 있다. 따라서, 미디어 콘텐트 아이템의 카테고리와 연관된 문자에 의해 발음된 하나 또는 그 이상의 오디오 샘플들이 얻어진다.
콘텐트 분석기(154)는 미디어 콘텐트 소스(161 또는 162)로부터 사용가능한 미디어 콘텐트로부터 문자(목표 화자)를 갖는 개별적인 화면들 및 비디오 장면들을 분리시키기 위하여 Ying Li, C.-C. Jay Kuo, 2003, Kluwer Academic Publishers Group의 서적 "다양한 정보를 이용한 비디오 콘텐트 분석(Video Content Analysis Using Multimodal Information)"에서 설명된 멀티미디어 콘텐트 분석 방법들 중 임의의 하나를 사용하도록 구성될 수 있다. 콘텐트 분석 방법(예를 들면, R.O. Duda, P.E. Hart, D.G. Stork, Second Edition, Wiley Interscience, 2001의 서적 "패턴 분류법(Pattern Classification)"으로부터 공지된 패턴 인식 기술들)을 사용하여, 아티스트의 음성 또는 얼굴을 인식하도록 수학적 모델이 구성되고 훈련될 수 있다. 아티스트의 음성 또는 얼굴은 인터넷으로부터 또는 다른 방법으로 얻어질 수 있다. 문자의 인식은 카테고리 데이터에 의해 도움을 받을 수 있다.
Vijay K. Madisetti, Douglas B. Williams, 1998 by CRC Press LLC의 서적 "디지털 신호 처리 핸드북(The Digital Signal Processing Handbook)"의 챕터 48로부터 공지된 음성 인식 및 화자 확인(인식) 방법들이 미디어 콘텐트, 예를 들면 미디어 콘텐트 아이템의 문자(목표 화자)의 얼굴 및 음성을 자동적으로 인식하기 위해 콘텐트 분석기(154)에 의해 사용될 수 있다.
선택적으로, 콘텐트 분석기(154)는 수정된 오디오 샘플들을 얻기 위하여 오 디오 샘플 또는 샘플들을 오디오 샘플 수정기(157)(또한 "수정기"로 불림)로 제공한다. 오디오 샘플은 미디어 콘텐트 아이템의 카테고리를 나타내는 오디오 파라미터 또는 파라미터들(153)에 기초하여 수정된다.
W.B. Kleijn, K.K. Paliwal(Editors), 1995, Elsevier Science B.V., The Netherlands의 서적 "음성 코딩 및 합성(Speech Coding and Synthesis)"은 음성 신호들과 관련된 다른 것들 중에서, 챕터 15 "음성의 운율학적 수정을 위한 시간-도메인 및 주파수-도메인 기술들(Time-Domain and Frequency-Domain Techniques for Prosodic Modification of Speech)"에서 음성의 시간 및 피치 스케일 수정의 기술들을 서술한다. 시간 및 음성은 오디오 파라미터 또는 파라미터들(153)에 의존적이다. 예를 들어, 음성의 시간 스케일 수정은 화자의 음성의 모든 특성들(예를 들면, 피치)을 유지하는 동안 음성의 발음 속도를 더 빠르게 하는 것을 의미한다. 음성의 피치 스케일의 수정은 음성의 속도를 유지하는 동안 피치를 변경시키는 것(예를 들어 워드들이 더 높게 또는 깊게 들리게 하는 것)을 의미한다. 오버랩-부가(overlap-add)에 의한 시간 스케일 수정의 예가 도 5에 도시된다. 프레임들 X0, X1,...이 Sa의 속도로 원래의 음성(즉, 수정될 오디오 샘플)(상부)으로부터 얻어지고, 보다 느린 속도 Ss(>Sa)에서 반복된다. 오버랩 부분들은 대칭적인 창의 두 개의 반대편 측면들에 의해 가중되어 함께 부가된다. 따라서, 원래의 음성의 보다 긴 버전이 얻어지며, 그의 모양은 보존된다. 시간 스케일 수정은 완전한 워드들을 포함하는 오디오 샘플들에 적용될 수 있다.
본 발명의 실시예에서, 오디오 샘플들이 사용자가 미디어 콘텐트 아이템의 카테고리와 연관시키는 문자에 의해 발음되므로 수정기(157)가 필요없으며, 오디오 샘플들의 수정은 필요하지 않다. 콘텐트 분석기(154)는 예를 들면, Yao Wang 등에 의해 기술된 바와 같이, 문자에 의해 발음된 오디오 샘플들로부터 하나 또는 그 이상의 오디오 파라미터들을 결정하도록 구성되며, 각각의 카테고리 데이터(152)와 관련된 오디오 파라미터 또는 파라미터들을 메모리 수단(151)의 카테고리 표에 저장한다.
콘텐트 분석기(154)에 의해 얻어진 오디오 샘플 또는 샘플들 또는, 선택적으로 수정기(157)에 의해 얻어진 수정된 오디오 샘플 또는 샘플들이 가청 신호(156)를 생성하기 위해 구성기(155)로 제공된다.
도 3은 본 발명의 데이터 프로세싱 장치(150)의 실시예를 도시한다. 장치(150)는 카테고리 데이터(152)와 각각의 오디오 파라미터 또는 파라미터들(153)을 저장하기 위한 메모리 수단(151)을 가진다.
장치(150)는 텍스트 데이터(158a)가 발음되는 음성 신호를 합성하기 위한 음성 합성기(158)를 포함한다. 예를 들어, 텍스트 데이터는 TV 프로그램(미디어 콘텐트 아이템)의 요약일 수 있다. 텍스트 데이터는 미디어 콘텐트의 카테고리와 연관된 메뉴 아이템의 제목일 수 있다(예를 들어, 록 메뉴 아이템의 텍스트 데이터는 "록").
예를 들어, 음성 합성기(158)는 특히 Vijay K. Madisetti, Douglas B. Williams, 1998 by CRC Press LLC의 서적 "디지털 신호 처리 핸드북(The Digital Signal Processing Handbook)"의 챕터 46.3에서 기술된 텍스트-음성 합성 방법(그 림 46.1 참조)을 사용하도록 구성된다.
음성 합성기(158)는 오디오 파라미터 또는 파라미터들(153)에 기초하여 음성 신호를 수정하기 위한 수정기(157)에 결합된다. 예를 들어, 수정기(157)는 Vijay K. Madisetti 등에 의한 서적의 챕터 46.2에서 기술된 바와 같이 짧은 세그먼트들(예를 들면, 20ms)의 레벨로 음성 신호를 수정한다. 수정기는 또한 예를 들면, 도 5에 도시된 시간 스케일 수정을 적용하는 것에 의해, 또는 W.B. Kleijn에 의한 서적의 챕터 15 "음성의 운율학적 수정을 위한 시간-도메인 및 주파수-도메인 기술들(Time-Domain and Frequency-Domain Techniques for Prosodic Modification of Speech)"에서 기술된 바와 같이, 완전한 워드들의 레벨 상에서 음성 신호를 수정할 수 있다.
음성 합성기(158)는 원하는 텍스트 데이터(158a)를 발음하는 오디오 샘플들을 생성할 수 있다. 수정기(157)에 의해 수정된 오디오 샘플들은 텍스트 데이터(158a)를 포함하는 하나 또는 그 이상의 구(phrase)들을 갖는 가청 신호(156)를 형성하기 위하여 구성기(155)로 공급된다. 결과적으로, 예를 들어, 사용자가 가청 신호가 카테고리 "비디오:영화:액션"의 미디어 콘텐트 아이템에 대한 구를 포함하기를 원하면, 그 영화의 카테고리 "액션"에 대하여 사용자에게 통지하기 위하여 영화 "맨 인 블랙(Men in Black)"으로부터의 배우에 의해 가청 신호에서 구 "Congratulations, Reg', it's a ...squid"가 발음된다.
데이터 프로세싱 장치(150)는 도면들 1 내지 5를 참조하여 상술된 바와 같이 기능하도록 구성된 데이터 프로세서를 포함할 수 있다. 데이터 프로세서는 본 발명 을 구현하고 장치(150)의 동작이 가능하도록 적절히 구성된 공지된 중앙 처리 유닛(CPU)일 수 있다. 장치(150)는 부가적으로 컴퓨터 프로그램 메모리 유닛(도시되지 않음), 예를 들면 공지된 RAM(random access memory) 메모리 모듈을 포함할 수 있다. 데이터 프로세서는 장치(150)의 기능이 가능하도록 적어도 하나의 명령을 메모리 유닛으로부터 판독하도록 배열될 수 있다.
장치들은 케이블, 위성 또는 다른 링크를 갖는 텔레비전 세트(TV 세트), 비디오카세트 또는 HDD-기록기, 홈 시네마 시스템, CD 플레이어, I-Pronto 원격 제어와 같은 원격 제어 장치, 셀 폰 등과 같은 임의의 다양한 가전 장치들일 수 있다.
도 6은 본 발명의 방법의 실시예를 도시한다.
단계(610)에서, 미디어 콘텐트 아이템의 카테고리가 예를 들면 EPG 소스(111) 또는 인터넷 소스(112)로부터 식별되어, 카테고리 데이터(152)가 얻어진다.
방법의 제 1 실시예에서, 미디어 콘텐트 아이템의 카테고리와 연관된 적어도 하나의 오디오 파라미터(153)가 단계(620a)에서 얻어진다. 하나 또는 그 이상의 오디오 파라미터들(153)이 데이터 프로세싱 장치(150)의 제조자에 의해 각각의 카테고리 데이터(152)와 함께 제공될 수 있다. 대안적으로, 메모리 수단(151)은 다른 사용자에 의해 설정된 오디오 파라미터들 및 연관된 카테고리들을 저장하는 다른 원격 데이터 프로세싱 장치(또는 원격 서버)로부터 오디오 파라미터 또는 파라미터들을 예를 들면 인터넷을 통하여 자동적으로 다운로드하도록 구성될 수 있다. 다른 예에서, 데이터 프로세싱 장치는 메모리 수단(151)에 저장된 카테고리 표를 업데이 트하기 위한 사용자 입력 수단(도시되지 않음)을 포함한다.
단계(620b)에서, 적어도 하나의 오디오 파라미터를 갖는 오디오 샘플 또는 샘플들이 미디어 콘텐트 아이템 또는 다른 미디어 콘텐트로부터 예를 들면 도 1을 참조하여 상술된 바와 같이 미디어 콘텐트 분석기(154)를 사용하여 얻어진다.
단계(650)에서, 가청 신호가 하나 또는 그 이상의 오디오 샘플들로부터 예를 들면 가청 신호 구성기(155)를 사용하여 생성된다.
방법의 제 2 실시예에서, 카테고리 데이터(152)와 연관된 문자 데이터(153a)가 예를 들면 도 2에 도시된 메모리 수단(151)에 저장된 카테고리 표를 사용하여 단계(630a)에서 얻어진다.
단계(630b)에서, 원하는 문자에 의해 발음된 하나 또는 그 이상의 오디오 샘플들이 미디어 콘텐트 아이템 또는 다른 미디어 콘텐트로부터 예를 들면 도 2를 참조하여 상술된 바와 같이 미디어 콘텐트 분석기(154)를 사용하여 얻어진다.
선택적으로, 카테고리(152)와 연관된 적어도 하나의 오디오 파라미터(153)가 단계(630c)에서 얻어지며, 단계(630b)에서 얻어진 하나 또는 그 이상의 오디오 샘플들이 단계(630d)에서 적어도 하나의 오디오 파라미터를 이용하여, 예를 들면 도 2에 도시된 수정기(157)를 사용하여 수정된다.
단계(630b)에서 얻어진 적어도 하나의 오디오 샘플 또는, 선택적으로 단계(630d)에서 얻어진 적어도 하나의 수정된 오디오 샘플이 예를 들면 미디어 콘텐트 구성기(155)를 사용하여 단계(650)에서 가청 신호를 구성하도록 사용된다.
방법의 제 3 실시예에서, 카테고리와 연관된 적어도 하나의 오디오 파라미터 가 단계(640a)에서 메모리 수단(151)을 사용하여 얻어진다. 단계(640b)에서, 음성 합성기(158)가 텍스트 데이터(158a)가 발음되는 음성 신호를 합성하는데 사용된다.
단계(640c)에서, 단계(640a)에서 얻어진 적어도 하나의 오디오 파라미터를 사용하여 음성 신호가 수정된다. 가청 신호 구성기(155)가 단계(650)에서 수정된 음성 신호로부터 가청 신호를 얻기 위하여 사용될 수 있다.
단계들(620a 내지 620b)은 도 1에 도시된 데이터 프로세싱 장치의 동작을 기술할 수 있으며, 단계들(630a 내지 630d)은 도 2에 도시된 데이터 프로세싱 장치를 기술할 수 있고, 단계들(640a 내지 640c)은 도 3에 도시된 데이터 프로세싱 장치를 기술할 수 있다.
기술된 실시예들의 변화들 및 수정들이 발명 개념의 범주 내에서 가능하다.
프로세서는 본 발명의 방법의 단계들의 실행을 허용하도록 소프트웨어 프로그램을 수행할 수 있다. 소프트웨어는 본 발명의 장치가 어디에서 동작하는가에 독립적으로 인에이블 할 수 있다. 장치를 인에이블 하기 위하여, 프로세서는 소프트웨어 프로그램을 예를 들면, 다른 (외부) 장치들로 전송할 수 있다. 소프트웨어가 가전 제품들에서 동작하도록 제조되거나 이용될 때 독립 방법 청구항 및 컴퓨터 프로그램 제품 청구항이 본 발명을 보호하기 위해 사용될 수 있다. 외부 장치는 블루투스, 802.11[a-g] 등과 같은 현존하는 기술들을 이용하여 프로세서에 연결될 수 있다. 프로세서는 UPnP(Universal Plug and Play) 표준에 따라 외부 장치와 상호작용할 수 있다.
"컴퓨터 프로그램"은 인터넷과 같은 네트워크를 통하여 다운로드가능한, 또 는 임의의 다른 방법으로 판매가능한, 플로피 디스크와 같은 컴퓨터 판독가능한 매체 상에 저장된 임의의 소프트웨어 제품을 의미하는 것으로 이해된다.
다양한 프로그램 제품들이 본 발명의 시스템 및 방법의 기능들을 수행할 수 있으며, 하드웨어와 몇몇 방법들로 조합될 수 있거나 또는 상이한 장치들에 위치될 수 있다. 본 발명은 몇몇 개별적인 소자들을 포함하는 하드웨어에 의해, 및 적절하게 프로그램된 컴퓨터에 의해 구현될 수 있다. 몇몇 수단을 열거하는 장치 청구항에서, 이들 수단들의 몇몇은 하드웨어 또는 그와 동일한 아이템에 의해 구현될 수 있다.
동사 '포함하다(to comprise)'의 사용 및 그의 활용들은 청구항에 정의된 이와 다른 요소들 또는 단계들의 존재를 배제하지 않는다. 청구항들에서, 괄호들 사이에 위치된 임의의 참조 기호들은 청구항을 제한하는 것으로 해석되지 않아야 한다. 모든 세부 항목들은 다른 기술적으로 동등한 요소들로 치환될 수 있다.

Claims (18)

  1. 미디어 콘텐트 아이템의 카테고리(152)에 대하여 사용자에게 통지하는 방법에 있어서,
    - 상기 미디어 콘텐트 아이템의 상기 카테고리를 식별하는 단계(610), 및
    - 사용자로 하여금 상기 미디어 콘텐트 아이템의 상기 카테고리에 따라 오디오 파라미터(153)를 갖는 가청 신호(156)를 얻을 수 있게 하는 단계(650)를 포함하는, 방법.
  2. 제 1 항에 있어서:
    - 상기 카테고리와 연관된 상기 오디오 파라미터를 갖는 미디어 콘텐트의 적어도 하나의 오디오 샘플을 얻는 단계(620b)와,
    - 상기 적어도 하나의 오디오 샘플로부터 상기 가청 신호를 구성하는 단계(650)를 더 포함하는, 방법.
  3. 제 2 항에 있어서, 상기 적어도 하나의 오디오 샘플은 특정 문자(character;153a)에 의해 발음되는, 방법.
  4. 제 1 항에 있어서:
    - 상기 카테고리와 연관된 특정 문자(153a)에 의해 발음된 미디어 콘텐트의 적어도 하나의 오디오 샘플을 얻는 단계(630b)를 더 포함하는, 방법.
  5. 제 4 항에 있어서:
    - 상기 오디오 파라미터에 기초하여 상기 적어도 하나의 오디오 샘플을 수정하여 상기 가청 신호를 얻는 단계(630d)를 더 포함하는, 방법.
  6. 제 4 항에 있어서, 상기 특정 문자에 의해 발음된 상기 적어도 하나의 오디오 샘플을 분석하는 것에 의해 상기 오디오 파라미터를 결정하는 단계를 더 포함하는, 방법.
  7. 제 2 항 내지 제 6 항 중 어느 한 항에 있어서, 상기 적어도 하나의 오디오 샘플은 상기 미디어 콘텐트 아이템으로부터 얻어지는, 방법.
  8. 제 1 항에 있어서, 상기 오디오 파라미터를 이용하여, 상기 가청 신호를 합성하는 단계(640c)를 더 포함하는, 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서, 특정 텍스트(text;158a)가 상기 가청 신호에서 발음되는, 방법.
  10. 제 1 항에 있어서, 상기 카테고리는 장르 분류에 따른 비디오 콘텐트 또는 오디오 콘텐트의 클래스(class)인, 방법.
  11. 제 1 항에 있어서, 상기 미디어 콘텐트 아이템은 하나 이상의 카테고리와 연관되고, 상기 가청 신호는 상기 미디어 콘텐트 아이템의 상기 카테고리들의 지배적인(dominant) 하나에 따라 얻어지는, 방법.
  12. 제 1 항에 있어서, 상기 미디어 콘텐트 아이템은 상기 가청 신호를 이용하여, 추천기 수단에 의해 상기 사용자에게 추천되는, 방법.
  13. 제 9 항에 있어서, 상기 특정 텍스트는,
    - EPG 데이터로부터 얻어진 TV 프로그램 요약, 또는
    - EPG 데이터로부터 얻어진 상기 미디어 콘텐트 아이템의 카테고리 이름인, 방법.
  14. 제 1 항에 있어서, 상기 방법은 상기 사용자로 하여금 사용자 입력 수단을 이용하여, 상기 미디어 콘텐트 아이템의 상기 카테고리에 관련하여 상기 오디오 파라미터를 입력할 수 있게 하는, 방법.
  15. 미디어 콘텐트 아이템의 카테고리(152)에 대하여 사용자에게 통지하기 위한 데이터 프로세싱 장치에 있어서,
    - 상기 미디어 콘텐트 아이템의 상기 카테고리를 식별하고,
    - 상기 사용자로 하여금 상기 미디어 콘텐트 아이템의 상기 카테고리에 따라 오디오 파라미터(153)를 갖는 가청 신호(156)를 얻을 수 있게 하도록 구성된 데이터 프로세서(150)를 포함하는, 데이터 프로세싱 장치.
  16. 가청 신호가 사용자에게 제공될 때, 미디어 콘텐트 아이템의 카테고리(152)에 대하여 상기 사용자에게 통지하는 상기 가청 신호(156)를 포함하는 오디오 데이터에 있어서, 상기 가청 신호는 상기 미디어 콘텐트 아이템의 상기 카테고리에 따라 오디오 파라미터(153)를 갖는, 오디오 데이터.
  17. 프로그램가능한 장치를 인에이블 하는 컴퓨터 프로그램 제품에 있어서, 실행시에 상기 컴퓨터 프로그램 제품이 제 15 항에서 청구된 바와 같은 장치로서 동작하도록 하는, 컴퓨터 프로그램 제품.
  18. 제 16 항에 청구된 바와 같은 복수의 상기 오디오 데이터를 포함하는 데이터베이스에 있어서, 오디오 데이터의 각각은 미디어 콘텐트의 각각의 카테고리와 연관된 상기 오디오 파라미터를 갖는, 데이터베이스.
KR1020077011314A 2004-10-18 2005-10-10 미디어 콘텐트 아이템의 카테고리에 대하여 사용자에게통지하는 데이터 프로세싱 장치 및 방법 KR20070070217A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04105110.3 2004-10-18
EP04105110 2004-10-18

Publications (1)

Publication Number Publication Date
KR20070070217A true KR20070070217A (ko) 2007-07-03

Family

ID=35462318

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077011314A KR20070070217A (ko) 2004-10-18 2005-10-10 미디어 콘텐트 아이템의 카테고리에 대하여 사용자에게통지하는 데이터 프로세싱 장치 및 방법

Country Status (6)

Country Link
US (1) US20080140406A1 (ko)
EP (1) EP1805753A1 (ko)
JP (1) JP2008517315A (ko)
KR (1) KR20070070217A (ko)
CN (1) CN101044549A (ko)
WO (1) WO2006043192A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220008609A (ko) * 2020-07-14 2022-01-21 (주)드림어스컴퍼니 음성 명령 기반의 음질 제어 방법 및 그를 위한 장치

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
US8522276B2 (en) * 2006-02-17 2013-08-27 Verizon Services Organization Inc. System and methods for voicing text in an interactive programming guide
US8713615B2 (en) 2006-02-17 2014-04-29 Verizon Laboratories Inc. Systems and methods for providing a shared folder via television
US9143735B2 (en) * 2006-02-17 2015-09-22 Verizon Patent And Licensing Inc. Systems and methods for providing a personal channel via television
US7917583B2 (en) 2006-02-17 2011-03-29 Verizon Patent And Licensing Inc. Television integrated chat and presence systems and methods
US8584174B1 (en) 2006-02-17 2013-11-12 Verizon Services Corp. Systems and methods for fantasy league service via television
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
JP5088050B2 (ja) 2007-08-29 2012-12-05 ヤマハ株式会社 音声処理装置およびプログラム
WO2009158581A2 (en) * 2008-06-27 2009-12-30 Adpassage, Inc. System and method for spoken topic or criterion recognition in digital media and contextual advertising
US8180765B2 (en) * 2009-06-15 2012-05-15 Telefonaktiebolaget L M Ericsson (Publ) Device and method for selecting at least one media for recommendation to a user
GB2481992A (en) * 2010-07-13 2012-01-18 Sony Europe Ltd Updating text-to-speech converter for broadcast signal receiver
PL401346A1 (pl) * 2012-10-25 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Generowanie spersonalizowanych programów audio z zawartości tekstowej
PL401371A1 (pl) * 2012-10-26 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Opracowanie głosu dla zautomatyzowanej zamiany tekstu na mowę
US20150007212A1 (en) * 2013-06-26 2015-01-01 United Video Properties, Inc. Methods and systems for generating musical insignias for media providers
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
EP2887233A1 (en) * 2013-12-20 2015-06-24 Thomson Licensing Method and system of audio retrieval and source separation
EP3602539A4 (en) * 2017-03-23 2021-08-11 D&M Holdings, Inc. SYSTEM FOR PROVIDING EXPRESSIVE AND EMOTIONAL TEXT-TO-LANGUAGE
US11227579B2 (en) * 2019-08-08 2022-01-18 International Business Machines Corporation Data augmentation by frame insertion for speech data
CN111863041B (zh) * 2020-07-17 2021-08-31 东软集团股份有限公司 一种声音信号处理方法、装置及设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446040B1 (en) * 1998-06-17 2002-09-03 Yahoo! Inc. Intelligent text-to-speech synthesis
WO2000064168A1 (en) * 1999-04-19 2000-10-26 I Pyxidis Llc Methods and apparatus for delivering and viewing distributed entertainment broadcast objects as a personalized interactive telecast
US6248646B1 (en) * 1999-06-11 2001-06-19 Robert S. Okojie Discrete wafer array process
KR20020000179A (ko) * 2000-03-17 2002-01-04 요트.게.아. 롤페즈 데이터베이스 오브젝트들을 등급 평가하기 위한 방법 및장치
US20020095294A1 (en) * 2001-01-12 2002-07-18 Rick Korfin Voice user interface for controlling a consumer media data storage and playback device
US20030172380A1 (en) * 2001-06-05 2003-09-11 Dan Kikinis Audio command and response for IPGs
CN100492525C (zh) * 2001-09-11 2009-05-27 汤姆森特许公司 用于激活自动均衡模式的方法和装置
US7096183B2 (en) * 2002-02-27 2006-08-22 Matsushita Electric Industrial Co., Ltd. Customizing the speaking style of a speech synthesizer based on semantic analysis
US7240059B2 (en) * 2002-11-14 2007-07-03 Seisint, Inc. System and method for configuring a parallel-processing database system
US7120626B2 (en) * 2002-11-15 2006-10-10 Koninklijke Philips Electronics N.V. Content retrieval based on semantic association

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220008609A (ko) * 2020-07-14 2022-01-21 (주)드림어스컴퍼니 음성 명령 기반의 음질 제어 방법 및 그를 위한 장치

Also Published As

Publication number Publication date
CN101044549A (zh) 2007-09-26
JP2008517315A (ja) 2008-05-22
EP1805753A1 (en) 2007-07-11
US20080140406A1 (en) 2008-06-12
WO2006043192A1 (en) 2006-04-27

Similar Documents

Publication Publication Date Title
KR20070070217A (ko) 미디어 콘텐트 아이템의 카테고리에 대하여 사용자에게통지하는 데이터 프로세싱 장치 및 방법
US11710474B2 (en) Text-to-speech from media content item snippets
CN106898340B (zh) 一种歌曲的合成方法及终端
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US8352268B2 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8396714B2 (en) Systems and methods for concatenation of words in text to speech synthesis
KR101826714B1 (ko) 말하기 학습 기능을 구비한 외국어 학습 시스템 및 외국어 학습 방법
US8583418B2 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
US8355919B2 (en) Systems and methods for text normalization for text to speech synthesis
US8352272B2 (en) Systems and methods for text to speech synthesis
US20100082327A1 (en) Systems and methods for mapping phonemes for text to speech synthesis
WO2014141054A1 (en) Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
KR101164379B1 (ko) 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법
CN110867177A (zh) 音色可选的人声播放***、其播放方法及可读记录介质
CN104471512A (zh) 内容定制化
JP2006309751A (ja) 情報処理システムおよび方法、並びにプログラム
CN110019962B (zh) 一种视频文案信息的生成方法及装置
RU2005123387A (ru) Способ и система для обогащения аудиосигнала
KR20200045852A (ko) 음성 합성 또는 영상 편집을 통한 멀티미디어 컨텐츠 내 광고 서비스 플랫폼 및 음성 합성 서비스와 영상 편집 서비스를 제공하는 방법
Müller et al. Interactive fundamental frequency estimation with applications to ethnomusicological research
JP2007310204A (ja) 楽曲練習支援装置、制御方法及びプログラム
JP2007264569A (ja) 検索装置、制御方法及びプログラム
JP2019056791A (ja) 音声認識装置、音声認識方法およびプログラム
JP2006189799A (ja) 選択可能な音声パターンの音声入力方法及び装置
De Poli et al. From audio to content

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid