KR101289267B1

KR101289267B1 - 방송통신시스템에서 ｄｔｖ 자막 처리 장치 및 방법

Info

Publication number: KR101289267B1
Application number: KR1020090129016A
Authority: KR
Inventors: 남제호; 김정연; 홍진우; 신상권; 안상우; 정원식; 추현곤; 이주영
Original assignee: 한국전자통신연구원
Priority date: 2009-12-22
Filing date: 2009-12-22
Publication date: 2013-08-07
Also published as: KR20110072181A; US20110149153A1

Abstract

본 발명은 방송통신시스템에서 DTV 자막 처리 장치 및 방법에 관한 것으로, 편집이 용이하고, 처리 속도가 빠르며, 검색 속도를 증가시킬 수 있는 자막 처리 장치 및 방법을 제공하고자 한다.

본 발명의 일실시예에 따른 처리 장치는, DTV 자막 추출/생성 및 구간 분할 장치에 있어서, 스트림을 전달받아 부가정보와 비디오 스트림으로 역다중화하는 역다중화부; 상기 비디오 스트림을 전달받아 디코딩하는 디코더; 상기 디코더에서 추출된 PTS 정보를 전달받아 동기화 시간정보로 변환하는 ST 변환부; 상기 역다중화된 부가정보를 저장하는 저장부; 상기 저장된 부가정보를 전달받아 CSD 정보를 분석하는 분석부; 상기 디코더에서 디코딩된 데이터와 상기 분석된 CSD 정보를 전달받아 자막데이터를 추출하는 자막 추출부; 상기 변환된 동기화 시간정보와 상기 추출된 자막데이터를 이용하여 자막파일을 생성하는 자막파일 생성부; 상기 생성된 자막파일을 전달받아 구간별 자막 스트림을 구성하는 자막데이터 처리부; 상기 구성된 구간별 자막 스트림을 전달받아 구간별 스트림을 구성하는 구간 분할부; 및 상기 구성된 구간별 자막 스트림을 전달받아 상기 구간별 자막 스트림에서 키워드 검색을 통하여 해당 키워드에 상응하는 구간의 스트림을 검색하는 키워드 검색부를 포함하되, 상기 자막파일 생성부는, 상기 추출된 자막데이터를 저장하고, 상기 저장된 자막데이터와 특수문자를 비교하여 자막파일을 출력하며, 상기 저장된 자막데이터의 길이와 화면의 크기를 비교하여 자막파일을 출력한다.

DTVCC, Closed-Caption, DTV 자막, 자막파일, ATSC

Description

방송통신시스템에서 ＤＴＶ 자막 처리 장치 및 방법{APPARATUS AND METHOD FOR DTV CLOSED-CAPTIONING PROCESSING IN BROADCASTING AND COMMUNICATION SYSTEM}

본 발명은 DTV 자막 처리 장치 및 방법에 관한 것으로, 더욱 상세하게는 방송통신시스템에서 DTV 자막 처리 장치 및 방법에 관한 것이다.

"본 발명은 지식경제부의 IT 성장동력기술개발사업의 일환으로 수행된 사업에 결과로 도출된 것이다. [과제고유번호 : 2007-S-0003-02]"

현재 TV 방송 시스템은 아날로그 방송과 디지털 방송이 혼재해 있는 상황이다. 아날로그 TV 시스템은 초기의 흑백을 기본으로 하는 방송부터 칼라를 기본으로 하는 방송까지 많은 발전을 하고 있다. 그러나 아날로그 방송은 송/수신의 어려움, 잡음 영향 등의 단점으로 인하여 디지털 TV 시스템에 대한 관심이 증가하고 있다. 그리하여 현재 지상파 TV 방송은 기존의 아날로그 방식과 DMB를 필두로 하는 디지털 방식의 방송신호가 공존하고 있다. 이러한 지상파 TV 방송은 디지털 방식을 수신할 수 있는 장비들의 급격한 증가와 디지털 방식의 효율성과 그리고 안정적인 방송신호의 송수신으로 인해 디지털 방송의 비중이 점차 증가하고 있다.

디지털 TV(Digital TV : 이하 'DTV'라 칭함)는 제작, 편집, 전송, 수신의 모든 방송을 디지털 신호로 처리하는 TV 방송 시스템을 의미한다. 그리고 디지털 TV는 정보의 종류에 따라 서로 다른 신호를 처리하여 화질과 음질이 선명하지 않으며, 한정된 채널밖에 볼 수 없다는 아날로그 TV의 단점을 극복할 수 있는 장점이 있다. 디지털 TV는 디지털 전송 기술을 사용함으로써 잠음 제거와 화면의 겹침을 줄일 수 있고, 기존의 아날로그 TV보다 깨끗한 영상 및 음성을 제공할 수 있으며, 정보의 손실 없이 신호를 압축하여 더 많은 수의 채널을 제공할 수 있다. 또한, 전송 과정에서 발생하는 신호 오류를 자동으로 교정할 수 있고, TV 프로그램과 인터넷상의 콘텐츠 등을 공유할 수 있으며, TV를 통해 인터넷 검색을 포함한 사용자와의 쌍방향 통신이 가능하다는 장점이 있다. DTV 방식은 미국의 ATSC(Advanced Television Systems Committee) 방식과 유럽의 DVB-T(Digital Video Broadcasting-Terrestrial) 방식으로 구분된다. 미국의 ATSC 방식은 변조 방식으로 8-VSB(8-level Vestigial SideBand) 방식을 사용하며, 유럽의 DVB-T 방식은 변조 방식으로 COFDM(Coded Orthogonal Frequency Division Multiplexing) 방식을 사용한다.

또한, 이러한 방송의 디지털화는 뛰어난 화질과 음질을 확보할 수 있고, 아날로그 시스템에 비하여 4배의 채널 효율증대 효과를 가지고 있다. 또한, 시청자 측면에서는 아날로그 방식에서는 표현하기 어려운 고품질의 방송서비스를 제공받을 수 있을 뿐만 아니라 다채널로 인해 다양한 프로그램의 시청을 가능하게 할 수 있다. 또한, 산업적인 측면에서는 디지털 방송용 송/수신기의 보급과 새로운 콘텐츠의 보급으로 인한 수요창출 효과를 가져 올 수 있는 장점이 있다. 현재 디지털 방송 중 지상파 DTV 기술은 전국적으로 망이 설치되어 국가의 기간망 중 하나로 발전하고 있다.

디지털 방송의 보편화에 힘입어 일반 사용자의 방송 콘텐츠 접근과 소유가 용이해지고 있다. MPEG-2 TS(Transport Stream)로 전송되는 디지털 방송 스트림에는 오디오/비디오 신호 외에 PSI(Program Specific Information), PSIP(Program and System Information Protocol) 등의 다양한 데이터가 함께 다중화(multiplexed)되어 있다. TS에는 복수의 프로그램을 전송하기 위해 스트림에 포함되어 있는 프로그램과 그 프로그램을 구성하는 영상이나 음성 스트림 등의 프로그램의 요소와의 관계를 나타내는 테이블 정보가 규정되고 있다. 이 테이블 정보가 PSI이며, PAT(Program Association Table), PMT(Program Map Table) 등 4 종류의 테이블이 규정되고 있다. PAT, PMT 등의 PSI는 섹션으로 불리는 단위로 TS 패킷 내의 페이로드에 배치되어 전송된다. PAT에는 프로그램 번호에 대응한 PMT의 PID 등이 기술되고 있어 PMT에는 대응하는 프로그램에 포함되는 영상, 음성, 부가 데이터 및 PCR의 PID가 기술되므로, PAT와 PMT를 참조하는 것으로서 스트림에서 목적의 프로그램을 구성하는 TS 패킷만을 추출할 수가 있다. 또한, PSIP는 MPEG-2 비디오, AC-3 오디오 방식을 기본으로 하여, EPG(Electronic Program Guide : 방송정보안내) 및 기타 부가 서비스를 할 수 있도록 ATSC에서 표준화시킨 북미의 DTV 전송 프로토콜의 규격을 의미한다. 이런 PSIP를 제공하기 위하여 아래의 <표 1>과 같은 6개의 정보 테이블이 존재한다.

테이블	기능
STT(System Time Table)	날짜와 시간 정보를 가진 테이블
MGT(Master Guide Table)	다른 테이블들의 버전 넘버, 크기, PID 정보를 가진 테이블
VCT(Virtual Channel Table)	TS의 가상채널 정보(Major/Minor Number, Short Name 등)를 가진 테이블
EIT(Event Information Table)	가상채널의 Event 정보(EPG)를 가진 테이블
ETT(Extended Text Table)	가상채널과 Event의 상세 정보를 가진 테이블
RRT(Rating Region Table)	프로그램에 대한 Rating 정보를 가진 테이블

그리고 또 다른 방송 데이터로서 DTV 자막 서비스를 위해 제공되는 자막데이터가 있다. 자막(closed-caption) 방송이란 방송 프로그램의 대사를 문자화된 자막으로 보여주는 서비스로서 장애인, 노약자, 외국인 등 정보소외계층의 방송 접근권(accessibility) 확대를 통한 정보격차(digital divide) 해소를 목적으로 하는 방송이다. 국내에서는 2007년 6월에 디지털 TV 자막 방송 표준규격이 완료되었고, 2008년 4월 '장애인 차별금지 및 권리구제 등에 관한 법률'에 의하여 모든 방송 서비스의 자막 방송 의무화를 시행 중에 있다.

DTV 자막데이터는 디지털 방송의 전송 규격인 MPEG-2 비트스트림에 다중화되어 있으며, 수신기에서 자막을 재생하기 위해서는 별도의 자막 추출 및 재생기가 필요하다. 또한, PC 환경에서의 자막파일 형식은 국내외에서 자막파일 규격으로 가장 널리 이용되고 있는 SAMI(Synchronized Accessible Media Interchange) 표준을 이용한다. 이러한 자막파일을 효과적으로 추출하고 생성할 수 있는 기술이 필요하다.

따라서 본 발명에서는 편집이 용이한 자막 처리 장치 및 방법을 제공한다.

또한, 본 발명에서는 처리 속도가 빠른 자막 처리 장치 및 방법을 제공한다.

또한, 본 발명에서는 검색 속도를 증가시킬 수 있는 자막 처리 장치 및 방법을 제공한다.

본 발명의 일실시예에 따른 장치는, DTV 자막 추출/생성 및 구간 분할 장치에 있어서, 스트림을 전달받아 부가정보와 비디오 스트림으로 역다중화하는 역다중화부; 상기 비디오 스트림을 전달받아 디코딩하는 디코더; 상기 디코더에서 추출된 PTS 정보를 전달받아 동기화 시간정보로 변환하는 ST 변환부; 상기 역다중화된 부가정보를 저장하는 저장부; 상기 저장된 부가정보를 전달받아 CSD 정보를 분석하는 분석부; 상기 디코더에서 디코딩된 데이터와 상기 분석된 CSD 정보를 전달받아 자막데이터를 추출하는 자막 추출부; 상기 변환된 동기화 시간정보와 상기 추출된 자막데이터를 이용하여 자막파일을 생성하는 자막파일 생성부; 상기 생성된 자막파일을 전달받아 구간별 자막 스트림을 구성하는 자막데이터 처리부; 상기 구성된 구간별 자막 스트림을 전달받아 구간별 스트림을 구성하는 구간 분할부; 및 상기 구성된 구간별 자막 스트림을 전달받아 상기 구간별 자막 스트림에서 키워드 검색을 통하여 해당 키워드에 상응하는 구간의 스트림을 검색하는 키워드 검색부를 포함하되, 상기 자막파일 생성부는, 상기 추출된 자막데이터를 저장하고, 상기 저장된 자막데이터와 특수문자를 비교하여 자막파일을 출력하며, 상기 저장된 자막데이터의 길이와 화면의 크기를 비교하여 자막파일을 출력한다.
또한, 본 발명의 다른 실시예에 따른 장치는, 스트림 구분 및 검색 장치에 있어서, 동기화 시간정보와 추출된 자막데이터를 이용하여 자막파일을 생성하는 자막파일 생성부; 상기 생성된 자막파일을 전달받아 구간별 자막 스트림을 구성하는 자막데이터 처리부; 상기 구성된 구간별 자막 스트림을 전달받아 구간별 스트림을 구성하는 구간 분할부; 및 상기 구성된 구간별 자막 스트림을 전달받아 상기 구간별 자막 스트림에서 키워드 검색을 통하여 해당 키워드에 상응하는 구간의 스트림을 검색하는 키워드 검색부를 포함하되, 상기 자막파일 생성부는, 상기 추출된 자막데이터를 저장하고, 상기 저장된 자막데이터와 특수문자를 비교하여 자막파일을 출력하며, 상기 저장된 자막데이터의 길이와 화면의 크기를 비교하여 자막파일을 출력한다.

한편, 본 발명의 일실시예에 따른 방법은, DTV 자막 추출/생성 및 구간 분할 장치에서의 DTV 자막 추출/생성 및 구간 분할 방법에 있어서, 스트림을 전달받아 부가정보와 비디오 스트림으로 역다중화하는 과정; 상기 비디오 스트림을 전달받아 디코딩하는 과정; 상기 디코딩 과정에서 추출된 PTS 정보를 전달받아 동기화 시간정보로 변환하는 과정; 상기 역다중화된 부가정보를 저장하는 과정; 상기 저장된 부가정보를 전달받아 CSD 정보를 분석하는 과정; 상기 디코딩 과정에서 디코딩된 데이터와 상기 분석된 CSD 정보를 전달받아 자막데이터를 추출하는 과정; 상기 변환된 동기화 시간정보와 상기 추출된 자막데이터를 이용하여 자막파일을 생성하는 자막파일 생성과정; 상기 생성된 자막파일을 전달받아 구간별 자막 스트림을 구성하는 과정; 상기 구성된 구간별 자막 스트림을 전달받아 구간별 스트림을 구성하는 과정; 및 상기 구성된 구간별 자막 스트림을 전달받아 상기 구간별 자막 스트림에서 키워드 검색을 통하여 해당 키워드에 상응하는 구간의 스트림을 검색하는 과정을 포함하되, 상기 자막파일 생성과정은, 상기 추출된 자막데이터를 저장하는 과정; 상기 저장된 자막데이터와 특수문자를 비교하여 자막파일을 출력하는 과정; 및 상기 저장된 자막데이터의 길이와 화면의 크기를 비교하여 자막파일을 출력하는 과정을 포함한다.
또한, 본 발명의 다른 실시예에 따른 방법은, 스트림 구분 및 검색 장치에서의 스트림 구분 및 검색 방법에 있어서, 동기화 시간정보와 추출된 자막데이터를 이용하여 자막파일을 생성하는 자막파일 생성과정; 상기 생성된 자막파일을 전달받아 구간별 자막 스트림을 구성하는 자막데이터 처리과정; 상기 구성된 구간별 자막 스트림을 전달받아 구간별 스트림을 구성하는 구간 분할 과정; 및 상기 구성된 구간별 자막 스트림을 전달받아 상기 구간별 자막 스트림에서 키워드 검색을 통하여 해당 키워드에 상응하는 구간의 스트림을 검색하는 키워드 검색과정을 포함하되, 상기 자막파일 생성과정은, 상기 추출된 자막데이터를 저장하는 과정; 상기 저장된 자막데이터와 특수문자를 비교하여 자막파일을 출력하는 과정; 및 상기 저장된 자막데이터의 길이와 화면의 크기를 비교하여 자막파일을 출력하는 과정을 포함한다.

본 발명에서는 편집이 용이하고, 처리 속도가 빠르며, 검색 속도를 증가시킬 수 있는 자막 처리 장치 및 방법을 제공한다.

본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.

본 발명에서는 지상파 DTV 방송프로그램의 녹화, 저장된 MPEG-2 TS 파일로부터 자막데이터를 추출하고, 추출된 자막데이터를 PC 환경에서 일반적으로 사용하는 범용 멀티미디어 재생기에서도 영상과 동기화시켜 재생이 가능한 자막파일로 생성하는 방식을 제시한다.

도 1은 본 발명의 일실시예에 따른 DTV 자막 추출 및 자막파일을 생성하는 장치의 구조도이다.

도 1에서는 DTV 자막 추출 및 자막파일을 생성하기 위하여 MPEG-2 역다중화부(110), 비디오 디코더(120), ST 변환부(130), PMT 버퍼(140), EIT 버퍼(150), 자막 서비스 서술자(Caption Service Descriptor) 분석부(160), 자막 추출부(170), 자막파일 생성부(180)를 포함한다. 도 1에서 PMT 버퍼(140)와 EIT 버퍼(150)는 저장부라 칭한다. 도 1을 참조하여 DTV 자막 추출 및 자막파일을 생성하는 동작 과정에 관하여 살펴보기로 한다.

MPEG-2 역다중화기(110)는 MPEG-2 TS 형태로 제공되는 영상을 제공받아 비디오 스트림과 PSI의 프로그램 맵 테이블(Program Map Table : 이하 "PMT"라 칭함) 정보 및 PSIP의 이벤트 정보 테이블(Event Information Table : "EIT"라 칭함) 정보로 역다중화한다. 비디오 디코더(120)는 MPEG-2 역다중화부(110)에서 역다중화된 비디오 스트림을 디코딩하고 표현 시간 지정정보(Presentation Time Stamp : 이하 "PTS"라 칭함)를 추출하여 ST 변환부(130)로 전달하며 사용자 데이터를 자막 추출부(170)로 전달한다. PTS는 디코딩된 액세스 유닛이 재생되는 시점을 나타내는 값인데 시스템 클록 주파수의 1/300 단위의 클록으로 표현한 값이다. 즉, 90KHz이다. ST 변환부(130)는 비디오 디코더(120)로부터 전달받은 PTS 스트림을 ST 스트림으로 변환하여 자막파일 생성부(180)로 전달한다. 여기서, ST는 동기화 시간 즉, "Sync Time"을 의미한다. PMT 버퍼(140)와 EIT 버퍼(150)는 MPEG-2 역다중화된 PMT 정보와 EIT 정보를 저장하고 자막 서비스 서술자(Caption Service Descriptor) 분석부(160)로 전달한다. 자막 서비스 서술자 분석부(160)는 PMT 버퍼(140) 및 EIT 버퍼(150)로부터 전달받은 PMT 정보 및 EIT 정보를 이용하여 CSD 정보를 자막 추출부(170)로 전달한다. 자막 추출부(170)는 자막 서비스 서술자 분석부(160)로부터 제공받은 CSD 정보와 비디오 디코더(120)로부터 전달받은 사용자 데이터를 이용하여 자막데이터를 추출하여 자막파일 생성부(180)로 전달한다. 자막파일 생성부(180)는 ST 변환부(130)로부터 전달받은 ST 정보와 자막 추출부(170)로부터 전달받은 자막데이터를 이용하여 자막파일을 생성한다. 상술한 도 1에서 자막파일 생성부(180)에서 생성된 자막파일은 후술되는 도 4의 구간별 스트림 구성장치(400)의 입력으로 사용될 수 있으며, 구간별 스트림 구성장치(400)의 구성은 도 4에서 상세하게 설명하기로 한다.

이하에서 자막파일의 추출 및 생성 방법을 자막파일의 추출 과정과 자막파일의 생성 과정으로 분류하여 상세하게 살펴보기로 한다.

<자막파일 추출 방법>

디지털 자막의 추출 방법은 자막 서비스 서술자(Caption Service Descriptor)를 해석하는 과정과 MPEC-2 비디오 스트림 추출 과정과 자막데이터를 추출하는 과정으로 구분할 수 있다. 자막 추출 대상은 지상파 DTV 방송 스트림의 전송 단위인 MPEG-2 TS이며, ATSC A/65C PSIP 표준규격과 국내외 TTA DTV 자막방송 표준규격과 EIA-708-B, 그리고 ATSC A/53 표준규격을 참고하여 자막의 추출과 해석이 이루어진다.

자막 서비스 서술자(CSD : Caption Service Descriptor) 해석 과정은 자막의 추출에 앞서서 자막 서비스 서술자에 대한 해석이 필요하다. CSD는 MPEG-2 역다중화부(110)에서 역다중화된 PSI의 PMT(Program Map Table) 또는 PSIP의 EIT(Event Information Table)에 존재하는 서술자로서, 자막의 유형과 속성을 기술한다. 하기의 <표 2>는 CSD의 비트 스트림 구문을 나타낸다.

Syntax	No. of Bits	Format
caption_service_descriptor() { ... number_of_services for (i=0; i<number_of_services; i++) { language ... korean_code ... } }	5 8*3 1	uimsbf uimsbf bslbf

상기 <표 2>의 "language"는 자막의 언어를 나타내는 3 byte 코드이다. 각 언어의 코드는 ISO 639.2에 정의되어 있으며, 한국어의 경우 'kor'로 표현된다. "korean_code"는 국내의 자막방송 규격에만 정의되어있는 필드로서, 자막 언어가 한글인 경우 완성형(0)인지 혹은 유니코드(1)인지를 나타낸다. 그 밖의 모든 필드에 대한 분석이 완료되면 이후에 전송되는 자막은 CSD의 정보에 따라서 해석된다.

MPEG-2 TS 비디오 스트림 추출 과정에서의 자막데이터는 비디오 스트림에 포함되어 있기 때문에 MPEG-2 TS에서 비디오 스트림의 추출이 필요하다. 디지털 방송 전송 규격인 MPEG-2 시스템에 정의되어있는 TS(Transport Stream)는 188 byte 단위의 패킷 구조로 되어 있으며, 패킷 헤더의 식별자(Packet Identifier: PID)를 통하여 해당 TS의 페이로드(payload)가 어떤 데이터(예: 비디오, 오디오 등)인지를 알 수 있다. DTV 방송 자막은 비디오 스트림 내의 사용자 데이터(Picture user data) 구문에 포함되어 있으므로 MPEG-2 TS 비디오 스트림의 추출이 필요하다. 사용자 데이터는 아래의 <표3>와 같이 이루어져 있다.

Syntax	No. of Bits	Format
user_data() { user_data_start_code ATSC_identifier user_data_type_code if (user_data_type_code == '0ㅧ03') cc_data() ... next_start_code() }	32 32 8	bslbf bslbf uimsbf

마지막으로, 자막데이터 추출 과정은 다음과 같다. 추출된 비디오 스트림은 PES(Packetized Elementary Stream)로 이루어져 있다. 사용자 데이터에는 자막데이터를 넣도록 규정되어 있는 자막데이터(cc_data) 필드가 정의되어 있으며, 구조는 아래의 <표4>과 같다. PES는 PS(Program Stream) 및 TS(Transport Stream)을 구성하기 위한 바로 전 단계로서, 단일 정보원에 대한 패킷들로만 구성된 스트림을 의미한다. 자막데이터 필드 중 "cc_data_1"과 "cc_data_2"는 자막데이터의 첫 번째 byte와 두 번째 byte를 나타내며, "cc_count"의 개수만큼의 자막데이터를 구성할 수 있다.

Syntax	No. of Bits	Format
cc_data() { ... for(i=0 ; i<cc_count ; i++) { ... cc_data_1 cc_data_2 } ... }	8 8	bslbf bslbf

위의 과정을 통하여 구성된 자막데이터는 패킷 계층에 해당한다. 이후에 뒤따르는 서비스 계층, 코딩 계층, 그리고 해석 계층의 분석을 통하여 최종적인 자막데이터와 자막의 구성에 대한 정보를 얻을 수 있다.

<자막파일 생성 방법>

자막파일을 생성하기 위한 방법은 동기화 시간을 계산하는 과정과 자막 연결 및 배치 과정으로 이루어진다. 이상에서 설명한 자막파일 생성 방법에서 사용하는 자막파일 규격은 접근성 미디어 동기화 교환(Synchronized Accessible Media Interchange : 이하 "SAMI"라 칭함) 파일이며, SAMI는 HTML을 기반의 자막파일이다. SAMI 파일 생성을 위해서는 재생되는 영상과의 동기화 시간(ST)과 각 ST에 재생되는 자막의 적절한 배치가 필요하다. 후술되는 동기화 시간을 계산하는 과정을 통하여 결정된 ST와 연결된 자막은 자막파일(*.smi)의 생성을 위하여 SAMI 파일 규격이 적용된다.

SAMI 파일 구조에는 기본적으로 자막이 재생되는 millisecond(ms) 단위의 동기화 시간 정보가 포함된다. DTV 방송 자막데이터는 비디오 스트림에 포함되어 있기 때문에 비디오 스트림 PES의 헤더에 포함되어 있는 PTS를 SAMI 파일의 자막 재생 시간 정보로 활용할 수 있다. PTS는 PES 헤더에 위치한 33 bit의 필드로서 PES의 재생시간을 나타낸다. 단위는 시스템 클록 주파수 단위이며, SAMI 파일의 동기화 시간 단위로 환산하기 위한 방법을 하기의 <수학식 1>과 같이 나타낼 수 있다.

동기화 시간을 추출하는 과정에서는 SAMI의 ms 단위 값을 얻기 위하여 PTS를 90kHz로 나누어 초단위로 환산한다.

도 2는 자막데이터를 프레임 재생시간 순서대로 정렬하는 개념을 나타내는 일예시도이다.

210은 PES 비디오 프레임의 디코딩 순서대로 정렬한 프레임이며, 220은 자막데이터의 프레임 재생시간 순서대로 정렬한 프레임이다. 자막데이터를 PES의 전송 순서대로 추출하면 자막의 순서가 다르게 추출될 수 있다. PES는 비디오 프레임의 디코딩(decoding) 순서대로 전송 및 저장되기 때문에 자막 추출 시에는 220과 같이 PTS의 순서, 즉 프레임 재생시간 순서대로 정렬하여 자막을 추출해야 한다.

자막 연결 및 배치 과정에서 추출된 자막을 완전한 단어나 문장의 형태로 배열하기 위해서는 상황에 따라서 다수의 PES에서 추출된 자막을 문장 단위 혹은 일정 길이로 연결하는 작업이 필요하다. TV 화면에 나타나는 자막의 행이나 열의 수를 결정하기 위한 기준의 하나로서, DTV 자막방송표준의 해석계층에 정의되어 있는 커맨드 기술자(Command Descriptions) 중 하나인 디파인윈도우(DefineWindow)를 이용한다. 디파인윈도우의 로우 카운트(row count)와 컬럼 카운트(column count)는 각각 화면에 나타내는 행과 열의 수를 나타내며, 로우 락(row lock)과 컬럼 락(column lock)은 로우/컬럼 카운트(row/column count)에서 명시된 값을 화면 출력 시에 고정된 값으로 사용하는지 여부를 나타낸다. 즉, 로우/컬럼 락(row/column lock)의 값이 Yes(1)로 설정되었을 때에는 명시된 로우/컬럼 카운트에 맞춰서 화면에 자막이 재생되어야 하지만, No(0)로 설정되었을 때에는 로우/컬럼 카운트의 값이 화면 재생 시에 절대적이지 않다는 의미이다. 본 발명에서는 자막의 유연한 배치를 위하여 로우/컬럼 락이 No(0)로 설정된 경우만을 고려하며, 이때 로우/컬럼 카운트는 각 ST에 자막이 배치되는 최대 길이의 기준으로 사용한다. 특수문자는 자막에 따라서 CSD의 "korean_code" 필드에 명시된 한글자막의 종류(완성형 or 유니코드)와 다르게 1 byte의 ASCII 코드일 수도 있으므로 시스템 설계 시에 이를 반영해야 한다.
도 5는 본 발명에서 제안된 자막 연결 방법에 대한 일실시예 흐름도이다.
510단계에서는 자막을 추출(CC_unit)한다. 520단계에서는 510단계에서 추출된 자막을 임시 누적 저장장치를 통해 저장한다. 530단계에서는 추출된 자막이 특수문자인지를 판단하여 만약 특수문자일 경우 550단계에서 파일을 출력한다. 만약, 추출된 자막이 특수문자가 아닐 경우 550단계에서 임시 누적 저장된 자막의 길이를 화면에 나타내는 행과 열의 수를 나타내는 로우 카운트(row count)와 컬럼 카운트(column count)의 곱과 비교한다. 여기서, 로우 카운트(row count)와 컬럼 카운트(column count)의 곱은 자막을 표시할 수 있는 화면의 크기를 의미한다. 550단계에서는 임시 누적 저장된 자막파일의 길이가 로우 카운트(row count)와 컬럼 카운트(column count)의 곱보다 작을 경우 다시 자막추출을 수행하고, 누적된 자막파일의 길이가 로우 카운트(row count)와 컬럼 카운트(column count)의 곱보다 클 경우 누적된 자막파일을 출력한다.

도 3은 최종 ST의 결정 방법과 연결된 자막의 일예시도이다.

도 3에서 310은 추출된 ST와 이에 대응하는 자막데이터를 나타내고, 320은 선택된 최종 ST와 연결된 자막을 나타낸다. 자막의 연결 과정을 거치면서 서로 분리되어 있던 자막을 하나로 합침에 따라서 각각 자막데이터에 대응하는 다수의 ST 중에서 연결된 자막을 대표하는 하나의 ST를 결정해야 한다. 본 발명에서는 연결된 자막에서 중간(median) 자막의 ST를 최종 ST로 결정한다.

또한, 본 발명에서는 이상에서 설명한 자막파일을 이용하여 방송 콘텐츠의 시간적 구간분할 방법을 제공한다.

이상에서 설명한 생성된 자막파일은 멀티미디어 재생기에서 자막을 보여주는 기본적인 기능 외에 비디오 검색 및 색인 등 다양한 응용 데이터로서 활용될 수 있다. 본 발명에서는 자막데이터를 이용한 방송콘텐츠의 시간적 구간분할(temporal segmentation) 방법을 설명한다.

본 발명의 일실시예에서 시간적 구간분할을 수행하는 대상 방송콘텐츠의 장르는 뉴스, 시사토론, 그리고 드라마이다. 국내 방송의 경우, 자막데이터는 장르마다 상이한 특징정보를 가지고 있기 때문에 방송콘텐츠의 장르의 따라서 서로 다른 구간분할 방법을 적용해야 한다. 시간적 구간분할을 통하여 구간의 시작시간, 재생시간, 그리고 해당 구간의 자막데이터를 얻을 수 있다. 본 발명에서 제안된 구간분할 방법은 미리 추출된 자막데이터를 이용해서 이루어지기 때문에 기존의 비디오 프레임 기반의 장면분할 방법에 비교해서 분할 처리속도가 매우 빠르다.

도 4는 자막파일을 이용하여 구간별 스트림을 구성할 수 있는 장치의 일실시예 구성도이다.

도 4에 도시된 바와 같이, 구간별 스트림 구성장치(400)는 자막파일을 이용하여 구간별 스트림을 구성하기 위하여 구간 분할 유닛(410), 자막데이터 처리 유닛(420), 키워드 검색 유닛(430)을 포함한다. 도 4를 참고하여 자막파일을 이용한 구간별 스트림 구성장치에 관하여 살펴보기로 한다. 자막데이터 처리 유닛(420)은 스트림과 함께 제공되는 자막파일을 제공받아 스트림 내의 구간을 설정할 수 있다. 예를 들어, 하나의 뉴스 프로그램 내에 n개의 뉴스가 존재한다고 가정하면, 자막데이터 처리 유닛(420)은 n개의 구간별 자막 스트림을 구성할 수 있다. 구간 분할 유닛(410)은 MPEG-2 TS를 제공받아 자막데이터 처리 유닛(420)에서 구성된 구간별 자막 스트림을 이용하여 구간별 스트림을 구성한다. 또한, 구간 분할 유닛(410)을 통과한 TS는 사용자에게 출력될 수 있고, 또한 구간별 스트림 파일로 저장될 수도 있다. 키워드 검색 유닛(430)은 자막데이터 처리 유닛(420)에서 처리된 구간별 자막 스트림 데이터에서 키워드 검색을 통하여 원하는 구간의 스트림을 출력할 수 있다.

삭제

이하에서는 자막파일을 이용한 시간적 구간분할 방법을 뉴스, 시사프로, 드라마를 각각 예로 들어 설명하기로 한다.

도 6a 및 도 6b는 뉴스 및 시사토론 자막데이터의 일예시도이다.

일반적으로 뉴스의 구간분할 단위는 하나의 기사이다. 국내 방송 뉴스의 자막은 실제 대사에는 없는 '앵커:', '기자:', 그리고 '인터뷰:' 등 화자를 구분할 수 있는 일종의 태그(tag)를 포함하며, 뉴스는 일반적으로 기사를 마무리하는 일정한 대사가 존재한다. 도 6a는 뉴스 자막데이터의 예이며, 뉴스 기사는 다음과 같은 기준을 통해서 구분될 수 있다.

'앵커:'가 나오고 다음에 '앵커:'가 나오면 이는 하나의 독립된 뉴스 기사이다.

'앵커:'가 나오고 다음에 '앵커:'가 나오기 전에 '기자:'가 나오면 기자의 이름을 저장하고, 이후에 "[방송사 이름]뉴스 [기자이름]입니다." 라는 문장이 나오면 여기까지는 하나의 뉴스 기사로 구분한다.

이와 같은 뉴스 자막데이터의 특징정보 분석을 통하여 방송사 이름과 기자 이름을 비교적 쉽게 얻을 수 있다. 도 6a에서는 '앵커', '기자','인터뷰'라는 특징정보를 이용하여 구간정보를 획득할 수 있다.

또한, 시사토론의 경우 국내 방송에서는 화자전환(speaker change) 시에 자막데이터에 하이픈('-') 기호를 삽입하여 청각장애인이나 외국인이 화자전환을 인식할 수 있도록 한다. 도 6b에서는 하이픈이 포함된 시사토론 자막데이터의 예를 나타낸다. 시사토론 프로그램의 경우, 토론자 각자의 의견을 일정 시간동안 제시하기 때문에 다른 방송 장르에 비해서 비교적 화자전환의 시간 간격이 길며, 화자의 전환에 의한 구간분할이 효과적이다. 따라서 본 발명에서는 화자전환 표시인 하이픈과 최소구간간격의 설정을 통하여 시사토론 방송콘텐츠의 시간적 구간분할을 수행한다. 최소구간간격이란 일종의 구간분할 기준으로, 최소구간간격이 정해지면 그 안에 발생하는 화자전환은 하나의 구간으로 인식한다. 예를 들어, 최소구간간격을 20초로 설정하였을 경우, 20초 내로 발생하는 화자전환은 무시하고 하나의 연속된 구간으로 인식하며, 해당 구간의 시작시간 기준으로 20초가 지난 이후 나타나는 화자전환 표시부터는 새로운 구간으로 인식한다. 최소구간간격의 설정은 사용자의 선호에 따라서 임의로 설정 가능한 변수로서, 사용자가 원하는 최소한의 구간길이를 설정하는 기능으로 활용될 수 있다.

도 7은 자막데이터를 이용한 드라마 구간 분할의 일예시도이다.

드라마의 경우에도 하이픈 기호를 이용한 시간적 구간분할이 가능하다. 그러나 앞서서 제시한 시사토론에서의 장면분할 방법은 화자전환이 빈번한 드라마의 특성상 효율적이지 못하다. 따라서 본 발명에 따른 자막 기반의 드라마 구간분할 방법은 다음과 같다.

우선, 하이픈 기호로 시작되는 화자전환된 자막데이터를 받았을 경우 화자전환된 자막의 예상되는 동기화 시간(Expected_ST)을 계산하며, 하기의 <수학식 2>로 나타낼 수 있다.

NW는 바로 이전 ST에 해당하는 자막의 단어 개수이며,

와

는 각각 1분당 말하는 단어 수와 화자전환 대기시간을 의미한다.

와

는 사용자 선호에 따라서 임의로 설정이 가능한 변수이다.

가 클수록 1분당 말하는 단어 수를 크게 적용하기 때문에 계산되는 동기화 시간(Expected_ST)의 값이 작아진다.

는

로 인하여 얻어지는 시간에 더하여 다음 자막이 발생하기까지 대기하는 시간을 설정하는 변수이다. 이 두 값과 얻어지는 자막의 단어 수를 통하여 해당 자막의 재생 시간(duration)과 다음 자막이 발생하기까지 대기하는 시간의 합을 예상한다. 여기에 바로 이전 자막의 ST을 의미하는 PreST를 더함으로써, 현재 화자전환된 자막의 ST를 예측하는 것이다. 계산된 동기화 시간(Expected_ST)과 현재 화자전환된 자막의 ST를 비교하여 ST가 동기화 시간(Expected_ST)보다 클 경우에 현재의 화자전환된 자막을 새로운 구간으로 인식한다.

와

의 조절은 분할된 구간의 개수에 영향을 미치는 변수로서,

가 크거나

가 작을수록 더 많은 구간으로 분할될 수 있다. 도 7에서는 각각 730단계에서의 계산 1과정과 740단계에서의 계산 2 과정을 기초로 하여 구간을 분할할 수 있다. 앞에서 설명한 730단계와 740단계에서의 계산 과정을 통하여 710과 720 즉, 구간 1과 구간 2가 구분될 수 있다. 730단계의 계산 1에서는 화자전환된 자막의 예상되는 동기화 시간(Expected_ST)을, NW 값 4("제가/ 어떻게/ 하면/ 되겠습니까?/"),

값 80,

값 6000ms, PreST 값으로 계산된 ST 값인 287321ms 값을 상기 <수학식 2>에 대입하여 계산할 수 있다. 그 결과 값인 즉, 동기화 시간(Expected_ST) 값이 297321ms이며 다음 값인 289756ms 값과 비교한다. 그리하여 ST(289756ms)가 Expected_ST(297321ms)보다 작기 때문에 앞선 자막과 같은 구간으로 인식한다. 740단계의 계산 2에서는 화자전환된 자막데이터의 ST가 더 크기 때문에 새로운 구간의 시작으로 판단한다.

본 발명의 자막파일을 이용한 동영상의 시간적 구간분할 방법은, 기존의 비디오 영상 또는 오디오 정보를 이용한 방법 등에 비하여, 해당 동영상 콘텐츠의 내용을 문자 형태로 표현하고 있는 자막 정보를 이용하기 때문에 검색 등에서 매우 정확하고 풍부한 정보를 제공한다. 또한, 완전히 텍스트 기반이므로 고속처리가 가능하며, 이는 구간분할 시 더욱 유용하게 이용될 수 있다. 예를 들어, 사용자는 적절한 구간분할을 수행하고자 파라미터 설정을 달리하여 반복수행할 때, 시간적 지연 없이 빠른 반복처리가 가능하다. 또한, 자막파일, 구간분할 정보, 장면 검색 결과 등의 정보는 HTML 및 XML과 같은 다양한 정보문서 형태로의 변환이 용이하다. 특히, 시간적 구간분할 정보는 MPEG-7 또는 TV-애니타임 표준규격 메타데이터로 쉽게 변환될 수 있다.

도 1은 본 발명의 일실시예에 따른 DTV 자막 추출 및 자막파일을 생성하는 장치의 구조도,

도 2는 자막데이터를 프레임 재생시간 순서대로 정렬하는 개념을 나타내는 일예시도,

도 3은 최종 ST의 결정 방법과 연결된 자막의 일예시도,

도 4는 자막파일을 이용하여 구간별 스트림을 구성할 수 있는 장치의 일실시예 구성도,

도 5는 본 발명에서 제안된 자막 연결 방법에 대한 일실시예 흐름도,

도 6a 및 도 6b는 뉴스 및 시사토론 자막데이터의 일예시도,

Claims

DTV 자막 추출/생성 및 구간 분할 장치에 있어서,

스트림을 전달받아 부가정보와 비디오 스트림으로 역다중화하는 역다중화부;

상기 비디오 스트림을 전달받아 디코딩하는 디코더;

상기 디코더에서 추출된 PTS 정보를 전달받아 동기화 시간정보로 변환하는 ST 변환부;

상기 역다중화된 부가정보를 저장하는 저장부;

상기 저장된 부가정보를 전달받아 CSD 정보를 분석하는 분석부;

상기 디코더에서 디코딩된 데이터와 상기 분석된 CSD 정보를 전달받아 자막데이터를 추출하는 자막 추출부;

상기 변환된 동기화 시간정보와 상기 추출된 자막데이터를 이용하여 자막파일을 생성하는 자막파일 생성부;

상기 생성된 자막파일을 전달받아 구간별 자막 스트림을 구성하는 자막데이터 처리부;

상기 구성된 구간별 자막 스트림을 전달받아 구간별 스트림을 구성하는 구간 분할부; 및

상기 구성된 구간별 자막 스트림을 전달받아 상기 구간별 자막 스트림에서 키워드 검색을 통하여 해당 키워드에 상응하는 구간의 스트림을 검색하는 키워드 검색부를 포함하되,

상기 자막파일 생성부는,

상기 추출된 자막데이터를 저장하고, 상기 저장된 자막데이터와 특수문자를 비교하여 자막파일을 출력하며, 상기 저장된 자막데이터의 길이와 화면의 크기를 비교하여 자막파일을 출력하는, DTV 자막 추출/생성 및 구간 분할 장치.
제 1 항에 있어서, 상기 부가정보는,

PSI의 프로그램 맵 테이블의 정보와 PSIP의 이벤트 정보 테이블의 정보를 포함하는, DTV 자막 추출/생성 및 구간 분할 장치.
제 1 항에 있어서, 상기 저장부는,

PSI의 프로그램 맵 테이블의 정보를 저장하는 PMT 버퍼; 및

PSIP의 이벤트 정보 테이블의 정보를 저장하는 EIT 버퍼

를 포함하는 DTV 자막 추출/생성 및 구간 분할 장치.
DTV 자막 추출/생성 및 구간 분할 장치에서의 DTV 자막 추출/생성 및 구간 분할 방법에 있어서,

스트림을 전달받아 부가정보와 비디오 스트림으로 역다중화하는 과정;

상기 비디오 스트림을 전달받아 디코딩하는 과정;

상기 디코딩 과정에서 추출된 PTS 정보를 전달받아 동기화 시간정보로 변환하는 과정;

상기 역다중화된 부가정보를 저장하는 과정;

상기 저장된 부가정보를 전달받아 CSD 정보를 분석하는 과정;

상기 디코딩 과정에서 디코딩된 데이터와 상기 분석된 CSD 정보를 전달받아 자막데이터를 추출하는 과정;

상기 변환된 동기화 시간정보와 상기 추출된 자막데이터를 이용하여 자막파일을 생성하는 자막파일 생성과정;

상기 생성된 자막파일을 전달받아 구간별 자막 스트림을 구성하는 과정;

상기 구성된 구간별 자막 스트림을 전달받아 구간별 스트림을 구성하는 과정; 및

상기 구성된 구간별 자막 스트림을 전달받아 상기 구간별 자막 스트림에서 키워드 검색을 통하여 해당 키워드에 상응하는 구간의 스트림을 검색하는 과정을 포함하되,

상기 자막파일 생성과정은,

상기 추출된 자막데이터를 저장하는 과정;

상기 저장된 자막데이터와 특수문자를 비교하여 자막파일을 출력하는 과정; 및

상기 저장된 자막데이터의 길이와 화면의 크기를 비교하여 자막파일을 출력하는 과정

을 포함하는 DTV 자막 추출/생성 및 구간 분할 방법.
제 4 항에 있어서, 상기 부가정보는,

PSI의 프로그램 맵 테이블의 정보와 PSIP의 이벤트 정보 테이블의 정보를 포함하는, DTV 자막 추출/생성 및 구간 분할 방법.
제 4 항에 있어서, 상기 부가정보를 저장하는 과정은,

PSI의 프로그램 맵 테이블의 정보를 저장하는 과정; 및

PSIP의 이벤트 정보 테이블의 정보를 저장하는 과정

을 포함하는 DTV 자막 추출/생성 및 구간 분할 방법.
삭제
삭제
삭제
스트림 구분 및 검색 장치에 있어서,

동기화 시간정보와 추출된 자막데이터를 이용하여 자막파일을 생성하는 자막파일 생성부;

상기 생성된 자막파일을 전달받아 구간별 자막 스트림을 구성하는 자막데이터 처리부;

상기 구성된 구간별 자막 스트림을 전달받아 구간별 스트림을 구성하는 구간 분할부; 및

상기 구성된 구간별 자막 스트림을 전달받아 상기 구간별 자막 스트림에서 키워드 검색을 통하여 해당 키워드에 상응하는 구간의 스트림을 검색하는 키워드 검색부를 포함하되,

상기 자막파일 생성부는,

상기 추출된 자막데이터를 저장하고, 상기 저장된 자막데이터와 특수문자를 비교하여 자막파일을 출력하며, 상기 저장된 자막데이터의 길이와 화면의 크기를 비교하여 자막파일을 출력하는, 스트림 구분 및 검색 장치.
제 10항에 있어서,

상기 구간 분할부에서 분할된 상기 구간별 스트림을 파일로 저장하는, 스트림 구분 및 검색 장치.
스트림 구분 및 검색 장치에서의 스트림 구분 및 검색 방법에 있어서,

동기화 시간정보와 추출된 자막데이터를 이용하여 자막파일을 생성하는 자막파일 생성과정;

상기 생성된 자막파일을 전달받아 구간별 자막 스트림을 구성하는 자막데이터 처리과정;

상기 구성된 구간별 자막 스트림을 전달받아 구간별 스트림을 구성하는 구간 분할 과정; 및

상기 구성된 구간별 자막 스트림을 전달받아 상기 구간별 자막 스트림에서 키워드 검색을 통하여 해당 키워드에 상응하는 구간의 스트림을 검색하는 키워드 검색과정을 포함하되,

상기 자막파일 생성과정은,

상기 추출된 자막데이터를 저장하는 과정;

상기 저장된 자막데이터와 특수문자를 비교하여 자막파일을 출력하는 과정; 및

상기 저장된 자막데이터의 길이와 화면의 크기를 비교하여 자막파일을 출력하는 과정

을 포함하는 스트림 구분 및 검색 방법.
제 12항에 있어서,

상기 구간 분할 과정에 의해 분할된 상기 구간별 스트림을 파일로 저장하는, 스트림 구분 및 검색 방법.
삭제
제 12항에 있어서, 상기 저장된 자막데이터와 특수문자를 비교하여 자막파일을 출력하는 과정은,

상기 구간의 끝을 검색하기 위하여 상기 저장된 자막데이터와 상기 특수문자를 비교하는 과정;

상기 저장된 자막데이터와 상기 특수문자가 동일할 경우 자막파일을 출력하는 과정; 및

상기 저장된 자막데이터와 상기 특수문자가 동일하지 않을 경우 "상기 저장된 자막데이터의 길이와 화면의 크기를 비교하여 자막파일을 출력하는 과정"으로 진행하는 과정

을 포함하는 스트림 구분 및 검색 방법.
제 12항에 있어서, 상기 저장된 자막데이터의 길이와 화면의 크기를 비교하여 자막파일을 출력하는 과정은,

상기 저장된 자막데이터의 길이와 상기 화면의 크기를 비교하는 과정;

상기 저장된 자막데이터의 길이가 상기 화면의 크기보다 클 경우 자막파일을 출력하는 과정; 및

상기 저장된 자막데이터의 길이가 상기 화면의 크기보다 작을 경우 자막데이터를 추출하는 과정으로 진행하는 과정

을 포함하는 스트림 구분 및 검색 방법.