KR101994291B1

KR101994291B1 - 통합써머리를 제공하는 영상재생장치 및 방법

Info

Publication number: KR101994291B1
Application number: KR1020140138611A
Authority: KR
Inventors: 조성봉
Original assignee: 한화테크윈 주식회사
Priority date: 2014-10-14
Filing date: 2014-10-14
Publication date: 2019-06-28
Also published as: KR20160043865A; US9542604B2; US20170076155A1; CN105516651B; US9798934B2; US20160104045A1; CN105516651A

Abstract

감시영상을 수신하여 통합써머리를 제공하는 방법으로서, 입력 원본영상에서 식별가능한 특징을 포함한 오디오 프레임을 추출하는 단계; 상기 추출된 오디오 프레임에 대응하는 비디오 프레임 또는 상기 비디오 프레임의 비디오 써머리를 추출하는 단계; 상기 추출된 오디오 프레임과 상기 추출된 비디오 프레임 또는 상기 추출된 비디오 프레임의 비디오 써머리를 결합시키는 링크(link)단계; 및 상기 추출된 오디오 프레임이 속한 원본 영상의 시간을 표시하는 시간태그를 삽입하는 단계; 를 포함하는 것을 특징으로 한다.

Description

통합써머리를 제공하는 영상재생장치 및 방법{Method and Apparatus for providing combined-summary in an imaging apparatus}

본 발명은 오디오 데이터 기반 비디오 써머리 기능을 제공하는 영상 감시 시스템 및 방법에 관한 것으로, 구체적으로는 비디오 써머리(Video Summary) 또는 비디오 시놉시스(Video Synopsis)를 오디오 데이터를 기반으로 생성하여 제공하는 영상 감시 시스템 및 방법에 관한 것이다.

영상 감시 시스템에서는 비디오 데이터 기반 비디오 써머리 (Video Summary) 또는 비디오 시놉시스(Video Synopsis) 기능을 이용하여 입력 영상의 비디오 데이터를 요약하였다.

국내등록특허 1420885호

영상 감시 시스템에서 비디오 데이터만을 기반으로 요약하는 경우, 감시 카메라의 사각지대에서 이벤트가 발생하는 등, 비디오 이벤트는 발생하지 않고 중요한 오디오 이벤트만 발생하는 경우를 간과할 수 있는 문제점이 있다.

또한 오디오 데이터만을 기반으로 요약하는 경우, 비디오 데이터와는 달리 순차적으로 시간에 따라 청취하지 않으면 내용을 파악할 수 없고, 동시에 여러 오디오 데이터를 재생하는 경우 오디오 데이터가 포함하고 있는 내용에 대한 식별력이 떨어지는 문제점이 있다.

본 발명의 바람직한 일 실시예에서는 영상재생장치에서 통합써머리를 제공하는 방법을 개시한다.

바람직하게, 영상재생장치에서 통합써머리를 제공하는 방법은 적어도 하나 이상의 네트워크 카메라로부터 촬영영상을 수신하는 단계; 수신한 촬영영상에서 비디오를 추출하고, 추출한 비디오에서 이벤트를 검출하여 비디오써머리를 생성하는 단계; 수신한 촬영영상에서 오디오를 추출하고, 추출한 오디오에서 이벤트를 검출하여 오디오써머리를 생성하는 단계; 상기 오디오에서 이벤트가 검출되는 구간마다 해당 구간에 대응하는 비디오 프레임을 추출하여 상기 오디오써머리와 함께 저장하는 단계; 및 영상재생장치의 디스플레이에 상기 비디오써머리를 제어하는 비디오써머리제어인터페이스 및 상기 오디오써머리를 제어하는 오디오써머리제어인터페이스를 제공하는 단계;를 포함하는 것을 특징으로 한다.

바람직하게, 영상재생장치는 비디오써머리제어인터페이스를 이용하여 상기 비디오써머리 중 특정 이벤트가 발생한 구간만을 선택하고, 또한 추가로 선택적으로 상기 오디오써머리제어인터페이스를 이용하여 상기 오디오써머리 중 특정 이벤트가 발생한 구간만을 선택하며, 이 경우 상기 비디오써머리 중 특정 이벤트가 발생한 구간과 상기 오디오써머리 중 특정 이벤트가 발생한 구간이 중복되는 경우 중복되는 구간이 식별되도록 구현되는 것을 특징으로 한다.

바람직하게, 오디오써머리제어인터페이스를 이용하여 상기 오디오써머리 중 특정 이벤트가 발생한 구간만을 선택하고, 또한 추가로 선택적으로 상기 비디오써머리제어인터페이스를 이용하여 상기 비디오써머리 중 특정 이벤트가 발생한 구간만을 선택하며, 이 경우 상기 오디오써머리 중 특정 이벤트가 발생한 구간과 상기 비디오써머리 중 특정 이벤트가 발생한 구간이 중복되는 경우, 중복되는 구간이 식별되도록 구현되는 것을 특징으로 한다.

바람직하게, 상기 오디오에서 이벤트를 검출하는 것은 상기 오디오에서 식별가능한 특징이 추출되면 이벤트가 발생된 것으로 검출하고, 상기 식별가능한 특징은 특정 단어, 특정 문자, 특정 음향 중 적어도 하나 이상을 포함하는 것을 특징으로 한다.

바람직하게, 상기 추출한 오디오에서 상기 특정 단어 또는 특정 문자가 이벤트로 검출되면, 검출된 특정 단어 또는 특정 문자를 텍스트로 변환하여, 검출된 시간과 함께 상기 오디오써머리에 표시하는 것을 특징으로 한다.

본 발명의 또 다른 바람직한 일 실시예로서, 단말기에서 감시영상을 수신하여 통합써머리를 제공하는 방법으로서, 상기 방법은 오디오 및 비디오 데이터를 포함하는 입력 원본영상에서 식별가능한 특징을 포함한 오디오 프레임을 추출하는 단계; 상기 추출된 오디오 프레임에 대응하는 비디오 프레임 또는 상기 비디오 프레임의 비디오 써머리를 추출하는 단계; 상기 추출된 오디오 프레임과 상기 추출된 비디오 프레임 또는 상기 추출된 비디오 프레임의 비디오 써머리를 결합시키는 링크(link)단계; 및 상기 추출된 오디오 프레임이 속한 원본 영상의 시간을 표시하는 시간태그를 삽입하는 단계; 를 포함하는 것을 특징으로 한다.

본 발명의 통합써머리를 제공하는 영상재생장치는 오디오와 비디오 데이터를 함께 요약함으로써 비디오 이벤트가 발생하지 않는 구간에 대해서도 검색할 데이터를 요약하여 데이터의 정확도를 향상시키는 효과가 있다.

도 1 은 본 발명의 바람직한 일 실시예로서, 통합써머리를 제공하는 영상재생장치의 내부 구성도를 도시한다.
도 2 는 본 발명의 바람직한 일 실시예로서, 통합써머리를 제공하는 영상재생장치의 내부 구성의 일부 기능을 도시한다.
도 3 은 본 발명의 바람직한 일 실시예로서, 통합써머리를 제공하는 영상재생장치에서 지원하는 비디오써머리제어인터페이스 및 오디오써머리제어인터페이스를 도시한다.
도 4 는 본 발명의 또 다른 바람직한 일 실시예로서, 영상재생장치의 내부 구성도를 도시한다.
도 5 는 본 발명의 바람직한 일 실시예로서, 오디오 프레임 추출부에서 오디오 신호를 처리하는 일 실시예를 도시한다.
도 6 은 본 발명의 바람직한 일 실시예로서, 텍스트변환부에서 오디오 신호를 텍스트로 변환하는 일 실시예를 도시한다.
도 7 은 본 발명의 바람직한 일 실시예로서, 통합써머리를 재생하는 일 예를 도시한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시 예들을 상세히 설명하기로 한다.

도 1 은 본 발명의 바람직한 일 실시예로서, 통합써머리를 제공하는 영상재생장치의 내부 구성도를 도시한다. 도 3 은 영상재생장치에서 오디오써머리제어인터페이스 및 비디오써머리제어인터페이스를 지원하는 일 실시예를 도시한다. 도 7 은 영상재생장치에서 통합써머리를 재생하는 일 실시예를 도시한다. 도 1, 3 및 7을 참고하여 설명하면 아래와 같다.

본 발명의 바람직한 일 실시예로서, 통합써머리는 관리자의 선택에 따라 비디오 써머리 또는 오디오 써머리를 선택적으로 재생하거나 또는 비디오써머리와 오디오 써머리를 동시에 재생하는 것을 의미한다.

또한, 오디오에서 특정 음향, 단어를 포함한 오디오 써머리를 선택하고, 비디오에서 특정 이벤트를 포함한 비디오 써머리를 조합하여 압축할 영상의 시간 범위를 구성하고, 오디오 및 비디오 프레임을 추출하여 통합써머리를 재생하도록 구현될 수 있다.

본 발명의 바람직한 일 실시예에서는 오디오 써머리를 단독으로 재생하는 경우에도, 오디오만이 단독으로 재생되는 것이 아니라 오디오 써머리에 대응되는 구간의 비디오 프레임 또는 비디오 써머리가 함께 재생되는 특징이 있다.

본 발명의 바람직한 일 실시예로서, 영상재생장치(100)는 영상수신부(110), 비디오써머리 생성부(120), 비디오써머리 저장부(130), 비디오써머리 재생부(140), 오디오써머리 생성부(121), 오디오써머리 저장부(131) 및 오디오써머리 재생부(141)를 포함한다.

영상수신부(110)는 적어도 하나 이상의 네트워크카메라로부터 영상을 수신한다. 비디오써머리 생성부(120)는 영상수신부(110)에서 수신한 영상 중 비디오 데이터를 처리하여 비디오써머리를 생성하고, 비디오 써머리저장부(130)에 저장한다.

비디오써머리 생성부(120)는 추출한 비디오에서 이벤트를 검출하여 비디오써머리를 생성한다. 이 경우, 이벤트는 식별가능한 특징을 포함한 장면으로 정의한다. 일 예로, 이벤트는 특정 건물, 자가용, 동물 등과 같은 객체, 인물, 화재, 폭발, 사고 등의 장면을 모두 포함한다.

비디오써머리저장부(130)는 비디오써머리 생성부(120)에서 비디오써머리를 생성하는 과정에서 검출한 움직임이나, 검출한 이벤트의 영상 분석 결과를 함께 저장한다.

오디오써머리생성부(121)는 영상수신부(110)에서 수신한 영상 중 오디오 데이터를 처리하여 오디오써머리를 생성하고, 오디오써머리저장부(130)에 저장한다. 오디오써머리 저장부(130)는 오디오 데이터에서 이벤트가 검출되는 구간마다 해당 구간에 대응하는 비디오 프레임을 추출하거나 또는 해당 구간에 대응하는 비디오써머리를 추출하여 오디오써머리와 함께 저장한다.

본 발명의 바람직한 일 실시예로서, 오디오써머리 생성부(121)는 시간 기반 오디오 비디오 압축, 특정 단어 기반 오디오 비디오 압축, 음향 기반 오디오 비디오 압축 내지 이를 혼합한 복합 형태 오디오 비디오 압축을 수행할 수 있다.

시간 기반 오디오 비디오 압축은 정해진 시간 구간에서 오디오 데이터를 포함하는 시간 구간 범위에서 샘플링을 하고 그 시간에 포함되는 비디오 프레임을 추출한다.

이 때, 오디오 데이터 시간 범위를 샘플링할 때, 특정 단어를 포함하거나 문장을 포함하거나, 음향이 포함된 기반의 오디오를 샘플링하도록 하고, 오디오 데이터가 포함되어 있지 않은 구간에서도 비디오 데이터가 이벤트를 포함하는 경우, 이벤트가 포함된 비디오 프레임을 샘플링하도록 한다. 또 이벤트가 많은 구간 발생하지 않은 경우에는 임의 구간에 해당하는 비디오 프레임을 선택해서 압축 오디오, 비디오 영상을 생성한다.

특정 단어 기반 오디오 비디오 압축은 음성 데이터 중에서도 특정 어휘, 문장을 포함하는 시간 구간에 대하여 Video Frame 을 추출한다. 이 때, 특정 단어의 포함 여부는 텍스트로 변환된 데이터를 기반으로 검색하고, 단순히 단어만을 포함하는 경우 전후 상황을 인지할 수 없는 경우가 있기 때문에, 그 단어를 포함하는 시간 범위를 포함해서 이전, 이후 시간과 함께 비디오를 추출한다.

음향을 기반하는 경우는 오디오 데이터에서 특정 음향의 패턴을 추출한 데이터에서 발생한 시간 범위를 얻어오고, 그 시간 범위를 포함해서 특정 단어 기반과 같은 방식으로 비디오 프레임을 추출한다.

도 3 을 참고하면, 통합써머리를 제공하는 영상재생장치는 비디오써머리제어인터페이스부(도 1, 142) 및 오디오써머리제어인터페이스(도 1, 143)을 제공한다.

도 3의 통합 써머리 검색 화면(300)은 원본 데이터 검색 채널 입력부(305), 원본 데이터 검색 구간 표시부(310), 음성인식검색어 입력부(315), 원본 데이터 시작시간 입력부(320), 원본 데이터 종료시간 입력부(325), 음향 인식 검색조건 선택부(330), 비디오 검색조건 설정부(335), 비디오 이벤트 검색종류 선택부(340), 비디오 이벤트 영역 설정부(345), 비디오 써머리 검색 시작 버튼(350), 비디오 써머리 검색 종료 버튼(355), 및 초기 원본 데이터 출력 화면(360)으로 구성된다.

원본 데이터 검색 채널 입력부(305)는 감시 시스템 관리자가 비디오 써머리를 생성할 원본 데이터의 채널을 입력하는 부분이다. 원본 데이터 검색 구간 표시부(310)는 감시 시스템 관리자가 비디오 써머리를 생성할 원본 데이터의 전체 구간을 표시하는 부분이다. 원본 데이터 검색 채널 입력부(305)에 의해 원본 데이터를 생성시킨 카메라의 채널이 결정되면, 원본 데이터의 분량이 시간 단위로 표시되는 형식이다.

원본 데이터 검색 구간 표시부(310)에 표시되는 원본 데이터의 분량은 감시 시스템 관리자가 원본 데이터 시작시간 입력부(320) 및 원본 데이터 종료시간 입력부(325)에 적절한 시간을 입력할 수 있도록 돕는다.

음성인식검색어 입력부(315)는 감시 시스템 관리자가 원본 데이터의 오디오 데이터에서 검색하려고 하는 단어, 문장을 입력하는 부분이다.

원본 데이터 시작시간 입력부(320)와 원본 데이터 종료시간 입력부(325)는 감시 시스템 관리자가 원본 데이터 중 비디오 써머리를 추출하기 위해 필요한 시작지점과 종료지점의 시간정보를 입력하는 부분이다.

음향인식 검색조건 선택부(330)는 감시 시스템 관리자가 원본 데이터의 오디오 데이터에서 검색하려고 하는 음향의 종류를 선택하는 부분이다. 감시 시스템 관리자가 선택할 수 있는 음향의 종류에는, 총소리, 유리창 깨지는 소리, 비명소리 등이 있을 수 있고, 감시 시스템 관리자가 음향의 종류를 임의로 추가하거나 삭제할 수 있다.

비디오 검색조건 설정부(335)는 시간 단위로 비디오 프레임을 샘플링하거나 특정 이벤트 단위로 비디오 프레임을 샘플링하도록 영상 검색 조건을 설정하는 부분이다.

비디오 이벤트 검색종류 선택부(340)는 비디오 검색조건 설정부(335)에서 특정 이벤트 단위로 비디오 프레임을 샘플링하도록 설정된 경우, 활성화되는 화면으로서, 감시 시스템 관리자는 원본 데이터에서 추출하고자 하는 비디오 이벤트의 종류를 선택할 수 있다.

비디오 이벤트 영역 설정부(345)는 비디오 검색조건 설정부(335)에서 특정 이벤트 단위로 비디오 프레임을 샘플링하도록 설정된 경우, 활성화되는 화면으로서, 감시 시스템 관리자는 원본 데이터에서 추출하고자 하는 비디오 이벤트의 영역을 설정할 수 있다. 감시 시스템 관리자는 비디오 이벤트 영역 설정부(340)를 통해 비디오 이벤트의 발생 지점을 원본 데이터 중 임의의 영역으로 한정함으로써, 비디오 이벤트를 포함하는 비디오 프레임을 보다 효율적으로 추출할 수 있다.

본 발명의 바람직한 일 실시예로서, 오디오써머리제어인터페이스는 음성인식검색어 입력부(315), 음향인식 검색조건 선택부(330) 외에도 오디오써머리를 제어, 저장, 재생하기 위해 요구되는 인터페이스를 모두 포함한다.

또한 비디오써머리제어인터페이스의 일 예인 비디오 검색조건 설정부(335), 비디오 이벤트 검색종류 선택부(340), 비디오 이벤트 영역 설정부(345) 외에도 비디오써머리를 제어, 저장, 재생하기 위해 요구되는 인터페이스를 모두 포함한다.

도 7을 참고하면, 사용자가 비디오써머리와 오디오써머리를 동시에 재생하는 경우 시간순서 또는 이벤트 발생 순서 등과 같이 기설정된 기준에 따라 비디오써머리 또는 오디오써머리가 재생된다. 이러한 기준은 통합 써머리 재생제어(716) 인터페이스를 이용하여 설정이 가능하다. 통합 써머리 재생제어 인터페이스(716)는 오디오써머리제어인터페이스 및 비디오써머리제어인터페이스를 모두 포함하는 개념이다.

또한, 통합써머리 재생 화면(700)에서는 비디오써머리와 오디오써머리가 중복되는 구간에서는 중복구간임을 알리는 식별표시를 제공하여 사용자에게 비디오 이벤트와 오디오 이벤트가 중복되는 구간임을 알리도록 구현될 수 있다.

본 발명의 또 다른 바람직한 일 실시예로서, 오디오써머리제어인터페이스를 이용하여 오디오써머리 중 특정 이벤트가 발생한 구간만을 선택하고(716), 또한 추가로 선택적으로 비디오써머리제어인터페이스를 이용하여 비디오써머리 중 특정 이벤트가 발생한 구간만을 선택할 수 있다(716). 이 경우에도 오디오써머리 중 특정 이벤트가 발생한 구간과 비디오써머리 중 특정 이벤트가 발생한 구간이 중복되는 경우, 중복되는 구간이 식별되도록 재생할 수 있다(710, 712, 714).

도 2 는 본 발명의 바람직한 일 실시예로서, 통합써머리를 제공하는 영상재생장치의 내부 구성의 일부 기능을 도시한다.

비디오써머리생성부(210)는 입력영상수신부(200)로부터 수신한 비디오 데이터를 가공하여 비디오써머리를 생성한 후 비디오써머리 저장부(230)에 저장한다. 비디오써머리생성부(210)는 입력받은 비디오 데이터에서 식별 가능한 특징이 있는 이벤트를 검출하고(S211, S213, S215), 이벤트가 검출된 구간을 비디오써머리저장부(230)에 저장한다. 도 2에서는 비디오 이벤트의 일 예로, 10시 7분에 발생한 폭탄든 남자, 10시 10분에 발생한 폭탄 방화 및 10시 20분에 발생한 차량 폭탄 방화를 검출하였다.

오디오써머리생성부(220)는 입력영상수신부(200)로부터 수신한 오디오 데이터를 가공하여 오디오써머리를 생성한 후 오디오써머리 저장부(240)에 저장한다. 오디오써머리생성부(240)는 입력받은 오디오 데이터에서 식별 가능한 특징이 있는 이벤트를 검출하고(S228, S224, S215), 이벤트가 검출된 구간을 오디오써머리 저장부(240)에 저장한다.

오디오써머리생성부(220)는 수신한 오디오 데이터 중 의미있는 데이터가 포함된 구간(S222, S224, S226)에서 식별가능한 특징이 있는 이벤트를 검출한다(S228, S224, S215). 또한, 검출된 이벤트 구간에 대응하는 비디오 프레임 구간(S238, S234, S215)을 함께 저장한다.

도 2 에서는 오디오 이벤트의 일 예로, 10시 05분에 검출된 "손들어" 음성 데이터, 10시 10분에 검출된 폭발음 및 10시 20분에 검출된 폭발음을 검출하였다. 본 발명의 바람직한 일 실시예에서 오디오 이벤트는 오디오 이벤트가 검출된 구간의 비디오 프레임 또는 비디오 써머리를 함께 저장한다.

도 2 에 도시되어 있지는 않으나, 10시 05분에 검출된 "손들어" 음성 데이터는 10시 05분에 해당하는 비디오 프레임과 함께 저장되는 특징을 지닌다. 오디오 써머리 저장부(240)에는 오디오 프레임과 비디오 프레임이 섞여 있는 audio/video interleaved file format 형식으로 저장된다. 이 경우, 각 비디오, 오디오의 프레임으로부터 원본 영상의 시간을 찾을 수 있는 시간 태그를 포함하도록 구현된다.

또한 추후, 10시 05분에 검출된 "손들어" 음성 데이터가 포함된 오디오써머리를 재생할 때, 10시 05분의 비디오 프레임 또는 비디오 써머리가 함께 재생되는 특징이 있다.

본 발명의 바람직한 일 실시예로서, 오디오써머리와 비디오써머리는 이벤트가 검출된 각 비디오 프레임 또는 오디오 프레임의 원본시간 정보를 포함하고 있어, 원하는 경우 원본 영상에서 해당 시간으로 이동하여 재생할 수 있다(도 7, 714 720, 722, 730 참고).

오디오써머리를 재생하거나 또는 비디오써머리를 재생하는 통합재생부(250)는 오디오 이벤트 또는 비디오 이벤트를 표시하는 태그(S251, S252)를 표시할 수 있다. 또한, 오디오이벤트를 텍스트로 변환한 텍스트를 태그 형태(S253)로 표시할 수 있다.

도 4 는 본 발명의 또 다른 바람직한 일 실시예로서, 영상재생장치의 내부 구성도를 도시한다.

영상재생장치는 입력영상수신부(410), 비디오/오디오 데이터처리부(420), 통합써머리 생성부(430), 통합써머리 재생부(460), 비디오/오디오 구간 정보 DB(440) 및 텍스트 변환부(450)를 포함한다.

비디오/오디오 데이터처리부(420)는 비디오프레임 추출부(422) 및 오디오프레임 추출부(424)를 포함한다. 통합써머리 생성부(430)는 비디오써머리 추출부(432) 및 오디오써머리 추출부(434)를 포함한다.

비디오프레임 추출부(422)는 수신된 비디오 데이터에서 식별가능한 특징을 시간 단위 또는 이벤트 단위로 추출할 수 있다. 이 경우, Line Detection, Field Detection, Merge, isolation, Face Detection 등의 기술등을 이용할 수 있다.

통합써머리 생성부(430)는 비디오/오디오 구간 정보 DB(440)를 이용하여 오디오써머리 추출부(434)에서 추출된 오디오 이벤트 구간과 이에 대응하는 비디오 이벤트 구간을 결합하여 링크(link)를 생성할 수 있다. 텍스트변환부(450)는 오디오써머리 추출부(434)에서 추출된 음성데이터를 텍스트로 변환하여 화면에 출력한다.

도 5 는 본 발명의 바람직한 일 실시예로서, 오디오 프레임 추출부에서 오디오 신호를 처리하는 일 실시예를 도시한다.

오디오 프레임 추출부는 오디오 데이터를 수신하면(S510) 주파수의 특성을 기초로 하여 분리한다. 주파수 특성(S522)에 따라 오디오 데이터를 고주파수, 중주파수, 저주파수 특성에 기반하여 분리할 수 있다. 또한, 성인남성의 음성, 성인여성의 음성, 어린이의 음성으로도 분리가 가능하다. 이 경우 오디오 설정부(Audio Configuration)에서 제공하는 오디오의 특성을 판단할 수 있는 각종 정보 등을 참고할 수 있다.

음성 전처리(S520)가 완료되면, 주파수가 분리된 음성/음향 데이터의 특징점을 추출하여 특징 벡터로 표현하고, 소리의 음색이나 패턴을 분석할 수 있는 데이터로 처리한다. 구체적으로는, 음성 데이터로부터 특정한 의미를 갖는 단어, 음절, 문장을 추출하기 위한 전(前) 단계로서, 음성 데이터를 특징 벡터로 처리하고, 각 데이터를 알맞게 처리하기 위한 필터를 결정한다.

예를 들어, 분리된 여성의 음성 데이터의 특징 벡터를 이용하여, 그 여성의 음성의 높낮이, 발음, 발언 속도를 1차적으로 분석 후 그로부터, 발언 주체의 연령과 같은 부가적인 정보를 2차적으로 분석하여 최종적으로 음성 데이터에 적용할 필터, 처리방법을 결정하는 방식이다. 음향 데이터도 음성 데이터와 동일한 과정을 통해 분석된다.

특징 벡터를 분석한 이 후(S530) 분석된 특징 벡터의 패턴을 인식하여 기설정된 기준패턴과 비교를 수행한다(S540). 기준 패턴은 음성을 낸 주체의 연령, 성별, 발언속도, 목소리의 높낮이와 같은 정보, 총소리, 비명소리, 알람소리, 유리창 깨지는 소리 등의 음향 정보를 포함한다.

또한, 음성의 패턴을 인식하는 방법은 고립단어식으로 단어 하나하나를 구분하여 인식할 수도 있고, 연속적인 음성 인식으로 문장 단위 인식을 적용할 수도 있으며, 핵심어(키워드)를 검출하는 방식을 적용할 수도 있다.

오디오 프레임 추출부에서는 분석된 특징 벡터의 패턴 중 기설정된 기준패턴과 동일한 오디오 패턴을 포함하는 오디오 프레임과, 그 오디오 프레임의 구간 정보를 추출한다. 여기서 오디오 프레임의 구간 정보란, 원본 데이터에서 해당 오디오 프레임이 재생되는 시간 정보를 의미한다.

본 발명의 바람직한 실시예에서, 오디오 프레임은 단일 프레임만으로는 특정한 의미를 가지는 오디오 데이터를 구성할 수 없으므로, 일련의 오디오 프레임이 추출되도록 구현될 수 있다.

또한 특정 단어만으로는 전후 상황을 인지할 수 없는 경우가 있으므로, 감시 시스템의 목적을 달성하기 위해, 오디오 이벤트에 해당하는 특정 단어를 기준으로 하여, 앞뒤 시간 범위를 더 늘린 구간 정보를 바탕으로 오디오 프레임을 추출할 수 있으며, 이런 오디오 프레임의 추출 방식은 특정 단어 대신 특정 음향에 대해서도 동일하게 적용이 가능하다. 도 6 을 함께 참고하여 오디오를 텍스트로 변환하는 과정은 다음과 같다.

패턴 인식(S540)이 이루어지면, 이 후 추출한 오디오 프레임을 수신하여 텍스트로 변환처리한다(S550). 언어모델부(613)는 음성 데이터를 수신하여 어느 국가의 언어인지 1차적으로 판별하여 언어의 종류를 특정 후, 수신한 음성 데이터와 특정된 언어에 대한 정보를 언어사전부(616)에 전달한다.

언어사전부(616)은 언어모델부(613)로부터 언어의 종류를 특정한 정보를 전달받아, 변환 처리부(610)가 음성 데이터를 텍스트로 변환하는 데에 필요한 정보를 제공한다.

패턴 인식(S540)과정에서 산출한 정보에 기초하여 변환되는 텍스트는 의미를 가진 단어나 문장외에 발언 주체의 성별, 목소리의 높낮이, 연령 등에 대한 정보를 포함할 수도 있다. 예를 들어, 음성 데이터로부터 아일랜드 출신의 20대 여성이 도움을 요청하는 음성이라는 것을 인식했다면, 최종적으로 감시 시스템의 모니터에 출력되는 자막은 "Help me(20대 아일랜드 여성)"가 된다.

메타데이터(Metadata)저장부(630)는 변환처리부(610)에 의해 텍스트로 변환된 오디오 데이터를 전달받아 저장한다. 이때 저장되는 데이터는 텍스트로 변환된 오디오 데이터뿐만 아니라, 주파수 특성별로 분리된 오디오 데이터에 대응되는 오디오 구간 정보도 비디오의 메타데이터(Metadata)로서 저장된다.

주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간정보는, 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간정보로 대체될 수 있고, 비디오 메타데이터로서 저장되는 오디오 구간 정보 또한 텍스트로 변환되어 저장될 수 있다.

예를 들어, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간이 12시에서 12시 20분이고, 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간(오디오 이벤트가 감지된 구간)이 12시 5분에서 12시 6분이라면, 감시 시스템의 화면에 표시될 자막을 위한 비디오 구간 정보는 12시 5분에서 12시 6분에 대한 것이면 충분하다.

다만, 오디오 데이터 특성상 내용 파악을 위해 오디오 이벤트가 포함된 음성/음향 데이터의 발생 시간을 정확히 알기 위해서는 여전히 12시에서 12시 20분에 대한 비디오 구간정보가 필요하므로, 두 비디오 구간정보에 대한 것은 감시 시스템 관리자에 의해 조정될 수 있는 부분이라 할 것이다.

본 방법발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.

컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다.

그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 균등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

영상재생장치에서 통합써머리를 제공하는 방법으로서,
적어도 하나 이상의 네트워크 카메라로부터 촬영영상을 수신하는 단계;
수신한 촬영영상에서 비디오를 추출하고, 추출한 비디오에서 이벤트를 검출하여 비디오써머리를 생성하는 단계;
수신한 촬영영상에서 오디오를 추출하고, 추출한 오디오에서 이벤트를 검출하여 오디오써머리를 생성하는 단계;
상기 오디오에서 이벤트가 검출되는 구간마다 해당 구간에 대응하는 비디오 프레임을 추출하거나 또는 해당 구간에 대응하는 비디오써머리를 추출하여 오디오써머리와 함께 저장하는 단계;
영상재생장치의 디스플레이에 상기 비디오써머리를 제어하는 비디오써머리제어인터페이스 및 상기 오디오써머리를 제어하는 오디오써머리제어인터페이스를 제공하는 단계;를 포함하고, 이 경우 상기 오디오써머리는 검출된 이벤트를 시간순으로 제공하며, 상기 검출된 이벤트는 특정 음향이 검출된 경우를 포함하며,
상기 영상재생장치의 디스플레이는 비디오써머리와 오디오써머리가 중복되는 구간에서는 중복구간임을 알리는 식별표시를 제공하는 것을 특징으로 하는 방법.
제 1 항에 있어서,
상기 비디오써머리제어인터페이스를 이용하여 상기 비디오써머리 중 특정 이벤트가 발생한 구간만을 선택하고, 또한 추가로 선택적으로 상기 오디오써머리제어인터페이스를 이용하여 상기 오디오써머리 중 특정 이벤트가 발생한 구간만을 선택하며, 이 경우 상기 비디오써머리 중 특정 이벤트가 발생한 구간과 상기 오디오써머리 중 특정 이벤트가 발생한 구간이 중복되는 경우 중복되는 구간이 식별되도록 구현되는 것을 특징으로 하는 방법.
제 1 항에 있어서,
상기 오디오써머리제어인터페이스를 이용하여 상기 오디오써머리 중 특정 이벤트가 발생한 구간만을 선택하고, 또한 추가로 선택적으로 상기 비디오써머리제어인터페이스를 이용하여 상기 비디오써머리 중 특정 이벤트가 발생한 구간만을 선택하며, 이 경우 상기 오디오써머리 중 특정 이벤트가 발생한 구간과 상기 비디오써머리 중 특정 이벤트가 발생한 구간이 중복되는 경우, 중복되는 구간이 식별되도록 구현되는 것을 특징으로 하는 방법.
제 1 항에 있어서, 상기 영상재생장치는
오디오써머리 또는 비디오써머리를 재생하는 것을 특징으로 하는 방법.
제 1 항에 있어서, 상기 오디오에서 이벤트를 검출하는 것은
상기 오디오에서 식별가능한 특징이 추출되면 이벤트가 발생된 것으로 검출하고, 상기 식별가능한 특징은 특정 단어, 특정 문자, 특정 음향 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 방법.
제 5 항에 있어서,
상기 추출한 오디오에서 상기 특정 단어 또는 특정 문자가 이벤트로 검출되면, 검출된 특정 단어 또는 특정 문자를 텍스트로 변환하고, 이 경우,
상기 텍스트는 의미를 가진 단어나 문장외에 발언 주체의 성별, 목소리의 높낮이, 연령 등에 대한 정보를 더 포함하여 검출된 시간과 함께 상기 오디오써머리에 표시하는 것을 특징으로 하는 방법.
제 6 항에 있어서, 상기 오디오써머리제어인터페이스를 이용하여 상기 오디오써머리에 표시된 텍스트 형식으로 변환된 특정 단어 또는 특정 문자를 선택하면, 상기 특정 단어 또는 특정 문자가 포함된 이벤트가 검출된 적어도 하나 이상의 오디오 구간 및 상기 이벤트가 검출된 적어도 하나 이상의 오디오 구간에 대응하는 비디오 구간이 출력되는 것을 특징으로 하는 방법.
제 6 항에 있어서, 상기 오디오써머리는
상기 텍스트 형식으로 변환된 특정 단어 또는 특정 문자를 태그(tag)의 형태로 제공하는 것을 특징으로 하는 방법.
제 6 항에 있어서,
상기 특정 음향은 주파수 특성을 기초로 상기 추출된 오디오로부터 검출되는 것을 특징으로 하는 방법.
제 6 항에 있어서,
상기 오디오써머리제어인터페이스를 통해 수신받은 입력 주파수 특성값에 매칭되는 음향을 상기 특정 음향으로 검출하는 것을 특징으로 하는 방법.
제 10 항에 있어서, 상기 오디오써머리제어인터페이스는
입력 주파수 특성값을 선택하거나 입력할 수 있는 음향선택인터페이스를 지원하고, 상기 음향선택인터페이스는 입력 주파수 특성값으로 여성, 남성, 유아, 성인, 노인, 높은 소리, 낮은 소리, 비상사태 중 적어도 하나 이상을 선택할 수 있도록 인터페이스를 제공하는 것을 특징으로 하는 방법.
삭제
단말기에서 감시영상을 수신하여 통합써머리를 제공하는 방법으로서, 상기 방법은
오디오 및 비디오 데이터를 포함하는 입력 원본영상에서 식별가능한 특징을 포함한 오디오 프레임을 추출하는 단계;
상기 추출된 오디오 프레임에 대응하는 비디오 프레임 또는 상기 비디오 프레임의 비디오 써머리를 추출하는 단계;
상기 추출된 오디오 프레임과 상기 추출된 비디오 프레임 또는 상기 추출된 비디오 프레임의 비디오 써머리를 결합시키는 링크(link)단계; 및
상기 추출된 오디오 프레임이 속한 원본 영상의 시간을 표시하는 시간태그를 삽입하는 단계; 를 포함하고,
상기 추출된 오디오 프레임은 시간순으로 제공하며, 이 경우 상기 추출된 오디오 프레임은 특정 음향을 상기 식별가능한 특징으로 포함한 경우를 포함하고,
상기 단말기의 디스플레이는 비디오써머리와 오디오써머리가 중복되는 구간에서는 중복구간임을 알리는 식별표시를 제공하는 것을 특징으로 하는 방법.
제 13 항에 있어서, 상기 식별가능한 특징은 특정 단어, 문장, 또는 음향 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 방법.
통합써머리를 제공하는 영상재생장치로서,
적어도 하나 이상의 네트워크 카메라로부터 촬영영상을 수신하는 영상수신부;
수신한 촬영영상에서 비디오를 추출하고, 추출한 비디오에서 이벤트를 검출하여 비디오써머리를 생성하는 비디오써머리생성부;
수신한 촬영영상에서 오디오를 추출하고, 추출한 오디오에서 이벤트를 검출하여 오디오써머리를 생성하는 오디오써머리생성부;
상기 오디오에서 이벤트가 검출되는 구간마다 해당 구간에 대응하는 비디오 프레임을 추출하거나 또는 해당 구간에 대응하는 비디오써머리를 추출하여 오디오써머리와 함께 저장하는 오디오써머리저장부;
영상재생장치의 디스플레이에 상기 비디오써머리를 제어하는 비디오써머리제어인터페이스부;및
상기 오디오써머리를 제어하는 오디오써머리제어인터페이스;를 포함하고, 이 경우 상기 오디오써머리는 검출된 이벤트를 시간순으로 제공하며, 상기 검출된 이벤트는 특정 음향이 검출된 경우를 포함하고,
상기 영상재생장치의 디스플레이는 비디오써머리와 오디오써머리가 중복되는 구간에서는 중복구간임을 알리는 식별표시를 제공하는 것을 특징으로 하는 통합써머리를 제공하는 영상재생장치.