KR101994291B1 - 통합써머리를 제공하는 영상재생장치 및 방법 - Google Patents

통합써머리를 제공하는 영상재생장치 및 방법 Download PDF

Info

Publication number
KR101994291B1
KR101994291B1 KR1020140138611A KR20140138611A KR101994291B1 KR 101994291 B1 KR101994291 B1 KR 101994291B1 KR 1020140138611 A KR1020140138611 A KR 1020140138611A KR 20140138611 A KR20140138611 A KR 20140138611A KR 101994291 B1 KR101994291 B1 KR 101994291B1
Authority
KR
South Korea
Prior art keywords
audio
video
event
specific
extracted
Prior art date
Application number
KR1020140138611A
Other languages
English (en)
Other versions
KR20160043865A (ko
Inventor
조성봉
Original Assignee
한화테크윈 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한화테크윈 주식회사 filed Critical 한화테크윈 주식회사
Priority to KR1020140138611A priority Critical patent/KR101994291B1/ko
Priority to US14/710,824 priority patent/US9542604B2/en
Priority to CN201510661822.9A priority patent/CN105516651B/zh
Publication of KR20160043865A publication Critical patent/KR20160043865A/ko
Priority to US15/363,609 priority patent/US9798934B2/en
Application granted granted Critical
Publication of KR101994291B1 publication Critical patent/KR101994291B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

감시영상을 수신하여 통합써머리를 제공하는 방법으로서, 입력 원본영상에서 식별가능한 특징을 포함한 오디오 프레임을 추출하는 단계; 상기 추출된 오디오 프레임에 대응하는 비디오 프레임 또는 상기 비디오 프레임의 비디오 써머리를 추출하는 단계; 상기 추출된 오디오 프레임과 상기 추출된 비디오 프레임 또는 상기 추출된 비디오 프레임의 비디오 써머리를 결합시키는 링크(link)단계; 및 상기 추출된 오디오 프레임이 속한 원본 영상의 시간을 표시하는 시간태그를 삽입하는 단계; 를 포함하는 것을 특징으로 한다.

Description

통합써머리를 제공하는 영상재생장치 및 방법{Method and Apparatus for providing combined-summary in an imaging apparatus}
본 발명은 오디오 데이터 기반 비디오 써머리 기능을 제공하는 영상 감시 시스템 및 방법에 관한 것으로, 구체적으로는 비디오 써머리(Video Summary) 또는 비디오 시놉시스(Video Synopsis)를 오디오 데이터를 기반으로 생성하여 제공하는 영상 감시 시스템 및 방법에 관한 것이다.
영상 감시 시스템에서는 비디오 데이터 기반 비디오 써머리 (Video Summary) 또는 비디오 시놉시스(Video Synopsis) 기능을 이용하여 입력 영상의 비디오 데이터를 요약하였다.
국내등록특허 1420885호
영상 감시 시스템에서 비디오 데이터만을 기반으로 요약하는 경우, 감시 카메라의 사각지대에서 이벤트가 발생하는 등, 비디오 이벤트는 발생하지 않고 중요한 오디오 이벤트만 발생하는 경우를 간과할 수 있는 문제점이 있다.
또한 오디오 데이터만을 기반으로 요약하는 경우, 비디오 데이터와는 달리 순차적으로 시간에 따라 청취하지 않으면 내용을 파악할 수 없고, 동시에 여러 오디오 데이터를 재생하는 경우 오디오 데이터가 포함하고 있는 내용에 대한 식별력이 떨어지는 문제점이 있다.
본 발명의 바람직한 일 실시예에서는 영상재생장치에서 통합써머리를 제공하는 방법을 개시한다.
바람직하게, 영상재생장치에서 통합써머리를 제공하는 방법은 적어도 하나 이상의 네트워크 카메라로부터 촬영영상을 수신하는 단계; 수신한 촬영영상에서 비디오를 추출하고, 추출한 비디오에서 이벤트를 검출하여 비디오써머리를 생성하는 단계; 수신한 촬영영상에서 오디오를 추출하고, 추출한 오디오에서 이벤트를 검출하여 오디오써머리를 생성하는 단계; 상기 오디오에서 이벤트가 검출되는 구간마다 해당 구간에 대응하는 비디오 프레임을 추출하여 상기 오디오써머리와 함께 저장하는 단계; 및 영상재생장치의 디스플레이에 상기 비디오써머리를 제어하는 비디오써머리제어인터페이스 및 상기 오디오써머리를 제어하는 오디오써머리제어인터페이스를 제공하는 단계;를 포함하는 것을 특징으로 한다.
바람직하게, 영상재생장치는 비디오써머리제어인터페이스를 이용하여 상기 비디오써머리 중 특정 이벤트가 발생한 구간만을 선택하고, 또한 추가로 선택적으로 상기 오디오써머리제어인터페이스를 이용하여 상기 오디오써머리 중 특정 이벤트가 발생한 구간만을 선택하며, 이 경우 상기 비디오써머리 중 특정 이벤트가 발생한 구간과 상기 오디오써머리 중 특정 이벤트가 발생한 구간이 중복되는 경우 중복되는 구간이 식별되도록 구현되는 것을 특징으로 한다.
바람직하게, 오디오써머리제어인터페이스를 이용하여 상기 오디오써머리 중 특정 이벤트가 발생한 구간만을 선택하고, 또한 추가로 선택적으로 상기 비디오써머리제어인터페이스를 이용하여 상기 비디오써머리 중 특정 이벤트가 발생한 구간만을 선택하며, 이 경우 상기 오디오써머리 중 특정 이벤트가 발생한 구간과 상기 비디오써머리 중 특정 이벤트가 발생한 구간이 중복되는 경우, 중복되는 구간이 식별되도록 구현되는 것을 특징으로 한다.
바람직하게, 상기 오디오에서 이벤트를 검출하는 것은 상기 오디오에서 식별가능한 특징이 추출되면 이벤트가 발생된 것으로 검출하고, 상기 식별가능한 특징은 특정 단어, 특정 문자, 특정 음향 중 적어도 하나 이상을 포함하는 것을 특징으로 한다.
바람직하게, 상기 추출한 오디오에서 상기 특정 단어 또는 특정 문자가 이벤트로 검출되면, 검출된 특정 단어 또는 특정 문자를 텍스트로 변환하여, 검출된 시간과 함께 상기 오디오써머리에 표시하는 것을 특징으로 한다.
바람직하게, 상기 추출한 오디오에서 상기 특정 단어 또는 특정 문자가 이벤트로 검출되면, 검출된 특정 단어 또는 특정 문자를 텍스트로 변환하여, 검출된 시간과 함께 상기 오디오써머리에 표시하는 것을 특징으로 한다.
본 발명의 또 다른 바람직한 일 실시예로서, 단말기에서 감시영상을 수신하여 통합써머리를 제공하는 방법으로서, 상기 방법은 오디오 및 비디오 데이터를 포함하는 입력 원본영상에서 식별가능한 특징을 포함한 오디오 프레임을 추출하는 단계; 상기 추출된 오디오 프레임에 대응하는 비디오 프레임 또는 상기 비디오 프레임의 비디오 써머리를 추출하는 단계; 상기 추출된 오디오 프레임과 상기 추출된 비디오 프레임 또는 상기 추출된 비디오 프레임의 비디오 써머리를 결합시키는 링크(link)단계; 및 상기 추출된 오디오 프레임이 속한 원본 영상의 시간을 표시하는 시간태그를 삽입하는 단계; 를 포함하는 것을 특징으로 한다.
본 발명의 통합써머리를 제공하는 영상재생장치는 오디오와 비디오 데이터를 함께 요약함으로써 비디오 이벤트가 발생하지 않는 구간에 대해서도 검색할 데이터를 요약하여 데이터의 정확도를 향상시키는 효과가 있다.
도 1 은 본 발명의 바람직한 일 실시예로서, 통합써머리를 제공하는 영상재생장치의 내부 구성도를 도시한다.
도 2 는 본 발명의 바람직한 일 실시예로서, 통합써머리를 제공하는 영상재생장치의 내부 구성의 일부 기능을 도시한다.
도 3 은 본 발명의 바람직한 일 실시예로서, 통합써머리를 제공하는 영상재생장치에서 지원하는 비디오써머리제어인터페이스 및 오디오써머리제어인터페이스를 도시한다.
도 4 는 본 발명의 또 다른 바람직한 일 실시예로서, 영상재생장치의 내부 구성도를 도시한다.
도 5 는 본 발명의 바람직한 일 실시예로서, 오디오 프레임 추출부에서 오디오 신호를 처리하는 일 실시예를 도시한다.
도 6 은 본 발명의 바람직한 일 실시예로서, 텍스트변환부에서 오디오 신호를 텍스트로 변환하는 일 실시예를 도시한다.
도 7 은 본 발명의 바람직한 일 실시예로서, 통합써머리를 재생하는 일 예를 도시한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시 예들을 상세히 설명하기로 한다.
도 1 은 본 발명의 바람직한 일 실시예로서, 통합써머리를 제공하는 영상재생장치의 내부 구성도를 도시한다. 도 3 은 영상재생장치에서 오디오써머리제어인터페이스 및 비디오써머리제어인터페이스를 지원하는 일 실시예를 도시한다. 도 7 은 영상재생장치에서 통합써머리를 재생하는 일 실시예를 도시한다. 도 1, 3 및 7을 참고하여 설명하면 아래와 같다.
본 발명의 바람직한 일 실시예로서, 통합써머리는 관리자의 선택에 따라 비디오 써머리 또는 오디오 써머리를 선택적으로 재생하거나 또는 비디오써머리와 오디오 써머리를 동시에 재생하는 것을 의미한다.
또한, 오디오에서 특정 음향, 단어를 포함한 오디오 써머리를 선택하고, 비디오에서 특정 이벤트를 포함한 비디오 써머리를 조합하여 압축할 영상의 시간 범위를 구성하고, 오디오 및 비디오 프레임을 추출하여 통합써머리를 재생하도록 구현될 수 있다.
본 발명의 바람직한 일 실시예에서는 오디오 써머리를 단독으로 재생하는 경우에도, 오디오만이 단독으로 재생되는 것이 아니라 오디오 써머리에 대응되는 구간의 비디오 프레임 또는 비디오 써머리가 함께 재생되는 특징이 있다.
본 발명의 바람직한 일 실시예로서, 영상재생장치(100)는 영상수신부(110), 비디오써머리 생성부(120), 비디오써머리 저장부(130), 비디오써머리 재생부(140), 오디오써머리 생성부(121), 오디오써머리 저장부(131) 및 오디오써머리 재생부(141)를 포함한다.
영상수신부(110)는 적어도 하나 이상의 네트워크카메라로부터 영상을 수신한다. 비디오써머리 생성부(120)는 영상수신부(110)에서 수신한 영상 중 비디오 데이터를 처리하여 비디오써머리를 생성하고, 비디오 써머리저장부(130)에 저장한다.
비디오써머리 생성부(120)는 추출한 비디오에서 이벤트를 검출하여 비디오써머리를 생성한다. 이 경우, 이벤트는 식별가능한 특징을 포함한 장면으로 정의한다. 일 예로, 이벤트는 특정 건물, 자가용, 동물 등과 같은 객체, 인물, 화재, 폭발, 사고 등의 장면을 모두 포함한다.
비디오써머리저장부(130)는 비디오써머리 생성부(120)에서 비디오써머리를 생성하는 과정에서 검출한 움직임이나, 검출한 이벤트의 영상 분석 결과를 함께 저장한다.
오디오써머리생성부(121)는 영상수신부(110)에서 수신한 영상 중 오디오 데이터를 처리하여 오디오써머리를 생성하고, 오디오써머리저장부(130)에 저장한다. 오디오써머리 저장부(130)는 오디오 데이터에서 이벤트가 검출되는 구간마다 해당 구간에 대응하는 비디오 프레임을 추출하거나 또는 해당 구간에 대응하는 비디오써머리를 추출하여 오디오써머리와 함께 저장한다.
본 발명의 바람직한 일 실시예로서, 오디오써머리 생성부(121)는 시간 기반 오디오 비디오 압축, 특정 단어 기반 오디오 비디오 압축, 음향 기반 오디오 비디오 압축 내지 이를 혼합한 복합 형태 오디오 비디오 압축을 수행할 수 있다.
시간 기반 오디오 비디오 압축은 정해진 시간 구간에서 오디오 데이터를 포함하는 시간 구간 범위에서 샘플링을 하고 그 시간에 포함되는 비디오 프레임을 추출한다.
이 때, 오디오 데이터 시간 범위를 샘플링할 때, 특정 단어를 포함하거나 문장을 포함하거나, 음향이 포함된 기반의 오디오를 샘플링하도록 하고, 오디오 데이터가 포함되어 있지 않은 구간에서도 비디오 데이터가 이벤트를 포함하는 경우, 이벤트가 포함된 비디오 프레임을 샘플링하도록 한다. 또 이벤트가 많은 구간 발생하지 않은 경우에는 임의 구간에 해당하는 비디오 프레임을 선택해서 압축 오디오, 비디오 영상을 생성한다.
특정 단어 기반 오디오 비디오 압축은 음성 데이터 중에서도 특정 어휘, 문장을 포함하는 시간 구간에 대하여 Video Frame 을 추출한다. 이 때, 특정 단어의 포함 여부는 텍스트로 변환된 데이터를 기반으로 검색하고, 단순히 단어만을 포함하는 경우 전후 상황을 인지할 수 없는 경우가 있기 때문에, 그 단어를 포함하는 시간 범위를 포함해서 이전, 이후 시간과 함께 비디오를 추출한다.
음향을 기반하는 경우는 오디오 데이터에서 특정 음향의 패턴을 추출한 데이터에서 발생한 시간 범위를 얻어오고, 그 시간 범위를 포함해서 특정 단어 기반과 같은 방식으로 비디오 프레임을 추출한다.
도 3 을 참고하면, 통합써머리를 제공하는 영상재생장치는 비디오써머리제어인터페이스부(도 1, 142) 및 오디오써머리제어인터페이스(도 1, 143)을 제공한다.
도 3의 통합 써머리 검색 화면(300)은 원본 데이터 검색 채널 입력부(305), 원본 데이터 검색 구간 표시부(310), 음성인식검색어 입력부(315), 원본 데이터 시작시간 입력부(320), 원본 데이터 종료시간 입력부(325), 음향 인식 검색조건 선택부(330), 비디오 검색조건 설정부(335), 비디오 이벤트 검색종류 선택부(340), 비디오 이벤트 영역 설정부(345), 비디오 써머리 검색 시작 버튼(350), 비디오 써머리 검색 종료 버튼(355), 및 초기 원본 데이터 출력 화면(360)으로 구성된다.
원본 데이터 검색 채널 입력부(305)는 감시 시스템 관리자가 비디오 써머리를 생성할 원본 데이터의 채널을 입력하는 부분이다. 원본 데이터 검색 구간 표시부(310)는 감시 시스템 관리자가 비디오 써머리를 생성할 원본 데이터의 전체 구간을 표시하는 부분이다. 원본 데이터 검색 채널 입력부(305)에 의해 원본 데이터를 생성시킨 카메라의 채널이 결정되면, 원본 데이터의 분량이 시간 단위로 표시되는 형식이다.
원본 데이터 검색 구간 표시부(310)에 표시되는 원본 데이터의 분량은 감시 시스템 관리자가 원본 데이터 시작시간 입력부(320) 및 원본 데이터 종료시간 입력부(325)에 적절한 시간을 입력할 수 있도록 돕는다.
음성인식검색어 입력부(315)는 감시 시스템 관리자가 원본 데이터의 오디오 데이터에서 검색하려고 하는 단어, 문장을 입력하는 부분이다.
원본 데이터 시작시간 입력부(320)와 원본 데이터 종료시간 입력부(325)는 감시 시스템 관리자가 원본 데이터 중 비디오 써머리를 추출하기 위해 필요한 시작지점과 종료지점의 시간정보를 입력하는 부분이다.
음향인식 검색조건 선택부(330)는 감시 시스템 관리자가 원본 데이터의 오디오 데이터에서 검색하려고 하는 음향의 종류를 선택하는 부분이다. 감시 시스템 관리자가 선택할 수 있는 음향의 종류에는, 총소리, 유리창 깨지는 소리, 비명소리 등이 있을 수 있고, 감시 시스템 관리자가 음향의 종류를 임의로 추가하거나 삭제할 수 있다.
비디오 검색조건 설정부(335)는 시간 단위로 비디오 프레임을 샘플링하거나 특정 이벤트 단위로 비디오 프레임을 샘플링하도록 영상 검색 조건을 설정하는 부분이다.
비디오 이벤트 검색종류 선택부(340)는 비디오 검색조건 설정부(335)에서 특정 이벤트 단위로 비디오 프레임을 샘플링하도록 설정된 경우, 활성화되는 화면으로서, 감시 시스템 관리자는 원본 데이터에서 추출하고자 하는 비디오 이벤트의 종류를 선택할 수 있다.
비디오 이벤트 영역 설정부(345)는 비디오 검색조건 설정부(335)에서 특정 이벤트 단위로 비디오 프레임을 샘플링하도록 설정된 경우, 활성화되는 화면으로서, 감시 시스템 관리자는 원본 데이터에서 추출하고자 하는 비디오 이벤트의 영역을 설정할 수 있다. 감시 시스템 관리자는 비디오 이벤트 영역 설정부(340)를 통해 비디오 이벤트의 발생 지점을 원본 데이터 중 임의의 영역으로 한정함으로써, 비디오 이벤트를 포함하는 비디오 프레임을 보다 효율적으로 추출할 수 있다.
본 발명의 바람직한 일 실시예로서, 오디오써머리제어인터페이스는 음성인식검색어 입력부(315), 음향인식 검색조건 선택부(330) 외에도 오디오써머리를 제어, 저장, 재생하기 위해 요구되는 인터페이스를 모두 포함한다.
또한 비디오써머리제어인터페이스의 일 예인 비디오 검색조건 설정부(335), 비디오 이벤트 검색종류 선택부(340), 비디오 이벤트 영역 설정부(345) 외에도 비디오써머리를 제어, 저장, 재생하기 위해 요구되는 인터페이스를 모두 포함한다.
도 7을 참고하면, 사용자가 비디오써머리와 오디오써머리를 동시에 재생하는 경우 시간순서 또는 이벤트 발생 순서 등과 같이 기설정된 기준에 따라 비디오써머리 또는 오디오써머리가 재생된다. 이러한 기준은 통합 써머리 재생제어(716) 인터페이스를 이용하여 설정이 가능하다. 통합 써머리 재생제어 인터페이스(716)는 오디오써머리제어인터페이스 및 비디오써머리제어인터페이스를 모두 포함하는 개념이다.
또한, 통합써머리 재생 화면(700)에서는 비디오써머리와 오디오써머리가 중복되는 구간에서는 중복구간임을 알리는 식별표시를 제공하여 사용자에게 비디오 이벤트와 오디오 이벤트가 중복되는 구간임을 알리도록 구현될 수 있다.
본 발명의 또 다른 바람직한 일 실시예로서, 오디오써머리제어인터페이스를 이용하여 오디오써머리 중 특정 이벤트가 발생한 구간만을 선택하고(716), 또한 추가로 선택적으로 비디오써머리제어인터페이스를 이용하여 비디오써머리 중 특정 이벤트가 발생한 구간만을 선택할 수 있다(716). 이 경우에도 오디오써머리 중 특정 이벤트가 발생한 구간과 비디오써머리 중 특정 이벤트가 발생한 구간이 중복되는 경우, 중복되는 구간이 식별되도록 재생할 수 있다(710, 712, 714).
도 2 는 본 발명의 바람직한 일 실시예로서, 통합써머리를 제공하는 영상재생장치의 내부 구성의 일부 기능을 도시한다.
비디오써머리생성부(210)는 입력영상수신부(200)로부터 수신한 비디오 데이터를 가공하여 비디오써머리를 생성한 후 비디오써머리 저장부(230)에 저장한다. 비디오써머리생성부(210)는 입력받은 비디오 데이터에서 식별 가능한 특징이 있는 이벤트를 검출하고(S211, S213, S215), 이벤트가 검출된 구간을 비디오써머리저장부(230)에 저장한다. 도 2에서는 비디오 이벤트의 일 예로, 10시 7분에 발생한 폭탄든 남자, 10시 10분에 발생한 폭탄 방화 및 10시 20분에 발생한 차량 폭탄 방화를 검출하였다.
오디오써머리생성부(220)는 입력영상수신부(200)로부터 수신한 오디오 데이터를 가공하여 오디오써머리를 생성한 후 오디오써머리 저장부(240)에 저장한다. 오디오써머리생성부(240)는 입력받은 오디오 데이터에서 식별 가능한 특징이 있는 이벤트를 검출하고(S228, S224, S215), 이벤트가 검출된 구간을 오디오써머리 저장부(240)에 저장한다.
오디오써머리생성부(220)는 수신한 오디오 데이터 중 의미있는 데이터가 포함된 구간(S222, S224, S226)에서 식별가능한 특징이 있는 이벤트를 검출한다(S228, S224, S215). 또한, 검출된 이벤트 구간에 대응하는 비디오 프레임 구간(S238, S234, S215)을 함께 저장한다.
도 2 에서는 오디오 이벤트의 일 예로, 10시 05분에 검출된 "손들어" 음성 데이터, 10시 10분에 검출된 폭발음 및 10시 20분에 검출된 폭발음을 검출하였다. 본 발명의 바람직한 일 실시예에서 오디오 이벤트는 오디오 이벤트가 검출된 구간의 비디오 프레임 또는 비디오 써머리를 함께 저장한다.
도 2 에 도시되어 있지는 않으나, 10시 05분에 검출된 "손들어" 음성 데이터는 10시 05분에 해당하는 비디오 프레임과 함께 저장되는 특징을 지닌다. 오디오 써머리 저장부(240)에는 오디오 프레임과 비디오 프레임이 섞여 있는 audio/video interleaved file format 형식으로 저장된다. 이 경우, 각 비디오, 오디오의 프레임으로부터 원본 영상의 시간을 찾을 수 있는 시간 태그를 포함하도록 구현된다.
또한 추후, 10시 05분에 검출된 "손들어" 음성 데이터가 포함된 오디오써머리를 재생할 때, 10시 05분의 비디오 프레임 또는 비디오 써머리가 함께 재생되는 특징이 있다.
본 발명의 바람직한 일 실시예로서, 오디오써머리와 비디오써머리는 이벤트가 검출된 각 비디오 프레임 또는 오디오 프레임의 원본시간 정보를 포함하고 있어, 원하는 경우 원본 영상에서 해당 시간으로 이동하여 재생할 수 있다(도 7, 714 720, 722, 730 참고).
오디오써머리를 재생하거나 또는 비디오써머리를 재생하는 통합재생부(250)는 오디오 이벤트 또는 비디오 이벤트를 표시하는 태그(S251, S252)를 표시할 수 있다. 또한, 오디오이벤트를 텍스트로 변환한 텍스트를 태그 형태(S253)로 표시할 수 있다.
도 4 는 본 발명의 또 다른 바람직한 일 실시예로서, 영상재생장치의 내부 구성도를 도시한다.
영상재생장치는 입력영상수신부(410), 비디오/오디오 데이터처리부(420), 통합써머리 생성부(430), 통합써머리 재생부(460), 비디오/오디오 구간 정보 DB(440) 및 텍스트 변환부(450)를 포함한다.
비디오/오디오 데이터처리부(420)는 비디오프레임 추출부(422) 및 오디오프레임 추출부(424)를 포함한다. 통합써머리 생성부(430)는 비디오써머리 추출부(432) 및 오디오써머리 추출부(434)를 포함한다.
비디오프레임 추출부(422)는 수신된 비디오 데이터에서 식별가능한 특징을 시간 단위 또는 이벤트 단위로 추출할 수 있다. 이 경우, Line Detection, Field Detection, Merge, isolation, Face Detection 등의 기술등을 이용할 수 있다.
통합써머리 생성부(430)는 비디오/오디오 구간 정보 DB(440)를 이용하여 오디오써머리 추출부(434)에서 추출된 오디오 이벤트 구간과 이에 대응하는 비디오 이벤트 구간을 결합하여 링크(link)를 생성할 수 있다. 텍스트변환부(450)는 오디오써머리 추출부(434)에서 추출된 음성데이터를 텍스트로 변환하여 화면에 출력한다.
도 5 는 본 발명의 바람직한 일 실시예로서, 오디오 프레임 추출부에서 오디오 신호를 처리하는 일 실시예를 도시한다.
오디오 프레임 추출부는 오디오 데이터를 수신하면(S510) 주파수의 특성을 기초로 하여 분리한다. 주파수 특성(S522)에 따라 오디오 데이터를 고주파수, 중주파수, 저주파수 특성에 기반하여 분리할 수 있다. 또한, 성인남성의 음성, 성인여성의 음성, 어린이의 음성으로도 분리가 가능하다. 이 경우 오디오 설정부(Audio Configuration)에서 제공하는 오디오의 특성을 판단할 수 있는 각종 정보 등을 참고할 수 있다.
음성 전처리(S520)가 완료되면, 주파수가 분리된 음성/음향 데이터의 특징점을 추출하여 특징 벡터로 표현하고, 소리의 음색이나 패턴을 분석할 수 있는 데이터로 처리한다. 구체적으로는, 음성 데이터로부터 특정한 의미를 갖는 단어, 음절, 문장을 추출하기 위한 전(前) 단계로서, 음성 데이터를 특징 벡터로 처리하고, 각 데이터를 알맞게 처리하기 위한 필터를 결정한다.
예를 들어, 분리된 여성의 음성 데이터의 특징 벡터를 이용하여, 그 여성의 음성의 높낮이, 발음, 발언 속도를 1차적으로 분석 후 그로부터, 발언 주체의 연령과 같은 부가적인 정보를 2차적으로 분석하여 최종적으로 음성 데이터에 적용할 필터, 처리방법을 결정하는 방식이다. 음향 데이터도 음성 데이터와 동일한 과정을 통해 분석된다.
특징 벡터를 분석한 이 후(S530) 분석된 특징 벡터의 패턴을 인식하여 기설정된 기준패턴과 비교를 수행한다(S540). 기준 패턴은 음성을 낸 주체의 연령, 성별, 발언속도, 목소리의 높낮이와 같은 정보, 총소리, 비명소리, 알람소리, 유리창 깨지는 소리 등의 음향 정보를 포함한다.
또한, 음성의 패턴을 인식하는 방법은 고립단어식으로 단어 하나하나를 구분하여 인식할 수도 있고, 연속적인 음성 인식으로 문장 단위 인식을 적용할 수도 있으며, 핵심어(키워드)를 검출하는 방식을 적용할 수도 있다.
오디오 프레임 추출부에서는 분석된 특징 벡터의 패턴 중 기설정된 기준패턴과 동일한 오디오 패턴을 포함하는 오디오 프레임과, 그 오디오 프레임의 구간 정보를 추출한다. 여기서 오디오 프레임의 구간 정보란, 원본 데이터에서 해당 오디오 프레임이 재생되는 시간 정보를 의미한다.
본 발명의 바람직한 실시예에서, 오디오 프레임은 단일 프레임만으로는 특정한 의미를 가지는 오디오 데이터를 구성할 수 없으므로, 일련의 오디오 프레임이 추출되도록 구현될 수 있다.
또한 특정 단어만으로는 전후 상황을 인지할 수 없는 경우가 있으므로, 감시 시스템의 목적을 달성하기 위해, 오디오 이벤트에 해당하는 특정 단어를 기준으로 하여, 앞뒤 시간 범위를 더 늘린 구간 정보를 바탕으로 오디오 프레임을 추출할 수 있으며, 이런 오디오 프레임의 추출 방식은 특정 단어 대신 특정 음향에 대해서도 동일하게 적용이 가능하다. 도 6 을 함께 참고하여 오디오를 텍스트로 변환하는 과정은 다음과 같다.
패턴 인식(S540)이 이루어지면, 이 후 추출한 오디오 프레임을 수신하여 텍스트로 변환처리한다(S550). 언어모델부(613)는 음성 데이터를 수신하여 어느 국가의 언어인지 1차적으로 판별하여 언어의 종류를 특정 후, 수신한 음성 데이터와 특정된 언어에 대한 정보를 언어사전부(616)에 전달한다.
언어사전부(616)은 언어모델부(613)로부터 언어의 종류를 특정한 정보를 전달받아, 변환 처리부(610)가 음성 데이터를 텍스트로 변환하는 데에 필요한 정보를 제공한다.
패턴 인식(S540)과정에서 산출한 정보에 기초하여 변환되는 텍스트는 의미를 가진 단어나 문장외에 발언 주체의 성별, 목소리의 높낮이, 연령 등에 대한 정보를 포함할 수도 있다. 예를 들어, 음성 데이터로부터 아일랜드 출신의 20대 여성이 도움을 요청하는 음성이라는 것을 인식했다면, 최종적으로 감시 시스템의 모니터에 출력되는 자막은 "Help me(20대 아일랜드 여성)"가 된다.
메타데이터(Metadata)저장부(630)는 변환처리부(610)에 의해 텍스트로 변환된 오디오 데이터를 전달받아 저장한다. 이때 저장되는 데이터는 텍스트로 변환된 오디오 데이터뿐만 아니라, 주파수 특성별로 분리된 오디오 데이터에 대응되는 오디오 구간 정보도 비디오의 메타데이터(Metadata)로서 저장된다.
주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간정보는, 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간정보로 대체될 수 있고, 비디오 메타데이터로서 저장되는 오디오 구간 정보 또한 텍스트로 변환되어 저장될 수 있다.
예를 들어, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간이 12시에서 12시 20분이고, 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간(오디오 이벤트가 감지된 구간)이 12시 5분에서 12시 6분이라면, 감시 시스템의 화면에 표시될 자막을 위한 비디오 구간 정보는 12시 5분에서 12시 6분에 대한 것이면 충분하다.
다만, 오디오 데이터 특성상 내용 파악을 위해 오디오 이벤트가 포함된 음성/음향 데이터의 발생 시간을 정확히 알기 위해서는 여전히 12시에서 12시 20분에 대한 비디오 구간정보가 필요하므로, 두 비디오 구간정보에 대한 것은 감시 시스템 관리자에 의해 조정될 수 있는 부분이라 할 것이다.
본 방법발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다.
그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 균등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (15)

  1. 영상재생장치에서 통합써머리를 제공하는 방법으로서,
    적어도 하나 이상의 네트워크 카메라로부터 촬영영상을 수신하는 단계;
    수신한 촬영영상에서 비디오를 추출하고, 추출한 비디오에서 이벤트를 검출하여 비디오써머리를 생성하는 단계;
    수신한 촬영영상에서 오디오를 추출하고, 추출한 오디오에서 이벤트를 검출하여 오디오써머리를 생성하는 단계;
    상기 오디오에서 이벤트가 검출되는 구간마다 해당 구간에 대응하는 비디오 프레임을 추출하거나 또는 해당 구간에 대응하는 비디오써머리를 추출하여 오디오써머리와 함께 저장하는 단계;
    영상재생장치의 디스플레이에 상기 비디오써머리를 제어하는 비디오써머리제어인터페이스 및 상기 오디오써머리를 제어하는 오디오써머리제어인터페이스를 제공하는 단계;를 포함하고, 이 경우 상기 오디오써머리는 검출된 이벤트를 시간순으로 제공하며, 상기 검출된 이벤트는 특정 음향이 검출된 경우를 포함하며,
    상기 영상재생장치의 디스플레이는 비디오써머리와 오디오써머리가 중복되는 구간에서는 중복구간임을 알리는 식별표시를 제공하는 것을 특징으로 하는 방법.
  2. 제 1 항에 있어서,
    상기 비디오써머리제어인터페이스를 이용하여 상기 비디오써머리 중 특정 이벤트가 발생한 구간만을 선택하고, 또한 추가로 선택적으로 상기 오디오써머리제어인터페이스를 이용하여 상기 오디오써머리 중 특정 이벤트가 발생한 구간만을 선택하며, 이 경우 상기 비디오써머리 중 특정 이벤트가 발생한 구간과 상기 오디오써머리 중 특정 이벤트가 발생한 구간이 중복되는 경우 중복되는 구간이 식별되도록 구현되는 것을 특징으로 하는 방법.
  3. 제 1 항에 있어서,
    상기 오디오써머리제어인터페이스를 이용하여 상기 오디오써머리 중 특정 이벤트가 발생한 구간만을 선택하고, 또한 추가로 선택적으로 상기 비디오써머리제어인터페이스를 이용하여 상기 비디오써머리 중 특정 이벤트가 발생한 구간만을 선택하며, 이 경우 상기 오디오써머리 중 특정 이벤트가 발생한 구간과 상기 비디오써머리 중 특정 이벤트가 발생한 구간이 중복되는 경우, 중복되는 구간이 식별되도록 구현되는 것을 특징으로 하는 방법.
  4. 제 1 항에 있어서, 상기 영상재생장치는
    오디오써머리 또는 비디오써머리를 재생하는 것을 특징으로 하는 방법.
  5. 제 1 항에 있어서, 상기 오디오에서 이벤트를 검출하는 것은
    상기 오디오에서 식별가능한 특징이 추출되면 이벤트가 발생된 것으로 검출하고, 상기 식별가능한 특징은 특정 단어, 특정 문자, 특정 음향 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 방법.
  6. 제 5 항에 있어서,
    상기 추출한 오디오에서 상기 특정 단어 또는 특정 문자가 이벤트로 검출되면, 검출된 특정 단어 또는 특정 문자를 텍스트로 변환하고, 이 경우,
    상기 텍스트는 의미를 가진 단어나 문장외에 발언 주체의 성별, 목소리의 높낮이, 연령 등에 대한 정보를 더 포함하여 검출된 시간과 함께 상기 오디오써머리에 표시하는 것을 특징으로 하는 방법.
  7. 제 6 항에 있어서, 상기 오디오써머리제어인터페이스를 이용하여 상기 오디오써머리에 표시된 텍스트 형식으로 변환된 특정 단어 또는 특정 문자를 선택하면, 상기 특정 단어 또는 특정 문자가 포함된 이벤트가 검출된 적어도 하나 이상의 오디오 구간 및 상기 이벤트가 검출된 적어도 하나 이상의 오디오 구간에 대응하는 비디오 구간이 출력되는 것을 특징으로 하는 방법.
  8. 제 6 항에 있어서, 상기 오디오써머리는
    상기 텍스트 형식으로 변환된 특정 단어 또는 특정 문자를 태그(tag)의 형태로 제공하는 것을 특징으로 하는 방법.
  9. 제 6 항에 있어서,
    상기 특정 음향은 주파수 특성을 기초로 상기 추출된 오디오로부터 검출되는 것을 특징으로 하는 방법.
  10. 제 6 항에 있어서,
    상기 오디오써머리제어인터페이스를 통해 수신받은 입력 주파수 특성값에 매칭되는 음향을 상기 특정 음향으로 검출하는 것을 특징으로 하는 방법.
  11. 제 10 항에 있어서, 상기 오디오써머리제어인터페이스는
    입력 주파수 특성값을 선택하거나 입력할 수 있는 음향선택인터페이스를 지원하고, 상기 음향선택인터페이스는 입력 주파수 특성값으로 여성, 남성, 유아, 성인, 노인, 높은 소리, 낮은 소리, 비상사태 중 적어도 하나 이상을 선택할 수 있도록 인터페이스를 제공하는 것을 특징으로 하는 방법.
  12. 삭제
  13. 단말기에서 감시영상을 수신하여 통합써머리를 제공하는 방법으로서, 상기 방법은
    오디오 및 비디오 데이터를 포함하는 입력 원본영상에서 식별가능한 특징을 포함한 오디오 프레임을 추출하는 단계;
    상기 추출된 오디오 프레임에 대응하는 비디오 프레임 또는 상기 비디오 프레임의 비디오 써머리를 추출하는 단계;
    상기 추출된 오디오 프레임과 상기 추출된 비디오 프레임 또는 상기 추출된 비디오 프레임의 비디오 써머리를 결합시키는 링크(link)단계; 및
    상기 추출된 오디오 프레임이 속한 원본 영상의 시간을 표시하는 시간태그를 삽입하는 단계; 를 포함하고,
    상기 추출된 오디오 프레임은 시간순으로 제공하며, 이 경우 상기 추출된 오디오 프레임은 특정 음향을 상기 식별가능한 특징으로 포함한 경우를 포함하고,
    상기 단말기의 디스플레이는 비디오써머리와 오디오써머리가 중복되는 구간에서는 중복구간임을 알리는 식별표시를 제공하는 것을 특징으로 하는 방법.
  14. 제 13 항에 있어서, 상기 식별가능한 특징은 특정 단어, 문장, 또는 음향 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 방법.
  15. 통합써머리를 제공하는 영상재생장치로서,
    적어도 하나 이상의 네트워크 카메라로부터 촬영영상을 수신하는 영상수신부;
    수신한 촬영영상에서 비디오를 추출하고, 추출한 비디오에서 이벤트를 검출하여 비디오써머리를 생성하는 비디오써머리생성부;
    수신한 촬영영상에서 오디오를 추출하고, 추출한 오디오에서 이벤트를 검출하여 오디오써머리를 생성하는 오디오써머리생성부;
    상기 오디오에서 이벤트가 검출되는 구간마다 해당 구간에 대응하는 비디오 프레임을 추출하거나 또는 해당 구간에 대응하는 비디오써머리를 추출하여 오디오써머리와 함께 저장하는 오디오써머리저장부;
    영상재생장치의 디스플레이에 상기 비디오써머리를 제어하는 비디오써머리제어인터페이스부;및
    상기 오디오써머리를 제어하는 오디오써머리제어인터페이스;를 포함하고, 이 경우 상기 오디오써머리는 검출된 이벤트를 시간순으로 제공하며, 상기 검출된 이벤트는 특정 음향이 검출된 경우를 포함하고,
    상기 영상재생장치의 디스플레이는 비디오써머리와 오디오써머리가 중복되는 구간에서는 중복구간임을 알리는 식별표시를 제공하는 것을 특징으로 하는 통합써머리를 제공하는 영상재생장치.
KR1020140138611A 2014-10-14 2014-10-14 통합써머리를 제공하는 영상재생장치 및 방법 KR101994291B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020140138611A KR101994291B1 (ko) 2014-10-14 2014-10-14 통합써머리를 제공하는 영상재생장치 및 방법
US14/710,824 US9542604B2 (en) 2014-10-14 2015-05-13 Method and apparatus for providing combined-summary in imaging apparatus
CN201510661822.9A CN105516651B (zh) 2014-10-14 2015-10-14 用于在成像设备中提供组合摘要的方法和设备
US15/363,609 US9798934B2 (en) 2014-10-14 2016-11-29 Method and apparatus for providing combined-summary in imaging apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140138611A KR101994291B1 (ko) 2014-10-14 2014-10-14 통합써머리를 제공하는 영상재생장치 및 방법

Publications (2)

Publication Number Publication Date
KR20160043865A KR20160043865A (ko) 2016-04-22
KR101994291B1 true KR101994291B1 (ko) 2019-06-28

Family

ID=55655657

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140138611A KR101994291B1 (ko) 2014-10-14 2014-10-14 통합써머리를 제공하는 영상재생장치 및 방법

Country Status (3)

Country Link
US (2) US9542604B2 (ko)
KR (1) KR101994291B1 (ko)
CN (1) CN105516651B (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9570074B2 (en) * 2014-12-02 2017-02-14 Google Inc. Behavior adjustment using speech recognition system
US10432560B2 (en) * 2015-07-17 2019-10-01 Motorola Mobility Llc Voice controlled multimedia content creation
WO2018016142A1 (ja) 2016-07-21 2018-01-25 ソニー株式会社 情報処理システム、情報処理装置、情報処理方法、およびプログラム
CN106713868A (zh) * 2017-01-03 2017-05-24 捷开通讯(深圳)有限公司 一种监控随机目标的方法及***
JP6610572B2 (ja) * 2017-01-24 2019-11-27 京セラドキュメントソリューションズ株式会社 編集装置
CN110637458B (zh) * 2017-05-18 2022-05-10 索尼公司 信息处理装置、信息处理方法以及计算机可读存储介质
CN110019962B (zh) * 2017-10-27 2024-01-02 优酷网络技术(北京)有限公司 一种视频文案信息的生成方法及装置
CN108174269B (zh) * 2017-12-28 2021-02-26 阿里巴巴(中国)有限公司 可视化音频播放方法及装置
CN108307250B (zh) * 2018-01-23 2020-10-30 浙江大华技术股份有限公司 一种生成视频摘要的方法及装置
KR102061410B1 (ko) * 2018-04-16 2020-02-11 이지환 이벤트 감시 시스템
US20190332899A1 (en) * 2018-04-26 2019-10-31 Sorenson Ip Holdings, Llc Analysis of image media corresponding to a communication session
CN108900896A (zh) * 2018-05-29 2018-11-27 深圳天珑无线科技有限公司 视频剪辑方法及装置
CN110798656A (zh) * 2018-08-03 2020-02-14 ***通信有限公司研究院 一种监控视频文件处理方法、装置、介质和设备
US10911835B2 (en) * 2018-12-31 2021-02-02 Sling Media Pvt Ltd Systems, methods, and devices supporting scene-based search functionalities
US11711557B2 (en) * 2018-12-31 2023-07-25 Dish Network Technologies India Private Limited Systems, methods, and devices supporting scene change-based smart search functionalities
CN111680189B (zh) * 2020-04-10 2023-07-25 北京百度网讯科技有限公司 影视剧内容检索方法和装置
KR102293073B1 (ko) * 2020-09-11 2021-08-25 서울과학기술대학교 산학협력단 비디오 영상의 맥락을 고려한 핵심 영상 생성 장치 및 방법
KR102369620B1 (ko) * 2020-09-11 2022-03-07 서울과학기술대학교 산학협력단 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법
EP4099326A1 (en) * 2021-06-03 2022-12-07 Lemon Inc. Video remixing method
WO2023182542A1 (ko) * 2022-03-22 2023-09-28 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100612874B1 (ko) * 2004-11-22 2006-08-14 삼성전자주식회사 스포츠 동영상의 요약 방법 및 장치
JP2007097047A (ja) * 2005-09-30 2007-04-12 Seiko Epson Corp コンテンツの編集装置、コンテンツの編集方法及びコンテンツの編集プログラム
JP2012010265A (ja) * 2010-06-28 2012-01-12 Nippon Hoso Kyokai <Nhk> 要約映像生成装置及び要約映像生成プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US6163510A (en) * 1998-06-30 2000-12-19 International Business Machines Corporation Multimedia search and indexing system and method of operation using audio cues with signal thresholds
US6332120B1 (en) 1999-04-20 2001-12-18 Solana Technology Development Corporation Broadcast speech recognition system for keyword monitoring
US6973256B1 (en) * 2000-10-30 2005-12-06 Koninklijke Philips Electronics N.V. System and method for detecting highlights in a video program using audio properties
JP4965257B2 (ja) * 2003-05-26 2012-07-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 視聴覚番組コンテンツの視聴覚要約を生成するシステム及び方法
JP4972095B2 (ja) 2005-11-15 2012-07-11 イッサム リサーチ ディベロップメント カンパニー オブ ザ ヘブライ ユニバーシティー オブ エルサレム 映像概要を生成する方法およびシステム
KR100850791B1 (ko) 2006-09-20 2008-08-06 삼성전자주식회사 방송 프로그램 요약 생성 시스템 및 그 방법
CN101431689B (zh) * 2007-11-05 2012-01-04 华为技术有限公司 生成视频摘要的方法及装置
KR101956373B1 (ko) 2012-11-12 2019-03-08 한국전자통신연구원 요약 정보 생성 방법, 장치 및 서버

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100612874B1 (ko) * 2004-11-22 2006-08-14 삼성전자주식회사 스포츠 동영상의 요약 방법 및 장치
JP2007097047A (ja) * 2005-09-30 2007-04-12 Seiko Epson Corp コンテンツの編集装置、コンテンツの編集方法及びコンテンツの編集プログラム
JP2012010265A (ja) * 2010-06-28 2012-01-12 Nippon Hoso Kyokai <Nhk> 要約映像生成装置及び要約映像生成プログラム

Also Published As

Publication number Publication date
KR20160043865A (ko) 2016-04-22
US9542604B2 (en) 2017-01-10
US20170076155A1 (en) 2017-03-16
CN105516651B (zh) 2020-04-07
US9798934B2 (en) 2017-10-24
US20160104045A1 (en) 2016-04-14
CN105516651A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
KR101994291B1 (ko) 통합써머리를 제공하는 영상재생장치 및 방법
Makino et al. Recurrent neural network transducer for audio-visual speech recognition
CN110300001B (zh) 会议音频控制方法、***、设备及计算机可读存储介质
CN106331893B (zh) 实时字幕显示方法及***
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
KR101990023B1 (ko) 외국어학습을 위한 청크단위 분리 규칙과 핵심어 자동 강세 표시 구현 방법 및 시스템
JP2018106148A (ja) 多重話者音声認識修正システム
JPWO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
CN110853615B (zh) 一种数据处理方法、装置及存储介质
CN111128223A (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
JPWO2008050649A1 (ja) コンテンツ要約システムと方法とプログラム
KR100999655B1 (ko) 디지털 비디오 레코더 시스템 및 그것의 운용방법
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
JP2007088803A (ja) 情報処理装置
EP3671742B1 (en) Methods of and electronic device for identifying a user utterance from a digital audio signal
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
CN116312552B (zh) 一种视频说话人日志方法及***
CN114996506A (zh) 语料生成方法、装置、电子设备和计算机可读存储介质
CN110992984B (zh) 音频处理方法及装置、存储介质
JP4934090B2 (ja) 番組登場人物抽出装置及び番組登場人物抽出プログラム
US10186253B2 (en) Control device for recording system, and recording system
CN112579744A (zh) 一种在线心理咨询中风险控制的方法
CN113099283B (zh) 监控画面和声音同步的方法及相关设备
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
KR100348901B1 (ko) 오디오/영상물의 음향적 장면분할방법

Legal Events

Date Code Title Description
N231 Notification of change of applicant
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant