KR102553511B1 - 비디오를 처리하는 방법, 장치, 전자 기기 및 저장 매체 - Google Patents

비디오를 처리하는 방법, 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR102553511B1
KR102553511B1 KR1020210075480A KR20210075480A KR102553511B1 KR 102553511 B1 KR102553511 B1 KR 102553511B1 KR 1020210075480 A KR1020210075480 A KR 1020210075480A KR 20210075480 A KR20210075480 A KR 20210075480A KR 102553511 B1 KR102553511 B1 KR 102553511B1
Authority
KR
South Korea
Prior art keywords
frames
video
texts
frame
determining
Prior art date
Application number
KR1020210075480A
Other languages
English (en)
Other versions
KR20210081308A (ko
Inventor
후 양
슈 왕
샤오한 쟝
치 왕
즈판 펑
춘광 차이
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210081308A publication Critical patent/KR20210081308A/ko
Application granted granted Critical
Publication of KR102553511B1 publication Critical patent/KR102553511B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4622Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Collating Specific Patterns (AREA)
  • Character Discrimination (AREA)
  • Studio Devices (AREA)

Abstract

본 발명의 실시예는 비디오를 처리하는 방법, 장치, 전자 기기 및 컴퓨터 저장 매체에 관한 것이고, 지식 그래프, 딥 러닝, 이미지 처리 분야에 관한 것이다. 상기 방법에 따르면, 타깃 비디오의 제1 오브젝트가 포함된 복수의 프레임에 기반하여 제1 오브젝트와 관련되는 복수의 제1 식별자를 결정하고, 제1 오브젝트와 관련되는 지식 베이스에 기반하여 복수의 제1 식별자에 연관되는 복수의 속성값을 결정하며, 복수의 프레임에서 한 그룹의 프레임을 결정하고, 한 그룹의 프레임의 각각의 프레임에 의해 결정된 제1 식별자에 연관되는 속성값은 모두 사전 설정값이며, 상기 복수의 프레임에서의 한 그룹의 프레임의 위치에 기반하여 타깃 비디오를 복수의 비디오 세그먼트로 분할함으로써, 비디오 분할에 대한 보다 강한 적응성을 구현할 수 있다.

Description

비디오를 처리하는 방법, 장치, 전자 기기 및 저장 매체{METHOD, DEVICE, ELECTRONIC EQUIPMENT AND STORAGE MEDIUM FOR VIDEO PROCESSING}
본 발명의 실시예는 전반적으로 이미지 처리 분야에 관한 것으로, 구체적으로는 비디오를 처리하는 방법, 장치, 전자 기기 및 컴퓨터 저장 매체에 관한 것이다.
뉴스 비디오 등과 같은 비디오는 일반적으로 복수의 서브 뉴스가 연결되어 이어지며, 사용자는 모든 뉴스가 아닌 그 중의 하나 이상의 뉴스 이벤트에만 대해 관심을 가진다. 기존의 비디오 분할 기술은 주로 수동 편집에 의해 획득되고, 뉴스 항목과 관련되는 텍스트 설명을 이에 매칭시킨 후 푸시하므로 효율이 낮다. 또한 일부 기존의 기술은 시나리오 특징, 음 소거 특징 또는 얼굴 전후 유사도 특징에 의존하여 분할하는데, 이러한 특징은 세심하게 설계되어야 하므로 적응성 및 확장성이 모두 떨어진다.
본 발명은 비디오를 처리하는 방법, 장치, 전자 기기 및 컴퓨터 저장 매체를 제공한다.
본 발명의 제1 측면에 따르면, 비디오를 처리하는 방법을 제공한다. 상기 방법은, 타깃 비디오의 제1 오브젝트가 포함된 복수의 프레임에 기반하여 제1 오브젝트와 관련되는 복수의 제1 식별자를 결정하는 단계; 제1 오브젝트와 관련되는 지식 베이스에 기반하여 복수의 제1 식별자에 연관되는 복수의 속성값을 결정하는 단계; 복수의 프레임에서 한 그룹의 프레임을 결정하되, 한 그룹의 프레임의 각각의 프레임에 의해 결정된 제1 식별자에 연관되는 속성값은 모두 사전 설정값인 단계; 및 상기 복수의 프레임에서의 한 그룹의 프레임의 위치에 기반하여 타깃 비디오를 복수의 비디오 세그먼트로 분할하는 단계; 를 포함한다.
본 발명의 제2 측면에 따르면, 비디오를 처리하는 장치를 제공한다. 상기 장치는, 타깃 비디오의 제1 오브젝트가 포함된 복수의 프레임에 기반하여 제1 오브젝트와 관련되는 복수의 제1 식별자를 결정하도록 구성되는 식별자 결정 모듈; 제1 오브젝트와 관련되는 지식 베이스에 기반하여 복수의 제1 식별자에 연관되는 복수의 속성값을 결정하도록 구성되는 속성값 결정 모듈; 복수의 프레임에서 한 그룹의 프레임을 결정하도록 구성되되, 한 그룹의 프레임의 각각의 프레임에 의해 결정된 제1 식별자에 연관되는 속성값은 모두 사전 설정값인 프레임 결정 모듈; 및 복수의 프레임에서의 한 그룹의 프레임의 위치에 기반하여 타깃 비디오를 복수의 비디오 세그먼트로 분할하도록 구성되는 세그먼트 분할 모듈; 을 포함한다.
본 발명의 제3 측면에 따르면, 전자 기기를 제공한다. 상기 전자 기기는, 적어도 하나의 프로세서; 및 적어도 하나의 프로세서와 통신 연결되는 메모리; 를 포함하고, 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 명령이 적어도 하나의 프로세서에 의해 실행될 경우, 적어도 하나의 프로세서가 제1 측면의 비디오를 처리하는 방법을 수행한다.
본 발명의 제4 측면에 따르면, 컴퓨터 프로그램이 저장된 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하는 바, 상기 컴퓨터 프로그램의 명령이 실행될 경우, 본 발명의 제1 측면의 비디오를 처리하는 방법이 구현된다.
본 발명의 제5 측면에 따르면, 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장매체를 제공하는 바, 상기 컴퓨터 프로그램의 명령이 실행될 경우, 본 발명의 제1 측면의 비디오를 처리하는 방법이 구현된다.
본 발명의 기술에 따르면, 비교적 강한 적응성으로 비디오 분할을 구현할 수 있고, 세심한 설계 특징으로 인한 적응성이 떨어지는 문제를 효과적으로 해결한다.
본 부분에서 설명되는 내용은 본 발명의 실시예의 핵심적이거나 중요한 특징을 식별하기 위한 것이 아니며, 본 발명의 범위를 한정하려는 의도도 아님을 이해해야 한다. 본 발명의 다른 특징은 하기의 명세서에 의해 쉽게 이해될 것이다.
첨부 도면을 결부하고 하기의 자세한 설명을 참조하면, 본 발명의 각 실시예의 상기 특징 및 다른 특징, 장점 및 방면이 더욱 명확해질 것이다. 첨부 도면에서 동일하거나 유사한 도면 표기는 동일하거나 유사한 요소를 나타낸다.
도 1은 본 발명의 실시예에 따른 정보 처리 환경(100)의 개략도이다.
도 2는 본 발명의 실시예에 따른 비디오를 처리하는 방법(200)의 개략도이다.
도 3은 본 발명의 실시예에 따른 타깃 비디오를 복수의 비디오 세그먼트로 분할하는 방법(300)의 개략도이다.
도 4는 본 발명의 실시예에 따른 타깃 비디오를 분할하는 방법(400)의 개략도이다.
도 5는 본 발명의 실시예에 따른 비디오 처리 과정(500)의 개략도이다.
도 6은 본 발명의 실시예에 따른 비디오 프레임(600)의 개략도이다.
도 7은 본 발명의 실시예에 따른 비디오 프레임(700)의 개략도이다.
도 8은 본 발명의 실시예에 따른 비디오를 처리하는 장치(800)의 개략도이다.
도 9는 본 발명의 실시예의 비디오를 처리하는 방법을 구현하는 전자 기기의 블록도이다.
이하, 첨부 도면을 결부하여 본원 발명의 예시적인 실시예들을 설명하고자 하며, 이해를 돕기 위해 본원 발명의 실시예들의 다양한 세부 사항들이 포함되는데, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 본원 발명의 기술 분야의 통상의 지식을 가진 자라면 본원 발명의 범위 및 사상을 벗어나지 않으면서 본 명세서에 설명된 실시예들에 대해 다양한 변경 및 수정이 이루어질 수 있음을 알아야 한다. 또한, 명확성 및 간결성을 위해, 공지된 기능 및 구조에 대한 설명은 아래 설명에서 생략된다.
본 발명에서 사용되는 용어 “포함하다” 및 그 변형은 “포함하나 이에 한정되지 않는다”와 같은 개방적 포함을 나타낸다. 별도로 설명하지 않는 한, 용어 "또는"은 "및/또는"을 나타낸다. 용어 “기반하여”는 “적어도 부분적으로 기반하여”를 나타낸다. 용어 "일 예시적 실시예" 및 “일 실시예”는 “적어도 하나의 예시적 실시예”를 나타낸다. 용어 "다른 실시예"는 "적어도 하나의 다른 실시예"를 나타낸다. 용어 “제1”, “제2” 등은 상이하거나 동일한 오브젝트를 지칭할 수 있다. 아래 설명은 다른 명시적 및 암시적 정의를 더 포함할 수 있다.
상술한 바와 같이, 기존에 수동 방식 편집으로 비디오를 분할할 경우, 전문적인 경험이 있는 편집자일 지라도 대량의 비디오를 정확하게 분할할 수 없고, 시나리오 특징, 음소거 특징 및 얼굴 전후 유사도 특징에 의존하여 분할할 경우, 이러한 특징은 세심하게 설계되어야 하며, 예를 들어 다른 뉴스 미디어 비디오로 변경될 때 직접 사용할 수 없고, 특별한 배합이 필요하므로 이동 가능성 및 확장성이 떨어진다. 이 밖에, 기존의 비디오 분할 및 비디오 의미 이해는 분리되는 경우가 많은바, 비디오 분할 후 엔티티 및 이벤트에 대해 이차적으로 추출을 더 진행해야 하므로, 비디오 제작 및 검색 효율이 낮아진다.
상기 문제 및 다른 잠재적 문제 중 하나 이상을 적어도 부분적으로 해결하기 위해, 본 발명의 예시적 실시예는 비디오를 처리하는 방안을 제공한다. 상기 방안에서, 타깃 비디오의 제1 오브젝트가 포함된 복수의 프레임에 기반하여 제1 오브젝트와 관련되는 복수의 제1 식별자를 결정하고, 제1 오브젝트와 관련되는 지식 베이스에 기반하여 복수의 제1 식별자에 연관되는 복수의 속성값을 결정하며, 복수의 프레임에서 한 그룹의 프레임을 결정하고, 한 그룹의 프레임의 각각의 프레임에 의해 결정된 제1 식별자에 연관되는 속성값은 모두 사전 설정값이며, 상기 복수의 프레임에서의 한 그룹의 프레임의 위치에 기반하여 타깃 비디오를 복수의 비디오 세그먼트로 분할한다.
따라서, 프레임에 포함된 오브젝트의 식별자 및 식별자에 연관되는 속성값을 결정하는 것을 통해, 서로 연관되는 속성값이 사전 설정값의 식별자에 대응되는 한 그룹의 프레임임을 결정할 수 있다. 복수의 프레임에서의 이 그룹의 프레임의 위치에 기반하여 타깃 비디오를 복수의 비디오 세그먼트로 분할한다. 본 방안은 특징을 세심하게 설계할 필요가 없어 적용성이 높고 시스템 마이그레이션(system migration)에 편리하다.
아래 내용에서, 첨부 도면을 결부하여 본 방안의 구체적인 예를 더 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 정보 처리 환경(100)의 예시적 개략도를 도시한다. 정보 처리 환경(100)은 비디오 처리 기기(110), 타깃 비디오(120), 지식 베이스(130) 및 복수의 비디오 세그먼트(140)를 포함할 수 있다.
비디오 처리 기기(110)는 개인 컴퓨터, 서버 컴퓨터, 멀티 프로세서 시스템, 대형 컴퓨터, 상기 시스템 또는 기기 중 어느 하나를 포함하는 분산 컴퓨팅 환경 등을 포함하나 이에 한정되지 않는다. 일부 실시예에서, 비디오 처리 기기(110)는 이미지 처리 유닛(GPU), 필드 프로그램 가능 게이트 어레이(FPGA) 및 전용 집적 회로(ASIC) 등과 같은 전용 처리 유닛 및 중앙 처리 유닛(CPU)과 같은 범용 처리 유닛을 포함하는 하나 또는 복수의 처리 유닛을 포함할 수 있다.
타깃 비디오(120)는 예를 들어 뉴스 콘텐츠가 포함된 비디오를 포함하나 이에 한정되지 않고, 뉴스 콘텐츠는 예를 들어 진행자 머리말 부분 및 뉴스 보도 부분을 포함한다.
지식 베이스(130)는 예를 들어 오브젝트와 관련되는 식별자 및 식별자에 연관되는 속성값을 포함한다. 오브젝트는 예를 들어 사람을 포함하나 이에 한정되지 않는다. 식별자는 예를 들어 사람 이름과 같은 명칭을 포함하나 이에 한정되지 않는다. 속성값은 예를 들어 진행자, 국가 공무원, 운동 선수, 스타 등과 같은 직업을 포함하나 이에 한정되지 않는다. 예를 들어, 지식 베이스(130)는 "장삼(
Figure 112021067143851-pat00001
), 진행자", "이사(李四), 운동 선수", "왕오(王五), 국가 공무원" 등과 같은 데이터를 포함한다.
비디오 처리 기기(110)는 지식 베이스(130)에 접속하여 관련 정보를 획득할 수 있다. 지식 베이스(130)는 비디오 처리 기기(110)의 내부 또는 외부에 위치할 수 있다. 예를 들어, 비디오 처리 기기(110)는 식별자에 기반하여 지식 베이스(130)에서 식별자에 연관되는 속성값을 획득할 수 있다.
비디오 처리 기기(110)는 타깃 비디오(120)의 제1 오브젝트가 포함된 복수의 프레임에 기반하여 제1 오브젝트와 관련되는 복수의 제1 식별자를 결정하고, 제1 오브젝트와 관련되는 지식 베이스(130)에 기반하여 복수의 제1 식별자에 연관되는 복수의 속성값을 결정하며, 복수의 프레임에서 한 그룹의 프레임을 결정하고, 한 그룹의 프레임의 각각의 프레임에 의해 결정된 제1 식별자에 연관되는 속성값은 모두 사전 설정값이며, 상기 복수의 프레임에서의 한 그룹의 프레임의 위치에 기반하여 타깃 비디오를 복수의 비디오 세그먼트(140)로 분할한다.
따라서, 프레임에 포함된 오브젝트의 식별자 및 식별자에 연관되는 속성값을 결정하는 것을 통해, 서로 연관되는 속성값이 사전 설정값의 식별자에 대응되는 한 그룹의 프레임임을 결정할 수 있다. 복수의 프레임에서의 이 그룹의 프레임의 위치에 기반하여 타깃 비디오를 복수의 비디오 세그먼트로 분할한다. 본 방안은 특징을 세심하게 설계할 필요가 없어 적용성이 높고 시스템 마이그레이션에 편리하다.
도 2는 본 발명의 실시예에 따른 정보를 처리하는 방법(200)의 예시적 흐름도를 도시한다. 예를 들어, 방법(200)은 도 1에 도시된 비디오 처리 기기(100)에 의해 수행될 수 있다. 이해해야 할 것은, 방법(200)은 도시되지 않은 추가 단계를 포함 및/또는 도시된 단계를 생략할 수도 있으며, 본 발명의 범위는 이 방면에서 한정을 받지 않는다.
단계(202)에서, 비디오 처리 기기(110)는 타깃 비디오(120)의 제1 오브젝트가 포함된 복수의 프레임에 기반하여 제1 오브젝트와 관련되는 복수의 제1 식별자를 결정한다.
타깃 비디오(120)에 관해, 예를 들어 뉴스 콘텐츠가 포함된 비디오를 포함하나 이에 한정되지 않고, 뉴스 콘텐츠는 예를 들어 진행자 머리말 부분 및 뉴스 보도 부분을 포함한다. 제1 오브젝트는 예를 들어 사람을 포함하나 이에 한정되지 않는다. 제1 식별자는 예를 들어 명칭을 포함하나 이에 한정되지 않는다. 예를 들어, 도 6에 도시된 바와 같이, 프레임(600)에 진행자(610)가 포함되면, 상기 진행자(610)의 명칭을 결정할 수 있는 바, 예를 들어 이삼(李三)이다. 예를 들어 신경망 모델을 사용하여 식별자를 결정할 수 있다.
일부 실시예에서, 복수의 제1 식별자의 각각의 식별자의 신뢰도는 모두 임계값 신뢰도를 초과한다. 예를 들어, 지식 베이스(130)를 이용하여 식별자를 조정 검증함으로써, 신뢰도가 임계값 신뢰도를 초과하는 식별자를 결정할 수 있고, 신뢰도가 임계값 신뢰도를 초과하지 않는 식별자의 경우, 지식 베이스(130)에 기반하여 상기 식별자를 교정할 수 있다. 따라서, 신뢰도가 높은 식별자를 획득할 수 있어 후속되는 처리의 정확성을 향상시킨다.
대안적으로 또는 부가적으로, 일부 실시예에서, 비디오 처리 기기(110)는 타깃 비디오의 사전 결정 간격의 프레임에 대해 안면 인식을 진행하여 제1 오브젝트가 포함된 복수의 프레임을 얻을 수 있다. 사전 결정 간격은 매 5프레임마다, 매 10프레임마다 등과 같은 사전 결정 프레임 간격을 포함한다. 또한, 사전 결정 간격은 매 1초마다, 매 0.5초마다 등과 같은 사전 결정 시간 간격을 더 포함할 수도 있다. 다음, 비디오 처리 기기(110)는 복수의 프레임에 기반하여 제1 오브젝트와 관련되는 복수의 제1 식별자를 결정할 수 있다. 따라서, 안면 인식을 통해 제1 오브젝트가 포함된 복수의 프레임을 더욱 정확하게 선별하므로, 식별자를 결정하기 편리하다.
단계(204)에서, 비디오 처리 기기(110)는 제1 오브젝트와 관련되는 지식 베이스(130)에 기반하여 복수의 제1 식별자에 연관되는 복수의 속성값을 결정한다.
지식 베이스(130)에 관해, 예를 들어 제1 오브젝트와 관련되는 식별자 및 식별자에 연관되는 속성값을 포함한다. 속성값은 예를 들어 진행자, 정치인, 스타 등과 같은 구체적인 직업을 포함하나 이에 한정되지 않는다. 지식 베이스에서 이삼(李三)과 같은 식별자를 검색하여 진행자와 같은, 식별자에 연관되는 속성값을 획득할 수 있다.
단계(206)에서, 비디오 처리 기기(110)는 복수의 프레임에서 한 그룹의 프레임을 결정하고, 한 그룹의 프레임의 각각의 프레임에 의해 결정된 제1 식별자에 연관되는 속성값은 모두 사전 설정값이다. 사전 설정값은 특정된 속성을 지시할 수 있는 바, 예를 들어 진행자, 기자 등 특정된 직업을 지시한다.
단계(208)에서, 비디오 처리 기기(110)는 복수의 프레임에서의 한 그룹의 프레임의 위치에 기반하여 타깃 비디오를 복수의 비디오 세그먼트로 분할한다. 예를 들어, 복수의 프레임에서의 한 그룹의 프레임의 위치 연속성에 기반하여 타깃 비디오를 복수의 비디오 세그먼트로 분할한다. 아래에서는 도 3을 결부하여 상세히 설명하기로 한다.
따라서, 프레임에 포함된 오브젝트의 식별자 및 식별자에 연관되는 속성값을 결정하는 것을 통해, 서로 연관되는 속성값이 사전 설정값의 식별자에 대응되는 한 그룹의 프레임임을 결정할 수 있다. 복수의 프레임에서의 이 그룹의 프레임의 위치에 기반하여 타깃 비디오를 복수의 비디오 세그먼트로 분할한다. 본 방안은 특징을 세심하게 설계할 필요가 없고, 적용성이 높으며, 시스템 마이그레이션에 편리하다.
도 3은 본 발명의 실시예에 따른 타깃 비디오를 복수의 비디오 세그먼트로 분할하는 방법(300)의 예시적 흐름도를 도시한다. 예를 들어, 방법(300)은 도 1에 도시된 비디오 처리 기기(110)에 의해 수행될 수 있다. 이해해야 할 것은, 방법(300)은 도시되지 않은 추가 단계를 포함 및/또는 도시된 단계를 생략할 수도 있으며, 본 발명의 범위는 이 방면에서 한정을 받지 않는다.
단계(302)에서, 비디오 처리 기기(110)는 복수의 프레임에서의 한 그룹의 프레임의 위치에 기반하여 복수의 프레임 내에서의 한 그룹의 프레임의 번호를 결정한다.
예를 들어, 복수의 프레임이 타깃 비디오 중 제1 프레임, 제5 프레임, 제10 프레임, 제15 프레임, 제20 프레임이고, 한 그룹의 프레임이 제1 프레임, 제5 프레임, 제15 프레임 및 제20 프레임이면, 복수의 프레임 내에서의 한 그룹의 프레임의 번호는 1, 2, 4 및 5일 수 있다.
단계(304)에서, 비디오 처리 기기(110)는 번호의 연속 번호를 결정한다. 예를 들어, 비디오 중 제1 프레임, 제5 프레임, 제10 프레임, 제15 프레임 제20 프레임에 있어서, 제1 프레임, 제5 프레임, 제15 프레임 및 제20 프레임이 그 중에서의 번호가 1, 2, 4 및 5일 경우, 비디오 처리 기기(110)는 번호 1, 2, 4 및 5 중 1과 2가 연속 번호임을 결정할 수 있고, 4와 5도 연속 번호이다.
단계(306)에서, 비디오 처리 기기(110)는 연속 번호의 시작 번호에 대응되는 프레임에 기반하여 타깃 비디오를 분할한다. 이전 시작 번호에 대응되는 프레임부터 다음 시작 번호에 대응되는 프레임 이전의 프레임까지를 하나의 비디오 세그먼트로 분할할 수 있다.
예를 들어, 연속 번호 1 및 2에서 시작 번호는 1이고, 시작 번호에 대응되는 프레임은 제1 프레임이다. 연속 번호 4 및 5에서 시작 번호는 4이지만, 시작 번호에 대응되는 프레임은 제15프레임이다. 이 경우, 비디오 처리 기기(110)는 제1 프레임 및 제15 프레임에 따라 타깃 비디오를 분할할 수 있고, 예를 들어 제1 프레임부터 제14 프레임까지를 하나의 비디오 세그먼트로 분할하며, 제15 프레임부터 마지막 프레임까지를 다른 하나의 비디오 세그먼트로 분할한다. 상기 내용은 예시일 뿐 한정하기 위함이 아니며, 복수의 프레임, 한 그룹의 프레임, 번호, 연속 번호, 시작 번호 및 시작 번호에 대응되는 프레임은 모두 다른 적절한 상황일 수 있음을 이해해야 한다.
따라서, 복수의 프레임에서의 한 그룹의 프레임의 번호 연속성을 통해, 간단하고 고효율적인 방식으로 타깃 비디오를 분할할 수 있어 처리 효율을 향상시킨다.
도 4는 본 발명의 실시예에 따른 타깃 비디오를 분할하는 방법(400)의 예시적 흐름도를 도시한다. 예를 들어, 방법(400)은 도 1에 도시된 비디오 처리 기기(110)에 의해 수행될 수 있다. 이해해야 할 것은, 방법(400)은 도시되지 않은 추가 단계를 포함 및/또는 도시된 단계를 생략할 수도 있으며, 본 발명의 범위는 이 방면에서 한정을 받지 않는다.
단계(402)에서, 비디오 처리 기기(110)는 연속 번호의 종료 번호를 결정한다. 여기서 계속하여 도 3의 실시예에 사용된 예를 결부하기로 하는 바, 그 중 연속 번호 1과 2에서 종료 번호는 2이다. 연속 번호 4와 5에서 종료 번호는 5이다.
단계(404)에서, 비디오 처리 기기(110)는 종료 번호에 대응되는 프레임 및 시작 번호에 대응되는 프레임에 기반하여 타깃 비디오의 하나의 비디오 세그먼트의 제1 비디오 서브 세그먼트 및 제2 비디오 서브 세그먼트를 결정한다. 시작 번호에 대응되는 프레임부터 종료 번호에 대응되는 프레임까지를 제1 비디오 서브 세그먼트로 분할하고, 종료 번호에 대응되는 프레임 이후의 프레임부터 비디오 세그먼트의 마지막 프레임까지를 제2 비디오 서브 세그먼트로 분할할 수 있다.
예를 들어, 시작 번호가 1이면, 시작 번호에 대응되는 프레임은 제1 프레임이다. 시작 번호가 4이면, 시작 번호에 대응되는 프레임은 제15 프레임이다. 종료 번호가 2이면, 종료 번호에 대응되는 프레임은 제5 프레임이다. 종료 번호가 5이면, 종료 번호에 대응되는 프레임은 제20 프레임이다. 예를 들어 타깃 비디오의 하나의 비디오 세그먼트가 제1 프레임부터 제14 프레임까지이면, 상기 비디오 세그먼트의 제1 비디오 서브 세그먼트는 제1 프레임부터 제5 프레임까지이고, 제2 비디오 서브 세그먼트는 제6 프레임부터 제14 프레임까지이다.
따라서, 복수의 프레임에서의 한 그룹의 프레임의 번호 연속성에 기반하여 하나의 비디오 세그먼트를 두 개의 비디오 서브 세그먼트로 분할할 수 있으므로, 간단하고 고효율적이다.
대안적으로 또는 부가적으로, 일부 실시예에서, 비디오 처리 기기(110)는 복수의 프레임에서 복수의 제1 텍스트를 획득할 수도 있다. 예를 들어, 비디오 처리 기기(110)는 광학 문자 인식(OCR) 기술을 이용하여 복수의 프레임에서 복수의 제1 텍스트를 획득할 수 있다. 도 6에 도시된 바와 같이, 프레임에는 텍스트가 표시될 수 있고, 예를 들어 텍스트(620)는 현재 프레임과 관련되는 콘텐츠를 표시할 수 있으며, 텍스트(630)는 자막 뉴스와 같은 현재 프레임과 무관한 콘텐츠를 표시할 수 있다. 일부 실시예에서, 복수의 제1 텍스트의 각각의 제1 텍스트의 신뢰도는 모두 임계값 신뢰도를 초과한다. 예를 들어, 지식 베이스에 기반하여 복수의 제1 텍스트를 교정함으로써, 신뢰도가 임계값 신뢰도를 초과하는 제1 텍스트를 결정할 수 있고, 신뢰도가 임계값 신뢰도를 초과하지 않는 제1 텍스트의 경우, 지식 베이스에 기반하여 이를 교정할 수 있다. 따라서, 제1 텍스트의 신뢰도를 향상시킬 수 있어 후속되는 처리의 정확성을 향상시키기 편리하다.
복수의 제1 텍스트를 획득한 후, 비디오 처리 기기(110)는 복수의 제1 텍스트에서 복수의 제1 엔티티를 획득할 수 있다. 예를 들어, 비디오 처리 기기(110)는 엔티티 추출 모델을 이용하여 복수의 제1 텍스트에서 복수의 제1 엔티티를 획득할 수 있다. 제1 엔티티는 사람 이름, 지명, 기관명 등과 같은 것을 포함할 수 있으나 이에 한정되지 않는다. 도 7에 도시된 바와 같이, 상기 프레임에서 획득된 제1 텍스트(730)가 "왕오(王五)가 이사(李四)를 만난다"라는 것과 같은 콘텐츠를 포함하면, 획득된 제1 엔티티는 "왕오" 및 "이사" 이 두 사람의 이름을 포함할 수 있다. 일부 실시예에서, 복수의 제1 엔티티의 각각의 제1 엔티티의 신뢰도는 모두 임계값 신뢰도를 초과한다. 예를 들어, 지식 베이스 및/또는 복수의 제1 식별자에 기반하여 복수의 제1 엔티티를 교정함으로써 신뢰도가 임계값 신뢰도를 초과하는 제1 엔티티를 결정할 수 있고, 신뢰도가 임계값 신뢰도를 초과하지 않는 제1 엔티티의 경우, 지식 베이스 및/또는 복수의 제1 식별자에 기반하여 이를 교정할 수 있다. 따라서, 제1 엔티티의 신뢰도를 향상시킬 수 있어 후속되는 처리의 정확성을 향상시키기 편리하다.
복수의 제1 엔티티를 획득한 후, 비디오 처리 기기(110)는 복수의 제1 텍스트 및 복수의 제1 엔티티에 기반하여 복수의 비디오 세그먼트에 연관되는 복수의 이벤트를 결정할 수 있다. 예를 들어, 제1 텍스트 및 프레임의 대응 관계에 따라 제1 텍스트를 비디오 세그먼트에 대응시킬 수 있다. 다음, 이벤트 추출 모델을 통해 비디오 세그먼트에 대응되는 제1 텍스트 및 제1 엔티티에 기반하여 비디오 세그먼트에 연관되는 이벤트를 추출할 수 있다. 또한, 뉴스 이벤트 그래프와 같은 이벤트에 연관되는 데이터베이스를 이용하여 이벤트를 조정 검증할 수도 있다.
따라서, 비디오 분할 과정에 비디오 의미 이해를 구현할 수 있고, 이벤트와 비디오 세그먼트의 연관을 구현함으로써 비디오 분할에서 비디오 의미 이해로의 자동화 흐름 프레임을 구현하여 뉴스 분야와 같은 비디오의 제작 및 배포를 고효율적으로 지원한다.
대안적으로 또는 부가적으로, 일부 실시예에서, 비디오 처리 기기(110)는 우선 복수의 프레임에서 복수의 초기 텍스트를 획득할 수 있다. 다음, 비디오 처리 기기(110)는 복수의 초기 텍스트에서 복수의 프레임과 무관한 콘텐츠를 제거하여 복수의 제1 텍스트를 얻을 수 있다. 따라서 텍스트 중 무관 콘텐츠를 제거할 수 있어 처리 효율 및 정확성을 향상시킨다.
대안적으로 또는 부가적으로, 일부 실시예에서, 비디오 처리 기기(110)는 초기 텍스트의 콘텐츠의 글자체 크기에 기반하여 복수의 프레임과 무관한 콘텐츠를 결정할 수 있다. 예를 들어, 글자체 크기가 임계값 글자체 크기보다 작은 콘텐츠를 복수의 프레임과 무관한 콘텐츠로 결정할 수 있다. 예를 들어, 뉴스 화면에 관한 프레임에서의 비교적 작은 글자체의 콘텐츠는 일반적으로 자막 뉴스를 표시하는 바, 현재 프레임의 콘텐츠와 무관하다. 다른 일부 실시예에서, 비디오 처리 기기(110)는 대응되는 프레임에서의 초기 텍스트의 콘텐츠의 위치에 기반하여 복수의 프레임과 무관한 콘텐츠를 결정할 수 있다. 예를 들어, 대응되는 프레임의 바닥 위치에 위치하는 콘텐츠를 복수의 프레임과 무관한 콘텐츠로 결정할 수 있다. 도 6에 도시된 바와 같이, 대응되는 프레임의 바닥 위치에 위치한 콘텐츠(630)는 일반적으로 자막 정보를 표시하는 바, 현재 프레임의 콘텐츠와 무관한다. 또한, 일부 실시예에서, 비디오 처리 기기(110)는 초기 텍스트의 콘텐츠의 글자체 크기 및 대응되는 프레임에서의 콘텐츠의 위치에 기반하여 복수의 프레임과 무관한 콘텐츠를 결정할 수 있다. 예를 들어, 전술한 두 가지 방식을 결부하여 복수의 프레임과 무관한 콘텐츠를 결정할 수 있으며, 여기서 더이상 설명하지 않는다.
따라서, 콘텐츠의 글자체 크기 및 프레임에서의 위치에 기반하여 복수의 프레임과 무관한 콘텐츠를 정확하게 결정할 수 있다.
대안적으로 또는 부가적으로, 일부 실시예에서, 비디오 처리 기기(110)는 타깃 비디오의 복수의 프레임에 대응되는 오디오에 기반하여 복수의 제2 텍스트를 결정할 수도 있다. 예를 들어, 음성 인식 기술을 이용하여 타깃 비디오의 복수의 프레임에 대응되는 오디오를 복수의 제2 텍스트로 전환시킬 수 있다. 다음, 비디오 처리 기기(110)는 복수의 제2 텍스트에서 복수의 제2 엔티티를 획득할 수 있다. 예를 들어, 엔티티 추출 모델을 이용하여 복수의 제2 텍스트에서 제2 엔티티를 획득할 수 있다. 이어서, 비디오 처리 기기(110)는 복수의 제1 텍스트, 복수의 제1 엔티티, 복수의 제2 텍스트 및 복수의 제2 엔티티에 기반하여 복수의 비디오 세그먼트에 연관되는 복수의 이벤트를 결정할 수 있다. 이벤트를 결정하는 구체적인 과정은 전술한 내용을 참조할 수 있으므로 여기서 더이상 설명하지 않는다.
따라서, 프레임에서 획득된 텍스트를 이용하는 기초상에서, 프레임에 대응되는 오디오로부터 전환된 텍스트를 더 이용하여 이벤트를 결정할 수 있으므로, 이벤트 결정이 다차원 데이터에 기반할 수 있도록 하여 정확성을 향상시킨다.
아래에서는 도 5를 결부하여 본 발명의 실시예에 따른 비디오 처리 과정(500)을 설명하기로 하고, 상기 과정에는 비디오 분할 및 이벤트 결정 등이 포함된다. 도 5에 도시된 바와 같이, 단계502에서, 비디오 처리 기기(110)는 타깃 비디오를 획득한다. 다음, 단계504에서, 비디오 처리 기기(110)는 타깃 비디오에서 사전 결정 간격의 프레임을 획득한다. 다음, 단계506에서, 비디오 처리 기기(110)는 프레임에 대해 OCR 처리를 진행하여 텍스트를 얻는다. 단계506에서 텍스트를 얻은 후, 단계510에서 지식 베이스(520)에 기반하여 텍스트를 조정 검증할 수 있는 바, 예를 들어, 신뢰도가 임계값보다 높은 텍스트를 얻는다. 단계508에서, 비디오 처리 기기(110)는 프레임에 대해 안면 인식을 진행하여 제1 오브젝트와 관련되는 식별자를 얻는다. 단계508에서 제1 오브젝트와 관련되는 식별자를 얻은 후, 단계512에서 지식 베이스에 기반하여 진행자와 같은 식별자에 연관되는 속성값을 획득한다.
다음, 단계514에서, 비디오 분할을 진행하여 비디오 세그먼트를 얻을 수 있다. 다양한 방식을 통해 비디오를 분할할 수 있다. 예를 들어, 진행자가 연속적으로 나타난 프레임을 머리말 부분으로 결정하고, 머리말 부분 종료부터 진행자가 다음번에 나타나는 프레임까지를 보도 부분으로 결정할 수 있다. 단계516에서, 비디오 처리 기기(110)는 비디오 세그먼트에 따라 프레임에서 얻은 텍스트에 대해 엔티티 추출을 진행한다. 단계518에서, 비디오 처리 기기(110)는 얻은 텍스트 및 엔티티에 기반하고 이벤트 그래프를 결부하여 비디오 세그먼트에 연관되는 이벤트를 결정한다. 예를 들어, 도 7을 참조하면, 비디오 세그먼트에 왕오(710)가 이사(720)를 만나는 화면 및 왕오가 이사를 만나는 텍스트(730)가 포함될 경우, 상기 비디오 세그먼트에서 이에 연관되는 이벤트가 왕오가 이사를 만나는 것으로 결정할 수 있다.
따라서, 비디오 분할 과정에 비디오 의미 이해를 구현할 수 있고, 이벤트와 비디오 클럽의 연관을 구현함으로써, 비디오 분할에서 비디오 의미 이해로의 자동화 흐름 프레임을 구현하여 뉴스 분야와 같은 비디오의 제작 및 배포를 고효율적으로 지원한다.
도 8은 본 발명의 실시예에 따른 비디오를 처리하는 장치(800)의 예시적 블록도를 도시한다. 도8에 도시된 바와 같이, 장치(800)는, 타깃 비디오의 제1 오브젝트가 포함된 복수의 프레임에 기반하여 제1 오브젝트와 관련되는 복수의 제1 식별자를 결정하도록 구성되는 식별자 결정 모듈(801); 제1 오브젝트와 관련되는 지식 베이스에 기반하여 복수의 제1 식별자에 연관되는 복수의 속성값을 결정하도록 구성되는 속성값 결정 모듈(802); 복수의 프레임에서 한 그룹의 프레임을 결정하도록 구성되되, 한 그룹의 프레임의 각각의 프레임에 의해 결정된 제1 식별자에 연관되는 속성값은 모두 사전 설정값인 프레임 결정 모듈(803); 및 복수의 프레임에서의 한 그룹의 프레임의 위치에 기반하여 타깃 비디오를 복수의 비디오 세그먼트로 분할하도록 구성되는 세그먼트 분할 모듈(804); 을 포함한다.
대안적으로 또는 부가적으로, 일부 실시예에서, 세그먼트 분할 모듈(804)은, 복수의 프레임에서의 한 그룹의 프레임의 위치에 기반하여 복수의 프레임 내에서의 한 그룹의 프레임의 번호를 결정하도록 구성되는 번호 결정 모듈; 번호의 연속 번호를 결정하도록 구성되는 연속 번호 결정 모듈; 및 연속 번호의 시작 번호에 대응되는 프레임에 기반하여 타깃 비디오를 분할하도록 구성되는 분할 모듈을 포함한다.
대안적으로 또는 부가적으로, 일부 실시예에서, 분할 모듈은, 연속 번호의 종료 번호를 결정하도록 구성되는 종료 번호 결정 모듈; 및 종료 번호에 대응되는 프레임 및 시작 번호에 대응되는 프레임에 기반하여 타깃 비디오의 하나의 비디오 세그먼트의 제1 비디오 서브 세그먼트 및 제2 비디오 서브 세그먼트를 결정하도록 구성되는 서브 세그먼트 결정 모듈을 포함한다. 일부 실시예에서, 복수의 제1 식별자의 각각의 식별자의 신뢰도는 모두 임계값 신뢰도를 초과한다.
대안적으로 또는 부가적으로, 일부 실시예에서, 식별자 결정 모듈(801)은, 타깃 비디오의 사전 결정 간격의 프레임에 대해 안면 인식을 진행하여 복수의 프레임을 얻도록 구성되는 안면 인식 모듈; 및 복수의 프레임에 기반하여 복수의 제1 식별자를 결정하도록 구성되는 결정 모듈; 을 포함한다.
대안적으로 또는 부가적으로, 일부 실시예에서, 장치(800)는, 복수의 프레임에서 복수의 제1 텍스트를 획득하도록 구성되는 제1 텍스트 획득 모듈; 복수의 제1 텍스트에서 복수의 제1 엔티티를 획득하도록 구성되는 제1 엔티티 획득 모듈; 및 복수의 제1 텍스트 및 복수의 제1 엔티티에 기반하여 복수의 비디오 세그먼트에 연관되는 복수의 이벤트를 결정하도록 구성되는 이벤트 결정 모듈; 을 더 포함한다. 일부 실시예에서, 복수의 제1 텍스트의 각각의 제1 텍스트의 신뢰도는 모두 임계값 신뢰도를 초과한다.
대안적으로 또는 부가적으로, 일부 실시예에서, 제1 텍스트 획득 모듈은, 복수의 프레임에서 복수의 초기 텍스트를 획득하도록 구성되는 초기 텍스트 획득 모듈; 및 복수의 초기 텍스트에서 복수의 프레임과 무관한 콘텐츠를 제거하여 복수의 제1 텍스트를 얻도록 구성되는 무관 콘텐츠 제거 모듈; 을 포함한다.
대안적으로 또는 부가적으로, 일부 실시예에서, 무관 콘텐츠 제거 모듈은, 초기 텍스트의 콘텐츠의 글자체 크기 및 대응되는 프레임에서의 콘텐츠의 위치 중 적어도 하나에 기반하여 복수의 프레임과 무관한 콘텐츠를 결정하도록 구성되는 무관 콘텐츠 결정 모듈을 포함한다. 일부 실시예에서, 복수의 제1 엔티티의 각각의 제1 엔티티의 신뢰도는 모두 임계값 신뢰도를 초과한다.
대안적으로 또는 부가적으로, 일부 실시예에서, 이벤트 결정 모듈은, 타깃 비디오의 복수의 프레임에 대응되는 오디오에 기반하여 복수의 제2 텍스트를 결정하도록 구성되는 제2 텍스트 결정 모듈; 복수의 제2 텍스트에서 복수의 제2 엔티티를 획득하도록 구성되는 제2 엔티티 획득 모듈; 및 복수의 제1 텍스트, 복수의 제1 엔티티, 복수의 제2 텍스트 및 복수의 제2 엔티티에 기반하여 복수의 비디오 세그먼트에 연관되는 복수의 이벤트를 결정하도록 구성되는 결정 모듈; 을 포함한다.
본 출원의 실시예에 따르면, 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램의 명령이 실행될 경우, 본 출원의 임의의 실시예의 비디오를 처리하는 방법이 수행된다.
도 9는 본 발명의 실시예를 구현할 수 있는 예시 기기(900)의 예시적 블록도를 도시한다. 예를 들어, 도 1에 도시된 비디오 처리 기기(110)는 기기(900)에 의해 구현될 수 있다. 도시된 바와 같이, 기기(900)는 판독 전용 메모리(ROM)(902)에 저장된 컴퓨터 프로그램 명령 또는 저장 유닛(908)으로부터 랜덤 액세스 메모리(RAM)(903)에 로딩된 컴퓨터 프로그램 명령에 따라, 다양하고 적절한 동작 및 처리를 수행할 수 있는 중앙 처리 유닛(901)을 포함한다. RAM(903)에는 기기(900)의 동작에 필요한 다양한 프로그램 및 데이터가 더 저장될 수 있다. CPU(901), ROM(902) 및 RAM(903)은 버스(904)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(905)도 버스(904)에 연결된다.
기기(900)의 복수의 부재는 I/O 인터페이스(905)에 연결되고, 키보드, 마우스, 마이크 등과 같은 입력 유닛(906); 다양한 유형의 표시 장치, 스피커 등과 같은 출력 유닛(907); 자기 디스크, 광 디스크 등과 같은 저장 유닛(908); 및 네트워크 카드, 모뎀, 무선 통신 송수신기 등과 같은 통신 유닛(909)을 포함한다. 통신 유닛(909)은 기기(900)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 전기 통신 네트워크를 통해 다른 기기와 정보/데이터를 교환하도록 허용한다.
상기 내용에서 설명된 방법(200~500)과 같은 각 과정 및 처리는 처리 유닛(901)에 의해 수행될 수 있다. 예를 들어, 일부 실시예에서, 방법(200~500)은 저장 유닛(908)과 같은 기계 판독 가능 저장 매체에 명확하게 포함되는 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(902) 및/또는 통신 유닛(909)에 의해 로딩 및/또는 기기(900)에 설치될 수 있다. 컴퓨터 프로그램이 RAM (903)에 로딩되고 CPU (901)에 의해 실행될 때, 상기 내용에서 설명된 방법(200~500)의 하나 또는 복수의 동작을 수행할 수 있다.
본 발명은 방법, 장치, 시스템, 전자 기기, 컴퓨터 판독 가능 저장 매체 및/또는 컴퓨터 프로그램 제품에 관한 것이다. 컴퓨터 프로그램 제품은 본 발명의 각 방면을 수행하는 컴퓨터 판독 가능 프로그램 명령을 포함할 수 있다.
컴퓨터 판독 가능 저장 매체는 명령 실행 기기에 의해 사용되는 명령이 유지되고 저장되는 유형의 기기일 수 있다. 컴퓨터 판독 가능 저장 매체는 전기 저장 기기, 자기 저장 기기, 광 저장 기기, 전자기 저장 기기, 반도체 저장 기기 또는 상기 임의의 적절한 조합일 수 있으나 이에 한정되지 않는다. 컴퓨터 판독 가능 저장 매체의 더욱 구체적인 예(비 완전한 리스트)는, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 정적 랜덤 액세스 메모리(SRAM), 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 디지털 다기능 디스크(DVD), 메모리 스틱, 플로피 디스크, 기계 코딩 기기, 명령이 저장된 펀치 카드 또는 요홈 내부 돌기 구조, 및 상기 임의의 적절한 조합을 포함한다. 여기서 사용되는 컴퓨터 판독 가능 저장 매체는 무선 전기파 또는 다른 자유롭게 전파되는 전자기파, 도파관 또는 다른 전송 매체를 통해 전파되는 전자기파(예를 들어, 광섬유 케이블의 광 펄스), 또는 전기선을 통해 전송되는 전기 신호와 같은 순시(instantaneous) 신호 자체로 해석되지 않는다.
여기에서 설명된 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 저장 매체에서 각 컴퓨팅/처리 기기로 다운로드 되거나, 또는 인터넷, LAN, WLAN 및/또는 무선 인터넷과 같은 네트워크를 통해 외부 컴퓨터 또는 외부 저장 기기에 다운로드 될 수 있다. 네트워크는 구리 전송 케이블, 광섬유 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및/또는 에지 서버를 포함할 수 있다. 각 컴퓨팅/처리 기기의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크로부터 컴퓨터 판독 가능 프로그램 명령을 수신하고, 상기 컴퓨터 판독 가능 프로그램 명령을 전달하여 각 컴퓨팅/처리 기기의 컴퓨터 판독 가능 저장 매체에 저장되도록 한다.
본 발명의 동작을 수행하기 위한 컴퓨터 프로그램 명령은 어셈블리 명령, 명령 세트 아키텍처(ISA) 명령, 기계 명령, 기계 관련 명령, 마이크로 코드, 펌웨어 명령, 상태 설정 데이터, 또는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 타깃 코드일 수 있고, 상기 프로그래밍 언어는 Smalltalk, C++ 등을 비롯한 오브젝트 지향 프로그래밍 언어와 "C" 언어 또는 유사한 프로그래밍 언어를 비롯한 기존 절차적 프로그래밍 언어를 포함한다. 컴퓨터 판독 가능 프로그램 명령은 완전히 사용자의 컴퓨터에서 실행되거나, 부분적으로 사용자의 컴퓨터에서 실행되거나, 독립형 소프트웨어 패키지로서 실행되거나, 일부는 사용자의 컴퓨터에서 실행되고 일부는 원격 컴퓨터에서 실행되거나, 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터의 경우, 원격 컴퓨터는 LAN 또는 WAN을 포함한 임의의 종류의 네트워크를 통해 사용자의 컴퓨터에 연결될 수 있거나, 또는 외부 컴퓨터에 연결될 수 있다(예를 들어, 인터넷 서비스 제공 업체를 이용하여 인터넷을 통해 연결). 일부 실시예에서, 컴퓨터 판독 가능 프로그램 명령의 상태 정보를 이용하여 프로그램 가능 논리 회로, 필드 프로그램 가능 게이트 어레이(FPGA) 또는 프로그램 가능 논리 어레이(PLA)와 같은 전자 회로를 개성화 맞춤하고, 상기 전자 화로는 컴퓨터 판독 가능 프로그램 명령을 실행함으로써, 본 발명의 각 방면을 구현할 수 있다.
여기서 본 발명은 본 발명의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하여 본 발명의 여러 방면을 설명하였다. 흐름도 및/또는 블록도의 각 단계 및 흐름도 및/또는 블록도의 각 단계의 결합은 모두 컴퓨터 판독 가능 프로그램 명령에 의해 구현되는 것을 이해해야 한다.
이러한 컴퓨터 판독 가능 프로그램 명령은 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그램 가능 데이터 처리 장치의 처리 유닛에 제공됨으로써, 이러한 명령이 컴퓨터 또는 다른 프로그램 가능 데이터 처리 장치의 처리 유닛에 의해 실행될 경우, 흐름도 및/또는 블록도의 하나 또는 복수의 단계 중 지정된 기능/동작을 구현하는 장치를 생성하도록 하는 하나의 기계를 생산할 수 있다. 또한, 이러한 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 저장 매체에 저장되어 컴퓨터, 프로그램 가능 데이터 처리 장치 및/또는 다른 기기가 특정된 방식으로 작업하도록 함으로써, 명령이 저장된 컴퓨터 판독 가능 저장 매체가 흐름도 및/또는 블록도의 하나 또는 복수의 단계 중 지정된 기능/동작을 구현하는 명령을 포함하는 하나의 제조품을 포함한다.
또한 컴퓨터 판독 가능 프로그램 명령을 컴퓨터, 다른 프로그램 가능 데이터 처리 장치 또는 다른 기기에 로딩시켜 컴퓨터, 다른 프로그램 가능 데이터 처리 장치 또는 다른 기기에서 컴퓨터가 구현되는 과정을 생성하기 위한 일련의 동작 단계를 수행하도록 함으로써, 컴퓨터, 다른 프로그램 가능 데이터 처리 장치, 또는 다른 기기에서 실행되는 명령이 흐름도 및/또는 블록도의 하나 또는 복수의 단계 중 지정된 기능/동작을 구현하도록 한다.
첨부 도면의 흐름도 및 블록도는 본 발명의 복수의 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 아키텍처, 기능 및 동작을 도시한다. 이 점에서, 흐름도 또는 블록도의 각 단계는 지정된 논리적 기능을 구현하기 위한 하나 또는 복수의 실행 가능한 명령을 포함하는 모듈, 프로그램 세그먼트 또는 코드의 일부를 나타낼 수 있다. 일부 대안적인 구현에서, 단계에 표기된 기능은 도면에 도시된 것과 다른 순서로 구현될 수도 있음에 유의해야 한다. 예를 들어, 2개의 연속적인 단계는 실제 기본적으로 병렬되게 실행될 수 있고, 관련 기능에 따라 때때로 역순으로 실행될 수도 있다. 또한, 블록도 및/또는 흐름도의 각 단계, 및 블록도 및/또는 흐름도에서의 단계의 조합은 지정된 기능 또는 동작을 수행하는 전용 하드웨어 기반 시스템에 의해 구현될 수 있거나 전용 하드웨어와 컴퓨터 명령어를 조합에 의해 구현할 수도 있음에 유의해야 한다.
이상, 본 발명의 각 실시예를 설명하였으나 상기 설명은 전체적이 아닌 예시적인 것으로, 개시된 각 실시예에 한정되지 않는다. 본 기술분야의 통상의 지식을 가진 자에게 있어서 설명된 각 실시예의 범위 및 사상을 벗어나지 않는 많은 수정 및 변경은 자명한 것이다. 본 명세서에서 사용된 용어의 선택은 각 실시예의 원리, 실제 응용 또는 시장의 기술에 대한 기술 개선을 가장 잘 해석하거나, 또는 본 기술분야의 다른 통상의 지식을 가진 자가 본 명세서에 개시된 각 실시예를 이해할 수 있도록 하기 위한 것이다.

Claims (25)

  1. 비디오를 처리하는 방법에 있어서,
    타깃 비디오의 제1 오브젝트가 포함된 복수의 프레임에 기반하여 상기 제1 오브젝트와 관련되는 복수의 제1 식별자를 결정하는 단계;
    상기 제1 오브젝트와 관련되는 지식 베이스에 기반하여 상기 복수의 제1 식별자와 연관되는 복수의 속성값을 결정하는 단계;
    상기 복수의 프레임에서 한 그룹의 프레임을 결정하되, 상기 한 그룹의 프레임의 각각의 프레임에 의해 결정되는 제1 식별자에 연관되는 속성값은 모두 사전 설정값인 단계;
    상기 복수의 프레임에서의 상기 한 그룹의 프레임의 위치에 기반하여 상기 타깃 비디오를 복수의 비디오 세그먼트로 분할하는 단계;
    상기 복수의 프레임에서 복수의 제1 텍스트를 획득하는 단계;
    상기 복수의 제1 텍스트에서 복수의 제1 엔티티를 획득하는 단계; 및
    상기 복수의 제1 텍스트 및 상기 복수의 제1 엔티티에 기반하여 상기 복수의 비디오 세그먼트에 연관되는 복수의 이벤트를 결정하는 단계; 를 포함하고,
    상기 복수의 프레임에서 상기 복수의 제1 텍스트를 획득하는 단계는,
    상기 복수의 프레임에서 복수의 초기 텍스트를 획득하는 단계; 및
    상기 복수의 초기 텍스트에서 상기 복수의 프레임과 무관한 콘텐츠를 제거하여 상기 복수의 제1 텍스트를 얻는 단계; 를 포함하고,
    상기 복수의 프레임과 무관한 콘텐츠를 제거하는 단계는,
    초기 텍스트의 콘텐츠의 글자체 크기 및 대응되는 프레임에서의 상기 콘텐츠의 위치 중 적어도 하나에 기반하여 상기 복수의 프레임과 무관한 콘텐츠를 결정하는 단계를 포함하는,
    것을 특징으로 하는 비디오를 처리하는 방법.
  2. 제1항에 있어서,
    상기 타깃 비디오를 상기 복수의 비디오 세그먼트로 분할하는 단계는,
    상기 위치에 기반하여 상기 복수의 프레임 내에서의 상기 한 그룹의 프레임의 번호를 결정하는 단계;
    상기 번호의 연속 번호를 결정하는 단계; 및
    상기 연속 번호의 시작 번호에 대응되는 프레임에 기반하여 상기 타깃 비디오를 분할하는 단계; 를 포함하는,
    것을 특징으로 하는 비디오를 처리하는 방법.
  3. 제2항에 있어서,
    상기 타깃 비디오를 분할하는 단계는,
    상기 연속 번호의 종료 번호를 결정하는 단계; 및
    상기 종료 번호에 대응되는 프레임 및 상기 시작 번호에 대응되는 프레임에 기반하여 상기 타깃 비디오의 하나의 비디오 세그먼트의 제1 비디오 서브 세그먼트 및 제2 비디오 서브 세그먼트를 결정하는 단계; 를 포함하는,
    것을 특징으로 하는 비디오를 처리하는 방법.
  4. 제1항에 있어서,
    상기 복수의 제1 식별자의 각각의 식별자의 신뢰도는 모두 임계값 신뢰도를 초과하는,
    것을 특징으로 하는 비디오를 처리하는 방법.
  5. 제1항에 있어서,
    상기 복수의 제1 식별자를 결정하는 단계는,
    상기 타깃 비디오의 사전 결정 간격의 프레임에 대해 안면 인식을 진행하여 상기 복수의 프레임을 획득하는 단계; 및
    상기 복수의 프레임에 기반하여 상기 복수의 제1 식별자를 결정하는 단계; 를 포함하는,
    것을 특징으로 하는 비디오를 처리하는 방법.
  6. 삭제
  7. 제1항에 있어서,
    상기 복수의 제1 텍스트의 각각의 제1 텍스트의 신뢰도는 모두 임계값 신뢰도를 초과하는,
    것을 특징으로 하는 비디오를 처리하는 방법.
  8. 삭제
  9. 삭제
  10. 제1항에 있어서,
    상기 복수의 제1 엔티티의 각각의 제1 엔티티의 신뢰도는 모두 임계값 신뢰도를 초과하는,
    것을 특징으로 하는 비디오를 처리하는 방법.
  11. 제1항에 있어서,
    상기 복수의 이벤트를 결정하는 단계는,
    타깃 비디오의 상기 복수의 프레임에 대응되는 오디오에 기반하여 복수의 제2 텍스트를 결정하는 단계;
    상기 복수의 제2 텍스트에서 복수의 제2 엔티티를 획득하는 단계; 및
    상기 복수의 제1 텍스트, 상기 복수의 제1 엔티티, 상기 복수의 제2 텍스트 및 상기 복수의 제2 엔티티에 기반하여 상기 복수의 이벤트를 결정하는 단계; 를 포함하는,
    것을 특징으로 하는 비디오를 처리하는 방법.
  12. 비디오를 처리하는 장치에 있어서,
    타깃 비디오의 제1 오브젝트가 포함된 복수의 프레임에 기반하여 상기 제1 오브젝트와 관련되는 복수의 제1 식별자를 결정하도록 구성되는 식별자 결정 모듈;
    상기 제1 오브젝트와 관련되는 지식 베이스에 기반하여 상기 복수의 제1 식별자와 연관되는 복수의 속성값을 결정하도록 구성되는 속성값 결정 모듈;
    상기 복수의 프레임에서 한 그룹의 프레임을 결정하도록 구성되되, 상기 한 그룹의 프레임의 각각의 프레임에 의해 결정되는 제1 식별자에 연관되는 속성값은 모두 사전 설정값인 프레임 결정 모듈;
    상기 복수의 프레임에서의 상기 한 그룹의 프레임의 위치에 기반하여 상기 타깃 비디오를 복수의 비디오 세그먼트로 분할하도록 구성되는 세그먼트 분할 모듈;
    상기 복수의 프레임에서 복수의 제1 텍스트를 획득하도록 구성되는 제1 텍스트 획득 모듈;
    상기 복수의 제1 텍스트에서 복수의 제1 엔티티를 획득하도록 구성되는 제1 엔티티 획득 모듈; 및
    상기 복수의 제1 텍스트 및 상기 복수의 제1 엔티티에 기반하여 상기 복수의 비디오 세그먼트에 연관되는 복수의 이벤트를 결정하도록 구성되는 이벤트 결정 모듈; 을 포함하고,
    상기 제1 텍스트 획득 모듈은,
    상기 복수의 프레임에서 복수의 초기 텍스트를 획득하도록 구성되는 초기 텍스트 획득 모듈; 및
    상기 복수의 초기 텍스트에서 상기 복수의 프레임과 무관한 콘텐츠를 제거하여 상기 복수의 제1 텍스트를 얻도록 구성되는 무관 콘텐츠 제거 모듈; 을 포함하고,
    상기 무관 콘텐츠 제거 모듈은,
    초기 텍스트의 콘텐츠의 글자체 크기 및 대응되는 프레임에서의 상기 콘텐츠의 위치 중 적어도 하나에 기반하여 상기 복수의 프레임과 무관한 콘텐츠를 결정하도록 구성되는 무관 콘텐츠 결정 모듈을 포함하는,
    것을 특징으로 하는 비디오를 처리하는 장치.
  13. 제12항에 있어서,
    상기 세그먼트 분할 모듈은,
    상기 위치에 기반하여 상기 복수의 프레임 내에서의 상기 한 그룹의 프레임의 번호를 결정하도록 구성되는 번호 결정 모듈;
    상기 번호의 연속 번호를 결정하도록 구성되는 연속 번호 결정 모듈; 및
    상기 연속 번호의 시작 번호에 대응되는 프레임에 기반하여 상기 타깃 비디오를 분할하도록 구성되는 분할 모듈; 을 포함하는,
    것을 특징으로 하는 비디오를 처리하는 장치.
  14. 제13항에 있어서,
    상기 분할 모듈은,
    상기 연속 번호의 종료 번호를 결정하도록 구성되는 종료 번호 결정 모듈; 및
    상기 종료 번호에 대응되는 프레임 및 상기 시작 번호에 대응되는 프레임에 기반하여 상기 타깃 비디오의 하나의 비디오 세그먼트의 제1 비디오 서브 세그먼트 및 제2 비디오 서브 세그먼트를 결정하도록 구성되는 서브 세그먼트 결정 모듈; 을 포함하는,
    것을 특징으로 하는 비디오를 처리하는 장치.
  15. 제12항에 있어서,
    상기 복수의 제1 식별자의 각각의 식별자의 신뢰도는 모두 임계값 신뢰도를 초과하는,
    것을 특징으로 하는 비디오를 처리하는 장치.
  16. 제12항에 있어서,
    상기 식별자 결정 모듈은,
    상기 타깃 비디오의 사전 결정 간격의 프레임에 대해 안면 인식을 진행하여 상기 복수의 프레임을 획득하도록 구성되는 안면 인식 모듈; 및
    상기 복수의 프레임에 기반하여 상기 복수의 제1 식별자를 결정하도록 구성되는 결정 모듈; 을 포함하는,
    것을 특징으로 하는 비디오를 처리하는 장치.
  17. 삭제
  18. 제12항에 있어서,
    상기 복수의 제1 텍스트의 각각의 제1 텍스트의 신뢰도는 모두 임계값 신뢰도를 초과하는,
    것을 특징으로 하는 비디오를 처리하는 장치.
  19. 삭제
  20. 삭제
  21. 제12항에 있어서,
    상기 복수의 제1 엔티티의 각각의 제1 엔티티의 신뢰도는 모두 임계값 신뢰도를 초과하는,
    것을 특징으로 하는 비디오를 처리하는 장치.
  22. 제12항에 있어서,
    상기 이벤트 결정 모듈은,
    타깃 비디오의 상기 복수의 프레임에 대응되는 오디오에 기반하여 복수의 제2 텍스트를 결정하도록 구성되는 제2 텍스트 결정 모듈;
    상기 복수의 제2 텍스트에서 복수의 제2 엔티티를 획득하도록 구성되는 제2 엔티티 획득 모듈; 및
    상기 복수의 제1 텍스트, 상기 복수의 제1 엔티티, 상기 복수의 제2 텍스트 및 상기 복수의 제2 엔티티에 기반하여 상기 복수의 이벤트를 결정하도록 구성되는 결정 모듈; 을 포함하는,
    것을 특징으로 하는 비디오를 처리하는 장치.
  23. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리; 를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1항 내지 제5항, 제7항, 제10항, 제11항 중 어느 한 항의 비디오를 처리하는 방법을 수행하는,
    것을 특징으로 하는 전자 기기.
  24. 컴퓨터 프로그램이 저장된 비 일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1항 내지 제5항, 제7항, 제10항, 제11항 중 어느 한 항의 비디오를 처리하는 방법이 수행되는,
    것을 특징으로 하는 컴퓨터 프로그램이 저장된 비 일시적 컴퓨터 판독 가능 저장 매체.
  25. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1항 내지 제5항, 제7항, 제10항, 제11항 중 어느 한 항의 비디오를 처리하는 방법이 수행되는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.
KR1020210075480A 2020-06-11 2021-06-10 비디오를 처리하는 방법, 장치, 전자 기기 및 저장 매체 KR102553511B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010532039.3A CN111708914A (zh) 2020-06-11 2020-06-11 用于视频处理的方法、装置、电子设备和存储介质
CN202010532039.3 2020-06-11

Publications (2)

Publication Number Publication Date
KR20210081308A KR20210081308A (ko) 2021-07-01
KR102553511B1 true KR102553511B1 (ko) 2023-07-10

Family

ID=72540100

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210075480A KR102553511B1 (ko) 2020-06-11 2021-06-10 비디오를 처리하는 방법, 장치, 전자 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US11490170B2 (ko)
EP (1) EP3923591A1 (ko)
JP (1) JP7476138B2 (ko)
KR (1) KR102553511B1 (ko)
CN (1) CN111708914A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114302231B (zh) * 2021-12-31 2023-08-18 中国传媒大学 视频处理方法及装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100687732B1 (ko) * 2005-11-24 2007-02-27 한국전자통신연구원 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단방법 및 그 장치

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961954B1 (en) * 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
JP3642019B2 (ja) 2000-11-08 2005-04-27 日本電気株式会社 Avコンテンツ自動要約システム及びavコンテンツ自動要約方法
CN1195274C (zh) * 2003-01-25 2005-03-30 华中科技大学 基于集群视频服务器的节目源分片分布式存储方法
JP4168940B2 (ja) 2004-01-26 2008-10-22 三菱電機株式会社 映像表示システム
CN102547139A (zh) * 2010-12-30 2012-07-04 北京新岸线网络技术有限公司 一种新闻视频节目切分方法、新闻视频编目方法及***
US20160034712A1 (en) * 2012-10-02 2016-02-04 Banjo, Inc. System and method for event-related content discovery, curation, and presentation
BR112016006860B8 (pt) * 2013-09-13 2023-01-10 Arris Entpr Inc Aparelho e método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente
US10216841B2 (en) * 2014-05-22 2019-02-26 Pixured, Inc. System for referring to and/or embedding posts, videos or digital media within other posts, videos or digital media and posts within any part of another posts, videos or digital media
US9430694B2 (en) * 2014-11-06 2016-08-30 TCL Research America Inc. Face recognition system and method
US10601686B2 (en) * 2017-10-17 2020-03-24 Rovi Guides, Inc. Systems and methods for improving quality of service while streaming code-agnostic content
CN108810569B (zh) * 2018-05-23 2021-01-22 北京奇艺世纪科技有限公司 一种视频新闻分割方法和装置
US11163840B2 (en) * 2018-05-24 2021-11-02 Open Text Sa Ulc Systems and methods for intelligent content filtering and persistence
CN109635154B (zh) * 2018-12-14 2022-11-29 成都索贝数码科技股份有限公司 一种基于文稿和新闻节目自动生成互联网图文稿件的方法
JP7387970B2 (ja) 2019-01-17 2023-11-29 Lineヤフー株式会社 算出装置、算出方法、算出プログラム
CN109933688A (zh) * 2019-02-13 2019-06-25 北京百度网讯科技有限公司 确定视频标注信息的方法、装置、设备和计算机存储介质
CN110121118B (zh) * 2019-06-17 2021-08-06 腾讯科技(深圳)有限公司 视频片段定位方法、装置、计算机设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100687732B1 (ko) * 2005-11-24 2007-02-27 한국전자통신연구원 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단방법 및 그 장치

Also Published As

Publication number Publication date
JP7476138B2 (ja) 2024-04-30
JP2021166050A (ja) 2021-10-14
KR20210081308A (ko) 2021-07-01
CN111708914A (zh) 2020-09-25
US11490170B2 (en) 2022-11-01
US20210250666A1 (en) 2021-08-12
EP3923591A1 (en) 2021-12-15

Similar Documents

Publication Publication Date Title
WO2020155423A1 (zh) 一种跨模态信息检索方法、装置和存储介质
US9753905B2 (en) Generating a document structure using historical versions of a document
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
US10665267B2 (en) Correlation of recorded video presentations and associated slides
CN112559800A (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN111160004B (zh) 一种断句模型的建立方法及装置
CN113360699A (zh) 模型训练方法和装置、图像问答方法和装置
WO2024099171A1 (zh) 视频生成方法和装置
KR102553511B1 (ko) 비디오를 처리하는 방법, 장치, 전자 기기 및 저장 매체
CN110347900B (zh) 一种关键词的重要度计算方法、装置、服务器及介质
CN109858005B (zh) 基于语音识别的文档更新方法、装置、设备及存储介质
CN113361462B (zh) 视频处理和字幕检测模型的方法及装置
CN113923479A (zh) 音视频剪辑方法和装置
US20170262755A1 (en) Supporting generation of a response to an inquiry
CN114398952B (zh) 训练文本生成方法、装置、电子设备及存储介质
WO2022148239A1 (zh) 信息输出方法、装置和电子设备
CN115858776A (zh) 一种变体文本分类识别方法、***、存储介质和电子设备
CN115098729A (zh) 视频处理方法、样本生成方法、模型训练方法及装置
US10002450B2 (en) Analyzing a document that includes a text-based visual representation
CN113886748A (zh) 网页内容的编辑信息生成、信息输出方法、装置及设备
CN115312032A (zh) 语音识别训练集的生成方法及装置
CN113360712B (zh) 视频表示的生成方法、装置和电子设备
CN114281981B (zh) 新闻简报的生成方法、装置和电子设备
CN111401011B (zh) 信息处理方法、装置及电子设备
CN113657082A (zh) 显示方法和显示装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant