KR20220125672A - 비디오 분류 방법, 장치, 기기 및 기록 매체 - Google Patents

비디오 분류 방법, 장치, 기기 및 기록 매체 Download PDF

Info

Publication number
KR20220125672A
KR20220125672A KR1020220004158A KR20220004158A KR20220125672A KR 20220125672 A KR20220125672 A KR 20220125672A KR 1020220004158 A KR1020220004158 A KR 1020220004158A KR 20220004158 A KR20220004158 A KR 20220004158A KR 20220125672 A KR20220125672 A KR 20220125672A
Authority
KR
South Korea
Prior art keywords
video
text
keyword
information
visual information
Prior art date
Application number
KR1020220004158A
Other languages
English (en)
Inventor
휘 양
펑 허
치 왕
즈판 펑
춘광 차이
용 주
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20220125672A publication Critical patent/KR20220125672A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Devices For Indicating Variable Information By Combining Individual Elements (AREA)
  • Liquid Crystal (AREA)

Abstract

본 발명은 컴퓨터 기술의 분야에 관한 것이고, 구체적으로, 지식 그래프, 컴퓨터 비전, 딥 러닝 등의 인공 지능 기술의 분야에 관한 비디오 분류 방법, 장치, 기기 및 기록 매체를 개시한다. 비디오 분류 방법은 비디오의 다중 모달 정보에 따라, 상기 비디오 내의 키워드를 추출하는 단계; 상기 키워드에 대응하는 배경 지식을 획득하고, 상기 키워드와 상기 배경 지식에 따라, 인식할 텍스트를 결정하는 단계; 및 상기 인식할 텍스트를 분류하여, 상기 비디오의 카테고리를 획득하는 단계;를 포함한다. 본 발명은 비디오 분류의 정밀도를 향상시킬 수 있다.

Description

비디오 분류 방법, 장치, 기기 및 기록 매체 {VIDEO CLASSIFICATION METHOD AND DEVICE, ELECTRONIC EQUIPMENT AND STORAGE MEDIUM}
본 발명은 컴퓨터 기술의 분야에 관한 것이고, 구체적으로, 지식 그래프, 컴퓨터 비전, 딥 러닝 등의 인공 지능 기술의 분야에 관한 것이며, 특히, 비디오 분류 방법, 장치, 기기 및 기록 매체에 관한 것이다.
인공 지능(Artificial Intelligence, AI)은 인간의 일부 사고 과정과 지능 행위(예를 들어, 학습, 추리, 사고, 계획 등)를 컴퓨터로 시뮬레이션하는 것을 연구하는 학과이며, 하드웨어 차원의 기술이 있을 뿐만 아니라 소프트웨어 차원의 기술도 있으며, 인공 지능 하드웨어 기술은 일반적으로, 예를 들어, 센서, 전용 인공 지능 칩, 클라우드 컴퓨팅, 분산 스토리지, 빅 데이터 처리 등의 기술을 포함하고, 인공 지능 소프트웨어 기술은 주로, 컴퓨터 비전 기술, 음성 인식 기술, 자연 언어 처리 기술 및 기계 학습/딥 러닝, 빅 데이터 처리 기술, 지식 그래프 기술 등의 몇 가지 방향을 포함한다.
정보 기술의 발전에 의해, 비디오는 정보를 전달하는 주요한 방식 중의 하나가 된다. 비디오 데이터가 급속히 증가함에 따라, 분류에 기반하여 비디오를 저장, 관리 등을 수행하도록, 비디오를 분류할 수 있다.
관련 기술에서, 일반적으로 비디오의 단일 모달 정보(uni-modal information)를 사용하여 비디오를 분류한다.
본 발명은 비디오 분류 방법, 장치, 기기 및 기록 매체를 제공한다.
본 발명의 하나의 측면에 따르면, 비디오 분류 방법을 제공하고, 비디오의 다중 모달 정보(multi-modal information)에 따라, 상기 비디오 내의 키워드를 추출하는 단계; 상기 키워드에 대응하는 배경 지식을 획득하고, 상기 키워드와 상기 배경 지식에 따라, 인식할 텍스트를 결정하는 단계; 및 상기 인식할 텍스트를 분류하여, 상기 비디오의 카테고리를 획득하는 단계;를 포함한다.
본 발명의 다른 측면에 따르면, 비디오 분류 장치를 제공하고, 비디오의 다중 모달 정보에 따라, 상기 비디오 내의 키워드를 추출하기 위한 추출 모듈; 상기 키워드에 대응하는 배경 지식을 획득하고, 상기 키워드와 상기 배경 지식에 따라, 인식할 텍스트를 결정하기 위한 결정 모듈; 및 상기 인식할 텍스트를 분류하여, 상기 비디오의 카테고리를 획득하기 위한 분류 모듈;을 포함한다.
본 발명의 다른 측면에 따르면, 전자 기기를 제공하고, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 전술한 임의의 측면 중의 어느 하나에 기재된 방법이 수행되도록 한다.
본 발명의 다른 측면에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체를 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터가 전술한 임의의 측면 중의 어느 하나에 기재된 방법을 수행하도록 한다.
본 발명의 다른 측면에 따르면, 컴퓨터 프로그램 제품을 제공하고, 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 때, 전술한 임의의 측면 중의 어느 하나에 기재된 방법을 구현한다.
본 명세서에서 설명된 내용은 본 발명의 실시예의 키 또는 중요한 특징을 식별하려는 것이 아니고, 또한 본 발명의 범위를 제한하려는 것도 아닌 것을 이해하여야 한다. 본 발명의 다른 특징은 이하의 명세서를 통해 용이하게 이해할 수 있다.
첨부 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 발명에 대해 한정하는 것으로 구성되지 않는다.
도 1은 본 발명의 제1 실시예에 따른 개략도이다.
도 2는 본 발명의 제2 실시예에 따른 개략도이다.
도 3은 본 발명의 제3 실시예에 따른 개략도이다.
도 4는 본 발명의 제4 실시예에 따른 개략도이다.
도 5는 본 발명의 제5 실시예에 따른 개략도이다.
도 6은 본 발명의 제6 실시예에 따른 개략도이다.
도 7은 본 발명의 실시예의 비디오 분류 방법 중의 임의의 방법을 구현하기 위한 전자 기기의 개략도이다.
하기는 첨부된 도면을 결부하여 본 출원의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 출원의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통에서의 기술자는 본 출원의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.
도 1은 본 발명의 제1 실시예에 따른 개략도이다. 본 실시예는 비디오 분류 방법을 제공하고, 당해 방법은 하기와 같은 단계를 포함한다.
101, 비디오의 다중 모달 정보에 따라, 상기 비디오 내의 키워드를 추출한다.
102, 상기 키워드에 대응하는 배경 지식을 획득하고, 상기 키워드와 상기 배경 지식에 따라, 인식할 텍스트를 결정한다.
103, 상기 인식할 텍스트를 분류하여, 상기 비디오의 카테고리를 획득한다.
본 실시예의 실행 주체는 서버와 같은 단일 디바이스 본체일 수 있다.
본 발명의 실시예에서, 모달은 텍스트, 시각, 음성 등과 같은 비디오 내의 정보의 형식을 가리킨다. 다중 모달 정보(multi-modal information)는 복수의 형식 정보를 가리키고, 구체적으로, 본 실시예에서, 다중 모달 정보는 텍스트 내용과 시각 정보를 포함하고, 즉, 하나의 모달 정보는 텍스트 내용이며, 다른 모달 정보는 시각 정보이다. 텍스트 내용은 텍스트의 구체적인 내용을 가리키고, 예를 들어, 하나의 텍스트(text)는 농촌 전자상거래에 관한 텍스트일 경우, 대응하는 텍스트 내용(text content)은 "(農村電商)농촌 전자상거래" 등의 내용을 포함할 수 있다. 텍스트 내용과 다른 것은, 텍스트는 텍스트 위치, 텍스트의 폰트 크기 등과 같은 다른 정보를 더 포함할 수 있고, 위치, 폰트 크기 등과 같은 이러한 텍스트 정보는 시각 정보 중의 하나로 할 수 있다.
나아가, 텍스트는 상기 비디오의 타이틀, 광학식 문자 인식(Optical Character Recognition, OCR) 텍스트 및 자동 음성 인식(Automatic Speech Recognition, ASR) 텍스트를 포함할 수 있다. 여기서, 상기 타이틀은 비디오의 개괄적인 문자 설명을 가리키고, 예를 들어, 일부 비디오 웹 사이트의 비디오 페이지에서, 각 비디오에 대응하여, 대응하는 문자 설명을 배치할 수 있고, 당해 문자 설명은 비디오의 타이틀로 할 수 있다. 타이틀에 대응하는 텍스트 내용은 비디오 페이지를 해석하는 것을 통해, 직접 획득할 수 있다. 비디오는 복수의 비디오 프레임으로 구성되고, OCR 텍스트는 OCR 방식을 사용하여, 획득된 비디오 프레임 중의 텍스트를 가리킨다. 타이틀에 대응하는 텍스트 내용을 직접 획득할 수 있는 것과 달리, OCR 텍스트에 대응하는 텍스트 내용은 OCR 방식을 사용하여 획득할 필요가 있다. ASR 텍스트는 비디오에 대응하는 음성을 음성 인식하고, ASR 방식을 사용하여 획득된 텍스트를 가리킨다. ASR 텍스트에 대응하는 텍스트 내용도 마찬가지로 직접 획득할 수 없고, ASR 방식을 사용하여 획득할 필요가 있다.
시각 정보는 제1 시각 정보와 제2 시각 정보를 포함할 수 있고, 제1 시각 정보는 미시적 시각 정보라고도 불릴 수 있고, 제2 시각 정보는 거시적 시각 정보라고도 불릴 수 있다. 제1 시각 정보는 비디오 프레임 중의 텍스트에 대응하는 시각 정보를 가리키고, 비디오 프레임 중의 텍스트는 예를 들어, 상기 OCR 텍스트이며, 제1 시각 정보는 예를 들어, OCR 텍스트의 위치, OCR 텍스트의 폰트, OCR 텍스트의 출현 시간의 길이 등 중의 하나 또는 복수를 포함한다. 제2 시각 정보는 비디오 내의 키 프레임을 가리키고, 키 프레임은 특정한 정보를 포함하는 비디오 프레임을 가리키고, 구체적으로, 특정한 정보는 예를 들어, OCR 텍스트, 얼굴 이미지 등 중의 하나 또는 복수를 포함한다.
다중 모달 정보를 획득한 후, 상기 다중 모달 정보 내의 각 모달 정보에 대해, 각각 특징 추출을 수행하여, 상기 각 모달 정보에 대응하는 특징을 획득할 수 있다. 예를 들어, 다중 모달 정보가 텍스트와 시각 정보를 포함할 경우, 텍스트에 대응하는 텍스트 특징 및 시각 특징에 대응하는 시각 특징을 각각 추출할 수 있다. 그 다음에, 텍스트 특징과 시각 특징을 융합하여, 융합 특징을 획득하고, 그 다음에 융합 특징에 따라 키워드 라벨링을 수행하여, 상기 비디오 내의 키워드를 결정한다.
각 모달 정보에 대응하는 특징을 융합하는 것을 통해, 융합 특징은 복수의 모달의 정보를 포함하고, 분류 정밀도를 향상시킬 수 있다.
비디오 내의 키워드를 획득한 후, 대응하는 배경 지식을 획득할 수 있고, 배경 지식은 키워드를 해석, 설명하는 내용을 가리킨다. 구체적으로, 기존의 지식베이스부터 키워드에 대응하는 배경 지식을 획득할 수 있다. 기존의 지식베이스에는 각 키워드와 대응하는 배경 지식을 저장할 수 있다. 기존의 지식베이스는 예를 들어 바이두 백과사전(Baidu Baike)이다.
배경 지식을 획득한 후, 키워드와 배경 지식을 스플라이스하여, 스플라이스 텍스트를 획득하고, 그 다음에, 스플라이스 텍스트를 분류하여, 비디오의 카테고리를 결정할 수 있다.
본 실시예에서, 다중 모달 정보에 기반하여 처리하는 것을 통해, 다중 모달 정보를 구비하는 비디오의 특성을 충분히 이용하여, 비디오 분류의 정밀도를 향상시킬 수 있다. 키워드에 대응하는 배경 지식을 획득하고, 배경 지식에 따라 처리하는 것을 통해, 키워드의 지식을 보완할 수 있고, 인식할 텍스트가 보다 높은 해석 가능성을 가지도록 함으로써, 비디오 분류의 정밀도를 더 향상시킨다.
도 2는 본 발명의 제2 실시예에 따른 개략도이다. 본 실시예는 비디오 분류 방법을 제공하고, 본 실시예는 비디오의 다중 모달 특징이 텍스트와 시각 특징을 포함하는 것을 예를 들 수 있고, 당해 방법은 하기와 같은 단계를 포함한다.
201, 비디오에 대응하는 텍스트의 텍스트 내용을 획득한다.
텍스트는 비디오의 타이틀, OCR 텍스트 및 ASR 텍스트를 포함한다.
여기서, 타이틀에 대응하는 텍스트 내용은 직접 추출할 수 있는 텍스트 내용이므로, 비디오 웹페이지에 대해 텍스트 해석을 수행하여, 비디오의 타이틀에 대응하는 텍스트 내용을 직접 획득할 수 있다.
OCR 텍스트는 OCR에서 비디오 프레임을 처리한 후, 획득된 비디오 프레임 중의 텍스트를 가리킨다. 도 3에 도시된 바와 같이, 일부 비디오 프레임 중의 텍스트를 대응하는 텍스트 박스를 사용하여 식별하고, OCR에서 텍스트 박스 내의 이미지 내용을 인식한 후, 대응하는 텍스트 내용을 획득할 수 있다. 예를 들어, 하나의 OCR 텍스트에 대응하는 텍스트 내용이 "(XXX在全省農村電商提質增效電視電話會議上强調)XXX는 전성의 농촌 전자상거래 품질 및 효율 향상의 텔레비전 전화 회의에서 강조하였다."이다.
ASR 텍스트는 음성 인식 기술을 통해 비디오에 대응하는 음성을 텍스트로 변환하는 것을 가리키고, 예를 들어, 도 3에 도시된 비디오 프레임에 대응하고, 당해 비디오 프레임은 재생하는 동시에, 대응하는 뉴스캐스터의 음성도 있을 수 있고, 당해 음성을 대응하는 텍스트 내용으로 변환하고, ASR 텍스트에 대응하는 텍스트 내용으로 할 수 있다.
202, 비디오의 시각 정보를 획득한다.
상기 시각 정보는 제1 시각 정보와 제2 시각 정보를 포함하고, 상기 제1 시각 정보는 상기 비디오의 비디오 프레임 중의 텍스트에 대응하는 시각 정보이며, 상기 제2 시각 정보는 상기 비디오 내의 키 프레임이다. 구체적으로, 제1 시각 정보는 예를 들어, OCR 텍스트의 위치, OCR 텍스트의 폰트, OCR 텍스트의 출현 시간의 길이 등 중의 하나 또는 복수를 포함한다. 제2 시각 정보는 예를 들어, 특정한 정보를 포함하는 비디오 프레임이며, 특정한 정보는 예를 들어, OCR 텍스트, 얼굴 이미지 등 중의 하나 또는 복수를 포함한다. 예를 들어, 도 3의 "(XXX在全省農村電商提質增效電視電話會議上强調)XXX는 전성의 농촌 전자상거래 품질 및 효율 향상의 텔레비전 전화 회의에서 강조하였다."의 OCR 텍스트의 위치를 제1 시각 정보로 할 수 있고, 도 3에 도시된 비디오 프레임에는 OCR 텍스트가 포함되고, 얼굴 이미지도 포함되므로, 당해 비디오 프레임을 키 프레임, 즉 제2 시각 정보로 할 수 있다.
203, 상기 텍스트 내용과 상기 시각 정보에 따라, 상기 비디오 내의 키워드를 추출한다.
구체적으로, 도 4에 도시된 바와 같이, 상기 텍스트 내용과 상기 시각 정보에 대해 특징 추출을 하고, 텍스트 특징과 시각 특징을 각각 획득할 수 있다.
나아가, 시각 정보는 제1 시각 정보와 제2 시각 정보에 나눌 수 있고, 제1 시각 정보와 제2 시각 정보에 대해 특징 추출을 수행하여, 제1 시각 특징과 제2 시각 특징을 각각 획득할 수 있다.
구체적으로, 텍스트 내용, 제1 시각 정보는 모두 텍스트 형식에 속하므로, 텍스트 특징의 추출 방식을 사용하여, 그것을 대응하는 특징 벡터로 변환할 수 있다. 제2 시각 정보는 키 프레임이며, 이미지이므로, 이미지 특징의 추출 방식을 사용하여, 그것을 대응하는 특징 벡터로 변환할 수 있다. 즉, 상기 텍스트 내용에 대해 제1 텍스트 인코딩을 수행하여, 텍스트 특징을 획득하는 단계; 상기 제1 시각 정보에 대해 제2 텍스트 인코딩을 수행하여, 제1 시각 특징을 획득하는 단계; 및 상기 제2 시각 정보에 대해 이미지 인코딩을 수행하여, 제2 시각 특징을 획득하는 단계;를 포함할 수 있다.
상이한 모달 정보에 대해 각각 인코딩 처리를 수행하는 것을 통해, 각 모달 정보에 보다 적합한 인코딩 방식으로 처리하여, 각 모달 정보에 대응하는 특징의 정밀도를 향상시키고, 나아가, 분류 정밀도를 향상시킬 수 있다.
도 4에 도시된 바와 같이, 제1 텍스트 인코딩 모델을 사용하여, 텍스트 내용을 부호화하고, 텍스트 특징을 획득하고, 제2 텍스트 인코딩 모델을 사용하여, 제1 시각 정보를 부호화하여, 제1 시각 특징을 획득하고, 이미지 인코딩 모델을 사용하여, 제2 시각 정보를 부호화하여, 제2 시각 특징을 획득할 수 있다. 여기서, 제1 텍스트 인코딩 모델 및 제2 텍스트 인코딩 모델 중의 하나는 예를 들어, 변환기(Transformer) 네트워크 중의 인코더(도 4에는 제1 변환기(Transformer) 네트워크와 제2 변환기(Transformer) 네트워크를 각각 표시한다)이다. 이미지 인코딩 모델은, 예를 들어, 합성곱 신경망(Convolutional Neural Network, CNN)이며, 구체적으로, 예를 들어, 레즈넷(resnet)-152이다.
텍스트 인코딩의 출력은 벡터 형식이며, 이미지 인코딩에 대해, 추출된 특징 맵(feature map)을 평탄화하고, 그것을 벡터 형식으로 변환할 수 있으므로, 텍스트 특징, 제1 시각 특징, 제2 시각 특징은 모두 벡터 형식인 것을 이해할 수 있다.
텍스트 특징, 제1 시각 특징 및 제2 시각 특징을 획득한 후, 이 세 가지의 특징을 융합할 수 있고, 구체적으로, 이 세 가지의 특징이 모두 벡터 형식이기 때문에, 이 세 가지의 특징에 대해 벡터 스플라이스를 수행하여, 스플라이스 벡터를 획득하고, 스플라이스 벡터를 융합 특징으로 할 수 있다.
벡터 스플라이스의 방식을 사용하여 융합하는 것을 통해, 다중 모달 정보 융합을 간단히 구현할 수 있다.
융합 벡터를 획득한 후, 조건부 무작위 필드(Conditional Random Field, CPF)를 사용하여, 융합 특징에 따라 키워드 라벨링을 수행하여, 비디오 내의 키워드를 획득할 수 있다. 도 4에 도시된 바와 같이, 중국어를 예로 들어, 중국어의 각 문자에 대응하고, B, I, O를 라벨링할 수 있고, B는 키워드의 시작점을 표시하고, I는 키워드의 다른 부분을 표시하고, O는 키워드가 아닌 것을 표시하므로, 키워드 라벨링을 통해 비디오 내의 키워드를 획득할 수 있다. 예를 들어, 상기 "(XXX在全省農村電商提質增效電視電話會議上强調)XXX는 전성의 농촌 전자상거래 품질 및 효율 향상의 텔레비전 전화 회의에서 강조하였다."에 대응하여, 키워드 라벨링을 통해, "農", "村", "電", "商"(농촌 전자상거래)는 각각 B, I, I, I로 라벨링할 수 있고, 기타 문자는 모두 O로 라벨링할 수 있을 경우, 추출된 키워드는 "(農村電商)농촌 전자상거래" 이다.
여기서, 특징 융합을 수행할 때, 중국어를 예로 들어, 각 문자에 대응하여 융합할 수 있고, 예를 들어, 텍스트 내용은 "문자 1", "문자 2" 등을 포함하고, "문자 1"에 대응하는 제1 시각 정보는 시각 1(feat 1)로 표시하고, 제1 시각 정보는 "시각 1", "시각 2" 등을 포함할 경우, 융합 시, "문자 1"을 예로 들면, "문자 1"에 대응하는 텍스트 특징 + "시각 1"에 대응하는 제1 시각 특징 + 제2 시각 특징을 "문자 1"에 대응하는 융합 특징으로 하고, "+"는 스플라이스(splice)를 표시한다. 또한, 융합 시, [CLS]에 대응하는 특징을 포함할 수 있거나, 포함하지 않을 수 있다. 도 4의 제1 변환기(Transformer) 네트워크를 예로 들면, 입력 블록은, [CLS], "문자 1", "문자 2" 등을 포함하고, 출력 블록은 H0, H1, H2 등의 텍스트 특징을 포함하고, H0은 [CLS]에 대응하는 은닉층 출력 벡터이며, H1은 "문자 1"에 대응하는 은닉층 출력 벡터이며, H2는 "문자 2"에 대응하는 은닉층 출력 벡터이다. 제2 변환기(Transformer) 네트워크의 입력 블록은 출력 블록과 유사이며, 입력만 시각 정보이며, 출력은 시각 특징이다. 문자에 기반한 벡터 스플라이스이기 때문에, 융합 특징은 텍스트 내용 중의 문자를 단위로 할 경우, 키워드 라벨링을 수행할 때, 단어 마다 상기 B, I, O의 식별을 수행하여, 키워드를 결정할 수 있다.
예를 들어, 바이두 백과사전으로부터 키워드에 대응하는 배경 지식을 획득한다. 예를 들어, 도 3에 도시된 비디오 프레임에 대응하고, 추출된 키워드는 "(農村電商)농촌 전자상거래" 이며, 바이두 백과사전으로부터, "(農村電商)농촌 전자상거래"에 대응하는 배경 지식은
Figure pat00001
(농촌 전자상거래 플랫폼이 밀집한 농촌 체인 매장과 협력하여, 디지털화, 정보화의 수단으로, 집약화 관리, 시장화 운영, 체계화된 지역간 및 산업간의 제휴에 의해, 콤팩트하여 질서 있는 업계 연합을 구축하고, 농촌의 상업 비용을 낮추고, 농촌의 상업 분야를 확대하고, 농민이 플랫폼의 최대의 수익자가 되도록 하고, 상가가 새로운 이익 성장을 획득하도록 한다)"를 검색할 수 있다.
지식베이스에서 배경 지식을 획득함으로써, 지식베이스에는 이미 대량의 각 측면의 데이터 자원이 있으므로, 기존 자원을 충분히 이용할 수 있다.
그 다음, 당해 키워드와 배경 지식을 스플라이스하여, 스플라이스 텍스트를 획득하고, 스플라이스 텍스트를 인식할 텍스트로 할 수 있다.
추출된 비디오 내의 키워드가 복수일 경우, 각 키워드와 배경 지식에 대해 스플라이스를 수행하고, 그 다음에, 모든 키워드를 스플라이스할 수 있다. 예를 들어, 제1 키워드 + 제1 배경 지식 + 제2 키워드 + 제2 배경 지식 + 제3 키워드 + 제3 배경 지식 등이며, 그 중의 +는 스플라이스를 표시하는 것을 이해할 수 있다.
205, 상기 인식할 텍스트를 분류하여, 상기 비디오의 카테고리를 획득한다.
인식할 텍스트를 분류 모델에 입력하고, 비디오의 카테고리로 출력할 수 있다. 분류 모델은 예를 들어, 텍스트 인코딩 네트워크와 분류 네트워크를 포함한다. 도 5에 도시된 바와 같이, 텍스트 인코딩 네트워크는, 변환기(Transformer) 네트워크의 인코더일 수 있고, 도 5에서는 제3 변환기(Transformer) 네트워크로 표시하고, 중국어를 예로 들어, 인식할 텍스트를 복수의 단어에 분할하고, "단어 1", "단어 2" 등으로 표시하고, 획득된 복수의 단어와 분류 식별자“[CLS]"를 입력으로 하고, 텍스트 인코딩 네트워크에 입력하여, H0, H1, H2 등을 포함하는 은닉층 벡터를 출력할 수 있고, H0은 [CLS]에 대응하는 은닉층 벡터이며, H0을 분류 네트워크의 입력으로 하고, 출력은 분류 결과, 즉 비디오의 카테고리이다. 분류 네트워크는 전연결층(fully connected layers)을 포함하는 등과 같은, 다양한 기존의 분류 네트워크를 사용할 수 있다.
나아가, 분류 모델은 방송 데이터를 사용하여 트레이닝한 후에 획득할 수 있고, 즉, 분류 모델이 트레이닝할 때, 사용되는 트레이닝 데이터는 방송 데이터이다. 방송 데이터는 라디오 및 텔레비전의 비디오 데이터 및 대응하는 비디오 라벨을 포함하고, 비디오 라벨은 라디오 및 텔레비전의 비디오 분류 표준에 따라 라벨링 할 수 있다. 라디오 및 텔레비전의 비디오 분류 표준은 라디오 및 텔레비전 프로그램 자료분류법이다. 라디오 및 텔레비전 프로그램 자료분류법은 중국 텔레비전 및 라디오 등의 프로그램의 가장 권위 있는 분류 체계이다. 당해 분류 체계는 트리 구조를 사용하고, 13개의 대분류로 나눌 수 있고, 일반적으로, 3급으로부터 4급으로 세분화된다. 인터넷으로 방송되는 텔레비전, 영화, 버라이어티, 애니메이션, 뉴스 등의 텔레비전 및 라디오 프로는 모두 이 권위 있는 분류 체계에 따라 분류할 수 있다. 정규적인 방송국이 비디오 내용에 대해 목록을 작성하는 것도, 당해 분류 표준에 따라 비디오 분류를 수행할 필요가 있다. 비디오 라벨을 사용할 때에는 실제의 요구에 따라 수행할 수 있고, 예를 들어, 2급의 카테고리로 세분화할 필요가 있을 경우, 트레이닝할 때의 비디오 라벨은 2급 라벨을 사용할 수 있는 것을 이해할 수 있다.
방송 데이터에 따라 트레이닝한 후에 획득된 분류 모델은 표준에 적합하고, 보다 권위성, 표준성을 가지고, 나아가, 분류 모델의 보편성을 향상시킬 수 있다.
도 6은 본 발명의 제6 실시예에 따른 개략도이다. 본 실시예는 비디오 분류 장치를 제공하고, 당해 장치(600)는 추출 모듈(601), 결정 모듈(602) 및 분류 모듈(603)을 포함한다.
추출 모듈(601)은 비디오의 다중 모달 정보에 따라, 상기 비디오 내의 키워드를 추출하는데 사용되고, 결정 모듈(602)은 상기 키워드에 대응하는 배경 지식을 획득하고, 상기 키워드와 상기 배경 지식에 따라, 인식할 텍스트를 결정하는데 사용되고, 분류 모듈(603)은 상기 인식할 텍스트를 분류하여, 상기 비디오의 카테고리를 획득하는데 사용된다.
일부 실시예에서, 상기 추출 모듈(601)은 구체적으로, 상기 다중 모달 정보 내의 각 모달 정보에 대해, 각각 특징 추출을 수행하여, 상기 각 모달 정보에 대응하는 특징을 획득하고, 상기 각 모달 정보에 대응하는 특징을 융합하여, 융합 특징을 획득하고, 상기 융합 특징에 따라 키워드 라벨링을 수행하여, 상기 비디오 내의 키워드를 결정하는데 사용된다.
일부 실시예에서, 상기 다중 모달 정보는 텍스트 내용과 시각 정보를 포함하고, 상기 시각 정보는 제1 시각 정보와 제2 시각 정보를 포함하고, 상기 제1 시각 정보는 상기 비디오의 비디오 프레임 중의 텍스트에 대응하는 시각 정보이며, 상기 제2 시각 정보는 상기 비디오 내의 키 프레임이며, 상기 추출 모듈(601)은 또한, 구체적으로, 상기 텍스트 내용에 대해 제1 텍스트 인코딩을 수행하여, 텍스트 특징을 획득하고, 상기 제1 시각 정보에 대해 제2 텍스트 인코딩을 수행하여, 제1 시각 특징을 획득하고, 상기 제2 시각 정보에 대해 이미지 인코딩을 수행하여, 제2 시각 특징을 획득하는데 사용된다.
일부 실시예에서, 상기 추출 모듈(601)은 또한, 구체적으로, 상기 각 모달 정보에 대응하는 특징에 대해 벡터 스플라이스를 수행하여, 스플라이스 벡터를 획득하고, 상기 스플라이스 벡터를 융합 특징으로 하는데 사용된다.
일부 실시예에서, 상기 추출 모듈(601)은 또한, 구체적으로, 조건부 무작위 필드(conditional random field)를 사용하여, 상기 융합 특징에 따라 키워드 라벨링을 수행하는데 사용된다.
일부 실시예에서, 상기 결정 모듈(602)은 구체적으로, 기존의 지식베이스로부터, 상기 키워드에 대응하는 배경 지식을 획득하는데 사용된다.
일부 실시예에서, 상기 분류 모듈(603)은 구체적으로, 분류 모델을 사용하여, 상기 인식할 텍스트를 분류하는데 사용되고, 상기 분류 모델은 방송 데이터를 사용하여 트레이닝한 후에 획득된다.
본 발명의 실시예에서, 다중 모달 정보에 기반하여 처리하는 것을 통해, 다중 모달 정보를 구비하는 비디오의 특성을 충분히 이용하여, 비디오 분류의 정밀도를 향상시킬 수 있다. 키워드에 대응하는 배경 지식을 획득하고, 배경 지식에 따라 처리하는 것을 통해, 키워드의 지식을 보완할 수 있고, 인식할 텍스트가 보다 높은 해석 가능성을 가지도록 함으로써, 비디오 분류의 정밀도를 더 향상시킨다. 상이한 모달 정보에 대해 각각 인코딩 처리를 수행하는 것을 통해, 각 모달 정보에 보다 적합한 인코딩 방식으로 처리하여, 각 모달 정보에 대응하는 특징의 정밀도를 향상시키고, 나아가, 분류 정밀도를 향상시킬 수 있다. 벡터 스플라이스의 방식을 사용하여 융합하는 것을 통해, 다중 모달 정보 융합을 간단히 구현할 수 있다. CRF를 사용하여 융합 특징을 라벨링하는 것을 통해, 키워드 라벨링의 방식에 따라, 비디오 내의 키워드를 추출할 수 있다. 지식베이스로부터 배경 지식을 획득하는 것을 통해, 지식베이스에는 이미 대량의 각 측면의 데이터 자원이 있으므로, 기존 자원을 충분히 이용할 수 있다. 방송 데이터에 따라 트레이닝한 후에 획득된 분류 모델은 표준에 적합하고, 보다 권위성, 표준성을 가지고, 나아가, 분류 모델의 보편성을 향상시킬 수 있다.
본 발명의 실시예에서, 상이한 실시예 중의 동일하거나 유사한 내용은 서로 참조할 수 있는 것을 이해할 수 있다.
본 발명의 실시예의 "제1", "제2" 등은 구분을 위한 것일 뿐, 중요 정도, 시계열적 전후 등을 나타내지 않는 것을 이해할 수 있다.
본 발명의 실시예에 의하면, 본 발명은 전자 기기, 판독 가능 기록 매체 및 컴퓨터 프로그램 제품을 더 제공한다.
도 7에 도시된 바와 같이, 본 발명의 실시예를 구현하는데 사용되는 예시적인 전자 기기(700)의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 계산 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.
도 7에 도시된 바와 같이, 전자 기기(700)는 컴퓨팅 유닛(701)을 포함하고, 컴퓨팅 유닛(701)은 판독 전용 메모리(ROM)(702)에 저장되어 있는 컴퓨터 프로그램 또는 저장 유닛(708)으로부터 랜덤 액세스 메모리(RAM)(703)에 로드된 컴퓨터 프로그램에 따라, 다양한 적절한 동작과 처리를 실행할 수 있다. RAM(703)에는 전자 기기(700)가 동작하는데 필요한 여러 가지 프로그램과 데이터도 저장할 수 있다. 컴퓨팅 유닛(701), ROM(702) 및 RAM(703)는 버스(704)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(705)도 버스(704)에 연결된다.
전자 기기(700) 중의 복수 컴포넌트는 I/O 인터페이스(705)에 연결되고, 키보드, 마우스 등과 같은 입력 유닛(706); 여러 가지 타입의 디스플레이, 스피커 등과 같은 출력 유닛(707); 디스크, 광디스크 등과 같은 저장 유닛(708) 및 네트워크 카드, 모뎀, 무선통신 트랜시버 등과 같은 통신 유닛(709)을 포함한다. 통신 유닛(709)은 전자 기기(700)가 인터넷 등과 같은 컴퓨터 네트워크 및 여러 가지 통신 네트워크 중의 적어도 하나를 통해 다른 기기와 정보/데이터를 교환할 수 있다.
컴퓨팅 유닛(701)은 여러 가지 처리와 계산 능력을 갖춘 범용 처리 컴포넌트 및 전용 처리 컴포넌트 중의 적어도 하나일 수 있다. 컴퓨팅 유닛(701)의 일부 예는, 중앙 처리 유닛(CPU), 그래픽스 처리 유닛(GPU), 다양한 전용 인공지능(AI) 계산 팁, 다양한 기계학습 모델 알고리즘을 실행하는 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만, 이에 한정되지 않는다. 컴퓨팅 유닛(701)은 비디오 분류 방법 등과 같은 상기의 다양한 방법과 처리를 실행한다. 예를 들면, 일부 실시예에서, 비디오 분류 방법은 저장 유닛(708) 등과 같은 기계 판독 가능 매체에 유형적으로 포함되는 컴퓨터 소프트웨어 프로그램으로 구현할 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(702) 및 통신 유닛(709) 중의 적어도 하나를 통해 전자 기기(700)에 로드 및/또는 인스톨될 수 있다. 컴퓨터 프로그램이 RAM(703)에 로드되어 컴퓨팅 유닛(701)에 의해 실행될 경우, 상기의 비디오 분류 방법의 하나 또는 복수의 단계를 실행할 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(701)은 다른 임의의 적절한 방식(예를 들면, 펌웨어에 의해)을 통해 비디오 분류 방법을 실행하도록 구성될 수 있다.
여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래밍 가능한 게이트 어레이(FPGA), 특정 용도 대상 집적 회로(ASIC), 특정 용도 대상 표준제품(ASSP), 시스템 온 칩 시스템(SOC), 부하 프로그래밍 가능 논리 장치(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 결합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 결합을 사용하여 작성할 수 있다. 이러한 프로그램 코드는 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 때 흐름도 및 블록도 중의 적어도 하나에 규정된 기능/동작이 실행되도록, 대형 기계(슈퍼 컴퓨터), 전용 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립된 소프트웨어 패키지로서 부분적으로 기계에서 실행되고, 부분적으로 리모트 기계에서 실행되거나 또는 완전히 리모트 기계 또는 서버에서 실행될 수 있다.
본 발명의 문맥에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기의 사용, 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있는 유형적인 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 기록 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적절한 결합을 포함하지만, 이에 한정되지 않는다. 기계 판독 가능 기록 매체의 더 구체적인 예는 하나 또는 복수의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 포터블 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상술한 내용의 임의의 적절한 결합을 포함한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 계산 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 계산 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 계산 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 결합을 포함하는 계산 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결할 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있고, 클라우드 계산 또는 클라우드 호스트일 수도 있으며, 클라우드 계산 서비스 시스템 중의 하나의 호스트 제품일 수 있어, 종래의 물리 호스트와 VPS 서비스("Virtual Private Server",또는 "VPS"라고 부른다)에 존재하는 관리 곤란도가 높고, 업무 확장성이 약한 것을 해결한다. 서버는 분산 시스템의 서버일 수 있거나, 또는 블록 체인을 결합한 서버일 수도 있다.
위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 발명에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.
상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 결합, 서브 결합 및 대체를 진행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims (18)

  1. 비디오 분류 방법(video classification method)에 있어서,
    비디오의 다중 모달 정보(multi-modal information)에 따라, 상기 비디오 내의 키워드를 추출하는 단계;
    상기 키워드에 대응하는 배경 지식을 획득하고, 상기 키워드와 상기 배경 지식에 따라, 인식할 텍스트(text to be recognized)를 결정하는 단계; 및
    상기 인식할 텍스트를 분류하여, 상기 비디오의 카테고리를 획득하는 단계;
    를 포함하는,
    비디오 분류 방법.
  2. 제1항에 있어서,
    상기 비디오의 다중 모달 정보에 따라, 상기 비디오 내의 키워드를 추출하는 단계는,
    상기 다중 모달 정보 내의 각각의 모달 정보에 대해, 각각 특징 추출을 수행하여, 상기 각각의 모달 정보에 대응하는 특징을 획득하는 단계;
    상기 각각의 모달 정보에 대응하는 특징을 융합하여, 융합 특징을 획득하는 단계; 및
    상기 융합 특징에 따라 키워드 라벨링을 수행하여, 상기 비디오 내의 키워드를 결정하는 단계;를 포함하는,
    비디오 분류 방법.
  3. 제2항에 있어서,
    상기 다중 모달 정보는 텍스트 내용(text content)과 시각 정보(visual information)를 포함하고,
    상기 시각 정보는 제1 시각 정보와 제2 시각 정보를 포함하고,
    상기 제1 시각 정보는 상기 비디오의 비디오 프레임 중의 텍스트에 대응하는 시각 정보이며,
    상기 제2 시각 정보는 상기 비디오 내의 키 프레임이며,
    상기 다중 모달 정보 내의 각각의 모달 정보에 대해, 각각 특징 추출을 수행하여, 상기 각각의 모달 정보에 대응하는 특징을 획득하는 단계는,
    상기 텍스트 내용에 대해 제1 텍스트 인코딩을 수행하여, 텍스트 특징을 획득하는 단계;
    상기 제1 시각 정보에 대해 제2 텍스트 인코딩을 수행하여, 제1 시각 특징을 획득하는 단계; 및
    상기 제2 시각 정보에 대해 이미지 인코딩을 수행하여, 제2 시각 특징을 획득하는 단계;를 포함하는,
    비디오 분류 방법.
  4. 제2항에 있어서,
    상기 각각의 모달 정보에 대응하는 특징을 융합하여, 융합 특징을 획득하는 단계는,
    상기 각각의 모달 정보에 대응하는 특징에 대해 벡터 스플라이스를 수행하여, 스플라이스 벡터(splice vector)를 획득하고, 상기 스플라이스 벡터를 융합 특징으로 하는 단계를 포함하는,
    비디오 분류 방법.
  5. 제2항에 있어서,
    상기 융합 특징에 따라 키워드 라벨링을 수행하는 단계는,
    조건부 무작위 필드(conditional random field)를 사용하여, 상기 융합 특징에 따라 키워드 라벨링을 수행하는 단계를 포함하는,
    비디오 분류 방법.
  6. 제1항에 있어서,
    상기 키워드에 대응하는 배경 지식을 획득하는 단계는,
    기존의 지식베이스(existing knowledge base)로부터, 상기 키워드에 대응하는 배경 지식을 획득하는 단계를 포함하는,
    비디오 분류 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 인식할 텍스트를 분류하는 단계는,
    분류 모델을 사용하여, 상기 인식할 텍스트를 분류하는 단계를 포함하고,
    상기 분류 모델은 방송 데이터를 사용하여 트레이닝한 후에 획득되는,
    비디오 분류 방법.
  8. 비디오 분류 장치(video classification device)에 있어서,
    비디오의 다중 모달 정보에 따라, 상기 비디오 내의 키워드를 추출하기 위한 추출 모듈;
    상기 키워드에 대응하는 배경 지식을 획득하고, 상기 키워드와 상기 배경 지식에 따라, 인식할 텍스트를 결정하기 위한 결정 모듈; 및
    상기 인식할 텍스트를 분류하여, 상기 비디오의 카테고리를 획득하기 위한 분류 모듈;을 포함하는,
    비디오 분류 장치.
  9. 제8항에 있어서,
    상기 추출 모듈은 구체적으로,
    상기 다중 모달 정보 내의 각각의 모달 정보에 대해, 각각 특징 추출을 수행하여, 상기 각각의 모달 정보에 대응하는 특징을 획득하고,
    상기 각각의 모달 정보에 대응하는 특징을 융합하여, 융합 특징을 획득하고,
    상기 융합 특징에 따라 키워드 라벨링을 수행하여, 상기 비디오 내의 키워드를 결정하는데 사용되는,
    비디오 분류 장치.
  10. 제9항에 있어서,
    상기 다중 모달 정보는 텍스트 내용과 시각 정보를 포함하고,
    상기 시각 정보는 제1 시각 정보와 제2 시각 정보를 포함하고,
    상기 제1 시각 정보는 상기 비디오의 비디오 프레임 중의 텍스트에 대응하는 시각 정보이며,
    상기 제2 시각 정보는 상기 비디오 내의 키 프레임이며,
    상기 추출 모듈은 또한, 구체적으로,
    상기 텍스트 내용에 대해 제1 텍스트 인코딩을 수행하여, 텍스트 특징을 획득하고,
    상기 제1 시각 정보에 대해 제2 텍스트 인코딩을 수행하여, 제1 시각 특징을 획득하고,
    상기 제2 시각 정보에 대해 이미지 인코딩을 수행하여, 제2 시각 특징을 획득하는데 사용되는,
    비디오 분류 장치.
  11. 제9항에 있어서,
    상기 추출 모듈은 또한, 구체적으로,
    상기 각각의 모달 정보에 대응하는 특징에 대해 벡터 스플라이스를 수행하여, 스플라이스 벡터를 획득하고, 상기 스플라이스 벡터를 융합 특징으로 하는데 사용되는,
    비디오 분류 장치.
  12. 제9항에 있어서,
    상기 추출 모듈은 또한, 구체적으로,
    조건부 무작위 필드(conditional random field)를 사용하여, 상기 융합 특징에 따라 키워드 라벨링을 수행하는데 사용되는,
    비디오 분류 장치.
  13. 제8항에 있어서,
    상기 결정 모듈은, 구체적으로,
    기존의 지식베이스로부터, 상기 키워드에 대응하는 배경 지식을 획득하는데 사용되는,
    비디오 분류 장치.
  14. 제8항 내지 제13항 중 어느 한 항에 있어서,
    상기 분류 모듈은, 구체적으로,
    분류 모델을 사용하여, 상기 인식할 텍스트를 분류하는데 사용되고, 상기 분류 모델은 방송 데이터를 사용하여 트레이닝한 후에 획득되는,
    비디오 분류 장치.
  15. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 제1항 내지 제7항 중 어느 한 항의 방법이 수행되도록 하는,
    전자 기기.
  16. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제7항 중 어느 한 항의 방법을 수행하도록 하는,
    컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체.
  17. 컴퓨터 프로그램 제품에 있어서,
    컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 때, 제1항 내지 제7항 중 어느 한 항의 방법을 구현하는,
    컴퓨터 프로그램 제품.
  18. 비일시적 컴퓨터 판독 가능 기록 매체에 저장되어 있는 프로그램에 있어서,
    상기 프로그램은 상기 컴퓨터가 제1항 내지 제7항 중 어느 한 항의 방법을 수행하도록 하는,
    비일시적 컴퓨터 판독 가능 기록 매체에 저장되어 있는 프로그램.
KR1020220004158A 2021-03-05 2022-01-11 비디오 분류 방법, 장치, 기기 및 기록 매체 KR20220125672A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110244368.2 2021-03-05
CN202110244368.2A CN113159010B (zh) 2021-03-05 2021-03-05 视频分类方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
KR20220125672A true KR20220125672A (ko) 2022-09-14

Family

ID=76884217

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220004158A KR20220125672A (ko) 2021-03-05 2022-01-11 비디오 분류 방법, 장치, 기기 및 기록 매체

Country Status (5)

Country Link
US (1) US20220284218A1 (ko)
EP (1) EP4053802A1 (ko)
JP (1) JP7334395B2 (ko)
KR (1) KR20220125672A (ko)
CN (1) CN113159010B (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657230B (zh) * 2021-08-06 2024-04-23 北京百度网讯科技有限公司 训练新闻视频识别模型的方法、检测视频的方法及其装置
CN114398889A (zh) * 2022-01-18 2022-04-26 平安科技(深圳)有限公司 基于多模态模型的视频文本摘要方法、设备及存储介质
CN116363261B (zh) * 2023-03-31 2024-07-16 北京百度网讯科技有限公司 图像编辑模型的训练方法、图像编辑方法和装置
CN116486420B (zh) * 2023-04-12 2024-01-12 北京百度网讯科技有限公司 文档图像的实体抽取方法、装置及存储介质
CN116610828A (zh) * 2023-04-23 2023-08-18 苏州大学 一种基于多模态数据的电影类型预测方法和***
CN117234369B (zh) * 2023-08-21 2024-06-21 华院计算技术(上海)股份有限公司 数字人交互方法及***、计算机可读存储介质、数字人设备
CN117556067B (zh) * 2024-01-11 2024-03-29 腾讯科技(深圳)有限公司 数据检索方法、装置、计算机设备和存储介质
CN117609553B (zh) * 2024-01-23 2024-03-22 江南大学 基于局部特征增强和模态交互的视频检索方法及***

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961954B1 (en) * 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
US6363380B1 (en) * 1998-01-13 2002-03-26 U.S. Philips Corporation Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser
US7512273B2 (en) * 2004-10-21 2009-03-31 Microsoft Corporation Digital ink labeling
WO2007114796A1 (en) * 2006-04-05 2007-10-11 Agency For Science, Technology And Research Apparatus and method for analysing a video broadcast
JP2007294020A (ja) 2006-04-26 2007-11-08 Sony Corp 記録再生方法、記録再生装置、記録方法、記録装置、再生方法および再生装置
US9443147B2 (en) * 2010-04-26 2016-09-13 Microsoft Technology Licensing, Llc Enriching online videos by content detection, searching, and information aggregation
WO2014040169A1 (en) 2012-09-14 2014-03-20 Broadbandtv, Corp. Intelligent supplemental search engine optimization
US20150293995A1 (en) * 2014-04-14 2015-10-15 David Mo Chen Systems and Methods for Performing Multi-Modal Video Search
US20160014482A1 (en) * 2014-07-14 2016-01-14 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Generating Video Summary Sequences From One or More Video Segments
US9916522B2 (en) * 2016-03-11 2018-03-13 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation
US10262239B2 (en) 2016-07-26 2019-04-16 Viisights Solutions Ltd. Video content contextual classification
US20180129944A1 (en) * 2016-11-07 2018-05-10 Xerox Corporation Document understanding using conditional random fields
US10445582B2 (en) * 2016-12-20 2019-10-15 Canon Kabushiki Kaisha Tree structured CRF with unary potential function using action unit features of other segments as context feature
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US11017173B1 (en) * 2017-12-22 2021-05-25 Snap Inc. Named entity recognition visual context and caption data
US11457030B2 (en) * 2018-02-20 2022-09-27 Darktrace Holdings Limited Artificial intelligence researcher assistant for cybersecurity analysis
US10860858B2 (en) * 2018-06-15 2020-12-08 Adobe Inc. Utilizing a trained multi-modal combination model for content and text-based evaluation and distribution of digital video content to client devices
US10887640B2 (en) * 2018-07-11 2021-01-05 Adobe Inc. Utilizing artificial intelligence to generate enhanced digital content and improve digital content campaign design
CN109472232B (zh) 2018-10-31 2020-09-29 山东师范大学 基于多模态融合机制的视频语义表征方法、***及介质
CN109522450B (zh) * 2018-11-29 2023-04-07 腾讯科技(深圳)有限公司 一种视频分类的方法以及服务器
CN110012349B (zh) * 2019-06-04 2019-09-20 成都索贝数码科技股份有限公司 一种端到端的新闻节目结构化方法
CN110362684B (zh) * 2019-06-27 2022-10-25 腾讯科技(深圳)有限公司 一种文本分类方法、装置及计算机设备
CN110516654A (zh) * 2019-09-03 2019-11-29 北京百度网讯科技有限公司 视频场景的实体识别方法、装置、电子设备和介质
CN110879974B (zh) * 2019-11-01 2020-10-13 北京微播易科技股份有限公司 一种视频分类方法和装置
US11494647B2 (en) * 2019-12-06 2022-11-08 Adobe Inc. Slot filling with contextual information
CN111259215B (zh) * 2020-02-14 2023-06-27 北京百度网讯科技有限公司 基于多模态的主题分类方法、装置、设备、以及存储介质
CN111581510B (zh) * 2020-05-07 2024-02-09 腾讯科技(深圳)有限公司 分享内容处理方法、装置、计算机设备和存储介质
US11973993B2 (en) * 2020-10-28 2024-04-30 Nagravision S.A. Machine learning based media content annotation
CN112256917B (zh) * 2020-11-17 2024-03-26 腾讯科技(深圳)有限公司 用户兴趣识别方法、装置、设备及计算机可读存储介质
CN112329746B (zh) * 2021-01-04 2021-04-16 中国科学院自动化研究所 多模态谎言检测方法、装置、设备

Also Published As

Publication number Publication date
JP7334395B2 (ja) 2023-08-29
EP4053802A1 (en) 2022-09-07
CN113159010A (zh) 2021-07-23
JP2022135930A (ja) 2022-09-15
CN113159010B (zh) 2022-07-22
US20220284218A1 (en) 2022-09-08

Similar Documents

Publication Publication Date Title
KR20220125672A (ko) 비디오 분류 방법, 장치, 기기 및 기록 매체
WO2022142014A1 (zh) 基于多模态信息融合的文本分类方法、及其相关设备
CN108628830B (zh) 一种语义识别的方法和装置
WO2022213717A1 (zh) 模型训练方法、行人再识别方法、装置和电子设备
CN107862058B (zh) 用于生成信息的方法和装置
CN112528658B (zh) 层次化分类方法、装置、电子设备和存储介质
CN111639228A (zh) 视频检索方法、装置、设备及存储介质
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN112528641A (zh) 建立信息抽取模型的方法、装置、电子设备和可读存储介质
CN112989097A (zh) 模型训练、图片检索方法及装置
CN112906368B (zh) 行业文本增量方法、相关装置及计算机程序产品
CN113850291A (zh) 文本处理及模型训练方法、装置、设备和存储介质
CN113435523A (zh) 预测内容点击率的方法、装置、电子设备以及存储介质
US20240221346A1 (en) Model training method and apparatus, pedestrian re-identification method and apparatus, and electronic device
CN114880520B (zh) 视频标题生成方法、装置、电子设备和介质
CN113204616B (zh) 文本抽取模型的训练与文本抽取的方法、装置
CN113850290B (zh) 文本处理及模型训练方法、装置、设备和存储介质
CN113239215B (zh) 多媒体资源的分类方法、装置、电子设备及存储介质
JP2023554210A (ja) インテリジェント推奨用のソートモデルトレーニング方法及び装置、インテリジェント推奨方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN114416990A (zh) 对象关系网络的构建方法、装置和电子设备
CN113806541A (zh) 情感分类的方法和情感分类模型的训练方法、装置
CN113688938A (zh) 确定对象情感的方法、训练情感分类模型的方法及装置
CN112559727A (zh) 用于输出信息的方法、装置、设备、存储介质和程序
CN110688487A (zh) 一种文本分类的方法和装置
CN115131709B (zh) 视频类别预测方法、视频类别预测模型的训练方法及装置