KR102070197B1 - 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법 - Google Patents

영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법 Download PDF

Info

Publication number
KR102070197B1
KR102070197B1 KR1020180042361A KR20180042361A KR102070197B1 KR 102070197 B1 KR102070197 B1 KR 102070197B1 KR 1020180042361 A KR1020180042361 A KR 1020180042361A KR 20180042361 A KR20180042361 A KR 20180042361A KR 102070197 B1 KR102070197 B1 KR 102070197B1
Authority
KR
South Korea
Prior art keywords
analysis
image
information
audio
text
Prior art date
Application number
KR1020180042361A
Other languages
English (en)
Other versions
KR20190118904A (ko
Inventor
김진회
Original Assignee
김진회
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김진회 filed Critical 김진회
Priority to KR1020180042361A priority Critical patent/KR102070197B1/ko
Publication of KR20190118904A publication Critical patent/KR20190118904A/ko
Application granted granted Critical
Publication of KR102070197B1 publication Critical patent/KR102070197B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 영상에 포함된 비디오와 오디오를 각각 분석하여 얻은 텍스트를 기반으로 토픽 모델링을 통해 해당 영상을 효과적으로 설명할 수 있는 키워드를 부가함으로써 검색 성능을 개선할 수 있도록 한 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법에 관한 것으로, 영상을 오디오와 비디오로 분리한 후 각각의 비디오와 오디오를 딥러닝을 포함하는 다양한 분석 방식을 통해 분석한 결과를 텍스트와 분석 정보로 산출하고, 산출된 텍스트와 분석 정보를 토픽 모델링을 통해 해당 산출 정보들에 적합한 토픽을 포함하는 검색 키워드를 산출한 후 영상과 연동하여 저장함으로써 명시적으로 입력되지 않은 영상 관련 정보들을 검색 키워드로 활용하여 분류나 검색 성능을 개선할 수 있는 효과가 있다.

Description

영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법{Topic modeling multimedia search system based on multimedia analysis and method thereof}
본 발명은 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법에 관한 것으로, 특히 영상에 포함된 비디오와 오디오를 각각 분석하여 얻은 텍스트를 기반으로 토픽 모델링을 통해 해당 영상을 효과적으로 설명할 수 있는 키워드를 부가함으로써 검색 성능을 개선할 수 있도록 한 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법에 관한 것이다.
비디오와 오디오가 결합된 영상(멀티미디어, 소위 동영상)을 생성할 수 있는 수많은 장치가 폭발적으로 보급됨에 따라 수많은 영상 콘텐츠들이 양산되고 있으며, 이를 분류하고 검색하는 것이 점차 어려워지고 있는 실정이다.
특히, 이러한 수많은 영상 콘텐츠들이 등록되는 영상 플랫폼 서비스 제공자의 경우 사용자가 직접 등록하면서 입력한 키워드에는 한계가 있어 영상을 분류하고 검색할 경우 정확도나 결과에 대한 만족도가 낮아지게 된다. 나아가, 등록된 키워드가 실제 영상과 다른 경우도 빈번하기 때문에 이러한 키워드를 신뢰하기 어려운 문제가 있다.
또한, 수많은 영상 생성 장치들의 보급에 의해 일반 사용자들도 자신이 생성하거나 수집한 많은 영상 자료들을 분류하고 검색하는데 어려움을 겪고 있는 실정이다.
이러한 문제를 해결하기 위하여 영상에 포함된 비디오 프레임을 분석하여 등장하는 사람을 식별한 후 등장하는 사람에 따라 영상을 분류하고 검색하거나, 영상의 객체 움직임을 통해 상황을 설명하는 텍스트를 생성하도록 하는 방식이 등장하였다.
하지만, 영상 프레임에 포함된 객체를 식별하여 사람별로 영상을 분류하기 위해서는 많은 시스템 자원이 소요될 뿐만 아니라, 단순히 등장인물에 대한 분류만 가능하므로 해당 영상의 실질적인 내용이나 상황을 구분하여 분류하거나 검색하기는 어려운 실정이다. 또한, 영상 내 객체를 식별한 후 해당 객체의 움직임을 시간대별로 분석하는 경우 감시 카메라와 같이 고정된 카메라를 통한 영상에서는 가능하지만 촬영 위치가 고정되지 않은 대부분의 영상에서는 객체의 정확한 움직임 판단이 어려워 이러한 분석이 용이하지 않은 문제가 있고, 단순한 객체의 움직임을 통해 상황을 정확하게 판단하는 것 자체에 대한 신뢰성이 낮은 문제가 있다.
이러한 영상 분석 방식 외에, 영상에 포함된 오디오 중 음성을 인식하여 텍스트로 변환한 후 해당 텍스트에 포함된 키워드를 기반으로 분류 및 검색을 수행하고, 검색된 음성이 포함된 영상의 위치에서 검색 영상이 재생되도록 하는 방식도 제안되었다.
하지만, 영상에 포함된 음성을 인식하는 방법에 있어서도 오디오 정보만을 독립적으로 이용하므로 수많은 동음 이의어에 의한 잘못된 분류나 키워드 선정, 음성 인식 한계에 의한 잘못된 인식, 부족한 음성 정보에 의한 잘못된 분류, 사람의 음성 외의 유의미한 정보 누락과 같은 문제가 발생할 수 있다.
따라서, 영상에 대한 명시적 설명(작성자, 등록자, 관리자 등에 의해 수동으로 입력되는 정보)외에 영상 자체로부터 해당 영상을 설명할 수 있는 키워드를 효과적으로 수집하되, 이러한 키워드에 대한 신뢰성이나 정확성을 개선할 수 있도록 하여 결과적으로는 영상에 대한 분류 및 검색의 성능을 개선할 수 있도록 하는 새로운 방법이 요구되고 있는 실정이다.
한국 공개특허 제10-2011-0080712 [이동통신 단말기의 음성 인식을 통한 동영상 검색 방법 및 그 시스템과 동영상 음성의 텍스트 변환 장치] 한국 등록특허 제10-1413620 [영상 분석을 통한 영상 텍스트화 장치]
전술한 문제점을 개선하기 위한 본 발명 실시예들의 목적은 영상을 오디오와 비디오로 분리한 후 각각의 비디오와 오디오를 딥러닝을 포함하는 다양한 분석 방식을 통해 분석한 결과를 텍스트와 분석 정보로 산출하고, 산출된 텍스트와 분석 정보를 토픽 모델링을 통해 해당 산출 정보들에 적합한 토픽을 포함하는 검색 키워드를 산출한 후 영상과 연동하여 저장함으로써 분류나 검색 성능을 개선할 수 있도록 한 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법을 제공하는 것이다.
본 발명 실시예들의 다른 목적은 영상을 오디오와 비디오로 분리한 후 오디오 분석을 통해 분석한 유의미한 오디오 발생 시점에 대한 정보를 산출하고, 비디오 분석 시 해당 유의미한 오디오 발생 시점을 기준으로 하는 비디오 프레임을 선별하여 비디오 분석을 수행함으로써 영상에서 중요도가 높은 비디오 프레임에 대한 선별 분석을 통해 영상에 대한 정확한 토픽 분석이 가능하도록 한 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법을 제공하는 것이다.
본 발명의 실시예들을 또 다른 목적은 영상을 오디오와 비디오로 분리한 후 비디오 프레임에 대한 분석을 통해 얻은 객체나 상황 분석 결과를 오디오 분석에 적용하는 것으로 오디오에 포함된 소음에 대한 유의미성 분석이나 오디오에 포함된 음성 인식에 대한 정확도를 개선할 수 있도록 하여 영상에 대한 정확한 토픽 분석이 가능하도록 한 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법을 제공하는 것이다.
본 발명 실시예들의 또 다른 목적은 토픽 분석을 위해 산출된 오디오와 비디오 분석에 따른 텍스트와 산출 정보를 누적되거나 새로운 환경에 따라 개선되는 분석 수단을 통해 재분석함으로써 토픽 모델링 성능을 개선하도록 한 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법을 제공하는 것이다.
상기와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 영상 분석 기반 토픽 모델링 영상 검색 시스템은 영상을 수신하는 영상 수신부와, 수신된 영상을 비디오와 오디오로 분리하는 비디오 오디오 분리부와, 분리된 비디오에 포함된 프레임 이미지들을 분석하여 분석 결과를 텍스트 정보와 분석 정보로 제공하는 이미지 분석 텍스트화부와, 분리된 오디오를 분석하여 분석 결과를 텍스트 정보와 분석 정보로 제공하는 오디오 분석 텍스트화부와, 상기 이미지 분석 텍스트화부 및 오디오 분석 텍스트화부로부터 제공되는 텍스트 정보와 분석 정보를 포함하는 영상 분석 정보를 기준으로 텍스트 전처리를 수행하여 전처리된 키워드와 분석 정보를 제공하는 키워드 추출부와, 키워드 추출부로부터 제공되는 전처리된 키워드와 분석 정보를 기준으로 해당 키워드들에 대한 토픽을 산출하는 토픽 모델링부와, 토픽 모델링부를 통해 산출된 토픽과 키워드 추출부를 통해 추출된 정보를 검색 키워드로서 영상과 대응시켜 저장하도록 하는 데이터베이스 연동부를 포함하는 검색 키워드 생성 장치를 구비한다.
영상 분석 기반 토픽 모델링 영상 검색 시스템은 영상을 저장하고, 검색 키워드 생성 장치와 연동하여 해당 영상에 대한 검색 키워드를 연동 저장하는 데이터베이스와, 검색 쿼리를 수신하여 상기 데이터베이스를 통해 검색 결과에 대응되는 영상을 선별 제공하는 검색 서버를 더 포함할 수 있다.
한편, 이미지 분석 텍스트화부와 오디오 분석 텍스트화부와 연동하여 이미지 분석 텍스트화부의 분석 결과에서 오디오 분석 텍스트화부의 분석에 적용될 수 있는 관계성 정보를 추출하여 오디오 분석 텍스트화부에 제공하거나, 오디오 분석 텍스트화부의 분석 결과에서 이미지 분석 텍스트화부의 분석에 적용될 수 있는 관계성 정보를 추출하여 이미지 분석 텍스트화부에 제공하는 관계성 추출부를 더 포함할 수 있다.
이러한 관계성 추출부가 제공하는 관계성 정보는 오디오 분석 텍스트화부의 분석 결과에서 유의미한 오디오 발생 시점에 대한 정보를 추출하여 이미지 분석을 위한 프레임 선택 가중치를 높일 수 있는 정보로서 이미지 분석 텍스트화부에 제공하는 것이거나, 이미지 분석 텍스트화부의 분석 결과로부터 포함되는 객체의 종류나 상황에 대한 정보를 추출하여 오디오 분석 시 오디오 종류나 음성 인식에 사용되는 가중치를 제공하는 정보로서 오디오 분석 텍스트화부에 제공하는 것일 수 있다.
더하여, 관계성 추출부는 오디오 분석 텍스트화부와 이미지 분석 텍스트화부에 제공한 관계성 정보를 추가적인 분석 정보로서 키워드 추출부에 제공할 수 있다.
또한, 토픽 모델링부는 키워드 추출부를 통해 제공되는 전처리된 키워드와 분석 정보를 기반으로 데이터의 양, 질, 카테고리 중 적어도 하나를 고려하여 LSA(Latent Semantic Analysis), LDA(Latent Dirichlet Allocation), 딥러닝(Deep Learning) 분석 중 적어도 하나 이상을 통해 유의미한 토픽을 산출할 수 있다.
여기서, 토픽 모델링부는 기 설정된 이벤트 발생 시 데이터베이스 연동부를 통해 기 저장된 검색 키워드를 현재 시점의 분석 수단을 통해 재분석하여 토픽 모델링을 다시 수행할 수 있다.
본 발명의 다른 실시예에 따른 영상 분석 기반 토픽 모델링 영상 검색 방법은 영상을 수신하여 해당 영상에 대한 검색 키워드를 생성하여 데이터베이스에 해당 영상과 연동시켜 저장하는 검색 키워드 생성 장치에서 검색 키워드를 생성하는 방법으로서, 수신된 영상을 비디오와 오디오로 분리하는 비디오 오디오 분리 단계와, 분리된 비디오에 포함된 프레임 이미지들을 분석하여 분석 결과를 텍스트 정보와 분석 정보로 제공하는 이미지 분석 텍스트화 단계와, 분리된 오디오를 분석하여 분석 결과를 텍스트 정보와 분석 정보로 제공하는 오디오 분석 텍스트화 단계와, 상기 이미지 분석 텍스트화 단계 및 오디오 분석 텍스트화 단계를 통해 제공되는 텍스트 정보와 분석 정보를 포함하는 영상 분석 정보를 기준으로 텍스트 전처리를 수행하여 전처리된 키워드와 분석 정보를 제공하는 키워드 추출 단계와, 키워드 추출 단계로부터 제공되는 전처리된 키워드와 분석 정보를 기준으로 해당 키워드들에 대한 토픽을 산출하는 토픽 모델링 단계와, 토픽 모델링 단계를 통해 산출된 토픽과 키워드 추출 단계를 통해 추출된 정보를 검색 키워드로서 영상과 대응시켜 저장하도록 하는 데이터베이스 연동 단계를 포함한다.
이미지 분석 텍스트화 단계의 분석 결과에서 오디오 분석 텍스트화 단계의 분석에 적용될 수 있는 관계성 정보를 추출하여 오디오 분석 텍스트화 단계에 적용하도록 제공하거나, 오디오 분석 텍스트화 단계의 분석 결과에서 이미지 분석 텍스트화 단계의 분석에 적용될 수 있는 관계성 정보를 추출하여 이미지 분석 텍스트화 단계에 적용하도록 제공하는 관계성 추출 단계를 더 포함할 수 있다.
더하여, 기 설정된 이벤트 발생 시 데이터베이스 연동 단계를 통해 기 저장된 검색 키워드를 현재 시점의 분석 수단을 통해 재분석하여 토픽 모델링을 다시 수행하는 토픽 모델링 재수행 단계를 더 포함할 수 있다.
본 발명 실시예에 따른 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법은 영상을 오디오와 비디오로 분리한 후 각각의 비디오와 오디오를 딥러닝을 포함하는 다양한 분석 방식을 통해 분석한 결과를 텍스트와 분석 정보로 산출하고, 산출된 텍스트와 분석 정보를 토픽 모델링을 통해 해당 산출 정보들에 적합한 토픽을 포함하는 검색 키워드를 산출한 후 영상과 연동하여 저장함으로써 명시적으로 입력되지 않은 영상 관련 정보들을 검색 키워드로 활용하여 분류나 검색 성능을 개선할 수 있는 효과가 있다.
본 발명 실시예에 따른 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법은 영상을 오디오와 비디오로 분리한 후 오디오 분석을 통해 분석한 유의미한 오디오 발생 시점에 대한 정보를 산출하고, 이미지 분석 시 해당 유의미한 오디오 발생 시점을 기준으로 하는 비디오 프레임을 선별하여 이미지 분석을 수행함으로써 영상에서 중요도가 높은 비디오 프레임에 대한 선별 분석을 통해 영상에 대한 정확한 토픽 분석이 가능하도록 한 효과가 있다.
본 발명 실시예에 따른 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법은 영상을 오디오와 비디오로 분리한 후 비디오 프레임에 대한 분석을 통해 얻은 객체나 상황 분석 결과를 오디오 분석에 적용하는 것으로 오디오에 포함된 소음에 대한 유의미성 분석이나 오디오에 포함된 음성 인식에 대한 정확도를 개선할 수 있도록 하여 영상에 대한 정확한 토픽 분석이 가능한 효과가 있다.
본 발명 실시예에 따른 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법은 토픽 분석을 위해 산출된 오디오와 이미지 분석에 따른 텍스트와 산출 정보를 누적되거나 새로운 환경에 따라 개선되는 분석 수단을 통해 재분석하는 것으로 검색 시점의 관심도나 분석 정확도를 반영한 검색 키워드를 제공하여 검색 성능을 개선할 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 영상 분석 기반 토픽 모델링 영상 검색 시스템의 개념을 설명하는 구성도.
도 2는 본 발명의 실시예에 따른 검색 키워드 생성 장치의 구성도.
도 3은 본 발명의 다른 실시예에 따른 검색 키워드 생성 장치의 구성도.
도 4는 본 발명의 실시예에 따른 이미지 분석 텍스트화부의 분석 결과 개념도.
도 5는 본 발명의 실시예에 따른 오디오 분석 텍스트화부의 분석 결과 개념도.
도 6 및 도 7은 본 발명의 실시예에 따른 관계성 추출부의 동작 방식 개념도.
도 8은 본 발명의 실시예에 따른 키워드 추출부와 토픽 모델링부의 구성 예.
도 9는 본 발명의 실시예에 다른 텍스트 전처리부의 구성 예.
상기한 바와 같은 본 발명을 첨부된 도면들과 실시예들을 통해 상세히 설명하도록 한다.
본 발명에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.
또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 발명에서, "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성 요소들, 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 발명에서 사용되는 제 1, 제 2 등과 같이 서수를 포함하는 용어는 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 유사하게 제 2 구성 요소도 제 1 구성 요소로 명명될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.
도 1은 본 발명의 실시예에 따른 영상 분석 기반 토픽 모델링 영상 검색 시스템의 개념을 설명하는 구성도로서, 사용자 단말들(1)이 네트워크(2)를 통해 접속하는 영상 서비스 서버(3)와 연동하는 영상 분석 기반 토픽 모델링 영상 검색 시스템(10)을 보인 것이다.
도시된 영상 서비스 서버(3)는 알려져 있는 동영상 검색 서비스(예컨대 유튜브를 포함하는 다양한 동영상 검색 서비스)를 제공하기 위한 서버일 수 있고, 사용자의 등록 영상을 관리하는 영상 저장 클라우드 서비스(예컨대 피카사를 포함하는 영상 등록 및 검색 서비스)일 수 있다. 물론, 사용자의 로컬 저장 장치와 연동하여 저장된 영상에 대한 검색 서비스를 제공하는 것일 수도 있으므로, 구체적인 서비스의 종류와 구체적 구성은 다양하게 변경될 수 있다.
도시된 영상 분석 기반 토픽 모델링 영상 검색 시스템(10)은 영상을 수신하여 해당 영상에 대해 명시적으로 입력되지 않은 검색 키워드를 생성하는 검색 키워드 생성 장치(100)와, 영상을 저장하고, 검색 키워드 생성 장치(100)와 연동하여 해당 영상에 대한 검색 키워드를 연동 저장하는 데이터베이스(300)와, 영상 서비스 서버(30)로부터 검색 쿼리를 수신하여 상기 데이터베이스(300)를 통해 검색 결과에 대응되는 영상을 선별 제공하는 검색 서버(200)를 포함한다.
물론, 영상을 등록할 경우 영상 생성자, 등록자, 관리자 등에 의해 명시적으로 영상에 대한 설명이나 키워드를 등록 받을 수 있으며, 이는 데이터베이스(300)의 키워드 데이터베이스에 영상과 연동하여 저장되며, 검색 서버(200)의 검색 시 활용될 수 있다.
다만, 이러한 명시적 설명이나 키워드의 부족한 부분이나 불일치되는 부분을 보충하여 보다 정확한 검색을 위해서 영상의 실제 내용에 대한 추가 키워드가 필요하며 본 발명의 실시예에 따른 검색 키워드 생성 장치(100)는 이러한 추가 키워드를 영상에 포함된 비디오와 오디오로부터 추출하고, 이를 토픽 모델링을 통해 확장하여 좀 더 깊이 있는 검색 키워드를 추출함으로써 분류나 검색 성능을 개선하고자 한다.
도 2는 본 발명의 실시예에 따른 검색 키워드 생성 장치(100)의 구성도를 보인 것으로, 도시된 바와 같이 영상을 영상 서비스 서버(3)(혹은 기 저장된 데이터베이스, 사용자 단말 등)로부터 수신하는 영상 수신부(110)와, 수신된 영상을 비디오와 오디오로 분리하는 비디오 오디오 분리부(120)와, 분리된 비디오에 포함된 프레임 이미지들을 분석하여 분석 결과를 텍스트 정보와 분석 정보로 제공하는 이미지 분석 텍스트화부(130)와, 분리된 오디오를 분석하여 분석 결과를 텍스트 정보와 분석 정보로 제공하는 오디오 분석 텍스트화부(140)와, 상기 이미지 분석 텍스트화부(130) 및 오디오 분석 텍스트화부(140)로부터 제공되는 텍스트 정보와 분석 정보를 포함하는 영상 분석 정보를 기준으로 텍스트 전처리를 수행하여 전처리된 키워드와 분석 정보를 제공하는 키워드 추출부(150)와, 키워드 추출부(150)로부터 제공되는 전처리된 키워드와 분석 정보를 기준으로 해당 키워드들에 대한 토픽을 산출하는 토픽 모델링부(160)와, 토픽 모델링부(160)를 통해 산출된 토픽과 키워드 추출부(150)를 통해 추출된 정보를 검색 키워드로서 영상과 대응시켜 저장하도록 하는 데이터베이스 연동부(170)를 포함한다.
도시된 이미지 분석 텍스트화부(130)는 비디오에 포함된 프레임 이미지를 주기적으로 선별하거나 기 설정된 방식으로 선별하여 해당 정지 이미지에 포함된 객체나 객체를 포함하는 상황을 딥러닝 분석을 통해 텍스트 정보와, 정확도를 포함하는 분석 정보로 출력한다. 이러한 딥러닝 분석은 복수의 히든 레이어가 포함되는 CNN(Convolutional Neural Network), RNN(Recurrent Neural Network) 등의 심층 신경망 방식이 있고, 이를 개선한 다양한 방식들이 계속하여 소개되고 있으며, 적용 분야에 따라 급격한 성능 향상과 다양한 분석 결과를 제공하고 있다.
따라서, 단순히 영상 내 객체의 종류와 위치, 크기에 대한 기본적인 분석 결과는 물론이고 최근에는 객체의 심리 상태, 객체의 일부에 대한 상세한 설명, 상황에 대한 인지 결과 등을 제공하기도 하므로 정지 영상을 통해서 상당히 많은 정보를 텍스트와 분석 정보(정확도, 가중치, 부가적인 분석 정보 등)로 제공할 수 있다.
한편, 오디오 분석 텍스트화부(140)는 오디오에 포함된 유의미한 소리의 종류와 음성신호에 포함된 언어 정보를 추출하여 텍스트 정보와 정확도를 포함하는 분석 정보로 출력할 수 있는데, 이 역시 딥러닝 분석이 적용되면서 인식 정확도가 급격히 개선되고 있는 상황이다. 다만, 음성 신호에 포함된 언어 정보를 추출하는 부분에 초점이 맞추어져 있어 음성 신호를 텍스트로 변환하는 성능은 상당히 개선되어 있지만 잡음에 대한 처리는 대부분 잡음을 제거하는 방식으로 동작하고 있다. 따라서, 본 발명에서는 음성 신호를 텍스트로 변환하는 방식을 적용함과 아울러 잡음의 종류를 구분하여 발소리, 박수소리, 감탄사, 각종 동물의 울음소리 등에 대한 정보를 영상에 대한 정보로서 활용할 수 있다. 따라서, 오디오 분석 텍스트화부(140)는 분석된 오디오에 대한 텍스트 정보 및 분석 정보(잡음에 대한 분석 정보, 분석 정보에 대한 정확도 정보 등)를 제공한다.
도시된 키워드 추출부(150)는 이미지 분석 텍스트화부(130)와 오디오 분석 텍스트화부(140)로부터 제공되는 텍스트 정보와 분석 정보를 수집한 후 텍스트 전처리를 수행한다. 텍스트 전처리는 음성 인식에 따른 언어 정보인 경우 띄어쓰기, 토큰 분리, 정규화, 품사 태깅, 영상 종류에 따른 가중치 부여와 같은 텍스트 처리와 정렬 과정을 통해 후속 토픽 모델링부(160)의 모델링 효율성을 높일 수 있는 처리를 수행한다. 물론, 텍스트 정보 외에 수집되는 각종 분석 정보를 활용하여 가중치 처리나 정렬 과정을 수행할 수 있다.
도시된 토픽 모델링부(160)는 키워드 추출부(150)를 통해 추출된 키워드와 분석 정보를 기준으로 해당 키워드들에 대한 토픽을 산출하는데, 통상 텍스트 키워드만으로 분석을 실시할 경우 동음이의어, 동의어, 신조어, 오탈자, 감정분석 등의 분석이 어렵기 때문에 추출된 텍스트를 그대로 이용하는 대신 토픽 모델링을 통해서 추출된 텍스트를 기반으로 관련 토픽을 산출하고 이를 키워드로 추가한다.
따라서, 도시된 토픽 모델링부(160)는 키워드 추출부(150)를 통해 제공되는 전처리된 키워드와 분석 정보를 기반으로 데이터의 양, 질, 카테고리를 고려하여 LSA(Latent Semantic Analysis), LDA(Latent Dirichlet Allocation), 딥러닝(Deep Learning) 분석 중 적어도 하나 이상을 통해 유의미한 토픽을 산출한다.
토픽 모델링은 통상 문서를 분석하여 문서 집합의 추상적 주제를 발견하기 위하여 통계적 모델을 이용하는 것으로, 텍스트 본문에 숨겨진 의미 구조를 발견하기 위한 텍스트 마이닝 분야의 기술에 해당한다. 하지만, 본 발명의 경우, 영상으로부터 이미지 분석을 통해 텍스트를 추출하고, 오디오 분석을 통해 텍스트를 추출하는 것이므로 정확한 문장 구조를 가지는 텍스트 문서를 위한 토픽 모델링과 다르지만, 키워드 자체에 대한 중요도가 높고, 오디오와 비디오라는 서로 다른 종류의 분석 대상에 따른 상이한 방식의 텍스트 데이터를 동시에 활용하는 것임과 아울러, 분석 정보와 같은 정확도와 가중치에 대한 정보도 활용하기 때문에 영상을 설명하기 위한 토픽을 영상에 맞추어 선별하는 토픽 모델링은 문서를 대상으로 하는 것에 비해 더 간단하면서도 더 정확한 토픽 선별이 가능하게 된다.
이러한 토픽 모델링을 위해 각 키워드들을 벡터로 표현하고 유사한 뜻을 가진 키워드의 벡터들이 실제로 코사인 유사도가 높은 것으로 확인하는 모델을 이용하는 경우 상이한 키워드들로부터 새로운 토픽 키워드를 산출할 수 있다. 예를 들어, 인공신경망 모형 중 word3vac 모델을 이용하는 경우 한국, 미국, 중국이라는 키워드를 통해서 '정부'라는 새로운 토픽 키워드를 산출하거나, 기업, 회사, 업체라는 키워드를 통해서 '개인'이라는 새로운 토픽 키워드를 산출하는 등 일반적으로 예상하기 어려운 키워드를 유사성 분석에 따른 토픽을 키워드로 산출할 수 있게 된다.
따라서, 단순히 영상의 오디오와 비디오를 분석하여 산출되는 텍스트를 키워드로 이용하는 것이 아닌 이러한 키워드와 함께 이러한 키워드를 통해 최근 사람들의 관심이나 내적 상관도를 반영하는 토픽을 새로운 키워드로 산출하여 함께 사용함으로써 검색 결과에 대한 만족도를 높일 수 있게 된다.
한편, 토픽 모델링부(160)는 특정한 이벤트 발생(주기적인 시간 간격, 사회적 이슈 발생, 관리자의 요청, 검색 요청 등) 시 데이터베이스 연동부(170)를 통해 데이터베이스의 키워드 데이터베이스에 기 저장했던 검색 키워드를 현재 시점의 분석 수단을 통해 재분석하여 토픽 모델링을 다시 수행할 수 있다. 즉, 토픽 모델링부(160)에서 토픽을 모델링하는 알고리즘은 누적되는 학습 내용, 학습 데이터 량, 학습 데이터의 질 등에 따라 그 결과물이 달라지기 때문에 모델링 시점에 따라 결과가 달라질 수 있다. 따라서 동일한 영상이라 하더라도 최근의 관심도에 따라 기존에는 추출되지 않은 새로운 키워드로 검색할 수 있도록 토픽 모델링을 이벤트 발생 시 재수행함으로써 검색 성능을 개선할 수 있다. 예를 들어, 영상을 등록한 시점에 추출된 키워드가 '정치, 영화, 폭력'인 경우 토픽 키워드로 '역사, 민주화'등이 산출되어 검색 키워드에 포함되었으나, 시간이 지나 동일한 키워드에 대한 토픽 모델링을 수행하면 '미투, 위드유' 등이 산출될 수 있으며, 이러한 새로운 키워드를 검색 키워드에 포함시킴으로서 검색 성능을 높일 수 있다.
도 3은 본 발명의 다른 실시예에 따른 검색 키워드 생성 장치의 구성도를 보인 것으로, 도시된 구성의 경우 영상을 구성하는 비디오와 오디오를 분석함에 있어 비디오와 오디오 분석 결과가 상호 영향을 미친다는 점에 착안하여 이미지 분석 텍스트화부(130)와 오디오 분석 텍스트화부(140)와 연동하는 관계성 추출부(180)를 더 구성한 것이다.
이러한 관계성 추출부(170)는 이미지 분석 텍스트화부(130)의 분석 결과에서 오디오 분석 텍스트화부(140)의 분석에 적용될 수 있는 관계성 정보를 추출하여 오디오 분석 텍스트화부(140)에 제공하거나, 오디오 분석 텍스트화부(140)의 분석 결과에서 이미지 분석 텍스트화부(130)의 분석에 적용될 수 있는 관계성 정보를 추출하여 이미지 분석 텍스트화부(130)에 제공하도록 구성된다.
이러한 관계성 추출부(170)가 제공하는 관계성 정보는 오디오 분석 텍스트화부(140)의 분석 결과에서 유의미한 오디오 발생 시점에 대한 정보를 추출하여 비디오 분석을 위한 프레임 선택 가중치를 높일 수 있는 정보로서 이미지 분석 텍스트화부(130)에 제공하는 것이거나, 이미지 분석 텍스트화부(130)의 분석 결과로부터 포함되는 객체의 종류나 상황에 대한 정보를 추출하여 오디오 분석 시 오디오 종류나 음성 인식에 사용되는 가중치를 제공하는 정보로서 오디오 분석 텍스트화부(130)에 제공하는 것일 수 있다.
더불어, 관계성 추출부(180)는 오디오 분석 텍스트화부(140)와 이미지 분석 텍스트화부(130)에 제공한 관계성 정보를 추가적인 분석 정보로서 키워드 추출부(150)에 제공할 수 있으며, 토픽 모델링부(160)는 이를 반영하여 토픽을 산출할 수 있다.
이러한 관계성 추출부(180)의 동작을 도 4 내지 도 7을 통해 좀 더 상세히 설명한다.
도 4는 본 발명의 실시예에 따른 이미지 분석 텍스트화부(130)의 분석 결과 개념도로서, 비디오에 포함된 프레임 중 소정의 프레임 이미지를 분석한 결과를 보인 예시도이다.
도시된 바와 같이 '판다'가 나타나 있는 프레임 이미지를 분석한 결과 객체의 종류들에 대한 분석 결과들이 정확도(스코어)와 함께 제시된다. 이러한 경우 소정의 스코어 이상을 가진 텍스트를 해당 프레임 이미지에 대한 분석 결과 텍스트로 제공하고 그 정확도를 분석 정보로 제공할 수 있다.
물론, 분석 성능이 개선됨에 따라 단순히 판다라는 객체의 식별 정보만 제공하는 것이 아닌, '판다, 대나무, 식사, 먹이, 즐거움, 앉아 있음' 등과 같은 좀 더 세부적인 정보를 제공할 수 있으며, 이미지를 분석한 결과가 다음 이미지 분석에 영향을 미칠 수도 있다.
도 5는 본 발명의 실시예에 따른 오디오 분석 텍스트화부의 분석 결과 개념도로서, 오디오에 포함된 음성을 언어 정보로 변환한 결과를 보인 것이다. 이러한 오디오 정보로부터 음성을 인식하는 방식 역시 딥러닝의 도입에 따라 좀 더 정확해지고 있지만, 실제 분석되는 오디오 정보에 포함된 노이즈, 발음의 정확도 등에 따라 오인식, 잡음 처리, 잘못된 띄어쓰기 등의 문제가 발생할 수 있으며, 잡음으로 처리되는 박수, 감탄사, 일상적으로 구분 가능한 소리, 동물의 소리 등에 대한 유의미한 정보를 누락시킬 가능성이 있다.
도 6 및 도 7은 본 발명의 실시예에 따른 관계성 추출부의 동작 방식 개념도로서, 도 6은 오디오 분석 텍스트화부의 분석 결과에서 이미지 분석 텍스트화부의 분석에 적용될 수 있는 관계성 정보를 추출하여 이미지 분석 텍스트화부에 제공하는 예시이고, 도 7은 이미지 분석 텍스트화부의 분석 결과에서 오디오 분석 텍스트화부의 분석에 적용될 수 있는 관계성 정보를 추출하여 오디오 분석 텍스트화부에 제공하는 예시이다.
먼저, 도 6a는 오디오 분석 텍스트화부에서 오디오 신호를 분석하는 과정에서 특정한 오디오 신호가 발생되는 시점의 타임 스탬프를 보인 것이고, 도 6b는 오디오 신호 발생 시점의 오디오 신호를 개념적으로 나타낸 것이다.
도 6c는 이러한 오디오 신호를 분석한 결과를 보인 것으로, 도시된 바와 같이 처음에는 감탄사가, 그 다음에는 소음이, 그 다음에는 언어로 추출되는 음성이, 그리고 마지막으로 환호가 나타나는 것으로 분석된 예시이다.
이와 같이 도 6a 내지 도 6b는 오디오 분석 텍스트화부에서 분석되는 정보이고, 도 6c는 오디오 분석 텍스트화부에서 분석한 결과 텍스트 정보 및 분석 정보의 일부일 수 있다. 물론 도 6c와 달리 더 많은 오디오 신호를 다양한 발생 원인에 따라 분류하고 식별할 수 있고, 음성을 제외한 오디오 신호들은 모두 잡음으로 처리할 수도 있다. 또한, 오디오 신호 중 도시된 감탄사나 환호 등은 정확히 그 종류를 식별하지 못한 상태에서 일정 이상 크기의 신호들로 구분한 후 유의미할 수 있는 오디오 발생 시점을 선별하는 데에만 활용할 수도 있다.
결국, 오디오 분석 텍스트화부는 유의미한 오디오 발생 시점이나 구간에 대한 정보를 도 6a와 같이 구분할 수 있으며, 관계성 추출부는 이러한 유의미한 오디오 발생 시점이나 구간에 대한 정보를 관계성 정보로 추출하여 이미지 분석 텍스트화부에 전달할 수 있다.
이미지 분석 텍스트화부는 관계성 추출부에서 제공한 관계성 정보를 이용할 경우 유의미한 오디오 발생 시점이나 구간에 우선 순위를 두어(가중치를 적용하여) 도 6d와 같이 해당 시점들을 기준으로 하는 프레임 이미지들을 선별할 수 있고, 이러한 프레임 이미지들이 영상을 설명하는데 더 유의미한 이미지일 수 있다.
따라서, 이렇게 관계성 추출부에서 제공하는 오디오 분석 텍스트화부의 분석 결과에 따른 관계성 정보를 활용하여 이미지 분석 텍스트화부의 분석을 수행할 경우 단순히 일정 시간 간격으로 비디오에서 프레임 이미지를 추출하여 해당 이미지 내의 객체나 상황 등을 분석하는 경우에 비해 영상에서 더 중요한 이미지들을 선별하여 분석함으로써 이미지 분석 결과가 영상을 설명하는데 더 적합한 키워드들을 더 많이 포함할 수 있다.
물론, 관계성 추출부의 관계성 정보가 단순히 오디오 신호가 발생되는 시점에 대한 정보로 한정되는 것은 아니며, 오디오 분석 텍스트화부에서 분석한 오디오의 의미를 추론하여 의미가 있는 장면에 대한 시점을 선별하거나, 화자가 변경되는 구간을 선별하거나, 화자의 억양이나 감정을 기반으로 특정 구간을 선별하거나, 소음으로 간주될 수 있으나 유의미한 소리(알람, 벨, 충돌음, 감탄사, 동물 소리 등)가 발생되는 시점을 선별하는 등 다양한 기준에 따라 비디오 분석과 연관성이 높은 시점에 대한 정보를 관계성 정보로 산출할 수 있다.
한편, 관계성 추출부는 이러한 특정한 시점에 대한 정보를 키워드 추출부에 제공함으로써 오디오 분석 내용과 영상 분석 내용을 상호 결합시켜 키워들의 관련도를 높일 수도 있다. 예를 들어, 오디오 분석 결과 "박수", 비디오 분석 결과 "군중, 사람들"을 연관짓거나, 음성 인식 내용 "좋아"와 비디오 분석 결과 "남자와 여자"를 연관짓는 등의 상호 결합에 의해 내용 분석 정확도를 더 높일 수 있도록 할 수 있으며, 간단히 키워드 추출부가 이러한 키워드들 간에 결합도를 높이거나 가중치를 높여 토픽 모델링부에 제공할 수 있다.
도 7은 도 6과 반대로 이미지 분석 텍스트화부의 분석 결과에서 오디오 분석 텍스트화부의 분석에 적용될 수 있는 관계성 정보를 추출하여 오디오 분석 텍스트화부에 제공하는 것으로, 도 7a와 같은 이미지들을 분석한 결과 '고양이, 사람, 고양이와 개' 등의 텍스트를 얻은 경우 관계성 추출부는 이러한 이미지 분석 텍스트화부의 분석 결과에서 얻은 오디오 발생원에 대한 정보를 관계성 정보로 오디오 분석 텍스트화부에 제공할 수 있다.
오디오 분석 텍스트화부는 도 7b와 같은 오디오 신호를 분석할 때 관계성 정보로 수신한 오디오 발생원에 대한 정보를 기반으로 해당 오디오 발생원이 발생시킬 가능성이 있는 오디오 신호에 가중치를 두어 분석을 수행하는 것으로 도 7c와 같이 잡음으로 누락시킬 수 있는 동물들의 소리를 명확한 텍스트 형태로 분석할 수 있다.
즉, 임의의 모든 대상을 기준으로 오디오 신호를 분석할 경우 막연히 사람의 음성과 대표적인 몇가지 오디오 신호를 구분하고 그 외에는 잡음으로 처리하여 분석에서 제외시킬 수 있으나, 관계성 정보를 통해 고양이와 개에 대한 오디오 발생원에 대한 정보를 반영하여 오디오 신호를 분석할 경우 잡음 같은 동물 소리도 "멍멍, 야옹"과 같은 대표적은 소리는 물론이고 "고양이가 갸르릉 거리는 소리, 강아지가 으르렁 거리는 소리, 고양이와 강아지가 장난치는 소리, 고양이와 강아지가 싸우는 소리"등과 같은 누락 가능성이 있는 소리에 대한 좀 더 정확하고 영상을 더 설명할 수 있는 텍스트 정보를 제공할 수 있게 된다.
물론, 이러한 관계성 정보는 단순히 이미지 내의 객체 분석을 통한 오디오 발생원에 대한 정보로 한정되는 것은 아니며, 이미지 분석에 따른 상황으로부터 예측 가능한 오디오 발생원에 대한 정보이거나, 영상 내 포함된 텍스트를 식별한 정보를 포함하는 등 오디오 신호 분석에 도움이 될 수 있는 이미지 분석 정보를 포괄할 수 있다.
더불어, 이러한 관계성 정보는 이미지 분석 텍스트화부와 오디오 분석 텍스트화부가 상호 주고 받으면서 복수회 분석을 수행하는 것으로 그 분석 결과를 더욱 신뢰성 있도록 개선할 수도 있다.
도 8은 본 발명의 실시예에 따른 키워드 추출부와 토픽 모델링부의 구성 예로서, 키워드 추출부(150)는 이미지 분석 텍스트화부와 오디오 분석 텍스트화부로부터 텍스트와 분석 정보를 수집하는 수집부(151)와, 수집된 텍스트를 전처리하는 텍스트 전처리부(152)를 포함한다.
여기서 수집부(151)는 관계성 추출부로부터 관계성 정보를 더 수집할 수 있으며 기 수집된 텍스트들에 대한 관계성이나 가중치를 부가할 수 있다.
텍스트 전처리부(152)는 수집된 텍스트(이미지를 설명하는 텍스트, 오디오 신호를 설명하는 텍스트, 음성 인식에 따른 텍스트)를 후속 토픽 모델링부(160)에서 수치형 자료로 활용할 수 있도록 전처리하는 것으로, 도 9에 도시한 바와 같이 토큰 분리부, 정규화부, 품사 태깅부, 가중 처리부를 포함할 수 있다.
토큰 분리부는 연속된 단어나 문자열로 표현된 텍스트 정보를 의미 표현의 기본 단위인 토큰으로 나누는 작업을 수행한다. 일반적으로 조사와 어미가 결합된 단어들에서 의미 표현 단위로 나누게 되는데, 도 5에 도시된 예시 문장을 예로 들어 토큰 분리 작업을 수행하면 다음과 같은 결과를 얻을 수 있다.
'금융통화위원회/는 다음 통화정책/방향 결정/시/까지 한국은행 기준금리/를 현 수준/에서 유지/하여 통화정책/을 운용/하기로 하였습니다.'
정규화부는 토큰 분리부를 통해 변형된 토큰을 표준적인 토큰으로 재분류하는 것으로서, 동사의 시제, 성, 수 등에 따른 변화를 기존 형태로 바꾸는 작업을 수행한다.
품사 태깅부는 정규화된 토큰들의 품사를 구분하여 태그를 붙이는 것으로, 해당 토큰의 의미를 주변 단어들과의 관계를 통해 확인하기 위한 작업이다. 예를 들어 'saw'는 '보았다'라는 동사로서의 의미와 함께 '톱'이라는 명사적 의미도 가지므로 이를 문장 구조에 따라 올바르게 처리하기 위한 것이다.
위의 예시를 이용하면 다음과 같이 품사 태그를 붙일 수 있다.
'금융통화위원회/noun 는/josa 다음/noun 통화정책/noun 방향/noun 결정/noun 시/noun 까지/josa ...'
한편, 이러한 각 토큰들은 그 빈도와 가중치 등을 통해서 토픽 모델링부에서 관련 토픽을 검출하는데 사용되는데, 분석 정밀도나 관계성 등과 같은 분석 정보를 기반으로 가중치가 부여될 수 있으며, 가중 처리부는 이러한 토큰들에 가중치를 부여하거나 관계성 벡터에 대한 방향성을 부여하는 등의 오디오와 이미지에 대한 분석 결과가 텍스트를 기반으로 하는 토픽 모델링에 적용될 수 있도록 하는 분석 정보를 정리하여 토픽 모델링부에 제공할 수 있다.
토픽 모델링부(160)는 키워드 추출부(150)가 제공하는 전처리된 키워드와 분석 정보를 기준으로 해당 키워드들에 대한 토픽을 산출하는데, 도시된 예와 같이 토픽 모델링을 위한 복수의 분석 방식들의 성능을 담보하는 학습 데이터의 양, 질, 카테고리 중 적어도 하나를 고려하여 LSA(Latent Semantic Analysis), LDA(Latent Dirichlet Allocation), 딥러닝(Deep Learning) 분석 중 하나 이상을 적용하여 관련 토픽 키워드를 생성한다.
이러한 토픽 모델링부(160)에 포함되는 분석 모델 중 LSA 모델의 경우 구현과 검증이 직관적이고 적은 데이터로도 상대적으로 좋은 결과를 제공하며, LDA 모델의 경우 LSA보다 데이터가 많을 경우 상대적으로 더 좋은 결과를 제공하는 특성이 있다. 딥러닝의 경우 처리 부하나 시간에 대한 코스트가 상대적으로 높을 수 있어 적절한 모델링 방식을 선별하여 적용하거나 이들 중 하나 이상을 결합하여 활용할 수 있다. 특히, 영상에 관련된 검색 키워드를 확보하기 위한 것이기 때문에 복수의 모델을 통해서 생성하는 토픽 키워드들을 정밀도와 함께 모두 수용할 수도 있다.
이상에서는 본 발명에 따른 바람직한 실시예들에 대하여 도시하고 또한 설명하였다. 그러나 본 발명은 상술한 실시예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능할 것이다.
10: 영상 분석 기반 토픽 모델링 영상 검색 시스템
100: 검색 키워드 생성 장치 110: 영상 수신부
120: 비디오 오디오 분리부 130: 이미지 분석 텍스트화부
140: 오디오 분석 텍스트화부 150: 키워드 추출부
160: 토픽 모델링부 170: 데이터베이스 연동부
200: 검색 서버 300: 데이터베이스

Claims (10)

  1. 영상을 수신하는 영상 수신부와, 수신된 영상을 비디오와 오디오로 분리하는 비디오 오디오 분리부와;
    분리된 비디오에 포함된 프레임 이미지들을 분석하여 분석 결과를 텍스트 정보와 분석 정보로 제공하는 이미지 분석 텍스트화부와;
    분리된 오디오를 분석하여 분석 결과를 텍스트 정보와 분석 정보로 제공하는 오디오 분석 텍스트화부와;
    상기 이미지 분석 텍스트화부 및 오디오 분석 텍스트화부로부터 제공되는 텍스트 정보와 분석 정보를 포함하는 영상 분석 정보를 기준으로 텍스트 전처리를 수행하여 전처리된 키워드와 분석 정보를 제공하는 키워드 추출부와;
    키워드 추출부로부터 제공되는 전처리된 키워드와 분석 정보를 기준으로 해당 키워드들에 대한 토픽을 산출하는 토픽 모델링부와;
    토픽 모델링부를 통해 산출된 토픽과 키워드 추출부를 통해 추출된 정보를 검색 키워드로서 영상과 대응시켜 저장하도록 하는 데이터베이스 연동부를 포함하는 검색 키워드 생성 장치를 구비하고,
    상기 이미지 분석 텍스트화부와 상기 오디오 분석 텍스트화부와 연동하여 이미지 분석 텍스트화부의 분석 결과에서 오디오 분석 텍스트화부의 분석에 적용될 수 있는 관계성 정보를 추출하여 오디오 분석 텍스트화부에 제공하거나, 오디오 분석 텍스트화부의 분석 결과에서 이미지 분석 텍스트화부의 분석에 적용될 수 있는 관계성 정보를 추출하여 이미지 분석 텍스트화부에 제공하는 관계성 추출부
    를 포함하는 영상 분석 기반 토픽 모델링 영상 검색 시스템.
  2. 청구항 1에 있어서, 영상을 저장하고, 검색 키워드 생성 장치와 연동하여 해당 영상에 대한 검색 키워드를 연동 저장하는 데이터베이스와;
    검색 쿼리를 수신하여 상기 데이터베이스를 통해 검색 결과에 대응되는 영상을 선별 제공하는 검색 서버를 더 포함하는 것을 특징으로 하는 영상 분석 기반 토픽 모델링 영상 검색 시스템.
  3. 삭제
  4. 청구항 1에 있어서, 상기 관계성 추출부가 제공하는 관계성 정보는 오디오 분석 텍스트화부의 분석 결과에서 유의미한 오디오 발생 시점에 대한 정보를 추출하여 이미지 분석을 위한 프레임 선택 가중치를 높일 수 있는 정보로서 이미지 분석 텍스트화부에 제공하는 것이거나,
    이미지 분석 텍스트화부의 분석 결과로부터 포함되는 객체의 종류나 상황에 대한 정보를 추출하여 오디오 분석 시 오디오 종류나 음성 인식에 사용되는 가중치를 제공하는 정보로서 오디오 분석 텍스트화부에 제공하는 것인 것을 특징으로 하는 영상 분석 기반 토픽 모델링 영상 검색 시스템.
  5. 청구항 1에 있어서, 상기 관계성 추출부는 오디오 분석 텍스트화부와 이미지 분석 텍스트화부에 제공한 관계성 정보를 추가적인 분석 정보로서 키워드 추출부에 제공하는 것을 특징으로 하는 영상 분석 기반 토픽 모델링 영상 검색 시스템.
  6. 청구항 1에 있어서, 상기 토픽 모델링부는 키워드 추출부를 통해 제공되는 전처리된 키워드와 분석 정보를 기반으로 데이터의 양, 질, 카테고리 중 적어도 하나를 고려하여 LSA(Latent Semantic Analysis), LDA(Latent Dirichlet Allocation), 딥러닝(Deep Learning) 분석 중 적어도 하나 이상을 통해 유의미한 토픽을 산출하는 것을 특징으로 하는 영상 분석 기반 토픽 모델링 영상 검색 시스템.
  7. 청구항 6에 있어서, 상기 토픽 모델링부는 기 설정된 이벤트 발생 시 데이터베이스 연동부를 통해 기 저장된 검색 키워드를 현재 시점의 분석 수단을 통해 재분석하여 토픽 모델링을 다시 수행하는 것을 특징으로 하는 영상 분석 기반 토픽 모델링 영상 검색 시스템.
  8. 영상을 수신하여 해당 영상에 대한 검색 키워드를 생성하여 데이터베이스에 해당 영상과 연동시켜 저장하는 검색 키워드 생성 장치에서 검색 키워드를 생성하는 방법으로서,
    수신된 영상을 비디오와 오디오로 분리하는 비디오 오디오 분리 단계와;
    분리된 비디오에 포함된 프레임 이미지들을 분석하여 분석 결과를 텍스트 정보와 분석 정보로 제공하는 이미지 분석 텍스트화 단계와;
    분리된 오디오를 분석하여 분석 결과를 텍스트 정보와 분석 정보로 제공하는 오디오 분석 텍스트화 단계와;
    상기 이미지 분석 텍스트화 단계 및 오디오 분석 텍스트화 단계를 통해 제공되는 텍스트 정보와 분석 정보를 포함하는 영상 분석 정보를 기준으로 텍스트 전처리를 수행하여 전처리된 키워드와 분석 정보를 제공하는 키워드 추출 단계와;
    키워드 추출 단계로부터 제공되는 전처리된 키워드와 분석 정보를 기준으로 해당 키워드들에 대한 토픽을 산출하는 토픽 모델링 단계와;
    토픽 모델링 단계를 통해 산출된 토픽과 키워드 추출 단계를 통해 추출된 정보를 검색 키워드로서 영상과 대응시켜 저장하도록 하는 데이터베이스 연동 단계를 포함하고,
    상기 이미지 분석 텍스트화 단계의 분석 결과에서 오디오 분석 텍스트화 단계의 분석에 적용될 수 있는 관계성 정보를 추출하여 오디오 분석 텍스트화 단계에 적용하도록 제공하거나, 오디오 분석 텍스트화 단계의 분석 결과에서 이미지 분석 텍스트화 단계의 분석에 적용될 수 있는 관계성 정보를 추출하여 이미지 분석 텍스트화 단계에 적용하도록 제공하는 관계성 추출 단계를 더 포함하는 영상 분석 기반 토픽 모델링 영상 검색 방법.
  9. 삭제
  10. 청구항 8에 있어서, 기 설정된 이벤트 발생 시 데이터베이스 연동 단계를 통해 기 저장된 검색 키워드를 현재 시점의 분석 수단을 통해 재분석하여 토픽 모델링을 다시 수행하는 토픽 모델링 재수행 단계를 더 포함하는 것을 특징으로 하는 영상 분석 기반 토픽 모델링 영상 검색 방법.
KR1020180042361A 2018-04-11 2018-04-11 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법 KR102070197B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180042361A KR102070197B1 (ko) 2018-04-11 2018-04-11 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180042361A KR102070197B1 (ko) 2018-04-11 2018-04-11 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20190118904A KR20190118904A (ko) 2019-10-21
KR102070197B1 true KR102070197B1 (ko) 2020-01-28

Family

ID=68460629

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180042361A KR102070197B1 (ko) 2018-04-11 2018-04-11 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102070197B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102373884B1 (ko) * 2019-12-30 2022-03-15 동국대학교 산학협력단 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
KR102414151B1 (ko) * 2020-12-09 2022-06-28 (주)천재교육 한국어 또는 한국문화 교육 자료 제공을 위한 스마트 검색 시스템 운영 방법 및 장치
KR102368043B1 (ko) * 2021-01-06 2022-02-24 한전케이디엔주식회사 사용자 정의 토픽 모델링을 활용한 사용자 관심 뉴스 추천 장치 및 그 방법
CN114138988A (zh) * 2021-11-10 2022-03-04 山东寻声网络科技有限公司 基于Hadoop的大数据快速检索***及方法
KR102464232B1 (ko) * 2022-03-22 2022-11-09 주식회사 위피엠 온라인 기반의 가상 전시회를 제공하는 가상현실 콘텐츠 관리시스템의 전시회 설계 및 관리 방법
KR102670850B1 (ko) * 2023-05-04 2024-05-30 주식회사 액션파워 비디오 분할에 기초하여 비디오를 검색하는 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110080712A (ko) 2010-01-07 2011-07-13 주식회사 엘지유플러스 이동통신 단말기의 음성 인식을 통한 동영상 검색 방법 및 그 시스템과 동영상 음성의 텍스트 변환 장치
KR101413620B1 (ko) 2014-02-20 2014-07-04 하성욱 영상 분석을 통한 영상 텍스트화 장치
KR20170006203A (ko) * 2015-07-07 2017-01-17 삼성전자주식회사 뉴스 콘텐트와 관련된 정보를 제공하는 전자 장치 및 그 방법

Also Published As

Publication number Publication date
KR20190118904A (ko) 2019-10-21

Similar Documents

Publication Publication Date Title
KR102070197B1 (ko) 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법
Cabrio et al. Five years of argument mining: A data-driven analysis.
Harwath et al. Deep multimodal semantic embeddings for speech and images
US9230547B2 (en) Metadata extraction of non-transcribed video and audio streams
CN110928994A (zh) 相似案例检索方法、相似案例检索装置和电子设备
KR20170034206A (ko) 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치
KR102041621B1 (ko) 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
CN111797820B (zh) 一种视频数据处理方法、装置、电子设备及存储介质
Wang et al. Multi-attention fusion network for video-based emotion recognition
US20150019206A1 (en) Metadata extraction of non-transcribed video and audio streams
CN112015928B (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
Volkova et al. Explaining multimodal deceptive news prediction models
US20230032728A1 (en) Method and apparatus for recognizing multimedia content
Boishakhi et al. Multi-modal hate speech detection using machine learning
WO2024140434A1 (zh) 基于多模态知识图谱的文本分类方法、设备及存储介质
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
Khatua et al. Unraveling social perceptions & behaviors towards migrants on Twitter
US20230004830A1 (en) AI-Based Cognitive Cloud Service
Chen et al. Class-aware self-attention for audio event recognition
KR20170048736A (ko) 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말
Parolin et al. Automated verbal-pattern extraction from political news articles using cameo event coding ontology
Saleem et al. Stateful human-centered visual captioning system to aid video surveillance
KR20130045054A (ko) 키워드 추출 및 정련 시스템과 그 방법
Langlois et al. VIRUS: video information retrieval using subtitles
Thanos et al. Combined deep learning and traditional NLP approaches for fire burst detection based on twitter posts

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant