KR102384263B1 - Method and system for remote medical service using artificial intelligence - Google Patents

Method and system for remote medical service using artificial intelligence Download PDF

Info

Publication number
KR102384263B1
KR102384263B1 KR1020200081858A KR20200081858A KR102384263B1 KR 102384263 B1 KR102384263 B1 KR 102384263B1 KR 1020200081858 A KR1020200081858 A KR 1020200081858A KR 20200081858 A KR20200081858 A KR 20200081858A KR 102384263 B1 KR102384263 B1 KR 102384263B1
Authority
KR
South Korea
Prior art keywords
video
keyword
playback
core
indexing
Prior art date
Application number
KR1020200081858A
Other languages
Korean (ko)
Other versions
KR20220004260A (en
Inventor
김영주
최선영
Original Assignee
주식회사 아이앤지솔루션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아이앤지솔루션 filed Critical 주식회사 아이앤지솔루션
Priority to KR1020200081858A priority Critical patent/KR102384263B1/en
Publication of KR20220004260A publication Critical patent/KR20220004260A/en
Application granted granted Critical
Publication of KR102384263B1 publication Critical patent/KR102384263B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7343Query language or query format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

음성 인덱싱을 이용한 비디오 가공 방법 및 장치가 개시된다. 본 발명의 일측면에 따른 음성 인덱싱을 이용한 비디오 가공 방법은, 대상 비디오의 오디오에 대한 음성 인식에 따른 비디오텍스트를 획득하는 단계; 비디오텍스트에서 미리 설정된 기준에 따른 하나 이상의 핵심키워드를 추출하는 단계; 핵심키워드의 재생시점을 확인하는 단계; 및 핵심키워드를 이용한 재생구간 설정을 위해, 핵심키워드와 상기 재생시점을 인덱싱 정보로서 저장하는 단계를 포함한다.A video processing method and apparatus using voice indexing are disclosed. According to an aspect of the present invention, a video processing method using voice indexing includes: acquiring a video text according to voice recognition for audio of a target video; extracting one or more key keywords according to preset criteria from the video text; confirming the playback time of the key keyword; and storing the core keyword and the playback time as indexing information in order to set the playback section using the core keyword.

Description

음성 인덱싱을 이용한 비디오 가공 방법 및 장치{Method and system for remote medical service using artificial intelligence}Video processing method and apparatus using voice indexing {Method and system for remote medical service using artificial intelligence}

본 발명은 비디오 가공에 관한 것으로, 내용 탐색의 편의를 위한 음성 인덱싱을 이용한 비디오 가공 방법 및 장치에 관한 것이다.The present invention relates to video processing, and to a video processing method and apparatus using voice indexing for convenience of content search.

근래에는 다양한 멀티미디어 중에서도 동영상 즉 비디오에 대한 이용이 높아지고 있다. 유투브 등의 비디오 중개 플랫폼을 통해 많은 수의 비디오가 유통되고 있으며, 최근에는 온라인 강의를 제작하고 시청하는 이용자들이 급격히 늘고 있어, 앞으로도 비디오의 이용률은 더욱 높아질 것으로 예상된다. Recently, among various multimedia, the use of moving pictures, that is, video is increasing. A large number of videos are distributed through video brokerage platforms such as YouTube, and the number of users who produce and watch online lectures is rapidly increasing in recent years.

뿐만 아니라 CCTV 및 다양한 디바이스에서도 수많은 영상 콘텐츠가 생성되고, 이렇게 생성된 영상 콘텐츠를 상황실로 전송하는 이슈도 많아지고 있는 상황이다.In addition, numerous video contents are generated in CCTV and various devices, and the issue of transmitting the generated video contents to the control room is increasing.

이로 인해, 많은 수의 비디오들 중 유저가 원하는 내용을 담은 비디오를 검색하는 검색 기술도 중요한 이슈가 되고 있다. 그러나 종래의 검색기술은 대부분 비디오 자체의 검색이다. 즉, 많은 수의 비디오들 중 원하는 비디오를 선별하는 검색인데, 검색된 결과의 비디오에 대해 유저가 원하는 내용인지를 보다 정확히 확인하기 위해서는 일일이 내용을 시청해야 하는 불편이 있었다. 긴 재생시간을 갖는 비디오의 경우에는 더욱 확인이 번거롭고 시간이 오래 걸리는 불편이 발생한다.For this reason, a search technology for searching for a video containing a content desired by a user among a large number of videos is also becoming an important issue. However, most of the conventional search techniques are video searches. That is, it is a search for selecting a desired video from among a large number of videos, but in order to more accurately check whether the video of the search result is the content desired by the user, it is inconvenient to watch the content one by one. In the case of a video having a long playback time, it is more cumbersome to check and takes a long time.

또한, 모바일 기기의 보급 확대로 비디오 콘텐츠 가공에 대한 수요가 늘어나고 있으며, 스마트폰 등의 모바일 기기를 활용한 실시간 영상 중계 기술이 제공되면서 내용 탐색의 편의를 제공할 필요가 있게 되었다.In addition, the demand for video content processing is increasing due to the spread of mobile devices, and as real-time video relay technology using mobile devices such as smartphones is provided, it is necessary to provide convenience for content search.

대한민국 공개특허 제10-2004-0071369 (공개일자 2004년08월12일) 디지털 영상자료 검색 시스템Republic of Korea Patent Publication No. 10-2004-0071369 (published on August 12, 2004) Digital image data search system

따라서, 본 발명은 상술한 문제를 해결하기 위한 것으로, 하나의 비디오 내에서 원하는 내용을 보다 쉽게 탐색하여 해당 구간을 재생시킬 수 있는 음성 인덱싱을 이용한 비디오 가공 방법 및 장치를 제공하기 위한 것이다.Accordingly, the present invention is to solve the above-mentioned problem, and to provide a video processing method and apparatus using voice indexing that can reproduce a corresponding section by more easily searching for a desired content in one video.

본 발명의 다른 목적들은 이하에 서술되는 바람직한 실시예를 통하여 보다 명확해질 것이다.Other objects of the present invention will become clearer through preferred embodiments described below.

본 발명의 일 측면에 따르면, 대상 비디오의 오디오에 대한 음성 인식에 따른 비디오텍스트를 획득하는 단계; 상기 비디오텍스트에서 미리 설정된 기준에 따른 하나 이상의 핵심키워드를 추출하는 단계; 상기 핵심키워드의 재생시점을 확인하는 단계; 및 상기 핵심키워드를 이용한 재생구간 설정을 위해, 상기 핵심키워드와 상기 재생시점을 인덱싱 정보로서 저장하는 단계를 포함하는, 음성 인덱싱을 이용한 비디오 가공 방법 및 그 방법을 실행하는 프로그램이 기록된 기록매체가 제공된다.According to an aspect of the present invention, there is provided a method comprising: obtaining a video text according to speech recognition of audio of a target video; extracting one or more key keywords according to preset criteria from the video text; confirming the playback time of the key keyword; and storing the core keyword and the playback time as indexing information to set a playback section using the core keyword, a video processing method using voice indexing, and a recording medium on which a program for executing the method is recorded provided

여기서, 상기 대상 비디오에 대한 키워드 검색 인터페이스를 제공하는 단계; 및 상기 키워드 검색 인터페이스를 통해 상기 핵심키워드가 입력되는 경우, 상기 핵심키워드의 재생시점을 표시하는 단계를 더 포함할 수 있다.Here, providing a keyword search interface for the target video; and when the core keyword is input through the keyword search interface, displaying a playback time of the core keyword.

또한, 상기 핵심키워드를 이용한 상기 대상 비디오에 대한 부분 재생이 완료되면, 재생된 구간만을 이용한 부분 비디오를 생성하는 단계를 더 포함할 수 있다.In addition, when partial reproduction of the target video using the key keyword is completed, the method may further include generating a partial video using only the reproduced section.

또한, 상기 비디오텍스트에서 임계횟수 이상 반복되는 키워드를 상기 핵심키워드로서 설정할 수 있으며, 상기 임계횟수는 상기 대상 비디오의 총 재생시간 및 추출되는 핵심키워드의 개수에 따라 가변적으로 설정될 수 있다.In addition, a keyword that is repeated a threshold number of times or more in the video text may be set as the core keyword, and the threshold number may be variably set according to the total playing time of the target video and the number of extracted core keywords.

또한, 상기 핵심키워드의 재생구간이 복수개인 경우, 상기 대상 비디오의 재생 화면을 상기 핵심키워드의 재생구간의 개수에 따라 분할하고, 분할화면에 핵심키워드에 상응하는 각 재생구간에 따른 영상을 각각 표시할 수 있다.In addition, when there are a plurality of playback sections of the core keyword, the playback screen of the target video is divided according to the number of playback sections of the core keyword, and images corresponding to each playback section corresponding to the core keyword are displayed on the split screen, respectively. can do.

또한, 상기 핵심키워드가 복수개인 경우, 상기 대상 비디오의 재생 화면을 상기 핵심키워드의 개수에 따라 분할하고, 분할화면에 각 핵심키워드에 상응하는 재생구간에 따른 영상을 각각 표시할 수 있다.In addition, when there are a plurality of the core keywords, the playback screen of the target video may be divided according to the number of the core keywords, and images according to the playback section corresponding to each core keyword may be displayed on the divided screen, respectively.

본 발명의 다른 측면에 따르면, 대상 비디오의 오디오에 대한 음성 인식에 따른 비디오텍스트를 획득하는 음성인식부; 상기 비디오텍스트에서 미리 설정된 기준에 따른 하나 이상의 핵심키워드를 추출하고, 상기 핵심키워드의 재생시점을 확인하여 인덱싱 정보를 생성하는 인덱싱부; 및 상기 핵심키워드를 이용한 재생구간 설정을 위해, 상기 인덱싱정보를 상기 대상 비디오에 적용하는 비디오가공부를 포함하는, 음성 인덱싱을 이용한 비디오 가공 장치가 제공된다.According to another aspect of the present invention, there is provided a voice recognition unit for acquiring a video text according to voice recognition for audio of a target video; an indexing unit for extracting one or more key keywords according to a preset criterion from the video text, and generating indexing information by confirming a reproduction time of the core keyword; and a video processing unit for applying the indexing information to the target video in order to set a playback section using the key keyword, a video processing apparatus using voice indexing is provided.

여기서, 통신망을 통해 상기 대상 비디오에 접근하는 사용자 단말과 통신하기 위한 통신부; 및 상기 대상 비디오에 대한 키워드 검색 인터페이스를 상기 사용자 단말에게 제공하는 인터페이스부를 더 포함하되, 상기 인터페이스부는 상기 키워드 검색 인터페이스를 통해 상기 핵심키워드가 입력되는 경우, 상기 핵심키워드의 재생시점을 표시할 수 있다.Here, a communication unit for communicating with a user terminal accessing the target video through a communication network; and an interface unit for providing a keyword search interface for the target video to the user terminal, wherein the interface unit may display a playback time of the core keyword when the core keyword is input through the keyword search interface .

또한, 상기 비디오가공부는 상기 핵심키워드를 이용한 상기 대상 비디오에 대한 부분 재생이 완료되면, 재생된 구간만을 이용한 부분 비디오를 생성할 수 있다.In addition, when partial reproduction of the target video using the key keyword is completed, the video processing unit may generate a partial video using only the reproduced section.

또한, 상기 인터페이스부는 상기 핵심키워드가 복수개인 경우, 상기 대상 비디오의 재생 화면을 상기 핵심키워드의 개수에 따라 분할하고, 분할화면에 각 핵심키워드에 상응하는 재생구간에 따른 영상을 각각 표시할 수 있다.In addition, when there are a plurality of the core keywords, the interface unit may divide the playback screen of the target video according to the number of core keywords, and display images according to the playback section corresponding to each core keyword on the split screen, respectively. .

본 발명에 따르면, 음성을 기반으로 하는 인덱싱을 이용하여 비디오 내에서 원하는 내용을 보다 쉽게 탐색하여 재생시킬 수 있다.According to the present invention, it is possible to more easily search for and reproduce a desired content in a video using voice-based indexing.

도 1은 본 발명의 일 실시예에 따른 음성 인덱싱을 이용한 비디오 가공 장치의 구성을 도시한 블록도.
도 2는 본 발명의 일 실시예에 따른 음성 인덱싱을 이용한 비디오 가공 과정을 도시한 흐름도.
도 3은 본 발명의 일 실시예에 따른 키워드 검색 인터페이스를 제공하는 사용자 인터페이스 화면을 도시한 예시도.
도 4는 본 발명의 일 실시예에 따른 핵심키워드를 이용한 부분 비디오 생성 과정을 도시한 흐름도.
도 5 및 도 6은 본 발명의 각 실시예에 따른 핵심키워드 인덱싱을 이용한 다중 영상을 제공하는 사용자 인터페이스 화면을 도시한 예시도들,
1 is a block diagram showing the configuration of a video processing apparatus using voice indexing according to an embodiment of the present invention.
2 is a flowchart illustrating a video processing process using voice indexing according to an embodiment of the present invention.
3 is an exemplary diagram illustrating a user interface screen providing a keyword search interface according to an embodiment of the present invention.
4 is a flowchart illustrating a partial video generation process using key keywords according to an embodiment of the present invention.
5 and 6 are exemplary views showing a user interface screen that provides multiple images using key keyword indexing according to each embodiment of the present invention;

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Since the present invention can have various changes and can have various embodiments, specific embodiments are illustrated in the drawings and described in detail in the detailed description. However, this is not intended to limit the present invention to specific embodiments, and it should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. When an element is referred to as being “connected” or “connected” to another element, it is understood that it may be directly connected or connected to the other element, but other elements may exist in between. it should be On the other hand, when it is said that a certain element is "directly connected" or "directly connected" to another element, it should be understood that the other element does not exist in the middle.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 후술될 제1 임계값, 제2 임계값 등의 용어는 실질적으로는 각각 상이하거나 일부는 동일한 값인 임계값들로 미리 지정될 수 있으나, 임계값이라는 동일한 단어로 표현될 때 혼동의 여지가 있으므로 구분의 편의상 제1, 제2 등의 용어를 병기하기로 한다. Terms such as first, second, etc. may be used to describe various elements, but the elements should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another. For example, terms such as a first threshold value and a second threshold value, which will be described later, may be preset as threshold values that are substantially different or partially have the same value, but may cause confusion when expressed with the same word threshold. Since there is room, terms such as 1st and 2nd are used together for convenience of classification.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is used only to describe specific embodiments, and is not intended to limit the present invention. The singular expression includes the plural expression unless the context clearly dictates otherwise. In the present specification, terms such as “comprise” or “have” are intended to designate that a feature, number, step, operation, component, part, or combination thereof described in the specification exists, but one or more other features It should be understood that this does not preclude the existence or addition of numbers, steps, operations, components, parts, or combinations thereof.

또한, 각 도면을 참조하여 설명하는 실시예의 구성 요소가 해당 실시예에만 제한적으로 적용되는 것은 아니며, 본 발명의 기술적 사상이 유지되는 범위 내에서 다른 실시예에 포함되도록 구현될 수 있으며, 또한 별도의 설명이 생략될지라도 복수의 실시예가 통합된 하나의 실시예로 다시 구현될 수도 있음은 당연하다.In addition, the components of the embodiment described with reference to each drawing are not limitedly applied only to the embodiment, and may be implemented to be included in other embodiments within the scope of maintaining the technical spirit of the present invention, and also Even if the description is omitted, it is natural that a plurality of embodiments may be re-implemented as one integrated embodiment.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일하거나 관련된 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. In addition, in the description with reference to the accompanying drawings, the same components regardless of the reference numerals are given the same or related reference numerals, and the overlapping description thereof will be omitted. In describing the present invention, if it is determined that a detailed description of a related known technology may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted.

도 1은 본 발명의 일 실시예에 따른 음성 인덱싱을 이용한 비디오 가공 장치의 구성을 도시한 블록도이고, 도 2는 본 발명의 일 실시예에 따른 음성 인덱싱을 이용한 비디오 가공 과정을 도시한 흐름도이다.1 is a block diagram illustrating the configuration of a video processing apparatus using voice indexing according to an embodiment of the present invention, and FIG. 2 is a flowchart illustrating a video processing process using voice indexing according to an embodiment of the present invention. .

도 1을 참조하면, 본 실시예에 따른 비디오 가공 장치는 통신부(10), 저장부(20) 및 제어부(30)를 포함하되, 제어부(30)는 그 기능에 따라 음성인식부(31), 인덱신부(32), 비디오가공부(33) 및 인터페이스부(34)를 포함한다.1, the video processing apparatus according to the present embodiment includes a communication unit 10, a storage unit 20 and a control unit 30, the control unit 30 according to the function of the voice recognition unit 31, It includes an indexing unit 32 , a video processing unit 33 , and an interface unit 34 .

통신부(10)는 통신망을 통해 사용자 단말과 통신하기 위한 통신수단이며, 이는 당업자에게는 자명할 것이므로 더욱 상세한 설명은 생략한다.The communication unit 10 is a communication means for communicating with the user terminal through a communication network, and since it will be apparent to those skilled in the art, a more detailed description will be omitted.

저장부(20)에는 비디오 파일에 대해 내용 기반 재생구간 키워드 검색 서비스를 제공하기 위한 관련 정보들이 저장된다. 서비스하고자 하는 비디오 파일들도 저장부(20)에 저장될 수 있으며, 또는 별도로 내부 또는 외부에서 관리되는 비디오DB(미도시)를 구비하여 비디오 파일을 관리할 수도 있다.The storage unit 20 stores related information for providing a content-based playback section keyword search service for a video file. Video files to be serviced may also be stored in the storage unit 20, or a video DB (not shown) managed internally or externally may be provided to manage the video files.

제어부(30)는 관리하는 비디오 파일들에 대해, 내용 기반 재생구간 키워드 검색 기능을 제공한다. 이를 위해, 제어부는 대상 비디오에 대해 키워드를 이용한 재생구간 검색을 위한 인덱싱을 수행한다.The controller 30 provides a content-based playback section keyword search function for managed video files. To this end, the controller performs indexing for a playback section search using keywords on the target video.

음성인식부(31)는 대상 비디오의 오디오에 대한 음성 인식에 따른 비디오텍스트를 획득한다.The voice recognition unit 31 acquires a video text according to voice recognition of the audio of the target video.

음성인식부(31)는 비디오를 구성하는 이미지와 오디오 중에서 오디오의 음성을 인식하고, 이를 텍스트(이하 비디오텍스트라 칭함)화한다. 음성인식 기술은 네비게이션, 통역뿐 아니라 최근 인공지능 분야 등에서 다양하게 이용되고 있으므로 당업자에게는 자명할 것이다. The voice recognition unit 31 recognizes an audio voice among images and audio constituting a video, and converts it into text (hereinafter referred to as video text). Voice recognition technology is widely used in the field of artificial intelligence as well as navigation and interpretation, so it will be apparent to those skilled in the art.

인덱싱부(32)는 비디오텍스트에서 미리 설정된 기준에 따른 하나 이상의 핵심키워드를 추출하고, 핵심키워드의 재생시점을 확인하여 인덱싱 정보를 생성한다.The indexing unit 32 extracts one or more key keywords according to a preset criterion from the video text, checks the reproduction time of the core keyword, and generates indexing information.

예를 들어, 대상 비디오가 [수학 강의]에 대한 것으로, 강사의 음성 중에서 인식된 키워드들 중에서 [삼각함수]라는 키워드가 핵심키워드라 인식된 경우, 핵심키워드가 출력되는 재생시점에 대한 정보로서 일례로 3번의 재생시점이 확인되면 [삼각함수 - 03:24/07:30/12:05]라는 인덱싱 정보가 생성된다. For example, if the target video is for [mathematics lecture] and the keyword [trigonometric function] is recognized as a key keyword among the keywords recognized from the instructor's voice, it is an example as information about the playback time at which the core keyword is output When the playback time of 3 times is confirmed with

비디오가공부(33)는 핵심키워드를 이용한 재생구간 설정을 위해 인덱싱정보를 대상 비디오에 적용한다. 예를 들어, 대상 비디오의 헤더정보로 인덱싱 정보를 삽입할 수 있으며, 물론 이에 한정되는 것은 아니며, 차후 인덱싱 정보를 참조하여 유저가 대상 비디오에 대해 핵심키워드를 이용한 구간탐색을 수행하도록 하는 모든 가공방식이 이용될 수 있다.The video processing unit 33 applies indexing information to the target video to set the playback section using the key keyword. For example, indexing information can be inserted as header information of the target video, and of course, it is not limited thereto. Any processing method that allows the user to perform a section search using key keywords on the target video by referring to the indexing information later this can be used

인터페이스부(34)는 인덱싱된 비디오에 대한 서비스를 요청한 사용자단말로 제공되는 비디오 재생 및 키워드 검색 기능을 제공하기 위한 사용자 인터페이스를 제공한다. 사용자 인터페이스는 추후 관련 도면(도 3, 도 5 내지 도 6)을 참조하여 상세히 설명하기로 한다.The interface unit 34 provides a user interface for providing a video playback function and a keyword search function provided to a user terminal requesting a service for the indexed video. The user interface will be described in detail later with reference to related drawings ( FIGS. 3 and 5 to 6 ).

처리 과정을 도시한 도 2를 참조하면, 대상 비디오의 오디오에 대한 음성 인식에 따른 비디오텍스트를 획득한다(S210). 음성 인식 기술을 이용하여 오디오 내의 음성 정보를 인식하여 텍스트화하는 방식에 대한 중복되는 설명은 생략한다.Referring to FIG. 2 showing the processing process, video text is obtained according to voice recognition of audio of a target video (S210). A redundant description of a method of recognizing voice information in audio and converting it into text using voice recognition technology will be omitted.

여기서, 대상 비디오는 접속한 사용자단말(미도시)로부터 실시간 스트리밍 또는 다운로딩 방식으로 요청된 비디오 파일일 수 있다. 또는 관리하는 모든 비디오 파일을 대상으로 유저에게 서비스되기 이전에 모두 인덱싱 처리를 수행할 수도 있다.Here, the target video may be a video file requested by a real-time streaming or downloading method from an accessed user terminal (not shown). Alternatively, indexing may be performed on all managed video files before being serviced to users.

대상 비디오로부터 획득된 비디오텍스트에서 미리 설정된 기준에 따른 하나 이상의 핵심키워드를 추출한다(S220). One or more key keywords according to preset criteria are extracted from the video text obtained from the target video (S220).

일례에 따르면 핵심키워드는 미리 등록된 키워드리스트를 참조하여 선택할 수 있다. 또는, 비디오텍스트에서 임계횟수 이상 존재하는 키워드를 핵심키워드로서 선정할 수도 있다. 두가지 방식을 이용한 일례에 따르면, 임계횟수(예를 들어, 3회 등) 이상 존재하는 키워드를 1차 대상으로 선정하고, 1차 대상으로 선정된 키워드들 중 미리 등록된 키워드리스트에 존재하는 것을 핵심키워드로 최종 선정한다.According to an example, the core keyword may be selected by referring to a list of keywords registered in advance. Alternatively, a keyword that exists more than a threshold number of times in the video text may be selected as a core keyword. According to an example using the two methods, a keyword that exists more than a threshold number of times (eg, 3 times, etc.) is selected as the primary target, and the key to being present in the pre-registered keyword list among the keywords selected as the primary target is the key Finally, the keywords are selected.

그리고, 비디오텍스트에서 임계횟수 이상 반복되는 키워드를 상기 핵심키워드로서 설정함에 있어, 임계횟수는 대상 비디오의 총 재생시간 및 추출되는 핵심키워드의 개수에 따라 가변적으로 설정될 수 있다. 예를 들어, 재생시간이 길수록 또한 추출되는 핵심키워드의 개수가 많을수록 임계횟수는 크게 설정된다. And, in setting a keyword that is repeated more than a threshold number of times in the video text as the core keyword, the threshold number may be variably set according to the total playing time of the target video and the number of extracted core keywords. For example, the longer the playback time and the greater the number of extracted core keywords, the larger the threshold number is set.

추출된 핵심키워드에 대해 재생시점을 확인하여 인덱싱 정보를 생성하고(S230), 생성된 인덱싱 정보가 적용되도록 대상 비디오를 가공한다(S240).Indexing information is generated by checking the playback time of the extracted key keyword (S230), and the target video is processed so that the generated indexing information is applied (S240).

차후, 대상 비디오에 대한 키워드 검색 인터페이스를 유저에게 제공하고, 키워드 검색 인터페이스를 통해 핵심키워드가 입력되는 경우 핵심키워드의 재생시점을 표시함으로써 유저가 쉽게 원하는 구간만을 시청하도록 할 수 있다.Afterwards, a keyword search interface for the target video is provided to the user, and when a core keyword is input through the keyword search interface, the playback time of the core keyword is displayed so that the user can easily view only the desired section.

도 3은 본 발명의 일 실시예에 따른 키워드 검색 인터페이스를 제공하는 사용자 인터페이스 화면을 도시한 예시도이다.3 is an exemplary diagram illustrating a user interface screen providing a keyword search interface according to an embodiment of the present invention.

오디오 기반 키워드 검색이 가능하도록 가공된 대상 비디오를 시청하는 사용자단말에 표시되는 사용자 인터페이스 화면을 도시된 도 3을 참조하면, 키워드 검색 인터페이스(320)를 포함한다.Referring to FIG. 3 , which shows a user interface screen displayed on a user terminal viewing a target video processed to enable audio-based keyword search, a keyword search interface 320 is included.

도면과 같이 [삼각함수]라는 검색어가 입력되면, 삼각함수가 핵심키워드로 설정되어 있으므로, 비디오 재생 화면(310)에서 표시되는 재생구간정보에 핵심키워드에 대응된 재생시점에 대한 정보(330)가 표시된다.When the search word [trigonometric function] is input as shown in the figure, since trigonometric function is set as a key keyword, information 330 about the playback time corresponding to the core keyword in the playback section information displayed on the video playback screen 310 is is displayed

따라서, 유저는 동영상을 시청함에 있어, 전체 재생구간 중에서 원하는 구간에 대해 빠른 탐색이 가능하게 된다.Accordingly, when the user watches the video, it is possible to quickly search for a desired section among the entire playback section.

도 4는 본 발명의 일 실시예에 따른 핵심키워드를 이용한 부분 비디오 생성 과정을 도시한 흐름도이다.4 is a flowchart illustrating a partial video generation process using key keywords according to an embodiment of the present invention.

도 4를 참조하면, 핵심키워드를 이용한 대상 비디오에 대한 부분 재생이 완료됨을 인식한다(S410). 즉 본 실시예에 따른 비디오 가공 장치는 유저에게 제공한 대상 비디오에 대해, 유저가 전체 재생이 아닌 핵심키워드를 이용한 부분재생을 수행함을 인식하는 것이다.Referring to FIG. 4 , it is recognized that partial reproduction of the target video using the key keyword is completed ( S410 ). That is, the video processing apparatus according to the present embodiment recognizes that the user performs partial reproduction using key keywords instead of full reproduction of the target video provided to the user.

그러면, 재생된 일부에 대한 부분 비디오의 생성 여부를 판단한다(S420). 일례에 따르면 유저에게 부분 비디오 생성 여부를 문의하는 방식이 이용될 수 있다. 다른 일례에 따르면 유저마다 달리 적용하는 것인데, 일례로 유저가 미리 등록된 프리미엄 회원인 경우에만 부분 비디오의 생성 프로세스를 진행한다.Then, it is determined whether to generate a partial video for the reproduced part ( S420 ). According to an example, a method of inquiring whether to generate a partial video to the user may be used. According to another example, it is applied differently for each user. For example, the partial video generation process is performed only when the user is a pre-registered premium member.

부분 비디오 생성의 필요가 없는 경우, 해당 유저로의 대상 비디오에 대한 비디오 서비스를 종료한다(S430).If there is no need to generate a partial video, the video service for the target video to the corresponding user is terminated ( S430 ).

부분 비디오의 생성이 필요한 경우, 재생된 구간만을 추출하여 합쳐진 부분 비디오를 생성하고(S440), 해당 유저에 대응되도록 저장(또는 유저에게 다운로드 방식으로 제공)한다(S450). 따라서, 유저는 차후 다시 핵심키워드 구간을 일일이 탐색할 필요없이 시청한 구간만으로 구성된 편집본 비디오를 바로 시청할 수 있게 된다.When it is necessary to generate a partial video, only the reproduced section is extracted and a combined partial video is generated (S440), and stored to correspond to the user (or provided to the user in a download method) (S450). Accordingly, the user can immediately watch the edited video composed of only the watched section without having to search for the core keyword section again later.

도 5 및 도 6은 본 발명의 각 실시예에 따른 핵심키워드 인덱싱을 이용한 다중 영상을 제공하는 사용자 인터페이스 화면을 도시한 예시도들이다.5 and 6 are exemplary views illustrating a user interface screen that provides multiple images using key keyword indexing according to each embodiment of the present invention.

먼저 일례에 따른 도 5를 참조하면, 핵심키워드의 재생구간이 복수개인 경우, 대상 비디오의 재생 화면을 핵심키워드의 재생구간의 개수에 따라 분할하고, 분할화면에 핵심키워드에 상응하는 각 재생구간에 따른 영상을 각각 표시한다.First, referring to FIG. 5 according to an example, if there are a plurality of playback sections of a core keyword, the playback screen of the target video is divided according to the number of playback sections of the core keyword, and in each playback section corresponding to the core keyword in the split screen Each image is displayed.

즉 본 도면에서는 핵심키워드인 [삼각함수]라는 음성이 나오는 재생구간이 총 4개이며, 각 재생구간을 4개의 분할화면(500-1, 500-2, 500-3, 500-4)에 각각 표시하는 것이다. 따라서, 유저는 하나의 화면을 통해 하나의 비디오에 대해 4개의 재생구간을 동시에 시청할 수 있으며, 필요시 원하는 어느 하나를 선택하여 큰화면으로 시청할 수 있다. 이때, 오디오에 대해서는 분할화면 중 어느 하나를 대표화면으로서 선정하여 해당 재생구간에 대한 오디오만을 출력할 수도 있다.That is, in this drawing, there are a total of 4 playback sections in which the key word [trigonometric function] is heard, and each playback section is displayed on four divided screens (500-1, 500-2, 500-3, 500-4). is to display Accordingly, the user can view four playback sections for one video at the same time through one screen, and, if necessary, can select any one and view it on a large screen. In this case, with respect to audio, one of the divided screens may be selected as a representative screen and only the audio for the corresponding reproduction section may be output.

다른 실시예에 따른 도 6을 참조하면, 대상 비디오의 재생 화면을 핵심키워드의 개수(본 실시예는 4개)에 따라 분할하고, 각 분할화면(600-1, 600-2, 600-3, 600-4)에 각각의 핵심키워드에 상응하는 재생구간에 따른 영상을 각각 표시할 수도 있다.Referring to FIG. 6 according to another embodiment, the playback screen of the target video is divided according to the number of key keywords (four in this embodiment), and each divided screen 600-1, 600-2, 600-3, 600-4), each image according to the playback section corresponding to each key keyword may be displayed.

즉, 유저가 키워드 검색을 수행하기 이전에, 대상 비디오에 설정된 핵심키워드들에 대한 정보와 함게 관련 영상을 미리 보여주는 것이다. 이에 따르면, 유저는 해당 비디오의 핵심키워드가 무엇이며, 어떤 내용인지를 직관적으로 쉽게 알 수 있게 된다. That is, before the user performs a keyword search, a related image is previewed together with information on key keywords set in the target video. According to this, the user can intuitively and easily know what the key keywords of the video are and what the content is.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although the above has been described with reference to the preferred embodiment of the present invention, those of ordinary skill in the art may change the present invention in various ways within the scope without departing from the spirit and scope of the present invention described in the claims below. It will be appreciated that modifications and variations are possible.

10 : 통신부
20 : 저장부
30 : 제어부
10: communication department
20: storage
30: control unit

Claims (12)

대상 비디오의 오디오에 대한 음성 인식에 따른 비디오텍스트를 획득하는 단계;
상기 비디오텍스트에서 미리 설정된 기준에 따른 하나 이상의 핵심키워드를 추출하는 단계;
상기 핵심키워드의 재생시점을 확인하는 단계;
상기 핵심키워드를 이용한 재생구간 설정을 위해, 상기 핵심키워드와 상기 재생시점을 인덱싱 정보로서 저장하는 단계;
상기 대상 비디오에 대한 키워드 검색 인터페이스를 제공하는 단계;
상기 키워드 검색 인터페이스를 통해 상기 핵심키워드가 입력되는 경우, 상기 핵심키워드의 재생시점을 표시하는 단계; 및
상기 핵심키워드를 이용한 상기 대상 비디오에 대한 부분 재생이 완료되면, 재생된 구간만을 이용한 부분 비디오를 생성하는 단계를 포함하는, 음성 인덱싱을 이용한 비디오 가공 방법.
obtaining a video text according to speech recognition of the audio of the target video;
extracting one or more key keywords according to preset criteria from the video text;
confirming the playback time of the key keyword;
storing the core keyword and the playback time as indexing information to set a playback section using the core keyword;
providing a keyword search interface for the target video;
displaying a playback time of the core keyword when the core keyword is input through the keyword search interface; and
When partial reproduction of the target video using the key keyword is completed, generating a partial video using only the reproduced section, a video processing method using voice indexing.
삭제delete 삭제delete 청구항 1에 있어서,
상기 비디오텍스트에서 임계횟수 이상 반복되는 키워드를 상기 핵심키워드로서 설정하는, 음성 인덱싱을 이용한 비디오 가공 방법.
The method according to claim 1,
A video processing method using voice indexing, in which a keyword repeated more than a threshold number of times in the video text is set as the core keyword.
청구항 4에 있어서,
상기 임계횟수는 상기 대상 비디오의 총 재생시간 및 추출되는 핵심키워드의 개수에 따라 가변적으로 설정되는, 음성 인덱싱을 이용한 비디오 가공 방법.
5. The method according to claim 4,
The threshold number of times is variably set according to the total playing time of the target video and the number of extracted key keywords, a video processing method using voice indexing.
청구항 1에 있어서,
상기 핵심키워드의 재생구간이 복수개인 경우,
상기 대상 비디오의 재생 화면을 상기 핵심키워드의 재생구간의 개수에 따라 분할하고, 분할화면에 핵심키워드에 상응하는 각 재생구간에 따른 영상을 각각 표시하는, 음성 인덱싱을 이용한 비디오 가공 방법.
The method according to claim 1,
When there are a plurality of playback sections of the core keyword,
A video processing method using voice indexing, in which the playback screen of the target video is divided according to the number of playback sections of the core keyword, and images according to each playback section corresponding to the core keyword are displayed on the split screen.
청구항 1에 있어서,
상기 핵심키워드가 복수개인 경우,
상기 대상 비디오의 재생 화면을 상기 핵심키워드의 개수에 따라 분할하고, 분할화면에 각 핵심키워드에 상응하는 재생구간에 따른 영상을 각각 표시하는, 음성 인덱싱을 이용한 비디오 가공 방법.
The method according to claim 1,
If there are multiple key keywords,
A video processing method using voice indexing, in which the playback screen of the target video is divided according to the number of the key keywords, and images according to the playback section corresponding to each core keyword are displayed on the divided screen.
제 1항의 방법을 수행하기 위한 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체.
A recording medium comprising computer-executable instructions such as an application or program module executed by a computer for performing the method of claim 1 .
대상 비디오의 오디오에 대한 음성 인식에 따른 비디오텍스트를 획득하는 음성인식부;
상기 비디오텍스트에서 미리 설정된 기준에 따른 하나 이상의 핵심키워드를 추출하고, 상기 핵심키워드의 재생시점을 확인하여 인덱싱 정보를 생성하는 인덱싱부; 및
상기 핵심키워드를 이용한 재생구간 설정을 위해, 상기 인덱싱정보를 상기 대상 비디오에 적용하는 비디오가공부;
통신망을 통해 상기 대상 비디오에 접근하는 사용자 단말과 통신하기 위한 통신부; 및
상기 대상 비디오에 대한 키워드 검색 인터페이스를 상기 사용자 단말에게 제공하고, 상기 키워드 검색 인터페이스를 통해 상기 핵심키워드가 입력되는 경우 상기 핵심키워드의 재생시점을 표시하는 인터페이스부를 포함하되,
상기 인터페이스부는 상기 핵심키워드가 복수개인 경우, 상기 대상 비디오의 재생 화면을 상기 핵심키워드의 개수에 따라 분할하고, 분할화면에 각 핵심키워드에 상응하는 재생구간에 따른 영상을 각각 표시하는, 음성 인덱싱을 이용한 비디오 가공 장치.
a voice recognition unit for acquiring a video text according to voice recognition of the audio of the target video;
an indexing unit for extracting one or more key keywords according to preset criteria from the video text, and generating indexing information by confirming a playback time of the core keywords; and
a video processing unit that applies the indexing information to the target video to set a playback section using the key keyword;
a communication unit for communicating with a user terminal accessing the target video through a communication network; and
An interface unit that provides a keyword search interface for the target video to the user terminal and displays a playback time of the core keyword when the core keyword is input through the keyword search interface,
The interface unit divides the playback screen of the target video according to the number of core keywords when there are a plurality of core keywords, and displays images according to the playback section corresponding to each core keyword on the split screen, respectively, voice indexing video processing equipment used.
삭제delete 청구항 9에 있어서,
상기 비디오가공부는 상기 핵심키워드를 이용한 상기 대상 비디오에 대한 부분 재생이 완료되면, 재생된 구간만을 이용한 부분 비디오를 생성하는, 음성 인덱싱을 이용한 비디오 가공 장치.
10. The method of claim 9,
When the partial reproduction of the target video using the key keyword is completed, the video processing unit generates a partial video using only the reproduced section, a video processing apparatus using voice indexing.
삭제delete
KR1020200081858A 2020-07-03 2020-07-03 Method and system for remote medical service using artificial intelligence KR102384263B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200081858A KR102384263B1 (en) 2020-07-03 2020-07-03 Method and system for remote medical service using artificial intelligence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200081858A KR102384263B1 (en) 2020-07-03 2020-07-03 Method and system for remote medical service using artificial intelligence

Publications (2)

Publication Number Publication Date
KR20220004260A KR20220004260A (en) 2022-01-11
KR102384263B1 true KR102384263B1 (en) 2022-04-08

Family

ID=79355873

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200081858A KR102384263B1 (en) 2020-07-03 2020-07-03 Method and system for remote medical service using artificial intelligence

Country Status (1)

Country Link
KR (1) KR102384263B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180308524A1 (en) * 2015-09-07 2018-10-25 Bigvu Inc. System and method for preparing and capturing a video file embedded with an image file

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040071369A (en) 2003-02-05 2004-08-12 (주)에어스파이더 Digital Image Data Search System

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180308524A1 (en) * 2015-09-07 2018-10-25 Bigvu Inc. System and method for preparing and capturing a video file embedded with an image file

Also Published As

Publication number Publication date
KR20220004260A (en) 2022-01-11

Similar Documents

Publication Publication Date Title
US11200243B2 (en) Approximate template matching for natural language queries
KR102461355B1 (en) System, Apparatus and Method For Processing Natural Language, and Computer Readable Recording Medium
US10827215B2 (en) Systems and methods for producing processed media content
EP3499900A2 (en) Video processing method, apparatus and device
CN111083396B (en) Video synthesis method and device, electronic equipment and computer-readable storage medium
CN110663079A (en) Method and system for correcting input generated using automatic speech recognition based on speech
CN103984772A (en) Method and device for generating text retrieval subtitle library and video retrieval method and device
US9525896B2 (en) Automatic summarizing of media content
CN111885416B (en) Audio and video correction method, device, medium and computing equipment
US20230229702A1 (en) Methods and systems for providing searchable media content and for searching within media content
CN114117120A (en) Video file intelligent index generation system and method based on content analysis
WO2019146466A1 (en) Information processing device, moving-image retrieval method, generation method, and program
US20040024780A1 (en) Method, system and program product for generating a content-based table of contents
KR101198091B1 (en) Method and system for learning contents
KR102384263B1 (en) Method and system for remote medical service using artificial intelligence
KR102523813B1 (en) Video streaming service server that enables keyword-based search for video and operating method thereof
KR101783872B1 (en) Video Search System and Method thereof
CN113891108A (en) Subtitle optimization method and device, electronic equipment and storage medium
KR102468214B1 (en) The system and an appratus for providig contents based on a user utterance
JP2002304420A (en) Audio-visual content distribution system
JP2006317548A (en) Educational content generating device
CN114341866A (en) Simultaneous interpretation method, device, server and storage medium
KR20150106472A (en) Method and apparatus for providing contents
WO2019069997A1 (en) Information processing device, screen output method, and program
CN109977239B (en) Information processing method and electronic equipment

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant