KR20210134614A - 데이터 처리 방법 및 장치, 전자 기기 및 저장 매체 - Google Patents

데이터 처리 방법 및 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20210134614A
KR20210134614A KR1020217024179A KR20217024179A KR20210134614A KR 20210134614 A KR20210134614 A KR 20210134614A KR 1020217024179 A KR1020217024179 A KR 1020217024179A KR 20217024179 A KR20217024179 A KR 20217024179A KR 20210134614 A KR20210134614 A KR 20210134614A
Authority
KR
South Korea
Prior art keywords
detection
target object
gesture
detection result
data
Prior art date
Application number
KR1020217024179A
Other languages
English (en)
Inventor
헤란 순
레이 왕
지아닝 리
칭타오 장
유웬 쳉
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20210134614A publication Critical patent/KR20210134614A/ko

Links

Images

Classifications

    • G06K9/00892
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • G06K9/00335
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명은 데이터 처리 방법 및 장치, 전자 기기 및 저장 매체에 관한 것이다. 상기 데이터 처리 방법은, 타깃 대상의 멀티미디어 데이터를 획득하는 단계; 상기 멀티미디어 데이터에 따라, 상기 타깃 대상에 대해 적어도 하나의 검출 차원에서 행위 상태 검출을 수행하여, 상기 타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻는 단계; 상기 적어도 하나의 검출 차원에서의 중간 검출 결과에 대해 처리하여, 상기 타깃 대상의 타깃 검출 결과를 얻는 단계 - 상기 타깃 검출 결과는 상기 타깃 대상의 행위 상태를 나타내기 위한 것임 - 를 포함한다.

Description

데이터 처리 방법 및 장치, 전자 기기 및 저장 매체
관련 출원의 상호 참조
본 발명은 2020년 04월 26일에 중국 특허청에 제출한 출원 번호가 202010339381.1이고, 발명의 명칭이 “데이터 처리 방법 및 장치, 전자 기기 및 저장 매체”인 중국 특허 출원의 우선권을 주장하는 바, 그 모든 내용은 인용을 통해 본 출원에 결합된다.
본 발명은 컴퓨터 시각 분야에 관한 것으로, 특히 데이터 처리 방법 및 장치, 전자 기기 및 저장 매체에 관한 것이다.
타깃 대상의 행위 상태 평가는 다양한 분야에서 광범위하게 응용될 수 있고, 얻은 평가 결과는 타깃 대상 또는 타깃 대상 행위에 대한 분석을 위한 것일 수 있으며, 평가 결과가 정확할수록, 상응한 분석은 더욱 진실적이고 의미가 있다.
따라서, 비교적 정확한 행위 상태 평가 결과를 어떻게 편리하게 얻을 수 있는지는, 현재 시급히 해결해야 하는 문제가 되었다.
본 발명은 데이터 처리의 방안을 제공한다.
본 발명의 일 측면에 따라서, 데이터 처리 방법을 제공하고, 상기 데이터 처리 방법은,
타깃 대상의 멀티미디어 데이터를 획득하는 단계; 상기 멀티미디어 데이터에 따라, 상기 타깃 대상에 대해 적어도 하나의 검출 차원에서 행위 상태 검출을 수행하여, 상기 타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻는 단계; 상기 적어도 하나의 검출 차원에서의 중간 검출 결과에 대해 처리하여, 상기 타깃 대상의 타깃 검출 결과 - 상기 타깃 검출 결과는 상기 타깃 대상의 행위 상태를 나타내기 위한 것임 - 를 얻는 단계를 포함한다.
본 발명의 일 측면에 따라서, 데이터 처리 장치를 제공하고, 상기 데이터 처리 장치는,
타깃 대상의 멀티미디어 데이터를 획득하기 위한 획득 모듈; 상기 멀티미디어 데이터에 따라, 상기 타깃 대상에 대해 적어도 하나의 검출 차원에서 행위 상태 검출을 수행하여, 상기 타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻기 위한 검출 모듈; 및 상기 적어도 하나의 검출 차원에서의 중간 검출 결과에 대해 처리하여, 상기 타깃 대상의 타깃 검출 결과 - 상기 타깃 검출 결과는 상기 타깃 대상의 행위 상태를 나타내기 위한 것임 - 를 얻기 위한 처리 모듈을 포함한다.
본 발명의 일 측면에 따라서, 전자 기기를 제공하고, 상기 전자 기기는, 프로세서; 및 프로세서가 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고; 여기서, 상기 프로세서는 상기 데이터 처리 방법을 수행하도록 구성된다.
본 발명의 일 측면에 따라서, 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 프로그램 명령어가 프로세서에 의해 수행될 때 상기 데이터 처리 방법을 구현한다.
본 발명의 일 측면에 따라서, 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램을 제공하고, 상기 컴퓨터 판독 가능 코드가 전자 기기에서 작동될 때, 상기 전자 기기에서의 프로세서는 상기 데이터 처리 방법을 구현하기 위한 명령어를 실행한다.
본 발명의 실시예에 있어서, 타깃 대상의 멀티미디어 데이터를 획득하는 것을 통하고, 멀티미디어 데이터에 따라 타깃 대상에 대해 적어도 하나의 검출 차원에서 행위 상태 검출을 수행함으로써, 타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻으며, 적어도 하나의 차원에서의 중간 검출 결과에 대해 처리하여 타깃 대상 행위 상태를 나타내기 위한 타깃 검출 결과를 얻는다. 상기 과정을 통해, 타깃 대상의 복수 개 차원에서의 행위 상태에 대해 검출을 수행하는 것에 기반하여, 타깃 대상 행위 상태를 나타내기 위한 타깃 검출 결과를 얻을 수 있고, 한편으로는 타깃 대상 행위 상태에 대한 자동 평가를 구현할 수 있으며, 다른 한편으로는 최종적으로 얻은 타깃 검출 결과의 전면성 및 정확성을 향상시킬 수도 있다.
이해해야 할 것은, 이상의 일반적인 설명 및 아래의 세부적인 설명은 단지 예시적 및 해석적인 것일 뿐, 본 발명을 한정하는 것은 아니다. 아래 참조 도면이 예시적 실시예에 대한 상세한 설명에 따라, 본 발명의 다른 특징 및 측면은 명확해진다.
여기서 도면은 명세서에 통합되어 본 명세서의 일부를 구성하며, 이 도면은 본 발명에 부합되는 실시예를 도시하고, 명세서와 함께 본 발명의 기술적 방안을 설명하기 위한 것이다.
도 1은 본 발명의 일 실시예에 따라 도시된 데이터 처리 방법의 흐름도이다.
도 2는 본 발명의 일 실시예에 따라 도시된 데이터 처리 장치의 블록도이다.
도 3은 본 발명의 일 응용 예시에 따라 도시된 타깃 검출 결과 예시도이다.
도 4는 본 발명의 실시예에 따라 도시된 전자 기기의 블록도이다.
도 5는 본 발명의 실시예에 따라 도시된 전자 기기의 블록도이다.
아래에 도면을 참조하여 본 발명의 다양한 예시적 실시예, 특징 및 측면을 상세하게 설명한다. 도면에서 동일한 도면 표시는 기능이 동일하거나 또는 유사한 구성 요소를 나타낸다. 비록 실시예의 다양한 측면이 도면에서 도시되었지만, 특별히 지적하지 않는 한, 비례대로 제도될 필요는 없다.
여기서 전문적으로 사용되는 "예시적"이란 단어는 "예, 실시예 또는 설명적인 것으로 사용됨"을 의미한다. 여기서 "예시적"으로 설명된 그 어떤 실시예는 다른 실시예보다 더 낫거나 좋은 것으로 해석될 필요는 없다.
본문에서 용어 “및/또는”은 다만 관련 대상의 관련 관계를 설명하기 위한 것일 뿐, 세 가지의 관계가 존재함을 나타내며, 예를 들어, A 및/또는 B는, A가 단독적으로 존재, A 및 B가 동시에 존재, B가 단독적으로 존재하는 세 가지 상황을 나타낼 수 있다. 또한, 본문에서 용어 "적어도 하나"는 복수에서의 어느 하나 또는 복수에서의 적어도 두 개 중의 어느 하나의 조합을 나타내고, 예를 들어, A, B, C 중 적어도 하나를 포함하는 것은, A, B 및 C로 구성된 집합에서 선택된 어느 하나 또는 복수 개의 요소를 포함하는 것을 나타낼 수 있다.
또한, 본 발명을 더욱 잘 설명하기 위해, 아래의 구체적 실시 형태에서 수많은 구체적 세부 사항을 제공한다. 본 분야의 기술자는 일부 구체적 세부 사항이 없더라도, 본 발명은 마찬가지로 실시될 수 있음을 이해해야 한다. 일부 실제의 예에 있어서, 본 발명의 요지가 부각되도록 본 분야의 기술자들이 익숙한 방법, 수단, 구성 요소 및 회로에 대해서는 상세한 설명을 하지 않는다.
도 1은 본 발명의 일 실시예에 따라 도시된 데이터 처리 방법의 흐름도이고, 상기 데이터 처리 방법은 데이터 처리 장치에 응용될 수 있으며, 데이터 처리 장치는 단말 기기, 서버 또는 다른 처리 기기 등일 수 있다. 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말, 단말, 셀룰러 폰, 무선 전화, 개인용 정보 단말기(Personal Digital Assistant, PDA), 휴대용 기기, 컴퓨팅 기기, 차량 탑재 기기, 웨어러블 기기 등일 수 있다. 일 실시예에 있어서, 상기 데이터 처리 방법은 클라우드 서버 또는 로컬 서버에 응용될 수 있고, 클라우드 서버는 공유 클라우드 서버일 수 있으며, 개인 클라우드 서버일 수도 있고, 실제 상황에 따라 유연하게 선택하면 된다.
일부 가능한 구현 방법에 있어서, 상기 데이터 처리 방법은 프로세서가 메모리에 저장된 컴퓨터 판독 가능 명령어를 호출하는 방법을 통해 구현될 수도 있다.
도 1에 도시된 바와 같이, 한 가지 가능한 구현 방법에 있어서, 상기 데이터 처리 방법은 하기와 같은 단계를 포함할 수 있다.
단계 S11에 있어서, 타깃 대상의 멀티미디어 데이터를 획득한다.
단계 S12에 있어서, 멀티미디어 데이터에 따라, 타깃 대상에 대해 적어도 하나의 검출 차원에서 행위 상태 검출을 수행하여, 타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻는다.
단계 S13에 있어서, 적어도 하나의 검출 차원에서의 중간 검출 결과에 대해 처리하여, 타깃 대상의 타깃 검출 결과 - 타깃 검출 결과는 타깃 대상의 행위 상태를 나타내기 위한 것임 - 를 얻는다.
여기서, 타깃 대상은 행위 상태 표시 또는 평가 수요를 구비한 임의의 대상일 수 있고, 그 구체적 구현 형태는 타깃 대상 실행 행위의 응용 시나리오에 따라 유연하게 결정될 수 있다. 타깃 대상이 구체적으로 어떤 행위를 실행할지는 본 발명의 실시예에서 한정되지 않았고, 한 가지 가능한 구현 방법에 있어서, 행위는 수업 행위, 관리 행위 또는 작업 행위 등일 수 있다. 상응하게, 타깃 대상 실행 행위의 상이함에 따라, 타깃 대상의 구현 형태에도 변화가 생기고, 한 가지 가능한 구현 방법에 있어서, 행위는 수업 행위인 경우, 타깃 대상은 교사일 수 있으며; 진일보로, 수업 행위도 정식 수업 행위 또는 모의 수업 행위일 수 있고, 상응하게, 타깃 대상은 정식 수업의 교사일 수 있으며, 모의 수업의 교사 또는 미취업 면접 단계에 있는 교사 등일 수도 있다. 한 가지 가능한 구현 방법에 있어서, 행위는 관리 행위인 경우, 타깃 대상은 수업 관리 인원 등과 같은 관리 기능을 구비한 대상일 수 있다. 한 가지 가능한 구현 방법에 있어서, 행위는 작업 행위인 경우, 타깃 대상은 예를 들어 교육자 등과 같은 관련된 작업 대상일 수 있다. 후속적인 각 발명의 실시예는 모두 타깃 대상을 교사로 하고, 실행되는 행위는 모의 수업 행위(이하 모수 행위로 약칭됨)인 것을 예로 들어 설명하였으며, 타깃 대상 및 행위는 다른 구현 형태인 경우, 후속적인 각 발명의 실시예를 참조하여 상응한 확장을 수행할 수 있고, 일일이 반복하여 설명하지 않는다.
타깃 대상의 멀티미디어 데이터는 타깃 대상이 상응한 행위를 실행하는 경우 획득된 데이터일 수 있고, 그 구현 형태는 실제 상황에 따라 유연하게 결정될 수 있다. 한 가지 가능한 구현 방법에 있어서, 타깃 대상의 멀티미디어 데이터에는 비디오 데이터 및/또는 오디오 데이터가 포함될 수 있다. 구체적으로 타깃 대상의 멀티미디어 데이터가 어떻게 획득될지, 그 획득 방법은 실제 상황에 따라 유연하게 결정될 수 있고, 상세한 내용은 후속적인 각 발명의 실시예를 참조하며, 여기서는 먼저 전개하지 않는다.
타깃 대상의 멀티미디어 데이터를 획득한 후, 단계 S12를 통해, 타깃 대상에 대해 적어도 하나의 검출 차원에서 행위 상태 검출을 수행하여, 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻을 수 있다. 한 가지 가능한 구현 방법에 있어서, 타깃 대상은 교사이고, 실행되는 행위는 모수 행위인 경우, 수업 행위에서의 제스처, 정서, 눈빛 교류, 유창도, 말하는 속도, 정지 또는 볼륨 등과 같은 타깃 대상이 수업 행위에서의 각 검출 차원에 대해 상태 검출을 수행할 수 있으며, 구체적으로 어떤 차원이 포함되는지 및 이런 차원에서 검출 행위 상태의 구체적 구현 형태는, 상세한 내용은 후속적인 각 발명의 실시예를 참조할 수 있고, 여기서는 먼저 전개하지 않는다.
타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻은 후, 단계 S13을 통해, 적어도 하나의 검출 차원에서의 중간 검출 결과에 대해 처리하여, 타깃 대상의 타깃 검출 결과를 얻을 수 있다. 여기서, 타깃 검출 결과의 수량은 본 발명의 실시예에서 한정하지 않고, 실제 수요에 따라 유연하게 설정될 수 있다. 한 가지 가능한 구현 방법에 있어서, 타깃 검출 결과에는 타깃 대상 행위 상태의 총체적 상황을 반영하기 위한 총체적인 검출 결과가 포함될 수 있고; 한 가지 가능한 구현 방법에 있어서, 타깃 검출 결과에는 하나의 총체적인 검출 결과와 복수 개 상세한 세분화 결과가 동시에 포함될 수도 있으며, 타깃 대상 행위 상태의 총체적 상황 및 상세한 상황을 동시에 반영하기 위한 것이다. 타깃 검출 결과의 구체적 구현 형태 및 타깃 검출 결과를 얻는 방법은, 후속적인 각 발명의 실시예를 참조할 수 있고, 여기서는 먼저 전개하지 않는다.
본 발명의 실시예에 있어서, 타깃 대상의 멀티미디어 데이터를 획득하는 것을 통하고, 멀티미디어 데이터에 따라 타깃 대상에 대해 적어도 하나의 검출 차원에서 행위 상태 검출을 수행함으로써, 타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻으며, 적어도 하나의 차원에서의 중간 검출 결과에 대해 처리하여 타깃 대상 행위 상태를 나타내기 위한 타깃 검출 결과를 얻는다. 상기 과정을 통해, 타깃 대상의 복수 개 차원에서의 행위 상태에 대해 검출을 수행하는 것에 기반하여, 타깃 대상 행위 상태를 나타내기 위한 타깃 검출 결과를 얻을 수 있고, 한편으로는 타깃 대상 행위 상태에 대한 자동 평가를 구현할 수 있으며, 다른 한편으로는 최종적으로 얻은 타깃 검출 결과의 전면성 및 정확성을 향상시킬 수도 있다.
상기 발명의 실시예에서 설명한 바와 같이, 멀티미디어 데이터의 구현 형태는 한정되지 않고, 한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터에는 오디오 데이터만 포함될 수 있고; 한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터에는 예를 들어 무성 비디오 등과 같은 비디오 데이터만 포함될 수 있으며; 한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터에는 예를 들어 유성 비디오 등과 같은 비디오 데이터와 오디오 데이터가 동시에 포함될 수 있다. 일 실시예에 있어서, 멀티미디어 데이터에 비디오 데이터가 포함된 경우, 비디오 데이터의 해상도는 한정되지 않고, 실제 상황에 따라 예를 들어 640P, 720P 및 1080P 등과 같이 유연하게 선택될 수 있다. 일 실시예에 있어서, 멀티미디어 데이터에 오디오 데이터가 포함된 경우, 오디오 데이터의 오디오 샘플링 주파수도 마찬가지로 한정되지 않고, 예를 들어 8000Hz 또는 16000Hz 등과 같이 유연하게 선택될 수 있다.
멀티미디어 데이터 형태의 상이함에 따라, 상기 멀티미디어 데이터의 생성 방법도 유연하게 변환될 수 있다. 한 가지 가능한 구현 방법에 있어서, 타깃 대상은 교사이고, 실행되는 행위는 모수 행위인 경우, 오디오 데이터는 교사가 모수하는 과정의 오디오를 녹화하는 방법을 통해 생성될 수 있으며, 비디오 데이터는 교사가 모수하는 과정의 동작을 촬영하는 방법을 통해 생성될 수 있고, 따라서, 일 실시예에 있어서, 교사가 모수하는 과정에 대해 비디오 촬영을 수행하는 방법을 통해, 멀티미디어 데이터를 생성할 수 있다.
한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터는 타깃 대상이 기설정된 텍스트 데이터에 따라 수업 동작을 수행하는 것을 통해 획득될 수 있고, 여기서, 기설정된 텍스트 데이터에는 적어도 하나의 명령어 태그가 포함되며, 명령어 태그는 기설정된 텍스트 데이터의 적어도 부분 내용을 구분 및/또는 표시하기 위한 것이다.
여기서, 기설정된 텍스트 데이터는 예를 들어 모수의 전사 원고와 같이 교사가 수업 또는 모수를 위한 문자 내용일 수 있고, 여기에는 교사 모수에서 이야기해야 할 관련 내용 등이 포함된다. 명령어 태그는 기설정된 텍스트 데이터 내에 위치한, 기설정된 텍스트 데이터의 부분 내용에 대해 구분 또는 표시 등을 수행하기 위한 태그일 수 있다. 명령어 태그의 위치, 구체적 내용 및 작용 등은 모두 실제 상황에 따라 유연하게 선택될 수 있고, 하기 발명의 실시예에 제한되지 않는다.
한 가지 가능한 구현 방법에 있어서, 기설정된 텍스트 데이터는 모수의 전사 원고인 경우, 명령어 태그는 전사 원고가 속한 모수 과정에 대해 구분을 수행하기 위한 태그일 수 있고, 즉 모수 전사 원고에 대한 부분 구조 표시일 수 있다. 명령어 태그의 구체적 구현 형태는, 모수의 과정 구분의 상황에 따라 유연하게 결정될 수 있다. 한 가지 가능한 구현 방법에 있어서, 모수 과정을 수업 전 워밍업, 지식 강의, 수업 중 훈련 및 수업 검사 등 단계로 구분할 수 있고, 명령어 태그를 통해, 모수 전사 원고에서의 내용을 이 네 개 단계로 구분할 수 있다.
진일보로, 명령어를 통해 모수 과정을 어떻게 복수 개 단계로 구분할지, 그 구현 형태도 유연하게 선택될 수 있다. 한 가지 가능한 구현 방법에 있어서, <시작 명령어 시작><시작 명령어 종료>; <종료 명령어 시작>, <종료 명령어 종료> 등을 통해 대응하는 단계를 각각 표시함으로써, 모수 전사 원고의 구조 구분을 구현할 수 있다. 구체적으로 <시작 명령어 시작>, <종료 명령어 시작> 등 표시의 구체적 구현 형태도, 마찬가지로 실제 상황에 따라 유연하게 결정될 수 있고, 예를 들면, 어떤 특정된 단어 또는 동작 설명을 통해 <시작 명령어 시작> 또는 <종료 명령어 시작> 등 표시의 구체적 구현 형태로 사용할 수 있다.
예시적으로, 모수 전사 원고의 내용은 아래에서 설명한 바와 같고, “<수업 전 워밍업 세션 시작 명령어 시작>: 다음 수업 전 워밍업 세션을 수행한다. <수업 전 워밍업 세션 시작 명령어 종료> 중간에는 큰 단락의 커리큘럼 내용입니다. <수업 전 워밍업 세션 종료 명령어 시작>: 자, 그럼 다음 세션으로 넘어갑니다. <수업 전 워밍업 세션 종료 명령어 종료> 여기는 한 단락의 커리큘럼 내용입니다.
<지식 강의 세션 시작 명령어 시작>: 다음은 지식 강의 수행 세션입니다. <지식 강의 세션 시작 명령어 종료>
<지식 강의 세션 종료 명령어 시작>: 자, 다음 세션으로 넘어갑니다. <지식 강의 세션 종료 명령어 종료>”. 상기 예시적인 모수 전사 원고 내용을 통해 알다시피, 일 실시예에 있어서, <수업 전 워밍업 세션 시작 명령어 시작>, <수업 전 워밍업 세션 시작 명령어 종료>, <수업 전 워밍업 세션 종료 명령어 시작> 및 <수업 전 워밍업 세션 종료 명령어 종료> 등 표시를 통해, 모수 전사 원고에서 수업 전 워밍업 세션 수행이 필요한 텍스트 내용을 태그할 수 있고; 마찬가지로, 대응되는 명령어를 통해 모수 전사 원고에서 추가로 지식 강의 세션의 텍스트 내용을 구분할 수도 있다. 구체적으로 이런 명령어는 대응되는 구체적 단어 또는 동작 설명을 표시하고, 본 발명의 실시예에서 한정하지 않으며, 실제 수요에 따라 유연하게 선택하면 된다.
교사는 구조를 구분하기 위한 명령어 태그를 구비한 기설정된 텍스트 데이터에 따라 모수 수업을 수행하여, 상응한 멀티미디어 데이터를 얻고, 멀티미디어 데이터로 하여금 상이한 단계의 표시(예를 들어 특정된 단어 또는 동작) 등을 구비하도록 할 수 있다. 이런 상이한 단계의 표시는 자동적으로 데이터 처리 장치에 의해 인식될 수 있음으로써, 데이터 처리 장치로 하여금 멀티미디어 데이터에 대해 상응한 구조에 따라 자동적으로 구분하도록 할 수 있다. 한 가지 가능한 구현 방법에 있어서, 구분된 멀티미디어 데이터는 교사 모수의 각 단계의 타깃 검출 결과 등을 각각 획득하기 위한 것일 수 있고, 즉 모수 과정에서 각 단계의 타깃 검출 결과를 각각 얻을 수 있다. 데이터 처리 과정의 자동화 수준을 향상시킬 수 있을 뿐만 아니라, 데이터 처리하여 얻은 타깃 검출 결과의 타깃성 및 실용성을 향상시킬 수도 있다.
한 가지 가능한 구현 방법에 있어서, 기설정된 텍스트 데이터가 모수의 전사 원고인 경우, 명령어 태그는 전사 원고 중의 중점 내용 또는 인터랙션이 필요한 위치에 대해 표시를 수행하기 위한 것일 수도 있고, 즉 모수 전사 원고의 지식 포인트와 인터랙션에 대한 표시일 수 있다. 명령어 태그의 구체적 구현 형태는, 중점 내용이 위치한 위치 및 필요한 인터랙션의 상황에 따라 유연하게 결정될 수 있고, 예를 들어, 복수 개 중점 단락 또는 인터랙션 위치가 존재하는 경우, 명령어 태그의 수량은 복수 개 일 수 있다.
진일보로, 명령어 태그를 통해 모수 전사 원고에서의 중점 내용과 인터랙션 위치에 대해 어떻게 표시를 수행할지는, 그 구현 형태도 유연하게 선택될 수 있다. 한 가지 가능한 구현 방법에 있어서, <중점 시작><중점 종료> 등을 통해 모수에서의 중요 지식 포인트에 대한 표시를 수행할 수 있고, 한 가지 가능한 구현 방법에 있어서, 모수 과정에서 인터랙션 이 필요한 경우, 모수 전사 원고의 대응되는 위치에서 <인터랙션 추가 필요> 인식자를 명령어 태그로 사용할 수 있다. 구체적으로 <중점 시작>, <인터랙션 추가 필요> 등 표시의 구체적 구현 형태도, 마찬가지로 실제 상황에 따라 유연하게 결정될 수 있고, 예를 들면, 어떤 특정된 단어 또는 동작 설명을 통해<중점 시작> 또는 <인터랙션 추가 필요> 등 표시의 구체적 구현 형태로 사용할 수 있다.
예시적인 모수 전사 원고의 내용은 아래에서 설명한 바와 같고, “이것은 일부 강의 내용이고 <중점 시작> 여러분, 도면을 보면, 이들은 교차로의 상황에 속합니다. 당신이 갖고 있는 각도기의 도움으로, 새로운 발견이 있는지 우리가 볼 수 있나요? <인터랙션 추가 필요> 파란색 옷을 입은 학생이, 말해봐요.
<인터랙션 추가 필요> 얘기한 것이 맞아요. 여러분, 만약 두 직선이 서로 직각으로 교차하면, 우리는 이들이 서로 수직된다고 합니다. <중점 종료>”. 상기 예시적인 모수 전사 원고 내용을 통해 알다시피, 일 실시예에 있어서, <중점 시작>과 <중점 종료> 등 표시를 통해, 모수 전사 원고에서 중요한 지식 포인트를 구분할 수 있고; 마찬가지로, <인터랙션 추가 필요> 등 표시를 사용하여, 모수하는 교사가 수업의 어떤 단계에서 상응한 동작을 하도록 제시할 수도 있다. 구체적으로 이런 명령어는 대응되는 구체적 단어 또는 동작 설명을 표시하고, 본 발명의 실시예에서 한정하지 않으며, 실제 수요에 따라 유연하게 선택하면 된다.
교사는 지식 포인트와 인터랙션을 표시하기 위한 명령어 태그를 구비한 기설정된 텍스트 데이터에 따라 모수 수업을 수행하여, 상응한 멀티미디어 데이터를 얻고, 멀티미디어 데이터로 하여금 모수의 어떤 중요한 단계(예를 들어 특정된 단어 또는 동작)에서 태그되도록 할 수 있다. 이런 표시는 자동적으로 데이터 처리 장치에 의해 인식될 수 있음으로써, 데이터 처리 장치로 하여금 멀티미디어 데이터에서의 중요 지식 포인트 강의 과정 또는 인터랙션 과정 등을 자동적으로 인식할 수 있도록 한다. 한 가지 가능한 구현 방법에 있어서, 중요 지식 포인트 강의 과정 또는 인터랙션 과정의 중간 검출 결과를 중점적으로 주의하여, 더욱 타깃성 있게 교사의 모수 상태를 평가할 수 있다. 데이터 처리 과정의 자동화 수준을 향상시킬 수 있을 뿐만 아니라, 데이터 처리하여 얻은 타깃 검출 결과의 타깃성 및 실용성을 향상시킬 수도 있다.
상기 각 발명의 실시예를 통해 알다시피, 명령어 태그를 구비한 기설정된 텍스트 데이터에 의해 생성된 멀티미디어 데이터를 통해, 용이하게 자동적으로 인식과 처리됨으로써, 데이터 처리 방법의 자동화 수준을 향상시키고, 최종적으로 얻은 타깃 검출 결과의 타깃성과 실용성도 향상시킬 수 있다.
상기 각 발명의 실시예를 통해 알다시피, 멀티미디어 데이터의 구현 형태와 생성 방법은 모두 다양한 구현 형태를 구비할 수 있다. 상응하게, 멀티미디어 데이터의 구현 형태의 상이함에 따라, 멀티미디어 데이터 획득 즉 단계 S11의 구현 방법도 유연하게 변환될 수 있다. 한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터는 사전 녹화 제작된 멀티미디어 데이터일 수 있고, 이러한 경우 유니폼 리소스 로케이터(URL, Uniform Resource Locator) 링크 등과 같은 멀티미디어 데이터의 저장 위치에 따라, 멀티미디어 데이터를 획득할 수 있으며, 한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터는 라이브 비디오 등과 같은 녹화 제작 과정중의 데이터일 수 있고, 이러한 경우 멀티미디어 데이터의 라이브 링크 또는 주소 등에 따라, 멀티미디어 데이터를 획득할 수 있다.
진일보로, 상기 각 발명의 실시예에서 설명한 바와 같이, 멀티미디어 데이터에는 비디오 데이터 및/또는 오디오 데이터가 포함될 수 있고, 따라서, 멀티미디어 데이터의 구체적 내용의 상이함에 따라, 그 획득하는 방법도 유연하게 변환될 수 있다. 한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터에 비디오 데이터와 오디오 데이터가 동시에 포함되고, 오디오 데이터와 비디오 데이터가 일체인 경우, 상기 오디오 비디오 일체화된 데이터를 직접 획득할 수 있으며, 다시 일정한 방법을 통해 상기 오디오 비디오 일체화된 데이터에서 각각 분리하여 비디오 데이터와 오디오 데이터를 얻고, 구체적인 분리 방법은 본 발명의 실시예에서 한정하지 않으며, 실제 상황에 따라 유연하게 선택될 수 있다. 한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터에 비디오 데이터와 오디오 데이터가 동시에 포함되고, 오디오 데이터와 비디오 데이터가 서로 독립적인 경우, 후속적인 검출을 위한 비디오 데이터와 오디오 데이터를 각각 획득할 수 있다.
상기 각 발명의 실시예에서 설명한 바와 같이, 멀티미디어 데이터에는 예를 들어 수업 전 워밍업, 지식 강의, 수업 중 훈련 및 수업 검사 등 단계와 같은 모수 과정의 복수 개 단계가 포함될 수 있고, 이런 단계는 특정된 명령어 태그에 대응되는 단어 또는 동작에 기반하여 인식될 수 있으며, 따라서, 한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터를 획득하는 경우, 멀티미디어 데이터에서의 특정된 단어 또는 동작에 따라 멀티미디어 데이터를 분단함으로써, 필요한 부분 멀티미디어 데이터를 획득할 수 있고, 예를 들어, 일 실시예에 있어서, 멀티미디어 데이터에서의 수업 전 워밍업 세션 시작 명령어와 수업 전 워밍업 세션 종료 명령어를 인식하는 것을 통해, 멀티미디어 데이터에서의 수업 전 워밍업 이 부분의 멀티미디어 데이터를 획득하며, 수업 전 워밍업 단계의 멀티미디어 데이터에 기반하여 후속적인 타깃 검출 결과를 얻을 수 있고, 일 실시예에 있어서, 멀티미디어 데이터에서의 복수 개 단계의 시작과 종료 명령어를 인식하는 것을 통해, 멀티미디어 데이터 중 각 부분의 멀티미디어 데이터를 획득함으로써, 단계 S12와 단계 S13을 통해, 멀티미디어 데이터 중 각 부분의 타깃 검출 결과 등을 얻을 수도 있다.
한 가지 가능한 구현 방법에 있어서, 모수 과정 각 단계의 녹화 제작 시간에 기반하여 상이한 단계의 멀티미디어 데이터를 각각 획득할 수도 있다. 일 실시예에 있어서, 교사는 클라이언트를 통해 멀티미디어 데이터를 녹화 제작할 수 있고, 클라이언트의 구현 형태는 본 발명의 실시예에서 한정하지 않으며, 핸드폰, 컴퓨터 또는 다른 사용자 기기 등일 수 있다. 녹화 제작의 과정에 있어서, 클라이언트는 버튼(tap)의 형태로, 클라이언트 인터페이스에 모수의 상이한 단계를 디스플레이할 수 있다. 교사는 tap을 클릭하는 것을 통해, 상기 단계에 진입하고, 상기 단계의 모수 멀티미디어 데이터를 녹화 제작할 수 있으며, 이러한 경우, 상기 단계의 모수 멀티미디어 데이터에는 비디오와 오디오 외에, 녹화 제작의 타임스탬프도 포함되며, 따라서 데이터 처리 장치가 단계 S11을 통해 멀티미디어 데이터를 획득하는 과정에 있어서, 멀티미디어 데이터에 포함된 타임스탬프를 통해, 멀티미디어 데이터에 대응되는 모수 단계를 결정함으로써, 멀티미디어 데이터 중 각 부분의 멀티미디어 데이터를 얻을 수 있다. 본 발명에 있어서, 설명의 편의를 위해, 후속적인 각 발명의 실시예는 모두 멀티미디어 데이터의 각 단계를 구분하지 않는 것을 예로 들어 데이터 처리의 과정을 설명하였고, 멀티미디어 데이터가 복수 개 부분으로 구분된 후 각 부분 타깃 검출 결과를 각각 얻는 구현 방법은 후속적인 각 발명의 실시예를 참조하여 확장을 수행할 수 있고, 반복하여 설명하지 않는다.
상기 내용 외에, 단계 S11에 있어서, 타깃 대상의 멀티미디어 데이터를 획득하는 수량도 한정되지 않고, 타깃 대상에 대응되는 멀티미디어 데이터일 수 있으며, 복수 개 타깃 대상에 대응되는 멀티미디어 데이터일 수도 있다. 본 발명의 실시예에서의 데이터 처리 방법은, 매번 하나의 타깃 대상의 멀티미디어 데이터에 대해서만 처리할 수 있고, 동시에 복수 개 타깃 대상의 멀티미디어 데이터에 대해 일괄처리할 수도 있다. 멀티미디어 데이터가 복수 개인 경우, 상이한 타깃 대상의 멀티미디어 데이터를 구분하기 위해, 멀티미디어 데이터에 다른 정보를 추가하여 멀티미디어 데이터가 속한 타깃 대상을 결정하는데 사용할 수 있다. 따라서, 한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터에는 비디오 데이터와 오디오 데이터가 포함되는 외에, 예를 들어 교사 신원(teacherID), 커리큘럼 신원(모수 ID) 및 교사가 속한 그룹 ID(예를 들어 교사가 속한 회사 또는 학교의 vendeeID) 등과 같은 신원 정보도 포함될 수 있다. 이외에, 멀티미디어 데이터에는 예를 들어 멀티미디어 데이터 주소(URL 링크), 멀티미디어 데이터의 구조(예를 들어 상기 발명의 실시예에서 언급된 멀티미디어 데이터에 대응되는 모수 단계 및 각 단계의 시작 타임스탬프 또는 종료 타임스탬프 등) 또는 멀티미디어 검출의 관련 정보(예를 들어 비디오 검출 프레임 레이트) 등과 같은 다른 관련 정보가 포함될 수도 있다. 후속적으로 각 발명의 실시예는 모두 획득된 멀티미디어 데이터가 타깃 대상의 멀티미디어 데이터인 것을 예로 들어 서술하였고, 동시에 복수 개 타깃 대상의 멀티미디어 데이터를 획득하여 데이터 처리를 수행하는 과정은, 후속적인 각 발명의 실시예를 참조하여 확장을 수행할 수 있고, 반복하여 설명하지 않는다.
유의해야 할 것은, 상기 각 발명의 실시예에서 언급된 멀티미디어 데이터의 구현 방법 및 멀티미디어 데이터를 획득하는 방법은 모두 수요에 따라 유연하게 조합하여 구현할 수 있고, 본 발명의 실시예에서 한정하지 않는다.
상기 어느 한 발명의 실시예를 통해 타깃 대상의 멀티미디어 데이터를 획득한 후, 단계 S12를 통해, 타깃 대상에 대해 적어도 하나의 검출 차원에서 행위 상태 검출을 수행함으로써, 타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻을 수 있다. 단계 S12의 구현 방법은 한정되지 않고, 멀티미디어 데이터의 실제 상황에 따라 유연하게 선택될 수 있으며, 하기 각 발명의 실시예에 한정되지 않는다.
상기 각 발명의 실시예에서 설명한 바와 같이, 한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터에는 비디오 데이터가 포함될 수 있고, 이러한 경우, 단계 S12는 비디오 데이터에 따라 타깃 대상에 대해 행위 상태 검출을 수행하는 것일 수 있다. 따라서, 한 가지 가능한 구현 방법에 있어서, 단계 S12는 하기와 같은 단계를 포함할 수 있다.
단계 S1211에 있어서, 비디오 데이터에서의 타깃 대상을 결정한다.
단계 S1212에 있어서, 타깃 대상에 대해 제스처, 정서 및 눈빛 교류 중 적어도 하나의 검출 차원에서의 행위 상태 검출을 수행하여, 타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻는다.
여기서, 단계 S1211에서 타깃 대상을 결정하는 방법은 한정되지 않고, 타깃 대상의 실제 구현 방법에 따라 유연하게 결정될 수 있다. 상기 각 발명의 실시예에서 설명한 바와 같이, 한 가지 가능한 구현 방법에 있어서, 타깃 대상은 교사 대상일 수 있고, 실행되는 행위는 모수 행위일 수 있으며, 이러한 경우, 얼굴 검출 또는 얼굴 추적의 방법을 통해, 비디오 데이터에서 수업하는 교사를 결정하여, 타깃 대상의 결정을 구현할 수 있다. 예를 들어, 일부 가능한 구현 방법에 있어서, human action SDK의 얼굴 검출과 얼굴 추적 등 모델을 호출하는 것을 통해, 비디오 데이터에서 타깃 대상을 결정할 수 있다.
타깃 대상을 결정한 후, 단계 S1212를 통해, 제스처, 정서 및 눈빛 교류에서 적어도 하나의 검출 차원에서,
타깃 대상에 대해 행위 상태 검출을 수행할 수 있고, 구체적으로 어느 몇 가지 검출 차원이 포함되는지 및 이런 검출 차원 상호 간의 검출 순서는 모두 실제 상황에 따라 유연하게 선택될 수 있다. 각 검출 차원에서 구체적으로 어떻게 검출할지는, 상세한 내용은 후속적인 각 발명의 실시예를 참조하고, 여기서는 먼저 전개하지 않는다. 본 발명에 있어서, 후속적인 각 발명의 실시예는 모두 비디오 데이터에 대해 제스처, 정서 및 눈빛 교류 이 세 개 검출 차원에서 동시에 행위 상태 검출을 수행하는 것을 예로 들어 설명하였고, 나머지 구현 방법은 후속적인 각 발명의 실시예를 참조하여 유연한 확장을 수행할 수 있으며, 일일이 반복하여 설명하지 않는다.
상기 발명의 실시예를 통해 알다시피, 한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터에 비디오 데이터가 포함된 경우, 비디오 데이터에 따라 컴퓨터 시각상의 처리를 수행함으로써, 비디오 데이터에서의 타깃 대상에 대해 제스처, 정서 및 눈빛 교류 등 복수 개 검출 차원에서의 행위 상태 검출을 실행하는 것을 구현할 수 있다. 상기 과정을 통해, 멀티미디어 데이터에서의 비디오 데이터를 충분히 효과적으로 사용하여, 타깃 대상에 대해 복수 개 상이한 검출 차원에서의 검출을 구현하고, 중간 검출 결과의 다양성을 향상시키며, 계속하여 후속적으로 얻은 타깃 검출 결과의 전면성과 신뢰성을 향상시킬 수 있다.
각 검출 차원에서 구체적으로 상응한 중간 검출 결과를 얻는 방법은 유연하게 결정될 수 있다. 한 가지 가능한 구현 방법에 있어서, 검출 차원에는 제스처 검출 차원이 포함된 경우, 하기의 단계에 따라 타깃 대상이 제스처 검출 차원에서의 중간 검출 결과를 얻을 수 있다.
비디오 데이터에 따라, 타깃 대상이 제스처 검출 주기 내에서 적어도 하나의 타깃 제스처를 실행하는 횟수를 획득하여, 제스처 검출 주기의 제스처 검출 결과를 얻고, 여기서, 타깃 제스처에는 손을 받치기, 손들기 및 엄지손가락 들기에서의 하나 또는 복수 개가 포함될 수 있다.
적어도 하나의 제스처 검출 주기의 제스처 검출 결과에 따라, 타깃 대상이 제스처 검출 차원에서의 중간 검출 결과를 얻는다.
여기서, 비디오 데이터를 시간 순서에 따라 복수 개 세그먼트로 구분하고, 구분된 각 세그먼트 비디오를 각각 하나의 제스처 검출 주기로 기록할 수 있다. 구분 방법과 구분된 각 제스처 검출 주기의 길이는 한정되지 않는다. 한 가지 가능한 구현 방법에 있어서, 비디오 데이터에 대해 동일한 기간에 따라 구분할 수 있고, 이러한 경우, 상이한 세그먼트 비디오에 대응되는 제스처 검출 주기의 시간 길이는 동일하며; 한 가지 가능한 구현 방법에 있어서, 비디오 데이터에 대해 상이한 기간에 따라 랜덤으로 구분할 수도 있고, 이러한 경우, 상이한 세그먼트 비디오에 대응되는 제스처 검출 주기의 시간 길이는 동일하다. 본 발명의 실시예는 제스처 검출 주기의 시간 길이가 변하지 않는다는 것을 예로 들어 설명하였고, 일 실시예에 있어서, 제스처 검출 주기를 1 분으로 기록할 수 있고, 즉 타깃 대상이 1 분마다 적어도 하나의 타깃 제스처를 실행하는 횟수를 각가 획득하여, 타깃 대상이 1 분마다의 제스처 검출 결과를 얻으며, 계속하여 1 분마다의 제스처 검출 결과에 따라, 완전한 비디오 데이터에서, 타깃 대상이 제스처 검출 차원에서의 중간 검출 결과를 얻는다.
타깃 제스처는 예를 들어 손을 받치기(어떤 학생한테 답변을 요청하는 것을 나타낸다), 손들기(학생한테 답변하라고 제시하는 것을 나타낸다) 또는 엄지손가락 들기(학생의 행위에 대해 칭찬하는 것을 나타낸다) 등과 같이 설정되고, 교사가 모수 과정에서 유효라고 판정할 수 있는 제스처일 수 있으며, 구체적으로 어떤 제스처가 타깃 제스처로 사용될 수 있을지는, 실제 상황에 따라 유연하게 설정될 수 있다.
비디오 데이터에 따라, 타깃 대상이 제스처 검출 주기 내에서 적어도 하나의 타깃 제스처를 실행하는 횟수를 획득하는 것을 통해, 제스처 검출 주기의 제스처 검출 결과를 얻고, 계속하여 적어도 하나의 제스처 검출 주기의 제스처 검출 결과에 따라, 타깃 대상이 제스처 검출 차원에서의 중간 검출 결과를 얻으며, 상기 과정을 통해, 비디오 데이터를 복수 개 제스처 검출 주기로 구분하고, 완전한 제스처 검출 과정을 복수 개 세그먼트의 제스처 검출의 과정으로 전환하여, 매번 제스처 검출을 수행하는 난이도를 줄였으며, 제스처 교정의 효율을 향상시킬 수 있고, 동시에 제스처 검출 차원에서의 중간 검출 결과를 통해, 교사가 모수 과정에서의 신체 움직임 수준 및 학생과의 제스처 인터랙션 수준을 효과적으로 반영할 수 있으며, 데이터 처리 방법의 효율을 향상시키는 동시에, 데이터 처리 결과의 정확성 및 신뢰성을 향상시킬 수도 있다.
구체적으로, 타깃 대상이 제스처 검출 주기 내에서 적어도 하나의 타깃 제스처를 실행하는 횟수를 어떻게 획득할지의 방법은, 실제 상황에 따라 유연하게 결정될 수 있고, 한 가지 가능한 구현 방법에 있어서, 비디오 데이터에 따라, 타깃 대상이 제스처 검출 주기 내에서 적어도 하나의 타깃 제스처를 실행하는 횟수를 획득하는 단계는,
비디오 데이터가 제스처 검출 주기 내에서의 적어도 하나의 제스처 검출 프레임 시퀀스를 획득하는 단계; 제스처 검출 프레임 시퀀스에 있어서, 타깃 제스처가 포함된 프레임의 수량이 제1 임계값을 초과한 경우, 제스처 검출 프레임 시퀀스에서의 적어도 하나의 프레임을 제스처 시작 프레임으로 기록하는 단계; 제스처 시작 프레임 뒤에 위치한 제스처 검출 프레임 시퀀스에 있어서, 타깃 제스처가 포함되지 않은 프레임의 수량이 제2 임계값을 초과한 경우, 제스처 시작 프레임 뒤에 위치한 제스처 검출 프레임 시퀀스에서의 적어도 하나의 프레임을 제스처 종료 프레임으로 기록하는 단계; 및 제스처 시작 프레임 및 제스처 종료 프레임의 수량에 따라, 타깃 대상이 제스처 검출 주기 내에서 적어도 하나의 타깃 제스처를 실행하는 횟수를 얻는 단계를 포함한다.
한 가지 가능한 구현 방법에 있어서, 비디오 데이터에 대해 제스처 검출을 수행하는 과정에 있어서, 고정된 검출 프레임 레이트를 통해, 각 제스처 검출 주기 길이에서의 비디오 데이터에 대해 제스처 검출을 수행할 수 있고, 이 검출 프레임 레이트의 값은 실제 상황에 따라 유연하게 설정될 수 있으며, 일 실시예에 있어서, 검출 프레임 레이트를 10FPS로 설정될 수 있고, 즉 매초마다 10 프레임 비디오 데이터에 대해 제스처 검출을 수행할 수 있다.
검출 프레임 레이트가 고정인 경우, 제스처 검출 주기 내 검출될 프레임 수량은 실제로 고정적이고, 즉 제스처 검출 주기 내의 비디오 데이터는 하나의 완전한 프레임 시퀀스에 대응될 수 있으며, 상기 프레임 시퀀스에 포함된 프레임 수는 제스처 검출 주기의 시간 길이와 검출 프레임 레이트 사이의 승적을 통해 결정될 수 있다. 한 가지 가능한 구현 방법에 있어서, 제스처 검출 주기에 대응되는 완전한 프레임 시퀀스에 대해 직접 제스처 검출을 수행할 수 있고, 예를 들어 완전한 프레임 시퀀스에서 타깃 제스처가 포함된 프레임의 수량을 통해 제스처 검출 주기에서 타깃 제스처를 수행하는 횟수 등을 결정할 수 있다. 한 가지 가능한 구현 방법에 있어서, 상기 발명의 실시예에서 설명한 바와 같이, 제스처 검출 주기에 대응되는 완전한 프레임 시퀀스에서, 적어도 하나의 제스처 검출 프레임 시퀀스를 획득하고, 계속하여 각 제스처 검출 프레임 시퀀스의 검출 결과에 따라, 제스처 검출 주기 내 타깃 제스처의 횟수를 각각 결정할 수도 있다.
여기서, 제스처 검출 프레임 시퀀스는 제스처 검출 주기에 대응되는 완전한 프레임 시퀀스에서 선택된 복수 개 프레임 시퀀스일 수 있고, 구체적인 선택 방법은 유연하게 선택될 수 있으며, 하기 발명의 실시예에 한정되지 않는다. 일 실시예에 있어서, 프레임을 슬라이딩하는 방법을 통해 복수 개 제스처 검출 프레임 시퀀스를 얻을 수 있고, 구체적인 과정은, 각 제스처 검출 프레임 시퀀스의 길이를 X로 설정하며, 제스처 검출 주기에 대응되는 완전한 프레임 시퀀스에 있어서, 첫 번째 프레임을 첫 번째 제스처 검출 프레임 시퀀스의 시작 프레임으로 사용하고, X 번째 프레임을 첫 번째 제스처 검출 프레임 시퀀스의 종료 프레임으로 사용하여, 첫 번째 제스처 검출 프레임 시퀀스를 얻은 다음; 완전한 프레임 시퀀스에서, 첫 번째 제스처 검출 프레임 시퀀스를 뒤로 한 프레임 슬라이딩하여 두 번째 제스처 검출 프레임 시퀀스를 얻으며, 즉 완전한 프레임 시퀀스에서의 두 번째 프레임을 두 번째 제스처 검출 프레임 시퀀스의 시작 프레임으로 사용하고, X+1 번째 프레임을 두 번째 제스처 검출 프레임 시퀀스의 종료 프레임으로 사용하여, 두 번째 제스처 검출 프레임 시퀀스를 얻으며; 이렇게 유추하여, 복수 개 제스처 검출 프레임 시퀀스를 얻는다. X의 수량은 실제 상황에 따라 유연하게 선택될 수 있고, 본 발명의 실시예에서 한정하지 않으며, 일 실시예에 있어서, X는 검출 프레임 레이트와 일치할 수 있고, 즉 검출 프레임 레이트가 10FPS인 경우, X는 10 프레임으로 설정될 수 있다.
복수 개 제스처 검출 프레임 시퀀스를 획득한 후, 복수 개 제스처 검출 프레임 시퀀스에 기반하여 제스처 시작 프레임 및 제스처 종료 프레임을 얻을 수 있고, 상기 발명의 실시예에서 설명한 바와 같이, 한 가지 가능한 구현 방법에 있어서, 각 제스처 검출 프레임 시퀀스를 검출하며, 각 프레임에 대해 각각 제스처 검출을 수행하여, 타깃 제스처가 포함된 프레임의 수량을 결정할 수 있고, 만약 타깃 제스처가 포함된 프레임의 수량이 제1 임계값을 초과하면, 현재의 제스처 검출 프레임 시퀀스 내에 타깃 제스처가 존재한다고 간주할 수 있으며, 이때 현재의 제스처 검출 프레임 시퀀스에서 적어도 하나의 프레임을 선택하여 제스처 시작 프레임으로 사용할 수 있다.
여기서, 각 프레임에 대해 제스처 검출을 수행하는 방법은 실제 상황에 따라 유연하게 선택될 수 있고, 한 가지 가능한 구현 방법에 있어서, 제스처 검출 기능을 구비한 신경 네트워크를 통해, 프레임 이미지에 대한 제스처 검출을 구현할 수 있다. 제스처 검출 기능을 구비한 신경 네트워크의 구현 방법도 유연하게 결정될 수 있고, 상기 각 발명의 실시예에서 설명한 바와 같이, 타깃 제스처에는 다양한 제스처가 포함될 수 있으며, 한 가지 가능한 구현 방법에 있어서, 복수 개 타깃 제스처를 동시에 인식할 수 있는 신경 네트워크를 사용하여, 각 프레임 이미지에 대해 제스처 검출을 수행할 수 있고; 한 가지 가능한 구현 방법에 있어서, 모든 타깃 제스처에 대해, 모두 하나의 대응되는 신경 네트워크를 사용하여 제스처 검출을 수행할 수도 있다. 구체적으로, 일 실시예에 있어서, insight SDK의 인체 검출과 손들기 검출 모델을 호출하는 것을 통해, 타깃 대상에 대해 손들기라는 타깃 제스처의 검출을 수행할 수 있고, 일 실시예에 있어서, human action SDK에서의 제스처 검출 모델을 호출하는 것을 통해, 타깃 대상의 다른 타깃 제스처에 대해 검출 등을 수행할 수도 있다. 한 가지 가능한 구현 방법에 있어서, 만약 제스처 검출 프레임 시퀀스에서 검출된 타깃 제스처의 타입은 다양하면, 각 종류 타깃 제스처의 프레임의 수량이 모두 제1 임계값을 초과했는지 여부를 각각 판단할 수 있고, 만약 모두 초과하면, 현재 제스처 검출 프레임 시퀀스에는 다양한 제스처가 존재함을 설명할 수 있으며, 만약 여기서 일부 종류의 타깃 제스처의 프레임의 수량이 제1 임계값을 초과하면, 현재 제스처 검출 프레임 시퀀스에는 제1 임계값을 초과하는 이 부분 종류의 타깃 제스처가 존재함을 설명할 수 있다.
제1 임계값의 수량은 실제 상황에 따라 유연하게 설정될 수 있고, 본 발명의 실시예에 한정되지 않으며, 일 실시예에 있어서, 제스처 검출 프레임 시퀀스에 10 프레임이 포함된 경우, 제1 임계값을 6으로 설정될 수 있다.
타깃 제스처가 포함된 프레임의 수량이 제1 임계값을 초과한 경우, 현재 제스처 프레임 시퀀스에서 적어도 하나의 프레임을 선택하여 제스처 시작 프레임으로 사용할 수 있고, 구체적으로 어떤 프레임을 선택하여 제스처 시작 프레임으로 사용할지, 그 구현 형태는 유연하게 결정될 수 있다. 한 가지 가능한 구현 방법에 있어서, 제스처 검출 프레임 시퀀스 중 N 번째 타깃 제스처가 포함된 프레임을 제스처 시작 프레임으로 사용할 수 있으면, 상기 제스처 시작 프레임에 대응되는 시간은 즉 제스처 인터랙션이 시작되는 시간으로 기록할 수 있다. 여기서, N의 값은 유연하게 선택될 수 있고, 일 실시예에 있어서, N은 제1 임계값의 값과 일치할 수 있으며, 예를 들어, 제스처 검출 프레임 시퀀스에 10 프레임이 포함되고, 제1 임계값은 6으로 설정된 경우, 만약 현재 제스처 검출 프레임 시퀀스에 의해 검출된 타깃 제스처가 포함된 프레임의 수량은 6보다 적지 않으면, 현재 제스처 검출 프레임 시퀀스 중 6 번째 타깃 제스처가 포함된 프레임을 제스처 시작 프레임으로 사용하며, 제스처 시작 프레임이 비디오 데이터에서의 시간을 제스처 시작 시간으로 기록할 수 있다.
제스처 시작 프레임을 결정한 후, 추가로 제스처 종료의 시간 즉 제스처 종료 프레임을 결정할 수도 있다. 제스처 종료 프레임의 결정 방법과 제스처 시작 프레임은 유사하고, 상기 발명의 실시예에서 설명한 바와 같이, 한 가지 가능한 구현 방법에 있어서, 제스처 시작 프레임 이후의 제스처 검출 프레임 시퀀스에서 각각 제스처 검출을 수행할 수 있으며, 만약 여기서 어떤 제스처 검출 프레임 시퀀스가 존재하고, 그 타깃 제스처가 포함되지 않은 프레임의 수량이 제2 임계값을 초과하면, 상기 제스처 검출 프레임 시퀀스에는 타깃 제스처가 존재하지 않으며, 그중에서 적어도 하나의 프레임을 선택하여 제스처 종료 프레임으로 사용할 수 있다고 간주할 수 있다. 제2 임계값의 수량은 실제 상황에 따라 유연하게 결정될 수 있고, 제1 임계값과 동일할 수 있으며, 상이할 수도 있다. 일 실시예에 있어서, 제2 임계값의 수량은 제1 임계값의 수량과 일치할 수 있고, 모두 6이다. 제스처 검출 프레임 시퀀스에서 제스처 종료 프레임을 선택하는 과정은 제스처 시작 프레임의 선택 과정을 참조할 수 있고, 여기서 더 이상 반복하지 않는다.
복수 개 제스처 시작 프레임과 제스처 종료 프레임을 얻은 후, 이런 프레임의 수량과 대응되는 제스처 시작 및 종료 시간에 기반하여, 제스처 검출 주기 내 타깃 제스처가 나타나는 횟수를 결정할 수 있다. 표 1은 본 발명의 일 실시예에 따라 도시된 제스처 검출 규칙이다.
제스처 검출 규칙
규칙 디폴트 값 비고
검출 프레임 레이트 10FPS 고정 검출 프레임 레이트
인터랙션 제스처 검출 주기 10 10 프레임을 하나의 주기로 하고, 단일 프레임으로 연속 스크롤 하며, 즉 각 프레임은 모두 이전 10 프레임 주기의 종료 및 다음 10 프레임 주기의 시작이다.
인터랙션 제스처 규칙 임계값 6 인터랙션 제스처 규칙 임계값 6 검출 주기 내에서, 검출 결과가 플러스(제스처 있음이 검출됨)인 프레임의 수량이 임계값에 도달하면, 즉 인터랙션 제스처가 있다고 판단하고, 인터랙션 이벤트 시작을 표지한다.검출 주기 내에서, 검출 결과가 마이너스(제스처 없음이 검출됨)인 프레임의 수량이 임계값에 도달하면, 즉 인터랙션 제스처가 없다고 판단하고, 인터랙션 이벤트 종료를 표지한다.
인터랙션 제스처 시작 시간 만약 규칙 임계값이 6이면, 검출 결과가 플러스인 6 번째 프레임의 시간은, 제스처 인터랙션 이벤트 시작 시간이다.
인터랙션 제스처 종료 시간 만약 규칙 임계값이 6이면, 검출 결과가 마이너스인 6 번째 프레임의 시간은, 제스처 인터랙션 이벤트 종료 시간이다.
여기서, 테이블에서의 인터랙션 제스처 검출 주기는 상기 발명의 실시예에서의 제스처 검출 프레임 시퀀스에 대응되고, 인터랙션 제스처 규칙 임계값은 상기 발명의 실시예에서의 제1 임계값 및 제2 임계값에 대응되며, 인터랙션 제스처 시작 시간은 상기 발명의 실시예에서의 제스처 시작 프레임의 시간에 대응되고, 인터랙션 제스처 종료 시간은 상기 발명의 실시예에서의 제스처 종료 시간에 대응된다. 표 1을 통해 알다시피, 일 실시예에 있어서, 제스처 검출 주기에서의 10 프레임마다 제스처 검출 프레임 시퀀스로 사용함으로써, 각 제스처 검출 프레임 시퀀스에서, 각 프레임에 대해 제스처 검출을 수행하여, 제스처 시작 프레임 및 제스처 종료 프레임을 결정하고, 계속하여 각 제스처 검출 주기에서 타깃 제스처가 발생된 횟수를 얻을 수 있다.상기 과정을 통해, 제스처 검출 주기 내의 복수 개 제스처 검출 프레임 시퀀스에 기반하여, 타깃 제스처 횟수의 검출을 구현하고, 개별적 프레임의 제스처 검출 결과가 정확하지 않는 것이 제스처 검출 결과에 대한 영향을 효과적으로 줄였으며, 제스처 검출의 정확 수준은 향상시켰고, 계속하여 전체 데이터 처리 과정의 정밀도 및 신뢰성을 향상시킬 수 있다.
진일보로, 제스처 검출 주기 내에서 타깃 제스처를 실행하는 횟수를 획득한 후, 획득된 횟수에 따라 상기 제스처 검출 주기에 대응되는 제스처 검출 결과를 얻을 수 있다. 한 가지 가능한 구현 방법에 있어서, 상기 제스처 검출 주기에서 타깃 제스처를 실행한 횟수를 직접 제스처 검출 결과로 사용할 수 있고; 한 가지 가능한 구현 방법에 있어서, 상기 제스처 검출 주기에서 타깃 제스처를 실행한 횟수를 일정한 규칙에 따라 점수로 매핑하여 제스처 검출 결과로 사용할 수도 있으며, 매핑 규칙은 본 발명의 실시예에서 한정하지 않는다. 표 2는 본 발명의 일 실시예에 따라 도시된 제스처 검출 결과의 매핑 규칙이다.
제스처 검출 결과의 매핑 규칙
규칙 디폴트 값 비고
인터랙션 제스처 평점 주기 1 분 매분 기간 내에 검출 인터랙션의 횟수.만약 한 번의 제스처 인터랙션이 두 개의 1 분에 걸쳐지면, 인터랙션 시작 시간이 위치한 1 분으로 기록한다.
인터랙션 제스처 평점 규칙 10 점제 한 번의 제스처 인터랙션은 1 점을 얻고, 10 번의 제스처 인터랙션은 10 점을 얻으며, 최고 10 점을 초과하지 않는다.손들기 및 각 AR 제스처는 모두 인터랙션 제스처로 사용되어 점수 계산에 참여한다.
여기서 인터랙션 제스처 평점 주기는 상기 발명의 실시예에서의 제스처 검출 주기에 대응되고, 표 2로부터 알다시피, 일 실시예에 있어서, 하나의 제스처 검출 주기 내에서, 한 번의 타깃 제스처를 1 점으로 기록함으로써, 타깃 제스처의 횟수에 따라 제스처 검출 주기의 점수를 결정할 수 있고; 만약 하나의 제스처 검출 주기에 10 번 이상의 타깃 제스처가 나타나면, 상기 제스처 검출 주기의 제스처 검출 결과를 10 점으로 기록한다.제스처 검출 주기에서 타깃 제스처를 실행한 횟수를 일정한 규칙에 따라 점수로 매핑하는 것을 통해, 제스처 검출 결과를 표준화함으로써, 제스처 검출 결과에 기반하여 결정된 중간 검출 결과의 규범성을 향상시키고, 제스처 차원의 중간 검출 결과와 다른 차원에서의 중간 검출 결과를 용이하게 융합하여, 더욱 직관적인 타깃 검출 결과를 얻을 수 있다.
각 제스처 검출 주기의 제스처 검출 결과를 얻은 후, 적어도 하나의 제스처 검출 결과에 기반하여, 추가로 제스처 검출 차원에서의 중간 검출 결과를 얻을 수도 있다. 제스처 검출 결과에 따라 중간 검출 결과를 얻는 방식은 유연하게 결정될 수 있고, 하기 발명의 실시예에 제한되지 않는다. 한 가지 가능한 구현 방법에 있어서, 각 제스처 검출 주기의 제스처 검출 결과의 평균값을, 제스처 검출 차원에서의 중간 검출 결과로 사용할 수 있다.
한 가지 가능한 구현 방법에 있어서, 검출 차원에는 정서 검출 차원이 포함된 경우, 하기의 단계에 따라 타깃 대상이 정서 검출 차원에서의 중간 검출 결과를 얻을 수 있다.
비디오 데이터에 따라, 상기 타깃 대상이 정서 검출 주기 내에서의 표정 검출 결과 및/또는 미소 검출 결과를 획득하고, 여기서, 표정 검출 결과에는 타깃 대상의 표정에 기반하여 결정된 정서 결과가 포함되며, 미소 검출 결과에는 타깃 대상의 미소 정도가 포함된다.
적어도 하나의 정서 검출 주기 중 타깃 대상의 표정 검출 결과 및/또는 미소 검출 결과에 따라, 타깃 대상이 정서 검출 차원에서의 중간 검출 결과를 얻는다.
여기서, 정서 검출 주기의 구현 형태는 상기 발명의 실시예에서 제스처 검출 주기의 구현 형태를 참조할 수 있고, 여기서 더 이상 반복하지 않는다. 정서 검출 주기의 길이는 제스처 검출 주기 길이와 동일할 수 있고, 상이할 수도 있으며, 실제 상황에 따라 유연하게 선택하면 된다. 일 실시예에 있어서, 정서 검출 주기를 제스처 검출 주기와 동일하게 모두 1 분으로 설정될 수 있다.
표정 검출 결과는 타깃 대상에 대해 표정 검출을 수행하는 것을 통해, 결정된 정서 결과일 수 있고, 예를 들어 타깃 대상의 정서는 기쁨, 평온 또는 슬픔이다. 그 구현 형태는 유연하게 설정될 수 있고, 표정 검출 결과의 획득 방법과 구현 형태는 후속적인 각 발명의 실시예를 참조할 수 있으며, 여기서 먼저 전개하지 않는다.
미소 검출 결과는 타깃 대상에 대해 미소 검출을 수행하는 것을 통해, 결정된 관련 결과일 수 있고, 이는 타깃 대상의 미소 정도 또는 미소 폭 등을 반영할 수 있다. 그 구현 형태는 유연하게 설정될 수 있고, 미소 검출 결과의 획득 방법과 구현 형태는 후속적인 각 발명의 실시예를 참조할 수 있으며, 여기서 먼저 전개하지 않는다.
진일보로, 표정 검출 결과와 미소 검출 결과에 따라 어떻게 타깃 대상이 정서 검출 차원에서의 중간 검출 결과를 얻을지는, 표정 검출 결과와 미소 검출 결과의 실제 상황에 따라 결정될 수 있고, 마찬가지로 상세한 내용은 후속적인 각 발명의 실시예를 참조할 수 있다.
본 발명의 실시예에 있어서, 미소 검출과 표정 검출은 두 개의 상호 독립적인 검출일 수 있고, 비록 양자는 모두 타깃 대상의 정서 상태를 나타내기 위한 것일 수 있지만, 양자는 두 개 상이한 각도로부터 구현된 것이다. 표정 검출 결과와 미소 검출 결과에 기반하여 공동 결정된 중간 검출 결과는, 정서 검출 차원에서, 더욱 포괄적이고 믿음직한 타깃 대상의 정서 상태를 나타냄으로써, 최종적으로 얻은 타깃 검출 결과의 전면성 및 신뢰성을 향상시킬 수 있다.
구체적으로, 타깃 대상이 정서 주기 내에서의 표정 검출 결과를 어떻게 획득할지, 그 구현 형태는 실제 상황에 따라 유연하게 결정될 수 있다. 한 가지 가능한 구현 방법에 있어서, 비디오 데이터에 따라, 타깃 대상이 정서 검출 주기 내에서의 표정 검출 결과를 획득하는 단계는, 정서 검출 주기 내에서, 타깃 대상에 대해 표정 검출을 수행하여, 타깃 대상이 적어도 하나의 타깃 표정을 전시하는 횟수를 결정하고, 표정 검출 결과를 얻는 단계 - 타깃 표정에는 기쁨, 평온 및 다른 것 중의 하나 또는 복수 개가 포함됨 - 를 포함할 수 있다.
상기 발명의 실시예를 통해 알다시피, 한 가지 가능한 구현 방법에 있어서, 타깃 대상에 기반하여 정서 검출 주기 내에서 상이한 타깃 표정을 전시하는 횟수를 통해, 표정 검출 결과를 얻을 수 있다. 여기서, 타깃 표정은 실제 상황에 따라 유연하게 설정될 수 있고, 한 가지 가능한 구현 방법에 있어서, 타깃 표정을 기쁨, 평온 또는 다른 것 등으로 설정될 수 있고, 한 가지 가능한 구현 방법에 있어서, 추가로 다른 표정에 대해 세분화할 수도 있으며, 예를 들어 타깃 표정을 기쁨, 평온, 슬픔 또는 분노 등으로 설정된다.
정서 검출 주기 내 타깃 표정의 횟수는 타깃 표정이 포함된 프레임이 검출된 수량을 통해 결정될 수 있고, 한 가지 가능한 구현 방법에 있어서, 정서 검출의 검출 프레임 레이트는 제스처 검출의 검출 프레임 레이트와 동일할 수 있으며 어떤 고정값이면, 각 정서 검출 주기 내 검출될 수 있는 프레임의 수량은 고정적이고, 한 가지 가능한 구현 방법에 있어서, 정서 검출 주기 내에서 각 타깃 표정의 프레임이 검출된 수량에 따라, 정서 검출 주기 내 타깃 대상이 각 타깃 표정을 전시하는 횟수를 결정할 수 있다. 한 가지 가능한 구현 방법에 있어서, 정서 검출 주기를 복수 개 정서 검출 서브 주기로 구분하고, 각 정서 검출 서브 주기에서, 프레임 수량이 제일 많이 검출된 타깃 표정을, 상기 정서 검출 서브 주기의 표정으로 사용함으로써, 각 정서 검출 서브 주기의 표정에 기반하여, 정서 검출 주기에서 타깃 표정의 횟수를 결정할 수도 있다. 표 3은 본 발명의 일 실시예에 따라 도시된 표정 검출 규칙이다.
표정 검출 규칙
규칙 디폴트 값 비고
검출 프레임 레이트 10FPS 고정 검출 프레임 레이트
표정 규칙 삼분류 표정 정의 즉 기쁨, 평온 및 기타를 사용한다. 초당 표정 검출 결과는 모든 검출 프레임 결과의 최빈값이다.
표 3으로부터 알다시피, 정서 검출 주기는 1 분인 경우, 1 초를 정서 검출 서브 주기의 길이로 사용함으로써, 60 개 정서 검출 서브 주기를 얻을 수 있고, 이어서 매초마다, 비디오 데이터의 각 프레임에 대해 각각 표정 검출을 수행하여, 각 프레임에 대응되는 타깃 표정을 얻을 수 있으며, 상기 1 초 내에 프레임 수량이 제일 많은 타깃 표정을 상기 초에 대응되는 타깃 표정으로 사용하면, 각 검출 주기 내에서, 상이한 타깃 표정의 나타나는 횟수를 얻을 수 있고, 이런 횟수를 서로 더한 합은 60이다.구체적으로 각 프레임에 대해 표정 검출을 수행하는 방법은 한정되지 않고, 한 가지 가능한 구현 방법에 있어서, 표정 검출 기능을 구비한 신경 네트워크를 통해, 각 프레임 이미지에 대한 표정 검출을 구현할 수 있으며, 즉 각 프레임 이미지를 표정 검출 기능을 구비한 신경 네트워크에 입력하여, 타깃 대상에 대응되는 타깃 표정을 출력할 수 있다. 표정 검출 기능을 구비한 신경 네트워크의 구체적 구현 방법은 본 발명의 실시예에서 한정하지 않고, 실제 상황에 따라 유연하게 적합한 신경 네트워크를 선택하면 된다. 일 실시예에 있어서, human action SDK의 얼굴 검출 또는 얼굴 속성 등 모델을 호출하는 것을 통해, 타깃 대상의 표정 검출을 구현할 수 있다.
진일보로, 정서 검출 주기 내 각 타깃 표정의 횟수를 결정한 후, 정서 검출 주기의 표정 검출 결과를 얻을 수 있고, 구체적으로 상이한 타깃 표정의 횟수를 어떻게 표정 검출 결과로 전환할지, 그 매핑 규칙은 실제 상황에 따라 유연하게 결정될 수 있으며, 하기 발명의 실시예에 제한되지 않는다. 표 4는 본 발명의 일 실시예에 따라 도시된 정서 검출 결과 대응 규칙이다.
정서 검출 결과 대응 규칙
규칙 디폴트 값 비고
정서 평점 주기 1 분
정서 득점 10 점제 정서 득점은 표정 득점 및 미소 득점의 평균이다.
표정 득점 규칙 10 점제 1 분 60 초, 60 개 표정 검출에 대응하여, 각각 값을 할당하고, 기쁨 10 점, 평온 5 점, 기타 0 점. 모든 60 개 점수의 평균 점수는 해당 분의 친화력 득점이다.
미소 득점 규칙 10 점제 모든 60 개 점수의 평균 점수는 해당 분의 미소 득점이다.
여기서, 표정 득점은 상기 발명의 실시예에서의 표정 검출 결과에 대응되고, 미소 득점은 상기 발명의 실시예에서의 미소 검출 결과에 대응된다. 표 4에 도시된 바와 같이, 일 실시예에 있어서, 정서 검출 주기 내 상이한 타깃 표정을 상이한 값으로 기록할 수 있고, 예를 들어 기쁨을 10 점으로 기록하며, 평온을 5 점으로 기록하고, 기타를 0 점으로 기록한 다음, 정서 검출 주기 내 타깃 표정의 평균 점수를 정서 검출 주기의 표정 검출 결과로 사용할 수 있다.정서 검출 주기 내에서, 타깃 대상에 대해 표정 검출을 수행하는 것을 통해, 타깃 대상이 적어도 하나의 타깃 표정을 전시하는 횟수를 결정하고, 표정 검출 결과를 얻으며, 타깃 대상이 정서 검출 주기 내에서 나타나는 다양한 상이한 타깃 표정에 기반하여, 비교적 포괄적이고 믿음직한 표정 검출 결과를 얻을 수 있음으로써, 더욱 정확하게 타깃 대상의 정서를 반영하고, 정서 검출 결과의 정확성을 향상시킬 수 있다.
마찬가지로, 타깃 대상이 정서 주기 내에서의 미소 검출 결과를 어떻게 획득할지, 그 구현 형태도 실제 상황에 따라 유연하게 결정될 수 있다. 한 가지 가능한 구현 방법에 있어서, 비디오 데이터에 따라, 타깃 대상이 정서 검출 주기 내에서의 미소 검출 결과를 획득하는 단계는,
정서 검출 주기 내에서, 비디오 데이터의 적어도 하나의 프레임에 따라, 타깃 대상에 대해 미소 검출을 수행하여, 적어도 하나의 프레임과 대응되는 미소 검출 결과를 얻는 단계; 및 적어도 하나의 프레임과 대응되는 미소 검출 결과에 따라, 타깃 대상이 정서 검출 주기 내에서의 미소 검출 결과를 결정하는 단계를 포함할 수 있다. 상기 발명의 실시예를 통해 알다시피, 한 가지 가능한 구현 방법에 있어서, 정서 검출 주기 내에서, 정서 검출 주기 중 비디오 데이터의 각 프레임에 대해 미소 검출을 수행한 다음, 그 중 부분 프레임 또는 각 프레임의 미소 검출 결과에 기반하여 평균값을 구하여, 타깃 대상이 정서 검출 주기 내에서의 미소 검출 결과를 얻을 수 있다.
한 가지 가능한 구현 방법에 있어서, 표정 검출의 구현 방법을 참조하여, 정서 검출 주기를 복수 개 정서 검출 서브 주기로 구분하고, 각 정서 검출 서브 주기에서, 각 정서 검출 서브 주기의 미소 검출 결과에 따라, 정서 검출 주기의 미소 검출 결과를 얻는다. 정서 검출 주기의 구분 방법은 상기 발명의 실시예를 참조할 수 있고, 여기서 더 이상 반복하지 않는다. 각 정서 검출 서브 주기 내의 미소 검출 결과의 결정 방법은 실제 상황에 따라 유연하게 결정될 수 있고, 표 5는 본 발명의 일 실시예에 따라 도시된 미소 검출 규칙이다.
미소 검출 규칙
규칙 디폴트 값 비고
검출 프레임 레이트 10FPS 고정 검출 프레임 레이트
미소 규칙 매번 검출된 0-1 미소 값을 0-10 점으로 전환한다.초당 10 프레임 검출된 미소값 평균을 구하고, 평균 결과를 상기 초의 미소값으로 사용한다.
표로부터 알다시피, 일 실시예에 있어서, 정서 검출 주기를 초에 따라 추가로 복수 개 정서 검출 서브 주기로 구분할 수 있고, 각 정서 검출 서브 주기에서, 상기 정서 검출 서브 주기 내의 각 프레임에 대해 미소 검출을 수행한 다음, 모든 프레임의 미소 검출 결과의 평균값을, 상기 정서 검출 서브 주기의 미소 검출 결과로 사용할 수 있다.각 프레임 이미지에 대해 미소 검출을 수행하는 방법은 본 발명의 실시예에서도 한정하지 않고, 한 가지 가능한 구현 방법에 있어서, 프레임 이미지를 미소 검출 기능을 구비한 신경 네트워크에 입력하는 것을 통해, 상기 프레임 이미지에 대응되는 미소값을 출력할 수 있다. 미소 검출 기능을 구비한 신경 네트워크의 구현 방법은 본 발명의 실시예에서 한정하지 않고, 이미지 중 타깃 대상 미소 폭 또는 세기를 반영할 수 있는 임의의 신경 네트워크는, 모두 미소 검출 기능을 구비한 신경 네트워크의 구현 방법으로 사용할 수 있다.
정서 검출 주기를 복수 개 정서 검출 서브 주기로 구분한 후, 정서 검출 서브 주기의 미소 검출 결과에 따라 정서 검출 주기의 미소 검출 결과를 얻는 방법도 유연하게 결정될 수 있다. 상기 발명의 실시예에서 언급된 표 4로부터 알다시피, 일 실시예에 있어서, 1 분 내 60 개 미소 검출 결과의 평균 값을 정서 검출 주기의 미소 검출 결과로 사용할 수 있고, 즉 정서 검출 주기 내 정서 검출 서브 주기의 미소 검출 결과 평균값을 통해, 정서 검출 주기의 미소 검출 결과를 얻을 수 있다.
정서 검출 주기 중 상이한 프레임의 미소 검출 결과에 따라, 정서 검출 주기의 미소 검출 결과를 얻는 것을 통해, 부분 프레임 미소 검출 결과가 정확하지 않는 영향을 줄임으로써, 얻은 정서 검출 주기 내의 미소 검출 결과로 하여금 비교적 높은 신뢰성을 구비하도록 하고, 계속하여 최종적으로 얻은 타깃 검출 결과의 신뢰성 및 정밀도를 향상시킬 수 있다.
정서 검출 주기에서의 표정 검출 결과 및 미소 검출 결과를 얻은 후, 양자에 기반하여 추가로 타깃 대상이 정서 검출 차원에서의 중간 검출 결과를 얻을 수 있다. 한 가지 가능한 구현 방법에 있어서, 각 정서 검출 주기 내의 표정 검출 결과 및/또는 미소 검출 결과에 기반하여, 각 정서 검출 주기의 정서 검출 결과를 얻고, 다시 상이한 정서 검출 주기의 정서 검출 결과에 대해 평균하여, 타깃 대상이 정서 검출 차원에서의 중간 검출 결과를 얻을 수 있다.
타깃 대상이 각 정서 검출 주기 내에서의 정서 검출 결과의 획득 방법은 한정되지 않고, 표 4에 도시된 바와 같이, 한 가지 가능한 구현 방법에 있어서, 정서 검출 주기 내 표정 검출 결과와 미소 검출 결과의 평균값을 상기 주기의 정서 검출 결과로 사용할 수 있으며; 한 가지 가능한 구현 방법에 있어서, 정서 검출 주기 내 표정 검출 결과와 미소 검출 결과를 가중 평균하여, 상기 주기의 정서 검출 결과를 얻을 수도 있고, 표정 검출 결과와 미소 검출 결과의 가중치는 실제 상황에 따라 유연하게 설정될 수 있으며, 하기 발명의 실시예에 제한되지 않고, 양자의 합은 1이면 된다. 일 실시예에 있어서, 표정 검출 결과의 가중치를 1로 설정하고, 미소 검출 결과의 가중치를 0으로 설정하며, 즉 표정 검출 결과를 상기 정서 검출 주기의 정서 검출 결과로 직접 사용할 수 있고; 일 실시예에 있어서, 표정 검출 결과의 가중치를 0으로 설정하며, 미소 검출 결과의 가중치를 1로 설정하고, 즉 미소 검출 결과를 상기 정서 검출 주기의 정서 검출 결과로 직접 사용할 수도 있다.
한 가지 가능한 구현 방법에 있어서, 검출 차원에는 눈빛 교류 검출 차원이 포함된 경우, 하기의 단계에 따라 타깃 대상이 눈빛 교류 검출 차원에서의 중간 검출 결과를 얻을 수 있다.
비디오 데이터에 따라, 타깃 대상에 대해 얼굴 각도 검출을 수행하고, 타깃 대상의 얼굴 각도가 얼굴 각도 임계값 내에 있는 시간을 결정하여, 얼굴 각도 검출 결과로 사용하며; 비디오 데이터에 따라, 타깃 대상에 대해 눈 감기 검출을 수행하고, 타깃 대상이 눈 감기 동작을 실행한 시간을 결정하여, 눈 감기 검출 결과로 사용하며; 얼굴 각도 검출 결과와 눈 감기 검출 결과에 따라, 타깃 대상의 얼굴 각도가 얼굴 각도 임계값 내에 있고 눈 감기 동작을 실행하지 않은 시간 길이를 결정하며; 시간 길이에 따라, 타깃 대상이 눈빛 교류 검출 차원에서의 중간 검출 결과를 얻는다.
상기 발명의 실시예를 통해 알다시피, 한 가지 가능한 구현 방법에 있어서, 타깃 대상에 대해 눈빛 교류 검출 차원에서 수행하는 검출은, 두 개 부분으로 구성될 수 있고, 각각 얼굴 각도 검출과 눈 감기 검출이며, 본 발명의 실시예에 있어서, 얼굴 각도 검출을 통해, 타깃 대상의 얼굴 방향을 결정할 수 있고, 만약 타깃 대상의 얼굴 방향이 얼굴 각도 임계값 내에 있으면, 타깃 대상의 관람 각도는 눈빛 교류의 범위 내에 있다고 간주할 수 있다. 여기서, 얼굴 각도 임계값의 구체적 수치는 실제 상황에 따라 유연하게 설정될 수 있고, 한 가지 가능한 구현 방법에 있어서, 얼굴 각도 임계값은 정적의 값일 수 있으며, 즉 비디오 데이터에서의 임의의 시간대에서, 얼굴 각도 임계값의 수치는 모두 변화되지 않고; 한 가지 가능한 구현 방법에 있어서, 얼굴 각도 임계값은 동적의 값으로 설정될 수도 있으며, 즉 타깃 대상이 비디오 데이터에서 위치의 변화에 따라 유연하게 변화 등을 수행한다.
하지만 일부 가능한 경우, 타깃 대상이 관람하는 각도는 비록 눈빛 교류의 범위 내에 있지만, 그것은 단지 얼굴의 습관적 움직임이고, 교류가 필요한 대상과 눈빛 교류를 수행하는 것이 아닐 수 있다. 따라서, 본 발명의 실시예에 있어서, 타깃 대상에 대해 추가로 눈 감기 검출을 수행하여, 타깃 대상이 눈 감기 상태에 있는지 여부를 판단할 수도 있고, 만약 타깃 대상이 관람하는 각도가 눈빛 교류의 범위 내에 있고, 타깃 대상이 눈 뜬 상태(즉 눈 감기가 아닌 상태)에 있으면, 타깃 대상이 현재 눈빛 교류 동작을 실행했다고 간주할 수 있다. 따라서, 한 가지 가능한 구현 방법에 있어서, 얼굴 각도 검출과 눈 감기 검출을 통해, 타깃 대상의 얼굴 각도가 얼굴 각도 임계값 내에 있고 눈 감기 동작을 실행하지 않은 시간 길이를 결정하고, 상기 시간 길이가 비디오 데이터에서의 시간 비율에 따라, 타깃 대상이 눈빛 교류 검출 차원에서의 중간 검출 결과를 얻을 수 있다.
얼굴 각도 검출과 눈 감기 검출을 통해, 타깃 대상의 얼굴 각도가 얼굴 각도 임계값 내에 있고 눈 감기 동작을 실행하지 않은 시간 길이를 결정하고, 계속하여 타깃 대상이 눈빛 교류 검출 차원에서의 중간 검출 결과를 얻으며, 상기 과정을 통해, 눈빛 교류를 검출하는 과정에 있어서, 타깃 대상은 눈빛 교류의 방향에 있는지 여부를 고려할 뿐만 아니라, 타깃 대상은 이 방향에 있을 때 눈 감기의 동작이 발생되었는지 여부도 고려하여, 타깃 대상의 눈빛 교류 수준을 종합적으로 평가하고, 눈빛 교류 검출 차원에서 중간 검출 결과의 정확성을 대폭으로 향상시켰으며, 계속하여 후속적으로 타깃 검출 결과를 얻는 정확성을 향상시킬 수 있다.
진일보로, 한 가지 가능한 구현 방법에 있어서, 눈빛 교류 검출 차원에서 행위 상태 검출의 정확성을 증가하기 위해, 상기 각 발명의 실시예를 참조하여, 눈빛 교류 검출 주기를 설정함으로써, 타깃 대상은 각 눈빛 검출 주기에 있고, 얼굴 각도는 얼굴 각도 임계값 내에 있으며 눈 감기 동작을 실행하지 않은 시간 길이를 결정하여, 적어도 하나의 눈빛 교류 검출 주기의 중간 검출 결과를 얻고, 다시 적어도 하나의 눈빛 교류 검출 주기의 중간 검출 결과에 기반하여, 타깃 대상이 눈빛 교류 검출 차원에서의 중간 검출 결과를 얻을 수 있다.
여기서, 눈빛 교류 검출 주기의 구현 형태는 상기 각 발명의 실시예에서의 제스처 검출 주기와 정서 검출 주기를 참조할 수 있고, 여기서 더 이상 반복하지 않는다. 한 가지 가능한 구현 방법에 있어서, 눈빛 교류 검출 주기의 길이를 1 분으로 설정할 수 있다.
구체적으로, 각 눈빛 교류 검출 주기에 있어서, 얼굴 각도 검출을 수행하는 과정은 제스처 검출의 과정을 참조할 수 있고, 따라서, 한 가지 가능한 구현 방법에 있어서, 눈빛 교류 검출 주기 내에서 얼굴 각도 검출을 수행하는 과정은,
비디오 데이터가 눈빛 교류 검출 주기 내에서의 적어도 하나의 얼굴 각도 검출 프레임 시퀀스를 획득하는 단계; 얼굴 각도 검출 프레임 시퀀스에 있어서, 얼굴 각도가 얼굴 각도 임계값 내에 있는 프레임의 수량이 제3 임계값을 초과한 경우, 얼굴 각도 검출 프레임 시퀀스에서의 적어도 하나의 프레임을 얼굴 방향 시작 프레임으로 기록하는 단계; 얼굴 방향 시작 프레임 뒤에 위치한 얼굴 각도 검출 프레임 시퀀스에 있어서, 얼굴 각도가 얼굴 각도 임계값 이외에 있는 프레임의 수량이 제4 임계값을 초과한 경우, 얼굴 방향 시작 프레임 이후에 위치한 얼굴 각도 검출 프레임 시퀀스에서의 적어도 하나의 프레임을 얼굴 방향 종료 프레임으로 기록하는 단계; 및 얼굴 방향 시작 프레임과 얼굴 방향 종료 프레임의 수량과 시간에 따라, 타깃 대상이 눈빛 교류 주기 내에 있고, 얼굴 각도가 얼굴 각도 임계값 내에 위치하는 시간을 얻는 단계를 포함할 수 있다.
여기서, 얼굴 각도 검출 프레임 시퀀스의 획득 방법은 제스처 검출 프레임 시퀀스를 참조할 수 있고, 얼굴 방향 시작 프레임의 결정 방법은 제스처 시작 프레임을 참조할 수 있으며, 얼굴 방향 종료 프레임의 결정 방법은 제스처 종료 프레임을 참조할 수 있고, 여기서 모두 더 이상 반복하지 않는다. 제3 임계값과 제4 임계값은 실제 상황에 따라 유연하게 설정된 수치일 수 있고, 제1 임계값 및 제2 임계값과 동일할 수 있으며, 상이할 수도 있고, 실제 상황에 따라 유연하게 설정하면 된다. 얼굴 각도의 검출 방법은 실제 상황에 따라 유연하게 결정될 수 있고, 한 가지 가능한 구현 방법에 있어서, 각 프레임 이미지를 얼굴 각도 검출 기능을 구비한 신경 네트워크에 입력하여, 얼굴 각도 검출을 구현할 수 있으며, 여기서, 얼굴 각도 검출 기능을 구비한 신경 네트워크의 구현 형태는 본 발명의 실시예에서 한정하지 않으며, 일 실시예에 있어서, human action SDK에서의 얼굴 검출 또는 얼굴 추적 등 모델을 호출하는 것을 통해, 얼굴 각도 검출을 수행할 수 있는 신경 네트워크를 얻을 수 있다. 표 6은 본 발명의 일 실시예에 따라 도시된 얼굴 각도 검출 규칙이다.
얼굴 각도 검출 규칙
규칙 디폴트 값 비고
관람 임계값 설정 headpose의 yaw, pitch 값이 기설정된 관람 범위 내에 있는지 여부를 사용하여 판단한다.하기의 4 개 관람 임계값의 디폴트 설정을 지원하고, 동시에 업로드 인터페이스가 4개 임계값을 지정하는 것을 지원한다.
key_parameter_negative_yaw
key_parameter_positive_yaw
key_parameter_negative_pitch
key_parameter_positive_pitch
검출 프레임 레이트 10FPS 고정 검출 프레임 레이트
관람 검출 주기 10 10 프레임을 하나의 주기로 하고, 단일 프레임으로 연속 스크롤 하며, 즉 각 프레임은 모두 이전 10 프레임 주기의 종료 및 다음 10 프레임 주기의 시작이다.
관람 규칙 임계값 8 검출 주기 내에서, 검출 결과가 플러스(설정된 관람 범위 내에 있음)인 프레임의 수량이 임계값에 도달하면, 즉 관람이 있다고 판단하고, 관람 이벤트 시작을 표지한다.검출 주기 내에서, 검출 결과가 마이너스(설정된 관람 범위 내에 있지 않음)인 프레임의 수량이 임계값에 도달하면, 즉 관람이 없다고 판단하고, 관람 이벤트 종료를 표지한다.
관람 이벤트 시작 만약 규칙 임계값이 8이면, 검출 결과가 플러스인 8 번째 프레임의 시간은, 관람 이벤트 시작 시간이다.
관람 이벤트 종료 만약 규칙 임계값이 8이면, 검출 결과가 마이너스인 8 번째 프레임의 시간은, 관람 이벤트 종료 시간이다.
여기서, 관람 임계값은 상기 발명의 실시예에서의 얼굴 각도 임계값에 대응될 수 있고, 관람 검출 주기는 상기 발명의 실시예에서의 얼굴 각도 검출 프레임 시퀀스에 대응될 수 있으며, 관람 규칙 임계값은 상기 발명의 실시예에서의 제3 임계값과 제4 임계값에 대응될 수 있고, 관람 이벤트 시작 시간은 상기 발명의 실시예에서의 얼굴 방향 시작 프레임의 시간에 대응될 수 있으며, 관람 이벤트 종료 시간은 상기 발명의 실시예에서의 얼굴 방향 종료 프레임의 시간에 대응될 수 있다. 표 6에 도시된 바와 같이, 일 실시예에 있어서, 얼굴 각도 임계값에는 네 개 파라미터가 포함될 수 있고, 각각 플러스 요, 마이너스 요, 플러스 피치와 마이너스 피치이며, 그 구체적 수치는 실제 상황에 따라 유연하게 결정될 수 있고, 여기서 요와 피치는 얼굴 각도 검출에서 설정된 좌표계에 따라 유연하게 결정될 수 있으며, 플러스 마이너스는 이런 각도의 방향 등을 대표하기 위한 것일 수 있으면, 어떤 프레임 이미지에서의 얼굴 각도는 각각 이 네 개 파라미터에 의해 공동 결정된 범위에 있는 것이 검출된 경우, 상기 프레임 중 얼굴 각도는 얼굴 각도 임계값 내에 있다고 간주할 수 있고; 얼굴 각도 검출의 검출 프레임 레이트는 10FPS로 설정될 수 있으며, 얼굴 각도 검출 프레임 시퀀스의 길이는 10으로 설정될 수 있고, 제3 임계값과 제4 임계값은 모두 8로 설정될 수 있으며, 즉 얼굴 각도 검출 프레임 시퀀스에 있어서, 만약 얼굴 각도가 얼굴 각도 임계값 내에 위치한 프레임의 수량이 8보다 적지 않으면, 여기서 얼굴 각도가 얼굴 각도 임계값 내에 위치한 8 번째 프레임을 얼굴 방향 시작 프레임으로 사용할 수 있고, 그 대응되는 시간은 얼굴 각도가 얼굴 각도 임계값 내에 위치한 시작 시간이며, 마찬가지로 얼굴 각도가 얼굴 각도 임계값 내에 위치한 종료 시간을 결정함으로써, 계속하여 눈빛 교류 주기에서 얼굴 각도가 얼굴 각도 임계값 내에 있는 시간 범위를 얻을 수 있다.마찬가지로, 각 눈빛 교류 검출 주기에 있어서, 눈 감기 검출을 수행하는 과정은 상기 제스처 검출과 얼굴 각도 검출의 과정을 참조할 수 있고, 따라서, 한 가지 가능한 구현 방법에 있어서, 눈빛 교류 검출 주기 내에서 눈 감기 검출의 과정을 수행하는 단계는,
비디오 데이터가 눈빛 교류 검출 주기 내에서의 적어도 하나의 눈 감기 검출 프레임 시퀀스를 획득하는 단계; 눈 감기 검출 프레임 시퀀스에 있어서, 두 눈이 모두 눈 감기 상태인 프레임의 수량이 제5 임계값을 초과한 것이 검출된 경우, 눈 감기 검출 프레임 시퀀스에서의 적어도 하나의 프레임을 눈 감기 시작 프레임으로 기록하는 단계; 눈 감기 시작 프레임 뒤에 위치한 눈 감기 검출 프레임 시퀀스에 있어서, 두 눈이 모두 감은 상태가 아니거나 또는 한 눈만 감은 상태인 프레임의 수량이 제6 임계값을 초과한 것이 검출된 경우, 눈 감기 시작 프레임 뒤에 위치한 눈 감기 검출 프레임 시퀀스에서의 적어도 하나의 프레임을 눈 감기 종료 프레임으로 기록하는 단계; 및 눈 감기 시작 프레임과 눈 감기 종료 프레임의 수량과 시간에 따라, 타깃 대상이 눈빛 교류 주기 내에서 눈 감기 상태인 시간을 얻는 단계를 포함할 수 있다.
여기서, 눈 감기 검출 프레임 시퀀스의 획득 방법, 눈 감기 시작 프레임과 눈 감기 종료 프레임의 결정 방법은 모두 상기 각 발명의 실시예를 참조할 수 있고, 여기서 모두 더 이상 반복하지 않는다. 제5 임계값과 제6 임계값은 실제 상황에 따라 유연하게 설정된 수치일 수 있고, 상기에서 언급된 각 임계값과 동일할 수 있으며, 상이할 수도 있고, 실제 상황에 따라 유연하게 설정하면 된다. 타깃 대상이 눈을 감았는지 여부를 검출하는 방법은 실제 상황에 따라 유연하게 결정될 수 있고, 한 가지 가능한 구현 방법에 있어서, 각 프레임 이미지를 눈 감기 검출 기능을 구비한 신경 네트워크에 입력하여, 눈 감기 검출을 구현할 수 있으며, 여기서, 눈 감기 검출 기능을 구비한 신경 네트워크의 구현 형태는 본 발명의 실시예에서 한정하지 않으며, 일 실시예에 있어서, human action SDK에서의 얼굴 검출 또는 얼굴 속성 등 모델을 호출하는 것을 통해, 눈 감기 검출을 수행할 수 있는 신경 네트워크를 얻을 수 있다. 표 7은 본 발명의 일 실시예에 따라 도시된 눈 감기 검출 규칙이다.
눈 감기 검출 규칙
규칙 디폴트 값 비고
눈 감기 정의 왼쪽 눈을 감고 오른쪽 눈도 감으면, 눈 감기이고; 만약 한 쪽을 감지 않으면, 눈 감기가 아니다.
검출 프레임 레이트 10FPS 고정 검출 프레임 레이트
눈 감기 검출 주기 10 10 프레임을 하나의 주기로 하고, 단일 프레임으로 연속 스크롤 하며, 즉 각 프레임은 모두 이전 10 프레임 주기의 종료 및 다음 10 프레임 주기의 시작이다.
눈 감기 규칙 임계값 정방향 임계값 6역방향 임계값 8 검출 주기 내에서, 검출 결과가 플러스(눈 감기)인 프레임의 수량이 임계값에 도달하면, 즉 눈 감기가 있다고 판단하고, 눈 감기 이벤트 시작을 표지한다.
검출 주기 내에서, 검출 결과가 마이너스(눈 감기가 아님)인 프레임의 수량이 임계값에 도달하면, 즉 관람이라고 판단하고, 눈 감기 이벤트 종료를 표지한다.
눈 감기 이벤트 시작 시간 만약 규칙 임계값은 정방향 임계값이면, 검출 결과가 플러스인 제1 프레임의 시간은, 눈 감기 이벤트 시작 시간이다.
눈 감기 이벤트 종료 시간 만약 규칙 임계값은 역방향 임계값이면, 검출 결과가 마이너스인 제1 프레임의 시간은, 눈 감기 이벤트 종료 시간이다.
여기서, 눈 감기 검출 주기는 상기 발명의 실시예에서의 눈 감기 검출 프레임 시퀀스에 대응될 수 있으며, 눈 감기 규칙 임계값은 상기 발명의 실시예에서의 제5 임계값과 제6 임계값에 대응될 수 있고, 눈 감기 시작 시간은 상기 발명의 실시예에서의 눈 감기 시작 프레임의 시간에 대응될 수 있으며, 눈 감기 이벤트 종료 시간은 상기 발명의 실시예에서의 눈 감기 종료 프레임의 시간에 대응될 수 있다. 표 7에 도시된 바와 같이, 일 실시예에 있어서, 타깃 대상이 두 눈을 모두 감은 것을 눈 감기 상태로 설정하고, 나머지 상태는 눈 감기가 아닌 상태로 설정될 수 있으며; 눈 감기 검출의 검출 프레임 레이트는 10FPS로 설정될 수 있고, 눈 감기 검출 프레임 시퀀스의 길이는 10으로 설정될 수 있으며, 제5 임계값은 6으로 설정될 수 있고, 제6 임계값은 8로 설정될 수 있으며, 즉 눈 감기 검출 프레임 시퀀스에 있어서, 만약 눈 감기 상태인 프레임의 수량이 6보다 적지 않은 것이 검출되면, 눈 감기 상태인 제1 프레임을 눈 감기 시작 프레임으로 사용할 수 있고, 그 대응되는 시간은 눈 감기 시작 시간이며, 마찬가지로 눈 감기 시작 시간 이후의 눈 감기 검출 프레임 시퀀스에 있어서, 만약 눈 감기 상태가 아닌 프레임의 수량이 8보다 적지 않은 것이 검출되면, 눈 감기 상태가 아닌 제1 프레임을 눈 감기 종료 프레임으로 사용할 수 있음으로써, 눈 감기 종료 시간을 결정하고, 계속하여 눈빛 교류 주기 중 타깃 대상이 눈 감기 상태인 시간 범위를 얻을 수 있다.눈빛 교류 주기에서 타깃 대상의 얼굴이 얼굴 각도 임계값 내에 있는 시간 범위와 타깃 대상이 눈 감기 상태인 시간 범위가 각각 결정된 후, 추가로 눈빛 교류 주기에서 타깃 대상의 얼굴이 얼굴 각도 임계값 내에 있고 눈을 감지 않은 시간 범위, 즉 눈빛 교류 주기에서 타깃 대상이 눈빛 교류를 수행하는 시간 범위를 얻고, 계속하여 눈빛 교류 주기의 중간 검출 결과를 결정할 수 있다. 구체적으로 타깃 대상이 눈빛 교류 주기에서의 눈빛 교류 시간 범위를 어떻게 중간 검출 결과로 매핑할지, 그 매핑 규칙은 실제 상황에 따라 유연하게 설정될 수 있고, 하기 발명의 실시예에 제한되지 않는다.
표 8은 본 발명의 일 실시예에 따라 도시된 눈빛 교류 검출 결과의 규칙이고, 여기서 눈빛 교류 평점 주기는 상기 발명의 실시예에서의 눈빛 교류 검출 주기에 대응될 수 있으며, 눈빛 교류 평점은 상기 발명의 실시예에서 눈빛 교류 검출 차원에서의 중간 검출 결과에 대응될 수 있다.
눈빛 교류 검출 결과의 규칙
규칙 디폴트 값 비고
눈빛 교류 평점 주기 1 분
눈빛 교류 평점 규칙 10 점제 매분마다 눈빛 교류의 누적 기간 비율이고,10 점제의 득점으로 전환된다.예를 들어 1 분 비디오에서, 눈빛 교류 누적 기간은 30 초이고, 대응되는 비율은 50%이며, 대응되는 득점은 5.0이다.
표 8로부터 알다시피, 일 실시예에 있어서, 눈빛 교류 검출 주기 중 눈빛 교류의 시간 비율을, 일정한 규칙에 따라 점수로 매핑하여, 상기 눈빛 교류 검출 주기에서, 눈빛 교류 검출 차원에서의 중간 검출 결과로 사용할 수 있다.마찬가지로, 상기 각 발명의 실시예에서 설명한 바와 같이, 한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터에는 오디오 데이터가 포함될 수 있고, 이러한 경우, 단계 S12는 오디오 데이터에 따라 타깃 대상에 대해 행위 상태 검출을 수행하는 것일 수도 있다. 따라서, 한 가지 가능한 구현 방법에 있어서, 단계 S12는 하기와 같은 단계를 포함할 수 있다.
단계 S1221에 있어서, 오디오 데이터에 대해 문구에 따라 분할하여, 적어도 하나의 오디오 서브 데이터를 얻는다.;
단계 S1222에 있어서, 적어도 하나의 오디오 서브 데이터에 대해, 유창도, 말하는 속도, 정지 및 볼륨 중 적어도 하나의 검출 차원에서의 행위 상태 검출을 수행하여, 타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻는다.
여기서, 오디오 데이터에 대해 문구에 따라 분할하는 구현 방법은 본 발명의 실시예에서 한정하지 않고, 하기 발명의 실시예에 제한되지 않는다. 한 가지 가능한 구현 방법에 있어서, 오디오 데이터에서 텍스트 인식을 구비한 오디오 데이터 인식 신경 네트워크를 통해, 오디오 데이터에 대해 인식함으로써, 예를 들어 오디오 데이터에서의 각 문장, 각 문장에 포함된 단어, 각 문장의 시작 타임스탬프, 각 문장의 시간 길이, 단어의 시작 타임스탬프 및 단어의 시간 길이 등과 같은, 오디오 데이터 중 각 문장의 인식 결과를 얻을 수 있다. 오디오 데이터 인식 신경 네트워크의 구체적 구현 방법은 유연하게 결정될 수 있고, 오디오 데이터에 대해 인식할 수 있는 임의의 신경 네트워크는 모두 오디오 데이터 인식 신경 네트워크의 구현 방법으로 사용될 수 있다.
오디오 데이터에 대해 문구에 따라 분할한 후, 하나 또는 복수 개 오디오 서브 데이터를 얻을 수 있고, 오디오 서브 데이터의 구현 방법 및 포함된 내용은 오디오 데이터의 실제 분할 상황에 따라 유연하게 결정될 수 있으며, 한 가지 가능한 구현 방법에 있어서, 오디오 데이터가 문구에 따라 분할된 경우, 얻은 각 오디오 서브 데이터는 오디오 데이터에서의 각 완전한 문장에 각각 대응될 수 있다.
오디오 서브 데이터를 얻은 후, 얻은 오디오 서브 데이터에 따라, 그중의 부분 또는 각 오디오 서브 데이터에 대해, 행위 상태 검출을 수행할 수 있다. 본 발명의 실시예에 있어서, 오디오 서브 데이터에 대한 검출은 상이한 차원에서 수행된 검출일 수도 있고, 예를 들어 이에 대해 유창도, 말하는 속도, 정지 또는 볼륨에서의 하나 또는 복수 개 검출 등을 수행할 수 있으며, 구체적으로 어떤 차원을 선택할지는 실제 상황에 따라 유연하게 결정될 수 있고, 본 발명의 실시예에 있어서 한정하지 않는다.
구체적으로, 오디오 서브 데이터에 대해 유창도, 말하는 속도, 정지 및 볼륨 중 적어도 하나의 차원의 검출을 수행하는 방법은 한정되지 않는다. 한 가지 가능한 구현 방법에 있어서, 훈련을 통해 예를 들어 유창도 검출 신경 네트워크, 말하는 속도 검출 신경 네트워크, 정지 검출 신경 네트워크 및 볼륨 검출 신경 네트워크 등과 같은 상이한 기능을 구비한 복수 개 신경 네트워크를 얻을 수 있고, 오디오 서브 데이터를 이런 신경 네트워크에 입력하여, 상응한 유창도, 말하는 속도, 정지와 볼륨의 검출 결과 등을 각각 출력할 수 있다. 상기 각 신경 네트워크의 구체적 구현 형태는 실제 상황에 따라 유연하게 결정될 수 있고, 본 발명의 실시예에 있어서 한정하지 않는다.
각 오디오 서브 데이터가 각 검출 차원에서의 중간 검출 결과를 얻은 후, 각 검출 차원에서, 각 오디오 서브 데이터의 중간 검출 결과에 대해 기간 비율에 따라 가중 융합을 수행함으로써, 가중 융합의 결과를 완전한 오디오 데이터가 각 검출 차원에서의 중간 검출 결과로 사용할 수 있다.
한 가지 가능한 구현 방법에 있어서, 오디오 데이터에 대해 검출을 수행하기 전에, 오디오 데이터를 포맷 트랜스코딩하여, 후속적인 오디오 데이터 검출 과정으로 하여금 더욱 쉽게 구현될 수도 있도록 한다. 트랜스코딩의 방법과 트랜스코딩된 포맷은 실제의 검출 수요에 따라 유연하게 결정될 수 있고, 한 가지 가능한 구현 방법에 있어서, 오디오 데이터를 pcm 포맷(예를 들어 압축되지 않은 pcm 파일 또는 wav 파일) 또는16 bit 샘플링 비트의 모노 채널 포맷 등으로 트랜스코딩할 수 있다. 마찬가지로, 비디오 데이터에 대해 검출을 수행하기 전에, 비디오 데이터를 적합한 비디오 포맷으로 트랜스코딩할 수도 있다.
오디오 데이터에 대해 문구에 따라 분할하는 것을 통해, 적어도 하나의 오디오 서브 데이터를 얻음으로써, 적어도 하나의 오디오 서브 데이터에 대해, 유창도, 말하는 속도, 정지 및 볼륨 중의 하나 또는 복수 개 검출 차원에서의 검출을 수행하고, 상기 과정을 통해, 오디오 데이터에 대한 검출 과정을, 오디오 데이터 중 각 서브 데이터에 대한 검출 과정으로 전환하여, 검출 난이도 및 매번 검출에서 처리해야 할 데이터 양을 낮춤으로써, 오디오 데이터의 검출 효율과 검출 정밀도를 향상시켰고, 계속하여 데이터 처리의 효율 및 정밀도를 향상시킬 수 있다.
상기 임의의 발명의 실시예 또는 발명의 실시예의 조합에 기반하여, 타깃 대상이 복수 개 검출 차원에서의 중간 검출 결과를 얻은 후, 단계 S13을 통해, 얻은 중간 검출 결과에 대해 처리하여, 타깃 대상의 타깃 검출 결과를 얻을 수 있다. 단계 S13의 구현 방법은 실제 상황에 따라 유연하게 결정될 수 있고, 하기 각 발명의 실시예에 제한되지 않는다.
한 가지 가능한 구현 방법에 있어서, 단계 S13은, 검출 차원의 기설정 가중치에 따라, 적어도 하나의 검출 차원의 중간 검출 결과에 대해 합병하여, 타깃 대상의 타깃 검출 결과를 얻는 단계를 포함할 수 있다.
상기 발명의 실시예를 통해 알다시피, 한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터에 대해 제스처, 정서, 눈빛 교류, 유창도, 말하는 속도, 정지 및 볼륨에서의 하나 또는 복수 개 검출 차원에서 검출을 수행하여, 각 검출 차원에서의 중간 검출 결과를 각각 얻을 수 있다. 따라서, 상응하게, 이런 검출 차원에서의 중간 검출 결과를 융합 또는 합병하여, 타깃 검출 결과를 얻을 수 있다.
융합 또는 합병의 과정은 실제 상황에 따라 유연하게 선택될 수 있고, 상기 발명의 실시예에서 설명한 바와 같이, 한 가지 가능한 구현 방법에 있어서, 각 검출 차원의 기설정 가중치에 따라, 이런 검출 차원에서의 중간 검출 결과를 각각 가중 평균하여, 타깃 대상의 타깃 검출 결과를 얻을 수 있다. 각 검출 차원의 기설정 가중치의 값은 실제 수요에 따라 유연하게 설정될 수 있고, 한 가지 가능한 구현 방법에 있어서, 타깃 대상의 상태 평가에 대해 비교적 큰 영향을 구비한 검출 차원에 대해, 비교적 높은 기설정 가중치를 설정할 수 있고, 한 가지 가능한 구현 방법에 있어서, 각 검출 차원의 기설정 가중치를 일치하게 설정할 수도 있으며, 이러한 경우, 각 검출 차원에서 중간 검출 결과의 평균값을, 타깃 대상의 타깃 검출 결과로 직접 사용할 수 있다.
상기 과정을 통해, 각 검출 차원의 중간 검출 결과에 기반하여, 최종적 타깃 검출 결과를 얻을 수 있고, 기설정 가중치는 행위 상태의 평균적 실제 수요에 따라 조정할 수 있기에, 따라서 얻은 타깃 검출 결과는, 타깃 대상의 행위 상태를 비교적 잘 반영하여, 비교적 높은 신뢰성을 구비할 수 있다.
상기 발명의 실시예에서 이미 언급된 바와 같이, 타깃 검출 결과의 구현 형태는 유연하게 선택될 수 있고, 예를 들어 하나의 총체적 검출 결과와 복수 개 상세한 세분화 결과가 동시에 포함될 수 있으며, 타깃 대상 행위 상태의 총체적 상황 및 상세한 상황을 동시에 반영하기 위한 것이다, 따라서, 한 가지 가능한 구현 방법에 있어서, 단계 S13은,
단계 S131에 있어서, 오디오 서브 데이터가 오디오 데이터 중에 있는 시간에 따라, 멀티미디어 데이터에 포함된 비디오 데이터에서 오디오 서브 데이터와 대응되는 비디오 서브 데이터를 결정한다.
단계 S132에 있어서, 기설정 가중치에 따라, 오디오 서브 데이터가 적어도 하나의 검출 차원에서의 중간 검출 결과와 대응되는 비디오 서브 데이터가 적어도 하나의 검출 차원에서의 중간 검출 결과에 대해 합병하여, 적어도 하나의 상기 오디오 서브 데이터 또는 비디오 서브 데이터의 타깃 검출 결과를 얻는다.
단계 S133에 있어서, 적어도 하나의 오디오 서브 데이터 또는 비디오 서브 데이터의 타깃 검출 결과에 대해 합병하여, 타깃 대상의 타깃 검출 결과를 얻는다.
상기 각 발명의 실시예에서 설명한 바와 같이, 한 가지 가능한 구현 방법에 있어서, 멀티미디어 데이터에는 비디오 데이터와 오디오 데이터가 동시에 포함될 수 있고, 여기서, 비디오 데이터와 오디오 데이터 사이는 일대일로 대응될 수 있고, 즉 양자는 오디오가 포함된 데이터에서 각각 분리된 것일 수 있다. 오디오 데이터에 대해 다중 차원의 행위 상태 검출을 수행하는 과정에 있어서, 오디오 데이터에 대해 문구에 따라 분할하여 복수 개 오디오 서브 데이터를 얻고, 오디오 서브 데이터가 유창도, 말하는 속도, 정지 및 볼륨 등 복수 개 검출 차원에서의 중간 검출 결과를 각각 얻을 수 있다.
따라서, 한 가지 가능한 구현 방법에 있어서, 추가로 이런 오디오 서브 데이터의 타깃 검출 결과를 얻기 위해, 추가로 이런 오디오 서브 데이터가 제스처, 정서 및 눈빛 교류 이런 검출 차원에서의 중간 검출 결과를 획득할 수도 있다. 구체적인 획득 방법은 단계 S131을 참조할 수 있고, 한 가지 가능한 구현 방법에 있어서, 오디오 서브 데이터가 오디오 데이터에서의 분할 방법에 따라, 비디오 데이터에 대해 분할함으로써, 복수 개 비디오 서브 데이터를 얻고, 오디오 데이터와 비디오 데이터는 대응되고, 양자의 분할 방법은 동일하기에, 따라서, 얻은 비디오 서브 데이터와 오디오 서브 데이터는 일대일로 대응될 수 있다. 비디오 데이터는 상기 임의의 발명의 실시예를 통해 행위 상태 검출을 수행하여, 복수 개 검출 차원에서의 중간 검출 결과를 얻을 수 있기에, 진일보로, 이런 중간 검출 결과를 분할의 방법에 따라 각 비디오 서브 데이터에 매핑하면, 각 비디오 서브 데이터가 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻을 수 있다.
각 비디오 서브 데이터가 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻은 후, 비디오 서브 데이터와 오디오 서브 데이터의 대응 관계에 따라, 비디오 서브 데이터의 각 차원 중간 결과와 오디오 서브 데이터의 각 차원 중간 결과를 합병하여, 각 오디오 서브 데이터의 타깃 검출 결과를 얻을 수 있고, 오디오 서브 데이터와 비디오 서브 데이터는 대응되기에, 따라서 상기 타깃 검출 결과는 동시에 각 비디오 서브 데이터의 타깃 검출 결과일 수도 있다. 여기서, 합병의 방법은 상기 각 발명의 실시예를 참조할 수 있고, 여기서 더 이상 반복하지 않는다.
진일보로, 각 오디오 서브 데이터 또는 비디오 서브 데이터의 타깃 검출 결과를 얻은 후, 오디오 서브 데이터 또는 비디오 서브 데이터의 분할 방법의 역 방법에 따라, 상이한 오디오 서브 데이터 또는 비디오 서브 데이터의 타깃 검출 결과를 다시 융합하여, 타깃 대상의 총체적 타깃 검출 결과을 얻을 수도 있다.
상기 과정을 통해, 타깃 대상의 총체적 타깃 검출 결과를 얻는 동시에, 타깃 대상이 각 문장에서의 타깃 검출 결과도 얻음으로써, 타깃 대상의 행위 상태를 더욱 잘 나타내고, 타깃 검출 결과의 참조 가치 및 사용 범위를 향상시킬 수 있다.
도 2는 본 발명의 실시예에 따라 도시된 데이터 처리 장치의 블록도이다. 도시된 바와 같이, 상기 데이터 처리 장치(20)는,
타깃 대상의 멀티미디어 데이터를 획득하기 위한 획득 모듈(21); 상기 멀티미디어 데이터에 따라, 상기 타깃 대상에 대해 적어도 하나의 검출 차원에서 행위 상태 검출을 수행하여, 상기 타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻기 위한 검출 모듈(22); 및 상기 적어도 하나의 검출 차원에서의 중간 검출 결과에 대해 처리하여, 상기 타깃 대상의 타깃 검출 결과 - 상기 타깃 검출 결과는 상기 타깃 대상의 행위 상태를 나타내기 위한 것임 - 를 얻기 위한 처리 모듈(23)을 포함할 수 있다.
한 가지 가능한 구현 방법에 있어서, 상기 멀티미디어 데이터에는 비디오 데이터가 포함되고; 상기 검출 모듈은, 상기 비디오 데이터에서의 타깃 대상을 결정하고, 상기 타깃 대상에 대해 제스처, 정서 및 눈빛 교류 중 적어도 하나의 검출 차원에서의 행위 상태 검출을 수행하여, 상기 타깃 대상이 상기 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻기 위한 것이다.
한 가지 가능한 구현 방법에 있어서, 상기 적어도 하나의 검출 차원에는 제스처 검출 차원이 포함되고; 상기 검출 모듈은 추가로, 상기 비디오 데이터에 따라, 상기 타깃 대상이 제스처 검출 주기 내에서 적어도 하나의 타깃 제스처를 실행하는 횟수를 획득하여, 상기 제스처 검출 주기의 제스처 검출 결과를 얻고 - 상기 타깃 제스처에는 손을 받치기, 손들기 및 엄지손가락 들기에서의 하나 또는 복수 개가 포함됨 -; 적어도 하나의 상기 제스처 검출 주기의 상기 제스처 검출 결과에 따라, 상기 타깃 대상이 제스처 검출 차원에서의 중간 검출 결과를 얻기 위한 것이다.
한 가지 가능한 구현 방법에 있어서, 상기 검출 모듈은 추가로, 상기 비디오 데이터가 상기 제스처 검출 주기 내에서의 적어도 하나의 제스처 검출 프레임 시퀀스를 획득하고; 상기 제스처 검출 프레임 시퀀스에 있어서, 상기 타깃 제스처가 포함된 프레임의 수량이 제1 임계값을 초과한 경우, 상기 제스처 검출 프레임 시퀀스에서의 적어도 하나의 프레임을 제스처 시작 프레임으로 기록하며; 상기 제스처 시작 프레임 뒤에 위치한 제스처 검출 프레임 시퀀스에 있어서, 상기 타깃 제스처가 포함되지 않은 프레임의 수량이 제2 임계값을 초과한 경우, 상기 제스처 시작 프레임 뒤에 위치한 제스처 검출 프레임 시퀀스에서의 적어도 하나의 프레임을 제스처 종료 프레임으로 기록하고; 상기 제스처 시작 프레임 및 제스처 종료 프레임의 수량에 따라, 상기 타깃 대상이 제스처 검출 주기 내에서 적어도 하나의 타깃 제스처를 실행하는 횟수를 얻기 위한 것이다.
한 가지 가능한 구현 방법에 있어서, 상기 적어도 하나의 검출 차원에는 정서 검출 차원이 포함되고; 상기 검출 모듈은 추가로, 상기 비디오 데이터에 따라, 상기 타깃 대상이 정서 검출 주기 내에서의 표정 검출 결과 및/또는 미소 검출 결과를 획득하고 - 상기 표정 검출 결과에는 상기 타깃 대상의 표정에 기반하여 결정된 정서 결과가 포함되며, 상기 미소 검출 결과에는 상기 타깃 대상의 미소 정도가 포함됨 - ; 적어도 하나의 상기 정서 검출 주기 중 상기 타깃 대상의 표정 검출 결과 및/또는 미소 검출 결과에 따라, 상기 타깃 대상이 정서 검출 차원에서의 중간 검출 결과를 얻기 위한 것이다.
한 가지 가능한 구현 방법에 있어서, 상기 검출 모듈은 추가로, 상기 정서 검출 주기 내에서, 상기 타깃 대상에 대해 표정 검출을 수행하여, 상기 타깃 대상이 적어도 하나의 타깃 표정을 전시하는 횟수를 결정하고, 상기 표정 검출 결과를 얻기 - 타깃 표정에는 기쁨, 평온 및 다른 것 중의 하나 또는 복수 개가 포함됨 - 위한 것이다.
한 가지 가능한 구현 방법에 있어서, 상기 검출 모듈은 추가로, 상기 정서 검출 주기 내에서, 상기 비디오 데이터의 적어도 하나의 프레임에 따라, 상기 타깃 대상에 대해 미소 검출을 수행하여, 적어도 하나의 프레임과 대응되는 미소 검출 결과를 얻고; 상기 적어도 하나의 프레임과 대응되는 미소 검출 결과에 따라, 상기 타깃 대상이 상기 정서 검출 주기 내에서의 미소 검출 결과를 결정하기 위한 것이다.
한 가지 가능한 구현 방법에 있어서, 상기 적어도 하나의 검출 차원에는 눈빛 교류 검출 차원이 포함되고; 상기 검출 모듈은 추가로, 상기 비디오 데이터에 따라, 상기 타깃 대상에 대해 얼굴 각도 검출을 수행하고, 상기 타깃 대상의 얼굴 각도가 얼굴 각도 임계값 내에 있는 시간을 결정하여, 얼굴 각도 검출 결과로 사용하며; 상기 비디오 데이터에 따라, 상기 타깃 대상에 대해 눈 감기 검출을 수행하고, 상기 타깃 대상이 눈 감기 동작을 실행한 시간을 결정하여, 눈 감기 검출 결과로 사용하며; 상기 얼굴 각도 검출 결과와 상기 눈 감기 검출 결과에 따라, 상기 타깃 대상의 얼굴 각도가 얼굴 각도 임계값 내에 있고 눈 감기 동작을 실행하지 않은 시간 길이를 결정하며; 상기 시간 길이에 따라, 상기 타깃 대상이 상기 눈빛 교류 검출 차원에서의 중간 검출 결과를 얻기 위한 것이다.
한 가지 가능한 구현 방법에 있어서, 상기 멀티미디어 데이터에는 오디오 데이터가 포함되고; 상기 검출 모듈은, 상기 오디오 데이터에 대해 문구에 따라 분할하여, 적어도 하나의 오디오 서브 데이터를 얻고; 상기 적어도 하나의 오디오 서브 데이터에 대해, 유창도, 말하는 속도, 정지 및 볼륨 중 적어도 하나의 검출 차원에서의 행위 상태 검출을 수행하여, 타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻기 위한 것이다.
한 가지 가능한 구현 방법에 있어서, 상기 처리 모듈은, 상기 검출 차원의 기설정 가중치에 따라, 적어도 하나의 검출 차원의 상기 중간 검출 결과에 대해 합병하여, 상기 타깃 대상의 타깃 검출 결과를 얻기 위한 것이다.
한 가지 가능한 구현 방법에 있어서, 상기 처리 모듈은, 상기 오디오 서브 데이터가 상기 오디오 데이터 중에 있는 시간에 따라, 상기 멀티미디어 데이터에 포함된 비디오 데이터에서 상기 오디오 서브 데이터와 대응되는 비디오 서브 데이터를 결정하고; 기설정 가중치에 따라, 상기 오디오 서브 데이터가 적어도 하나의 검출 차원에서의 중간 검출 결과와 대응되는 상기 비디오 서브 데이터가 적어도 하나의 검출 차원에서의 중간 검출 결과에 대해 합병하여, 적어도 하나의 상기 오디오 서브 데이터 또는 상기 비디오 서브 데이터의 타깃 검출 결과를 얻으며; 적어도 하나의 상기 오디오 서브 데이터 또는 상기 비디오 서브 데이터의 타깃 검출 결과에 대해 합병하여, 상기 타깃 대상의 타깃 검출 결과를 얻기 위한 것이다.
한 가지 가능한 구현 방법에 있어서, 상기 멀티미디어 데이터는 상기 타깃 대상이 기설정된 텍스트 데이터에 따라 수업 동작을 수행하는 것을 통해 획득하고, 여기서, 상기 기설정된 텍스트 데이터에는 적어도 하나의 명령어 태그가 포함되며, 상기 명령어 태그는 상기 기설정된 텍스트 데이터의 적어도 부분 내용을 구분 및/또는 표시하기 위한 것이다.
논리를 위반하지 않는 경우, 본 발명의 상이한 실시예들은 상호 결합될 수 있고, 상이한 실시예의 설명은 강조되어 설명되며, 강조되어 설명도지 않은 부분은 다른 실시예의 설명을 참조할 수 있다.
본 발명의 일부 실시예에 있어서, 본 발명의 실시예에서 제공하는 장치가 갖고 있는 기능 또는 포함하는 모듈은 전술한 방법 실시예에서 설명한 방법을 수행하는데 사용될 수 있고, 그 구체적인 구현 및 기술적 효과는 전술한 방법 실시예의 설명을 참조할 수 있으며, 간결함을 위해, 여기서 더 이상 반복하여 설명하지 않는다.
응용 시나리오 예시
교사 모수, 즉 교사 모의 수업은, 몇 명의 교사가 오프라인 시나리오에서 마주 보면서, 각각 모의 수업을 수행하며 서로 평가하는 것일 수 있다. 온라인 수업의 발전에 따라, 모수도 마찬가지로 온라인 모수로 전환될 수 있고, 즉 교사는 단말 기기 (예를 들어 핸드폰, 컴퓨터 등)를 통해, 모의 수업의 과정에 대해 녹화 제작 또는 라이브를 수행할 수 있다.
모수는 교사가 정식 수업의 과정에 대해 리허설하는 것을 도울 수 있고, 모수의 평가는 교사의 수업 작업에 대해 비교적 높은 지도적 가치가 있다. 따라서, 신뢰성이 비교적 높은 모수 방법은, 교사의 온라인 모수 과정에 효과적으로 적용되고, 교사의 정식 수업에 대해 비교적 좋은 보조 작용을 할 수 있다.
본 발명의 응용 예시는 한 세트의 교사 모수 시스템을 제공하고, 상기 시스템은 상기 발명의 실시예에서 제공된 데이터 처리 방법을 통해, 교사 모수 행위 상태에 대한 효과적인 평가를 구현할 수 있다.
본 발명의 실시예에서 제공된 교사 모수 시스템에는, 클라이언트(예를 들어 핸드폰, 컴퓨터, 사용자 기기 등)와 서버 사이드(예를 들어 로컬 서버 또는 클라우드 서버 등) 두 개 부분이 포함될 수 있고, 교사는 클라이언트에서 모수 과정의 녹화 제작 또는 라이브를 수행하고, 녹화 제작 또는 라이브의 결과를 멀티미디어 데이터로 사용하여 서버 사이드에 업로드할 수 있으며, 서버 사이드는 클라이언트에 의해 업로드된 멀티미디어 데이터를 수신할 수 있고, 상기 각 발명의 실시예의 데이터 처리 방법을 통해, 멀티미디어 데이터에 대해 처리함으로써, 타깃 대상의 타깃 검출 결과를 얻는다.
여기서, 교사가 클라이언트에서 모수를 수행하는 과정은 하기와 같은 내용을 포함할 수 있다.
클라이언트는 디스플레이 인터페이스를 통해, 모수 과정의 네 개 부분을 디스플레이할 수 있고, 각각 수업 전 워밍업, 지식 강의, 수업 중 훈련 및 수업 검사이다. 각 부분은 디스플레이 인터페이스에서 하나의 tap에 대응되고, 교사는 tap을 클릭하는 것을 통해 상기 부분에 진입할 수 있다. 교사가 tap을 클릭하는 과정에 있어서, 서버는 교사가 각 tap을 클릭하는 타임스탬프를 수집함으로써, 교사에 의해 녹화 제작된 멀티미디어 데이터를 네 개 부분에서의 하나 또는 복수 개에 대응시킬 수 있다.
교사는 기존의 전사 원고(즉 상기 발명의 실시예에서의 기설정된 텍스트 데이터)에 따라, 모수를 수행할 수 있다. 여기서, 전사 원고는 txt 포맷의 텍스트 파일일 수 있고, 전사 원고에는 명령어 태그가 포함될 수 있으며, 상기 명령어 태그는 전사 원고에 대해 구조화 표시 및 지식 포인트와 인터랙션 표시를 수행할 수 있음으로써, 전사 원고를 상기 네 개 부분으로 분할할 수 있고, 각 부분에 있어서, 적합한 위치에서 교사가 음성 내용 및 인터랙션 제스처 등이 포함된 인터랙션을 하도록 제시한다.
여기서, 구조화 표시는 전사 원고를 모수의 상이한 부분에 따라 분할할 수 있고, 본 발명의 응용 예시에 있어서, 전사 원고는 특정된 시작 및 종료 명령어 인식자를 사용하여 4 개 부분(수업 전 워밍업, 지식 강의, 수업 중 훈련, 수업 검사)의 시작 및 종료 세션을 표시할 수 있다.
일 실시예에 있어서, <시작 명령어 시작>< 시작 명령어 종료>; <종료 명령어 시작>, < 종료 명령어 종료>를 사용하여 대응하는 명령어를 각각 표시할 수 있음으로써, 구조화 표시된 명령어 태그에 따라, 교사가 현재 설명하는 내용에 대응되는 부분을 판단 인식할 수 있다. 본 발명의 응용 예시에 있어서, 구조 표시된 명령어 태그의 구체적 구현 형태는 상기 발명의 실시예를 참조할 수 있다.
지식 포인트와 인터랙션 표시는 전사 원고에서의 모수 지식 포인트 및 인터랙션 위치를 표시할 수 있고, 본 발명의 응용 예시에 있어서, <중점 시작><중점 종료>를 사용하여 중점 내용을 각각 표시함으로써, 검출 모수 과정에서의 중점 단락을 용이하게 검출할 수 있다. 만약 모수 과정에서 인터랙션이 필요하면, 전사 원고의 대응되는 수업 내용에서 <인터랙션 추가 필요>인식자를 사용한다. 본 발명의 응용 예시에 있어서, 지식 포인트와 인터랙션 표시의 명령어 태그의 구체적 구현 형태는 상기 발명의 실시예를 참조할 수 있다.
본 발명의 응용 예시에 있어서, 교사는 전사 원고를 사용하여 모수를 수행하는 동시에, 클라이언트를 통해 상기 모수 과정을 녹화 제작함으로써, 상기 교사의 멀티미디어 데이터를 얻고, 서버 사이드로 업로드할 수 있다.
서버 사이드는 클라이언트에 의해 업로드된 멀티미디어 데이터에 대해 데이터 처리를 수행하는 과정은 하기와 같은 내용을 포함할 수 있다.
멀티미디어 데이터의 획득;
서버 사이드는 요청을 개시하는 것을 통해 처리될 멀티미디어 데이터를 획득하고, 여기서, 서버 사이드에 의해 개시된 요청에는 멀티미디어 데이터(예를 들어 MP4 파일)의 URL 링크, vendeeID, teacherID, 모수 ID, 멀티미디어 데이터 구조(즉 상기 멀티미디어 데이터가 모수 과정에 따라 분할된 각 부분 및 각 부분의 시작 타임스탬프 및 종료 타임스탬프), 비디오 검출 프레임 레이트 등이 포함될 수 있다. 본 발명의 응용 예시에 있어서, 멀티미디어 데이터에는 비디오 데이터가 포함된 경우, 상기 비디오의 해상도에는 예를 들어 640p, 720p 또는 1080p 등과 같은 다양한 형태가 포함될 수 있고, 멀티미디어 데이터에는 오디오 데이터가 포함된 경우, 상기 오디오 데이터에는 예를 들어 8000Hz 또는 16000Hz 등과 같은 다양한 오디오 샘플링 레이트가 포함될 수 있다. 또한, 교사가 클라이언트를 통해 모수 라이브를 수행하는 경우, 서버 사이드는 멀티미디어 데이터(즉 비디오 오디오 데이터)를 실시간으로 획득할 수도 있다.
멀티미디어 데이터 예비 처리(예를 들어 비디오 트랜스코딩 또는 오디오 트랜스코딩 등):
서버 사이드는 획득된 멀티미디어 데이터 중에서 비디오 스트림과 오디오 스트림을 분리하고, 각각 비디오 검출, 음성 인식 또는 음성 평가가 지원하는 포맷으로 트랜스코딩할 수 있다. 예를 들어, 분리된 오디오 스트림을 pcm(압축되지 않은 pcm 파일 또는 wav 파일) 또는16 bit 샘플링 비트의 모노 채널 포맷으로 전환할 수 있다.
비디오 검출:
본 발명의 응용 예시에 있어서, human action SDK의 얼굴 검출, 얼굴 추적, 얼굴 속성 및 제스처 검출 모델을 호출하고 및 insight SDK의 인체 검출 및 손들기 검출 모델을 호출하는 것을 통해, 비디오 데이터에 대해 다중 차원 검출을 수행할 수 있다. 본 발명의 응용 예시에 있어서, 비디오 데이터에 대한 다중 차원 검출에는 제스처 검출, 정서 검출 및 눈빛 교류 검출 등이 포함될 수 있다.
여기서, 제스처 검출은 교사가 모수하는 인터랙션 정도를 반영할 수 있다. 제스처 검출은 세 가지 제스처의 검출을 지원할 수 있고, 각각 손을 받치기(어떤 학생한테 답변을 요청), 손 들기(학생한테 답변하라고 제시) 및 엄지손가락 들기(칭찬)이며, 검출 방법은 제스처 검출의 신경 네트워크를 사용하여 검출을 수행할 수 있음으로써, 각 제스처의 횟수 및 각 제스처 검출의 타임스탬프를 출력할 수 있다. 제스처 검출의 구체적 구현 방법은 상기 각 발명의 실시예를 참조할 수 있고, 제스처 검출 차원에서의 중간 검출 결과를 얻는 규칙은 상기 발명의 실시예에서의 표 1과 표 2를 참조할 수 있고, 여기서 더 이상 반복하지 않는다.
정서 검출은 교사가 모수하는 친화도를 반영할 수 있고, 여기에는 두 개 측면이 포함될 수 있으며, 각각 표정 검출 및 미소 검출이다. 여기서, 표정 검출은 표정 검출의 신경 네트워크를 통해 검출될 수 있고, 단일 프레임 검출 결과의 기초에서, 정서 검출 주기(분으로 잠정)에 따라 표정 검출 결과가 출력되며, 예시적인 규칙은, 정서 검출 주기 내에서 검출 횟수가 제일 많은 표정이, 상기 정서 검출 주기의 표정 검출 결과로 사용될 수 있는 것일 수 있다.
마찬가지로, 미소 검출은 단일 프레임 검출 결과의 기초에서, 정서 검출 주기(분으로 잠정)에 따라 미소 검출 결과가 출력될 수 있으며, 예시적인 규칙은, 정서 검출 주기 내에서 모든 단일 프레임 미소 검출 결과의 산수 평균값이, 상기 정서 검출 주기의 미소 검출 결과로 사용될 수 있는 것이다.
표정 검출과 미소 검출의 구체적 구현 방법은 상기 각 발명의 실시예를 참조할 수 있고, 정서 검출 차원에서의 중간 검출 결과를 얻는 규칙은 상기 발명의 실시예에서의 표 3 내지 표 5를 참조할 수 있으며, 여기서 더 이상 반복하지 않는다.
눈빛 교류 검출은 교사 모수 과정에서 학생과 눈빛 교류를 수행하는 상황을 반영할 수 있고, 여기에는 두 개 측면이 포함될 수 있으며, 각각 얼굴 각도 검출(headpose 방향) 및 눈 감기 검출이다. 여기서, 눈빛 교류 검출을 눈빛 교류 이벤트로 정의하고, 얼굴 각도 검출을 관람 이벤트로 정의하며, 눈 감기 검출을 눈 감기 이벤트로 정의할 수 있으면, 눈빛 교류 이벤트는 관람 이벤트와 눈 감기가 아닌 이벤트의 교집할일 수 있다. 본 발명의 응용 예시에 있어서, 눈빛 교류 이벤트의 시작 시간을 관람 이벤트의 시간 범위 내에 있고 눈 감기 이벤트의 시간 범위 내에 있지 않은 시작 시간으로 설정하며, 눈빛 교류 이벤트의 종료 시간을 관람 이벤트의 종료 시간 또는 눈 감기 이벤트의 시작 시간으로 설정할 수 있다.
얼굴 각도 검출과 눈 감기 검출의 구체적 구현 방법은 상기 각 발명의 실시예를 참조할 수 있고, 눈빛 교류 검출 차원에서의 중간 검출 결과를 얻는 규칙은 상기 발명의 실시예에서의 표 6 내지 표 8를 참조할 수 있으며, 여기서 더 이상 반복하지 않는다.
오디오 인식:
본 발명의 응용 예시에 있어서, 음성 인식의 관련 인식 모델을 호출하여, 오디오 데이터를 입력함으로써, 음성 인식 결과를 실시간으로 획득할 수 있고, 오디오 데이터에서의 문장, 문장에서의 단어 및 각 문장 및 각 단어의 시작 타임스탬프 및 기간이 포함된다.
오디오 검출:
본 발명의 응용 예시에 있어서, 음성 인식 결과의 각 문장의 시작 타임스탬프 및 기간에 기반하여, 문장 오디오를 분할하여, 상기 문장 오디오의 검출 결과를 획득하고 리턴할 수 있으며, 유창도, 말하는 속도, 정지 및 볼륨 등이 포함된다.
오디오 인식 및 오디오 검출을 통해, 교사 모수 과정에서 유창도, 말하는 속도 및 볼륨 등 차원에서의 중간 검출 결과를 반영할 수 있다. 본 발명의 응용 예시에 있어서, 오디오 검출은 중문 음성 인식을 지원할 수 있고, 비영어 학과 커리큘럼의 모수 평가를 위한 것이며; 중문과 영어가 혼합된 음성 인식을 지원할 수도 있고, 영어 커리큘럼의 모수 평가를 위한 것이다.
여기서, 오디오 인식은 음성 인식 관련 신경 네트워크 모델을 호출하여, 인식 결과를 실시간으로 리턴할 수 있고, 인식 결과는 문장 및 문장에서의 단어로 나뉘며, 오디오 검출을 통해, 음성 인식에 의해 리턴된 문장에 대해, 상기 각 차원의 검출 결과를 얻을 수 있고, 진일보로, 단락에 대한 오디오 검출을 추가할 수도 있다.
타깃 검출 결과를 생성:
타깃 검출 결과에는 전체 타깃 검출 결과와 세분화 타깃 검출 결과가 포함될 수 있고, 여기서, 전체 타깃 검출 결과에는, 인터랙션, 유창도, 말하는 속도 및 볼륨이 포함될 수 있으며, 여기서 인터랙션은 추가로 제스처 인터랙션, 정서 인터랙션 및 눈빛 교류 인터랙션 등으로 분할될 수 있고, 도 3은 본 발명의 일 응용 예시에 따라 도시된 타깃 검출 결과 예시도이며, 도면에서 알다시피, 전체 타깃 검출 결과에는 각 차원의 중간 검출 결과에 기반하여 계산된 전체 평점 및 각 차원의 중간 검출 결과의 평점 등이 포함될 수 있다. 유의해야 할 것은, 도 3은 다만 타깃 검출 결과를 나타내는 일 예시적 예시도일 뿐이고, 실제 응용 과정에 있어서, 실제 수요에 따라, 임의의 형태로 타깃 검출 결과에 대해 가시적으로 나타낼 수 있다.
세분화 타깃 검출 결과는 음성 인식에 기반하는 각 문장에 의해 출력된 검출 결과일 수 있고, 일 실시예에 있어서, 세분화 타깃 검출 결과에는 문장 ID, 문장 텍스트, 문장 시작 타임스탬프, 문장 기간, 문장 유창도, 문장 말하는 속도, 문장 볼륨, 문장 제스처 (복수 개 제스처를 지원 ), 문장 표정 및 문장 미소값 등이 포함될 수 있다.
본 발명의 응용 예시에서 제공된 시스템은, 교사 모수 분석에 응용될 수 있는 것을 제외하고도, 예를 들어 교사의 정식 수업 분석, 또는 교사 지원자에 대해 테스트 수업 평가 등을 수행하는 것과 같은 다른 관련 분야에 적용될 수도 있다.
본 발명의 실시예에서 언급한 상기 각 방법은, 원리와 논리를 위반하지 않는 한, 모두 서로 상호적으로 결합되어 결합된 실시예를 형성할 수 있다는 것을 이해할 수 있고, 편폭의 제한으로, 본 발명의 실시예에서 더 이상 반복하여 설명하지 않는다.
본 분야의 기술자는 구체적인 실시 형태의 상기 차량 포지셔닝 방법 또는 차량 제어 방법에서, 각 단계의 기록 순서는 엄격한 실행 순서를 의미하지 않고 실시 과정에 대한 임의의 제한을 구성하며, 각 단계의 구체적인 실행 순서는 그 기능 및 가능한 내부 논리에 의해 결정된다는 것을 이해할 수 있다.
본 발명의 실시예는 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능 저장 매체를 더 제공하고, 상기 컴퓨터 프로그램 명령어가 프로세서에 의해 수행될 때 상기 데이터 처리 방법을 구현한다. 컴퓨터 판독 가능 저장 매체는 휘발성 컴퓨터 판독 가능 저장 매체 또는 비휘발성 컴퓨터 판독 가능 저장 매체일 수 있다.
본 발명의 실시예는 전자 기기를 더 제공하고, 상기 전자 기기는, 프로세서; 및 프로세서가 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고; 여기서, 상기 메모리는 상기 데이터 처리 방법을 수행하도록 구성된다.
본 발명의 실시예는 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램을 더 제공하고, 상기 컴퓨터 판독 가능 코드가 전자 기기에서 작동될 때, 상기 전자 기기에서의 프로세서는 상기 데이터 처리 방법을 구현하기 위한 명령어를 실행한다.
실제 응용에 있어서, 상기 메모리는 예를 들어 랜덤 액세스 메모리(Random-Access Memory, RAM)와 같은 휘발성 메모리(volatile memory); 또는 예를 들어 읽기 전용 메모리(Read-Only Memory, ROM), 플래시 메모리(flash memory), 하드 디스크(Hard Disk Drive, HDD) 또는 솔리드스테이트 드라이브(Solid-State Drive, SSD)와 같은 비휘발성 메모리(non-volatile memory); 또는 상기 타입의 메모리의 조합일 수 있고, 프로세서에 명령어 및 데이터를 제공한다.
상기 프로세서는 응용 주문형 집적 회로(ASIC), 디지털 시그널 프로세서(DSP), 디지털 시그널 처리 장치(DSPD), 프로그램 가능 논리 장치(PLD), 필드 프로그램 가능 게이트 어레이(FPGA), 중앙 처리 장치(CPU), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서에서의 적어도 한 가지일 수 있다. 이해할 수 있는 것은, 상이한 기기에 대해, 상기 프로세서 기능을 구현하기 위한 전자 부품은 다른 것일 수도 있고, 본 발명의 실시예는 구체적으로 한정하지 않는다.
전자 기기는 단말, 서버 또는 다른 형태의 기기로 제공될 수 있다.
전술한 실시예와 동일한 기술적 구상에 기반하여, 본 발명의 실시예는 컴퓨터 프로그램을 더 제공하고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때 상기 데이터 처리 방법을 구현한다.
도 4는 본 발명의 실시예에 따른 전자 기기(800)의 블록도이다. 예를 들어, 전자 기기(800)는 휴대폰, 컴퓨터, 디지털 방송 단말기, 메시지 송수신 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 휘트니스 기기, 개인용 휴대 단말기 등 단말일 수 있다.
도 4를 참조하면, 전자 기기(800)는 처리 컴포넌트(802), 메모리(804), 전원 컴포넌트(806), 멀티미디어 컴포넌트(808), 오디오 컴포넌트(810), 입력/출력(I/O)의 인터페이스(812), 센서 컴포넌트(814) 및 통신 컴포넌트(816) 중 하나 또는 복수 개의 컴포넌트를 포함할 수 있다.
처리 컴포넌트(802)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 전자 기기(800)의 전반적인 동작을 제어한다. 처리 컴포넌트(802)는 상기 데이터 처리 방법의 전부 또는 일부 단계를 완료하기 위한 명령어를 수행하는 하나 또는 복수 개의 프로세서(820)를 포함할 수 있다. 또한, 처리 컴포넌트(802)는 처리 컴포넌트(802) 및 다른 컴포넌트 사이의 인터랙션 을 용이하게 하기 위해, 하나 또는 복수 개의 모듈을 더 포함할 수 있다. 예를 들어, 처리 컴포넌트(802)는 멀티미디어 컴포넌트(808) 및 처리 컴포넌트(802) 사이의 용이한 인터랙션 을 위해, 멀티미디어 모듈을 포함할 수 있다.
메모리(804)는 전자 기기(800)의 동작을 지원하기 위해, 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예는 전자 기기(800)에서의 동작을 위한 임의의 애플리케이션 프로그램 또는 방법의 명령어, 연락인 데이터, 전화번호부 데이터, 메시지, 이미지, 비디오 등을 포함한다. 메모리(804)는 정적 랜덤 액세스 메모리(SRAM), 전기적 소거 및 프로그램 가능 읽기 전용 메모리(EEPROM), 소거 및 프로그램 가능 읽기 전용 메모리(EPROM), 프로그램 가능 읽기 전용 메모리(PROM), 읽기 전용 메모리(ROM), 자기 메모리, 플래시 메모리, 디스켓 또는 CD와 같은 임의의 타입의 휘발성 또는 비휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.
전원 컴포넌트(806)는 전자 기기(800)의 다양한 컴포넌트에 전력을 제공한다. 전원 컴포넌트(806)는 전원 관리 시스템, 하나 또는 복수 개의 전원 및 전자 기기(800)를 위해 전력을 생성, 관리 및 분배하는 것과 관련된 다른 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(808)는 상기 전자 기기(800) 및 사용자 사이에 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정 디스플레이(LCD) 및 터치 패널(TP)을 포함할 수 있다. 만약 스크린이 터치 패널을 포함하면, 스크린은 사용자에 의해 입력된 신호를 수신하도록 터치스크린으로 구현될 수 있다. 터치 패널은 터치, 스와이프 및 터치 패널에서의 제스처를 감지하도록 하나 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 스와이프 동작의 바운드를 감지할 수 있을 뿐만 아니라, 상기 터치 또는 스와이프 동작과 관련된 지속 시간 및 압력도 검출할 수 있다. 일부 실시예에 있어서, 멀티미디어 컴포넌트(808)는 전방 카메라 및/또는 후방 카메라를 포함한다. 전자 기기(800)가 촬영 모드 또는 비디오 모드와 같은 작동 모드일 때, 전방 카메라 및/또는 후방 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전방 카메라 및 후방 카메라는 하나의 고정된 광학렌즈 시스템이거나 초점 거리 및 광학 줌 기능을 구비할 수 있다.
오디오 컴포넌트(810)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들어, 오디오 컴포넌트(810)는 하나의 마이크로폰(MIC)를을 포함하고, 전자 기기(800)가 호출 모드, 기록 모드 및 음성 인식 모드와 같은 작동 모드일 때, 마이크로폰은 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(804)에 추가로 저장되거나 통신 컴포넌트(816)를 통해 송신될 수 있다. 일부 실시예에 있어서, 오디오 컴포넌트(810)는 오디오 신호를 출력하기 위한 하나의 스피커를 더 포함한다.
입력/출력(I/O) 인터페이스(812)는 처리 컴포넌트(802) 및 주변 인터페이스 모듈 사이에 인터페이스를 제공하고, 상기 주변 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼은 홈버튼, 음량 버튼, 시작 버튼 및 잠금 버튼을 포함할 수 있지만 이에 한정되지 않는다.
센서 컴포넌트(814)는 전자 기기(800)에 다양한 측면의 상태 평가를 제공하기 위한 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(814)는 전자 기기(800)의 온/오프 상태, 컴포넌트의 상대 위치를 검출할 수 있고, 예를 들어, 상기 컴포넌트는 전자 기기(800)의 모니터와 키패드이며, 센서 컴포넌트(814)는 전자 기기(800) 또는 전자 기기(800)에서 하나의 컴포넌트의 위치 변화, 사용자와 전자 기기(800) 접촉의 존재 유무, 전자 기기(800) 방향 또는 가속/감속 및 전자 기기(800)의 온도 변화도 검출할 수 있다. 센서 컴포넌트(814)는 그 어떤 물리적 접촉이 없을 경우 주변 물체의 존재를 검출하도록 구성된 근접 센서를 포함할 수 있다. 센서 컴포넌트(814)는 상보성 금속 산화막 반도체(CMOS) 또는 전하 결합 소자(CCD) 이미지 센서와 같은 이미징 애플리케이션에 사용하기 위한 광 센서를 더 포함할 수 있다. 일부 실시예에 있어서, 상기 센서 컴포넌트(814)는 가속도 센서, 자이로스코프 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 컴포넌트(816)는 전자 기기(800) 및 다른 기기 사이의 유선 또는 무선 방법의 통신을 용이하게 하도록 구성된다. 전자 기기(800)는 예를 들어 WiFi, 2G, 3G, 4G 또는 5G 또는 이들의 조합과 같은 통신 표준에 기반하는 무선 네트워크에 액세스할 수 있다. 일 예시적 실시예에 있어서, 통신 컴포넌트(816)는 방송 채널을 통해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송과 관련된 인원 정보를 수신한다. 일 예시적 실시예에 있어서, 상기 통신 컴포넌트(816)는 근거리 통신을 촉진하도록 근거리 자기장 통신(Near Field Communication, NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 인식(RFID) 기술, 적외선 통신 규격(IrDA) 기술, 초광대역(UWB) 기술, 블루투스(BT) 기술 및 다른 기술에 기반하여 구현될 수 있다.
예시적 실시예에 있어서, 전자 기기(800)는 상기 데이터 처리 방법을 수행하기 위해, 하나 또는 복수 개의 응용 주문형 집적 회로(ASIC), 디지털 신호 프로세서(DSP), 디지털 신호 처리 기기(DSPD), 프로그램 가능 논리 소자(PLD), 필드 프로그램 가능 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 소자에 의해 구현될 수 있다.
예시적 실시예에 있어서, 예를 들어 컴퓨터 프로그램 명령어를 포함하는 메모리(804)와 같은 비휘발성 컴퓨터 판독 가능 저장 매체를 더 제공하고, 상기 컴퓨터 프로그램 명령어는 전자 기기(800)의 프로세서(820)에 의해 수행됨으로써 상기 데이터 처리 방법을 완료하도록 한다.
도 5는 본 발명의 실시예에 따른 전자 기기(1900)의 블록도이다. 예를 들어, 전자 기기(1900)는 서버로 제공될 수 있다. 도 5를 참조하면, 전자 기기(1900)는 처리 컴포넌트(1922)를 포함하고, 추가로 하나 또는 복수 개의 프로세서 및 메모리(1932)를 대표로 하는 메모리 자원을 포함하고, 예를 들어 애플리케이션 프로그램과 같은 처리 컴포넌트(1922)에 의해 수행될 수 있는 명령어를 저장하기 위한 것이다. 메모리(1932)에 저장된 애플리케이션 프로그램은 하나 또는 하나 이상의 각각 명령어 세트에 대응되는 모듈을 포함할 수 있다. 또한, 처리 컴포넌트(1922)는 명령어를 수행하여, 상기 데이터 처리 방법을 수행하도록 구성된다.
전자 기기(1900)는 전자 기기(1900)의 전원 관리를 수행하도록 구성된 하나의 전원 컴포넌트(1926), 전자 기기(1900)를 네트워크에 연결하도록 구성된 유선 또는 무선 네트워크 인터페이스(1950) 및 하나의 입력 출력(I/O) 인터페이스(1958)를 더 포함할 수 있다. 전자 기기(1900)는 메모리(1932)에 저장된 운영체제, 예를 들어, Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 것에 기반하여 동작될 수 있다.
예시적 실시예에 있어서, 예를 들어 컴퓨터 프로그램 명령어를 포함하는 메모리(1932)와 같은 비휘발성 컴퓨터 판독 가능 저장 매체를 더 제공하며, 상기 컴퓨터 프로그램 명령어는 전자 기기(1900)의 처리 컴포넌트(1922)에 의해 수행됨으로써 상기 데이터 처리 방법을 완료하도록 한다.
본 발명은 시스템, 방법 및/또는 컴퓨터 프로그램 제품일 수 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독 가능 저장 매체를 포함할 수 있고, 컴퓨터 판독 가능 저장 매체에는 프로세서로 하여금 본 발명의 각 측면을 구현하도록 하기 위한 컴퓨터 판독 가능 프로그램 명령어가 탑재되어 있다.
컴퓨터 판독 가능 저장 매체는 명령어 실행 기기에 의해 사용되는 명령어를 유지 및 저장할 수 있는 유형 기기일 수 있다. 컴퓨터 판독 가능 저장 매체는 예를 들어 전기 저장 기기, 자기 저장 기기, 광 저장 기기, 전자기 저장 기기, 반도체 저장 기기 또는 이들의 임의의 적합한 조합일 수 있지만 이에 한정되지 않는다. 컴퓨터 판독 가능 저장 매체의 더욱 구체적인 예(비전면한 리스트)는, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 정적 랜덤 액세스 메모리(SRAM), 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM), 디지털 비디오 디스크(DVD), 메모리 스틱, 플로피 디스크, 명령어가 저장된 펀치 카드 또는 홈내에 철기된 구조와 같은 기계적으로 인코딩된 기기 및 이들의 임의의 적합한 조합을 포함한다. 여기서 사용되는 컴퓨터 판독 가능 저장 매체는 무선 전자파 또는 다른 자유롭게 전파되는 전자기파, 도파관 또는 다른 전송 매체를 통해 전파되는 전자기파(예를 들어, 광섬유 케이블을 통과하는 펄스), 또는 와이어를 통해 전송되는 전기 신호와 같은 순간적인 신호 자체로 해석되지 않는다.
여기서 설명한 컴퓨터 판독 가능 프로그램 명령어는 컴퓨터 판독 가능 저장 매체로부터 각 컴퓨팅/처리 기기로 다운로드될 수 있거나, 또는 인터넷, 근거리 통신망, 광역 통신망 및/또는 무선 네트워크와 같은 네트워크를 통해, 외부 컴퓨터 또는 외부 저장 기기로 다운로드될 수 있다. 네트워크는 동 전송 케이블, 광섬유 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및/또는 에지 서버를 포함할 수 있다. 각 컴퓨팅/처리 기기의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크로부터 컴퓨터 판독 가능 프로그램 명령어를 수신하고, 각 컴퓨팅/처리 기기에서의 컴퓨터 판독 가능 저장 매체에 저장하기 위해, 컴퓨터 판독 가능 프로그램 명령어를 전달한다.
본 발명의 동작을 실행하기 위한 컴퓨터 프로그램 명령어는 어셈블리 명령어, 명령어 세트 아키텍처(ISA) 명령어, 머신 명령어, 머신 관련 명령어, 마이크로 코드, 펌웨어 명령어, 상태 설정 데이터, 또는 하나 또는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 목적 코드일 수 있고, 상기 프로그래밍 언어에는 Smalltalk, C++ 등과 같은 객체 지향 프로그래밍 언어 및 “C” 언어 또는 유사한 프로그래밍 언어와 같은 기존 프로그래밍 언어가 포함된다. 컴퓨터 판독 가능 프로그램 명령어는 사용자 컴퓨터에서 완전히 실행되거나, 사용자 컴퓨터에서 부분적으로 실행되거나, 독립적인 소프트웨어 패키지로서 실행되거나, 사용자 컴퓨터에서 일부가 실행되고 원격 컴퓨터에서 일부가 실행되거나, 원격 컴퓨터 또는 서버에서 완전히 실행될 수 있다. 원격 컴퓨터와 관련된 상황에서 원격 컴퓨터는 근거리 통신망(LAN) 또는 광대역 통신망(WAN)을 포함하는 모든 타입의 네트워크를 통해 사용자 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어 인터넷 서비스 제공 업체를 사용하여 인터넷을 통해 연결). 일부 실시예에 있어서, 프로그램 가능 논리 회로, 필드 프로그래머블 게이트 어레이(FPGA) 또는 프로그램 가능 논리 어레이 (PLA)와 같은 전자 회로는 컴퓨터 판독 가능 프로그램 명령어의 상태 인원 정보를 이용하여 개인화될 수 있고, 상기 전자 회로는 컴퓨터 판독 가능 프로그램 명령어를 수행할 수 있음으로써, 본 발명의 다양한 측면을 구현한다.
여기서 본 발명의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하여 본 발명의 다양한 측면을 설명하였다. 흐름도 및/또는 블록도의 각 블록 및 흐름도 및/또는 블록도의 각 블록들의 조합은, 컴퓨터 판독 가능 프로그램 명령어에 의해 모두 구현될 수 있음을 이해해야 한다.
이러한 컴퓨터 판독 가능 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터 또는 다른 프로그램 가능 데이터 처리 장치의 프로세서에 제공될 수 있음으로써, 이러한 명령어가 컴퓨터 또는 다른 프로그램 가능 데이터 처리 장치의 프로세서에 의해 실행되도록 하는 기계가 생성되고, 흐름도 및/또는 블록도에서의 하나 또는 복수 개의 블록에 규정된 기능/동작을 구현하는 장치가 생성된다. 이러한 컴퓨터 판독 가능 프로그램 명령어를 컴퓨터 판독 가능 저장 매체에 저장할 수도 있으며, 이러한 명령어는 컴퓨터, 프로그램 가능 데이터 처리 장치 및/또는 다른 기기가 특정한 방법으로 작동될 수 있도록 함으로써, 명령어가 저장되어 있는 컴퓨터 판독 가능 매체는 제조품을 포함하며, 상기 제조품은 흐름도 및/또는 블록도에서의 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현하는 명령어를 포함한다.
컴퓨터 판독 가능 프로그램 명령어는 컴퓨터, 다른 프로그램 가능 데이터 처리 장치 또는 다른 기기에 로딩될 수도 있어, 컴퓨터로 구현되는 과정을 생성하기 위해, 일련의 동작 단계가 컴퓨터, 다른 프로그램 가능 데이터 처리 장치 또는 다른 기기에서 실행되도록 함으로써, 컴퓨터, 다른 프로그램 가능 데이터 처리 장치 또는 다른 기기에서 실행되는 명령어는 흐름도 및/또는 블록도에서의 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현한다.
도면의 흐름도 및 블록도는 본 발명의 복수 개 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계 아키텍처, 기능 및 동작을 도시한다. 이와 관련하여, 흐름도 또는 블록도에서의 각 블록은 모듈, 프로그램 세그먼트 또는 명령어의 일부를 나타낼 수 있고, 상기 모듈, 프로그램 세그먼트 또는 명령어의 일부는 하나 또는 복수 개의 지정된 논리적 기능을 구현하기 위한 실행 가능한 명령어를 포함한다. 일부 대안적인 구현에서, 블록에 표시된 기능은 도면에 표시된 것과 부동한 순서로 발생될 수도 있다. 예를 들어, 연속적으로 도시된 두 개의 블록은 실제로 동시에 실행될 수 있으며, 때로는 관련 기능에 따라 역순으로 실행될 수도 있으며, 이는 관련된 기능에 의해 결정된다. 또한 유의해야 할 것은, 블록도 및/또는 흐름도에서의 각 블록 및 블록도 및/또는 흐름도에서의 블록의 조합은, 지정된 기능 또는 동작을 실행하는 전용 하드웨어 기반의 시스템에 의해 구현될 수 있거나, 전용 하드웨어와 컴퓨터 명령어의 조합으로 구현될 수 있다.
이상 본 발명의 각 실시예를 설명하였고, 상기 설명은 예시적이고, 철저하지 않으며, 개시된 각 실시예에 한정되지도 않는다. 설명된 각 실시예의 범위 및 사상을 벗어나지 않는 경우, 많은 수정 및 변경은 본 기술분야의 통상적인 기술자에게는 자명한 것이다. 본문에서 사용된 용어의 선택은 각 실시예의 원리, 실제 응용 또는 시장에서의 기술에 대한 개선을 가장 잘 해석하거나, 또는 본 기술분야의 다른 통상적인 기술자가 본문에서 개시된 각 실시예를 이해할 수 있는것을 목적으로 한다.

Claims (16)

  1. 데이터 처리 방법으로서,
    타깃 대상의 멀티미디어 데이터를 획득하는 단계;
    상기 멀티미디어 데이터에 따라, 상기 타깃 대상에 대해 적어도 하나의 검출 차원에서 행위 상태 검출을 수행하여, 상기 타깃 대상이 상기 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻는 단계; 및
    상기 적어도 하나의 검출 차원에서의 중간 검출 결과에 대해 처리하여, 상기 타깃 대상의 타깃 검출 결과를 얻는 단계 - 상기 타깃 검출 결과는 상기 타깃 대상의 행위 상태를 나타내기 위한 것임 - 를 포함하는 것을 특징으로 하는 데이터 처리 방법.
  2. 제1항에 있어서,
    상기 멀티미디어 데이터에는 비디오 데이터가 포함되고;
    상기 멀티미디어 데이터에 따라, 상기 타깃 대상에 대해 적어도 하나의 검출 차원에서 행위 상태 검출을 수행하여, 상기 타깃 대상이 상기 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻는 단계는,
    상기 비디오 데이터에서의 타깃 대상을 결정하는 단계; 및 상기 타깃 대상에 대해 제스처, 정서 및 눈빛 교류 중 적어도 하나의 검출 차원에서의 행위 상태 검출을 수행하여, 상기 타깃 대상이 상기 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻는 단계를 포함하는 것을 특징으로 하는 데이터 처리 방법.
  3. 제2항에 있어서,
    상기 적어도 하나의 검출 차원에는 제스처 검출 차원이 포함되고;
    상기 비디오 데이터에 따라, 상기 타깃 대상이 제스처 검출 주기 내에서 적어도 하나의 타깃 제스처를 실행하는 횟수를 획득하여, 상기 제스처 검출 주기의 제스처 검출 결과를 얻는 단계 - 상기 타깃 제스처에는 손을 받치기, 손들기 및 엄지손가락 들기에서의 하나 또는 복수 개가 포함됨 -; 및 적어도 하나의 상기 제스처 검출 주기의 상기 제스처 검출 결과에 따라, 상기 타깃 대상이 제스처 검출 차원에서의 중간 검출 결과를 얻는 단계; 를 통해 상기 타깃 대상이 상기 제스처 검출 차원에서의 중간 검출 결과를 얻는 것을 특징으로 하는 데이터 처리 방법.
  4. 제3항에 있어서,
    상기 비디오 데이터에 따라, 상기 타깃 대상이 제스처 검출 주기 내에서 적어도 하나의 타깃 제스처를 실행하는 횟수를 획득하는 단계는,
    상기 비디오 데이터가 상기 제스처 검출 주기 내에서의 적어도 하나의 제스처 검출 프레임 시퀀스를 획득하는 단계;
    상기 제스처 검출 프레임 시퀀스에 있어서, 상기 타깃 제스처가 포함된 프레임의 수량이 제1 임계값을 초과한 경우, 상기 제스처 검출 프레임 시퀀스에서의 적어도 하나의 프레임을 제스처 시작 프레임으로 기록하는 단계;
    상기 제스처 시작 프레임 뒤에 위치한 제스처 검출 프레임 시퀀스에 있어서, 상기 타깃 제스처가 포함되지 않은 프레임의 수량이 제2 임계값을 초과한 경우, 상기 제스처 시작 프레임 뒤에 위치한 제스처 검출 프레임 시퀀스에서의 적어도 하나의 프레임을 제스처 종료 프레임으로 기록하는 단계; 및
    상기 제스처 시작 프레임 및 제스처 종료 프레임의 수량에 따라, 상기 타깃 대상이 제스처 검출 주기 내에서 적어도 하나의 타깃 제스처를 실행하는 횟수를 얻는 단계를 포함하는 것을 특징으로 하는 데이터 처리 방법.
  5. 제2항 내지 제4항 중 어느 한 항에 있어서,
    상기 적어도 하나의 검출 차원에는 정서 검출 차원이 포함되고;
    상기 비디오 데이터에 따라, 상기 타깃 대상이 정서 검출 주기 내에서의 표정 검출 결과 및 미소 검출 결과 중 적어도 하나를 획득하는 단계 - 상기 표정 검출 결과에는 상기 타깃 대상의 표정에 기반하여 결정된 정서 결과가 포함되며, 상기 미소 검출 결과에는 상기 타깃 대상의 미소 정도가 포함됨 - ; 및 적어도 하나의 상기 정서 검출 주기 중 상기 타깃 대상의 표정 검출 결과 및 미소 검출 결과 중 적어도 하나에 따라, 상기 타깃 대상이 정서 검출 차원에서의 중간 검출 결과를 얻는 단계; 를 통해 타깃 대상이 상기 정서 검출 차원에서의 중간 검출 결과를 얻는 것을 특징으로 하는 데이터 처리 방법.
  6. 제5항에 있어서,
    상기 비디오 데이터에 따라, 상기 타깃 대상이 정서 검출 주기 내에서의 표정 검출 결과를 획득하는 단계는,
    상기 정서 검출 주기 내에서, 상기 타깃 대상에 대해 표정 검출을 수행하여, 상기 타깃 대상이 적어도 하나의 타깃 표정을 전시하는 횟수를 결정하고, 상기 표정 검출 결과를 얻는 단계 - 타깃 표정에는 기쁨, 평온 및 다른 것 중의 하나 또는 복수 개가 포함됨 - 를 포함하는 것을 특징으로 하는 데이터 처리 방법.
  7. 제5항 또는 제6항에 있어서,
    상기 비디오 데이터에 따라, 상기 타깃 대상이 정서 검출 주기 내에서의 미소 검출 결과를 획득하는 단계는,
    상기 정서 검출 주기 내에서, 상기 비디오 데이터의 적어도 하나의 프레임에 따라, 상기 타깃 대상에 대해 미소 검출을 수행하여, 적어도 하나의 프레임과 대응되는 미소 검출 결과를 얻는 단계; 및 상기 적어도 하나의 프레임과 대응되는 미소 검출 결과에 따라, 상기 타깃 대상이 상기 정서 검출 주기 내에서의 미소 검출 결과를 결정하는 단계를 포함하는 것을 특징으로 하는 데이터 처리 방법.
  8. 제3항 내지 제7항 중 어느 한 항에 있어서,
    상기 적어도 하나의 검출 차원에는 눈빛 교류 검출 차원이 포함되고;
    상기 비디오 데이터에 따라, 상기 타깃 대상에 대해 얼굴 각도 검출을 수행하고, 상기 타깃 대상의 얼굴 각도가 얼굴 각도 임계값 내에 있는 시간을 결정하여, 얼굴 각도 검출 결과로 사용하는 단계;
    상기 비디오 데이터에 따라, 상기 타깃 대상에 대해 눈 감기 검출을 수행하고, 상기 타깃 대상이 눈 감기 동작을 실행한 시간을 결정하여, 눈 감기 검출 결과로 사용하는 단계;
    상기 얼굴 각도 검출 결과와 상기 눈 감기 검출 결과에 따라, 상기 타깃 대상의 얼굴 각도가 얼굴 각도 임계값 내에 있고 눈 감기 동작을 실행하지 않은 시간 길이를 결정하는 단계; 및
    상기 시간 길이에 따라, 상기 타깃 대상이 상기 눈빛 교류 검출 차원에서의 중간 검출 결과를 얻는 단계; 를 통해 상기 타깃 대상이 상기 눈빛 교류 검출 차원에서의 중간 검출 결과를 얻는 것을 특징으로 하는 데이터 처리 방법.
  9. 제2항 내지 제8항 중 어느 한 항에 있어서,
    상기 멀티미디어 데이터에는 오디오 데이터가 포함되고;
    상기 멀티미디어 데이터에 따라, 상기 타깃 대상에 대해 적어도 하나의 검출 차원에서 행위 상태 검출을 수행하여, 상기 타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻는 단계는,
    상기 오디오 데이터에 대해 문구에 따라 분할하여, 적어도 하나의 오디오 서브 데이터를 얻는 단계; 및 상기 적어도 하나의 오디오 서브 데이터에 대해, 유창도, 말하는 속도, 정지 및 볼륨 중 적어도 하나의 검출 차원에서의 행위 상태 검출을 수행하여, 상기 타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻는 단계를 포함하는 것을 특징으로 하는 데이터 처리 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 적어도 하나의 검출 차원에서의 중간 검출 결과에 대해 처리하여, 상기 타깃 대상의 타깃 검출 결과를 얻는 단계는,
    상기 검출 차원의 기설정 가중치에 따라, 적어도 하나의 검출 차원의 상기 중간 검출 결과에 대해 합병하여, 상기 타깃 대상의 타깃 검출 결과를 얻는 단계를 포함하는 것을 특징으로 하는 데이터 처리 방법.
  11. 제9항에 있어서,
    상기 적어도 하나의 검출 차원에서의 중간 검출 결과에 대해 처리하여, 상기 타깃 대상의 타깃 검출 결과를 얻는 단계는,
    상기 오디오 서브 데이터가 상기 오디오 데이터 중에 있는 시간에 따라, 상기 멀티미디어 데이터에 포함된 비디오 데이터에서 상기 오디오 서브 데이터와 대응되는 비디오 서브 데이터를 결정하는 단계;
    기설정 가중치에 따라, 상기 오디오 서브 데이터가 적어도 하나의 검출 차원에서의 중간 검출 결과와 대응되는 상기 비디오 서브 데이터가 적어도 하나의 검출 차원에서의 중간 검출 결과에 대해 합병하여, 적어도 하나의 상기 오디오 서브 데이터 또는 상기 비디오 서브 데이터의 타깃 검출 결과를 얻는 단계; 및
    적어도 하나의 상기 오디오 서브 데이터 또는 상기 비디오 서브 데이터의 타깃 검출 결과에 대해 합병하여, 상기 타깃 대상의 타깃 검출 결과를 얻는 단계를 포함하는 것을 특징으로 하는 데이터 처리 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 멀티미디어 데이터는 상기 타깃 대상이 기설정된 텍스트 데이터에 따라 수업 동작을 수행하는 것을 통해 획득하고, 상기 기설정된 텍스트 데이터에는 적어도 하나의 명령어 태그가 포함되며, 상기 명령어 태그는 상기 기설정된 텍스트 데이터의 적어도 부분 내용에 대해 구분 및 표시 중 적어도 하나를 수행하기 위한 것을 특징으로 하는 데이터 처리 방법.
  13. 데이터 처리 장치로서,
    타깃 대상의 멀티미디어 데이터를 획득하기 위한 획득 모듈;
    상기 멀티미디어 데이터에 따라, 상기 타깃 대상에 대해 적어도 하나의 검출 차원에서 행위 상태 검출을 수행하여, 상기 타깃 대상이 적어도 하나의 검출 차원에서의 중간 검출 결과를 얻기 위한 검출 모듈; 및
    상기 적어도 하나의 검출 차원에서의 중간 검출 결과에 대해 처리하여, 상기 타깃 대상의 타깃 검출 결과를 얻기 위한 처리 모듈 - 상기 타깃 검출 결과는 상기 타깃 대상의 행위 상태를 나타내기 위한 것임 - 을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  14. 전자 기기로서,
    프로세서; 및
    프로세서가 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고;
    상기 프로세서는 상기 메모리에 저장된 명령어를 호출하여, 제1항 내지 제12항 중 어느 한 항에 따른 데이터 처리 방법을 실행하도록 구성된 것을 특징으로 하는 전자 기기.
  15. 컴퓨터 프로그램 명령어가 저장되어 있는 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 프로그램 명령어가 프로세서에 의해 실행될 경우 제1항 내지 제12항 중 어느 한 항에 따른 데이터 처리 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
  16. 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램으로서,
    상기 컴퓨터 판독 가능 코드가 전자 기기에서 작동될 경우, 상기 전자 기기에서의 프로세서는 제1항 내지 제12항 중 어느 한 항에 따른 데이터 처리 방법을 구현하기 위한 명령어를 실행하는 것을 특징으로 하는 컴퓨터 프로그램.
KR1020217024179A 2020-04-26 2020-12-18 데이터 처리 방법 및 장치, 전자 기기 및 저장 매체 KR20210134614A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010339381.1 2020-04-26
CN202010339381.1A CN111539339A (zh) 2020-04-26 2020-04-26 数据处理方法及装置、电子设备和存储介质
PCT/CN2020/137678 WO2021218194A1 (zh) 2020-04-26 2020-12-18 数据处理方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
KR20210134614A true KR20210134614A (ko) 2021-11-10

Family

ID=71967577

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217024179A KR20210134614A (ko) 2020-04-26 2020-12-18 데이터 처리 방법 및 장치, 전자 기기 및 저장 매체

Country Status (6)

Country Link
JP (1) JP2022534345A (ko)
KR (1) KR20210134614A (ko)
CN (1) CN111539339A (ko)
SG (1) SG11202109528SA (ko)
TW (1) TW202141240A (ko)
WO (1) WO2021218194A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539339A (zh) * 2020-04-26 2020-08-14 北京市商汤科技开发有限公司 数据处理方法及装置、电子设备和存储介质
CN112883782B (zh) * 2021-01-12 2023-03-24 上海肯汀通讯科技有限公司 投放行为识别方法、装置、设备及存储介质
CN115953715B (zh) * 2022-12-22 2024-04-19 北京字跳网络技术有限公司 一种视频检测方法、装置、设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7512537B2 (en) * 2005-03-22 2009-03-31 Microsoft Corporation NLP tool to dynamically create movies/animated scenes
CN102523502A (zh) * 2011-12-15 2012-06-27 四川长虹电器股份有限公司 智能电视交互***及交互方法
KR101731461B1 (ko) * 2015-12-09 2017-05-11 고려대학교 산학협력단 객체에 대한 행동 탐지 장치 및 이를 이용한 행동 탐지 방법
US20180218308A1 (en) * 2017-01-31 2018-08-02 International Business Machines Corporation Modeling employee productivity based on speech and ambient noise monitoring
CN109766770A (zh) * 2018-12-18 2019-05-17 深圳壹账通智能科技有限公司 服务质量评价方法、装置、计算机设备和存储介质
CN110378228A (zh) * 2019-06-17 2019-10-25 深圳壹账通智能科技有限公司 面审视频数据处理方法、装置、计算机设备和存储介质
CN110443487A (zh) * 2019-07-31 2019-11-12 浙江工商职业技术学院 一种教学评价方法及设备
CN110598632B (zh) * 2019-09-12 2022-09-09 深圳市商汤科技有限公司 目标对象的监测方法及装置、电子设备和存储介质
CN110968239B (zh) * 2019-11-28 2022-04-05 北京市商汤科技开发有限公司 一种展示对象的控制方法、装置、设备及存储介质
CN111046819B (zh) * 2019-12-18 2023-09-05 浙江大华技术股份有限公司 一种行为识别处理方法及装置
CN111539339A (zh) * 2020-04-26 2020-08-14 北京市商汤科技开发有限公司 数据处理方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2021218194A1 (zh) 2021-11-04
TW202141240A (zh) 2021-11-01
CN111539339A (zh) 2020-08-14
JP2022534345A (ja) 2022-07-29
SG11202109528SA (en) 2021-12-30

Similar Documents

Publication Publication Date Title
WO2021232775A1 (zh) 视频处理方法及装置、电子设备和存储介质
US10733897B2 (en) Conditional provisioning of auxiliary information with a media presentation
US10614298B2 (en) Generating auxiliary information for a media presentation
KR20210134614A (ko) 데이터 처리 방법 및 장치, 전자 기기 및 저장 매체
Kuhn et al. gPhysics—Using smart glasses for head-centered, context-aware learning in physics experiments
CN108875785B (zh) 基于行为特征对比的关注度检测方法以及装置
CN112287844A (zh) 学情分析方法及装置、电子设备和存储介质
CN109191940B (zh) 一种基于智能设备的交互方法及智能设备
US20230222932A1 (en) Methods, systems, and media for context-aware estimation of student attention in online learning
CN111027486A (zh) 一种中小学课堂教学效果大数据辅助分析评价***及其方法
CN109191939B (zh) 一种基于智能设备的三维投影交互方法及智能设备
Merkt et al. Pushing the button: Why do learners pause online videos?
EP3828868A2 (en) Method and apparatus for determining key learning content, device, storage medium, and computer program product
JP7058016B2 (ja) 子供教育システムにおける計算によって導き出される評価
US10915819B2 (en) Automatic real-time identification and presentation of analogies to clarify a concept
CN113591678B (zh) 课堂注意力确定方法、装置、设备、存储介质及程序产品
Duraisamy et al. Classroom engagement evaluation using computer vision techniques
WO2023079370A1 (en) System and method for enhancing quality of a teaching-learning experience
Shahin et al. Deaf and hard of hearing in the United Arab Emirates interacting with Alexa, an intelligent personal assistant
Ahmad et al. Towards a Low‐Cost Teacher Orchestration Using Ubiquitous Computing Devices for Detecting Student’s Engagement
CN111144255B (zh) 一种教师的非语言行为的分析方法及装置
Hossen et al. Attention monitoring of students during online classes using XGBoost classifier
CN115052194B (zh) 学习报告生成方法、装置、电子设备及存储介质
Yako et al. Improving Graphical User Interfaces for Visual, Physical and Hearing Disabilities
CN115171000A (zh) 一种在线健身授课方法、装置、电子设备及存储介质