KR20210144658A

KR20210144658A - 비디오 처리 방법 및 장치, 전자 기기 및 저장 매체

Info

Publication number: KR20210144658A
Application number: KR1020217021262A
Authority: KR
Inventors: 허란 선; 레이 왕; 뎅펭 바이; 지안밍 시아; 준 카오
Original assignee: 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date: 2020-05-22
Filing date: 2020-12-18
Publication date: 2021-11-30
Also published as: CN111553323A; TW202145131A; WO2021232775A1; JP2022537475A

Abstract

본 발명은 비디오 처리 방법 및 장치, 전자 기기 및 저장 매체에 관한 것이다. 상기 비디오 처리 방법은, 비디오를 획득하는 단계 - 상기 비디오 내의 적어도 일부 비디오 프레임은 타깃 객체를 포함함 - ; 상기 비디오에 따라, 교육 과목을 수강하는 과정에서 상기 타깃 객체의 적어도 하나의 유형의 학습 행동을 검출하는 단계; 및 적어도 하나의 유형의 학습 행동이 상기 타깃 객체에 의해 실행되는 것을 검출하는 경우, 상기 적어도 하나의 유형의 학습 행동을 포함하는 적어도 일부 비디오 프레임 및 상기 적어도 하나의 유형의 학습 행동이 상기 타깃 객체에 의해 실행되는 지속 시간 중 적어도 하나에 따라, 학습 상태 정보를 생성하는 단계를 포함한다.

Description

비디오 처리 방법 및 장치, 전자 기기 및 저장 매체

관련 출원의 상호 참조

본 발명은 2020년 5월 22일에 중국 특허청에 제출한, 출원 번호가 202010442733.6이고, 발명의 명칭이 “비디오 처리 방법 및 장치, 전자 기기 및 저장 매체”인 중국 특허 출원의 우선권을 주장하는 바, 그 전부 내용은 인용을 통해 본 발명에 결합된다.

본 발명은 컴퓨터 시각 분야에 관한 것으로, 특히 비디오 처리 방법 및 장치, 전자 기기 및 저장 매체에 관한 것이다.

교육 과목에서 교사가 강의에 집중해야 하기 때문에 기관이나 교사는 학생의 수강 상태를 파악하기 어렵고, 부모도 자녀의 학교 상황을 제대로 알 수 없다. 학생들이 열심히 수업을 하는지, 열심히 수업을 듣고 있는지, 수업 시간에 인터랙티브 표현이 어떠한지를 평가할 수 없다.

따라서 어떻게 하면 교육의 질을 확보하면서 학생 개개인의 교육 과목에서의 학습 상태를 파악할 수 있을 것인가는 현재 가장 시급한 문제로 대두되고 있다.

본 발명은 비디오 처리의 방안을 제공한다.

본 발명의 일 측면에 따르면, 비디오 처리 방법을 제공하며,

비디오를 획득하는 단계 - 상기 비디오 내의 적어도 일부 비디오 프레임은 타깃 객체를 포함함 - ; 상기 비디오에 따라, 교육 과목을 수강하는 과정에서 상기 타깃 객체의 적어도 하나의 유형의 학습 행동을 검출하는 단계; 적어도 하나의 유형의 학습 행동이 상기 타깃 객체에 의해 실행되는 것을 검출하는 경우, 상기 적어도 하나의 유형의 학습 행동을 포함하는 적어도 일부 비디오 프레임 및 상기 적어도 하나의 유형의 학습 행동이 상기 타깃 객체에 의해 실행되는 지속 시간 중 적어도 하나에 따라, 학습 상태 정보를 생성하는 단계를 포함한다.

본 발명의 일 측면에 따르면, 비디오 처리 장치를 제공하며,

비디오를 획득하기 위한 비디오 획득 모듈 - 상기 비디오 내의 적어도 일부 비디오 프레임은 타깃 객체를 포함함 - ;

상기 비디오에 따라, 교육 과목을 수강하는 과정에서 상기 타깃 객체의 적어도 하나의 유형의 학습 행동을 검출하기 위한 검출 모듈;

적어도 하나의 유형의 학습 행동이 상기 타깃 객체에 의해 실행되는 것을 검출하는 경우, 상기 적어도 하나의 유형의 학습 행동을 포함하는 적어도 일부 비디오 프레임 및 상기 적어도 하나의 유형의 학습 행동이 상기 타깃 객체에 의해 실행되는 지속 시간 중 적어도 하나에 따라, 학습 상태 정보를 생성하기 위한 생성 모듈을 포함한다.

본 발명의 일 측면에 따르면, 전자 기기를 제공하며,

프로세서; 및 프로세서에서 실행 가능한 명령어를 저장하기 위한 메모리를 포함하며; 여기서, 상기 프로세서는 전술한 비디오 처리 방법을 실행하도록 구성된다.

본 발명의 일 측면에 따르면, 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어가 프로세서에 의해 실행될 때 전술한 비디오 처리 방법을 구현한다.

본 발명의 일 측면에 따르면, 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 판독 가능한 코드가 전자 기기에서 작동될 때, 상기 전자 기기의 프로세서는 상기 비디오 처리 방법을 실행한다.

본 발명의 실시예에서, 타깃 객체에서 적어도 하나의 유형의 학습 행동이 검출되면, 학습 행동을 포함하는 비디오 프레임을 사용하여 직관적인 학습 상태 정보를 생성하고, 학습 행동의 지속 시간에 따라 정량화된 학습 상태 정보를 생성할 수 있으며, 상기 방식을 채택하여 평가 가치가 있는 학습 상태 정보를 유연하게 획득할 수 있으므로, 교사나 학부모 등 관련 인원과 기관이 학생의 학습 현황을 효과적이고 정확하게 파악하도록 한다.

이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 다만 예시적이고 해석적인 것이며, 본 발명을 한정하려는 것은 아니다. 다음의 도면에 따라 예시적인 실시예를 상세하게 설명하며, 본 발명의 다른 특징 및 측면은 명백해진다.

아래의 도면은 본 명세서의 일부분으로서 명세서 전체를 구성하며, 이러한 도면은 본 발명에 맞는 실시예를 예시하여, 명세서와 함께 본 발명의 기술방안을 설명하는데 사용된다.
도 1은 본 발명의 실시예에 따른 비디오 처리 방법의 흐름도를 도시한다.
도 2는 본 발명의 실시예에 따른 비디오 처리 장치의 블록도이다.
도 3은 본 발명의 일 응용예에 따른 모식도이다.
도 4는 본 발명의 실시예에 따른 전자 기기의 블록도이다.
도 5는 본 발명의 실시예에 따른 전자 기기의 블록도이다.

이하, 도면을 참조하여 본 발명의 다양한 예시적인 실시예, 특징 및 측면을 상세하게 설명한다. 도면에서 동일한 도면 부호는 동일하거나 유사한 기능을 갖는 요소를 나타낸다. 실시예의 다양한 측면이 도면에 도시되어 있지만, 특별히 언급되지 않는 한, 도면을 비율에 따라 그릴 필요는 없다.

본문에서 용어 “예시적”은 “예, 실시예 또는 설명으로 사용되는” 것을 의미한다. 여기서, "예시적"으로 설명된 임의의 실시예는 다른 실시예보다 우수하거나 좋은 것으로 해석될 필요는 없다.

본문에서의 용어 “및/또는”은 다만 연관 객체의 연관 관계를 설명하기 위한 것으로, 세 가지 관계가 존재할 수 있음을 의미하는데, 예를 들어, “A 및/또는 B”는, A가 단독적으로 존재하거나, A와 B가 동시에 존재하거나, B가 단독적으로 존재하는 세 가지 경우를 의미한다. 또한, 본 명세서에서 "적어도 하나"라는 용어는 복수 개 중 어느 하나 또는 복수 개 중 적어도 2 개의 임의의 조합을 나타내며, 예를 들어, A, B 및 C 중 적어도 하나는 A, B 및 C에 의해 형성된 세트에서 선택된 임의의 하나 또는 복수 개의 요소를 나타낼 수 있다.

또한, 본 발명을 보다 잘 설명하기 위해, 아래의 구체적인 실시형태에서 많은 세부사항들이 제공된다. 본 분야의 기술자는 일부 구체적인 세부 사항이 없이도, 본 발명이 마찬가지로 실시될 수 있음을 이해해야 한다. 일부 예에서,당업자에게 잘 알려진 방법, 수단, 요소 및 회로는 본 발명의 요지를 강조하기 위해 상세하게 설명되지 않았다.

도 1은 본 발명의 일 실시예에 따른 비디오 처리 방법의 흐름도이며, 상기 방법은 비디오 처리 장치에 적용될 수 있고, 비디오 처리 장치는 단말 기기, 서버 또는 다른 처리 기기 등일 수 있다. 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말, 단말, 셀룰러폰, 무선 전화기, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 핸드 헬드 기기, 컴퓨팅 기기, 차량용 기기 또는 웨어러블 기기 등일 수 있다. 일례로, 데이터 처리 방법은 클라우드 서버 또는 로컬 서버에 적용될 수 있으며, 클라우드 서버는 퍼블릭 클라우드 서버 또는 프라이빗 클라우드 서버일 수 있으며, 실제 상황에 따라 유연하게 선택할 수 있다.

일부 가능한 구현방식에서, 상기 비디오 처리 방법은 프로세서에 의해 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출함으로써 구현될 수도 있다.

도 2에 도시된 바와 같이, 한 가지 가능한 구현 방식에 있어서, 상기 비디오 처리 방법은 아래와 같은 단계를 더 포함할 수 있다.

단계 S11에 있어서, 비디오를 획득하며, 여기서, 비디오 내의 적어도 일부 비디오 프레임은 타깃 객체를 포함한다.

단계 S12에 있어서, 비디오에 따라, 교육 과목을 수강하는 과정에서 상기 타깃 객체의 적어도 하나의 유형의 학습 행동을 검출한다.

단계 S13에 있어서, 적어도 하나의 유형의 학습 행동이 타깃 객체에 의해 실행되는 것을 검출하는 경우, 적어도 하나의 유형의 학습 행동을 포함하는 적어도 일부 비디오 프레임 및 적어도 하나의 유형의 학습 행동이 타깃 객체에 의해 실행되는 지속 시간 중 적어도 하나에 따라, 학습 상태 정보를 생성한다.

여기서, 타깃 객체는 학습 상태 정보를 획득한 객체, 즉 학습 상태 평가 요구 사항이 있는 객체가 될 수 있으며, 구체적인 구현 형태는 실제 상황에 따라 유연하게 결정될 수 있다. 가능한 구현 방식에 있어서, 타깃 객체는 초등학생, 중학생, 대학생 등 학생이 될 수 있으며, 구현 가능한 방식에서, 타깃은 직업 교육 훈련에 참여하는 성인과 같은 연수 중인 성인이 될 수 있으며, 또는 노인 대학에서 공부하는 노인들이 될 수 있다.

본 발명의 실시예에서, 비디오은 타깃 객체가 교육 과목을 수강하는 과정에서 녹화한 비디오일 수 있으며, 여기서, 교육 과목의 구현 형태는 제한되지 않으며, 사전 녹화된 강의 비디오가 될 수 있거나, 라이브 강의 또는 교사가 현장에서 가르치는 강의 등이 될 수도 있으며; 비디오 중의 적어도 일부 비디오 프레임은 타깃 객체를 포함할 수 있고, 즉 녹화된 비디오에서 타깃 객체의 출현 상황은 실제 상황에 따라 유연하게 결정될 수 있다. 가능한 구현 방식에 있어서, 타깃 객체는 항상 비디오에 있을 수 있으며, 가능한 구현 방식에 있어서, 타깃 객체는 특정 순간이나 특정 기간에 비디오 프레임에 나타나지 않을 수도 있다.

타깃 객체가 교육 과목을 수강하는 장면은 실제 상황에 따라 유연하게 결정할 수 있으며, 가능한 구현 방식에 있어서, 이 장면은 온라인 장면이 될 수 있으며, 즉 타깃 객체는 온라인 강의 등 온라인 교육 방식을 통해 교육 과목을 수강하며; 가능한 구현 방식에 있어서, 이 장면은 오프라인 장면이 될 수도 있으며, 즉, 타깃 객체는 기존의 대면 수업 방식을 통해 교사가 가르치는 교육 과목을 수강하거나, 타깃 객체는 교실 등 특정 교육 장소에서 비디오 또는 다른 미디어 형태를 통해 재생되는 교육 과목을 수강한다.

비디오의 구체적인 구현 형태는 비디오 처리 방법의 적용 시나리오에 따라 유연하게 결정될 수 있다. 가능한 구현 방식에 있어서, 비디오는 타깃 객체가 온라인 강의 학습 과정에서 실시간으로 녹화한 비디오, 또는 타깃 객체가 교실에서 수업하는 과정에서, 교실에 배치된 카메라로 캡처한 것과 같은 실시간 비디오가 될 수 있으며; 가능한 구현 방식에 있어서, 비디오는 타깃 객체가 온라인 수업을 통해 학습한 후, 녹화된 타깃 객체의 학습에 대한 재생 비디오나, 또는 타깃 객체가 교실에서 수업을 본 후, 교실에 배치된 카메라로 캡처한 완전한 수업 학습 비디오와 같은 녹화 비디오가 될 수도 있다.

설명의 편의를 위해, 후속적으로 개시된 실시예는 모두 타깃 객체의 온라인 수업 학습 과정 동안 실시간으로 녹화된 비디오를 예로 들어 비디오 처리 과정을 예시한다. 다른 적용 시나리오에서의 비디오 처리 과정은 후속적으로 개시된 실시예를 참조하여 유연하게 확장될 수 있으며, 여기서 더이상 반복하지 않는다.

단계 S11을 통해 상기 개시된 각 실시예에서 설명된 바와 같이 비디오를 획득한 후, 단계 S12를 통해, 타깃 객체가 교육 과목을 수강하는 과정에서 적어도 하나의 유형의 학습 행동을 검출한다. 여기서, 검출된 학습 행동의 유형 및 개수는 실제 상황에 따라 유연하게 결정될 수 있으며, 다음의 개시된 각 실시예에 한정되지 않는다. 가능한 구현 방식에 있어서, 타깃 객체에 의해 실행되는 학습 행동은, 적어도 하나의 타깃 제스처 실행, 타깃 감정 표현, 교육 과목의 디스플레이 영역 주시, 다른 객체와 적어도 하나의 인터랙티브 행동 생성, 비디오 중의 적어도 일부 비디오 프레임에 나타나지 않음, 눈 감기 및 교육 과목의 디스플레이 영역 내의 눈길 교류 중 적어도 하나의 유형을 포함할 수 있다.

여기서, 타깃 제스처는 교육 과목을 수강하는 동안 타깃 객체가 생성 할 수 있는 기설정된 특정 제스처를 반영할 수 있으며, 그 구체적인 구현 형태는 실제 상황에 따라 유연하게 설정될 수 있으며, 자세한 내용은 후속적으로 개시되는 실시예를 참조하며, 여기서 더이상 반복하지 않는다.

타깃 감정은 타깃 객체가 교육 과목을 수강하는 과정에서, 교육 과목에 대한 진실한 느낌을 반영하는 감정일 수 있으며, 구체적인 구현 형태도 마찬가지로 실제 상황에 따라 유연하게 설정할 수 있으며, 여기서 더이상 반복하지 않는다.

교육 과목의 디스플레이 영역에 초점을 맞추면, 타깃 객체가 교육 과목을 수강하는 과정 중 관심도를 반영할 수 있으며, 여기서, 디스플레이 영역의 구체적인 영역 범위는 실제 상황에 따라 유연하게 설정할 수 있으며, 다음의 개시된 실시예에 한정되지 않는다. 가능한 구현 방식에 있어서, 디스플레이 영역은 온라인 강의 중 교육 과목 비디오의 디스플레이 영역이 될 수 있으며, 예컨대, 학생들이 컴퓨터, 휴대폰 또는 태블릿 등 단말 기기를 통해 온라인으로 학습하는 과정에서, 디스플레이 영역은 이러한 단말 기기에서 교육 과목을 재생하는 스크린 등이 될 수 있으며; 가능한 구현 방식에 있어서, 디스플레이 영역은 교실에서 연단이나 칠판과 같은 오프라인 강의 중 교사의 수업 영역이 될 수 있다.

다른 객체와 적어도 하나의 인터랙티브 행동을 생성하는 것은, 타깃 객체가 교육 과목을 수강하는 과정에서, 교육 과목과 관련된 다른 객체가 생성한 학습 관련 상호 작용이 될 수 있으며, 여기서, 다른 객체의 구현 형태는 실제 상황에 따라 유연하게 결정될 수 있으며, 가능한 구현 방식에 있어서, 다른 객체는 교사 등과 같은 강의하는 객체일 수 있으며, 가능한 구현 방식에 있어서, 다른 객체는 타깃 객체의 학생과 같이, 교육 과정에서 타깃 객체를 제외한 학습 객체가 될 수도 있으며; 다른 객체와의 인터랙티브 행동은 객체에 따라 유연하게 변경될 수 있으며, 가능한 구현 방식에 있어서, 다른 객체가 교사인 경우, 다른 객체와의 인터랙티브에는 교사로부터 작은 빨간 꽃을 받거나 표창 등을 받는 것과 같은, 교사가 보낸 격려를 받는 것이 포함될 수 있으며, 가능한 구현 방식에 있어서, 다른 객체가 수강 교사인 경우, 다른 객체와의 인터랙티브에는 교사의 질문에 답하거나 교사가 지명하면 대답하기 등이 포함될 수 있으며, 가능한 구현 방식에 있어서, 다른 객체가 학생인 경우, 다른 객체와의 인터랙티브에는 그룹 상호 지원, 그룹 토론 또는 그룹 연구가 포함될 수 있다.

비디오 중의 적어도 일부 비디오 프레임에 학습 객체가 특정 순간 또는 특정 기간에 교육 과목을 떠나는 상황이 발생하는 상황이 나타나지 않을 수 있으며, 예컨대, 타깃 객체의 온라인 학습 과정에서, 개인적인 사유로 현재 온라인 학습 기기를 일시적으로 벗어나거나, 현재 온라인 학습 기기의 촬영 범위를 벗어날 수 있다.

눈 감기는 교육 과목을 수강하는 과정에서 타깃 객체에 의해 수행되는 눈 감기 동작이 될 수 있으며, 교육 과목 디스플레이 영역의 눈빛 교류는 교육 과목을 수강하는 디스플레이 영역이 될 수 있으며, 이에 따라, 비디오 내의 교육 과목의 디스플레이 영역에서 타깃 객체의 눈빛 교류에 따라 타깃 객체가 교육 과목의 디스플레이 영역을 보지 않았음을 더 판단할 수 있다.

상기 실시예에서 언급한 다양한 학습 행동을 통해 타깃 객체의 학습 과정에 대해 포괄적이고 유연한 행동 검출이 가능함으로써, 검출에 따라 획득한 학습 상태 정보의 포괄성과 정확성을 향상시켜, 타깃 객체의 학습 상태를 보다 유연하고 정확하게 파악한다.

구체적으로, 단계 S12에서 상기 개시된 실시예의 다양한 학습 행동에 대해 수행되는 검출의 유형은 실제 조건에 따라 유연하게 설정될 수있다. 가능한 구현 방식에 있어서, 상기 개시된 실시예에서 언급된 다양한 학습 행동은 동시에 검출될 수 있으며, 구체적인 검출 방법 과정은 이하의 개시된 실시예에서 상세하게 설명될 수 있으며, 여기서 더이상 언급하지 않는다.

적어도 하나의 유형의 학습 행동이 타깃 객체에 의해 실행되는 것을 검출하는 경우, 적어도 하나의 유형의 학습 행동을 포함하는 적어도 일부 비디오 프레임 및 적어도 하나의 유형의 학습 행동이 타깃 객체에 의해 실행되는 지속 시간 중 적어도 하나에 따라, 학습 상태 정보를 생성할 수 있다. 여기서, 학습 상태 정보의 구체적인 구현 형태는, 학습 행동의 유형과 해당 동작에 따라 유연하게 결정할 수 있다. 가능한 구현 방식에 있어서, 적어도 하나의 유형의 학습 행동을 포함하는 적어도 일부 비디오 프레임에 따라 학습 상태 정보를 생성하는 경우, 학습 상태 정보는, 비디오 프레임으로 구성된 정보를 포함할 수 있으며; 가능한 구현 방식에 있어서, 타깃 객체가 적어도 하나의 유형의 학습 행동을 실행하는 지속 시간에 따라, 학습 상태 정보는 디지털 형태의 데이터 정보일 수 있으며; 가능한 구현 방식에 있어서, 학습 상태 정보는 비디오 프레임 정보 및 데이터 정보 이 두 가지 형태의 정보를 동시에 포함할 수 있으며; 가능한 구현 방식에 있어서, 학습 상태 정보는 다른 상태의 정보를 포함할 수도 있다. 구체적으로, 학습 상태 정보를 생성하는 방법 및 학습 상태 정보의 구현 형태에 대해서는 이후에 개시되는 실시예를 참조할 수 있으며, 여기서 더이상 반복하지 않는다.

본 발명의 실시예에서, 타깃 객체에서 적어도 하나의 유형의 학습 행동이 검출되면, 학습 행동을 포함하는 비디오 프레임을 사용하여 직관적인 학습 상태 정보를 생성하고, 학습 행동의 지속 시간에 따라 정량화된 학습 상태 정보를 생성할 수 있으며, 상기 방식을 채택하여 평가 가치가 있는 학습 상태 정보를 유연하게 획득할 수 있으므로, 교사나 학부모 등 관련 인원과 기관이 학생의 학습 현황을 효과적이고 정확하게 파악하는데 편리하다.

전술한 실시예에서 언급한 바와 같이, 비디오는 교육 과목을 수강하면서 타깃 객체가 녹화한 비디오일 수 있으며, 교육 과목을 수강하는 타깃 객체의 시나리오는 실제 상황에 따라 유연하게 결정될 수 있으므로, 이에 따라, 단계 S11에서, 비디오를 획득하는 단계도 시나리오에 따라 유연하게 변경될 수 있다. 가능한 구현 방식에 있어서, 타깃 객체가 교육 과목을 수강하는 시나리오가 온라인 시나리오인 경우, 즉, 타깃 객체의 온라인 강의를 통해 교육 과목을 수강하는 경우, 비디오를 획득하는 단계는, 비디오 처리 장치와 타깃 객체의 온라인 학습 기기가 동일한 장치인 경우, 타깃 객체의 온라인 학습 기기를 통해 타깃 객체의 교육 과목 수강 과정을 비디오로 캡처할 수 있으며; 비디오 처리 장치와 타깃 객체의 온라인 학습 기기가 상이한 장치인 경우, 타깃 객체의 온라인 학습 기기를 통해 타깃 객체가 교육 과목을 수강하는 과정에 대해 비디오 캡처를 수행하고, 실시간 및/또는 비실시간으로 비디오 처리 장치로 전송한다. 가능한 구현 방식에 있어서, 타깃 객체가 교육 과목을 수강하는 장면이 오프라인 시나리오인 경우, 즉 타깃 객체가 대면 교육에 참여하거나 특정 교육 현장에서 교육 과목 시나리오에서, 교육 과목 비디오를 수강하는 경우, 비디오를 획득하는 단계는, 오프라인 이미지 캡처 기기(예컨대, 일반 카메라, 보안 요구 사항에 따라 배치된 촬영 장치 등)를 배치하여 타깃 객체의 비디오를 캡처한다. 나아가, 오프라인으로 배치된 이미지 캡처 기기가 비디오 처리를 수행할 수 있으면, 즉 비디오 처리 장치로서 사용될 수 있으면, 단계 S11의 비디오를 획득하는 과정은 이미 완료되고; 오프라인으로 배치된 이미지 캡처 기기가 비디오 처리를 수행할 수 없으면, 오프라인으로 배치된 이미지 캡처 기기에 의해 캡처된 비디오는 실시간 및/또는 비실시간으로 비디오 처리 장치로 전송된다.

전술한 실시예에서 설명한 바와 같이, 단계 S12에서 타깃 객체에 대한 학습 행동 검출을 수행하는 방법은 실제 상황에 따라 유연하게 결정될 수 있다. 가능한 구현 방식에 있어서, 단계 S12는 다음의 단계들을 포함할 수 있다.

단계 S121에 있어서, 비디오에 대해 타깃 객체 검출을 수행하여, 타깃 객체를 포함하는 비디오 프레임을 얻는다.

단계 S122에 있어서, 타깃 객체를 포함하는 비디오 프레임에 대해 적어도 하나의 유형의 학습 행동 검출을 수행한다.

상기 개시된 실시예들로부터, 가능한 구현 방식에서, 비디오에 대해 타깃 객체 검출을 수행하여, 비디오에서 타깃 객체를 포함하는 비디오 프레임을 결정할 수 있다. 어떤 비디오 프레임이 타깃 객체를 포함하는지를 결정한 후, 타깃 객체를 포함하는 비디오 프레임의 타깃 객체에 대해 적어도 하나의 유형의 학습 행동 검출이 수행될 수 있다.

여기서, 타깃 객체 검출 방법은 실제 상황에 따라 유연하게 결정될 수 있으며, 다음의 개시된 각 실시예에 한정되지 않는다. 가능한 구현 방식에 있어서, 얼굴 검출 또는 얼굴 추적 등 방식을 통해, 비디오에서의 타깃 객체를 검출할 수 있다. 가능한 구현 방식에 있어서, 얼굴 검출 또는 얼굴 추적 등 방식을 통해 비디오 프레임을 검출한 후, 복수 개의 객체를 검출할 수 있으며, 이러한 경우, 검출된 얼굴 이미지를 추가로 필터링하여, 그 중 하나 또는 복수 개의 객체를 선택하여 타깃 객체로 사용할 수 있으며, 구체적인 필터링 방법은 실제 상황에 따라 유연하게 설정될 수 있으며, 본 발명의 실시예에 한정되지 않는다.

가능한 구현 방식에 있어서, 타깃 객체를 포함하는 비디오 프레임을 얻은 후, 단계 S122를 통해, 타깃 객체를 포함하는 비디오 프레임에 대해, 적어도 하나의 유형의 학습 행동 검출을 수행할 수 있다. 단계 S122의 구현 방식에서, 학습 행동이 상이함에 따라 유연하게 변경될 수 있으며, 구체적으로 하기 개시된 실시예를 참조하기 바라며, 여기서 더이상 설명하지 않는다. 타깃 객체의 여러 유형의 학습 행동을 검출해야 하는 경우, 여러 유형의 학습 행동 검출을 달성하기 위해 여러 방법을 동시에 결합할 수 있다.

일부 가능한 구현 방식에서, 비디오에서 타깃 객체가 검출되면 교육 과목 수강 과정에서 타깃 객체의 학습 행동 검출을 완료할 수있다. 즉, 비디오에 대해 타깃 객체 검출을 수행함으로써, 이러한 학습 행동이 상기 개시된 실시예에서 언급된 비디오 중의 적어도 일부 비디오 프레임에 나타나지 않는 것으로 결정할 수 있다. 또한, 검출되지 않은 타깃 객체의 비디오 프레임에 따라 학습 상태 정보를 획득하거나, 검출되지 않은 타깃 객체의 비디오 프레임에 따라 타깃 객체가 비디오 중의 적어도 일부 비디오 프레임에 나타나지 않는 시간을 학습 상태 정보로 사용한다.

본 발명의 실시예에서, 비디오에 대해 타깃 객체 검출을 수행하여, 타깃 객체를 포함하는 비디오 프레임을 얻고, 타깃 객체를 포함하는 비디오 프레임에 대해 적어도 하나의 유형의 학습 행동 검출을 수행하며, 상기 과정을 통해, 비디오에 대해 타깃 객체 검출을 수행함으로써, 타깃 객체의 적어도 하나의 유형의 학습 행동을 더 맞춤하게 검출하여, 학습 행동 검출이 더 정확하고, 이후 획득되는 학습 상태 정보의 정확성 및 신뢰성이 더욱 향상된다.

상기 개시된 실시예에서 설명된 바와 같이, 단계 S122의 구현은 상이한 학습 행동에 따라 유연하게 변경될 수있다. 가능한 구현 방식에 있어서, 학습 행동은 적어도 하나의 타깃 제스처 실행을 포함할 수 있다.

이 경우, 타깃 객체를 포함하는 비디오 프레임에 대해 적어도 하나의 유형의 학습 행동 검출을 수행하는 단계는,

타깃 객체를 포함하는 비디오 프레임에 대해, 적어도 하나의 타깃 제스처의 검출을 수행하는 단계;

적어도 하나의 타깃 제스처를 포함하는 연속 비디오 프레임의 개수가 제1 임계값을 초과하는 것을 검출하는 경우, 타깃 제스처를 포함하는 비디오 프레임 중 적어도 하나의 프레임을 제스처 시작 프레임으로 기록하는 단계;

제스처 시작 프레임 이후의 비디오 프레임에서, 타깃 제스처를 포함하지 않는 연속 비디오 프레임의 개수가 제2 임계값을 초과하는 경우, 타깃 제스처를 포함하지 않는 비디오 프레임 중 적어도 하나의 프레임을 제스처 종료 프레임으로 기록하는 단계; 및

제스처 시작 프레임과 제스처 종료 프레임의 개수에 따라, 비디오에서 상기 타깃 객체에 의해 실행되는 적어도 하나의 타깃 제스처의 횟수 및 시간 중 적어도 하나를 결정하는 단계를 포함할 수 있다.

상기 개시된 실시예들에서, 학습 행동이 적어도 하나의 타깃 제스처를 수행하는 것을 포함하는 경우, 타깃 객체의 비디오 프레임에서 수행되는 학습 행동 검출은 타깃 제스처 검출을 포함할 수 있음을 알 수 있다

여기서, 타깃 제스처에 포함된 특정 제스처는 실제 상황에 따라 유연하게 설정될 수 있으며, 이하에 개시된 실시예에 한정되지 않는다. 예시적으로, 타깃 제스처는 손을 드는 제스처, 좋아요 제스처, OK 제스처 및 승리 제스처 중 하나 또는 복수 개를 포함한다

가능한 구현 방식에 있어서, 타깃 제스처는 교육 과목을 수강하는 과정에서, 타깃 객체가 수강 상황에 따라 반영하는 학습 관련 제스처를 포함할 수 있으며, 예컨대, 질문에 답하기 위해 손들기, 수업 내용 또는 교사에 대한 감사를 표현하기 위한 엄지 손가락 올리기 제스처(좋아요 제스처 등), 수업 내용 이해 또는 승인을 위한 OK 제스처, 교사와의 상호 작용을 위한 승리 제스처(예컨대, Yeah 제스처 등)이다.

구체적으로, 타깃 객체를 포함하는 비디오 프레임에서 적어도 하나의 타깃 제스처를 검출하는 방식은 실제 상황에 따라 유연하게 결정될 수 있으며, 다음의 개시된 실시예에 한정되지 않는다. 가능한 구현 방식에 있어서, 타깃 제스처 검출은 제스처 인식 관련 알고리즘을 통해 달성할 수 있으며, 예컨대, 비디오 프레임에서 타깃 객체의 손 키포인트 또는 손 검출 프레임에 대응하는 이미지 영역을 인식하고, 손 키 포인트 또는 손 프레임 이미지 영역에 기반하여 제스처 검출을 수행하고, 제스처 검출 결과에 기반하여 타깃 객체가 타깃 제스처를 실행하는지 여부를 결정할 수 있다. 가능한 구현 방식에 있어서, 제스처 검출 기능이 있는 신경망을 통해 타깃 제스처를 검출할 수 있다. 제스처 검출 기능이 있는 신경망의 구체적인 구조 및 구현은 실제 상황에 따라 유연하게 설정될 수 있으며, 타깃 제스처가 다양한 제스처를 포함하는 경우, 가능한 구현 방식에 있어서, 타깃 객체가 포함된 비디오 프레임은 여러 제스처를 동시에 검출할 수 있는 신경망에 입력되어 타깃 제스처 검출을 구현할 수 있으며; 가능한 구현 방식에 있어서, 하나의 제스처 검출 기능으로 타깃 객체가 포함된 비디오 프레임을 여러 신경망에 입력하여 여러 타깃 제스처 검출을 구현할 수도 있다.

상기 개시된 실시예 중 어느 하나를 통해 타깃 제스처 검출을 수행하는 과정에서, 적어도 하나의 타깃 제스처를 포함하는 연속 비디오 프레임의 개수가 제1 임계값을 초과하는 것을 검출하는 경우, 이러한 타깃 제스처를 포함하는 연속 비디오 프레임으로부터, 적어도 하나의 프레임을 제스처 시작 프레임으로 선택할 수 있다. 여기서, 제1 임계값의 개수는 실제 상황에 따라 유연하게 설정할 수 있으며, 상이한 타깃 제스처에 대응하는 제1 임계값의 개수는 동일하거나, 상이할 수 있으며, 예컨대, 손을 드는 제스처에 해당하는 제1 임계값을 6으로 설정하고, 좋아요 제스처에 해당하는 제1 임계 값을 7로 설정하면, 손을 드는 제스처가 포함된 연속 비디오 프레임 개수가 6 개보다 작지 않은 것으로 검출된 경우, 손 들기 동작이 포함된 비디오 프레임에서 적어도 하나의 프레임을 손 들기 동작의 시작 프레임으로 선택할 수 있으며, 좋아요 제스처가 검출된 연속 비디오 프레임의 개수가 7보다 작지 않은 경우, 좋아요 제스처를 포함하는 비디오 프레임 중 적어도 하나의 프레임을 좋아요 제스처의 시작 프레임으로 선택할 수 있다. 가능한 구현 방식에 있어서, 타깃 제스처의 검출을 용이하게 하기 위해 서로 다른 타깃 제스처에 대응하는 제1 임계값은 동일한 값으로 설정될 수 있으며, 일례로 제1 임계값의 개수는 6으로 설정될 수 있다

제스처 시작 프레임의 선택 방법도 실제 상황에 따라 유연하게 설정할 수 있으며, 가능한 구현 방식에 있어서, 타깃 제스처를 포함하는 검출된 연속 비디오 프레임의 첫 번째 프레임은 타깃 제스처의 제스처 시작 프레임으로 사용될 수 있으며, 가능한 구현 방식에 있어서, 제스처 검출 오류를 줄이기 위해 타깃 제스처를 포함하는 검출된 연속 비디오 프레임 중 첫 번째 프레임 이후의 특정 프레임을 상기 타깃 제스처의 제스처 시작 프레임으로 사용할 수도 있다.

제스처 시작 프레임이 결정되면 제스처 시작 프레임 이후의 비디오 프레임에서 제스처 종료 프레임을 결정할 수 있으며, 즉 제스처 시작 프레임에서 타깃 제스처의 종료 시간을 결정한다. 구체적인 결정 방법은 실제 상황에 따라 유연하게 선택할 수 있으며, 이하에 개시된 실시예에 한정되지 않는다. 가능한 구현 방식에 있어서, 제스처 시작 프레임이 검출된 이후의 비디오 프레임에서, 제스처 시작 프레임 중의 타깃 제스처를 포함하지 않는 연속 비디오 프레임의 개수가 제2 임계값을 초과하는 경우, 타깃 제스처를 포함하지 않는 연속 비디오 프레임 중 적어도 하나의 프레임을 제스처 종료 프레임으로 기록할 수 있다. 여기서, 제2 임계값은 마찬가지로 실제 상황에 따라 유연하게 설정할 수 있으며, 상이한 타깃 제스처에 대응하는 제2 임계 값은 동일하거나 상이할 수 있으며, 구체적인 설정 방법은 제1 임계값을 참조할 수 있다. 하나의 예에서, 상이한 타깃 제스처에 대응하는 제2 임계값은 동일할 수 있으며, 예컨대, 10으로 설정될 수 있으며, 즉 제스처 시작 프레임 이후, 10 개의 연속적인 프레임이 제스처 시작 프레임 중의 타깃 제스처를 포함하지 않는 경우, 타깃 객체가 타깃 제스처 실행을 종료하는 것으로 간주할 수 있다. 이 경우, 타깃 제스처를 포함하지 않는 연속적인 비디오 프레임 중 적어도 하나의 프레임을 제스처 종료 프레임으로 선택할 수 있고, 선택 방법은 제스처 시작 프레임을 참조할 수도 있으며, 일례에서, 타깃 제스처를 포함하지 않는 연속 비디오 프레임의 마지막 프레임을 제스처 종료 프레임으로 사용할 수 있으며; 일례에서, 타깃 제스처를 포함하지 않는 연속 비디오 프레임에서 마지막 프레임 이전의 프레임을 제스처 종료 프레임으로 사용할 수도 있다. 가능한 구현 방식에 있어서, 제스처의 시작 프레임을 검출한 후, 타깃 객체를 포함하지 않는 특정 프레임 또는 몇 프레임의 비디오 프레임이 있는 경우, 제스처의 끝 프레임으로 타깃 객체를 포함하지 않는 하나 또는 일부 비디오 프레임을 사용할 수도 있다.

제스처 시작 프레임 및 제스처 종료 프레임이 결정된 후 비디오 프레임에 포함된 제스처 시작 프레임 및 제스처 종료 프레임의 개수를 사용하여 타깃 객체가 특정 또는 특정 타깃 제스처를 수행하는 횟수를 결정할 수 있으며, 또한 특정 또는 특정 객체 제스처 등을 수행하는 기간을 결정할 수도 있다. 타깃 제스처와 관련된 콘텐츠의 구체적인 결정은 단계 S13에서 학습 상태 정보의 필요에 따라 유연하게 결정될 수있으며, 자세한 내용은 이후에 개시된 실시 예를 참조하며, 여기서 더이상 설명하지 않는다.

타깃 객체를 포함하는 비디오 프레임에서 적어도 하나의 타깃 제스처를 검출하고, 검출 상황에 따라 제스처 시작 프레임 및 제스처 종료 프레임을 결정함으로써, 비디오에서 타깃 객체에 의해 실행된 적어도 하나의 타깃 제스처 의 횟수 및/또는 시간을 추가로 결정하며, 위의 과정을 통해 학습 상태에 따라 비디오에서 타깃 객체가 피드백하는 제스처를 완전하고 정확하게 검출할 수 있음으로써, 후속적으로 획득한 학습 상태 정보의 포괄성과 정확성을 향상시키고, 타깃 객체의 학습 상태를 정확하게 파악한다.

가능한 구현 방식에 있어서, 학습 행동은 타깃 감정 표현을 포함할 수 있다.

타깃 객체를 포함하는 비디오 프레임에 대해, 표정 검출 및 미소값 검출 중 적어도 하나를 수행하는 단계;

비디오 프레임에서 타깃 객체에 의해 디스플레이된 적어도 하나의 제1 타깃 표정 또는 미소값 검출의 결과가 타깃 미소값을 초과한 것을 검출하는 경우, 검출된 비디오 프레임을 제1 검출 프레임으로 사용하는 단계; 및

연속적인 제1 검출 프레임의 개수가 제3 임계값을 초과한 것을 검출하는 경우, 타깃 객체가 타깃 감정을 생성하는 것으로 결정하는 단계를 포함할 수 있다.

여기서, 타깃 감정은 실제 필요에 따라 설정된 모든 감정이 될 수 있으며, 예를 들어, 타깃 객체가 학습에 집중하고 있음을 나타내는 행복한 감정을 나타내거나, 타깃 객체가 학습 불량 상태임을 나타내는 지루한 감정을 나타낼 수 있다. 이하 개시된 실시예는 타깃 감정이 행복한 감정인 것으로 설명하고 있으며, 타깃 감정이 다른 감정인 경우는 이후의 실시예를 참조하여 설명될 수 있다.

상기 개시된 실시예들로부터 학습 행동이 타깃 감정의 표현을 포함하는 경우, 타깃 객체의 학습 행동의 검출은 표정 검출 및/또는 미소값 검출을 통해 달성될 수 있음을 알 수 있다. 가능한 구현 방식에 있어서, 타깃 감정 표현의 학습 행동은 표정 검출 또는 미소값 검출을 통해서만 검출할 수 있으며, 가능한 구현 방식에 있어서, 표정 검출과 미소값 검출은 타깃 객체가 타깃 감정을 표현하는지 여부를 공동으로 판단하는데 사용할 수 있다. 이후 개시되는 실시예는 타깃 객체가 타깃 감정을 표현하는지 여부를 공동으로 결정하기 위해 표현 검출 및 미소값 검출의 사용을 예로 들어 설명되며, 나머지 구현은 이후에 개시된 실시예를 참조하여 설명될 수 있으며, 여기서 더이상 설명하지 않는다.

여기서, 표현 검출은 타깃 객체가 나타내는 표현의 검출을 포함할 수 있으며, 예를 들어, 타깃 객체가 나타내는 표현의 종류를 검출할 수 있으며, 특정 표현 구분은 실제 상황에 따라 유연하게 설정할 수 있으며, 하나의 가능한 구현 방식에 있어서, 표현은 행복함, 차분함, 기타 등으로 나눌 수 있으며; 미소값 검출은 타깃 객체의 미소 크기를 검출할 수 있는 것과 같이, 타깃 객체의 미소 강도 검출을 포함할 수 있으며, 미소 검출 결과는 수치로 피드백할 수 있으며, 예를 들어, 미소 검출 결과는 [0,100] 사이로 설정할 수 있으며, 값이 높을수록 타깃 객체의 미소 강도 또는 진폭이 높아짐을 의미한다. 특정 표정 검출 및 미소값 검출 방법은 실제 상황에 따라 유연하게 결정할 수 있으며, 타깃 객체의 표정이나 미소 정도를 검출할 수 있는 모든 방법이 해당 검출 방법으로 사용될 수 있으며, 다음의 개시된 실시예에 한정되지 않는다. 가능한 구현 방식에 있어서, 타깃 객체의 표정 검출은 얼굴 표정 인식 신경망에 의해 구현될 수 있으며, 가능한 구현 방식에 있어서, 미소값 검출 신경망을 통해 타깃 객체의 미소값 검출을 구현할 수 있다. 구체적으로, 본 발명의 실시예에서 표정 인식 신경망 및 미소값 검출 신경망의 구조 및 구현은 한정되지 않으며, 훈련을 통해 표정 인식 기능을 구현할 수 있는 모든 신경망 및 이를 구현하는 신경망 훈련을 통한 미소값 검출 기능은 모두 본 발명의 실시예에 적용될 수 있다. 가능한 구현 방식에 있어서, 비디오에서 타깃 객체의 얼굴 키포인트와 입 키포인트를 검출하여 표정 검출 및 미소값 검출을 구현할 수 있다.

구체적으로 표정 검출 및 미소값 검출에 의해 어떤 검출 결과를 달성한 경우, 타깃 객체가 타깃 감정을 가지고 있는 것으로 결정하고, 그 구현 방식은 실제 상황에 따라 유연하게 설정될 수 있다. 가능한 구현 방식에 있어서, 비디오 프레임에서 타깃 객체가 적어도 하나의 제1 타깃 표정을 나타내거나, 미소값 검출 결과가 타깃 미소값을 초과한 것으로 검출되면, 상기 비디오 프레임 중의 타깃 객체가 타깃 감정을 표현하는 것으로 간주하며, 이 경우, 상기 비디오 프레임은 제1 검출 프레임으로 사용될 수 있다. 여기서, 제1 타깃 표정의 특정 표정 유형은 실제 상황에 따라 유연하게 설정될 수 있으며, 이하에 개시된 실시예에 한정되지 않는다. 가능한 구현 방식에 있어서, 기쁨을 제1 타깃 표정으로 사용하고, 즉 검출된 타깃 객체의 표정이 기뻐하는 것인 비디오 프레임은 모두 제1 검출 프레임으로 사용할 수 있다. 가능한 구현 방식에 있어서, 기쁨과 차분함을 모두 제1 타깃 표정으로 사용하고, 즉 검출된 타깃 객체의 표정이 기뻐하거나 차분한 것인 비디오 프레임은 모두 제1 검출 프레임으로 사용할 수 있다. 같은 방식으로, 타깃 미소값의 특정값도 실제 상황에 따라 유연하게 설정할 수 있으며, 여기서는 특별한 한정이 없다. 따라서, 가능한 구현 방식에 있어서, 미소값 검출 결과가 타깃 미소값을 초과하는 비디오 프레임도 제 1 검출 프레임으로 사용될 수 있다.

가능한 구현 방식에 있어서, 특정 비디오 프레임이 제1 검출 프레임인 것으로 검출되면, 타깃 객체가 타깃 감정을 가지고 있는 것으로 결정할 수 있다. 가능한 구현 방식에 있어서, 검출의 정확도를 높이고 검출 오류가 학습 행동의 검출 결과에 미치는 영향을 줄이기 위해, 연속적인 제1 검출 프레임의 개수가 제3 임계값을 초과하는 경우 타깃 객체가 타깃 감정을 가지고 있는 것으로 결정할 수 있다. 여기서, 연속 비디오 프레임 중 각 프레임이 모두 제1 검출 프레임인 비디오 프레임 시퀀스는, 연속적인 제1 검출 프레임으로 사용될 수 있다. 제3 임계값의 개수는 실제 상황에 따라 유연하게 설정할 수 있으며, 그 값은 제1 임계값 또는 제2 임계값과 동일할 수 있거나, 상이할 수도 있으며, 일례에서, 제3 임계값의 개수는 6일 수 있고, 즉 6 개의 연속 프레임이 모두 제1 검출 프레임인 경우, 타깃 객체가 타깃 감정을 가지고 있는 것으로 간주할 수 있다.

또한, 타깃 객체가 타깃 감정을 가지고 있는 것으로 결정한 후 연속적인 제1 검출 프레임으로부터 하나의 프레임을 타깃 감정 시작 프레임으로 선택한 다음, 타깃 감정 시작 프레임 이후, 10 개의 연속 프레임 동안 검출되지 않은 타깃 객체의 표정이 제1 타깃 표현이거나, 10 개의 연속 프레임에서 타깃 객체의 미소값 검출 결과가 제3 임계값을 초과하지 않거나 특정 프레임 또는 몇 프레임의 타깃 객체를 검출 할 수 없는 경우, 타깃 감정의 종료 프레임을 추가로 결정할 수 있으며, 타깃 감정의 시작 프레임 또는 타깃 감정의 종료 프레임에 따라 타깃 객체가 가지고 있는 타깃 감정의 횟수 및/또는 시간을 결정할 수 있으며, 구체적인 과정은 타깃 제스처의 해당 과정을 참조할 수 있으며, 여기서 더이상 반복하지 않는다.

타깃 객체가 포함된 비디오 프레임에 대해 표정 검출 및/또는 미소값 검출을 수행하고, 표정 검출 및 미소값 검출의 결과에 따라 제1 검출 프레임을 결정함으로써, 연속된 제1 검출 프레임의 개수가 제3 임계값을 초과하는 것으로 감지되면 타깃 객체가 타깃 감정을 가지고 있는 것으로 결정하며, 위의 과정을 통해 학습 과정에서 타깃 객체의 표정과 미소 정도에 따라 타깃 객체의 감정을 유연하게 결정할 수 있음으로써, 이를 통해 학습 과정에서 타깃 객체의 감정 상태를 보다 포괄적이고 정확하게 검출할 수 있으며, 보다 정확한 학습 상태 정보를 생성할 수 있다.

가능한 구현 방식에 있어서, 학습 행동은 교육 과목의 디스플레이 영역에 집중하는 것을 포함할 수 있다.

타깃 객체를 포함하는 비디오 프레임에 대해, 표정 검출 및 얼굴 각도 검출을 수행하는 단계;

비디오 프레임에서 타깃 객체가 적어도 하나의 제2 타깃 표정을 디스플레이하는 동시에, 얼굴 각도가 타깃 얼굴 각도 범위 내에 있는 것을 검출하는 경우, 검출된 비디오 프레임을 제2 검출 프레임으로 사용하는 단계; 및

연속적인 제2 검출 프레임의 개수가 제4 임계값을 초과하는 것을 검출하는 경우, 타깃 객체를이 교육 과목의 디스플레이 영역을 주시하는 것으로 결정하는 단계를 포함할 수 있다.

여기서, 교육 과목의 디스플레이 영역의 구현 형태는 전술한 실시예를 참조할 수 있으며, 여기서 더이상 반복하지 않는다.

상기 개시된 실시예들로부터 학습 행동이 교육 과목에 집중하는 것을 포함하는 경우, 타깃 객체의 학습 행동의 검출은 표정 검출 및 얼굴 각도 검출을 통해 달성될 수 있음을 알 수 있다. 가능한 구현 방식에 있어서, 얼굴 각도를 검출하는 것만으로 교육 과목의 디스플레이 영역에 집중하는 학습 행동을 검출할 수도 있다. 이후 각 개시된 실시예는 타깃 객체가 교육 과목에 집중하는지 여부를 결정하기 위해 표정 검출 및 얼굴 각도 검출의 사용을 예로 들어 설명하며, 나머지 구현 방법은 이후에 개시된 실시예를 참조하여 설명될 수 있으며, 여기서 더이상 설명하지 않는다.

여기서, 표정 검출의 구현은 상기 개시된 실시예를 참조할 수 있으며, 여기서 반복하여 설명하지 않으며; 얼굴 각도 검출은 얼굴의 방향 각도의 검출 등일 수 있다. 특정 얼굴 각도 검출 방법은 실제 상황에 따라 유연하게 결정할 수 있으며, 타깃 객체의 얼굴 각도를 검출할 수 있는 모든 방법이 얼굴 각도 검출 방법으로 사용될 수 있으며, 다음의 개시된 실시예에 한정되지 않는다. 가능한 구현 방식에 있어서, 얼굴 각도 검출 신경망을 통해 타깃 객체의 얼굴 각도 검출을 구현할 수 있다. 구체적으로, 얼굴 각도 검출 신경망의 구조 및 구현은 본 발명의 실시예에서 한정되지 않으며, 훈련을 통해 얼굴 각도 검출 기능을 구현할 수 있는 모든 신경망이 본 발명의 실시예에 적용될 수 있다. 가능한 구현 방식에 있어서, 타깃 객체의 얼굴 각도는 비디오에서 타깃 객체의 얼굴의 키포인트를 검출하여 결정할 수도 있다. 얼굴 각도 검출로 검출할 수 있는 얼굴 각도의 형태도 실제 상황에 따라 유연하게 결정할 수 있으며, 가능한 구현 방식에 있어서, 타깃 객체의 얼굴 각도는 타깃 객체의 얼굴의 요 각도와 피치 각도를 검출하여 결정할 수 있다.

구체적으로 표정 검출 및 얼굴 각도 검출에 의해 특정 검출 결과를 달성한 경우, 타깃 객체가 교육 과목에 집중하는 것으로 결정하고, 그 구현 방식은 실제 상황에 따라 유연하게 설정될 수 있다. 가능한 구현 방식에 있어서, 비디오 프레임에서 타깃 객체가 적어도 하나의 제 2 타깃 표정을 나타내고, 검출된 얼굴 각도가 타깃 얼굴 각도 범위 내에 있는 것으로 검출되면, 비디오 프레임 내의 타깃 객체가 교육 과목의 디스플레이 영역에 집중하는 것으로 간주하며, 이 경우, 상기 비디오 프레임을 제2 검출 프레임으로 사용할 수 있다. 여기서, 제2 타깃 표정의 특정 표정 유형은 실제 상황에 따라 유연하게 설정될 수 있으며, 상기 개시된 실시예에서 언급한 제1 타깃 표정과 동일할 수도 있고, 상기 개시된 실시예에서 언급한 제1 타깃 표정과 상이할 수도 있으며, 이하에 개시된 실시예에 한정되지 않는다. 가능한 구현 방식에 있어서, 차분함은 제2 타깃 표정으로 사용될 수 있으며, 즉 검출된 타깃 객체의 표정이 차분하고 얼굴 각도가 타깃 얼굴 각도 범위 내에 있는 비디오 프레임을 모두 제2 검출 프레임으로 간주할 수 있다. 가능한 구현 방식에 있어서, 다른 이외의 표정을 제2 타깃 표정으로 사용할 수 있으며, 즉, 검출된 타깃 객체의 얼굴 각도가 타깃 얼굴 각도 범위 내에 있을 수 있고, 표정이 "다른"이 아닌 비디오 프레임은 모두 제2 검출 프레임으로 사용될 수 있다. 같은 방식으로, 타깃 얼굴 각도 범위의 특정값도 실제 상황에 따라 유연하게 설정할 수 있으며, 여기서는 특별한 한정이 없다. 가능한 구현 방식에 있어서, 상기 타깃 얼굴 각도 범위는 정적일 수 있으며, 일례에서, 강의 중에 교사가 이동할 수 있는 전체 위치(예를 들어, 교사가 오프라인 장면에 있는 연단 영역 등)를 타깃 얼굴 각도 범위로 사용할 수 있으며; 일례에서, 교육 과목을 수강하는 동안 타깃 객체가 집중할 수 있는 고정 영역(예를 들어, 온라인 장면에서 타깃 객체가 집중하는 디스플레이 화면)을 타깃 얼굴 각도 범위로 사용할 수 있다. 가능한 구현 방식에 있어서, 상기 타깃 얼굴 각도 범위도 정적일 수 있으며, 일례에서, 타깃 얼굴의 각도 범위는 강의 중 교사의 현재 움직임 위치에 따라 유연하게 결정될 수 있으며, 즉, 타깃 얼굴의 각도 범위 값은 교사의 움직임에 따라 동적으로 변경될 수 있다.

가능한 구현 방식에 있어서, 특정 비디오 프레임이 제2 검출 프레임인 것으로 검출되면, 타깃 객체가 교육 과목의 디스플레이 영역에 집중하는 것으로 결정할 수 있다. 가능한 구현 방식에 있어서, 검출의 정확도를 높이고 검출 오류가 학습 행동의 검출 결과에 미치는 영향을 줄이기 위해, 연속적인 제2 검출 프레임의 개수가 제4 임계값을 초과하는 경우 타깃 객체가 교육 과목의 디스플레이 영역에 집중하는 것으로 결정할 수 있다. 여기서, 연속 비디오 프레임 중 각 프레임이 모두 제2 검출 프레임인 비디오 프레임 시퀀스는, 연속적인 제2 검출 프레임으로 사용될 수 있다. 제4 임계값의 개수는 실제 상황에 따라 유연하게 설정할 수 있으며, 그 값은 제1 임계값, 제2 임계값, 또는 제3 임계값과 동일할 수 있거나, 상이할 수도 있으며, 일례에서, 제4 임계값의 개수는 6일 수 있고, 즉 6 개의 연속 프레임이 모두 제2 검출 프레임인 경우, 타깃 객체가 교육 과목의 디스플에이 영역에 집중하고 있는 것으로 간주할 수 있다.

또한, 타깃 객체가 교육 과목의 디스플레이 영역에 집중하는 것으로 결정한 후, 또한 연속적인 제2 검출 프레임으로부터 하나의 프레임을 집중 시작 프레임으로 선택한 다음, 집중 시작 프레임 이후, 10 개의 연속 프레임 동안 검출되지 않은 타깃 객체의 표정이 제2 타깃 표정이거나, 10 개의 연속 프레임 중 타깃 객체의 얼굴 각도가 타깃 얼굴 각도 범위 내에 있지 않거나, 특정 프레임 또는 몇 프레임의 타깃 객체를 검출할 수 없는 경우, 집중 종료 프레임을 추가로 결정할 수 있으며, 다음, 집중 시작 프레임 또는 집중 종료 프레임에 따라 타깃 객체가 교육 과목의 디스플레이 영역에 집중하는 횟수 및/또는 시간을 결정할 수 있으며, 구체적인 과정은 타깃 제스처 및 타깃 정서의 해당 과정을 참조할 수 있으며, 여기서 더이상 반복하지 않는다.

타깃 객체가 포함된 비디오 프레임에 대해 표정 검출 및/또는 얼굴 각도 검출을 수행하고, 표정 검출 및 얼굴 각도 검출의 결과에 따라 제2 검출 프레임을 결정함으로써, 연속적인 제2 검출 프레임의 개수가 제4 임계값을 초과하는 것으로 감지되면 타깃 객체가 교육 과목의 디스플레이 영역에 집중하고 있는 것으로 결정하며, 위의 과정을 통해, 타깃 객체의 표현과 얼굴 각도에 따라 타깃 객체가 교육 과목의 디스플레이 영역에 집중하는지 여부를 유연하게 결정할 수 있으며, 이를 통해 학습 과정에서 타깃 객체의 정신 집중을 보다 포괄적이고 정확하게 인지하고 보다 정확한 학습 상태 정보를 생성 할 수 있다.

가능한 구현 방식에 있어서, 학습 행동은, 다른 행동과 적어도 하나의 인터랙티브 행동을 생성하는 단계를 더 포함할 수 있다. 인터랙티브 행동의 구현 방식은 상기 개시된 실시예를 참조할 수 있으며, 여기서 더이상 반복하지 않는다. 이 경우 실제 상황에 따라 타깃 객체 포함된 비디오 프레임의 인터랙티브 행동 검출 방법을 유연하게 결정할 수 있으며, 하나의 가능한 구현 방식에서, 인터랙티브 행동이 온라인 수업을 통해 교사가 보낸 작은 빨간 꽃을 받는 등 온라인 인터랙티브 행동이거나, 온라인 수업에서 교사가 지명하면 대답하기인 경우, 인터랙티브 동작 검출 방법은 직접 다른 객체가 전달한 신호를 기반으로 하여 타깃 객체에 인터랙티브 동작이 있는지 여부를 결정할 수 있다. 가능한 구현 방식에 있어서, 인터랙티브 동작이 오프라인인 경우(예를 들어, 타깃 객체가 교실에서 교사에게 지명 받아 대답하는 경우), 타깃 객체에 인터랙티브 동작이 있는지 검출하는 방법은, 타깃 객체의 타깃 동작을 인식하여 타깃 객체에 인터랙티브 동작이 있는지 결정하는 단계를 포함하며, 여기서, 타깃 객체는 인터랙티브 동작의 실제 상황에 따라 유연하게 설정될 수 있으며. 예를 들어, 타깃 객체는 일어 서서 말하기 또는 얼굴이 다른 객체를 향하면서 시간이 특정 시간 값을 초과하는 경우 등을 포함 할 수 있다.

가능한 구현 방식에 있어서, 학습 행동은 비디오 중의 적어도 일부 비디오 프레임에 나타나지 않는 것을 포함하며, 이 경우, 단계 S12는,

비디오에 대해 타깃 객체 검출을 수행하여, 타깃 객체를 포함하는 비디오 프레임을 얻고, 비디오에서 상기 타깃 객체를 포함하는 비디오 프레임을 제외한 비디오 프레임을, 타깃 객체가 검출되지 않는 비디오 프레임으로 사용하는 단계를 포함할 수 있으며;

타깃 객체가 검출되지 않은 비디오 프레임의 개수가 기설정된 비디오 프레임의 개수를 초과할 경우, 학습 행동을 검출한다는 것은, 비디오 중의 적어도 일부 비디오 프레임에 나타나지 않는다 것을 포함할 수 있다.

여기서, 비디오에 대한 타깃 객체 검출을 수행하는 방법은 상기 개시된 실시예에서 상세히 설명되며, 여기서 더이상 반복하지 않는다. 가능한 구현 방식에 있어서, 비디오 중의 각 비디오 프레임은 타깃 객체를 포함하는 비디오 프레임 외에도, 타깃 객체를 포함하지 않는 비디오 프레임이 존재하므로, 이러한 타깃 객체를 포함하지 않는 비디오 프레임을 타깃 객체가 검출되지 않는 비디오 프레임으로 사용하고, 타깃 객체가 검출되지 않는 비디오 프레임의 개수가 기설정된 비디오 프레임의 개수를 초과하는 경우, “비디오 중의 적어도 일부 비디오 프레임에 나타나지 않음”의 학습 행동을 검출한 것으로 결정한다. 기설정된 비디오 프레임의 개수는 실제 상황에 따라 유연하게 설정될 수 있고, 가능한 구현 방식에 있어서, 기설정된 비디오 프레임의 개수를 0으로 설정할 수 있으며, 즉 비디오에서 타깃 객체가 검출되지 않는 비디오 프레임의 경우, 비디오 중의 적어도 일부 비디오 프레임에 이 학습 행동이 나타난 것으로 간주하며, 가능한 구현 방식에 있어서, 기설정된 비디오 프레임의 개수는 0보다 클 수도 있으며, 구체적으로 어떻게 설정할지는 실제 상황에 따라 유연하게 결정될 수 있다.

가능한 구현 방식에 있어서, 학습 행동은 눈 감기를 더 포함할 수 있는데, 이 경우 학습 행동의 검출 방법은 눈 감기 검출일 수 있으며, 구체적인 눈 감기 검출 과정은 실제 상황에 따라 유연하게 설정될 수 있으며, 일례에서, 눈 감기 검출 기능이 있는 신경망으로 달성 가능하며, 일례에서, 눈과 안구의 키포인트를 검출하여 타깃 객체가 눈을 감았는지 여부를 결정할 수도 있으며, 예를 들어, 안구 내의 키포인트가 검출되면 타깃 객체가 눈을 뜬 것으로 결정하며; 눈의 키포인트만 검출되고, 안구의 키포인트는 검출되지 않은 경우, 타깃 객체가 눈을 감고 있는 것으로 결정한다. 가능한 구현 방식에 있어서, 학습 행동은 교육 과목의 디스플레이 영역 내의 눈빛 교류를 더 포함할 수 있으며, 이 경우 학습 행동 검출 방법은 상기 개시된 실시예의 교육 과목의 디스플레이 영역에 집중하는 과정을 참조할 수 있으며, 구체적인 검출 방법은 유연하게 변경될 수 있으며, 예컨대, 타깃 객체에 대해 눈 감기와 얼굴 각도 검출을 동시에 수행할 수 있어, 얼굴 각도가 타깃 얼굴 각도 범위 내에 있는 동시에 눈을 감지 않은 비디오 프레임을 제3 검출 프레임으로 사용한 다음, 제3 검출 프레임의 개수가 특정 설정 임계값을 초과한 경우, 타깃 객체가 교육 과목의 디스플레이 영역 내에서 눈빛 교류를 한 것으로 간주한다.

상기 개시된 실시예들의 다양한 구현 방법들의 임의의 조합이 타깃 객체의 적어도 하나의 유형의 학습 행동의 검출을 달성하기 위해 사용된 후, 타깃 객체가 적어도 하나의 유형의 학습 행동을 수행하는 것으로 검출되면, 단계 S13을 통해 학습 상태 정보를 생성할 수 있다. 단계 S13의 구체적인 구현은 한정되지 않으며, 검출된 학습 행동의 실제 상황에 따라 유연하게 변경될 수 있으며, 다음의 개시된 실시예에 한정되지 않는다.

상기 개시된 실시예의 단계 S13의 실제 내용으로부터 알다시피, 단계 S13에서 학습 상태 정보를 생성하는 과정에서 다음과 같은 생성 방법이 있으며, 예를 들어, 학습 상태 정보는 적어도 하나의 유형의 학습 행동을 포함하는 비디오 프레임을 기반으로 생성될 수 있거나; 또는 적어도 하나의 유형의 학습 행동을 수행하는 객체 객체의 기간에 따라 학습 상태 정보 생성할 수 있거나; 또는 상기 두 상황을 결합하여 적어도 하나의 유형의 학습 행동을 포함하는 비디오 프레임을 기반으로 학습 상태 정보의 일부를 생성하며, 타깃 객체가 실행한 적어도 하나의 유형의 학습 행동의 지속 시간에 따라 다른 유형의 학습 상태 정보를 생성한다. 학습 행동의 비디오 프레임을 기반으로 학습 상태 정보를 생성 할 수 있을 뿐만 아니라, 적어도 하나의 유형의 학습 행동을 실행하는 타깃 객체의 지속 시간을 기반으로 학습 상태 정보를 생성 할 수 있는 경우, 학습 행동의 유형에 따라 어떤 유형의 학습 상태 정보를 생성하는지, 실제 상황에 따라 매핑 방법을 유연하게 설정할 수 있다. 가능한 구현 방식에 있어서, 일부 긍정적인 학습 행동은 학습 행동이 포함된 비디오 프레임을 기반으로 학습 상태 정보를 생성하는 과정에 대응되며, 예를 들어, 타깃 객체가 적어도 하나의 타깃 제스처를 수행하고, 긍정적인 타깃 감정을 보여주고, 교육 과목의 디스플레이 영역에 집중하고, 다른 객체와의 적어도 하나의 인터랙티브 동작을 생성하는 경우, 상기 학습 행동을 포함하는 비디오 프레임을 기반으로 학습 상태 정보를 생성 할 수 있으며; 하나의 가능한 구현 방식에 있어서, 일부 소극적인 학생 행동, 예를 들어, 타깃 객체가 비디오 중 적어도 일부 비디오 프레임에 나타나지 않는 경우, 눈을 감거나 교육 과목의 디스플레이 영역 내에서 눈빛 교류를 하지 않는 경우, 상기 학습 행동의 지속 시간에 따라 학습 상태 정보를 생성할 수 있다.

가능한 구현 방식에 있어서, 적어도 하나의 유형의 학습 행동을 포함하는 적어도 일부 비디오 프레임에 따라, 학습 상태 정보를 생성하는 단계는,

비디오 중 적어도 하나의 유형의 학습 행동을 포함하는 비디오 프레임을 획득하여, 타깃 비디오 프레임 세트으로 사용하는 단계 S1311;

타깃 비디오 프레임 세트 중 적어도 하나의 비디오 프레임에 대해 얼굴 품질 검출을 수행하여, 얼굴 품질 임계값보다 큰 얼굴 품질을 갖는 비디오 프레임을 타깃 비디오 프레임으로 사용하는 단계 S1312; 및

타깃 비디오 프레임에 따라, 학습 상태 정보를 생성하는 단계 S1313을 포함한다.

여기서, 적어도 하나의 학습 행동 유형을 포함하는 비디오 프레임은 행동 검출 학습 과정에서 적어도 하나의 유형의 행동을 수행하기 위해 타깃 객체가 검출되는 비디오 프레임일 수 있으며, 예를 들어, 전술한 실시 예에서 언급한 제1 검출 프레임, 제2 검출 프레임 및 제3 검출 프레임, 또는 제스처 시작 프레임과 제스처 종료 프레임 사이의 타깃 제스처를 포함하는 비디오 프레임 등이 있다.

적어도 하나의 유형의 학습 행동을 포함하는 비디오 프레임을 결정한 후, 타깃 비디오 프레임 세트를 얻는 방법을 유연하게 결정할 수 있다. 가능한 구현 방식에 있어서, 학습 행동의 유형에 따라 각 학습 행동 유형을 포함하는 각 비디오 프레임을 개별적으로 획득하여 각 학습 행동 유형의 타깃 비디오 프레임 세트를 구성할 수 있으며; 한 가지 가능한 구현 방식에 있어서, 학습 행동의 유형에 따라 각 학습 행동 유형이 포함된 부분 프레임을 획득할 수도 있으며, 그런 다음 각 학습 행동 유형의 부분 프레임을 기반으로 학습 행동 유형의 타깃 비디오 프레임 세트를 획득하고, 구체적으로 어떤 부분 프레임을 선택하는지 선택 방법을 유연하게 결정할 수 있다.

학습 행동에 대응하는 타깃 비디오 프레임 세트를 획득한 후, 단계 S1312를 통해, 타깃 비디오 프레임 세트로부터 타깃 비디오 프레임을 선택할 수 있다. 단계 S1312로부터 알다시피, 가능한 구현 방식에 있어서, 타깃 비디오 프레임 세트 중 비디오 프레임에 대해 얼굴 품질 검출을 수행하여, 얼굴 품질 임계값보다 큰 얼굴 품질을 갖는 비디오 프레임을 타깃 비디오 프레임으로 사용할 수 있다.

여기서, 얼굴 품질 검출 방법은 실제 상황에 따라 유연하게 설정할 수 있으며, 다음과 같은 실시예에 한정되지 않으며, 한 가지 가능한 구현 방식에 있어서, 비디오 프레임에서의 얼굴에 대한 얼굴 인식을 수행함으로써, 비디오 프레임에서 얼굴의 완성도를 결정하여 얼굴 품질을 결정할 수 있으며; 한 가지 가능한 구현 방식에 있어서, 얼굴 품질은 비디오 프레임에서 얼굴의 선명도에 따라 결정될 수도 있으며; 한 가지 가능한 구현 방식에 있어서, 비디오 프레임의 얼굴의 완성도, 선명도, 밝기와 같은 여러 파라미터를 기반으로 비디오 프레임에서 얼굴의 품질을 종합적으로 결정할 수도 있으며; 한 가지 가능한 구현 방식에 있어서, 비디오 프레임의 얼굴 품질은 얼굴 품질 신경망에 입력하여 얻을 수도 있으며, 얼굴 품질 신경망은 얼굴 품질 점수 라벨이 포함된 많은 수의 얼굴 이미지를 훈련하여 얻을 수 있으며, 그 구체적인 구현 형태는 실제 상황에 따라 유연하게 선택될 수 있으며, 본 발명의 실시예에 한정되지 않는다.

얼굴 품질 임계값의 특정값은 실제 상황에 따라 유연하게 결정될 수 있으며, 이는 본 발명의 실시예에서 한정되지 않는다. 가능한 구현 방식에 있어서, 각 학습 행동 유형에 대해 상이한 얼굴 품질 임계값을 설정할 수 있으며; 한 가지 가능한 구현 방식에 있어서, 각 유형의 학습 행동에 대해 동일한 얼굴 임계 값을 설정할 수도 있다. 가능한 구현 방식에 있어서, 얼굴 품질 임계값을 타깃 비디오 프레임 세트에서 얼굴 품질의 최대값으로 설정할 수도 있으며, 이 경우, 학습 행동 유형별 얼굴 품질이 가장 높은 비디오 프레임을 타깃 비디오 프레임으로 직접 사용할 수 있다.

일부 가능한 구현 방식에서, 동시에 여러 유형의 학습 행동을 포함하는 일부 비디오 프레임이 있을 수 있으며, 이 경우, 다양한 유형의 학습 행동이 포함된 비디오 프레임 처리 방법은 실제 상황에 따라 유연하게 변경 될 수 있다. 가능한 구현 방식에 있어서, 이러한 비디오 프레임은 각 유형의 학습 행동에 기인할 수 있으며, 타깃 비디오 프레임을 얻기 위해 단계 S1312에 따라 각 유형의 학습 행동에 대응하는 비디오 프레임 세트에서 선택하며; 한 가지 가능한 구현 방식에서, 여러 유형의 학습 행동을 동시에 포함하는 비디오 프레임이 객체 비디오 프레임으로 선택될 수 있다.

상기 실시예 중 어느 하나를 통해 타깃 비디오 프레임을 결정한 후, 단계 S1313을 통해, 타깃 비디오 프레임에 따라, 학습 상태 정보를 생성한다. 단계 S1313의 구현 방식은 실제 상황에 따라 유연하게 선택될 수 있으며, 자세한 내용은 다음 개시된 실시예를 참조하며, 여기서 더이상 반복하지 않는다.

본 발명의 실시예에서, 타깃 비디오 프레임 세트를 통해 비디오 프레임에 적어도 하나의 유형의 학습 행동을 포함하는 비디오 프레임을 획득함으로써, 학습 행동 유형별 타깃 영상 프레임 세트에 따라 얼굴 품질이 상대적으로 높은 비디오 프레임을 타깃 비디오 프레임으로 선택하여, 타깃 비디오 프레임에 따라 학습 상태 정보를 생성한다. 상기 과정을 통해 생성된 학습 상태 정보는 보다 정확한 얼굴 품질로 학습 행동을 포함하는 비디오 프레임에서 얻은 정보를 기반으로 할 수 있으므로, 타깃 객체의 학습 상태를 보다 정확하게 파악할 수 있다.

상기 개시된 실시예에서 설명된 바와 같이, 단계 S1313의 구현은 유연하게 변경될 수있다. 가능한 구현 방식에 있어서, 단계 S1313은,

타깃 비디오 프레임 중 적어도 하나의 프레임을 학습 상태 정보로 취하는 단계; 및,

적어도 하나의 프레임의 타깃 비디오 프레임에서 타깃 객체를이 위치한 영역을 인식하여, 타깃 객체가 위치한 영역을 기반으로, 학습 상태 정보를 생성하는 단계 중 적어도 하나를 포함할 수 있다.

상기 개시된 실시예로부터 알다시피, 한 가지 가능한 구현 방식에 있어서, 타깃 비디오 프레임 중 적어도 하나를 학습 상태 정보로 직접 사용할 수 있으며, 일례에서, 획득된 타깃 비디오 프레임을 추가로 선택할 수 있으며, 이 선택은 무작위 또는 조건적일 수 있으며, 그런 다음 선택된 타깃 비디오 프레임을 학습 상태 정보로 직접 사용하며; 일례에서, 또한 획득된 각 타깃 비디오 프레임을 학습 상태 정보로 직접 사용할 수도 있다.

가능한 구현 방식에 있어서, 또한, 타깃 비디오 프레임에서 타깃 객체가 위치한 영역을 더 인식하여 타깃 객체가 위치한 영역에 따른 학습 상태 정보를 생성할 수있다. 여기서, 타깃 객체 영역 인식 방법은 본 발명의 실시예에 한정되지 않으며, 한 가지 가능한 구현 방식에서, 상기 실시예에서 언급한 타깃 객체 검출 기능을 가진 신경망에 의해 구현될 수 있다. 타깃 비디오 프레임에서 타깃 객체의 영역이 결정된 후, 타깃 비디오 프레임은 학습 상태 정보를 획득하기 위해 그에 따라 추가 처리될 수 있다. 여기서, 처리 방법을 유연하게 결정할 수 있으며, 일례에서, 타깃 비디오 프레임에서 타깃 객체가 위치한 영역의 이미지를 학습 상태 정보로 사용할 수 있으며; 일례에서, 또한 타깃 비디오 프레임의 타깃 객체가 위치한 영역 외의 배경 영역을 렌더링할 수 있으며, 예를 들어, 다른 스티커를 추가하거나 배경 영역에 모자이크를 추가하거나 배경 영역의 이미지를 교체하는 등 타깃 객체의 현재 배경을 표시하지 않은 학습 상태 정보를 얻음으로써, 타깃 객체의 개인 정보를 보다 잘 보호할 수 있으며 스티커 및 다른 렌더링 방법을 사용하여 학습 상태 정보의 다양성과 미관을 높일 수 있다.

타깃 비디오 중의 적어도 하나의 프레임을 학습 상태 정보로 사용하거나 및/또는 타깃 비디오 프레임에서 타깃 객체가 위치한 영역에 따라 학습 상태 정보를 생성함으로써, 위의 방법을 통해 최종 학습 상태 정보를 보다 유연하게 만들 수 있으므로, 타깃 객체의 필요에 따라 타깃 객체의 학습 상태 정보를 보다 선명하게 획득하거나 타깃 객체의 개인 정보를 더 잘 보호하는 학습 상태 정보를 얻을 수 있다.

상기 개시된 실시예들은 학습 행동을 포함하는 비디오 프레임을 기반으로 생성된 학습 상태 정보를 얻기 위해 임의로 조합될 수 있으며, 예를 들어, 표 1은 본 발명의 일 실시 예에 따른 학습 상태 정보 생성 규칙을 나타낸다.

표 1 학습 상태 정보 생성 규칙

여기서, M, N, X, Y, Z는 모두 양의 정수이며 실제 필요에 따라 특정 값을 설정할 수 있다. 또한, 표 1에서 상이한 행에 있는 M과 같은 파라미터는 동일하거나 상이할 수 있으며, 앞서 언급한 M과 같은 파라미터는 개략적인 설명일 뿐이며 본 발명의 내용을 한정하려는 것은 아니다. 여기서, 멋진 순간은 타깃 객체의 긍정적 인 학습 행동에 대응하는 순간이다. 표 1에서 볼 수 있듯이, 타깃 객체가 손을 드는 등 타깃 제스처를 실행하고, 기쁜 타깃 감정을 보이거나, 정신을 집중하여 교육 과목의 디스플레이 영역에 집중하고 교사의 지명에 대답하는 인터랙티브 등 학교 행동을 하는 것으로 검출된 경우, 비디오에서 특정 데이터 처리를 수행하고 데이터 처리 후 비디오 프레임에서 추가 이미지 처리를 수행하여 객체 비디오 프레임을 학습 상태 정보로서 얻는다.

가능한 구현 방식에 있어서, 타깃 객체가 적어도 하나의 유형의 학습 행동을 실행하는 지속 시간에 따라, 학습 상태 정보를 생성하는 단계는,

타깃 객체가 적어도 하나의 유형의 학습 행동을 실행하는 시간이 시간 임계값보다 작지 않은 것으로 검출된 경우, 적어도 하나의 유형의 학습 행동의 지속 시간을 기록하는 단계 S1321; 및

적어도 하나의 유형의 학습 행동에 대응하는 지속 시간을, 학습 상태 정보로 사용하는 단계 S1322를 포함할 수 있다.

여기서, 시간 임계값은 실제 상황에 따라 유연하게 설정된 특정 값일 수 있으며, 상이한 유형의 학습 행동의 시간 임계값은 동일하거나, 상이할 수도 있다. 타깃 객체가 일정 시간 내에 특정 유형의 학습 행동을 수행하는 것이 검출되는 경우, 타깃 개체가 이러한 학습 행동을 수행하는 시간을 계산할 수 있음으로써, 학습 상태 정보로서 교사 또는 부모에게 피드백한다. 구체적인 통계 조건과 학습 행동을 구현할 수있는 통계 시간은 실제 상황에 따라 유연하게 설정될 수 있다.

가능한 구현 방식에 있어서, 타깃 객체가 비디오에 나타나지 않은(예컨대, 비디오에 사람이 없는 것, 비디오에 사람이 있으나, 타깃 객체인지 결정할 수 없거나 샷에 사람이 있지만 타깃 객체가 아닌 경우) 시간이 일정 시간을 초과하고, 타깃 객체가 눈을 감거나 타깃 객체가 교육 과목의 디스플레이 영역을 보지 않을 때, 이러한 학습 행동의 기간을 계산하여 학습 상태 정보로 사용할 수 있다.

본 발명의 실시예에서, 타깃 객체가 적어도 하나의 유형의 학습 행동을 실행하는 시간이 시간 임계값보다 작지 않은 것으로 검출된 경우, 적어도 하나의 유형의 학습 행동의 지속 시간을 기록하여 학습 상태 정보로 사용함으로써, 상기 과정을 통해, 학습 상태 정보를 정량화할 수 있으며, 타깃 객체의 학습 상태를 보다 직관적이고 정확하게 파악할 수 있다.

가능한 구현 방식에 있어서, 본 발명의 실시예에서 제안된 비디오 처리 방법은,

비디오 중의 적어도 일부 비디오 프레임에서의 배경 영역을 렌더링하는 단계를 더 포함할 수 있으며, 배경 영역은 상기 비디오 프레임에서 타깃 객체를 제외한 영역이다.

여기서, 배경 영역의 분할 방법 및 배경 영역의 렌더링 방법에 대해서는 전술한 실시예를 참조하여 타깃 비디오 프레임에서 타깃 객체가 위치하는 영역과 인식 후의 렌더링 과정을 인식하며, 여기서 더이상 반복하지 않는다. 배경 영역을 렌더링하는 과정에서 예를 들어 현재 비디오 처리 장치에 기설정된 범용 템플릿으로 렌더링 할 수 있으며; 일례에서, 비 비디오 처리 장치의 데이터베이스에서 다른 템플릿 또는 사용자 정의 템플릿을 호출하여 렌더링할 수도 있으며, 예를 들어, 비 비디오 처리 장치의 클라우드 서버에서 다른 배경 템플릿을 호출하여 비디오 등의 배경 영역을 렌더링할 수 있다.

한편으로 비디오에서 적어도 일부 비디오 프레임에서 배경 영역을 렌더링함으로써, 한편으로, 비디오에서 타깃 객체의 개인 정보를 보호하여, 타깃 객체에 적절한 비디오 캡처 위치가 없음으로 인한 개인 정보 유출의 가능성을 줄일 수 있으며, 다른 한편으로, 교육 과목 과정을 수강하는 타깃 객체의 관심을 높일 수 있다.

적어도 하나의 타깃 객체의 학습 상태 정보를 통계하여, 적어도 하나의 타깃 객체의 통계 결과를 얻는 단계; 및

적어도 하나의 타깃 객체의 통계 결과에 따라, 학습 상태 통계 데이터를 생성하는 단계를 더 포함할 수 있다.

본 발명의 실시예에서, 하나의 비디오에 포함된 타깃 객체는 하나 또는 복수 개일 수 있으며, 또한, 본 발명의 실시예들에서 비디오 처리 방법은 단일 비디오를 처리하기 위해 사용될 수 있거나, 복수 개의 비디오를 처리하기 위해 사용될 수 있다. 따라서, 이에 대응하여 하나의 타깃 객체의 학습 상태 정보를 획득할 수 있고, 복수 개의 타깃 객체의 학습 상태 정보도 획득 할 수 있다. 이 경우, 적어도 하나의 타깃 객체의 학습 상태 정보를 통계하여, 적어도 하나의 타깃 객체의 통계 결과를 얻을 수 있다. 여기서, 통계 결과에는 객체 객체의 학습 상태 정보뿐만 아니라 교육 과목을 수강하는 타깃 객체와 관련된 다른 정보도 포함될 수 있다. 예컨대, 가능한 구현 방식에 있어서, 단계 S12 이전에, 타깃 객체의 학습 행동 검출 이전에 타깃 객체의 체크인 데이터도 획득할 수 있다. 타깃 객체의 체크인 데이터는 타깃 객체의 인식 정보 및 체크인 시간 등을 포함할 수 있으며, 구체적인 출석 데이터 획득 방법은 타깃 객체의 실제 체크인 방법에 따라 유연하게 결정될 수 있으며, 본 발명의 실시예에 한정되지 않는다.

적어도 하나의 타깃 객체에 대한 통계 결과를 획득 한 후, 적어도 하나의 통계 결과에 따라 학습 상태 통계 데이터를 생성할 수 있다. 구체적으로, 학습 상태 통계 데이터의 생성 방법 및 내용은 통계 결과의 구현 형태에 따라 유연하게 변경할 수 있다. 자세한 내용은 다음 개시된 실시예를 참조하며, 여기서 더이상 반복하지 않는다.

본 발명의 실시예에서, 적어도 하나의 타깃 객체에 대한 학습 상태 정보를 통계하여 적어도 하나의 타깃 객체에 대한 통계 결과를 얻음으로써, 적어도 하나의 타깃 객체의 통계 결과에 따라 학습 상태 통계 데이터가 생성되며, 상기 과정을 통해, 복수 개의 타깃 객체의 학습 상태를 효과적으로 종합적으로 평가할 수 있으므로, 교사는 전체 수업의 전반적인 학습 상황을 더 쉽게 파악할 수 있으며, 다른 관련 직원이 타깃 객체의 현재 학습 위치를 보다 포괄적으로 이해하는 것이 편리하다.

가능한 구현 방식에 있어서, 적어도 하나의 상기 타깃 객체의 통계 결과에 따라, 학습 상태 통계 데이터를 생성하는 단계는,

적어도 하나의 타깃 객체가 속하는 카테고리에 따라, 적어도 하나의 카테고리에 포함된 타깃 객체의 통계 결과를 획득하여, 적어도 하나의 카테고리의 학습 상태 통계 데이터를 생성하는 단계 - 타깃 객체가 속하는 카테고리는 타깃 객체가 참여하는 과목, 타깃 객체가 등록한 기관 및 타깃 객체가 사용하는 기기 중 적어도 하나를 포함함 - ; 및,

적어도 하나의 타깃 객체의 통계 결과에 대해 가시화 처리를 수행하여, 적어도 하나의 타깃 객체의 학습 상태 통계 데이터를 생성하는 단계 중 적어도 하나를 포함한다.

여기서, 타깃 객체가 속한 카테고리는 타깃 객체의 신원에 따라 구분된 카테고리일 수 있으며, 예를 들어, 타깃 객체가 속한 카테고리는 타깃 객체가 참여하는 과목, 타깃 객체가 등록한 기관, 타깃 객체가 사용하는 기기 중 적어도 하나를 포함할 수 있으며, 여기서, 타깃 객체가 참여하는 과목은 전술한 실시예에서 언급한 타깃 객체가 수강하는 교육 과목일 수 있으며, 타깃 객체의 등록 기관은 타깃 객체의 교육 기관, 타깃 객체의 학년, 또는 타깃 객체의 반급 등이 될 수 있으며, 타깃 객체가 사용하는 기기는 온라인 장면에서 온라인 과목에 참여하기 위해 타깃 객체가 사용하는 단말 기기일 수 있다.

본 발명의 실시예에서, 적어도 하나의 카테고리에 포함된 타깃 객체의 통계 결과는 타깃 객체가 속한 카테고리에 따라 얻을 수 있으며, 즉 타깃 객체의 카테고리에 속한 적어도 하나의 통계 결과를 통계하여 상기 카테고리의 전체 학습 상태 통계 데이터를 얻을 수 있다. 예를 들어, 기기, 과목, 교육 기관 등의 카테고리에 따라 분할하여, 동일한 기기에서 상이한 타깃 객체의 통계 결과, 동일한 과목에서 상이한 타깃 객체의 통계 결과, 동일한 교육 기관에서 상이한 타깃 객체의 통계 결과 등을 얻을 수 있다. 일례에서, 이러한 통계 결과를 보고서 형식으로 표시할 수도 있다. 일례에서, 보고서의 각 카테고리별 통계 결과는 각 타깃 객체의 전체 학습 상태 정보뿐만 아니라 교육 과목 디스플레이 영역의 시간, 미소 짓는 시간 등에 집중하는 것과 같은 타깃 객체별 특정 학습 상태 정보를 포함할 수 있으며, 또한, 교육 과목 수강과 관련된 다른 정보를 포함할 수 있으며, 예를 들어, 타깃 객체의 체크인 시간, 체크인 횟수, 기설정된 데이터베이스에서 타깃 객체와 얼굴의 일치, 체크인 기기, 체크인 과목 등이 있다.

또한, 하나의 타깃 객체의 통계 결과에 대해 가시화 처리를 수행하여, 적어도 하나의 타깃 객체의 학습 상태 통계 데이터를 얻을 수 있다. 여기서, 가시화 처리 방법은 실제 상황에 따라 유연하게 결정할 수 있으며, 예를 들어, 데이터를 차트 또는 비디오 등 형태로 구성할 수 있다. 학습 상태 통계에 포함된 내용은 실제 상황에 따라 유연하게 결정될 수 있으며, 예를 들어, 타깃 객체의 전체 학습 상태 정보, 타깃 객체가 수강한 교육 과목의 이름, 타깃 객체의 특정 학습 상태 정보 등을 포함할 수 있으며, 구체적으로 어떤 데이터를 포함할지는 실제 상황에 따라 유연하게 설정할 수 있다. 일례에서, 타깃 객체의 신원, 타깃 객체가 수강한 교육 과목의 이름, 타깃 객체가 교육 과목의 디스플레이 영역에 집중하는 기간, 타깃 객체의 집중 강도, 타깃 객체와 다른 타깃 객체 간의 데이터 비교 결과, 타깃 객체의 인터랙티브 횟수 및 타깃 객체의 감정을 시각적 보고서로 정리하고, 타깃 객체 또는 타깃 객체의 부모 등과 같은 타깃 객체의 다른 관련 인원에게 보낼 수 있다.

일례에서, 가시화 처리 후의 학습 상태 통계 데이터는 사진과 비디오 외에도, 포함된 텍스트 내용의 형태는 "수업 과목이 XX이고,.A 학생의 집중 시간은 30 분이며, 집중력은 10 %의 반 친구보다 높으며, 인터랙티브 횟수는 3 회이고, 미소는 5 회이므로, 이로써 칭찬을 드리며 계속 노력하길 바랍니다" 또는 "수업 과목이 XX이고, B 학생은 집중력이 떨어지고 손을 드는 등 제스처 인터랙티브 빈도가 낮으며, 부모는 자녀의 학습 습관에 세심한 주의를 기울여 제때에 아이의 학습 습관을 조정하는 것이 좋습니다" 등이다.

본 발명의 실시예에서, 적어도 하나의 타깃 객체가 속한 카테고리를 획득함으로써, 적어도 하나의 카테고리의 학습 상태 통계 데이터가 생성되고, 및/또는, 적어도 하나의 타깃 객체의 학습 상태에 대한 통계 데이터를 생성하기 위해 적어도 하나의 타깃 객체의 통계 결과를 시각화한다. 상기 과정을 통해 다양한 데이터 통계 방법을 사용하여 타깃 객체의 학습 상태를 보다 직관적이고 포괄적으로 파악할 수 있다.

도 2는 본 발명의 실시예에 따른 비디오 처리 장치의 블록도이다. 도면에 도시된 바와 같이, 상기 비디오 처리 장치(20)는,

비디오를 획득하기 위한 비디오 획득 모듈(21) - 비디오 내의 적어도 일부 비디오 프레임은 타깃 객체를 포함함 - ;

비디오에 따라, 교육 과목을 수강하는 과정에서 타깃 객체의 적어도 하나의 유형의 학습 행동을 검출하기 위한 검출 모듈(22);

적어도 하나의 유형의 학습 행동이 타깃 객체에 의해 실행되는 것을 검출하는 경우, 적어도 하나의 유형의 학습 행동을 포함하는 적어도 일부 비디오 프레임 및 적어도 하나의 유형의 학습 행동이 타깃 객체에 의해 실행되는 지속 시간 중 적어도 하나에 따라, 학습 상태 정보를 생성하기 위한 생성 모듈(23)을 포함할 수 있다.

가능한 구현 방식에 있어서, 학습 행동은, 적어도 하나의 타깃 제스처 실행, 타깃 감정 표현, 교육 과목의 디스플레이 영역 주시, 다른 객체와 적어도 하나의 인터랙티브 행동 생성, 비디오 중의 적어도 일부 비디오 프레임에 나타나지 않음, 눈 감기 및 교육 과목의 디스플레이 영역 눈길 교류 중 적어도 하나의 유형을 포함한다.

가능한 구현 방식에 있어서, 검출 모듈은 타깃 객체를 포함하는 비디오 프레임을 얻기 위해 비디오에서 타깃 객체 검출을 수행하고; 타깃 객체가 포함된 비디오 프레임에서 적어도 하나의 유형의 학습 행동 검출을 수행하는데 사용된다.

가능한 구현 방식에 있어서, 학습 행동은 적어도 하나의 타깃 제스처를 실행하는 것을 포함하고; 검출 모듈은 또한, 타깃 객체를 포함하는 비디오 프레임에 대해 적어도 하나의 타깃 제스처의 검출을 수행하고; 적어도 하나의 타깃 제스처를 포함하는 연속 비디오 프레임의 개수가 제1 임계값을 초과하는 것으로 검출된 경우, 타깃 제스처를 포함하는 비디오 프레임 중 적어도 하나의 프레임을 제스처 시작 프레임으로 기록하며; 제스처 시작 프레임 이후의 비디오 프레임에서, 타깃 제스처를 포함하지 않는 연속 비디오 프레임의 개수가 제2 임계값을 초과하는 경우, 타깃 제스처를 포함하지 않는 비디오 프레임 중 적어도 하나의 프레임제스처 종료 프레임으로 기록하며; 제스처 시작 프레임과 제스처 종료 프레임의 개수에 따라, 비디오 중 타깃 객체가 적어도 하나의 타깃 제스처를 실행하는 횟수 및/또는 시간을 결정하도록 구성된다.

가능한 구현 방식에 있어서, 학습 행동은 타깃 감정 표현을 포함하고; 검출 모듈은 또한, 타깃 객체를 포함하는 비디오 프레임에 대해 표정 검출 및 미소값 검출 중 적어도 하나를 수행하고; 비디오 프레임 중 타깃 객체가 적어도 하나의 제1 타깃 표정 또는 미소값 검출의 결과가 타깃 미소값을 초과한 것으로 검출된 경우, 검출된 비디오 프레임을 제1 검출 프레임으로 사용하고; 연속적인 제1 검출 프레임의 개수가 제3 임계값을 초과한 것으로 검출된 경우, 타깃 객체가 타깃 감정을 가지고 있는 것으로 결정하도록 구성된다.

가능한 구현 방식에 있어서, 학습 행동은 교육 과목의 디스플레이 영역에 집중하는 것을 포함하고; 검출 모듈은 또한, 타깃 객체를 포함하는 비디오 프레임에 대해 표정 검출 및 얼굴 각도 검출을 수행하고; 비디오 프레임 중 타깃 객체가 적어도 하나의 제2 타깃 표정을 디스플레이하고, 얼굴 각도가 타깃 얼굴 각도 범위 내에 있는 것으로 검출된 경우, 검출된 비디오 프레임을 제2 검출 프레임으로 사용하고; 연속적인 제2 검출 프레임의 개수가 제4 임계값을 초과한 것으로 검출된 경우, 타깃 객체가 교육 과목의 디스플레이 영역에 집중하는 것으로 결정하도록 구성된다.

가능한 구현 방식에 있어서, 생성 모듈은 비디오 중 적어도 하나의 유형의 학습 행동을 포함하는 비디오 프레임을 획득하여, 타깃 비디오 프레임 세트로 사용하고; 타깃 비디오 프레임 세트 중 적어도 하나의 비디오 프레임에 대해 얼굴 품질 검출을 수행하여, 얼굴 품질 임계값보다 큰 얼굴 품질을 갖는 비디오 프레임을 타깃 비디오 프레임으로 사용하며; 타깃 비디오 프레임에 따라, 학습 상태 정보를 생성하도록 구성된다.

가능한 구현 방식에 있어서, 생성 모듈은 또한, 타깃 비디오 프레임 중 적어도 하나의 프레임을 학습 상태 정보로 사용하고; 및/또는, 적어도 하나의 프레임의 타깃 비디오 프레임에서 타깃 객체를이 위치한 영역을 인식하여, 타깃 객체가 위치한 영역을 기반으로, 학습 상태 정보를 생성하도록 구성된다.

가능한 구현 방식에 있어서, 검출 모듈은, 비디오에 대해 타깃 객체 검출을 수행하여, 타깃 객체를 포함하는 비디오 프레임을 얻고, 비디오에서 상기 타깃 객체를 포함하는 비디오 프레임을 제외한 비디오 프레임을, 타깃 객체가 검출되지 않는 비디오 프레임으로 사용하도록 구성되고; 타깃 객체가 검출되지 않은 비디오 프레임의 개수가 기설정된 비디오 프레임의 개수를 초과할 경우, 학습 행동을 검출하는 것은, 비디오 중의 적어도 일부 비디오 프레임에 나타나지 않는 것을 포함한다.

가능한 구현 방식에 있어서, 생성 모듈은, 타깃 객체가 적어도 하나의 유형의 학습 행동을 실행하는 시간이 시간 임계값보다 작지 않은 것으로 검출된 경우, 적어도 하나의 유형의 학습 행동의 지속 시간을 기록하고; 적어도 하나의 유형의 학습 행동에 대응하는 지속시간을, 학습 상태 정보로 사용하도록 구성된다.

가능한 구현 방식에 있어서, 장치는 또한, 비디오 중의 적어도 일부 비디오 프레임에서의 배경 영역을 렌더링하도록 구성되고, 배경 영역은 상기 비디오 프레임에서 타깃 객체를 제외한 영역이다.

가능한 구현 방식에 있어서, 장치는 또한, 적어도 하나의 타깃 객체를 학습 상태 정보로 통계하여, 적어도 하나의 타깃 객체의 통계 결과를 얻고; 적어도 하나의 타깃 객체의 통계 결과에 따라, 학습 상태 통계 데이터를 생성하도록 구성된다.

가능한 구현 방식에 있어서, 장치는 또한, 적어도 하나의 타깃 객체가 속하는 카테고리에 따라, 적어도 하나의 카테고리에 포함된 타깃 객체의 통계 결과를 획득하여, 적어도 하나의 카테고리의 학습 상태 통계 데이터를 생성하고 - 타깃 객체가 속하는 카테고리는 타깃 객체가 참여하는 과목, 타깃 객체가 등록한 기관 및 타깃 객체가 사용하는 기기 중 적어도 하나를 포함함 - ; 및/또는, 적어도 하나의 타깃 객체의 통계 결과를 가시화 처리하여, 적어도 하나의 타깃 객체의 학습 상태 통계 데이터를 생성하도록 구성된다.

논리를 위반하지 않는 경우, 본 출원의 상이한 실시예들은 상호 결합될 수 있고, 상이한 실시예의 설명은 강조되어 설명되며, 강조되어 설명된 부분은 다른 실시예의 설명을 참조할 수 있다.

본 발명의 일부 실시예에 있어서, 본 발명의 실시예에서 제공한 장치가 갖고 있는 기능 또는 포함하는 모듈은 전술한 방법 실시예에서 설명한 방법을 실행하는데 사용될 수 있고, 그 구체적인 구현 및 기술 효과는 전술한 방법 실시예의 설명을 참조할 수 있으며, 간결함을 위해, 여기서 더이상 반복하여 설명하지 않는다.

적용 시나리오 예

학생들이 학습하는 방식은 일반적으로 교사가 가르치고, 학생들이 수업을 듣는 방식이며, 수업 중 인터랙티브와 재미가 부족하여, 학생들이 수업에 흥미를 느끼지 못하며, 학생들의 실시간 표현을 통해 학생들에게 긍정적인 격려를 형성하지 못하는 것이다. 동시에, 교육 기관이나 교사는 학생의 수강 상태를 추적할 수 없으며 특히 코로나 영향으로 인해 학부모는 자녀의 학교 성적을 이해하지 못하며 학생들은 온라인 수업에서 많은 시간을 보내지만, 학생들이 실제로 수업에 참석하고 있는지, 수업을 집중하여 듣고 있는지, 수업 인터랙티브를 얼마나 잘 수행하는지 정량적으로 평가하는 것은 불가능하다. 따라서, 학생들의 학습 상태를 효과적으로 파악하는 방법은 현재 해결해야 할 시급한 문제가 된다.

본 발명의 적용예는 상술한 실시예에서 제안한 영상 처리 방법을 통해 학생들의 학습 상태를 효과적으로 파악할 수 있는 학습 시스템을 제안한다.

도 3은 본 발명의 일 응용예에 따른 모식도이다. 도면에서 도시된 바와 같이, 일례에서, 학습 시스템은 사용자 측, 교육용 소프트웨어 서비스(SaaS, Software-as-a-Service) 백엔드 및 인터랙티브 강의실 백엔드의 세 부분으로 구성된다. 여기서, 학생들은 클라이언트를 통해 교육 과목을 수강하고, 클라이언트에는 학습용 하드웨어 기기(예컨대, 그림에 Windows 시스템 또는 IOS 시스템 및 SDK의 클라이언트가 설치됨) 및 학생들이 온라인 강의실에 로그인할 수 있는 응용 프로그램(즉 그림의 사용자 앱)의 두 부분이 포함될 수 있습니다. 교육 SaaS 백엔드는 학생이 수강하는 교육 기관의 서버에서 구축한 플랫폼이 될 수 있으며, 인터랙티브 강의실 백엔드는 여러 교육 기관의 데이터를 집계하고 데이터 유지 보수를 수행하는 서버로 구축된 플랫폼이 될 수 있으며, 교육용 SaaS 백엔드이든 인터랙티브 강의실 백엔드이든 API 인터페이스를 통해 클라이언트와 데이터 인터랙티브를 수행할 수 있다. 따라서, 전술한 실시예에서 언급한 학습 상태 정보의 생성 및 학습 상태 통계 데이터의 생성이 구현된다.

본 발명의 응용 예에서, 학습 상태 정보의 생성 과정은,

클라이언트는 강의 과목을 수강하는 학생들의 동영상을 수집하고, 캡처한 비디오를 처리함으로써, 각 학생의 학습 상태 정보 획득하고, 교육 SaaS 백엔드 및 인터랙티브 강의실 백엔드는 API 인터페이스를 통해 상이한 클라이언트에서 생성된 학습 상태 정보를 호출하며, 전술한 실시예에서 언급한 임의의 방법을 통해 학습 상태 정보에 대한 통계 처리를 수행하여 학습 상태 통계 데이터를 생성한다.

일례에서, 클라이언트가 캡처한 비디오를 처리하여, 각 학생의 학습 상태 정보를 획득하는 과정은 A 및 B를 포함할 수 있다.

A에 있어서, 수업에서 학생들의 흥미 진진한 순간(즉, 위에서 언급한 긍정적인 학습 행동)을 얻는다.

일례에서, 학생들의 멋진 비디오 모음을 만들기 위해 특정 규칙을 정의할 수 있고, 학생들의 공연을 짧은 비디오 또는 멋진 사진으로 편집하여 학부모에게 제공할 수 있음으로써, 이러한 방식으로 학부모는 학생들의 수업 성적을 적시에 평가할 수 있으며, 결과가 좋으면 학생들이 관련 과목에 계속 참여하도록 권장할 수 있다.

일례에서, 학생들이 성공적으로 체크인한 후 학생들의 멋진 순간을 얻을 수 있으며, 다음 멋진 순간의 비디오 또는 사진이 백엔드 또는 클라우드에 업로드되는 동시에, 업로드된 멋진 순간의 내용을 학생들이 실시간으로 볼 수 있는지 여부도 선택할 수 있다. 일례에서, 멋진 순간을 정의하는 규칙에는 적어도 하나의 타깃 제스처 생성이 포함될 수 있으며, 타깃 제스처에는 손 들기, 좋아요, OK 제스처 및 Yeah 제스처 등이 포함될 수 있으며, 학생이 일정 시간 내에 위의 제스처를 수행하는 것으로 검출되면 제스처가 포함된 비디오에서 사진 또는 비디오 프레임을 추출할 수 있다. 기쁜 타깃 감정을 보여주고, 일정 시간 내에 학생의 표정이 기쁜 것으로 검출되고, 미소값이 특정 타깃 미소값(예컨대, 99점)에 도달하면, 기쁜 라벨이 있는 비디오 프레임 또는 타깃 미소값에 도달한 비디오 프레임에서 사진 또는 비디오 프레임 추출을 수행할 수 있다. 교육 코스의 디스플레이 영역에 집중하고, 학생의 얼굴 방향이 일정 시간 내에 계속하여 수정된 경우 즉, 머리 포즈가 특정 임계값 범위 내에 있는 경우, 이 기간 범위 내에서 비디오에서 사진 또는 비디오 프레임 추출을 수행할 수 있다.

B에 있어서, 학생들의 학습 상황을 검출한다(위에서 언급한 실시예에서 언급한 부정적인 학습 행동에 대해).

일례에서, 학생이 화면에 나타나지 않거나, 집중하지 않을 경우, 학생의 학습 상황을 감지하여 실시간으로 학부모에게 데이터를 푸시할 수 있으므로, 부모가 가장 빠른 시간에 자녀에게 집중하고 자녀의 나쁜 학습 습관을 적시에 바로 잡고 보조 감독 역할을 하는데 편리하다.

일례에서, 오랫동안 카메라 앞에 아무도 나타나지 않거나 화면을 보지 않거나 눈을 감는 등과 같은 학생의 학업 상태를 검출하는 과정이 학생이 성공적으로 체크인한 후 수행되면, 그 사람의 집중도가 낮은 것으로 판단할 수 있으며, 이 경우, 위의 학습 행동을 습득한 시간을 통계하여 학업 검출 결과로 사용하여 해당 학습 상태 데이터를 얻을 수 있다. 구체적인 학업 검출 구성 규칙은 상기 각 개시된 실시예를 참조할 수 있으며, 여기서 더이상 반복하지 않는다.

상기 개시된 예를 통해 멋진 순간과 학업 검출이 포함된 학습 상태 정보를 얻을 수 있으며, 나아가, 교육 SaaS 백엔드 및 인터랙티브 수업 백엔드는 API 인터페이스를 사용하여 상이한 사용자에서 생성된 학습 상태 정보를 호출하여 학습 상태 통계 데이터를 생성하는 과정은 C 및 D를 포함할 수 있다.

C에 있어서, 보고서를 생성한다(상기 개시된 실시예에서의 적어도 하나의 카테고리의 학습 상태 통계 데이터를 생성함).

일례에서, 백엔드 또는 클라우드 API는 기기, 코스, 기관 등과 같은 다양한 차원에서 학생 체크인 정보 및 학습 상태 정보를 볼 수 있으며, 주요 데이터 지표는 체크인 시간, 체크인 횟수, 얼굴 데이터베이스(즉, 상기 개시된 실시예에서 타깃 객체가 기설정된 데이터베이스의 얼굴과 일치한 경우), 체크인 기기, 체크인 코스, 집중 시간 및 미소 시간을 포함할 수 있다.

D에 있어서, 보고서를 분석한다(즉, 상기 개시된 실시예의 시각화 처리는 적어도 하나의 타깃 객체의 학습 상태에 대한 통계를 생성함).

일례에서, 교육 SaaS 백엔드 또는 인터랙티브 강의 백엔드에서 온라인 수업에서 학생의 성과를 완전한 학업 분석 보고서로 구성할 수 있다. 보고서는 시각적 그래픽 인터페이스를 통해 수업 시간에 학생들의 상황을 설명하며, 또한 백엔드는 더 나은 조건을 선택하여 이를 부모 또는 교사에게 푸시할 수 있음으로써, 기관 교사가 학생의 상태를 분석하여, 아이를 도와 학습 행동을 점차적으로 개선하는데 사용할 수 있다.

위의 과정 외에도 학습 시스템은 학생이 클라이언트를 통해 학습하는 동안 학생의 학습 비디오에 대한 배경 분할 처리를 수행할 수도 있다. 일례에서, 클라이언트는 라이브에 적합한 위치 배경이 없거나 개인 정보 보호를 위해 배경 이미지를 표시하지 않으려는 학생들을 위해 배경 분할 기능을 제공할 수 있다. 일례에서, 사용자 측의 SDK는 다양한 배경 템플릿을 지원할 수 있으며, 예를 들어, 여러 공동 템플릿을 미리 설정할 수 있으며, 일례에서, 학생들은 사용자 터미널을 통해 인터랙티브 강의 백엔드에서 사용자 지정 템플릿을 호출할 수도 있다. 일례에서, SDK는 사용자 측 APP에 배경 템플릿 미리보기 인터페이스를 제공할 수 있으므로, 학생들이 APP 미리보기에서 호출할 수 있는 맞춤형 템플릿을 사용하는 데 편리하며, 수업 과정에서 학생들은 클라이언트의 앱에 있는 배경 분할 스티커를 사용하여 라이브 배경을 렌더링할 수도 있으며, 예를 들어, 학생이 스티커를 좋아하지 않으면 수동으로 종료를 트리거할 수도 있다. 클라이언트의 앱은 스티커를 사용하여 학생의 데이터를 해당 백엔드(교육 SaaS 백엔드 또는 인터랙티브 강의 백엔드)에 보고할 수 있으며, 해당 백엔드는 학생들이 사용한 배경 스티커와 사용량을 분석하여, 추가 학습 상태 정보로 사용할 수 있다.

본 발명의 응용 예에서 제안하는 학습 시스템은 온라인 강의뿐만 아니라 온라인 회의와 같은 다른 관련 분야로도 확장될 수 있다.

이해할 수 있는 것은, 본 발명에서 언급한 상기 각 방법 실시예는, 원리 논리를 위반하지 않는 한, 상호 결합되어 결합된 실시예를 형성할 수 있고, 편폭의 제한으로, 본 발명에서 더이상 반복하여 설명하지 않는다.

본 분야의 기술자는 구체적인 실시형태의 상기 방법에서, 각 단계의 기록 순서는 엄격한 실행 순서를 의미하지 않고 실시 과정에 대한 임의의 제한을 구성하며, 각 단계의 구체적인 실행 순서는 그 기능 및 가능한 내부 논리에 의해 결정된다.

본 발명 실시예는 또한 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 프로세서에 의해 실행될 때 상기 이미지 처리 방법을 구현한다. 컴퓨터 판독 가능 저장 매체는 휘발성 컴퓨터 판독 가능한 저장 매체 또는 비휘발성 컴퓨터 판독 가능한 저장 매체일 수 있다.

본 발명 실시예는 또한 전자 기기를 제공하며, 프로세서; 및 프로세서 실행 가능 명령어를 저장하기 위한 메모리를 포함하며; 여기서, 상기 프로세서는 상기 이미지 처리 방법을 실행하도록 구성된다.

본 발명의 실시예는 또한, 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 판독 가능한 코드가 전자 기기에서 작동될 때, 상기 전자 기기의 프로세서는 상기 방법을 실행한다.

실제 적용에서, 상기 메모리는 RAM과 같은 휘발성 메모리(volatile memory), 또는 ROM, 플래시 메모리(flash memory), 하드 디스크(Hard Disk Drive, HDD) 또는 솔리드 스테이트 드라이브(Solid-State Drive, SSD)와 같은 비휘발성 메모리(non-volatile memory), 또는 상기 타입의 메모리의 조합일 수 있으며, 프로세서에 명령어 및 데이터를 제공한다.

상기 프로세서는 ASIC, DSP, DSPD, PLD, FPGA, CPU, 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 중 적어도 하나일 수 있다. 이해할 수 있는 것은, 상이한 기기에 대해, 상기 프로세서 기능을 구현하기 위한 전자 소자는 다른 기기일 수 있으며, 본 발명의 실시예에서 특별히 한정하지 않는다.

전자 기기는 단말, 서버 또는 다른 형태의 기기로 제공될 수 있다.

전술한 실시예와 동일한 기술적 개념에 기반하여, 본 발명의 실시예는 컴퓨터 프로그램이 프로세서에 의해 실행될 때 전술한 방법을 구현하는 컴퓨터 프로그램도 제공한다.

도 4는 본 발명의 실시예에 따른 전자 기기(800)의 블록도를 도시한다. 예를 들어, 전자 기기(800)는 휴대폰, 컴퓨터, 디지털 방송 단말, 메시지 송수신 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 운동 기기, 개인 휴대 정보 단말 등 단말일 수 있다.

도 4를 참조하면, 전자 기기(800)는 처리 컴포넌트(802), 메모리(804), 전원 컴포넌트(806), 멀티미디어 컴포넌트(808), 오디오 컴포넌트(810), 입력/출력(I/O) 인터페이스(812), 센서 컴포넌트(814), 및 통신 컴포넌트(816) 중 하나 또는 복수 개를 포함할 수 있다.

처리 컴포넌트(802)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 같은 전자 기기(800)의 전반적인 동작을 제어한다. 처리 컴포넌트(802)는 상기 이미지 재구성 방법 단계의 전부 또는 일부를 구현하기 위한 명령어를 실행하기 위한 하나 또는 복수 개의 프로세서(820)를 포함할 수 있다. 또한, 처리 컴포넌트(802)는 처리 컴포넌트(802) 및 다른 컴포넌트 사이의 인터랙션을 용이하게 하기 위한 하나 또는 복수 개의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(802)는 멀티미디어 컴포넌트(808) 및 처리 컴포넌트(802) 사이의 인터랙션을 용이하게 하기 위한 멀티미디어 모듈을 포함할 수 있다.

메모리(804)는 전자 기기(800)의 동작을 지원하기 위해 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예는 전자 기기(800)에서 동작하는 임의의 애플리케이션 프로그램 또는 방법의 명령어, 연락인 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(804)는 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 전기적 소거 가능한 프로그래머블 읽기 전용 메모리(Electrically Erasable Programmable Read Only Memory, EEPROM), 소거 가능한 프로그래머블 읽기 전용 메모리(Erasable Programmable Read Only Memory, EPROM), 프로그래머블 읽기 전용 메모리(Programmable Read Only Memory, PROM), 읽기 전용 메모리(Read Only Memory, ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광 디스크 중 어느 한 타입의 휘발성 또는 비휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.

전원 컴포넌트(806)는 전자 기기(800)의 다양한 컴포넌트에 전력을 제공한다. 전원 컴포넌트(806)는 전원 관리 시스템, 하나 또는 복수 개의 전원 및 전자 기기(800)를 위해 전력을 생성, 관리 및 분배하는 것과 관련된 다른 컴포넌트를 포함할 수 있다.

멀티미디어 컴포넌트(808)는 상기 전자 기기(800) 및 사용자 사이의 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정 모니터(Liquid Crystal Display, LCD) 및 터치 패널(Touch Panel, TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터의 입력 신호를 수신하기 위해 스크린은 터치 스크린으로서 구현될 수 있다. 터치 패널은 터치, 스와이프 및 터치 패널 상의 제스처를 감지하기 위한 하나 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 스와이프 동작의 경계를 감지할 뿐만 아니라 상기 터치 또는 스와이프 동작과 관련된 지속 시간 및 압력을 감지할 수 있다. 일부 실시에에 있어서, 멀티미디어 컴포넌트(808)는 하나의 전방 카메라 및 하나의 후방 카메라 중 적어도 하나를 포함한다. 전자 기기(800)가 촬영 모드 또는 비디오 모드와 같은 동작 모드에 있을 경우, 전방 카메라 및 후방 카메라 중 적어도 하나는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전방 카메라 및 후방 카메라는 하나의 고정된 광학 렌즈 시스템이거나 초점 거리 및 광학 줌 기능을 구비할 수 있다.

오디오 컴포넌트(810)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들어, 오디오 컴포넌트(810)는 하나의 마이크(MIC)를 포함하고, 전자 기기(800)가 통화 모드, 녹음 모드 및 음성 인식과 같은 동작 모드에 있을 때 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(804)에 추가로 저장되거나 통신 컴포넌트(816)에 의해 송신될 수 있다. 일부 실시예에 있어서, 오디오 컴포넌트(810)는 오디오 신호를 출력하기 위한 하나의 스피커를 더 포함한다.

I/O 인터페이스(812)는 처리 컴포넌트(802)와 외부 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 외부 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼에는 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼이 포함되지만 이에 한정되지 않는다.

센서 컴포넌트(814)는 전자 기기(800)를 위한 다양한 측면의 상태 평가를 제공하기 위한 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(814)는 전자 기기(800)의 온/오프 상태, 컴포넌트의 상대 위치를 검출할 수 있으며, 예를 들어, 상기 컴포넌트는 전자 기기(800)의 모니터와 키패드이며, 센서 컴포넌트(814)는 전자 기기(800) 또는 전자 기기(800)에서 하나의 컴포넌트의 위치 변화, 사용자와 전자 기기(800) 접촉의 존재 유무, 전자 기기(800) 방향 또는 가속/감속 및 전자 기기(800)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(814)는 그 어떤 물리적 접촉이 없이 근처의 물체의 존재를 검출하도록 구성된 근접 센서를 포함할 수 있다. 센서 컴포넌트(814)는 이미징 애플리케이션에 사용하기 위한 상보성 금속 산화막 반도체(Complementary Metal Oxide Semiconductor, CMOS) 이미지 센서 또는 전하 결합 소자(Charged Coupled Device, CCD) 이미지 센서와 같은 광 센서를 더 포함할 수 있다. 일부 실시에에 있어서, 상기 센서 컴포넌트(814)는 가속도 센서, 자이로스코프 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.

통신 컴포넌트(816)는 전자 기기(800) 및 다른 기기 사이의 유선 또는 무선 방식의 통신이 용이하도록 구성된다. 전자 기기(800)는 WiFi, 2G, 3G, 4G 또는 이들의 조합과 같은 통신 기준에 기반한 무선 인터넷에 액세스할 수 있다. 하나의 예시적인 실시예에서, 통신 컴포넌트(816)는 방송 채널을 통해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 인원 정보를 수신한다. 예시적 실시예에서, 상기 통신 컴포넌트(816)는 근거리 통신을 추진하는 근거리 무선 통신(Near Field Communication, NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별자(Radio Frequency Identification, RFID) 기술, 적외선 통신 규격(Infrared Data Association, IrDA) 기술, 초광대역(Ultra Wideband, UWB) 기술, 블루투스(Bluetooth, BT) 기술 및 다른 기술을 기반으로 구현될 수 있다.

예시적 실시예에서, 전자 기기(800)는 상기 이미지 재구성 방법을 실행하기 위해, 하나 또는 복수 개의 주문형 집적 회로(ApplicationSpecificIntegratedCircuit, ASIC), 디지털 신호 프로세서(Digital Signal Processor, DSP), 디지털 신호 처리 장치(Digital Signal Processing Devices, DSPD), 프로그래머블 논리 장치(Programmable Logic Device, PLD), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 소자에 의해 구현될 수 있다.

예시적 실시예에서 또한, 컴퓨터 프로그램 명령어를 포함하는 메모리(804)와 같은 비휘발성 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 상기 이미지 재구성 방법을 완성하기 위해 전자 기기(800)의 프로세서(820)에 의해 실행될 수 있다.

도 5는 본 발명의 실시예에 따른 전자 기기(1900)의 블록도를 도시한다. 예를 들어, 전자 기기(1900)는 하나의 서버로 제공될 수 있다. 도 5를 참조하면, 전자 기기(1900)는 하나 또는 복수 개의 프로세서를 더 포함하는 처리 컴포넌트(1922), 및 처리 컴포넌트(1922)에 의해 실행되는 명령어를 저장하기 위한 메모리(1932)로 대표되는 메모리 자원을 포함한다. 메모리(1932)에 저장된 애플리케이션은 하나 또는 하나 이상의 한 세트의 명령어에 각각 대응되는 모듈을 포함할 수 있다. 또한, 처리 컴포넌트(1922)는 상기 이미지 재구성 방법을 실행하기 위해 명령어를 실행하도록 구성된다.

전자 기기(1900)는 전자 기기(1900)의 전원 관리를 실행하도록 구성된 하나의 전원 컴포넌트(1926), 전자 기기(1900)를 네트워크에 연결하도록 구성된 하나의 유선 또는 무선 네트워크 인터페이스(1950) 및 하나의 입력 출력(I/O) 인터페이스(1958)를 더 포함할 수 있다. 전자 기기(1900)는 예를 들어 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 것 등과 같은 메모리(1932)에 저장된 것에 기반한 운영 시스템을 조작할 수 있다.

예시적 실시예에 있어서, 컴퓨터 프로그램 명령어를 포함하는 메모리(1932)와 같은 비휘발성 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 상기 이미지 재구성 방법을 완료하도록 전자 기기(1900)의 처리 컴포넌트(1922)에 의해 실행된다.

본 출원은 시스템, 방법 및/또는 컴퓨터 프로그램 제품일 수 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독 가능한 저장 매체를 포함할 수 있고, 컴퓨터 판독 가능한 저장 매체는 프로세서가 본 발명의 각 측면을 구현하도록 하는 컴퓨터 판독 가능한 프로그램 명령어를 포함한다.

컴퓨터 판독 가능 저장 매체는 명령어 실행 기기에 의해 실행되는 명령어를 유지 및 저장할 수 있는 타입의 기기일 수 있다. 컴퓨터 판독 가능한 저장 매체는 예를 들어 축전 기기, 자기 저장 기기, 광 저장 기기, 전자기 저장 기기, 반도체 저장 기기 또는 전술한 축전 기기, 자기 저장 기기, 광 저장 기기, 전자기 저장 기기, 반도체 저장 기기의 임의의 적절한 조합일 수 있지만 이에 한정되지 않는다. 컴퓨터 판독 가능한 저장 매체의 더 구체적인 예는(비제한 리스트), 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(Random Access Memory, RAM), 판독 전용 메모리(Read Only Memory, ROM) 및 소거 가능하고 프로그램 가능한 판독 전용 메모리((Erasable Programmable Read Only Memory, EPROM) 또는 플래시 메모리), 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 휴대용 컴팩트 디스크 판독 전용 메모리(Portable Compact Disk Read-Only Memory, CD-ROM), DVD (Digital Versatile Disk), 메모리 스틱, 플로피 디스크, 명령어가 저장된 장치와 같은 기계적 코딩 장치 홀 카드 또는 그루브에서의 볼록한 구조 및 전술한 임의의 적절한 조합을 포함한다. 여기서 사용되는 컴퓨터 판독 가능한 저장 매체는 무선 전자파 또는 다른 자유롭게 전파되는 전자기파, 도파관 또는 다른 전송 매체를 통해 전파되는 전자기파(예를 들어, 광섬유 케이블을 통한 광펄스), 또는 와이어를 통해 전송되는 전기 신호와 같은 순간 신호 자체로 해석되지 않아야 한다.

여기서 설명한 컴퓨터 판독 가능한 프로그램 명령어는 컴퓨터 판독 가능한 저장 매체로부터 각 컴퓨팅/처리 기기로 다운 로드될 수 있거나, 인터넷, 근거리 통신망, 광역 통신망 및 무선 네트워크 중 적어도 하나와 같은 네트워크를 통해, 외부 컴퓨터 또는 외부 저장 기기로 다운 로드될 수 있다. 네트워크는 동 전송 케이블, 광섬유 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및 에지 서버 중 적어도 하나를 포함할 수 있다. 각 컴퓨팅/처리 기기의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크로부터 컴퓨터 판독 가능한 프로그램 명령어를 수신하고, 각 컴퓨팅/처리 기기에서의 컴퓨터 판독 가능한 저장 매체에 저장하기 위해, 컴퓨터 판독 가능한 프로그램 명령어를 전달한다.

본 발명의 동작을 실행하기 위한 컴퓨터 프로그램 명령어는 어셈블리 명령어, 명령어 세트 아키텍처(Instruction Set Architecture, ISA) 명령어, 머신 명령어, 머신 관련 명령어, 마이크로 코드, 펌웨어 명령어, 상태 설정 데이터, 또는 하나 또는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 객체 코드일 수 있고, 상기 프로그래밍 언어에는 스몰 토크, C++ 등과 같은 객체 지향 프로그래밍 언어 및 "C" 언어 또는 유사한 프로그래밍 언어와 같은 기존 프로그래밍 언어가 포함된다. 컴퓨터 판독 가능 프로그램 명령어는 사용자 컴퓨터에서 완전히 실행되거나, 사용자 컴퓨터에서 부분적으로 실행되거나, 독립적인 소프트웨어 패키지로서 실행되거나, 사용자 컴퓨터에서 일부가 실행되고 원격 컴퓨터에서 일부가 실행되거나, 원격 컴퓨터 또는 서버에서 완전히 실행될 수 있다. 원격 컴퓨터와 관련된 상황에서 원격 컴퓨터는 근거리 통신망(Local Area Network, LAN) 또는 광대역 통신망(Wide Area Network, WAN)을 포함하는 모든 타입의 네트워크를 통해 사용자 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어 인터넷 서비스 제공 업체를 사용하여 인터넷을 통해 연결). 일부 실시예에 있어서, 프로그램 가능한 논리 회로, 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA) 또는 프로그램 가능한 논리 어레이 (Programmable Logic Array, PLA)와 같은 전자 회로는 컴퓨터 판독 가능 프로그램 명령어의 상태 정보를 이용하여 개인화될 수 있고, 상기 전자 회로는 컴퓨터 판독 가능 프로그램 명령어를 실행할 수 있음으로써, 본 발명의 다양한 측면을 구현한다.

본 발명은 본 발명의 실시예의 방법, 기기(시스템), 및 컴퓨터 프로그램 제품에 따른 흐름도 및 블록도 중 적어도 하나를 참조하여 설명된다. 이해해야 할 것은, 흐름도 및/또는 블록도의 각 블록 및 흐름도 및/또는 블록도의 각 블록의 조합은, 모두 컴퓨터 판독 가능 프로그램 명령어에 의해 구현될 수 있다.

이러한 컴퓨터 판독 가능 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터 또는 다른 프로그래머블 데이터 처리 장치의 프로세서에 제공됨으로써, 기계를 생성하며, 이러한 명령어가 컴퓨터나 다른 프로그래머블 데이터 처리 장치의 프로세서를 통해 실행될 때, 흐름도 및 블록도 중 하나 또는 복수 개의 블록에서 규정한 기능/동작을 구현하기 위한 장치를 생성한다. 이러한 컴퓨터 판독 가능 프로그램 명령어를 컴퓨터 판독 가능 저장 매체에 저장할 수도 있으며, 이러한 명령어는 컴퓨터, 프로그래머블 데이터 처리 장치 및 다른 기기 중 적어도 하나로 하여금 특정 방식으로 작업하도록 함으로써, 명령어가 저장된 컴퓨터 판독 가능 매체는 흐름도 및 블록도 중 하나 또는 복수 개의 블록에서 규정된 기능/동작의 각 측면의 명령어를 포함하는 제조물품을 포함한다.

컴퓨터 판독 가능프로그램 명령어는 컴퓨터, 다른 프로그래머블 데이터 처리 장치, 또는 다른 기기에 로딩되어, 컴퓨터, 다른 프로그래머블 데이터 처리 장치 또는 다른 기기에서 일련의 동작 단계가 실행되도록 하여, 컴퓨터가 구현하는 과정을 생성함으로써, 컴퓨터, 다른 프로그래머블 데이터 처리 장치, 또는 다른 기기에서 실행되는 명령어로 하여금 흐름도 및 블록도 중 하나 또는 복수 개의 블록에서 규정된 기능/동작을 구현하도록 한다.

도면의 흐름도 및 블록도는 본 발명의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계 아키텍처, 기능 및 동작을 디스플레이한다. 이와 관련하여, 흐름도 또는 블록도의 각 블록은 모듈, 프로그램 세그먼트 또는 명령어의 일부를 나타낼 수 있고, 상기 모듈, 프로그램 세그먼트 또는 명령어의 일부는 하나 또는 복수 개의 지정된 논리적 기능을 구현하기 위한 실행 가능한 명령어를 포함한다. 일부 대안적인 구현에서, 블록에 표시된 기능은 도면에 표시된 것과 다른 순서로 발생할 수도 있다. 예를 들어, 두 개의 연속적인 블록은 실제로 병렬로 실행될 수 있으며, 때로는 관련 기능에 따라 역순으로 실행될 수도 있으며, 이는 관련된 기능에 의해 결정된다. 또한 유의해야 할 것은, 블록도 및 흐름도 중 적어도 하나에서의 각 블록, 및 블록도 및 흐름도 중 적어도 하나에서의 블록의 조합은, 지정된 기능 또는 동작의 전용 하드웨어 기반의 시스템에 의해 구현될 수 있거나, 전용 하드웨어와 컴퓨터 명령어의 조합으로 구현될 수 있다.

이상 본 발명의 각 실시예를 설명하였고, 상기 설명은 예시적이고, 비철저하며, 개시된 각 실시예에 한정되지도 않는다. 설명된 각 실시예의 범위 및 사상을 벗어나지 않는 한, 많은 수정 및 변경은 본 기술분야의 기술자에게는 자명한 것이다. 본 명세서에서 사용된 용어의 선택은 각 실시예의 원리, 실제 응용 또는 시장에서의 기술에 대한 기술 개선을 가장 잘 해석하거나, 당업자가 본 명세서에 개시된 각 실시예를 이해할 수 있도록 의도된다.

Claims

비디오 처리 방법으로서,
비디오를 획득하는 단계 - 상기 비디오 내의 적어도 일부 비디오 프레임은 타깃 객체를 포함함 - ;
상기 비디오에 따라, 교육 과목을 수강하는 과정에서 상기 타깃 객체의 적어도 하나의 유형의 학습 행동을 검출하는 단계;
적어도 하나의 유형의 학습 행동이 상기 타깃 객체에 의해 실행되는 것을 검출하는 경우, 상기 적어도 하나의 유형의 학습 행동을 포함하는 적어도 일부 비디오 프레임 및 상기 적어도 하나의 유형의 학습 행동이 상기 타깃 객체에 의해 실행되는 지속 시간 중 적어도 하나에 따라, 학습 상태 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 비디오 처리 방법.
제1항에 있어서,
상기 학습 행동은, 적어도 하나의 타깃 제스처 실행, 타깃 감정 표현, 상기 교육 과목의 디스플레이 영역 주시, 다른 객체와 적어도 하나의 인터랙티브 행동 생성, 상기 비디오 중의 적어도 일부 비디오 프레임에 나타나지 않음, 눈 감기 및 상기 교육 과목의 디스플레이 영역 내에서 눈길 교류 중 적어도 하나의 유형을 포함하는 것을 특징으로 하는 비디오 처리 방법.
제1항 또는 제2항에 있어서,
상기 비디오에 따라, 상기 타깃 객체의 적어도 하나의 유형의 학습 행동을 검출하는 단계는,
상기 비디오에 대해 타깃 객체 검출을 수행하여, 상기 타깃 객체를 포함하는 비디오 프레임을 얻는 단계; 및
상기 타깃 객체를 포함하는 비디오 프레임에 대해 적어도 하나의 유형의 학습 행동 검출을 수행하는 단계를 포함하는 것을 특징으로 하는 비디오 처리 방법.
제3항에 있어서,
상기 학습 행동은 적어도 하나의 타깃 제스처를 실행하는 것을 포함하고;
상기 타깃 객체를 포함하는 비디오 프레임에 대해 적어도 하나의 유형의 학습 행동 검출을 수행하는 단계는,
상기 타깃 객체를 포함하는 비디오 프레임에 대해, 적어도 하나의 타깃 제스처의 검출을 수행하는 단계;
적어도 하나의 상기 타깃 제스처를 포함하는 연속 비디오 프레임의 개수가 제1 임계값을 초과하는 것을 검출하는 경우, 상기 타깃 제스처를 포함하는 비디오 프레임 중 적어도 하나의 프레임을 제스처 시작 프레임으로 기록하는 단계;
제스처 시작 프레임 이후의 비디오 프레임에서, 상기 타깃 제스처를 포함하지 않는 연속 비디오 프레임의 개수가 제2 임계값을 초과하는 경우, 상기 타깃 제스처를 포함하지 않는 비디오 프레임 중 적어도 하나의 프레임을 제스처 종료 프레임으로 기록하는 단계; 및
상기 제스처 시작 프레임과 상기 제스처 종료 프레임의 개수에 따라, 상기 비디오에서 상기 타깃 객체에 의해 실행되는 적어도 하나의 타깃 제스처의 횟수 및 시간 중 적어도 하나를 결정하는 단계를 포함하는 것을 특징으로 하는 비디오 처리 방법.
제3항 또는 제4항에 있어서,
상기 학습 행동은 타깃 감정 표현을 포함하고;
상기 타깃 객체를 포함하는 비디오 프레임에 대해 적어도 하나의 유형의 학습 행동 검출을 수행하는 단계는,
상기 타깃 객체를 포함하는 비디오 프레임에 대해, 표정 검출 및 미소값 검출 중 적어도 하나를 수행하는 단계;
비디오 프레임에서 상기 타깃 객체에 의해 디스플레이된 적어도 하나의 제1 타깃 표정 또는 미소값 검출의 결과가 타깃 미소값을 초과한 것을 검출하는 경우, 검출된 비디오 프레임을 제1 검출 프레임으로 사용하는 단계; 및
연속적인 상기 제1 검출 프레임의 개수가 제3 임계값을 초과한 것을 검출하는 경우, 상기 타깃 객체를이 상기 타깃 감정을 생성하는 것으로 결정하는 단계를 포함하는 것을 특징으로 하는 비디오 처리 방법.
제3항 내지 제5항 중 어느 한 항에 있어서,
상기 학습 행동에는 상기 교육 과목의 디스플레이 영역을 주시하는 것이 포함되고;
상기 타깃 객체를 포함하는 비디오 프레임에 대해 적어도 하나의 유형의 학습 행동 검출을 수행하는 단계는,
상기 타깃 객체를 포함하는 비디오 프레임에 대해, 표정 검출 및 얼굴 각도 검출을 수행하는 단계;
비디오 프레임에서 상기 타깃 객체가 적어도 하나의 제2 타깃 표정을 디스플레이하는 동시에, 얼굴 각도가 타깃 얼굴 각도 범위 내에 있는 것을 검출하는 경우, 검출된 비디오 프레임을 제2 검출 프레임으로 사용하는 단계; 및
연속적인 상기 제2 검출 프레임의 개수가 제4 임계값을 초과하는 것을 검출하는 경우, 상기 타깃 객체가 상기 교육 과목의 디스플레이 영역을 주시하는 것으로 결정하는 단계를 포함하는 것을 특징으로 하는 비디오 처리 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 적어도 하나의 유형의 학습 행동을 포함하는 적어도 일부 비디오 프레임에 따라, 학습 상태 정보를 생성하는 단계는,
상기 비디오에서 적어도 하나의 유형의 학습 행동을 포함하는 비디오 프레임을 획득하여, 타깃 비디오 프레임 세트으로 사용하는 단계;
상기 타깃 비디오 프레임 세트 중 적어도 하나의 비디오 프레임에 대해 얼굴 품질 검출을 수행하여, 얼굴 품질 임계값보다 큰 얼굴 품질을 갖는 비디오 프레임을 타깃 비디오 프레임으로 사용하는 단계; 및
상기 타깃 비디오 프레임에 따라, 상기 학습 상태 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 비디오 처리 방법.
제7항에 있어서,
상기 타깃 비디오 프레임에 따라, 상기 학습 상태 정보를 생성하는 단계는,
상기 타깃 비디오 프레임 중 적어도 하나의 프레임을 학습 상태 정보로 사용하는 단계; 및,
적어도 하나의 프레임의 상기 타깃 비디오 프레임에서 상기 타깃 객체를이 위치한 영역을 인식하여, 상기 타깃 객체가 위치한 영역을 기반으로, 상기 학습 상태 정보를 생성하는 단계 중 적어도 하나를 포함하는 것을 특징으로 하는 비디오 처리 방법.
제1항 또는 제2항에 있어서,
상기 비디오에 따라, 상기 타깃 객체의 적어도 하나의 유형의 학습 행동을 검출하는 단계는,
상기 비디오에 대해 타깃 객체 검출을 수행하여, 상기 타깃 객체를 포함하는 비디오 프레임을 얻고, 상기 비디오에서 상기 타깃 객체를 포함하는 비디오 프레임을 제외한 비디오 프레임을, 타깃 객체가 검출되지 않는 비디오 프레임으로 사용하는 단계;
상기 타깃 객체가 검출되지 않는 비디오 프레임의 개수가 기설정된 비디오 프레임의 개수를 초과할 경우, 상기 학습 행동을 검출한다는 것은, 상기 비디오 중의 적어도 일부 비디오 프레임에 나타나지 않는다 것을 포함하는 것을 특징으로 하는 비디오 처리 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 타깃 객체가 상기 적어도 하나의 유형의 학습 행동을 실행하는 지속 시간에 따라, 학습 상태 정보를 생성하는 단계는,
상기 타깃 객체가 적어도 하나의 유형의 학습 행동을 실행하는 시간이 시간 임계값보다 작지 않은 것으로 검출된 경우, 적어도 하나의 유형의 상기 학습 행동의 지속 시간을 기록하는 단계; 및
적어도 하나의 유형의 상기 학습 행동에 대응하는 상기 지속 시간을, 상기 학습 상태 정보로 사용하는 단계를 포함하는 것을 특징으로 하는 비디오 처리 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 비디오 처리 방법은,
상기 비디오 중의 적어도 일부 비디오 프레임에서의 배경 영역을 렌더링하는 단계 - 상기 배경 영역은 상기 비디오 프레임에서 상기 타깃 객체를 제외한 영역임 - 를 더 포함하는 것을 특징으로 하는 비디오 처리 방법.
제1항 내지 제11항 중 어느 한 항에 있어서,
상기 비디오 처리 방법은,
적어도 하나의 상기 타깃 객체의 학습 상태 정보를 통계하여, 적어도 하나의 상기 타깃 객체의 통계 결과를 얻는 단계; 및
적어도 하나의 상기 타깃 객체의 통계 결과에 따라, 학습 상태 통계 데이터를 생성하는 단계를 더 포함하는 것을 특징으로 하는 비디오 처리 방법.
제12항에 있어서,
상기 적어도 하나의 상기 타깃 객체의 통계 결과에 따라, 학습 상태 통계 데이터를 생성하는 단계는,
적어도 하나의 상기 타깃 객체가 속하는 카테고리에 따라, 적어도 하나의 상기 카테고리에 포함된 타깃 객체의 통계 결과를 획득하여, 적어도 하나의 카테고리의 학습 상태 통계 데이터를 생성하는 단계 - 상기 타깃 객체가 속하는 카테고리는 상기 타깃 객체가 참여하는 과목, 상기 타깃 객체가 등록한 기관 및 상기 타깃 객체가 사용하는 기기 중 적어도 하나를 포함함 - ; 및,
적어도 하나의 상기 타깃 객체의 통계 결과에 대해 가시화 처리를 수행하여, 적어도 하나의 상기 타깃 객체의 학습 상태 통계 데이터를 생성하는 단계 중 적어도 하나를 포함하는 것을 특징으로 하는 비디오 처리 방법.
비디오 처리 장치로서,
비디오를 획득하기 위한 비디오 획득 모듈 - 상기 비디오 내의 적어도 일부 비디오 프레임은 타깃 객체를 포함함 - ;
상기 비디오에 따라, 교육 과목을 수강하는 과정에서 상기 타깃 객체의 적어도 하나의 유형의 학습 행동을 검출하기 위한 검출 모듈; 및
적어도 하나의 유형의 학습 행동이 상기 타깃 객체에 의해 실행되는 것을 검출하는 경우, 상기 적어도 하나의 유형의 학습 행동을 포함하는 적어도 일부 비디오 프레임 및 상기 적어도 하나의 유형의 학습 행동이 상기 타깃 객체에 의해 실행되는 지속 시간 중 적어도 하나에 따라, 학습 상태 정보를 생성하기 위한 생성 모듈을 포함하는 것을 특징으로 하는 비디오 처리 장치.
전자 기기로서,
프로세서; 및
프로세서에서 실행 가능한 명령어를 저장하기 위한 메모리를 포함하며;
상기 프로세서는 상기 메모리에 저장된 명령어를 호출함으로써, 제1항 내지 제12항 중 어느 한 항에 따른 비디오 처리 방법을 실행하도록 구성된 것을 특징으로 하는 전자 기기.
컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능 저장 매체로서,
상기 컴퓨터 프로그램 명령어가 프로세서에 의해 실행될 때 제1항 내지 제13항 중 어느 한 항에 따른 비디오 처리 방법을 실행하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램으로서,
상기 컴퓨터 판독 가능한 코드가 전자 기기에서 작동될 때, 상기 전자 기기의 프로세서는 제1항 내지 제13항 중 어느 한 항에 따른 비디오 처리 방법을 실행하는 것을 특징으로 하는 컴퓨터 프로그램.