KR20160055337A

KR20160055337A - 텍스트 표시 방법 및 그 전자 장치

Info

Publication number: KR20160055337A
Application number: KR1020140154544A
Authority: KR
Inventors: 남궁보람; 김은곤; 백명석
Original assignee: 삼성전자주식회사
Priority date: 2014-11-07
Filing date: 2014-11-07
Publication date: 2016-05-18
Also published as: US20160133257A1

Abstract

다양한 실시 예들에 따르면, 전자 장치의 동작 방법에 있어서, 적어도 둘 이상의 마이크로부터 수집된 음성을 기반으로 획득된 게인 값을 비교하는 동작; 상기 비교한 게인 값을 기반으로, 디스플레이된 콘텐츠에 포함된 화자를 결정하는 동작; 및 상기 결정된 화자의 주변의 영역에 상기 화자의 음성을 텍스트로 디스플레이하는 동작을 포함할 수 있다. 다른 실시 예들이 가능하다.

Description

텍스트 표시 방법 및 그 전자 장치 {METHOD FOR DISPLAYING TEXT AND ELECTRONIC DEVICE THEREOF}

본 발명의 다양한 실시 예들은 텍스트를 표시하는 방법 및 그 전자 장치에 관한 것이다.

전자 장치의 기능을 발전하면서, 전자 장치 하나로 다양한 기능을 수행할 수 있게 되었다. 예를 들면, 전자 장치로 통화를 수행할 수 있고, 문자 메시지를 송수신할 수 있으며, 게임, 인터넷 및 다양한 동영상을 디스플레이하거나 고화질의 이미지 또는 동영상을 촬영할 수 있게 되었다.

상술한 예 중에서, 사용자의 현재의 모습을 남기기 위해서, 전자 장치의 카메라 촬영 기능이 가장 각광받고 있는 기술 분야 중 하나로 떠오르고 있다. 예를 들면, 전자 장치에서는 동영상을 촬영할 때, 주변에서 획득되는 음성을 텍스트 형식으로 표시해주는 기능까지 출시되고 있다.

다양한 실시 예에 따르면, 전자 장치에서 동영상을 촬영할 때, 주변에서 획득되는 음성을 동영상에 첨부하고자 하는 경우, 동영상을 촬영하는 작업 후에 음성만을 따로 녹음하는 별도의 작업이 요청되고 있는 실정이다.

본 발명의 다양한 실시 예들은 콘텐츠를 촬영 시, 구비된 적어도 둘 이상의 마이크로부터 획득된 게인 값, 얼굴 인식 정보, 음성 주파수 등을 이용하여, 콘텐츠에 포함된 화자를 결정한 후, 설정된 공간에 화자의 음성을 텍스트로 디스플레이하여, 음성 정보를 청각 장애인도 손쉽게 확인할 수 있는 장치 및 방법을 제공하고자 한다.

본 발명의 다양한 실시 예들은 콘텐츠를 촬영하면서 동시에 음성 정보를 획득할 수 있어, 사용자의 편의성을 향상시켜 줄 수 있는 장치 및 방법을 제공하고자 한다.

본 발명의 다양한 실시 예들은 저장된 콘텐츠를 사용자의 기호에 맞게 편집할 수 있어, 사용자의 다양한 욕구를 충족시켜 줄 수 있는 장치 및 방법을 제공하고자 한다.

본 발명의 실시 예들에 따르면, 전자 장치의 동작 방법에 있어서, 콘텐츠 촬영 동작을 감지한 경우, 적어도 둘 이상의 마이크로부터 수집된 음성을 기반으로 획득된 게인 값을 비교하는 동작; 상기 비교한 게인 값을 기반으로, 촬영된 콘텐츠에 포함된 화자를 결정하는 동작; 및 상기 결정된 화자 주변의 영역에 상기 화자의 음성을 텍스트로 디스플레이하는 동작을 포함할 수 있다.

본 발명의 실시 예들에 따르면, 전자 장치에 있어서, 콘텐츠 촬영 동작을 감지한 경우, 적어도 둘 이상의 마이크로부터 수집된 음성을 기반으로 획득된 게인 값을 비교하고, 상기 비교한 게인 값을 기반으로, 촬영된 콘텐츠에 포함된 화자를 결정하는 프로세서; 및 상기 결정된 화자의 설정된 영역에 상기 화자의 음성을 텍스트로 표시하는 디스플레이를 포함할 수 있다.

도 1은 다양한 실시 예에 따른, 전자 장치 101를 포함하는 네트워크 환경 100을 도시한다.
도 2는 다양한 실시예들에 따른 전자 장치 201의 블록도 200를 도시한다.
도 3은 본 발명의 다양한 실시 예들에 따른 화자의 위치를 결정하는 일 실시 예를 도시한다.
도 4는 본 발명의 다양한 실시 예들에 따른 얼굴 인식 기능을 이용하여 화자의 위치를 결정하는 일 실시 예를 도시한다.
도 5는 다양한 실시 예들에 따른 획득된 게인 값, 얼굴 인식 정보 및 주파수 정보를 이용하여 화자를 결정하는 일 실시 예를 도시한다.
도 6은 본 발명의 다양한 실시 예들에 따른 화자의 음성을 텍스트로 디스플레이하는 일 실시 예를 도시한다.
도 7은 본 발명의 다양한 실시 예들에 따른 디스플레이된 화자의 음성을 선택하는 일 실시 예를 도시한다.
도 8은 본 발명의 다양한 실시 예들에 따른 설정된 우선순위에 따라 화자의 음성을 텍스트로 디스플레이하는 일 실시 예를 도시한다.
도 9는 본 발명의 다양한 실시 예들에 따른 디스플레이된 피사체에 화자가 표시되지 않은 경우, 화자의 음성을 텍스트 형식으로 표시하는 일 실시 예를 도시한다.
도 10a 및 도 10b은 본 발명의 다양한 실시 예들에 따른 증강 현실 화면에서 화자의 음성을 텍스트 형식으로 표시하는 일 실시 예를 도시한다.
도 11은 본 발명의 다양한 실시 예들에 따른 전자 장치의 동작 순서를 나타낸 순서도를 도시한다.
도 12는 본 발명의 다양한 실시 예들에 따른 전자 장치의 방법의 흐름도를 도시한다.

이하, 본 발명의 다양한 실시 예가 첨부된 도면과 연관되어 기재된다. 본 발명의 다양한 실시 예는 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나, 이는 본 발명의 다양한 실시 예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 다양한 실시 예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.

본 발명의 다양한 실시 예에서 사용될 수 있는“포함한다”또는“포함할 수 있다”등의 표현은 개시(disclosure)된 해당 기능, 동작 또는 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작 또는 구성요소 등을 제한하지 않는다. 또한, 본 발명의 다양한 실시 예에서,"포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 발명의 다양한 실시 예에서 “또는” 등의 표현은 함께 나열된 단어들의 어떠한, 그리고 모든 조합을 포함한다. 예를 들어,“A 또는 B”는, A를 포함할 수도, B를 포함할 수도, 또는 A 와 B 모두를 포함할 수도 있다.

본 발명의 다양한 실시 예에서 사용된 “제 1,”“제2,”“첫째,”또는“둘째,”등의 표현들은 다양한 실시 예들의 다양한 구성요소들을 수식할 수 있지만, 해당 구성요소들을 한정하지 않는다. 예를 들어, 상기 표현들은 해당 구성요소들의 순서 및/또는 중요도 등을 한정하지 않는다. 상기 표현들은 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다. 예를 들어, 제1 사용자 기기와 제 2 사용자 기기는 모두 사용자 기기이며, 서로 다른 사용자 기기를 나타낸다. 예를 들어, 본 발명의 다양한 실시 예의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재하지 않는 것으로 이해될 수 있어야 할 것이다.

본 발명의 다양한 실시 예에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명의 다양한 실시 예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명의 다양한 실시 예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명의 다양한 실시예에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명의 다양한 실시 예에 따른 전자 장치는, 통신 기능이 포함된 장치일 수 있다. 예를 들면, 전자 장치는 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 화상전화기, 전자북 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device)(예: 전자 안경과 같은 head-mounted-device(HMD), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리(appcessory), 전자 문신, 또는 스마트 와치(smart watch))중 적어도 하나를 포함할 수 있다.

어떤 실시 예들에 따르면, 전자 장치는 통신 기능을 갖춘 스마트 가전 제품(smart home appliance)일 수 있다. 스마트 가전 제품은, 예를 들자면, 전자 장치는 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스(set-top box), TV 박스(예를 들면, 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(game consoles), 전자 사전, 전자 키, 캠코더(camcorder), 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

어떤 실시 예들에 따르면, 전자 장치는 각종 의료기기(예: MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 초음파기 등), 네비게이션(navigation) 장치, GPS 수신기(global positioning system receiver), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트(infotainment) 장치, 선박용 전자 장비(예: 선박용 항법 장치 및 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛, 산업용 또는 가정용 로봇, 금융 기관의 ATM(automatic teller? machine) 또는 상점의 POS(point of sales) 중 적어도 하나를 포함할 수 있다.

어떤 실시 예들에 따르면, 전자 장치는 통신 기능을 포함한 가구(furniture) 또는 건물/구조물의 일부, 전자 보드(electronic board), 전자 사인 입력장치(electronic signature receiving device), 프로젝터(projector), 또는 각종 계측기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 본 발명의 다양한 실시예에 따른 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 또한, 본 발명의 다양한 실시 예에 따른 전자 장치는 플렉서블 장치일 수 있다. 또한, 본 발명의 다양한 실시 예에 따른 전자 장치는 전술한 기기들에 한정되지 않음은 당업자에게 자명하다.

이하, 첨부된 도면을 참조하여 다양한 실시 예에 따른 전자 장치에 대해서 살펴본다. 다양한 실시 예에서 이용되는 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.

도 1은 다양한 실시 예에 따른, 전자 장치 101를 포함하는 네트워크 환경 100을 도시한다. 도 1을 참조하면, 상기 전자 장치 101는 버스 110, 프로세서 120, 메모리 130, 입출력 인터페이스 140, 디스플레이 150 및 통신 인터페이스 160를 포함할 수 있다.

상기 버스 110는 전술한 구성요소들을 서로 연결하고, 전술한 구성요소들 간의 통신(예: 제어 메시지)을 전달하는 회로일 수 있다.

상기 프로세서 120는, 예를 들면, 상기 버스 110를 통해 전술한 다른 구성요소들(예: 상기 메모리 130, 상기 입출력 인터페이스 140, 상기 디스플레이 150 또는 상기 통신 인터페이스 160등)로부터 명령을 수신하여, 수신된 명령을 해독하고, 해독된 명령에 따른 연산이나 데이터 처리를 실행할 수 있다.

상기 메모리 130는, 상기 프로세서 120 또는 다른 구성요소들(예: 상기 입출력 인터페이스 140, 상기 디스플레이 150 또는 상기 통신 인터페이스 160등)로부터 수신되거나 상기 프로세서 120 또는 다른 구성요소들에 의해 생성된 명령 또는 데이터를 저장할 수 있다. 상기 메모리 130는, 예를 들면, 커널 131, 미들웨어 132, 애플리케이션 프로그래밍 인터페이스(API: application programming interface) 133 또는 애플리케이션 134등의 프로그래밍 모듈들을 포함할 수 있다. 전술한 각각의 프로그래밍 모듈들은 소프트웨어, 펌웨어, 하드웨어 또는 이들 중 적어도 둘 이상의 조합으로 구성될 수 있다.

상기 커널 131은 나머지 다른 프로그래밍 모듈들, 예를 들면, 상기 미들웨어 132, 상기 API 133 또는 상기 애플리케이션 134에 구현된 동작 또는 기능을 실행하는 데 사용되는 시스템 리소스들(예: 상기 버스 110, 상기 프로세서 120 또는 상기 메모리 130 등)을 제어 또는 관리할 수 있다. 또한, 상기 커널 131은 상기 미들웨어 132, 상기 API 133 또는 상기 애플리케이션 134에서 상기 전자 장치 101의 개별 구성요소에 접근하여 제어 또는 관리할 수 있는 인터페이스를 제공할 수 있다.

상기 미들웨어 132는 상기 API 133 또는 상기 애플리케이션 134이 상기 커널 131과 통신하여 데이터를 주고받을 수 있도록 중개 역할을 수행할 수 있다. 또한, 상기 미들웨어 132는 상기 애플리케이션 134로부터 수신된 작업 요청들과 관련하여, 예를 들면, 상기 애플리케이션 134 중 적어도 하나의 애플리케이션에 상기 전자 장치 101의 시스템 리소스(예: 상기 버스 110, 상기 프로세서 120 또는 상기 메모리 130등)를 사용할 수 있는 우선 순위를 배정하는 등의 방법을 이용하여 작업 요청에 대한 제어(예: 스케쥴링 또는 로드 밸런싱)을 수행할 수 있다.

상기 API 133는 상기 애플리케이션 134이 상기 커널 131 또는 상기 미들웨어 132에서 제공되는 기능을 제어하기 위한 인터페이스로, 예를 들면, 파일 제어, 창 제어, 화상 처리 또는 문자 제어 등을 위한 적어도 하나의 인터페이스 또는 함수(예: 명령어)를 포함할 수 있다.

다양한 실시 예에 따르면, 상기 애플리케이션 134는 SMS/MMS 애플리케이션, 이메일 애플리케이션, 달력 애플리케이션, 알람 애플리케이션, 건강 관리(health care) 애플리케이션(예: 운동량 또는 혈당 등을 측정하는 애플리케이션) 또는 환경 정보 애플리케이션(예: 기압, 습도 또는 온도 정보 등을 제공하는 애플리케이션) 등을 포함할 수 있다. 추가적으로 또는 대체적으로, 상기 애플리케이션 134은 상기 전자 장치 101와 외부 전자 장치(예: 전자 장치 104) 사이의 정보 교환과 관련된 애플리케이션일 수 있다. 상기 정보 교환과 관련된 애플리케이션은, 예를 들어, 상기 외부 전자 장치에 특정 정보를 전달하기 위한 알림 전달(notification relay) 애플리케이션, 또는 상기 외부 전자 장치를 관리하기 위한 장치 관리(device management) 애플리케이션을 포함할 수 있다.

예를 들면, 상기 알림 전달 애플리케이션은 상기 전자 장치 101의 다른 애플리케이션(예: SMS/MMS 애플리케이션, 이메일 애플리케이션, 건강 관리 애플리케이션 또는 환경 정보 애플리케이션 등)에서 발생한 알림 정보를 외부 전자 장치(예: 전자 장치 104)로 전달하는 기능을 포함할 수 있다. 추가적으로 또는 대체적으로, 상기 알림 전달 애플리케이션은, 예를 들면, 외부 전자 장치(예: 전자 장치 104)로부터 알림 정보를 수신하여 사용자에게 제공할 수 있다. 상기 장치 관리 애플리케이션은, 예를 들면, 상기 전자 장치 101와 통신하는 외부 전자 장치(예: 전자 장치 104)의 적어도 일부에 대한 기능(예: 외부 전자 장치 자체(또는, 일부 구성 부품)의 턴온/턴오프 또는 디스플레이의 밝기(또는, 해상도) 조절), 상기 외부 전자 장치에서 동작하는 애플리케이션 또는 상기 외부 전자 장치에서 제공되는 서비스(예: 통화 서비스 또는 메시지 서비스)를 관리(예: 설치, 삭제 또는 업 데이트)할 수 있다.

다양한 실시 예에 따르면, 상기 애플리케이션 134은 상기 외부 전자 장치(예: 전자 장치 104)의 속성(예: 전자 장치의 종류)에 따라 지정된 애플리케이션을 포함할 수 있다. 예를 들어, 외부 전자 장치가 MP3 플레이어인 경우, 상기 애플리케이션 134은 음악 재생과 관련된 애플리케이션을 포함할 수 있다. 유사하게, 외부 전자 장치가 모바일 의료기기인 경우, 상기 애플리케이션 134은 건강 관리와 관련된 어플리케이션을 포함할 수 있다. 한 실시 예에 따르면, 상기 애플리케이션 134은 전자 장치 101에 지정된 애플리케이션 또는 외부 전자 장치(예: 서버 164 또는 전자 장치 104)로부터 수신된 애플리케이션 중 적어도 하나를 포함할 수 있다.

상기 입출력 인터페이스 140은, 입출력 장치(예: 센서, 키보드 또는 터치 스크린)를 통하여 사용자로부터 입력된 명령 또는 데이터를, 예를 들면, 상기 버스 110를 통해 상기 프로세서 120, 상기 메모리 130 또는 상기 통신 인터페이스 160에 전달할 수 있다. 예를 들면, 상기 입출력 인터페이스 140은 터치 스크린을 통하여 입력된 사용자의 터치에 대한 데이터를 상기 프로세서 120로 제공할 수 있다. 또한, 상기 입출력 인터페이스 140은, 예를 들면, 상기 버스 110을 통해 상기 프로세서 120, 상기 메모리 130 또는 상기 통신 인터페이스 160로부터 수신된 명령 또는 데이터를 상기 입출력 장치(예: 스피커 또는 디스플레이)를 통하여 출력할 수 있다. 예를 들면, 상기 입출력 인터페이스 140은 상기 프로세서 120를 통하여 처리된 음성 데이터를 스피커를 통하여 사용자에게 출력할 수 있다.

상기 디스플레이 150은 사용자에게 각종 정보(예: 멀티미디어 데이터 또는 텍스트 데이터 등)을 표시할 수 있다.

상기 통신 인터페이스 160은 상기 전자 장치 101와 외부 장치(예: 전자 장치 104 또는 서버 106) 간의 통신을 연결할 수 있다. 예를 들면, 상기 통신 인터페이스 160은 무선 통신 또는 유선 통신을 통해서 네트워크 162에 연결되어 상기 외부 장치와 통신할 수 있다. 상기 무선 통신은, 예를 들어, Wifi(wireless fidelity), BT(Bluetooth), NFC(near field communication), GPS(global positioning system) 또는 cellular 통신(예: LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro 또는 GSM 등) 중 적어도 하나를 포함할 수 있다. 상기 유선 통신은, 예를 들어, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard 232) 또는 POTS(plain old telephone service) 중 적어도 하나를 포함할 수 있다.

한 실시 예에 따르면, 상기 네트워크 162는 통신 네트워크(telecommunications network)일 수 있다. 상기 통신 네트워크는 컴퓨터 네트워크(computer network), 인터넷(internet), 사물 인터넷(internet of things) 또는 전화망(telephone network) 중 적어도 하나를 포함할 수 있다. 한 실시예에 따르면, 상기 전자 장치 101와 외부 장치 간의 통신을 위한 프로토콜(예: transport layer protocol, data link layer protocol 또는 physical layer protocol))은 어플리케이션 134, 어플리케이션 프로그래밍 인터페이스 133, 상기 미들웨어 132, 커널 131 또는 통신 인터페이스 160 중 적어도 하나에서 지원될 수 있다.

도 2는 다양한 실시예들에 따른 전자 장치 201의 블록도 200를 도시한다. 상기 전자 장치 201는, 예를 들면, 도 1에 도시된 전자 장치 101의 전체 또는 일부를 구성할 수 있다. 도 2를 참조하면, 상기 전자 장치 201는 하나 이상의 어플리케이션 프로세서(AP: application processor) 210, 통신 모듈 220, SIM(subscriber identification module) 카드 224, 메모리 230, 센서 모듈 240, 입력 장치 250, 디스플레이 260, 인터페이스 270, 오디오 모듈 280, 카메라 모듈 291, 전력관리 모듈 295, 배터리 296, 인디케이터 297 및 모터 298를 포함할 수 있다.

상기 AP 210는 운영체제 또는 응용 프로그램을 구동하여 상기 AP 210에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 멀티미디어 데이터를 포함한 각종 데이터 처리 및 연산을 수행할 수 있다. 상기 AP 210는, 예를 들면, SoC(system on chip) 로 구현될 수 있다. 한 실시예에 따르면, 상기 AP 210는 GPU(graphic processing unit, 미도시)를 더 포함할 수 있다.

상기 통신 모듈 220(예: 상기 통신 인터페이스 160)은 상기 전자 장치 201(예: 상기 전자 장치 101)와 네트워크를 통해 연결된 다른 전자 장치들(예: 전자 장치 104 또는 서버 106) 간의 통신에서 데이터 송수신을 수행할 수 있다. 한 실시예에 따르면, 상기 통신 모듈 220은 셀룰러 모듈 221, Wifi 모듈 223, BT 모듈 225, GPS 모듈 227, NFC 모듈 228 및 RF(radio frequency) 모듈 229를 포함할 수 있다.

상기 셀룰러 모듈 221은 통신망(예: LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro 또는 GSM 등)을 통해서 음성 통화, 영상 통화, 문자 서비스 또는 인터넷 서비스 등을 제공할 수 있다. 또한, 상기 셀룰러 모듈 221은, 예를 들면, 가입자 식별 모듈(예: SIM 카드 224)을 이용하여 통신 네트워크 내에서 전자 장치의 구별 및 인증을 수행할 수 있다. 한 실시예에 따르면, 상기 셀룰러 모듈 221은 상기 AP 210가 제공할 수 있는 기능 중 적어도 일부 기능을 수행할 수 있다. 예를 들면, 상기 셀룰러 모듈 221은 멀티 미디어 제어 기능의 적어도 일부를 수행할 수 있다.

한 실시예에 따르면, 상기 셀룰러 모듈 221은 커뮤니케이션 프로세서(CP: communication processor)를 포함할 수 있다. 또한, 상기 셀룰러 모듈 221은, 예를 들면, SoC로 구현될 수 있다. 도 2에서는 상기 셀룰러 모듈 221(예: 커뮤니케이션 프로세서), 상기 메모리 230 또는 상기 전력관리 모듈 295 등의 구성요소들이 상기 AP 210와 별개의 구성요소로 도시되어 있으나, 한 실시예에 따르면, 상기 AP 210가 전술한 구성요소들의 적어도 일부(예: 셀룰러 모듈 221)를 포함하도록 구현될 수 있다.

한 실시예에 따르면, 상기 AP 210 또는 상기 셀룰러 모듈 221(예: 커뮤니케이션 프로세서)은 각각에 연결된 비휘발성 메모리 또는 다른 구성요소 중 적어도 하나로부터 수신한 명령 또는 데이터를 휘발성 메모리에 로드(load)하여 처리할 수 있다. 또한, 상기 AP 210 또는 상기 셀룰러 모듈 221은 다른 구성요소 중 적어도 하나로부터 수신하거나 다른 구성요소 중 적어도 하나에 의해 생성된 데이터를 비휘발성 메모리에 저장(store)할 수 있다.

상기 Wifi 모듈 223, 상기 BT 모듈 225, 상기 GPS 모듈 227 또는 상기 NFC 모듈 228 각각은, 예를 들면, 해당하는 모듈을 통해서 송수신되는 데이터를 처리하기 위한 프로세서를 포함할 수 있다. 도 2에서는 셀룰러 모듈 221, Wifi 모듈 223, BT 모듈 225, GPS 모듈 227 또는 NFC 모듈 228이 각각 별개의 블록으로 도시되었으나, 한 실시예에 따르면, 셀룰러 모듈 221, Wifi 모듈 223, BT 모듈 225, GPS 모듈 227 또는 NFC 모듈 228 중 적어도 일부(예: 두 개 이상)는 하나의 integrated chip(IC) 또는 IC 패키지 내에 포함될 수 있다. 예를 들면, 셀룰러 모듈 221, Wifi 모듈 223, BT 모듈 225, GPS 모듈 227 또는 NFC 모듈 228 각각에 대응하는 프로세서들 중 적어도 일부(예: 셀룰러 모듈 221에 대응하는 커뮤니케이션 프로세서 및 Wifi 모듈 223에 대응하는 Wifi 프로세서)는 하나의 SoC로 구현될 수 있다.

상기 RF 모듈 229는 데이터의 송수신, 예를 들면, RF 신호의 송수신을 할 수 있다. 상기 RF 모듈 229는, 도시되지는 않았으나, 예를 들면, 트랜시버(transceiver), PAM(power amp module), 주파수 필터(frequency filter) 또는 LNA(low noise amplifier) 등을 포함할 수 있다. 또한, 상기 RF 모듈 229는 무선 통신에서 자유 공간상의 전자파를 송수신하기 위한 부품, 예를 들면, 도체 또는 도선 등을 더 포함할 수 있다. 도 2에서는 셀룰러 모듈 221, Wifi 모듈 223, BT 모듈 225, GPS 모듈 227 및 NFC 모듈 228이 하나의 RF 모듈 229을 서로 공유하는 것으로 도시되어 있으나, 한 실시예에 따르면, 셀룰러 모듈 221, Wifi 모듈 223, BT 모듈 225, GPS 모듈 227 또는 NFC 모듈 228 중 적어도 하나는 별개의 RF 모듈을 통하여 RF 신호의 송수신을 수행할 수 있다.

상기 SIM 카드 224는 가입자 식별 모듈을 포함하는 카드일 수 있으며, 전자 장치의 특정 위치에 형성된 슬롯에 삽입될 수 있다. 상기 SIM 카드 224는 고유한 식별 정보(예: ICCID(integrated circuit card identifier)) 또는 가입자 정보(예: IMSI(international mobile subscriber identity))를 포함할 수 있다.

상기 메모리 230(예: 상기 메모리 130)는 내장 메모리 232 또는 외장 메모리 234를 포함할 수 있다. 상기 내장 메모리 232는, 예를 들면, 휘발성 메모리(예를 들면, DRAM(dynamic RAM), SRAM(static RAM), SDRAM(synchronous dynamic RAM) 등) 또는 비휘발성 메모리(non-volatile Memory, 예를 들면, OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, NAND flash memory, NOR flash memory 등) 중 적어도 하나를 포함할 수 있다.

한 실시예에 따르면, 상기 내장 메모리 232는 Solid State Drive (SSD)일 수 있다. 상기 외장 메모리 234는 flash drive, 예를 들면, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital) 또는 Memory Stick 등을 더 포함할 수 있다. 상기 외장 메모리 234는 다양한 인터페이스를 통하여 상기 전자 장치 201과 기능적으로 연결될 수 있다. 한 실시예에 따르면, 상기 전자 장치 201는 하드 드라이브와 같은 저장 장치(또는 저장 매체)를 더 포함할 수 있다.

상기 센서 모듈 240은 물리량을 계측하거나 전자 장치 201의 작동 상태를 감지하여, 계측 또는 감지된 정보를 전기 신호로 변환할 수 있다. 상기 센서 모듈 240은, 예를 들면, 제스처 센서 240A, 자이로 센서 240B, 기압 센서 240C, 마그네틱 센서 240D, 가속도 센서 240E, 그립 센서 240F, 근접 센서 240G, color 센서 240H(예: RGB(red, green, blue) 센서), 생체 센서 240I, 온/습도 센서 240J, 조도 센서 240K 또는 UV(ultra violet) 센서 240M 중의 적어도 하나를 포함할 수 있다. 추가적으로 또는 대체적으로, 상기 센서 모듈 240은, 예를 들면, 후각 센서(E-nose sensor, 미도시), EMG 센서(electromyography sensor, 미도시), EEG 센서(electroencephalogram sensor, 미도시), ECG 센서(electrocardiogram sensor, 미도시), IR(infra red) 센서(미도시), 홍채 센서(미도시) 또는 지문 센서(미도시) 등을 포함할 수 있다. 상기 센서 모듈 240은 그 안에 속한 적어도 하나 이상의 센서들을 제어하기 위한 제어 회로를 더 포함할 수 있다.

상기 입력 장치 250은 터치 패널(touch panel) 252, (디지털) 펜 센서(pen sensor) 254, 키(key) 256 또는 초음파(ultrasonic) 입력 장치 258를 포함할 수 있다. 상기 터치 패널 252은, 예를 들면, 정전식, 감압식, 적외선 방식 또는 초음파 방식 중 적어도 하나의 방식으로 터치 입력을 인식할 수 있다. 또한, 상기 터치 패널 252은 제어 회로를 더 포함할 수도 있다. 정전식의 경우, 물리적 접촉 또는 근접 인식이 가능하다. 상기 터치 패널 252은 택타일 레이어(tactile layer)를 더 포함할 수도 있다. 이 경우, 상기 터치 패널 252은 사용자에게 촉각 반응을 제공할 수 있다.

상기 (디지털) 펜 센서 254는, 예를 들면, 사용자의 터치 입력을 받는 것과 동일 또는 유사한 방법 또는 별도의 인식용 쉬트(sheet)를 이용하여 구현될 수 있다. 상기 키 256는, 예를 들면, 물리적인 버튼, 광학식 키 또는 키패드를 포함할 수 있다. 상기 초음파(ultrasonic) 입력 장치 258는 초음파 신호를 발생하는 입력 도구를 통해, 전자 장치 201에서 마이크(예: 마이크 288)로 음파를 감지하여 데이터를 확인할 수 있는 장치로서, 무선 인식이 가능하다. 한 실시예에 따르면, 상기 전자 장치 201는 상기 통신 모듈 220를 이용하여 이와 연결된 외부 장치(예: 컴퓨터 또는 서버)로부터 사용자 입력을 수신할 수도 있다.

상기 디스플레이 260(예: 상기 디스플레이 150)은 패널 262, 홀로그램 장치 264 또는 프로젝터 266을 포함할 수 있다. 상기 패널 262은, 예를 들면, LCD(liquid-crystal display) 또는 AM-OLED(active-matrix organic light-emitting diode) 등일 수 있다. 상기 패널 262은, 예를 들면, 유연하게(flexible), 투명하게(transparent) 또는 착용할 수 있게(wearable) 구현될 수 있다. 상기 패널 262은 상기 터치 패널 252과 하나의 모듈로 구성될 수도 있다. 상기 홀로그램 장치 264은 빛의 간섭을 이용하여 입체 영상을 허공에 보여줄 수 있다. 상기 프로젝터 266는 스크린에 빛을 투사하여 영상을 표시할 수 있다. 상기 스크린은, 예를 들면, 상기 전자 장치 201의 내부 또는 외부에 위치할 수 있다. 한 실시예에 따르면, 상기 디스플레이 260은 상기 패널 262, 상기 홀로그램 장치 264, 또는 프로젝터 266를 제어하기 위한 제어 회로를 더 포함할 수 있다.

상기 인터페이스 270는, 예를 들면, HDMI(high-definition multimedia interface) 272, USB(universal serial bus) 274, 광 인터페이스(optical interface) 276 또는 D-sub(D-subminiature) 278를 포함할 수 있다. 상기 인터페이스 270는, 예를 들면, 도 1에 도시된 통신 인터페이스 160에 포함될 수 있다. 추가적으로 또는 대체적으로, 상기 인터페이스 270는, 예를 들면, MHL(mobile high-definition link) 인터페이스, SD(secure Digital) 카드/MMC(multi-media card) 인터페이스 또는 IrDA(infrared data association) 규격 인터페이스를 포함할 수 있다.

상기 오디오 모듈 280은 소리(sound)와 전기신호를 쌍방향으로 변환시킬 수 있다. 상기 오디오 모듈 280의 적어도 일부 구성요소는, 예를 들면, 도 1 에 도시된 입출력 인터페이스 140에 포함될 수 있다. 상기 오디오 모듈 280은, 예를 들면, 스피커 282, 리시버 284, 이어폰 286 또는 마이크 288 등을 통해 입력 또는 출력되는 소리 정보를 처리할 수 있다.

상기 카메라 모듈 291은 정지 영상 및 동영상을 촬영할 수 있는 장치로서, 한 실시예에 따르면, 하나 이상의 이미지 센서(예: 전면 센서 또는 후면 센서), 렌즈(미도시), ISP(image signal processor, 미도시) 또는 플래쉬 (flash, 미도시)(예: LED 또는 xenon lamp)를 포함할 수 있다.

상기 전력 관리 모듈 295은 상기 전자 장치 201의 전력을 관리할 수 있다. 도시하지는 않았으나, 상기 전력 관리 모듈 295은, 예를 들면, PMIC(power management integrated circuit), 충전 IC(charger integrated circuit) 또는 배터리 또는 연료 게이지(battery or fuel gauge)를 포함할 수 있다.

상기 PMIC는, 예를 들면, 집적회로 또는 SoC 반도체 내에 탑재될 수 있다. 충전 방식은 유선과 무선으로 구분될 수 있다. 상기 충전 IC는 배터리를 충전시킬 수 있으며, 충전기로부터의 과전압 또는 과전류 유입을 방지할 수 있다. 한 실시예에 따르면, 상기 충전 IC는 유선 충전 방식 또는 무선 충전 방식 중 적어도 하나를 위한 충전 IC를 포함할 수 있다. 무선 충전 방식으로는, 예를 들면, 자기공명 방식, 자기유도 방식 또는 전자기파 방식 등이 있으며, 무선 충전을 위한 부가적인 회로, 예를 들면, 코일 루프, 공진 회로 또는 정류기 등의 회로가 추가될 수 있다.

상기 배터리 게이지는, 예를 들면, 상기 배터리 296의 잔량, 충전 중 전압, 전류 또는 온도를 측정할 수 있다. 상기 배터리 296는 전기를 저장 또는 생성할 수 있고, 그 저장 또는 생성된 전기를 이용하여 상기 전자 장치 201에 전원을 공급할 수 있다. 상기 배터리 296는, 예를 들면, 충전식 전지(rechargeable battery) 또는 태양 전지(solar battery)를 포함할 수 있다.

상기 인디케이터 297는 상기 전자 장치 201 혹은 그 일부(예: 상기 AP 210)의 특정 상태, 예를 들면, 부팅 상태, 메시지 상태 또는 충전 상태 등을 표시할 수 있다. 상기 모터 298는 전기적 신호를 기계적 진동으로 변환할 수 있다. 도시되지는 않았으나, 상기 전자 장치 201는 모바일 TV 지원을 위한 처리 장치(예: GPU)를 포함할 수 있다. 상기 모바일 TV지원을 위한 처리 장치는, 예를 들면, DMB(digital multimedia broadcasting), DVB(digital video broadcasting) 또는 미디어플로우(media flow) 등의 규격에 따른 미디어 데이터를 처리할 수 있다.

본 발명의 다양한 실시예에 따른 전자 장치의 전술한 구성요소들 각각은 하나 또는 그 이상의 부품(component)으로 구성될 수 있으며, 해당 구성 요소의 명칭은 전자 장치의 종류에 따라서 달라질 수 있다. 본 발명의 다양한 실시예에 따른 전자 장치는 전술한 구성요소 중 적어도 하나를 포함하여 구성될 수 있으며, 일부 구성요소가 생략되거나 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 또한, 본 발명의 다양한 실시예에 따른 전자 장치의 구성 요소들 중 일부가 결합되어 하나의 개체(entity)로 구성됨으로써, 결합되기 이전의 해당 구성 요소들의 기능을 동일하게 수행할 수 있다.

본 발명의 다양한 실시 예에 따르면, 전자 장치에 있어서, 콘텐츠 촬영 동작을 감지한 경우, 적어도 둘 이상의 마이크로부터 획득된 게인 값을 비교하고, 상기 비교한 게인 값을 기반으로, 촬영된 콘텐츠에 포함된 화자를 결정하는 프로세서; 및 상기 결정된 화자의 설정된 영역에 상기 화자의 음성을 텍스트로 표시하는 디스플레이를 포함할 수 있다.

상기 콘텐츠 촬영 동작은, 프리뷰 영상을 디스플레이하는 동작 및 얼굴 인식 기능을 시작하는 동작을 포함할 수 있다.

상기 프로세서는, 상기 적어도 둘 이상의 마이크 중, 제1 마이크로부터 획득된 게인 값에서 제2 마이크로부터 획득된 게인 값을 차감할 수 있다.

상기 프로세서는, 디스플레이를 적어도 둘 이상의 영역으로 구분하고, 상기 구분된 영역 중 하나 이상의 영역에 적어도 하나의 피사체가 포함됨을 확인할 수 있다.

상기 프로세서는, 적어도 둘 이상의 마이크로부터 획득된 게인 값을 비교하여, 상기 비교한 게인 값이, 상기 구분된 영역의 개수만큼 설정된 데시벨 영역 중 어느 하나에 포함됨을 확인하고, 상기 구분된 영역 중 상기 확인된 데시벨 영역과 매칭되는 영역을 검출하며, 상기 검출된 영역에 포함된 피사체를 화자로 결정할 수 있다.

상기 프로세서는, 상기 검출된 영역에 포함된 피사체가 둘 이상인 경우, 얼굴 인식 기능을 통하여 상기 둘 이상의 피사체의 얼굴 정보를 각각 획득하고, 상기 획득된 상기 얼굴 정보를 기반으로, 상기 검출된 영역에 포함된 상기 둘 이상의 피사체 중 어느 하나의 피사체를 화자로 결정할 수 있다.

상기 프로세서는, 적어도 둘 이상의 마이크로부터 획득된 음성의 주파수 정보를 확인하고, 상기 확인된 음성의 주파수 정보가 설정된 주파수 미만인 경우, 상기 피사체의 성별을 남성으로 결정하거나 또는 상기 피사체의 나이를 성년자로 결정할 수 있다.

상기 프로세서는, 적어도 둘 이상의 마이크로부터 획득된 음성의 주파수 정보를 확인하고, 상기 확인된 음성의 주파수 정보가 설정된 주파수 이상인 경우, 상기 피사체의 성별을 여성으로 결정하거나 또는 상기 피사체의 나이를 미성년자로 결정할 수 있다.

상기 프로세서는, STT 기술을 이용하여 상기 화자의 음성을 텍스트로 변환하고, 상기 변환된 텍스트를 리스트 업 하고, 상기 디스플레이는, 상기 리스트 업 된 텍스트 중 설정된 우선 순위가 있는 텍스트가 있는 경우, 상기 우선 순위가 있는 텍스트를 상기 설정된 영역에 우선하여 표시할 수 있다.

상기 설정된 영역은, 상기 결정된 화자를 중심으로 상단, 하단, 좌측 및 우측 영역 중 설정된 공간만큼의 빈 영역이 존재하는 경우, 상기 상단, 하단, 좌측 및 우측 영역 중 설정된 순서에 따라 결정되는 영역일 수 있다.

도 3은 본 발명의 다양한 실시 예들에 따른 화자의 위치를 결정하는 일 실시 예를 도시한다.

다양한 실시 예에 따르면, 전자 장치가 콘텐츠 촬영 동작을 감지한 경우, 전자 장치는 전자 장치에 구비된 적어도 둘 이상의 마이크로부터 획득된 게인 값(gain value)을 비교할 수 있다. 한 실시 예에 따르면, 전자 장치에서 이미지(image) 촬영을 감지한 경우, 적어도 둘 이상의 마이크를 실행(on)함과 동시에 스피커(speaker)의 출력을 차단(off)할 수 있다. 한 실시 예에 따르면, 전자 장치는 프리뷰 영상(preview image)을 디스플레이함과 동시에 피사체의 얼굴 인식 기능을 시작할 수 있다. 한 실시 예에 따르면, 전자 장치는 듀얼 마이크(dual mic) 중, 제1 마이크로부터 획득된 게인 값에서 제2 마이크로부터 획득된 게인 값을 차감(subtraction)할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 촬영된 콘텐츠에 포함된 화자(speaker)를 결정할 수 있다. 한 실시 예에 따르면, 전자 장치는 전자 장치의 디스플레이를 적어도 둘 이상의 영역으로 구분한 후, 구분된 영역 중 하나 이상의 영역에 적어도 하나의 피사체가 포함됨을 확인할 수 있다. 예를 들면, 도 3에 도시된 바와 같이, 전자 장치는 전자 장치의 디스플레이를 제1 영역 내지 제4 영역(301, 302, 303, 304)으로 구분한 후, 구분된 네 개의 영역(301, 302, 303, 304) 중 제2 영역(302)에 피사체(305)가 포함됨을 확인할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 적어도 둘 이상의 마이크로부터 획득된 게인 값을 비교할 수 있다. 한 실시 예에 따르면, 적어도 두 개의 마이크로부터 각각 획득된 음성에 대한 게인(gain) 값의 차를 산출하고, 산출된 게인 값을 이용하여 영역을 결정할 수 있다. 한 실시 예에 따르면, 비교한 게인 값이, 전자 장치의 디스플레이의 구분된 영역의 개수만큼 설정된 데시벨 영역(decibel area) 중 어느 하나에 포함됨을 확인할 수 있다. 예를 들면, 도 3에 도시된 바와 같이, 전자 장치에는 듀얼 마이크가 구비되어 있고, 전자 장치의 디스플레이를 네 개의 영역(301, 302, 303, 304)으로 구분하였으며, 설정된 데시벨 영역은 제1 데시벨 영역(20db 이상, 301), 제2 데시벨 영역(0db에서 20db 미만, 302), 제3 데시벨 영역(-20db미만에서 0db 미만, 303) 및 제4 데시벨 영역(-20db 이상, 304)으로 구분된 경우에 대해서 설명해 보겠다.

상술한 예에서, 전자 장치에서 비교한 게인 값이 10db로 검출된 경우, 전자 장치는 구분된 네 개의 영역(301, 302, 303, 304) 중 확인된 데시벨 영역과 매칭되는 영역이 제2 데시벨 영역(302)임을 확인할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 전자 장치에서 확인된 데시벨 영역과 매칭되는 영역에 포함된 피사체를 화자로 결정할 수 있다. 상술한 예에서, 전자 장치는 제2 데시벨 영역(302)에 포함된 피사체(305)를 화자로 결정할 수 있다.

다양한 실시 예에 따르면, 적어도 두 개의 마이크의 위치는 전자 장치의 디스플레이의 서로 최대한 대향되는 위치에 배치될 수 있다. 한 실시예 에 따르면, 전자 장치가 두 개의 마이크를 포함할 수 있다면, 하나의 마이크는 전자 장치의 디스플레이를 기준으로 최상측에 배치될 수 있으며, 나머지 하나의 마이크는 전자 장치 디스플레이를 기준으로 최하측에 배치될 수 있다.

도 4는 본 발명의 다양한 실시 예들에 따른 얼굴 인식 기능을 이용하여 화자의 위치를 결정하는 일 실시 예를 도시한다.

다양한 실시 예들에 따르면, 전자 장치에서 이미지 촬영을 감지한 경우, 전자 장치는 적어도 둘 이상의 마이크를 실행함과 동시에 스피커의 출력을 차단할 수 있다. 한 실시 예에 따르면, 전자 장치는 프리뷰 영상을 디스플레이함과 동시에 피사체의 얼굴 인식 기능을 시작할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 디스플레이에 표시된 피사체의 인식된 얼굴 위치를 분석하여, 디스플레이의 구분된 적어도 둘 이상의 영역 중 하나 이상의 영역에 분석된 얼굴이 포함됨을 확인할 수 있다. 예를 들면, 도 4에 도시된 바와 같이, 전자 장치는 전자 장치의 디스플레이를 제1 영역 내지 제3 영역(401, 402, 403)으로 구분하였으며, 제1 영역(401) 및 제2 영역(402)에 각각 피사체(404, 405)가 위치하고 있음을 확인한 경우에 대하여 설명해 보겠다.

상술한 예에서, 전자 장치는 제1 영역(401) 내에 포함된 제1 피사체(404) 및 제2 영역(402) 내에 포함된 제2 피사체(405)의 얼굴을 각각 인식할 수 있다. 한 실시 예에 따르면, 전자 장치는 적어도 둘 이상의 마이크로부터 획득된 음성이 제1 피사체(404)로부터 획득된 것인지, 제2 피사체(405)로부터 획득된 것인지를 결정할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 얼굴 인식 기능으로부터 인식된 피사체의 얼굴 인식 정보 및 마이크로부터 획득된 음성의 위치 정보를 매칭시켜, 획득된 음성의 화자를 결정할 수 있다. 상술한 예에서, 전자 장치가 제1 피사체(404) 및 제2 피사체(405)의 얼굴을 인식한 결과 각각 남성 및 여성으로 인식하였고, 구비된 마이크로부터 획득된 음성이 제1 영역(401)으로부터 획득된 것으로 판단한 경우, 전자 장치는 제1 피사체(404)를 화자로 결정할 수 있다. 또 다른 예에 따르면, 전자 장치가 제1 피사체(404) 및 제2 피사체(405)의 얼굴을 인식한 결과 각각 남성 및 여성으로 인식하였고, 구비된 마이크로부터 획득된 음성이 제2 영역(402)으로부터 획득된 것으로 판단한 경우, 전자 장치는 제2 피사체(405)를 화자로 결정할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 획득된 음성 정보 및 얼굴 인식 정보를 저장한 후, 다음 촬영 때 저장한 정보들을 활용할 수 있다. 한 실시 예에 따르면, 전자 장치에서 제1 피사체(404) 및 제2 피사체(405)의 얼굴 인식 정보 및 음성 정보를 각각 매칭시켜 저장한 후, 차후 제1 피사체(404) 및 제2 피사체(405)의 얼굴과 음성이 검출된 경우, 전자 장치는 획득된 음성이 제1 피사체(404) 또는 제2 피사체(405)로부터 획득된 것으로 바로 결정할 수 있다.

도 5는 다양한 실시 예들에 따른 획득된 게인 값, 얼굴 인식 정보 및 주파수 정보를 이용하여 화자를 결정하는 일 실시 예를 도시한다.

다양한 실시 예에 따르면, 전자 장치가 콘텐츠 촬영 동작을 감지한 경우, 전자 장치는 전자 장치에 구비된 적어도 둘 이상의 마이크로부터 획득된 게인 값을 비교할 수 있다. 한 실시 예에 따르면, 전자 장치에서 이미지 또는 동영상 촬영을 감지한 경우, 전자 장치는 적어도 둘 이상의 마이크를 실행함과 동시에 스피커의 출력을 차단할 수 있다. 한 실시 예에 따르면, 전자 장치는 프리뷰 영상을 디스플레이함과 동시에 피사체의 얼굴 인식 기능을 시작할 수 있다. 한 실시 예에 따르면, 전자 장치는 듀얼 마이크 중, 제1 마이크로부터 획득된 게인 값에서 제2 마이크로부터 획득된 게인 값을 차감할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 촬영된 콘텐츠에 포함된 화자를 결정할 수 있다. 한 실시 예에 따르면, 전자 장치는 전자 장치의 디스플레이를 적어도 둘 이상의 영역으로 구분한 후, 구분된 영역 중 하나 이상의 영역에 적어도 하나의 피사체가 포함됨을 확인할 수 있다. 예를 들면, 도 5에 도시된 바와 같이, 전자 장치는 전자 장치의 디스플레이를 제1 영역 내지 제3 영역(501, 502, 503)으로 구분한 후, 구분된 세 개의 영역(501, 502, 503) 중 제1 영역(501)에 제1 피사체(504) 및 제2 피사체(505)가 포함됨을 확인할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 적어도 둘 이상의 마이크로부터 획득된 게인 값을 비교하여, 비교한 게인 값이, 구분된 영역의 개수만큼 설정된 데시벨 영역 중 어느 하나에 포함됨을 확인할 수 있다. 예를 들면, 도 5에 도시된 바와 같이, 전자 장치에는 듀얼 마이크가 구비되어 있고, 전자 장치의 디스플레이를 세 개의 영역(501, 502, 503)으로 구분하였으며, 설정된 데시벨 영역은 제1 데시벨 영역(20db 이상, 501), 제2 데시벨 영역(0db에서 20db 미만, 502) 및 제3 데시벨 영역(-20db미만에서 0db 미만, 503)으로 구분된 경우에 대해서 설명해 보겠다.

상술한 예에서, 전자 장치에서 비교한 게인 값이 25db로 검출된 경우, 전자 장치는 구분된 세 개의 영역(501, 502, 503) 중 확인된 데시벨 영역과 매칭되는 영역이 제1 데시벨 영역(501)임을 확인할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 전자 장치에서 확인된 데시벨 영역과 매칭되는 영역에 포함된 피사체를 화자로 결정할 수 있다. 상술한 예에서, 전자 장치는 제1 데시벨 영역(501)에 포함된 제1 피사체(504) 및 제2 피사체(505) 중 어느 하나의 피사체를 화자로 결정할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 얼굴 인식 기능 및 주파수 정보를 획득하여, 둘 이상의 피사체 중 어느 하나의 피사체를 화자로 결정할 수 있다. 한 실시 예에 따르면, 전자 장치는 적어도 둘 이상의 마이크로부터 획득된 음성의 주파수 정보를 확인한 후, 확인된 음성의 주파수 정보가 기 설정된 주파수 정보 미만인 경우, 피사체의 성별을 남성으로 결정하거나 또는 피사체의 나이를 성년자로 결정할 수 있다. 또 다른 실시 예에 따르면, 전자 장치는 적어도 둘 이상의 마이크로부터 획득된 음성의 주파수 정보를 확인한 후, 확인된 음성의 주파수 정보가 설정된 주파수 정보 이상인 경우, 피사체의 성별을 여성으로 결정하거나 또는 피사체의 나이를 미성년자로 결정할 수 있다.

예를 들면, 도 5에 도시된 바와 같이, 전자 장치의 제1 영역(501) 내에 제1 피사체(504) 및 제2 피사체(505)가 검출되었고, 획득된 음성의 주파수 정보가 설정된 주파수 정보 미만으로 검출되었으며, 얼굴 인식 기능을 실행한 결과 제1 피사체(504)는 남성으로 제2 피사체(505)는 여성으로 검출된 경우에 대하여 설명해 보겠다. 상술한 예에서, 전자 장치에서 획득된 음성은 설정된 주파수 미만으로 검출되었고, 얼굴 인식 기능을 통하여 제1 피사체(504)가 남성으로 검출되었기 때문에, 획득된 음성의 화자는 제1 피사체(504)로 결정할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 콘텐츠 촬영을 통하여 확인한 피사체의 이미지를 분석하여, 피사체의 입 모양 정보를 이용하여 화자를 결정할 수도 있다. 한 실시 예에 따르면, 전자 장치는 이미지 또는 동영상 촬영시 획득된 음성의 화자를 결정할 때, 피사체의 입 모양을 확인하여 화자를 결정할 수도 있다.

도 6은 본 발명의 다양한 실시 예들에 따른 화자의 음성을 텍스트로 디스플레이하는 일 실시 예를 도시한다.

다양한 실시 예에 따르면, 전자 장치는 결정된 화자의 음성을 STT(Speech to Text) 기술을 이용하여 텍스트로 변환한 후, 변환된 텍스트를 리스트 업 할 수 있다. 한 실시 예에 따르면, 전자 장치는 획득된 음성을 STT 기술을 이용하여 텍스트로 변환한 후, 변환된 텍스트를 리스트 형태로 저장할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 리스트 형태로 저장된 텍스트를 결정된 화자의 설정된 영역에 디스플레이할 수 있다. 한 실시 예에 따르면, 설정된 영역은, 결정된 화자를 중심으로 텍스트를 디스플레이할 수 있는 충분한 영역에 디스플레이할 수 있다. 한 실시 예에 따르면, 설정된 영역은 결정된 화자를 중심으로 상단, 하단, 좌측 및 우측 영역 중 어느 하나의 영역을 포함할 수 있다.

이하, 도 6을 참조하여, 전자 장치에서 화자를 중심으로 설정된 공간만큼 빈 영역이 존재하는 경우, 상단, 우측, 좌측 및 하단 영역 순서로 텍스트를 디스플레이하도록 설정된 경우에 대하여 설명해 보겠다.

한 실시 예에 따르면, 도 6의(a)에 도시된 바와 같이, 전자 장치에서 화자를 결정한 후, "하이"라는 화자의 음성을 텍스트로 변환한 경우, 전자 장치는 화자를 중심으로 최우선으로 텍스트를 디스플레이하도록 설정된 상단 영역에 설정된 공간만큼의 빈 영역이 존재함을 확인할 수 있다. 한 실시 예에 따르면, 전자 장치는 화자를 중심으로 상단 영역에 "하이"라는 화자의 음성을 텍스트 형식(601)으로 디스플레이할 수 있다.

한 실시 예에 따르면, 도 6의(b)에 도시된 바와 같이, 전자 장치에서 화자를 결정한 후, "하이"라는 화자의 음성을 텍스트로 변환한 경우, 전자 장치는 화자를 중심으로 최우선으로 텍스트를 디스플레이하도록 설정된 상단 영역에 설정된 공간만큼의 빈 영역이 존재하지 않음을 확인할 수 있다. 한 실시 예에 따르면, 전자 장치는 다음 순서로 화자를 중심으로 우측 영역에 설정된 공간만큼의 빈 영역이 존재함을 확인하여, 화자를 중심으로 우측 영역에 "하이"라는 화자의 음성을 텍스트 형식(602)으로 디스플레이할 수 있다.

한 실시 예에 따르면, 도 6의(c)에 도시된 바와 같이, 전자 장치에서 화자를 결정한 후, "하이"라는 화자의 음성을 텍스트로 변환한 경우, 전자 장치는 화자를 중심으로 최우선으로 텍스트를 디스플레이하도록 설정된 상단 영역에 설정된 공간만큼의 빈 영역이 존재하지 않음을 확인할 수 있다. 한 실시 예에 따르면, 전자 장치는 다음 순서로 화자를 중심으로 우측 영역에 설정된 공간만큼의 빈 영역이 존재하지 않을 확인할 수 있다. 한 실시 예에 따르면, 전자 장치는 다음 순서로 화자를 중심으로 좌측 영역에 설정된 공간만큼의 빈 영역이 존재함을 확인하여, 화자를 중심으로 좌측 영역에 "하이"라는 화자의 음성을 텍스트 형식(603)으로 디스플레이할 수 있다.

한 실시 예에 따르면, 도 6의(d)에 도시된 바와 같이, 전자 장치에서 화자를 결정한 후, "하이"라는 화자의 음성을 텍스트로 변환한 경우, 전자 장치는 화자를 중심으로 최우선으로 텍스트를 디스플레이하도록 설정된 상단 영역에 설정된 공간만큼의 빈 영역이 존재하지 않음을 확인할 수 있다. 한 실시 예에 따르면, 전자 장치는 다음 순서로 화자를 중심으로 우측 영역에 설정된 공간만큼의 빈 영역이 존재하지 않을 확인할 수 있다. 한 실시 예에 따르면, 전자 장치는 다음 순서로 화자를 중심으로 좌측 영역에 설정된 공간만큼의 빈 영역이 존재하지 않음을 확인할 수 있다. 한 실시 예에 따르면, 전자 장치는 다음 순서로 화자를 중심으로 하단 영역에 설정된 공간만큼의 빈 영역이 존재함을 확인하여, 화자를 중심으로 하단 영역에 "하이"라는 화자의 음성을 텍스트 형식(604)으로 디스플레이할 수 있다.

도 7은 본 발명의 다양한 실시 예들에 따른 디스플레이된 화자의 음성을 선택하는 일 실시 예를 도시한다.

다양한 실시 예에 따르면, 전자 장치는 결정된 화자의 설정된 영역에 화자의 음성을 텍스트 형식으로 디스플레이할 수 있다. 예를 들면, 도 7에 도시된 바와 같이, 전자 장치는 제1 피사체(701)로부터 발화된 "자전거 사죠"라는 음성을 텍스트 형식(703)으로 디스플레이할 수 있고, 제2 피사체(702)로부터 발화된 "나도"라는 음성을 텍스트 형식(704)으로 각각 디스플레이할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 디스플레이에 표시된 텍스트를 선택받은 경우, 선택받은 텍스트와 관련된 웹 브라우저에 접속할 수 있다. 한 실시 예에 따르면, 전자 장치가 디스플레이에 "A"라는 텍스트를 표시한 후, 사용자의 선택에 의하여 "A"라는 텍스트를 선택받은 경우, 전자 장치는 "A"와 관련된 인터넷 사이트에 접속할 수 있다.

예를 들면, 도 7에 도시된 바와 같이, 전자 장치가 디스플레이에 제1 피사체(701)로부터 발화된 "자전거 사죠"라는 텍스트를 표시한 후, "자전거"라는 텍스트를 선택받은 경우, 전자 장치는 자전거와 관련된 정보를 표시할 수 있다. 한 실시 예에 따르면, 전자 장치는 각종 자전거와 관련된 온라인 또는 오프라인 판매점, 각종 자전거에 대한 정보 및 자전거의 사전적인 의미와 같은 정보들을 표시할 수 있다.

도 8은 본 발명의 다양한 실시 예들에 따른 설정된 우선순위에 따라 화자의 음성을 텍스트로 디스플레이하는 일 실시 예를 도시한다.

다양한 실시 예에 따르면, 전자 장치는 결정된 화자의 음성을 STT 기술을 이용하여 텍스트로 변환한 후, 변환된 텍스트를 리스트 업 할 수 있다. 한 실시 예에 따르면, 전자 장치는 획득된 음성을 STT 기술을 이용하여 텍스트로 변환한 후, 변환된 텍스트를 리스트 형태로 저장할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 리스트 형태로 저장된 텍스트를 결정된 화자의 설정된 영역에 디스플레이할 수 있다. 한 실시 예에 따르면, 설정된 영역은, 결정된 화자를 중심으로 상단, 하단, 좌측 및 우측 영역 중 설정된 공간만큼의 빈 영역이 존재하는 경우, 상단, 하단, 좌측 및 우측 영역 중 설정된 순서에 따라 결정되는 영역일 수 있다.

다양한 실시 예에 따르면, 전자 장치는 리스트 업 된 텍스트 중 설정된 우선 순위가 있는 텍스트가 있는 경우, 우선 순위가 있는 텍스트를 설정된 영역에 우선하여 디스플레이할 수 있다. 한 실시 예에 따르면, 전자 장치에서 전자 장치에 구비된 적어도 둘 이상의 마이크로부터 획득된 음성이 설정된 주파수 이상의 음성만을 우선하여 디스플레이하도록 설정된 경우, 전자 장치는 설정된 주파수 이상의 음성만을 우선하여 전자 장치의 디스플레이에 표시할 수 있다.

예를 들면, 도 8의(a)에 도시된 바와 같이, 전자 장치가 전자 장치의 제1 피사체(801)로부터 발화된 음성인 "야"라는 음성이 설정된 주파수 이상으로 감지한 경우, 전자 장치는 "야"라는 음성을 우선하여 텍스트 형식(802)으로 표시할 수 있다.

한 실시 예에 따르면, 전자 장치에서 전자 장치에 구비된 적어도 둘 이상의 마이크로부터 획득된 음성이 설정된 주파수 미만의 음성만을 우선하여 디스플레이하도록 설정된 경우, 전자 장치는 설정된 주파수 미만의 음성만을 우선하여 전자 장치의 디스플레이에 표시할 수 있다.

예를 들면, 도 8의(b)에 도시된 바와 같이, 전자 장치가 전자 장치의 제2 피사체(803)로부터 발화된 음성인 "우"라는 음성이 설정된 주파수 미만으로 감지한 경우, 전자 장치는 "우"라는 음성을 우선하여 텍스트 형식(803)으로 표시할 수 있다.

도 9는 본 발명의 다양한 실시 예들에 따른 디스플레이된 피사체에 화자가 표시되지 않은 경우, 화자의 음성을 텍스트 형식으로 표시하는 일 실시 예를 도시한다. 다양한 실시 예에 따르면, 전자 장치가 콘텐츠 촬영 동작을 감지한 경우, 전자 장치는 전자 장치에 구비된 적어도 둘 이상의 마이크로부터 획득된 게인 값을 비교할 수 있다. 한 실시 예에 따르면, 전자 장치에서 이미지 또는 동영상 촬영을 감지한 경우, 전자 장치는 적어도 둘 이상의 마이크를 실행함과 동시에 스피커의 출력을 차단할 수 있다. 한 실시 예에 따르면, 전자 장치는 프리뷰 영상을 디스플레이함과 동시에 피사체의 얼굴 인식 기능을 시작할 수 있다. 한 실시 예에 따르면, 전자 장치는 듀얼 마이크 중, 제1 마이크로부터 획득된 게인 값에서 제2 마이크로부터 획득된 게인 값을 차감할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 촬영된 콘텐츠에 포함된 화자를 결정할 수 있다. 한 실시 예에 따르면, 전자 장치는 전자 장치의 디스플레이를 적어도 둘 이상의 영역으로 구분한 후, 구분된 영역 중 하나 이상의 영역에 적어도 하나의 피사체가 포함됨을 확인할 수 있다. 다양한 실시 예에 따르면, 전자 장치는 적어도 둘 이상의 마이크로부터 획득된 게인 값을 비교하여, 비교한 게인 값이, 구분된 영역의 개수만큼 설정된 데시벨 영역 중 어느 하나에 포함됨을 확인할 수 있다.

다양한 실시 예에 따르면, 전자 장치는 전자 장치에서 확인된 데시벨 영역과 매칭되는 영역에 포함된 피사체를 화자로 결정할 수 있다. 다양한 실시 예에 따르면, 전자 장치는 얼굴 인식 기능 및 주파수 정보를 획득하여, 둘 이상의 피사체 중 어느 하나의 피사체를 화자로 결정할 수 있다. 한 실시 예에 따르면, 전자 장치는 적어도 둘 이상의 마이크로부터 획득된 음성의 주파수 정보를 확인한 후, 확인된 음성의 주파수 정보가 설정된 주파수 미만인 경우, 피사체의 성별을 남성으로 결정하거나 또는 피사체의 나이를 성년자로 결정할 수 있다. 또 다른 실시 예에 따르면, 전자 장치는 적어도 둘 이상의 마이크로부터 획득된 음성의 주파수 정보를 확인한 후, 확인된 음성의 주파수 정보가 설정된 주파수 이상인 경우, 피사체의 성별을 여성으로 결정하거나 또는 피사체의 나이를 미성년자로 결정할 수 있다.

다양한 실시 예에 따르면, 전자 장치가 전자 장치의 디스플레이에 표시된 피사체 중 화자가 감지되지 않은 경우, 전자 장치는 설정된 영역에 획득된 음성을 텍스트 형식으로 변환하여 표시할 수 있다. 예를 들면, 도 9에 도시된 바와 같이, 전자 장치의 사용자가 폭죽이 터지는 영상을 촬영하면서, "우와 멋있다"와 같은 음성을 발화한 경우, 전자 장치에서는 폭죽이 터지는 영상만을 표시하고 있기 때문에 디스플레이에 화자가 포함되지 않을 확인할 수 있다. 한 실시 예에 따르면, 전자 장치는 디스플레이에 화자가 포함되지 않은 경우, 설정된 영역에 획득한 음성을 텍스트 형식으로 표시할 수 있다. 한 실시 예에 따르면, 전자 장치는 설정된 하단 영역에 "우와 멋있다"와 같은 음성을 텍스트 형식(901)으로 변환하여 디스플레이할 수 있다.

다양한 실시예에 따르면, 전자 장치에 디스플레이된 객체에서 발화되는 음성을 텍스트로 표시한 상태에서, 객체의 위치가 변경될 경우(예: 객체가 이동하거나, 증강 현실의 경우 전자 장치가 이동될 경우 등), 표시된 텍스트 역시 객체와 함께 이동될 수 있다.

도 10a 및 도 10b는 본 발명의 다양한 실시 예에 따른 전자 장치의 증강 현실을 디스플레이한다.

도 10a에 도시된 바와 같이, 복수의 피사체들(예: 건물 1004, 1005)와 함께 객체 1002가 전자 장치 1000의 디스플레이 1001에 디스플레이된 상태에서 화자 1002에서 발화된 음성은 상술한 바와 같이 STT 변환을 거쳐 텍스트 1003으로 디스플레이될 수 있다. 한 실시 예에 따르면, 역시 이러한 경우, 텍스트 1003은 전자 장치 1000의 디스플레이의 여유 공간 중 적어도 하나의 영역에 배치될 수 있다.

도 10b에 도시된 바와 같이, 전자 장치가 화살표 방향으로 이동될 경우, 복수의 피사체들 1004, 1005는 전자 장치 1000의 디스플레이 1001에서 이동되나, 디스플레이 1001에 표시된 화자 1002 및 텍스트 1003은 그 위치가 유지되도록 제어될 수 있다. 한 실시 예에 따르면, 전자 장치 1000이 이동되지 않고, 화자 1002만이 이동할 경우, 역시 화자 1002의 이동에 따라 텍스트 1003 역시 이동될 수도 있다.

다양한 실시예에 따르면, 디스플레이에 표시된 화자에 대응하는 텍스트를 표시하는 구성은 동영상, 스틸 영상 등 카메라 장치에 의해 촬영되는 다양한 기법에 다양하게 적용될 수 있음은 자명하다.

다양한 실시예에 따르면, 적어도 두 개의 마이크는 전자 장치의 외부에 배치될 수 있으며, 위치 정보가 포함된 장치(예: 웨어러블 장치 등)에서 음성 및 디지털 신호를 수신하여 전자 장치의 디스플레이에 표시할 수도 있다.

도 11은 본 발명의 다양한 실시 예들에 따른 전자 장치의 동작 순서를 나타낸 순서도를 도시한다. 도 11에 도시된 바와 같이, 동작 1101에서, 전자 장치는 콘텐츠 촬영을 감지할 수 있다. 한 실시 예에 따르면, 전자 장치에서 이미지 촬영을 감지한 경우, 전자 장치는 적어도 둘 이상의 마이크를 실행함과 동시에 스피커의 출력을 차단할 수 있다. 한 실시 예에 따르면, 전자 장치는 프리뷰 영상을 디스플레이함과 동시에 피사체의 얼굴 인식 기능을 시작할 수 있다.

동작 1102에서, 전자 장치는 촬영된 콘텐츠의 얼굴정보, 음성정보 및 주파수 정보등을 획득할 수 있다. 한 실시 예에 따르면, 전자 장치는 얼굴 인식 기능으로부터 인식된 피사체의 얼굴 인식 정보 및 마이크로부터 획득된 음성의 위치 정보를 획득할 수 있다. 한 실시 예에 따르면, 전자 장치는 적어도 둘 이상의 마이크로부터 획득된 음성의 주파수 정보를 확인한 후, 확인된 음성의 주파수 정보가 설정된 주파수 미만인 경우, 피사체의 성별을 남성으로 결정하거나 또는 피사체의 나이를 성년자로 결정할 수 있다. 또 다른 실시 예에 따르면, 전자 장치는 적어도 둘 이상의 마이크로부터 획득된 음성의 주파수 정보를 확인한 후, 확인된 음성의 주파수 정보가 설정된 주파수 이상인 경우, 피사체의 성별을 여성으로 결정하거나 또는 피사체의 나이를 미성년자로 결정할 수 있다.

동작 1103에서, 전자 장치는 적어도 둘 이상의 마이크로부터 획득된 게인 값을 비교할 수 있다. 한 실시 예에 따르면, 전자 장치는 듀얼 마이크 중, 제1 마이크로부터 획득된 게인 값에서 제2 마이크로부터 획득된 게인 값을 차감할 수 있다.

동작 1104에서, 전자 장치는 비교한 게인 값, 획득한 얼굴정보, 음성정보 및 주파수 정보 중 적어도 하나를 이용하여 화자를 결정할 수 있다. 한 실시 예에 따르면, 전자 장치는 적어도 둘 이상의 마이크로부터 획득된 게인 값을 비교하여, 비교한 게인 값이, 구분된 영역의 개수만큼 설정된 데시벨 영역 중 어느 하나에 포함됨을 확인할 수 있다. 한 실시 예에 따르면, 전자 장치는 획득한 얼굴정보, 음성정보 및 주파수 정보 등을 포함하여, 설정된 데시벨 영역 중 어느 하나에 포함된 피사체를 화자로 결정할 수 있다.

동작 1105에서, 전자 장치는 결정된 화자의 설정된 영역에 화자의 음성을 텍스트로 디스플레이할 수 있다. 한 실시 예에 따르면, 설정된 영역은, 결정된 화자를 중심으로 상단, 하단, 좌측 및 우측 영역 중 설정된 공간만큼의 빈 영역이 존재하는 경우, 상단, 하단, 좌측 및 우측 영역 중 설정된 순서에 따라 결정되는 영역일 수 있다.

도 12는 본 발명의 다양한 실시 예들에 따른 전자 장치의 방법의 흐름도를 도시한다. 도 12에 도시된 바와 같이, 동작 1201에서, 전자 장치는 콘텐츠 촬영을 감지한 경우, 적어도 둘 이상의 마이크로부터 획득된 게인 값을 비교할 수 있다. 한 실시 예에 따르면, 전자 장치는 듀얼 마이크 중, 제1 마이크로부터 획득된 게인 값에서 제2 마이크로부터 획득된 게인 값을 차감할 수 있다.

동작 1202에서, 전자 장치는 비교한 게인 값을 기반으로, 촬영된 콘텐츠에 포함된 화자를 결정할 수 있다. 한 실시 예에 따르면, 전자 장치는 적어도 둘 이상의 마이크로부터 획득된 게인 값을 비교하여, 비교한 게인 값이, 구분된 영역의 개수만큼 설정된 데시벨 영역 중 어느 하나에 포함됨을 확인할 수 있다. 한 실시 예에 따르면, 전자 장치는 획득한 얼굴정보, 음성정보 및 주파수 정보 등을 포함하여, 설정된 데시벨 영역 중 어느 하나에 포함된 피사체를 화자로 결정할 수 있다.

동작 1203에서, 전자 장치는 결정된 화자의 설정된 영역에 화자의 음성을 텍스트로 디스플레이할 수 있다. 다양한 실시 예에 따르면, 전자 장치는 결정된 화자의 음성을 STT 기술을 이용하여 텍스트로 변환한 후, 변환된 텍스트를 리스트 업 할 수 있다. 한 실시 예에 따르면, 전자 장치는 획득된 음성을 STT 기술을 이용하여 텍스트로 변환한 후, 변환된 텍스트를 리스트 형태로 저장할 수 있다. 다양한 실시 예에 따르면, 전자 장치는 리스트 형태로 저장된 텍스트를 결정된 화자의 설정된 영역에 디스플레이할 수 있다. 한 실시 예에 따르면, 설정된 영역은, 결정된 화자를 중심으로 상단, 하단, 좌측 및 우측 영역 중 설정된 공간만큼의 빈 영역이 존재하는 경우, 상단, 하단, 좌측 및 우측 영역 중 설정된 순서에 따라 결정되는 영역일 수 있다.

본 발명의 다양한 실시 예들에 따르면, 전자 장치의 동작 방법에 있어서, 콘텐츠 촬영 동작을 감지한 경우, 적어도 둘 이상의 마이크로부터 획득된 게인 값을 비교하는 동작; 상기 비교한 게인 값을 기반으로, 촬영된 콘텐츠에 포함된 화자를 결정하는 동작; 및 상기 결정된 화자의 설정된 영역에 상기 화자의 음성을 텍스트로 디스플레이하는 동작을 포함할 수 있다.

상기 획득된 게인 값을 비교하는 동작은, 상기 적어도 둘 이상의 마이크 중, 제1 마이크로부터 획득된 게인 값에서 제2 마이크로부터 획득된 게인 값을 차감하는 동작을 포함할 수 있다.

상기 촬영된 콘텐츠에 포함된 화자를 결정하는 동작은, 디스플레이를 적어도 둘 이상의 영역으로 구분하는 동작; 및 상기 구분된 영역 중 하나 이상의 영역에 적어도 하나의 피사체가 포함됨을 확인하는 동작을 포함할 수 있다.

적어도 둘 이상의 마이크로부터 획득된 게인 값을 비교하여, 상기 비교한 게인 값이, 상기 구분된 영역의 개수만큼 설정된 데시벨 영역 중 어느 하나에 포함됨을 확인하는 동작; 상기 구분된 영역 중 상기 확인된 데시벨 영역과 매칭되는 영역을 검출하는 동작; 및 상기 검출된 영역에 포함된 피사체를 화자로 결정하는 동작을 포함할 수 있다.

상기 피사체를 화자로 결정하는 동작은, 상기 검출된 영역에 포함된 피사체가 둘 이상인 경우, 얼굴 인식 기능을 통하여 상기 둘 이상의 피사체의 얼굴 정보를 각각 획득하는 동작; 및 상기 획득된 상기 얼굴 정보를 기반으로, 상기 검출된 영역에 포함된 상기 둘 이상의 피사체 중 어느 하나의 피사체를 화자로 결정하는 동작을 포함할 수 있다.

상기 둘 이상의 피사체 중 어느 하나의 피사체를 화자로 결정하는 동작은, 적어도 둘 이상의 마이크로부터 획득된 음성의 주파수 정보를 확인하는 동작; 및 상기 확인된 음성의 주파수 정보가 설정된 주파수 미만인 경우, 상기 피사체의 성별을 남성으로 결정하거나 또는 상기 피사체의 나이를 성년자로 결정하는 동작을 포함할 수 있다.

상기 둘 이상의 피사체 중 어느 하나의 피사체를 화자로 결정하는 동작은, 적어도 둘 이상의 마이크로부터 획득된 음성의 주파수 정보를 확인하는 동작; 및 상기 확인된 음성의 주파수 정보가 설정된 주파수 이상인 경우, 상기 피사체의 성별을 여성으로 결정하거나 또는 상기 피사체의 나이를 미성년자로 결정하는 동작을 포함할 수 있다.

상기 결정된 화자의 설정된 영역에 상기 화자의 음성을 텍스트로 디스플레이하는 동작은, STT 기술을 이용하여 상기 화자의 음성을 텍스트로 변환하는 동작; 상기 변환된 텍스트를 리스트 업 하는 동작; 및 상기 리스트 업 된 텍스트 중 설정된 우선 순위가 있는 텍스트가 있는 경우, 상기 우선 순위가 있는 텍스트를 상기 설정된 영역에 우선하여 디스플레이하는 동작을 포함할 수 있다.

상기 설정된 영역은, 상기 결정된 화자를 중심으로 상단, 하단, 좌측 및 우측 영역 중 설정된 공간만큼의 빈 영역이 존재하는 경우, 상기 상단, 하단, 좌측 및 우측 영역 중 설정된 순서에 따라 결정되는 영역인 것을 포함할 수 있다.

그리고, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 실시 예에 따른 기술 내용을 쉽게 설명하고 본 발명의 실시 예의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 실시 예의 범위를 한정하고자 하는 것은 아니다. 따라서, 본 발명의 다양한 실시 예의 범위는 여기에 개시된 실시 예들 이외에도 본 발명의 다양한 실시 예의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 다양한 실시 예의 범위에 포함되는 것으로 해석되어야 한다.

100: 네트워크 환경 101: 전자 장치
104: 전자 장치 110: 버스
120: 프로세서 130: 메모리
131: 커널 132: 미들웨어
133: 애플리케이션 프로그래밍 인터페이스
134: 애플리케이션 140: 입출력 인터페이스
150: 디스플레이 160: 통신 인터페이스
164: 서버 200: 블록도
201: 전자 장치 210: 애플리케이션 프로세서
220: 통신 모듈 221: 셀룰러 모듈
223: Wifi 모듈 224: SIM 카드
225: BT 모듈 227: GPS 모듈
228: NFC 모듈 229: RF 모듈
230: 메모리 232: 내장 메모리
234: 외장 메모리 240: 센서 모듈
240A: 제스처 센서 240B: 자이로 센서
240C: 기압 센서 240D: 마그네틱 센서
240E: 가속도 센서 240F: 그립 센서
240G: 근접 센서 240H: RGB 센서
240I: 생체 센서 240J: 온/습도 센서
240K: 조도 센서 240M: UV 센서
250: 입력 장치 252: 터치 패널
254: 펜센서 256: 키
258: 초음파 입력 장치 260: 디스플레이 모듈
262: 패널 264: 홀로그램 장치
266: 프로젝터 270: 인터페이스
272: HDMI 274: USB
276: 광 인터페이스 278: D-SUB
280: 오디오 모듈 282: 스피커
284: 리시버 286: 이어폰
288: 마이크 291: 카메라 모듈
295: 전력 관리 모듈 296: 배터리
297: 인디케이터 298: 모터
301: 제1 영역 302: 제2 영역
303: 제3 영역 304: 제4 영역
305: 피사체 401: 제1 영역
402: 제2 영역 403: 제3 영역
404: 제1 피사체 405: 제2 피사체
501: 제1 영역 502: 제2 영역
503: 제3 영역 504: 제1 피사체
505: 제2 피사체 601: 텍스트
602: 텍스트 603: 텍스트
604: 텍스트 701: 제1 피사체
702: 제2 피사체 703: 텍스트
704: 텍스트 801: 제1 피사체
802: 텍스트 803: 제2 피사체
804: 텍스트 901: 텍스트

Claims

전자 장치의 동작 방법에 있어서,
적어도 둘 이상의 마이크로부터 수집된 음성을 기반으로 획득된 게인 값(gain value)을 비교하는 동작;
상기 비교한 게인 값을 기반으로, 디스플레이된 콘텐츠에 포함된 적어도 하나의 화자(speaker)를 결정하는 동작; 및
상기 결정된 화자 주변의 영역에 상기 화자의 음성을 텍스트로 디스플레이하는 동작을 포함하는 방법.
제1항에 있어서,
상기 콘텐츠를 디스플레이하는 동작은,프리뷰 영상(preview image)을 디스플레이하는 동작; 및
얼굴 인식 기능을 시작하는 동작을 포함하는 방법.
제1항에 있어서,
상기 획득된 게인 값을 비교하는 동작은,
상기 적어도 둘 이상의 마이크 중, 제1 마이크에서 수집된 음성을 기반으로 획득된 게인 값에서 제2 마이크에서 수집된 음성을 기반으로 획득된 게인 값을 차감(subtraction)하는 동작을 포함하는 방법.
제1항에 있어서,
상기 콘텐츠에 포함된 화자를 결정하는 동작은,
디스플레이를 적어도 둘 이상의 영역으로 구분하는 동작; 및
상기 구분된 영역 중 적어도 하나의 영역에 적어도 하나의 피사체가 포함되는지 확인하는 동작을 포함하는 방법.
제4항에 있어서,
상기 비교된 게인 값이 상기 구분된 영역 각각에 대응하는 기 설정된 데시벨 영역 중 적어도 하나에 포함되는지 확인하는 동작; 및
상기 구분된 영역 중 상기 비교된 게인 값이 포함되는 영역에서 상기 피사체를 화자로 결정하는 동작을 포함하는 방법.
제5항에 있어서,
상기 피사체를 화자로 결정하는 동작은,
상기 확인된 영역에 포함된 피사체가 둘 이상인 경우, 얼굴 인식 기능을 통하여 상기 둘 이상의 피사체의 얼굴 정보를 각각 획득하는 동작; 및
상기 획득된 상기 얼굴 정보를 기반으로, 상기 적어도 하나의 피사체를 화자로 결정하는 동작을 포함하는 방법.
제6항에 있어서,
상기 둘 이상의 피사체 중 어느 하나의 피사체를 화자로 결정하는 동작은,
적어도 둘 이상의 마이크로부터 획득된 음성의 주파수 정보를 확인하는 동작;
상기 확인된 음성의 주파수 정보가 기 설정된 주파수 미만인 경우, 상기 피사체의 성별을 남성으로 결정하거나 또는 상기 피사체의 나이를 성년자로 결정하는 동작; 및
상기 확인된 음성의 주파수 정보가 기 설정된 주파수 이상인 경우, 상기 피사체의 성별을 여성으로 결정하거나 또는 상기 피사체의 나이를 미성년자로 결정하는 동작을 포함하는 방법.
제1항에 있어서,
상기 화자의 음성을 텍스트로 디스플레이하는 동작은,
디스플레이의 적어도 일부 영역에 상기 화자의 음성 존재에 대응하는 적어도 하나의 객체(object)를 디스플레이하는 과정; 및
상기 적어도 하나의 객체의 선택에 대한 응답으로, 상기 화자의 음성을 텍스트로 변환하여 디스플레이하는 동작을 포함하는 방법.
제1항에 있어서,
상기 화자의 음성을 텍스트로 디스플레이하는 동작은,
STT(Speech to Text) 기술을 이용하여 상기 화자의 음성을 텍스트로 변환하는 동작;
상기 변환된 텍스트를 리스트 업 하는 동작; 및
상기 리스트 업 된 텍스트 중 설정된 우선 순위가 있는 텍스트가 있는 경우, 상기 우선 순위가 있는 텍스트를 상기 설정된 영역에 우선하여 디스플레이하는 동작을 포함하는 방법.
제1항에 있어서,
상기 화자 주변의 영역은,
상기 결정된 화자를 중심으로 상단, 하단, 좌측 및 우측 영역 중 설정된 공간만큼의 빈 영역이 존재하는 경우, 상기 상단, 하단, 좌측 및 우측 영역 중 설정된 순서에 따라 결정되는 영역인 것을 포함하는 방법.
전자 장치에 있어서,
디스플레이; 및
상기 디스플레이와 작동적으로 결합되며, 적어도 둘 이상의 마이크로부터 수집된 음성을 기반으로 획득된 게인 값을 비교하고, 상기 비교한 게인 값을 기반으로, 디스플레이된 콘텐츠에 포함된 적어도 하나의 화자를 결정하고, 상기 화자의 음성을 텍스트로 변환하며, 상기 텍스트를 상기 결정된 화자 주변의 영역에 표시하는 적어도 하나의 프로세서를 포함하는 전자 장치.
제11항에 있어서,
상기 콘텐츠를 디스플레이하는 디스플레이하는 동작은,
프리뷰 영상을 디스플레이하는 동작 및 얼굴 인식 기능을 시작하는 동작을 포함하는 전자 장치.
제11항에 있어서,
상기 프로세서는,
상기 적어도 둘 이상의 마이크 중, 제1 마이크로에서 수집된 음성을 기반으로 획득된 게인 값에서 제2 마이크에서 수집된 음성을 기반으로 획득된 게인 값을 차감하는 것을 포함하는 전자 장치.
제11항에 있어서,
상기 프로세서는,
디스플레이를 적어도 둘 이상의 영역으로 구분하고, 상기 구분된 영역 중 적어도 하나의 영역에 적어도 하나의 피사체가 포함되는지 확인하는 것을 포함하는 전자 장치.
제14항에 있어서,
상기 프로세서는,
상기 비교된 게인 값이 상기 구분된 영역 각각에 대응하는 기 설정된 데시벨 영역 중 적어도 하나에 포함되는지 확인하고, 상기 구분된 영역 중 상기 비교된 게인 값이 포함되는 영역에서 상기 피사체를 화자로 결정하는 것을 포함하는 전자 장치.
제15항에 있어서,
상기 프로세서는,
상기 확인된 영역에 포함된 피사체가 둘 이상인 경우, 얼굴 인식 기능을 통하여 상기 둘 이상의 피사체의 얼굴 정보를 각각 획득하고, 상기 획득된 상기 얼굴 정보를 기반으로, 상기 적어도 하나의 피사체를 화자로 결정하는 것을 포함하는 전자 장치.
제16항에 있어서,
상기 프로세서는,
적어도 둘 이상의 마이크로부터 획득된 음성의 주파수 정보를 확인하고, 상기 확인된 음성의 주파수 정보가 기 설정된 주파수 미만인 경우, 상기 피사체의 성별을 남성으로 결정하거나 또는 상기 피사체의 나이를 성년자로 결정하고, 상기 확인된 음성의 주파수 정보가 기 설정된 주파수 이상인 경우, 상기 피사체의 성별을 여성으로 결정하거나 또는 상기 피사체의 나이를 미성년자로 결정하는 것을 포함하는 전자 장치.
제16항에 있어서,
상기 프로세서는,
상기 디스플레이의 적어도 일부 영역에 상기 화자의 음성 존재에 대응하는 적어도 하나의 객체(object)를 디스플레이하고, 상기 적어도 하나의 객체의 선택에 대한 응답으로, 상기 화자의 음성을 텍스트로 변환하여 디스플레이하는 것을 포함하는 전자 장치.
제11항에 있어서,
상기 프로세서는,
STT 기술을 이용하여 상기 화자의 음성을 텍스트로 변환하고, 상기 변환된 텍스트를 리스트 업 하고, 상기 리스트 업 된 텍스트 중 설정된 우선 순위가 있는 텍스트가 있는 경우, 상기 우선 순위가 있는 텍스트를 상기 설정된 영역에 우선하여 표시하는 것을 포함하는 전자 장치.
제11항에 있어서,
상기 화자 주변의 영역은,
상기 결정된 화자를 중심으로 상단, 하단, 좌측 및 우측 영역 중 설정된 공간만큼의 빈 영역이 존재하는 경우, 상기 상단, 하단, 좌측 및 우측 영역 중 설정된 순서에 따라 결정되는 영역인 것을 포함하는 전자 장치.