WO2021096279A1

WO2021096279A1 - 내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치

Info

Publication number: WO2021096279A1
Application number: PCT/KR2020/015974
Authority: WO
Inventors: 문창모
Original assignee: 이화여자대학교 산학협력단
Priority date: 2019-11-15
Filing date: 2020-11-13
Publication date: 2021-05-20

Abstract

병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치가 개시된다. 데이터 입력 방법은, 내시경 검사를 통해 환자의 장기 내부에서 발견된 병변의 위치에서 검사자인 사용자가 발화한 음성을 텍스트로 변환하고, 변환된 텍스트에서 추출된 키워드를 코드와 매핑하고, 병변의 영상과 연동하여 등록하는 방법에 관한 것이다.

Description

내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치

본 발명은 병변 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치에 관한 것으로, 보다 구체적으로는 내시경 장치를 비롯한 내시경 검사를 통해 환자의 장기 내부를 관찰하다가 병변이 발견된 위치에서 검사자의 음성 입력을 등록하는 방법 및 장치에 관한 것이다.

내시경을 이용하여 환자의 장기 내부를 조사하는 상황이 자주 발생된다. 이 때, 내시경 검사자는 수많은 환자의 대장이나 위와 같은 장기의 내부를 내시경 장치를 통해 조사한 이후에, 장기 내부에서 확인된 병변을 내시경이 촬영된 이후에 확인하고 있다.

그러면, 기존의 방식의 경우, 어느 하나의 환자에 대해 내시경을 이용하여 촬영한 수많은 사진이 존재하는데, 이러한 사진을 통해 특정 병변이 위치한 지점을 확인해야 하고, 확인된 병변에 대한 속성 등을 다시 타이핑을 통해 입력해야 하는 번거로움이 존재하였다.

그래서, 내시경을 촬영할 때 바로 병변과 관련된 여러가지 정보를 검사자가 손쉽게 입력할 수 있는 방안이 요구된다.

본 발명은 검사자가 내시경을 비롯한 비롯한 내시경 검사를 이용하여 환자의 장기 내부를 촬영하다가, 장기 내부에서 발견된 병변의 위치에서 검사자가 발화한 음성을 인식하고, 음성의 인식 결과인 텍스트로부터 키워드를 추출하고, 키워드와 병변의 영상을 함께 등록하는 방법 및 장치를 제공한다.

본 발명의 일실시예에 따른 내시경 검사장치와 연결된 컴퓨팅 장치가 수행하는 데이터 입력 방법은 상기 내시경 검사장치를 통해 검사하면서 환자의 병변이 발견되었을 때 상기 검사 장치로 검사하고 있는 사용자의 음성을 수신하는 단계 - 상기 음성은, 음성 녹음 이벤트에 따라 활성화된 마이크를 통해 획득됨-; 상기 사용자의 음성을 텍스트로 변환하는 단계; 및 상기 변환된 텍스트로부터 추출된 적어도 하나의 키워드들을 상기 검사 장치가 표시하고 있는 병변의 영상과 함께 등록하는 단계 -상기 병변의 영상은, 영상 촬영 이벤트에 따라 카메라를 통해 획득됨-를 포함할 수 있다.

상기 등록하는 단계는, 상기 변환된 텍스트를 의료 정보의 카테고리에 대응하는 키워드로 세그멘트하는 단계; 상기 세그먼트로 분할된 키워드를 영상에 맵핑하는 단계를 포함할 수 있다.

상기 텍스트는, 상기 내시경 장치를 통해 진행하고 있는 검사 정보, 상기 병변과 관련된 환자 정보, 상기 병변의 외형 정보, 상기 병변의 위치 정보, 상기 병변과 관련된 진단 정보, 상기 병변과 관련된 치료 정보 중 적어도 하나의 카테고리에 대응하는 키워드로 세그먼트될 수 있다.

사용자에 의해 미리 등록된 웨이크업 문구가 음성으로 입력되어 음성 녹음 이벤트가 발생되면, 단계별로 병변에 대한 정보를 음성으로 요청하는 음성 가이드를 제공하는 단계를 더 포함하고, 상기 음성은, 음성 가이드에 따라 순차적으로 입력될 수 있다.

상기 사용자의 음성이 변환된 텍스트에서, 병변을 설명하기 위해 필요한 적어도 하나의 키워드들 중 일부의 키워드가 누락되었는지 여부를 판단하는 단계; 상기 키워드가 누락된 경우, 상기 키워드에 대응하는 음성을 추가로 입력할 것을 알림으로 제공하는 단계를 더 포함할 수 있다.

내시경 장치의 카메라에 의해서 병변이 캡쳐 되는 경우, 상기 음성이 입력된 시점에 대응하는 제1 타임스탬프가 음성에 설정되고, 상기 영상이 촬영되는 시점의 제2 타임 스탬프가 영상에 설정될 수 있다.

상기 텍스트로부터 추출된 적어도 하나의 키워드는, 상기 병변에 대한 정보를 나타내는 코드와 매핑될 수 있다.

상기 코드는, 상기 병변에 대한 정보들이 카테고리에 따라 할당되고, 상기 병변의 영상은, 상기 음성의 인식 과정을 통해 음성으로부터 변환된 텍스트로부터 도출된 키워드가 매핑된 코드와 함께 저장될 수 있다.

상기 병변의 영상이 맵핑된 환자의 인포그래픽 데이터를 제공하는 단계를 더 포함할 수 있다.

상기 제공하는 단계는, 상기 환자의 인포그래픽 데이터에서 상기 병변이 위치한 지점에 식별자가 표시되고, 상기 식별자가 선택되면 상기 병변의 영상 및 상기 영상에 맵핑된 키워드를 인포그래픽 데이터가 표시된 인터페이스와 오버랩되도록 제공하거나 또는 인포그래픽 데이터가 표시된 인터페이스와 별도의 인터페이스를 통해 제공할 수 있다.

상기 제공하는 단계는, 언어 선택 모드를 통해 선택된 언어에 따라 상기 등록된 키워드를 번역하여 제공할 수 있다.

상기 제공하는 단계는, 상기 병변이 존재하는 장기의 영상에서 장기의 시작 위치부터 장기의 종료 위치까지를 표현하는 인포그래픽 데이터를 제공하고, 상기 병변이 위치한 지점에 상기 병변의 영상에 대응하는 식별자를 인포그래픽 데이터에 표시할 수 있다.

본 발명의 일실시예에 따른 내시경 장치에 연결되어 데이터 입력 방법을 수행하는 컴퓨팅 장치는, 적어도 하나의 프로세서를 포함하고, 상기 프로세서는, 상기 내시경 검사장치를 통해 검사하면서 환자의 병변이 발견되었을 때 상기 검사 장치로 검사하고 있는 사용자의 음성을 수신하고, 상기 사용자의 음성을 텍스트로 변환하고, 상기 변환된 텍스트로부터 추출된 적어도 하나의 키워드들을 상기 검사 장치가 표시하고 있는 병변의 영상과 함께 등록하며, 상기 음성은, 음성 녹음 이벤트에 따라 활성화된 마이크를 통해 획득되고, 상기 병변의 영상은, 영상 촬영 이벤트에 따라 카메라를 통해 획득될 수 있다.

상기 프로세서는, 상기 음성에서 변환된 텍스트를 의료 정보의 카테고리에 대응하는 키워드로 세그먼트하고, 상기 세그먼트로 분할된 키워드를 영상에 맵핑할 수 있다.

상기 프로세서는, 사용자에 의해 미리 등록된 웨이크업 문구가 음성으로 입력되어 음성 녹음 이벤트가 발생되면, 단계별로 병변에 대한 정보를 음성으로 요청하는 음성 가이드를 제공하고, 상기 음성은, 음성 가이드에 따라 순차적으로 입력될 수 있다.

상기 프로세서는, 상기 사용자의 음성이 변환된 텍스트에서, 병변을 설명하기 위해 필요한 적어도 하나의 키워드들 중 일부의 키워드가 누락되었는지 여부를 판단하고, 상기 키워드가 누락된 경우, 상기 키워드에 대응하는 음성을 추가로 입력할 것을 알림으로 제공할 수 있다.

본 발명의 일실시예에 따르면, 내시경 검사자가 내시경을 이용하여 환자의 장기 내부를 촬영하다가, 장기 내부에서 발견된 병변의 위치에서 내시경 검사자가 발화한 음성을 인식하고, 인식된 음성으로부터 변환된 텍스트로부터 추출된 키워드를 내시경 검사를 통해 촬영한 병변의 영상과 연동하여 등록함으로써, 내시경 검사자가 다시 내시경을 통해 촬영된 사진을 일일이 확인하면서 병변과 관련된 정보를 다시 타이핑하여 입력하는 번거로움이 해소될 수 있다.

도 1은 본 발명의 일실시예에 따라 내시경 장치로 환자의 장기를 검사하는 과정을 도시한 도면이다.

도 2는 본 발명의 일실시예에 따른 데이터 입력 방법을 수행하는 컴퓨팅 장치의 동작을 설명하기 위한 도면이다.

도 3은 본 발명의 일실시예에 따른 데이터베이스 생성 과정을 도시한 도면이다.

도 4는 본 발명의 일실시예에 따른 데이터 입력 방법을 도시한 플로우차트이다.

도 5는 본 발명의 일실시예에 따라 영상과 음성으로부터 인식된 텍스트를 맵핑하는 과정을 도시한 도면이다.

도 6은 본 발명의 일실시예에 따라 확대 영상과 전체 영상의 관계를 설명하는 도면이다.

도 7은 본 발명의 일실시예에 따라 인포그래픽 데이터에서 영상과 텍스트가 매핑된 결과를 제공하는 과정을 도시한 도면이다.

도 8은 본 발명의 일실시예에 따라 텍스트에 매핑되는 영상들을 제공하는 과정을 도시한 도면이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1을 참고하면, 사용자(103)는 내시경 장치(101)를 통해 환자(104)의 장기(105)의 내부를 검사한다. 이 때, 내시경 장치(101)는 컴퓨팅 장치(102)과 연결될 수 있다. 컴퓨팅 장치(102)는 내시경 장치(101)와 하나의 시스템으로 구현되거나 또는 별도의 시스템으로 구현될 수 있다. 사용자(103)는 내시경 장치(101)의 카메라(107)를 통해 환자(104)의 장기(105)의 내부를 검사하다가, 장기(105)의 내부에서 병변이 발견할 수 있다. 도 1의 경우, 장기(105)의 내부에 4개의 병변(A~D)이 발견되었다고 가정한다. 이 때, 병변 A, 병변 B, 병변 C, 병변 D가 내시경 장치(101)의 검사를 통해 순서대로 발견된 병변이다.

만약에, 사용자(103)가 장기(105)의 위치 1에서 병변 A를 발견한 경우, 사용자(103)는 병변과 관련된 다양한 데이터(예를 들면, 병변의 크기, 병변에 대한 사용자의 진단 소견, 병변의 위치, 병변의 모양, 병변의 색깔 등)를 입력하기 위해 별도의 마이크(108)를 통해 음성(XXXX)을 입력할 수 있다. 일례로, 마이크(108)는 내시경 장치(101)의 일부 영역에 배치될 수 있다. 또는, 마이크(108)는 내시경 장치(101)와 독립적인 구성 요소로 사용자(103)가 착용하거나 또는 사용자(101)가 잡을 수 있는 장치일 수 있으며, 이 경우 마이크(108)는 내시경 장치(101)와 무선 또는 유선으로 연결될 수 있다. 예를 들어, 마이크(108)는 내시경 검사를 수행하는 사용자(103)가 착용하는 블루투스 헤드셋일 수 있다. 마이크(108)는 내시경 검사가 진행되는 과정에서 계속 켜져 있다가, 사용자(103)가 녹음 버튼을 누르거나, 어떤 음성이 입력되거나 또는 미리 지정된 텍스트(ex. 하이 xx)등과 같은 음성 녹음 이벤트가 발생된 경우 음성 녹음이 시작될 수 있다.

여기서, 사용자(103)로부터 입력되는 음성은 내시경 검사의 대상인 환자(104)의 정보, 내시경 검사와 관련된 기본 정보, 병변의 위치, 병변의 사이즈, 크기, 모양과 같은 병변에 대한 검진 또는 병변에 대한 소견을 포함하는 음성일 수 있다. 그리고, 컴퓨팅 장치(102)는 병변 A의 영상을 디스플레이를 통해 표시할 수 있다.

사용자(103)가 입력한 음성은 내시경 검사를 수행하는 의료진인 사용자(103)가 내시경 검사를 진행하면서 발견한 병변에 대한 외형적인 특징, 병변에 대한 검진 또는 병변에 대한 소견을 포함하는 음성일 수 있다.　 사용자(103)가 입력한 음성은 머신러닝 또는 딥러닝을 통해 학습된 인공지능 기반의 음성 인식 모델을 통해 텍스트로 변환될 수 있다.

변환된 텍스트는 구문 분석을 통해 적어도 하나의 키워드로 식별될 수 있다.　 그리고, 식별된 키워드는 다수의 내시경 검사자가 이전에 복수의 내시경 검사들을 통해 공통적으로 확인되어 등록된 병변과 관련된 코드와 매핑될 수 있다.　 예를 들어, 텍스트에 포함된 키워드 A는 병변과 관련된 코드인 1029131에 매핑될 수 있다.　

여기서, 병변과 관련된 코드는 키워드와 매핑된 형태로 데이터베이스 등에 저장될 수 있다.　 만약에 키워드가 이미 등록된 키워드와 매핑되기 어려운 경우, 유사한 키워드에 대응하는 코드와 매핑되거나 또는 해당 키워드에 대한 코드가 데이터베이스에 신규로 업데이트될 수 있다.　

이 때, 내시경 검사를 통해 확인된 병변이 디스플레이에 표시된 상황에서 음성을 발화 내시경 장치(101)의 카메라(107)가 트리거링될 수 있다.　 즉, 사용자(103)의 음성에 의해 카메라(107)가 트리거링되며, 이에 따라 카메라(107)가 디스플레이를 통해 표시하고 있는 영상을 캡쳐할 수 있다.　 캡쳐된 영상은 음성과 함께 컴퓨팅 장치(102)에 전달될 수 있다.

그러면, 컴퓨팅 장치(102)는 사용자(103)의 음성과 함께 내시경 장치(101)가 촬영하고 있는 병변 A의 영상을 수신할 수 있다. 그리고, 컴퓨팅 장치(102)는 사용자(103)의 음성(XXXX)을 인식하여 음성을 텍스트로 변환할 수 있다. 여기서, 사용자(103)는 병변 A, 환자(104), 내시경 장치(101)의 시술과 관련된 다양한 정보를 음성으로 입력할 수 있다.

컴퓨팅 장치(102)는 음성을 인식하여 텍스트로 변환할 수 있다. 사용자(103)가 입력한 음성은 다양한 학습 데이터로 학습된 음성 인식 모델에 입력될 수 있다. 컴퓨팅 장치(102)는 음성 인식 모델을 실행할 수 있다. 음성 인식 모델은 내시경 검사의 의료진(사용자)이 발화한 음성을 인식하여 음성으로부터 내시경 검사를 통해 확인된 병변에 대한 정보를 키워드, 또는 문장과 같은 형태로 전환할 수 있다.

이 때, 사용자(103)가 음성을 발화한 시간에 따라 텍스트의 길이도 달라진다. 만약에, 사용자(103)가 묵음 구간을 포함하는 시간 구간동안 간헐적으로 음성을 발화한다면, 음성이 처음 발화된 시점부터 음성의 발화가 완료된 시점까지의 음성 프레임이 텍스트로 변환될 수 있다.

컴퓨팅 장치(102)는 변환된 텍스트를 의료 정보의 카테고리에 대응하는 구문 분석을 통해 적어도 하나의 키워드들로 세그멘트할 수 있다. 그리고, 컴퓨팅 장치(102)는 세그먼트로 분할된 키워드를 병변의 영상에 맵핑할 수 있다. 이 때, 텍스트는 내시경 장치를 통해 진행하고 있는 검사 정보, 병변과 관련된 환자 정보, 병변의 외형 정보, 병변의 위치 정보, 병변과 관련된 진단 정보, 병변과 관련된 치료 정보 중 적어도 하나의 카테고리에 대응하는 키워드로 세그먼트될 수 있다.

컴퓨팅 장치(102)는 사용자(103)의 음성으로부터 변환된 텍스트로부터 추출된 키워드와 병변 A의 영상과 함께 등록할 수 있다. 만약에, 텍스트가 적어도 하나의 키워드로 세그먼트되었다면, 세그먼트된 키워드가 영상과 함께 등록될 수 있다. 키워드는 병변의 특징과 관련된 카테고리에 대응하는 공통 코드와 매핑될 수 있다. 즉, 컴퓨팅 장치(102)는 사용자(103)의 음성으로부터 변환된 텍스트로부터 추출된 키워드와 병변 A와 연관하여 등록할 수 있다. 그리고, 사용자(103)가 환자(104)의 장기(105)의 내부를 검사하면서 추가로 발견된 병변 B, 병변 C, 병변 D에 대해서도 위와 같은 사용자(103)의 음성을 입력하는 과정을 반복할 수 있다.

사용자(103)의 음성에 의해 트리거링된 내시경 장치(101)의 카메라(107)가 환자(104)의 병변을 촬영하는 경우, 음성이 입력된 시점에 대응하는 제1 타임스탬프가 음성에 설정되고, 영상이 촬영되는 시점의 제2 타임 스탬프가 영상에 설정될 수 있다. 여기서, 제1 타임 스탬프와 제2 타임 스탬프는 영상과 텍스트를 동기화하여 등록할 때 이용된다. 만약에 동일한 영상이 촬영될 때 입력된 음성이 2개 이상인 경우, 동일한 영상에 음성이 변환된 텍스트가 복수로 매핑되어 등록될 수 있다.

그리고, 음성이 입력된 시점에 인접하는 시간동안 촬영된 영상에서는 음성이 입력되었다는 것을 식별하 있는 식별 정보가 영상에 표시될 수 있다. 내시경 검사할 때 병변을 촬영하기 위해 여러 장면의 영상이 촬영될 수 있는데, 이중에서 병변에 대한 정보를 나타내는 음성이 입력된 시점(t)보다 과거 시간(t-1) 또는 미래 시간(t+1)에서 촬영된 영상에 마크와 같은 식별 정보가 표시될 수 있다. 그러면, 내시경 검사가 진행된 이후에 영상을 확인함에 있어서 영상에 대응하는 음성이 입력되었다는 것을 판단할 수 있다.

이후, 내시경 장치(101)를 통해 발견된 병변은 장기(105)의 영상과 사용자(103)의 음성으로부터 변환된 텍스트와 함께 제공될 수 있다. 이에 대해서는 도 6에서 구체적으로 설명하기로 한다.

도 2를 참고하면, 내시경 장치(201)는 마이크를 통해 사용자의 음성을 입력받을 수 있다. 사용자가 내시경 장치(201)를 통해 환자(104)의 장기의 내부를 검사하면서 병변을 발견한 경우, 병변과 관련된 다양한 정보를 음성으로 입력할 수 있다. 마이크는 사용자가 발화한 병변과 관련된 정보들에 대한 음성을 수집할 수 있다. 그리고, 마이크를 통해 수집된 음성은, 내시경 장치(201)가 촬영한 병변의 영상과 함께 컴퓨팅 장치(202)에 제공될 수 있다.

컴퓨팅 장치(202)는 내시경 장치(201)를 통해 전달된 사용자(103)의 음성을 텍스트로 변환함으로써 병변에 대해 사용자(103)과 발화한 음성을 인식할 수 있다. 그리고, 컴퓨팅 장치(202)는 음성으로부터 변환된 텍스트를 병변과 연관하여 등록할 수 있다. 이에 대해, 컴퓨팅 장치(202)의 프로세서가 음성을 수신하고, 음성을 텍스트로 변환한 후 메모리(203)에 등록할 수 있다. 그리고, 메모리(203)에 등록된 텍스트는 장기(105)의 병변의 영상과 함께 디스플레이에 표시될 수 있다.

음성 인식은 다음과 같은 과정을 통해 수행될 수 있다.

먼저, 사용자(103)가 발화한 음성이 블루투스 헤드셋과 같은 마이크를 통해 입력되면, 컴퓨팅 장치(202)는 노이즈 필터링과 에코 제거를 수행하고, 음향 모델(acoustic model)과 언어 모델(language model)을 참고하여 음성 인식을 통해 사용자(103)가 발화한 음성으로부터 텍스트를 결정할 수 있다.

음향 모델은 음성 DB를 기반으로 화자 발성, 음향 모델 및 발음 사전으로 음성의 파형을 인식하고, 언어 모델은 텍스트 DB를 기반으로 발음 사전과 문법 모델에 기초하여 음성에서 어휘를 인식할 수 있다.

이 때, 컴퓨팅 장치(202)는 음성 인식을 통해 도출된 텍스트를 바로 음성 인식의 결과로 결정하지 않고, 이전에 처리했던 다른 예제의 음성 인식을 통해 도출된 텍스트의 변환 결과와 유사도 검색을 통해 텍스트를 보정할 수 있다.

여기서, 다른 예제의 음성 인식을 통해 도출된 텍스트는 일반적인 케이스가 아닌 내시경 검사를 통해 병변과 관련된 정보를 나타내는 음성을 텍스트로 변환하고, 변환된 결과에 대해 사용자의 검증을 거친 최종적인 텍스트를 의미할 수 있다. 여기서, 유사도 검색은 음성 인식을 통해 음성으로부터 변환된 텍스트에서 병변과 관련된 소견을 나타내는 키워드 간의 유사도를 통해 처리된다. 예를 들어, A라는 음성에서 a1, a2, a3라는 키워드로 구성된 텍스트로 변환된 경우, 이 중 a2가 병변과 관련된 소견을 나타내는 키워드라면 a2와 다른 예제의 음성 인식을 통해 확인된 a2'를 서로 비교함으로써 키워드 간의 유사도가 판단된다.

일례로, 본 발명의 일실시예에 따르면, 사용자(103)가 병변을 식별하거나 병변을 설명하기 위한 소견이나 진단 정보를 나타내는 음성을 입력할 때, 컴퓨팅 장치(102)가 제공하는 가이드에 따라 입력될 수 있다. 예를 들어, 사용자(103)가 병변에 대한 정보를 음성으로 입력할 때, 아래 표 1로 설명되는 시나리오에 따라 입력될 수 있다. 여기서, 컴퓨팅 장치는 AI 모듈을 통해 사용자(103)가 병변에 대한 정보를 입력할 수 있도록 단계별로 음성 가이드(음성 안내 문구)를 제공할 수 있다. 그리고, 음성 가이드는 사용자(103)가 미리 설정된 wake-up 문구가 입력된 이후에 제공될 수 있다.

또한, 사용자(103)가 내시경 검사를 통해 병변을 설명하기 위해 발화한 음성이 A인 경우, 실제로 병변을 설명하기 위해 필요한 정보는 A 이외에도 B, C, D와 같이 추가 정보가 더 필요할 수 있다. 이 경우, 컴퓨팅 장치(202)는 사용자(103)가 내시경 검사 중에 발화한 음성이 실제로 병변을 설명하기 위해 필요한 정보를 반영하지 못하는 경우, 병변을 설명하기 위해 누락된 정보에 대해 요청하는 안내 메시지를 스피커 등을 통해 출력할 수 있다.

예를 들어, 내시경 검사를 통해 확인된 병변을 설명하기 위해, 병변의 이름, 병변의 위치, 병변의 크기, 병변의 속성(모양, 색깔 등)이 모두 필요하다고 가정한다. 하지만, 사용자(103)가 발화한 음성에 병변의 이름만 포함된 경우, 컴퓨팅 장치(202)는 사용자(103)가 발화한 음성을 인식한 후, 누락된 정보인 병변의 위치, 병변의 크기, 병변의 속성 등 병변을 설명하기 위해 필요한 정보들 중 사용자(103)가 발화하지 않은 정보를 추가로 음성으로 입력할 것을 요청하는 안내 메시지를 실시간으로 제공할 수 있다.

그러면, 사용자(103)가 추가적으로 누락된 정보를 음성으로 입력하면, 컴퓨팅 장치(202)는 사용자(103)가 추가로 입력한 음성을 인식한 후 이전에 음성 인식을 통해 확인된 텍스트와 추가로 입력된 음성의 인식 결과를 통해 확인된 텍스트를 동일한 병변에 대한 정보로 설정할 수 있다.

또는 음성인식 기능을 처음 사용하는 내시경 검사자의 경우, 이러한 입력 정보를 순서대로 가이드 해주는 안내 메시지를 스피커를 통해 출력할 수 있다. 예를 들어, 컴퓨팅 장치(202)는 사용자(103)가 특정 순서에 따라 병변에 대한 정보들에 대해 음성으로 입력할 수 있도록 안내 메시지를 출력할 수 있다.

도 3을 참고하면, 음성 녹음 이벤트와 영상 캡쳐 이벤트가 발생될 수 있다. 음성 녹음 이벤트는 사용자가 마이크의 버튼을 누르거나, 종류와 무관하게 음성을 입력하거나 또는 특정 wake-up 문구를 발화(예를 들면, 안녕xx 등, 미리 지정된 단어로 구성된 문장 등)함으로써 시작될 수 있다. 그리고, 영상 캡쳐 이벤트는 내시경 장치의 조작 버튼을 누르면서 발생될 수 있다. 일례로, 영상 캡쳐 이벤트가 발생되고 난 후, 음성 녹음 이벤트가 발생될 수 있다. 다시 말해서, 병변의 영상이 촬영된 이후에, 음성 녹음 이벤트로 트리거링된 마이크를 통해 음성이 입력됨으로써 영상과 음성이 매칭될 수 있다.

영상 캡쳐 이벤트를 통해 내시경 장치가 획득한 영상은 DICOM 게이트웨이를 통해 컴퓨팅 장치에 입력될 수 있다. 그리고 음성 녹음 이벤트를 통해 내시경 장치가 획득한 음성은 컴퓨팅 장치에 입력될 수 있다.

컴퓨팅 장치는 (1) 과정에서 음성을 텍스트로 변환할 수 있다. 그리고, 컴퓨팅 장치는 (2) 과정에서 변환된 음성을 구문 분석할 수 있다. 그리고, 컴퓨팅 장치는 (3) 과정에서 텍스트로부터 키워드를 추출하고, (4) 과정에서 키워드와 코드를 매핑할 수 있다. 여기서, 키워드는 병변에 대한 정보를 나타내는 키워드이며, 키워드와 코드를 매핑하는 과정은 코드 AI를 통해 수행될 수 있다.

구체적으로 코드 AI는 키워드와 통합 코드에 저장된 코드 카테고리와 코드 진단을 서로 매핑하는 과정을 자동화하여 수행할 수 있다. 만약에 통합 코드에 저장된 코드와 대응하는 키워드가 존재하지 않는다면, 키워드에 대한 내용을 통합 코드에 업데이트할 수 있다.

내시경 검사를 통해 진행된 검진 결과를 유효성 있는 의료정보 데이터로 활용 할 수 있도록 병변 공통데이터로 모델링 하고 병변 이미지, 변병 이미지의 특징, 검진, 소견, 판독 등의 데이터를 그룹핑하고, 데이터를 통합 코드로 분류 / 매핑하는 코드 AI를 통해 데이터 Repository로 저장할 수 있다.

그리고, 컴퓨팅 장치는 (5) 과정에서 DICOM 게이트웨이를 통해 내시경 장치에서 캡쳐한 영상과 환자 정보를 획득할 수 있다. 그리고, 컴퓨팅 장치는 (6) 과정에서 영상 AI를 통해 캡쳐한 영상에서 병변을 식별하고, 병변의 크기, 병변의 모양(형태), 병변의 색깔, 영상 내에서의 병변의 위치, 병변의 악성 여부 등을 CNN 등을 통해 병변에 대한 특징을 분석하여 판단할 수 있다.

그러면, 코드 AI와 영상 AI를 통해 데이터베이스가 생성될 수 있다. 구체적으로 코드 AI를 통해 통합 코드가 생성되고, 음성에서 변환된 텍스트로부터 사용자의 소견이나 병변에 대한 판독 내용이 데이터베이스에 저장될 수 있다. 그리고, 영상 AI를 통해 추출된 영상 경로와 영상의 특징이 데이터베이스에 저장될 수 있다. 이 때, 코드 AI를 통해 추출된 정보와 영상 AI를 통해 추출된 정보는 환자에 대해 그룹핑되어 저장될 수 있다. 한편, 컴퓨팅 장치는 병변이 포함된 영상을 저장하는 한편, 병변의 위치와 병변의 영상을 처리한 결과인 시각화 데이터도 저장할 수 있다.

도 4에서 단계(1) 내지 단계(3)은 도 3의 단계 (1) 내지 (4)에 대응하고, 도 4의 단계(4) 내지 단계(6)은 도 3의 단계(5) 내지 (6)에 대응할 수 있다.

단계(401)에서, 컴퓨팅 장치(102)는 내시경 장치(101)와 연결될 수 있는 마이크를 통해 병변에 대한 음성을 수신할 수 있다. 일례로, 컴퓨팅 장치(102)는 내시경 장치(101)를 통해 검사하면서 환자(104)의 병변이 발견되었을 때 별도의 마이크 등을 통해서 검사하고 있는 사용자(103)의 음성을 수신할 수 있다.

병변에 대한 음성은 음성 녹음 이벤트에 의해 녹음될 수 있다. 일례로, 음성 녹음 이벤트는, 사용자가 마이크의 버튼을 누르거나, 종류와 무관하게 음성을 입력하거나 또는 특정 wake-up 문구를 발화(예를 들면, 안녕xx 등, 미리 지정된 단어로 구성된 문장 등)함으로써 시작될 수 있다.

단계(2)에서, 컴퓨팅 장치(102)는 사용자(103)의 음성을 인식하여 음성을 텍스트로 변환할 수 있다. 텍스트는 음성 녹음 이벤트에 따라 사용자(103)의 음성이 입력된 시점부터 종료될 때까지의 음성 프레임이 변환된 결과일 수 있다.

일례로, 컴퓨팅 장치(102)는 내시경 검사 이전에 사용자(103)에게 테스트 음성을 입력하도록 하고, 테스트 음성에 대한 특징 정보를 추출할 수 있다. 그런 후, 컴퓨팅 장치(102)는 내시경 검사가 진행된 이후에 음성 녹음 이벤트에 따라 녹음된 음성을 인식할 때 입력된 음성의 특징 정보과 테스트 음성에 대한 특징 정보가 다른 경우에, 컴퓨팅 장치(102)는 사용자(103)와 다른 제3자의 음성이 입력된 것으로 판단할 수 있다. 그러면, 컴퓨팅 장치는 제3자가 입력한 음성에 대해서는 음성 인식을 진행하지 않을 수 있다.

한편, 컴퓨팅 장치(102)는 음성을 히스토리 DB에 기초하여 변환할 수 있다. 히스토리 DB는, 내시경 장치(101)를 통해 환자를 검사하기 전에 이미 사용자에 의해 등록된 텍스트 또는 내시경 장치(101)를 통해 환자를 검사하기 전에 다른 환자들을 검사하면서 사용자(103)가 입력한 음성으로부터 변환된 텍스트 중 적어도 하나를 포함할 수 있다. 변환된 텍스트가 히스토리 DB에 포함된 텍스트와 다른 경우, 변환된 텍스트에 대한 인식 결과를 표시하고, 인식 결과에 대한 선택 여부를 사용자(103)로부터 수신할 수 있다.

즉, 텍스트에 대한 변환 결과에 대해 오류가 발생될 가능성을 줄이기 위해, 사용자(103)가 평소에 등록한 텍스트나, 과거에 다른 환자(104)의 장기(105)를 검사하면서 등록했던 텍스트와 다른 텍스트가 도출된 경우 이를 히스토리 DB를 통해 확인하여 텍스트의 변환 결과에 대한 오류를 줄일 수 있다. 그리고, 음성에 대응하는 텍스트가 히스토리 DB에 포함된 텍스트와 다른 경우, 상기 변환된 텍스트를 사용자의 선택에 따라 히스토리 DB에 업데이트할 수 있다.

그리고, 단계(2)에서, 컴퓨팅 장치(102)는 텍스트에 대해 구문 분석을 수행할 수 있다. 구문 분석을 통해 키워드가 출력될 수 있다. 이 때, 컴퓨팅 장치(102)는 변환된 텍스트를 의료 정보의 카테고리에 대응하는 블록으로 분할하고, 분할된 블록을 키워드로 설정할 수 있다.

단계(3)에서, 컴퓨팅 장치(102)는 텍스트의 구문 분석을 통해 추출된 키워드 및 코드의 매핑을 수행할 수 있다. 여기서, 키워드는 병변에 대한 정보를 나타내는 키워드이며, 키워드와 코드를 매핑하는 과정은 코드 AI를 통해 수행될 수 있다. 구체적으로 코드 AI는 키워드와 통합 코드에 저장된 코드 카테고리와 코드 진단을 서로 매핑하는 과정을 자동화하여 수행할 수 있다. 만약에 통합 코드에 저장된 코드와 대응하는 키워드가 존재하지 않는다면, 키워드에 대한 내용을 통합 코드에 업데이트할 수 있다.

한편, 영상 촬영 이벤트에 따라 내시경 장치(101)를 통해 병변이 촬영되면, 단계(4)에서 컴퓨팅 장치(102)는 병변의 영상을 수신할 수 있다. 단계(5)에서, 컴퓨팅 장치(102)는 병변에 대한 환자 정보를 획득할 수 있다. 그리고, 단계(6)에서, 컴퓨팅 장치(102)는 영상 AI를 통해 캡쳐한 영상에서 병변을 식별하고, 병변의 크기, 병변의 모양(형태), 병변의 색깔, 영상 내에서의 병변의 위치, 병변의 악성 여부 등을 CNN 등을 통해 병변에 대한 특징을 분석할 수 있다.

그러면, 단계(7)에서, 컴퓨팅 장치(102)는 병변의 영상에 대한 분석 정보와 병변에 대한 키워드를 매핑하여 데이터베이스에 저장할 수 있다. 여기서, 영상에 대한 분석 정보는 병변의 영상의 경로 또는 병변의 위치, 모양, 크기, 색상 등 병변을 식별하기 위한 영상의 특징을 의미할 수 있다. 그리고, 병변에 대한 키워드는 병변에 대해 사용자(103)가 발화한 음성을 인식함으로써 도출된 키워드로, 통합 코드와 매핑되는 정보일 수 있다.

단계(7)에서, 내시경 장치의 병변 영상이 캡쳐된 이후, 음성이 입력된 시점에 대응하는 제1 타임스탬프가 음성에 설정되고, 영상이 촬영되는 시점의 제2 타임 스탬프가 영상에 설정될 수 있다. 그러면, 제1 타임스탬프와 제2 타임스탬프를 통해 음성과 영상이 서로 동기화되어 맵핑될 수 있다.

일례로, 키워드는 내시경 장치(101)를 통해 진행하고 있는 검사 정보, 병변과 관련된 환자 정보, 병변의 외형 정보, 병변의 위치 정보, 병변과 관련된 진단 정보, 병변과 관련된 치료 정보 중 적어도 하나를 나타낼 수 있다.

검사 정보는, 사용자(103)의 식별 정보(이름, 소속), 검사 시간, 검사 장소, 검사 이유 등을 포함할 수 있다. 환자 정보는 환자(104)의 식별 정보 (이름, 일련번호), 복용 약품, 이전에 진단받은 병명 등을 포함할 수 있다. 병변의 외형 정보는, 병변의 크기, 병변의 사이즈, 병변의 모양 등을 포함할 수 있다. 병변의 위치 정보는, 장기(105) 내에서 병변의 위치를 포함할 수 있다. 병변과 관련된 진단 정보는, 병변에 대해 사용자(103)가 판독한 병명이나, 현재 상태 등을 포함할 수 있다. 병변과 관련된 치료 정보는, 진단 정보에 따라 어떻게 치료하면 좋을지에 대한 시술 방향이나 수술/약물 치료 방법 등을 포함할 수 있다.

또한, 도 4에서, 데이터베이스에 저장되는 영상이 미리 설정된 줌 배율 이상인 확대 영상인 경우, 컴퓨팅 장치(102)는 영상이 촬영되기 전에 줌 배율이 적용되지 않은 전체 영상과 확대 영상을 텍스트와 함께 등록할 수 있다. 즉, 내시경 장치(101)를 통해 병변이 촬영되는 경우, 병변에 대한 원경을 나타내는 영상과 근경을 나타내는 영상이 함께 등록됨으로써 내시경 장치(102)를 통한 검사 결과를 다시 진단하는데 도움이 된다.

컴퓨팅 장치(102)는 음성을 인식한 텍스트로부터 도출된 키워드를 병변의 영상에 대한 분석 정보와 서로 매핑하여 데이터베이스에 등록할 수 있다. 일례로, 컴퓨팅 장치(102)는 병변이 존재하는 장기(105)의 영상에서 상기 병변이 위치한 지점에 식별자가 표시되고, 식별자가 선택되면 병변과 관련된 정보 및 상기 병변이 발견되었을 때 사용자(103)로부터 수신한 음성이 변환된 텍스트를 식별자와 연동하여 제공할 수 있다.

다른 일례로, 컴퓨팅 장치(102)는 병변이 존재하는 장기의 영상에서 장기의 시작 위치부터 장기의 종료 위치까지를 표현하는 인포그래픽 데이터를 제공할 수 있다. 그리고, 컴퓨팅 장치(102)는 병변이 위치한 지점에 병변의 영상에 대응하는 식별자를 인포그래픽 데이터에 표시할 수 있다. 인포그래픽 데이터는 내시경 검사를 통해 확인된 병변에 대한 정보 (병변의 이름, 병변의 위치, 병변의 속성 등)를 시각화하여 제3자가 쉽게 이해할 수 있는 데이터를 의미할 수 있다.

환자의 인포그래픽 데이터에서 병변이 위치한 지점에 식별자가 표시될 수 있다. 이 때, 식별자가 선택되면, 컴퓨팅 장치(102)는 병변의 영상 및 영상에 맵핑된 병변에 대한 키워드를 인포그래픽 데이터가 표시된 인터페이스와 오버랩되도록 제공하거나 또는 인포그래픽 데이터가 표시된 인터페이스와 별도의 인터페이스를 통해 제공할 수 있다.

이 때, 키워드는 언어 선택 모드를 통해 선택된 언어에 따라 번역되어 제공될 수도 있다. 예를 들어, 키워드가 한글로 되어 있고, 언어 선택 모드를 통해 영어가 선택되었다면, 키워드는 영어로 번역되어 제공될 수 있다. 언어 선택 모드는 키워드를 제공할 때 선택되거나 또는 사용자/환자의 인적 정보에 따라 자동으로 결정될 수 있다.

<과정 I>

도 5를 참고하면, 병변의 영상이 도시된다. 그리고, 내시경 장치(102)를 통해 화면에 디스플레이되는 경우, 사용자(103)는 음성을 발화할 수 있다. 내시경 화면 캡쳐를 통해 병변의 영상이 획득된다.

그러면, (i)과 같이 영상 획득과 함께 사용자(103)의 음성이 입력된 시점(t1)에서 음성 입력이 종료된 시점(t2)까지의 음성 프레임이 생성될 수 있다. 음성 프레임은 컴퓨팅 장치(102)에 의해 텍스트로 변환된다. (ii)와 같이, 음성은 히스토리 DB에 의해 인식되고 텍스트로 변환될 수 있다. 히스토리 DB는 내시경 장치(102)를 통해 환자(104)를 검사하기 전에 이미 사용자(103)에 의해 등록된 텍스트 또는 내시경 장치를 통해 환자를 검사하기 전에 다른 환자들을 검사하면서 사용자(103)가 입력한 음성으로부터 변환된 텍스트 중 적어도 하나를 포함할 수 있다. 음성에 대응하는 텍스트가 히스토리 DB에 포함된 텍스트와 다른 경우, 음성은 히스토리 DB가 아닌 일반 사전 DB를 통해 변환될 수 있다. 그리고, 사전 DB에 의해 음성으로부터 변환된 텍스트는 사용자의 선택에 따라 히스토리 DB에 업데이트될 수 있다.

그리고, (iii)과 같이 텍스트는 내시경 장치를 통해 진행하고 있는 검사 정보, 병변과 관련된 환자 정보, 병변의 외형 정보, 병변의 위치 정보, 병변과 관련된 진단 정보, 병변과 관련된 치료 정보 중 적어도 하나의 카테고리에 대응하는 키워드로 추출될 수 있다. 사용자(103)가 발화한 음성은 병변을 식별하거나 진단한 다양한 정보와 노이즈가 포함될 수 있다. 그래서, 음성 인식을 통해 변환된 텍스트의 모든 정보가 병변의 영상에 맵핑될 필요가 없다.

변환된 텍스트는 병변을 식별하거나, 병변을 표현하거나 또는 병변을 진단하는 다양한 정보와 관련된 카테고리에 대응하는 키워드로 세그먼트될 수 있다. 즉, 일정 길이를 가지는 텍스트는 병변과 관련된 카테고리에 대응하는 적어도 하나의 키워드로 세그먼트되어, 병변의 영상에 유의미한 정보만 맵핑될 수 있다. 키워드는 공통 코드와 매핑될 수 있다. 그리고, 키워드는 병변의 영상에 매핑되어 등록될 수 있다.

<과정 II>

과정 II는 키워드(X, Z, S)와 병변의 영상이 매핑되어 등록된 결과이다. 키워드와 병변의 영상이 매핑되어 등록된 결과는 컴퓨팅 장치(102)에 의해 DB에 저장된다. 이 때, 사용자(103)가 음성으로 발화한 내용이 통일화되어 입력되지 않을 수 있다. 예를 들어, 어떤 병변에서는 진단명, 병변 위치, 모양을 음성으로 표현될 수 있고, 다른 병변에서는 병변 위치, 사이즈만 음성으로 표현될 수 있다. 그러면, 병변의 영상을 확인할 때는 사용자가 음성으로 발화하지 않은 모든 카테고리가 병변의 영상과 함께 표시될 수 있다. 그리고, 사용자가 음성을 통해 표현하지 않은 카테고리에 대해서는 별도로 키워드로 추가할 수 있다. 즉, 내시경 장치를 통해 시술 당시 음성으로 표현하지 못한 카테고리는 나중에 병변의 영상을 확인할 때 사후적으로 키워드로 입력될 수 있다.

도 6는 본 발명의 일실시예에 따라 확대 영상과 전체 영상의 관계를 설명하는 도면이다.

사용자(103)가 내시경 장치(101)의 카메라를 통해 환자의 장기 내부를 관찰하면서 병변(1-3)이 발견될 수 있다. 그러면, 사용자(103)는 병변이 발생된 위치에서 줌-인(Zoom-In)하여 줌 배율을 증가시키면서 좀더 상세하게 보고자 하는 병변을 확대할 수 있다. 그러면, 병변이 확대된 상황에서 확대 영상(1-3)이 내시경 장치(101)를 통해 획득된다. 이 때, 확대 영상(1-3)이 획득되면, 확대되기 전의 전체 영상도 함께 저장된다. 즉, 컴퓨팅 장치는 병변의 영상이 미리 설정된 줌 배율 이상인 확대 영상인 경우, 영상이 촬영되기 전에 줌 배율이 적용되지 않은 전체 영상과 확대 영상을 텍스트와 함께 등록할 수 있다. 여기서, 텍스트는 음성의 인식 과정을 통해 음성으로 변환된 결과이며, 텍스트는 적어도 하나의 키워드로 구성될 수 있다. 키워드는 병변을 나타내는 정보들에 대응한다.

그러면, 나중에 병변에 대해 내시경 장치를 통한 관찰이 종료된 이후에 사후적으로 병변의 영상을 확인하는 경우, 병변을 근거리에서 표현하여 병변을 좀더 구체적으로 표현하는 확대 영상과 병변이 위치한 부근의 다른 조직들과의 관계를 확인할 수 있도록 병변을 원거리에서 표현한 전체 영상을 함께 등록함으로써 사용자가 병변을 진단할 때 도움이 되도록 한다.

도 7의 I과 II는 내시경 장치(101)를 통해 검사가 완료된 후, 사용자(103) 등이 발화한 음성에 대한 인식 결과를 재확인하는 과정을 제시한다. 또는, 내시경 장치(101)를 통해 병변이 확인된 경우, 사용자(103)가 환자(104)에게 병변과 관련된 정보를 설명하기 위한 예시를 도시한다.

도 7의 I은 컴퓨팅 장치(102)의 디스플레이를 통해 환자(104)의 장기(105)에 대한 인포그래픽 데이터를 표시한 것이다. 인포그래픽 데이터는 내시경 검사를 통해 확인된 환자(104)의 병변을 실제 영상 또는 가공 영상을 통해 설명하기 위해 이용된다. 여기서, 인포그래픽 데이터는 환자(104)의 장기에 대한 실제 영상이거나 또는 일러스트 형태로 가공된 영상을 포함할 수 있다. 환자의 인포그래픽 데이터는 병변의 영상이 맵핑될 수 있다. 그리고, 환자의 장기(105)에 대한 인포그래픽 데이터에 내시경 장치(102)를 통해 확인된 병변에 대응하는 식별자(별표 마크)가 맵핑되어 표시될 수 있다. 여기서, 내시경 장치(102)를 통해 복수 개의 병변이 확인된 경우, 병변들 각각에 대응하는 식별자가 장기(105)의 인포그래픽 데이터에 맵핑될 수 있다.

인포그래픽 데이터가 도 7의 I과 같이 대장과 같은 장기(105)의 시작 부분부터 끝 부분까지 전부 표현할 수 있다. 그러면, 장기의 시작 부분부터 끝 부분까지 인포그래픽 데이터에서 오버랩되어 이동하는 식별자가 존재할 수 있다. 이 때, 식별자가 이동하면서 병변이 위치했던 위치에 도달하면, 해당 식별자로부터 사용자(103)의 음성이 변환된 텍스트가 팝업이나 애니메이션 등의 형태로 표시될 수 있다.

도 7의 II는 병변과 관련된 텍스트의 예시를 나타낸다. 환자의 인포그래픽 데이터에서 병변이 위치한 지점에 식별자가 표시될 수 있다. 이 때, 도 7의 II와 같이 식별자가 선택되면 컴퓨팅 장치는 병변의 영상 및 영상에 맵핑된 키워드를 인포그래픽 데이터가 표시된 인터페이스와 오버랩되도록 제공될 수 있다. 또는 컴퓨팅 장치는 인포그래픽 데이터가 표시된 인터페이스와 별도의 인터페이스를 통해 제공할 수 있다. 여기서, 영상에 맵핑된 키워드는 도 4에서 설명한 바와 같이 의료 정보에 대응하는 카테고리로 표현되는 키워드를 의미할 수 있다. 키워드는 사용자가 음성을 인식한 결과인 텍스트로부터 추출되는 키워드이다.

그리고, 도 7의 II에 도시되지 않았지만 내시경 장치(101)를 통해 검사하면서 발견된 병변의 식별 정보(순서 정보 or 병변이 발견된 시간(타임스탬프))도 추가로 표현될 수 있다. 그리고, 병변의 식별 정보와 함께, 환자(104)의 장기(105)에서 병변이 발견된 위치도 함께 등록될 수 있다. 여기서, 10cm, 30cm 와 같이 병변이 발견된 위치가 표현될 수 있다. 여기서, 위치는 장기의 시작 위치로부터의 장기 내에서 병변이 위치한 지점까지의 거리로 표현될 수 있다. 또는 이러한 거리가 아닌 장기(105) 내에서 병변이 발견된 부위 (ex. 장기(105)의 좌측 상단부 등)로도 표현될 수 있다.

그리고, 각각의 병변에는 병변이 발견되었을 때 사용자(103)가 발화한 음성의 인식 결과를 통해 도출된 텍스트로부터 적어도 하나의 키워드(XXXX, YYYY, ZZZZZZ, WWWWWW)가 추출되고, 키워드는 병변의 영상과 함께 맵핑되어 등록될 수 있다. 도 7의 II에서 표시되지 않았지만, 내시경 장치(101)를 통해 확인된 병변의 영상도 키워드와 연동하여 등록될 수 있다.

즉, 도 7의 II에 의하면 병변 A의 경우, 장기(105)의 시작 위치에서 10cm가 지난 후에 발견되었고, 이 때 사용자(103)가 병변 A에 대해 XXXX라는 음성을 입력한 것으로 파악될 수 있다. 유사하게, 병변 D의 경우, 장기(105)의 시작 위치에서 80cm가 지난 후에 발견되었고, 이 때, 사용자(103)가 병변 D에 대해 WWWWW라는 음성을 입력한 것으로 파악될 수 있다.

그리고, 본 발명에 의하면, 병변이 발견된 시점에 사용자(103)가 입력한 음성으로부터 변환된 텍스트에 대해서 후속적으로 수정이 가능할 수 있다.

본 발명에 의하면, 사용자(103)가 내시경 장치(101)를 통해 환자(104)의 장기(105)의 내부를 조사하면서 발견된 병변에 대해 추후에 따로 키워드를 입력하기 보다는, 병변이 발견된 시점에 음성으로 병변과 관련된 다양한 정보를 입력하는 것만으로도 추후에 정보를 입력할 번거로움이 감소될 수 있다. 그리고, 자동으로 병변에 대해 입력한 음성의 인식 과정을 통해 도출된 키워드가 병변에 연동하여 병변의 영상 등과 함께 제공될 수 있으므로, 차후에 병변에 대한 진단이나 치료를 진행할 때에도 보다 정확하고 신속하게 진행할 수 있다.

도 8은 도 5의 과정 II와 같이 병변의 영상과 사용자의 음성으로부터 변환된 텍스트가 서로 조합된 결과가 누적되면, 서로 동일한 카테고리에 따라 영상을 그룹핑한 결과를 나타낸다. 병변의 영상은 의료 정보에 대응하는 다양한 카테고리(진단면, 병변의 모양, 병변의 사이즈, 병변의 위치 등)로 설정된 키워드와 매핑되어 등록된다.

여기서, 카테고리로 복수의 환자들 각각으로부터 획득한 병변의 영상을 그룹핑함으로써 컴퓨팅 장치는 병변의 영상에 대한 인공지능을 통한 학습시 레이블링된 학습 데이터로 활용될 수 있다. 이렇게 카테고리로 맵핑된 병변의 영상은 학습 데이터로 가공되어 병변의 영상을 인공 지능을 기반으로 판독하는 소프트웨어를 위해 활용될 수 있다.

한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.

본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.

컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.

또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.

마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.

한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims

내시경 검사장치와 연결된 컴퓨팅 장치가 수행하는 데이터 입력 방법에 있어서,

상기 내시경 검사장치를 통해 검사하면서 환자의 병변이 발견되었을 때 상기 검사 장치로 검사하고 있는 사용자의 음성을 수신하는 단계 - 상기 음성은, 음성 녹음 이벤트에 따라 활성화된 마이크를 통해 획득됨-;

상기 사용자의 음성을 텍스트로 변환하는 단계; 및

상기 변환된 텍스트로부터 추출된 적어도 하나의 키워드들을 상기 검사 장치가 표시하고 있는 병변의 영상과 함께 등록하는 단계 -상기 병변의 영상은, 영상 촬영 이벤트에 따라 카메라를 통해 획득됨-

를 포함하는 데이터 입력 방법.
제1항에 있어서,

상기 등록하는 단계는,

상기 변환된 텍스트를 의료 정보의 카테고리에 대응하는 키워드로 세그멘트하는 단계;

상기 세그먼트로 분할된 키워드를 영상에 맵핑하는 단계

를 포함하는 데이터 입력 방법.
제2항에 있어서,

상기 텍스트는,

상기 내시경 장치를 통해 진행하고 있는 검사 정보, 상기 병변과 관련된 환자 정보, 상기 병변의 외형 정보, 상기 병변의 위치 정보, 상기 병변과 관련된 진단 정보, 상기 병변과 관련된 치료 정보 중 적어도 하나의 카테고리에 대응하는 키워드로 세그먼트되는 데이터 입력 방법.
제1항에 있어서,

사용자에 의해 미리 등록된 웨이크업 문구가 음성으로 입력되어 음성 녹음 이벤트가 발생되면, 단계별로 병변에 대한 정보를 음성으로 요청하는 음성 가이드를 제공하는 단계

를 더 포함하고,

상기 음성은, 음성 가이드에 따라 순차적으로 입력되는 데이터 입력 방법.
제1항에 있어서,

상기 사용자의 음성이 변환된 텍스트에서, 병변을 설명하기 위해 필요한 적어도 하나의 키워드들 중 일부의 키워드가 누락되었는지 여부를 판단하는 단계;

상기 키워드가 누락된 경우, 상기 키워드에 대응하는 음성을 추가로 입력할 것을 알림으로 제공하는 단계

를 더 포함하는 데이터 입력 방법.
제4항에 있어서,

내시경 장치의 카메라에 의해서 병변이 캡쳐 되는 경우, 상기 음성이 입력된 시점에 대응하는 제1 타임스탬프가 음성에 설정되고, 상기 영상이 촬영되는 시점의 제2 타임 스탬프가 영상에 설정되는 데이터 입력 방법.
제1항에 있어서,

상기 텍스트로부터 추출된 적어도 하나의 키워드는,

상기 병변에 대한 정보를 나타내는 코드와 매핑될 수 있는 데이터 입력 방법.
제7항에 있어서,

상기 코드는,

상기 병변에 대한 정보들이 카테고리에 따라 할당되고,

상기 병변의 영상은,

상기 음성의 인식 과정을 통해 음성으로부터 변환된 텍스트로부터 도출된 키워드가 매핑된 코드와 함께 저장되는 데이터 입력 방법.
제1항에 있어서,

상기 병변의 영상이 맵핑된 환자의 인포그래픽 데이터를 제공하는 단계

를 더 포함하는 데이터 입력 방법.
제9항에 있어서,

상기 제공하는 단계는,

상기 환자의 인포그래픽 데이터에서 상기 병변이 위치한 지점에 식별자가 표시되고, 상기 식별자가 선택되면 상기 병변의 영상 및 상기 영상에 맵핑된 키워드를 인포그래픽 데이터가 표시된 인터페이스와 오버랩되도록 제공하거나 또는 인포그래픽 데이터가 표시된 인터페이스와 별도의 인터페이스를 통해 제공하는 데이터 입력 방법.
제9항에 있어서,

상기 제공하는 단계는,

언어 선택 모드를 통해 선택된 언어에 따라 상기 등록된 키워드를 번역하여 제공하는 데이터 입력 방법.
제9항에 있어서,

상기 제공하는 단계는,

상기 병변이 존재하는 장기의 영상에서 장기의 시작 위치부터 장기의 종료 위치까지를 표현하는 인포그래픽 데이터를 제공하고,

상기 병변이 위치한 지점에 상기 병변의 영상에 대응하는 식별자를 인포그래픽 데이터에 표시하는 데이터 입력 방법.
내시경 장치에 연결되어 데이터 입력 방법을 수행하는 컴퓨팅 장치는,

적어도 하나의 프로세서를 포함하고,

상기 프로세서는,

상기 내시경 검사장치를 통해 검사하면서 환자의 병변이 발견되었을 때 상기 검사 장치로 검사하고 있는 사용자의 음성을 수신하고,

상기 사용자의 음성을 텍스트로 변환하고,

상기 변환된 텍스트로부터 추출된 적어도 하나의 키워드들을 상기 검사 장치가 표시하고 있는 병변의 영상과 함께 등록하며,

상기 음성은, 음성 녹음 이벤트에 따라 활성화된 마이크를 통해 획득되고, 상기 병변의 영상은, 영상 촬영 이벤트에 따라 카메라를 통해 획득되는 컴퓨팅 장치.
제13항에 있어서,

상기 프로세서는,

상기 음성에서 변환된 텍스트를 의료 정보의 카테고리에 대응하는 키워드로 세그먼트하고, 상기 세그먼트로 분할된 키워드를 영상에 맵핑하는 컴퓨팅 장치.
제13항에 있어서,

상기 프로세서는,

사용자에 의해 미리 등록된 웨이크업 문구가 음성으로 입력되어 음성 녹음 이벤트가 발생되면, 단계별로 병변에 대한 정보를 음성으로 요청하는 음성 가이드를 제공하고,

상기 음성은, 음성 가이드에 따라 순차적으로 입력되는 컴퓨팅 장치.
제13항에 있어서,

상기 프로세서는,

상기 사용자의 음성이 변환된 텍스트에서, 병변을 설명하기 위해 필요한 적어도 하나의 키워드들 중 일부의 키워드가 누락되었는지 여부를 판단하고,

상기 키워드가 누락된 경우, 상기 키워드에 대응하는 음성을 추가로 입력할 것을 알림으로 제공하는 컴퓨팅 장치.