WO2021096279A1 - 내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치 - Google Patents

내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치 Download PDF

Info

Publication number
WO2021096279A1
WO2021096279A1 PCT/KR2020/015974 KR2020015974W WO2021096279A1 WO 2021096279 A1 WO2021096279 A1 WO 2021096279A1 KR 2020015974 W KR2020015974 W KR 2020015974W WO 2021096279 A1 WO2021096279 A1 WO 2021096279A1
Authority
WO
WIPO (PCT)
Prior art keywords
lesion
voice
image
text
keyword
Prior art date
Application number
PCT/KR2020/015974
Other languages
English (en)
French (fr)
Inventor
문창모
Original Assignee
이화여자대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200150946A external-priority patent/KR102453580B1/ko
Application filed by 이화여자대학교 산학협력단 filed Critical 이화여자대학교 산학협력단
Publication of WO2021096279A1 publication Critical patent/WO2021096279A1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing

Definitions

  • the present invention relates to a data input method at a lesion location and a computing device that performs the data input method, and more specifically, an examiner at a location where a lesion is found while observing the inside of a patient's organs through endoscopy including an endoscope device. It relates to a method and apparatus for registering voice input.
  • an endoscope is used to examine the inside of a patient's organs.
  • the endoscopy examiner examines the interior of the large intestine or organs such as the stomach of a number of patients through an endoscopic device, and then checks the lesions identified inside the organs after the endoscope is photographed.
  • the present invention recognizes the voice uttered by the examiner at the location of the lesion found inside the organ while the examiner photographs the inside of the patient's organ using endoscopy including an endoscope, and extracts a keyword from the text that is the result of speech recognition. And, it provides a method and apparatus for registering a keyword and an image of a lesion together.
  • the data input method performed by the computing device connected to the endoscopy apparatus is to receive a voice of a user who is examining with the examination apparatus when a lesion of a patient is found while examining through the endoscopy apparatus.
  • Step-the voice is acquired through a microphone activated according to a voice recording event; Converting the user's voice into text; And registering at least one keyword extracted from the converted text together with an image of a lesion displayed by the examination device-the image of the lesion is acquired through a camera according to an image capturing event.
  • the registering may include segmenting the converted text into keywords corresponding to categories of medical information; It may include the step of mapping the keyword divided into the segment to the image.
  • the text includes at least one of examination information, patient information related to the lesion, appearance information of the lesion, location information of the lesion, diagnostic information related to the lesion, and treatment information related to the lesion. It may be segmented into keywords corresponding to the category of.
  • the wake-up phrase registered in advance by the user is input by voice and a voice recording event occurs, providing a voice guide for requesting information on the lesion by voice step by step, wherein the voice is transmitted to the voice guide. It can be input sequentially.
  • a first time stamp corresponding to the time point at which the voice is input may be set on the voice
  • a second time stamp at the time point at which the image is captured may be set on the image
  • At least one keyword extracted from the text may be mapped to a code representing information on the lesion.
  • information on the lesion is allocated according to a category, and the image of the lesion may be stored together with a code to which a keyword derived from text converted from speech through the speech recognition process is mapped.
  • the method may further include providing infographic data of the patient to which the image of the lesion is mapped.
  • an identifier is displayed at a point where the lesion is located in the patient's infographic data, and when the identifier is selected, the image of the lesion and the keyword mapped to the image are overlapped with the interface on which the infographic data is displayed. It may be provided or may be provided through an interface separate from the interface in which the infographic data is displayed.
  • the registered keyword may be translated and provided according to a language selected through a language selection mode.
  • infographic data representing the start position of the organ to the end position of the organ is provided, and an identifier corresponding to the image of the lesion is provided at a point where the lesion is located. Can be displayed in infographic data.
  • a computing device connected to an endoscope device includes at least one processor, wherein the processor includes at least one processor, when a lesion of a patient is found while examining through the endoscopy device.
  • the processor includes at least one processor, when a lesion of a patient is found while examining through the endoscopy device.
  • the voice may be acquired through a microphone activated according to a voice recording event, and an image of the lesion may be acquired through a camera according to an image capturing event.
  • the processor may segment the text converted from the voice into a keyword corresponding to a category of medical information, and map the keyword divided into the segment to an image.
  • the processor provides a voice guide for requesting information about lesions by voice when a wake-up phrase registered in advance by a user is input as voice and a voice recording event occurs, and the voice is provided according to the voice guide. It can be input sequentially.
  • the processor determines whether some of at least one keyword required to describe a lesion is missing in the text converted to the user's voice, and if the keyword is omitted, the voice corresponding to the keyword You can provide a reminder to enter additionally.
  • the endoscopic examiner recognizes the voice uttered at the location of the lesion found inside the organ, and the text converted from the recognized voice
  • FIG. 1 is a diagram illustrating a process of examining an organ of a patient with an endoscopic device according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating an operation of a computing device that performs a data input method according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a database creation process according to an embodiment of the present invention.
  • FIG. 4 is a flowchart showing a data input method according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating a process of mapping text recognized from an image and an audio according to an embodiment of the present invention.
  • FIG. 6 is a diagram illustrating a relationship between an enlarged image and an entire image according to an embodiment of the present invention.
  • FIG. 7 is a diagram illustrating a process of providing a result of mapping an image and a text in infographic data according to an embodiment of the present invention.
  • FIG. 8 is a diagram illustrating a process of providing images mapped to text according to an embodiment of the present invention.
  • FIG. 1 is a diagram illustrating a process of examining an organ of a patient with an endoscopic device according to an embodiment of the present invention.
  • the user 103 examines the interior of the organ 105 of the patient 104 through the endoscopic apparatus 101.
  • the endoscope device 101 may be connected to the computing device 102.
  • the computing device 102 may be implemented as a system with the endoscope device 101 or may be implemented as a separate system.
  • the user 103 may examine the inside of the organ 105 of the patient 104 through the camera 107 of the endoscope device 101 and find a lesion inside the organ 105.
  • the lesion A, the lesion B, the lesion C, and the lesion D are lesions discovered in order through the examination of the endoscopic apparatus 101.
  • a voice may be input through a separate microphone 108.
  • the microphone 108 may be disposed in a partial area of the endoscope apparatus 101.
  • the microphone 108 may be a device that is worn by the user 103 or can be held by the user 101 as an independent component of the endoscope device 101.
  • the microphone 108 is an endoscope device 101 ) And can be connected wirelessly or wired.
  • the microphone 108 may be a Bluetooth headset worn by the user 103 performing an endoscopy. The microphone 108 is continuously turned on while the endoscopy is in progress, and then the user 103 presses the record button, a certain voice is input, or a voice recording event such as a predefined text (ex. high xx) occurs. If so, voice recording can start.
  • the voice input from the user 103 is the information of the patient 104, which is the target of the endoscopy, basic information related to the endoscopy, the location of the lesion, the size, size, and shape of the lesion. It may be a voice including findings.
  • the computing device 102 may display the image of the lesion A through the display.
  • the voice input by the user 103 may be a voice including the external characteristics of the lesion, the examination for the lesion, or the findings of the lesion that the user 103, who is a medical staff performing an endoscopy, found while performing an endoscopy. have.
  • the voice input by the user 103 may be converted into text through an artificial intelligence-based voice recognition model learned through machine learning or deep learning.
  • the converted text may be identified with at least one keyword through syntax analysis.
  • the identified keyword may be mapped to a code related to a lesion that has been commonly identified by a plurality of endoscopy examiners through a plurality of endoscopy beforehand and registered.
  • the keyword A included in the text may be mapped to 1029131, which is a code related to a lesion.
  • the code related to the lesion may be stored in a database or the like in a form mapped with a keyword. If a keyword is difficult to map to a keyword that has already been registered, it may be mapped to a code corresponding to a similar keyword or a code for the keyword may be newly updated in the database.
  • the camera 107 of the endoscope apparatus 101 may be triggered to utter a voice in a situation where the lesion identified through endoscopy is displayed on the display. That is, the camera 107 is triggered by the voice of the user 103, and accordingly, an image displayed by the camera 107 through the display can be captured. The captured image may be delivered to the computing device 102 together with the audio.
  • the computing device 102 may receive an image of the lesion A being photographed by the endoscope device 101 together with the voice of the user 103.
  • the computing device 102 may recognize the voice (XXXX) of the user 103 and convert the voice into text.
  • the user 103 may input various information related to the procedure of the lesion A, the patient 104, and the endoscopic apparatus 101 by voice.
  • the computing device 102 may recognize speech and convert it into text.
  • the voice input by the user 103 may be input to a voice recognition model trained with various training data.
  • Computing device 102 may execute a speech recognition model.
  • the voice recognition model may recognize a voice uttered by a medical staff (user) of an endoscopy, and convert information on a lesion identified through the endoscopy from the voice into a form such as a keyword or a sentence.
  • the length of the text also varies according to the time when the user 103 uttered the voice. If the user 103 intermittently utters the voice during the time period including the silent section, the voice frame from the time when the voice is first uttered to the time point at which the voice utterance is completed may be converted into text.
  • the computing device 102 may segment the converted text into at least one keyword through syntax analysis corresponding to the category of medical information.
  • the computing device 102 may map the keyword divided into segments to the image of the lesion.
  • the text corresponds to at least one category of examination information, patient information related to the lesion, appearance information of the lesion, location information of the lesion, diagnostic information related to the lesion, and treatment information related to the lesion. Can be segmented by keyword.
  • the computing device 102 may register together with the keyword extracted from the text converted from the voice of the user 103 and the image of the lesion A. If the text is segmented by at least one keyword, the segmented keyword may be registered along with the image. Keywords may be mapped with a common code corresponding to a category related to the characteristics of the lesion. That is, the computing device 102 may register the keyword extracted from the text converted from the voice of the user 103 in association with the lesion A.
  • the user 103 may repeat the process of inputting the voice of the user 103 as described above for lesions B, C, and D additionally discovered while examining the inside of the organ 105 of the patient 104. I can.
  • a first timestamp corresponding to the time point at which the voice was input is set in the voice
  • a second time stamp of the time point at which the image is captured may be set on the image.
  • the first time stamp and the second time stamp are used when synchronizing and registering an image and text. If there are two or more input voices when the same image is captured, a plurality of texts converted into the same image may be mapped and registered.
  • identification information identifying that the voice has been input may be displayed on the image.
  • images of several scenes can be taken to photograph the lesion. Among them, the time in the past (t-1) or the future time (t+1) than the time point (t) when the voice indicating information about the lesion was input. ), identification information such as a mark may be displayed on the image captured in Then, when checking the image after the endoscopy is performed, it may be determined that a voice corresponding to the image has been input.
  • the lesion found through the endoscopic apparatus 101 may be provided together with the text converted from the image of the organ 105 and the voice of the user 103. This will be described in detail in FIG. 6.
  • FIG. 2 is a diagram illustrating an operation of a computing device that performs a data input method according to an embodiment of the present invention.
  • the endoscope device 201 may receive a user's voice through a microphone.
  • various information related to the lesion may be input by voice.
  • the microphone may collect voices for information related to lesions uttered by the user.
  • the voice collected through the microphone may be provided to the computing device 202 together with an image of the lesion captured by the endoscopic device 201.
  • the computing device 202 may recognize the voice spoken with the user 103 about the lesion by converting the voice of the user 103 transmitted through the endoscope device 201 into text. In addition, the computing device 202 may register the text converted from speech in association with the lesion. In contrast, the processor of the computing device 202 may receive the voice, convert the voice to text, and register it in the memory 203. Further, the text registered in the memory 203 may be displayed on the display together with the image of the lesion of the organ 105.
  • Speech recognition can be performed through the following process.
  • the computing device 202 when the voice uttered by the user 103 is input through a microphone such as a Bluetooth headset, the computing device 202 performs noise filtering and echo cancellation, and generates an acoustic model and a language model.
  • the text may be determined from the voice uttered by the user 103 through voice recognition.
  • the acoustic model recognizes the waveform of the speech with the speaker's utterance, the acoustic model, and the pronunciation dictionary based on the speech DB, and the language model can recognize the vocabulary in the speech based on the pronunciation dictionary and the grammar model based on the text DB.
  • the computing device 202 does not directly determine the text derived through speech recognition as a result of speech recognition, but instead searches for a text conversion result and similarity derived through speech recognition of another example previously processed. Can be corrected.
  • the text derived through speech recognition in other examples is not a general case, but a final text that has undergone user verification of the converted result by converting the speech representing lesion-related information into text through endoscopy.
  • the similarity search is processed through the similarity between keywords representing lesion-related findings in the text converted from speech through speech recognition. For example, if the voice A is converted to text consisting of the keywords a1, a2, and a3, if a2 is a keyword representing a lesion-related finding, then a2 and a2' identified through speech recognition in other examples are used. By comparing, the degree of similarity between keywords is determined.
  • the input according to the guide provided by the computing device 102 can be.
  • the computing device may provide a voice guide (voice guide phrase) step by step so that the user 103 can input information on the lesion through the AI module.
  • the voice guide may be provided after the user 103 inputs a preset wake-up phrase.
  • the computing device 202 sends a guide message requesting the missing information to describe the lesion. It can be output through a speaker or the like.
  • the computing device 202 recognizes the voice uttered by the user 103, and then the missing information is the location of the lesion, the size of the lesion, and A guide message requesting additional voice input of information that the user 103 has not uttered among information necessary to describe the lesion, such as the properties of the lesion, may be provided in real time.
  • the computing device 202 recognizes the voice additionally input by the user 103, and then additionally inputs the text previously confirmed through voice recognition.
  • the text identified through the recognition result of the voice can be set as information on the same lesion.
  • a guide message guiding such input information in order may be output through a speaker.
  • the computing device 202 may output a guide message so that the user 103 can input information on lesions by voice in a specific order.
  • FIG. 3 is a diagram illustrating a database creation process according to an embodiment of the present invention.
  • a voice recording event and an image capture event may occur.
  • the voice recording event may be initiated by a user pressing a button of a microphone, inputting a voice regardless of type, or uttering a specific wake-up phrase (eg, hello xx, a sentence composed of a predetermined word, etc.).
  • the image capture event may be generated while pressing the operation button of the endoscope device.
  • a voice recording event may occur.
  • the image and the audio may be matched by inputting a voice through a microphone triggered by a voice recording event.
  • the image acquired by the endoscope device through the image capture event may be input to the computing device through the DICOM gateway.
  • the voice acquired by the endoscope device through the voice recording event may be input to the computing device.
  • the computing device may convert speech into text in step (1).
  • the computing device may parse the voice converted in step (2).
  • the computing device may extract a keyword from the text in step (3) and map the keyword and the code in step (4).
  • the keyword is a keyword representing information on a lesion, and a process of mapping the keyword and the code may be performed through code AI.
  • code AI can be performed by automating the process of mapping code categories and code diagnosis stored in keywords and integrated codes to each other. If there is no keyword corresponding to the code stored in the unified code, the contents of the keyword can be updated in the unified code.
  • the computing device may acquire the image captured by the endoscope device and patient information through the DICOM gateway in step (5). Then, the computing device identifies the lesion from the image captured through the image AI in step (6), the size of the lesion, the shape (shape) of the lesion, the color of the lesion, the location of the lesion in the image, and whether the lesion is malignant. The back can be determined by analyzing the characteristics of the lesion through CNN or the like.
  • a database can be created through code AI and video AI.
  • an integrated code is generated through the code AI, and a user's opinion or reading of a lesion may be stored in a database from the text converted from speech.
  • the image path extracted through the image AI and the characteristics of the image may be stored in the database.
  • information extracted through code AI and information extracted through image AI may be grouped and stored for patients.
  • the computing device may store an image including a lesion, and may also store a location of the lesion and visualization data that is a result of processing the image of the lesion.
  • FIG. 4 is a flowchart showing a data input method according to an embodiment of the present invention.
  • Steps (1) to (3) in FIG. 4 correspond to steps (1) to (4) of FIG. 3, and steps (4) to (6) of FIG. 4 are steps (5) to ( It can respond to 6).
  • the computing device 102 may receive a voice for the lesion through a microphone that may be connected with the endoscopic device 101.
  • the computing device 102 may receive a voice of the user 103 being examined through a separate microphone or the like when a lesion of the patient 104 is found while being examined through the endoscope device 101.
  • the voice for the lesion can be recorded by means of a voice recording event.
  • a voice recording event a user presses a button of a microphone, inputs a voice regardless of type, or utters a specific wake-up phrase (for example, hello xx, a sentence composed of predefined words, etc.) It can be started by doing.
  • a specific wake-up phrase for example, hello xx, a sentence composed of predefined words, etc.
  • the computing device 102 may recognize the voice of the user 103 and convert the voice to text.
  • the text may be a result of converting a voice frame from a time point when the user 103's voice is input to an end point according to a voice recording event.
  • the computing device 102 may allow the user 103 to input a test voice before an endoscopy, and may extract feature information about the test voice. Then, when the computing device 102 recognizes the voice recorded according to the voice recording event after the endoscopy is performed, when the feature information of the input voice and the feature information of the test voice are different, the computing device 102 It may be determined that the voice of a third party different from the user 103 has been input. Then, the computing device may not perform voice recognition on the voice input by the third party.
  • the computing device 102 may convert the voice based on the history DB.
  • the history DB is from the text already registered by the user before examining the patient through the endoscope device 101 or the voice input by the user 103 while examining other patients before examining the patient through the endoscope device 101. It may include at least one of the converted text.
  • a recognition result for the converted text may be displayed, and whether or not to select the recognition result may be received from the user 103.
  • the computing device 102 may perform parsing on the text. Keywords can be output through syntax analysis. In this case, the computing device 102 may divide the converted text into blocks corresponding to categories of medical information, and set the divided blocks as keywords.
  • the computing device 102 may perform mapping of keywords and codes extracted through the text parsing.
  • the keyword is a keyword representing information on a lesion
  • a process of mapping the keyword and the code may be performed through code AI.
  • code AI can be performed by automating the process of mapping code categories and code diagnosis stored in keywords and integrated codes to each other. If there is no keyword corresponding to the code stored in the unified code, the contents of the keyword can be updated in the unified code.
  • the computing device 102 may receive an image of the lesion in step (4).
  • the computing device 102 may obtain patient information about the lesion.
  • the computing device 102 identifies the lesion in the image captured through the image AI, and the size of the lesion, the shape (shape) of the lesion, the color of the lesion, the location of the lesion in the image, The characteristics of the lesion can be analyzed through CNN, etc. to determine whether the lesion is malignant or not.
  • the computing device 102 may map the analysis information on the image of the lesion and the keyword for the lesion and store it in the database.
  • the analysis information on the image may refer to a path of an image of a lesion or a feature of an image for identifying a lesion, such as a location, shape, size, and color of the lesion.
  • the keyword for the lesion is a keyword derived by recognizing a voice uttered by the user 103 for the lesion, and may be information mapped with an integrated code.
  • step (7) after the lesion image of the endoscopic device is captured, a first time stamp corresponding to the time point at which the voice is input is set on the voice, and a second time stamp at the time point at which the image is captured may be set on the image. have. Then, audio and video may be synchronized with each other and mapped through the first time stamp and the second time stamp.
  • the keyword represents at least one of examination information, patient information related to the lesion, appearance information of the lesion, location information of the lesion, diagnosis information related to the lesion, and treatment information related to the lesion. I can.
  • the inspection information may include identification information (name, affiliation) of the user 103, inspection time, inspection place, inspection reason, and the like.
  • the patient information may include identification information (name, serial number) of the patient 104, a drug to be taken, a previously diagnosed disease name, and the like.
  • the information on the appearance of the lesion may include the size of the lesion, the size of the lesion, and the shape of the lesion.
  • the location information of the lesion may include the location of the lesion within the organ 105.
  • the diagnostic information related to the lesion may include a disease name or a current state read by the user 103 for the lesion.
  • the treatment information related to the lesion may include an operation direction or a surgical/drug treatment method for how to treat according to the diagnosis information.
  • the computing device 102 registers the entire image to which the zoom factor is not applied and the enlarged image together with text before the image is captured. I can. That is, when a lesion is photographed through the endoscopic apparatus 101, an image representing a distant view and an image representing a near view are registered together to help diagnose the test result through the endoscopic apparatus 102 again.
  • the computing device 102 may map a keyword derived from a text recognizing a voice with analysis information on an image of a lesion and register it in a database. As an example, the computing device 102 displays an identifier at a location where the lesion is located in the image of the organ 105 in which the lesion exists, and when the identifier is selected, information related to the lesion and the user 103 when the lesion is found.
  • the voice-converted text received from may be provided in association with the identifier.
  • the computing device 102 may provide infographic data representing from the start position of the organ to the end position of the organ in an image of an organ in which a lesion exists.
  • the computing device 102 may display an identifier corresponding to an image of the lesion at a point where the lesion is located in the infographic data.
  • the infographic data can mean data that can be easily understood by a third party by visualizing information on a lesion identified through an endoscopy (name of the lesion, location of the lesion, properties of the lesion, etc.).
  • An identifier may be displayed at the location of the lesion in the patient's infographic data.
  • the computing device 102 provides the image of the lesion and the keyword for the lesion mapped to the image so as to overlap the interface in which the infographic data is displayed, or an interface separate from the interface in which the infographic data is displayed. Can be provided through.
  • the keyword may be translated and provided according to the language selected through the language selection mode. For example, if the keyword is in Korean and English is selected through the language selection mode, the keyword may be translated into English and provided.
  • the language selection mode may be selected when a keyword is provided or may be automatically determined according to personal information of a user/patient.
  • FIG. 5 is a diagram illustrating a process of mapping text recognized from an image and an audio according to an embodiment of the present invention.
  • an image of the lesion is shown.
  • the user 103 may utter a voice.
  • An image of the lesion is acquired through capturing the endoscopic screen.
  • a voice frame from a time point t1 at which the user 103's voice is input to the time point t2 at which the voice input is terminated may be generated together with image acquisition.
  • Speech frames are converted to text by computing device 102.
  • speech can be recognized by the history DB and converted into text.
  • the history DB is a text that has already been registered by the user 103 before examining the patient 104 through the endoscope device 102, or the text entered by the user 103 while examining other patients before examining the patient through the endoscope device. It may include at least one of texts converted from speech.
  • the voice may be converted through a general dictionary DB instead of the history DB.
  • the text converted from speech by the dictionary DB may be updated in the history DB according to the user's selection.
  • the text is at least one of examination information, patient information related to the lesion, appearance information of the lesion, location information of the lesion, diagnosis information related to the lesion, and treatment information related to the lesion. It can be extracted as a keyword corresponding to the category.
  • the voice uttered by the user 103 may include various information and noise for identifying or diagnosing a lesion. Thus, it is not necessary to map all the information of the text converted through speech recognition to the image of the lesion.
  • the converted text may be segmented into keywords corresponding to categories related to various information identifying a lesion, representing a lesion, or diagnosing a lesion. That is, the text having a certain length is segmented into at least one keyword corresponding to the category related to the lesion, so that only meaningful information may be mapped to the image of the lesion. Keywords can be mapped with common codes. In addition, the keyword may be mapped to the image of the lesion and registered.
  • Process II is the result of mapping and registering the keywords (X, Z, S) and the image of the lesion.
  • the keyword and the image of the lesion are mapped and the registered result is stored in the DB by the computing device 102.
  • the content uttered by the user 103 in the voice may not be unified and input.
  • the diagnosis name, lesion location, and shape may be expressed as negative, and in other lesions, only the lesion location and size may be expressed as negative.
  • all categories that the user has not spoken with voice may be displayed together with the image of the lesion.
  • a category that the user has not expressed through voice can be added as a separate keyword. That is, a category that cannot be expressed as a voice at the time of the procedure through the endoscopic device may be input as a keyword afterwards when checking the image of the lesion later.
  • FIG. 6 is a diagram illustrating a relationship between an enlarged image and an entire image according to an embodiment of the present invention.
  • the lesion 1-3 may be found while the user 103 observes the inside of the patient's organ through the camera of the endoscope device 101. Then, the user 103 can zoom-in at the location where the lesion has occurred to increase the zoom magnification and enlarge the lesion to be viewed in more detail. Then, an enlarged image 1-3 is acquired through the endoscopic apparatus 101 in a situation in which the lesion is enlarged. At this time, when the enlarged image 1-3 is obtained, the entire image before the enlargement is also stored.
  • the computing device may register the entire image to which the zoom factor is not applied and the enlarged image together with the text before the image is captured.
  • the text is a result of being converted into speech through a speech recognition process, and the text may be composed of at least one keyword. Keywords correspond to information indicative of the lesion.
  • FIG. 7 is a diagram illustrating a process of providing a result of mapping an image and a text in infographic data according to an embodiment of the present invention.
  • I and II of FIG. 7 present a process of reconfirming the recognition result of the voice uttered by the user 103 or the like after the examination is completed through the endoscope device 101.
  • an example for explaining the information related to the lesion to the patient 104 by the user 103 is shown.
  • infographic data for the organ 105 of the patient 104 through the display of the computing device 102.
  • the infographic data is used to describe the lesion of the patient 104 identified through endoscopy through an actual image or a processed image.
  • the infographic data may be an actual image of the organ of the patient 104 or may include an image processed in the form of an illustration.
  • the image of the lesion may be mapped to the patient's infographic data.
  • an identifier (asterisk mark) corresponding to a lesion identified through the endoscopic apparatus 102 may be mapped and displayed on the infographic data on the patient's organ 105.
  • an identifier corresponding to each of the lesions may be mapped to infographic data of the organ 105.
  • the infographic data can be expressed entirely from the beginning to the end of an organ 105 such as a large intestine as shown in I of FIG. 7. Then, there may be an identifier that overlaps and moves in the infographic data from the beginning to the end of the organ. At this time, when the identifier moves and reaches the position where the lesion was located, the text converted from the user 103's voice from the identifier may be displayed in the form of a pop-up or animation.
  • Figure 7 II shows an example of the text related to the lesion.
  • An identifier may be displayed at the location of the lesion in the patient's infographic data.
  • the computing device may provide the image of the lesion and the keyword mapped to the image so as to overlap the interface on which the infographic data is displayed.
  • the computing device may be provided through an interface separate from the interface on which the infographic data is displayed.
  • the keyword mapped to the image may mean a keyword expressed in a category corresponding to medical information as described in FIG. 4. Keywords are keywords extracted from text that is a result of the user's speech recognition.
  • identification information order information or time at which the lesion was found (timestamp)
  • timestamp time at which the lesion was found
  • the location where the lesion is found in the organ 105 of the patient 104 may be registered together.
  • the location where the lesion was found can be expressed, such as 10 cm and 30 cm.
  • the position may be expressed as a distance from the start position of the organ to the point where the lesion is located in the organ. Alternatively, it may be expressed as a region where the lesion is found within the organ 105, not such a distance (ex. the upper left portion of the organ 105, etc.).
  • At least one keyword (XXXX, YYYY, ZZZZZZ, WWWWW) is extracted from the text derived through the recognition result of the voice uttered by the user 103 when the lesion is found, and the keyword is an image of the lesion. Mapped with and can be registered. Although not shown in II of FIG. 7, an image of a lesion identified through the endoscopic apparatus 101 may also be registered in association with a keyword.
  • the lesion A was discovered after 10 cm from the starting position of the organ 105, and at this time, it can be understood that the user 103 inputs the voice of XXXX for the lesion A. .
  • the user 103 inputs the voice of WWWWW for the lesion D.
  • the user 103 examines the inside of the organ 105 of the patient 104 through the endoscopic device 101, rather than inputting a separate keyword at a later time for the lesion found, the time when the lesion is found.
  • the hassle of inputting information in the future can be reduced.
  • the keyword derived through the process of automatically recognizing the voice input for the lesion can be linked to the lesion and provided with the image of the lesion, it is possible to proceed more accurately and quickly even when diagnosing or treating the lesion in the future. have.
  • FIG. 8 is a diagram illustrating a process of providing images mapped to text according to an embodiment of the present invention.
  • FIG. 8 shows a result of grouping images according to the same category when a result of a combination of an image of a lesion and a text converted from a user's voice is accumulated as in step II of FIG. 5.
  • the lesion image is mapped and registered with keywords set in various categories (diagnosis surface, lesion shape, lesion size, lesion location, etc.) corresponding to medical information.
  • the computing device can be used as labeled learning data when learning about the image of the lesion through artificial intelligence.
  • the images of lesions mapped into categories can be processed into learning data and used for software that reads images of lesions based on artificial intelligence.
  • the method according to the present invention is written as a program that can be executed on a computer and can be implemented in various recording media, such as a magnetic storage medium, an optical reading medium, and a digital storage medium.
  • Implementations of the various techniques described herein may be implemented in digital electronic circuitry, or in computer hardware, firmware, software, or combinations thereof. Implementations may include a data processing device, e.g., a programmable processor, a computer, or a computer program product, i.e. an information carrier, e.g., machine-readable storage, for processing by or controlling the operation of a plurality of computers. It may be implemented as a computer program tangibly embodied in an apparatus (computer readable medium) or a radio signal. Computer programs such as the above-described computer program(s) may be recorded in any type of programming language, including compiled or interpreted languages, and as a standalone program or in a module, component, subroutine, or computing environment. It can be deployed in any form, including as other units suitable for the use of. A computer program can be deployed to be processed on one computer or multiple computers at one site or to be distributed across multiple sites and interconnected by a communication network.
  • a data processing device e.g., a programmable
  • processors suitable for processing a computer program include, by way of example, both general and special purpose microprocessors, and any one or more processors of any kind of digital computer.
  • the processor will receive instructions and data from read-only memory or random access memory or both.
  • Elements of the computer may include at least one processor that executes instructions and one or more memory devices that store instructions and data.
  • a computer may include one or more mass storage devices that store data, such as magnetic, magnetic-optical disks, or optical disks, or receive data from or transmit data to them, or both. It can also be combined so as to be.
  • Information carriers suitable for embodying computer program instructions and data are, for example, semiconductor memory devices, for example, magnetic media such as hard disks, floppy disks and magnetic tapes, Compact Disk Read Only Memory (CD-ROM). ), Optical Media such as DVD (Digital Video Disk), Magnetic-Optical Media such as Floptical Disk, ROM (Read Only Memory), RAM (RAM) , Random Access Memory), flash memory, EPROM (Erasable Programmable ROM), EEPROM (Electrically Erasable Programmable ROM), and the like.
  • the processor and memory may be supplemented by or included in a special purpose logic circuit structure.
  • the computer-readable medium may be any available medium that can be accessed by a computer, and may include both a computer storage medium and a transmission medium.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Surgery (AREA)
  • Radiology & Medical Imaging (AREA)
  • Physics & Mathematics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Biomedical Technology (AREA)
  • Optics & Photonics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biophysics (AREA)
  • Veterinary Medicine (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Endoscopes (AREA)

Abstract

병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치가 개시된다. 데이터 입력 방법은, 내시경 검사를 통해 환자의 장기 내부에서 발견된 병변의 위치에서 검사자인 사용자가 발화한 음성을 텍스트로 변환하고, 변환된 텍스트에서 추출된 키워드를 코드와 매핑하고, 병변의 영상과 연동하여 등록하는 방법에 관한 것이다.

Description

내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치
본 발명은 병변 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치에 관한 것으로, 보다 구체적으로는 내시경 장치를 비롯한 내시경 검사를 통해 환자의 장기 내부를 관찰하다가 병변이 발견된 위치에서 검사자의 음성 입력을 등록하는 방법 및 장치에 관한 것이다.
내시경을 이용하여 환자의 장기 내부를 조사하는 상황이 자주 발생된다. 이 때, 내시경 검사자는 수많은 환자의 대장이나 위와 같은 장기의 내부를 내시경 장치를 통해 조사한 이후에, 장기 내부에서 확인된 병변을 내시경이 촬영된 이후에 확인하고 있다.
그러면, 기존의 방식의 경우, 어느 하나의 환자에 대해 내시경을 이용하여 촬영한 수많은 사진이 존재하는데, 이러한 사진을 통해 특정 병변이 위치한 지점을 확인해야 하고, 확인된 병변에 대한 속성 등을 다시 타이핑을 통해 입력해야 하는 번거로움이 존재하였다.
그래서, 내시경을 촬영할 때 바로 병변과 관련된 여러가지 정보를 검사자가 손쉽게 입력할 수 있는 방안이 요구된다.
본 발명은 검사자가 내시경을 비롯한 비롯한 내시경 검사를 이용하여 환자의 장기 내부를 촬영하다가, 장기 내부에서 발견된 병변의 위치에서 검사자가 발화한 음성을 인식하고, 음성의 인식 결과인 텍스트로부터 키워드를 추출하고, 키워드와 병변의 영상을 함께 등록하는 방법 및 장치를 제공한다.
본 발명의 일실시예에 따른 내시경 검사장치와 연결된 컴퓨팅 장치가 수행하는 데이터 입력 방법은 상기 내시경 검사장치를 통해 검사하면서 환자의 병변이 발견되었을 때 상기 검사 장치로 검사하고 있는 사용자의 음성을 수신하는 단계 - 상기 음성은, 음성 녹음 이벤트에 따라 활성화된 마이크를 통해 획득됨-; 상기 사용자의 음성을 텍스트로 변환하는 단계; 및 상기 변환된 텍스트로부터 추출된 적어도 하나의 키워드들을 상기 검사 장치가 표시하고 있는 병변의 영상과 함께 등록하는 단계 -상기 병변의 영상은, 영상 촬영 이벤트에 따라 카메라를 통해 획득됨-를 포함할 수 있다.
상기 등록하는 단계는, 상기 변환된 텍스트를 의료 정보의 카테고리에 대응하는 키워드로 세그멘트하는 단계; 상기 세그먼트로 분할된 키워드를 영상에 맵핑하는 단계를 포함할 수 있다.
상기 텍스트는, 상기 내시경 장치를 통해 진행하고 있는 검사 정보, 상기 병변과 관련된 환자 정보, 상기 병변의 외형 정보, 상기 병변의 위치 정보, 상기 병변과 관련된 진단 정보, 상기 병변과 관련된 치료 정보 중 적어도 하나의 카테고리에 대응하는 키워드로 세그먼트될 수 있다.
사용자에 의해 미리 등록된 웨이크업 문구가 음성으로 입력되어 음성 녹음 이벤트가 발생되면, 단계별로 병변에 대한 정보를 음성으로 요청하는 음성 가이드를 제공하는 단계를 더 포함하고, 상기 음성은, 음성 가이드에 따라 순차적으로 입력될 수 있다.
상기 사용자의 음성이 변환된 텍스트에서, 병변을 설명하기 위해 필요한 적어도 하나의 키워드들 중 일부의 키워드가 누락되었는지 여부를 판단하는 단계; 상기 키워드가 누락된 경우, 상기 키워드에 대응하는 음성을 추가로 입력할 것을 알림으로 제공하는 단계를 더 포함할 수 있다.
내시경 장치의 카메라에 의해서 병변이 캡쳐 되는 경우, 상기 음성이 입력된 시점에 대응하는 제1 타임스탬프가 음성에 설정되고, 상기 영상이 촬영되는 시점의 제2 타임 스탬프가 영상에 설정될 수 있다.
상기 텍스트로부터 추출된 적어도 하나의 키워드는, 상기 병변에 대한 정보를 나타내는 코드와 매핑될 수 있다.
상기 코드는, 상기 병변에 대한 정보들이 카테고리에 따라 할당되고, 상기 병변의 영상은, 상기 음성의 인식 과정을 통해 음성으로부터 변환된 텍스트로부터 도출된 키워드가 매핑된 코드와 함께 저장될 수 있다.
상기 병변의 영상이 맵핑된 환자의 인포그래픽 데이터를 제공하는 단계를 더 포함할 수 있다.
상기 제공하는 단계는, 상기 환자의 인포그래픽 데이터에서 상기 병변이 위치한 지점에 식별자가 표시되고, 상기 식별자가 선택되면 상기 병변의 영상 및 상기 영상에 맵핑된 키워드를 인포그래픽 데이터가 표시된 인터페이스와 오버랩되도록 제공하거나 또는 인포그래픽 데이터가 표시된 인터페이스와 별도의 인터페이스를 통해 제공할 수 있다.
상기 제공하는 단계는, 언어 선택 모드를 통해 선택된 언어에 따라 상기 등록된 키워드를 번역하여 제공할 수 있다.
상기 제공하는 단계는, 상기 병변이 존재하는 장기의 영상에서 장기의 시작 위치부터 장기의 종료 위치까지를 표현하는 인포그래픽 데이터를 제공하고, 상기 병변이 위치한 지점에 상기 병변의 영상에 대응하는 식별자를 인포그래픽 데이터에 표시할 수 있다.
본 발명의 일실시예에 따른 내시경 장치에 연결되어 데이터 입력 방법을 수행하는 컴퓨팅 장치는, 적어도 하나의 프로세서를 포함하고, 상기 프로세서는, 상기 내시경 검사장치를 통해 검사하면서 환자의 병변이 발견되었을 때 상기 검사 장치로 검사하고 있는 사용자의 음성을 수신하고, 상기 사용자의 음성을 텍스트로 변환하고, 상기 변환된 텍스트로부터 추출된 적어도 하나의 키워드들을 상기 검사 장치가 표시하고 있는 병변의 영상과 함께 등록하며, 상기 음성은, 음성 녹음 이벤트에 따라 활성화된 마이크를 통해 획득되고, 상기 병변의 영상은, 영상 촬영 이벤트에 따라 카메라를 통해 획득될 수 있다.
상기 프로세서는, 상기 음성에서 변환된 텍스트를 의료 정보의 카테고리에 대응하는 키워드로 세그먼트하고, 상기 세그먼트로 분할된 키워드를 영상에 맵핑할 수 있다.
상기 프로세서는, 사용자에 의해 미리 등록된 웨이크업 문구가 음성으로 입력되어 음성 녹음 이벤트가 발생되면, 단계별로 병변에 대한 정보를 음성으로 요청하는 음성 가이드를 제공하고, 상기 음성은, 음성 가이드에 따라 순차적으로 입력될 수 있다.
상기 프로세서는, 상기 사용자의 음성이 변환된 텍스트에서, 병변을 설명하기 위해 필요한 적어도 하나의 키워드들 중 일부의 키워드가 누락되었는지 여부를 판단하고, 상기 키워드가 누락된 경우, 상기 키워드에 대응하는 음성을 추가로 입력할 것을 알림으로 제공할 수 있다.
본 발명의 일실시예에 따르면, 내시경 검사자가 내시경을 이용하여 환자의 장기 내부를 촬영하다가, 장기 내부에서 발견된 병변의 위치에서 내시경 검사자가 발화한 음성을 인식하고, 인식된 음성으로부터 변환된 텍스트로부터 추출된 키워드를 내시경 검사를 통해 촬영한 병변의 영상과 연동하여 등록함으로써, 내시경 검사자가 다시 내시경을 통해 촬영된 사진을 일일이 확인하면서 병변과 관련된 정보를 다시 타이핑하여 입력하는 번거로움이 해소될 수 있다.
도 1은 본 발명의 일실시예에 따라 내시경 장치로 환자의 장기를 검사하는 과정을 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 데이터 입력 방법을 수행하는 컴퓨팅 장치의 동작을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 따른 데이터베이스 생성 과정을 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 데이터 입력 방법을 도시한 플로우차트이다.
도 5는 본 발명의 일실시예에 따라 영상과 음성으로부터 인식된 텍스트를 맵핑하는 과정을 도시한 도면이다.
도 6은 본 발명의 일실시예에 따라 확대 영상과 전체 영상의 관계를 설명하는 도면이다.
도 7은 본 발명의 일실시예에 따라 인포그래픽 데이터에서 영상과 텍스트가 매핑된 결과를 제공하는 과정을 도시한 도면이다.
도 8은 본 발명의 일실시예에 따라 텍스트에 매핑되는 영상들을 제공하는 과정을 도시한 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따라 내시경 장치로 환자의 장기를 검사하는 과정을 도시한 도면이다.
도 1을 참고하면, 사용자(103)는 내시경 장치(101)를 통해 환자(104)의 장기(105)의 내부를 검사한다. 이 때, 내시경 장치(101)는 컴퓨팅 장치(102)과 연결될 수 있다. 컴퓨팅 장치(102)는 내시경 장치(101)와 하나의 시스템으로 구현되거나 또는 별도의 시스템으로 구현될 수 있다. 사용자(103)는 내시경 장치(101)의 카메라(107)를 통해 환자(104)의 장기(105)의 내부를 검사하다가, 장기(105)의 내부에서 병변이 발견할 수 있다. 도 1의 경우, 장기(105)의 내부에 4개의 병변(A~D)이 발견되었다고 가정한다. 이 때, 병변 A, 병변 B, 병변 C, 병변 D가 내시경 장치(101)의 검사를 통해 순서대로 발견된 병변이다.
만약에, 사용자(103)가 장기(105)의 위치 1에서 병변 A를 발견한 경우, 사용자(103)는 병변과 관련된 다양한 데이터(예를 들면, 병변의 크기, 병변에 대한 사용자의 진단 소견, 병변의 위치, 병변의 모양, 병변의 색깔 등)를 입력하기 위해 별도의 마이크(108)를 통해 음성(XXXX)을 입력할 수 있다. 일례로, 마이크(108)는 내시경 장치(101)의 일부 영역에 배치될 수 있다. 또는, 마이크(108)는 내시경 장치(101)와 독립적인 구성 요소로 사용자(103)가 착용하거나 또는 사용자(101)가 잡을 수 있는 장치일 수 있으며, 이 경우 마이크(108)는 내시경 장치(101)와 무선 또는 유선으로 연결될 수 있다. 예를 들어, 마이크(108)는 내시경 검사를 수행하는 사용자(103)가 착용하는 블루투스 헤드셋일 수 있다. 마이크(108)는 내시경 검사가 진행되는 과정에서 계속 켜져 있다가, 사용자(103)가 녹음 버튼을 누르거나, 어떤 음성이 입력되거나 또는 미리 지정된 텍스트(ex. 하이 xx)등과 같은 음성 녹음 이벤트가 발생된 경우 음성 녹음이 시작될 수 있다.
여기서, 사용자(103)로부터 입력되는 음성은 내시경 검사의 대상인 환자(104)의 정보, 내시경 검사와 관련된 기본 정보, 병변의 위치, 병변의 사이즈, 크기, 모양과 같은 병변에 대한 검진 또는 병변에 대한 소견을 포함하는 음성일 수 있다. 그리고, 컴퓨팅 장치(102)는 병변 A의 영상을 디스플레이를 통해 표시할 수 있다.
사용자(103)가 입력한 음성은 내시경 검사를 수행하는 의료진인 사용자(103)가 내시경 검사를 진행하면서 발견한 병변에 대한 외형적인 특징, 병변에 대한 검진 또는 병변에 대한 소견을 포함하는 음성일 수 있다.  사용자(103)가 입력한 음성은 머신러닝 또는 딥러닝을 통해 학습된 인공지능 기반의 음성 인식 모델을 통해 텍스트로 변환될 수 있다.
변환된 텍스트는 구문 분석을 통해 적어도 하나의 키워드로 식별될 수 있다.  그리고, 식별된 키워드는 다수의 내시경 검사자가 이전에 복수의 내시경 검사들을 통해 공통적으로 확인되어 등록된 병변과 관련된 코드와 매핑될 수 있다.  예를 들어, 텍스트에 포함된 키워드 A는 병변과 관련된 코드인 1029131에 매핑될 수 있다. 
여기서, 병변과 관련된 코드는 키워드와 매핑된 형태로 데이터베이스 등에 저장될 수 있다.  만약에 키워드가 이미 등록된 키워드와 매핑되기 어려운 경우, 유사한 키워드에 대응하는 코드와 매핑되거나 또는 해당 키워드에 대한 코드가 데이터베이스에 신규로 업데이트될 수 있다. 
이 때, 내시경 검사를 통해 확인된 병변이 디스플레이에 표시된 상황에서 음성을 발화 내시경 장치(101)의 카메라(107)가 트리거링될 수 있다.  즉, 사용자(103)의 음성에 의해 카메라(107)가 트리거링되며, 이에 따라 카메라(107)가 디스플레이를 통해 표시하고 있는 영상을 캡쳐할 수 있다.  캡쳐된 영상은 음성과 함께 컴퓨팅 장치(102)에 전달될 수 있다.
그러면, 컴퓨팅 장치(102)는 사용자(103)의 음성과 함께 내시경 장치(101)가 촬영하고 있는 병변 A의 영상을 수신할 수 있다. 그리고, 컴퓨팅 장치(102)는 사용자(103)의 음성(XXXX)을 인식하여 음성을 텍스트로 변환할 수 있다. 여기서, 사용자(103)는 병변 A, 환자(104), 내시경 장치(101)의 시술과 관련된 다양한 정보를 음성으로 입력할 수 있다.
컴퓨팅 장치(102)는 음성을 인식하여 텍스트로 변환할 수 있다. 사용자(103)가 입력한 음성은 다양한 학습 데이터로 학습된 음성 인식 모델에 입력될 수 있다. 컴퓨팅 장치(102)는 음성 인식 모델을 실행할 수 있다. 음성 인식 모델은 내시경 검사의 의료진(사용자)이 발화한 음성을 인식하여 음성으로부터 내시경 검사를 통해 확인된 병변에 대한 정보를 키워드, 또는 문장과 같은 형태로 전환할 수 있다.
이 때, 사용자(103)가 음성을 발화한 시간에 따라 텍스트의 길이도 달라진다. 만약에, 사용자(103)가 묵음 구간을 포함하는 시간 구간동안 간헐적으로 음성을 발화한다면, 음성이 처음 발화된 시점부터 음성의 발화가 완료된 시점까지의 음성 프레임이 텍스트로 변환될 수 있다.
컴퓨팅 장치(102)는 변환된 텍스트를 의료 정보의 카테고리에 대응하는 구문 분석을 통해 적어도 하나의 키워드들로 세그멘트할 수 있다. 그리고, 컴퓨팅 장치(102)는 세그먼트로 분할된 키워드를 병변의 영상에 맵핑할 수 있다. 이 때, 텍스트는 내시경 장치를 통해 진행하고 있는 검사 정보, 병변과 관련된 환자 정보, 병변의 외형 정보, 병변의 위치 정보, 병변과 관련된 진단 정보, 병변과 관련된 치료 정보 중 적어도 하나의 카테고리에 대응하는 키워드로 세그먼트될 수 있다.
컴퓨팅 장치(102)는 사용자(103)의 음성으로부터 변환된 텍스트로부터 추출된 키워드와 병변 A의 영상과 함께 등록할 수 있다. 만약에, 텍스트가 적어도 하나의 키워드로 세그먼트되었다면, 세그먼트된 키워드가 영상과 함께 등록될 수 있다. 키워드는 병변의 특징과 관련된 카테고리에 대응하는 공통 코드와 매핑될 수 있다. 즉, 컴퓨팅 장치(102)는 사용자(103)의 음성으로부터 변환된 텍스트로부터 추출된 키워드와 병변 A와 연관하여 등록할 수 있다. 그리고, 사용자(103)가 환자(104)의 장기(105)의 내부를 검사하면서 추가로 발견된 병변 B, 병변 C, 병변 D에 대해서도 위와 같은 사용자(103)의 음성을 입력하는 과정을 반복할 수 있다.
사용자(103)의 음성에 의해 트리거링된 내시경 장치(101)의 카메라(107)가 환자(104)의 병변을 촬영하는 경우, 음성이 입력된 시점에 대응하는 제1 타임스탬프가 음성에 설정되고, 영상이 촬영되는 시점의 제2 타임 스탬프가 영상에 설정될 수 있다. 여기서, 제1 타임 스탬프와 제2 타임 스탬프는 영상과 텍스트를 동기화하여 등록할 때 이용된다. 만약에 동일한 영상이 촬영될 때 입력된 음성이 2개 이상인 경우, 동일한 영상에 음성이 변환된 텍스트가 복수로 매핑되어 등록될 수 있다.
그리고, 음성이 입력된 시점에 인접하는 시간동안 촬영된 영상에서는 음성이 입력되었다는 것을 식별하 있는 식별 정보가 영상에 표시될 수 있다. 내시경 검사할 때 병변을 촬영하기 위해 여러 장면의 영상이 촬영될 수 있는데, 이중에서 병변에 대한 정보를 나타내는 음성이 입력된 시점(t)보다 과거 시간(t-1) 또는 미래 시간(t+1)에서 촬영된 영상에 마크와 같은 식별 정보가 표시될 수 있다. 그러면, 내시경 검사가 진행된 이후에 영상을 확인함에 있어서 영상에 대응하는 음성이 입력되었다는 것을 판단할 수 있다.
이후, 내시경 장치(101)를 통해 발견된 병변은 장기(105)의 영상과 사용자(103)의 음성으로부터 변환된 텍스트와 함께 제공될 수 있다. 이에 대해서는 도 6에서 구체적으로 설명하기로 한다.
도 2는 본 발명의 일실시예에 따른 데이터 입력 방법을 수행하는 컴퓨팅 장치의 동작을 설명하기 위한 도면이다.
도 2를 참고하면, 내시경 장치(201)는 마이크를 통해 사용자의 음성을 입력받을 수 있다. 사용자가 내시경 장치(201)를 통해 환자(104)의 장기의 내부를 검사하면서 병변을 발견한 경우, 병변과 관련된 다양한 정보를 음성으로 입력할 수 있다. 마이크는 사용자가 발화한 병변과 관련된 정보들에 대한 음성을 수집할 수 있다. 그리고, 마이크를 통해 수집된 음성은, 내시경 장치(201)가 촬영한 병변의 영상과 함께 컴퓨팅 장치(202)에 제공될 수 있다.
컴퓨팅 장치(202)는 내시경 장치(201)를 통해 전달된 사용자(103)의 음성을 텍스트로 변환함으로써 병변에 대해 사용자(103)과 발화한 음성을 인식할 수 있다. 그리고, 컴퓨팅 장치(202)는 음성으로부터 변환된 텍스트를 병변과 연관하여 등록할 수 있다. 이에 대해, 컴퓨팅 장치(202)의 프로세서가 음성을 수신하고, 음성을 텍스트로 변환한 후 메모리(203)에 등록할 수 있다. 그리고, 메모리(203)에 등록된 텍스트는 장기(105)의 병변의 영상과 함께 디스플레이에 표시될 수 있다.
음성 인식은 다음과 같은 과정을 통해 수행될 수 있다.
먼저, 사용자(103)가 발화한 음성이 블루투스 헤드셋과 같은 마이크를 통해 입력되면, 컴퓨팅 장치(202)는 노이즈 필터링과 에코 제거를 수행하고, 음향 모델(acoustic model)과 언어 모델(language model)을 참고하여 음성 인식을 통해 사용자(103)가 발화한 음성으로부터 텍스트를 결정할 수 있다.
음향 모델은 음성 DB를 기반으로 화자 발성, 음향 모델 및 발음 사전으로 음성의 파형을 인식하고, 언어 모델은 텍스트 DB를 기반으로 발음 사전과 문법 모델에 기초하여 음성에서 어휘를 인식할 수 있다.
이 때, 컴퓨팅 장치(202)는 음성 인식을 통해 도출된 텍스트를 바로 음성 인식의 결과로 결정하지 않고, 이전에 처리했던 다른 예제의 음성 인식을 통해 도출된 텍스트의 변환 결과와 유사도 검색을 통해 텍스트를 보정할 수 있다.
여기서, 다른 예제의 음성 인식을 통해 도출된 텍스트는 일반적인 케이스가 아닌 내시경 검사를 통해 병변과 관련된 정보를 나타내는 음성을 텍스트로 변환하고, 변환된 결과에 대해 사용자의 검증을 거친 최종적인 텍스트를 의미할 수 있다. 여기서, 유사도 검색은 음성 인식을 통해 음성으로부터 변환된 텍스트에서 병변과 관련된 소견을 나타내는 키워드 간의 유사도를 통해 처리된다. 예를 들어, A라는 음성에서 a1, a2, a3라는 키워드로 구성된 텍스트로 변환된 경우, 이 중 a2가 병변과 관련된 소견을 나타내는 키워드라면 a2와 다른 예제의 음성 인식을 통해 확인된 a2'를 서로 비교함으로써 키워드 간의 유사도가 판단된다.
일례로, 본 발명의 일실시예에 따르면, 사용자(103)가 병변을 식별하거나 병변을 설명하기 위한 소견이나 진단 정보를 나타내는 음성을 입력할 때, 컴퓨팅 장치(102)가 제공하는 가이드에 따라 입력될 수 있다. 예를 들어, 사용자(103)가 병변에 대한 정보를 음성으로 입력할 때, 아래 표 1로 설명되는 시나리오에 따라 입력될 수 있다. 여기서, 컴퓨팅 장치는 AI 모듈을 통해 사용자(103)가 병변에 대한 정보를 입력할 수 있도록 단계별로 음성 가이드(음성 안내 문구)를 제공할 수 있다. 그리고, 음성 가이드는 사용자(103)가 미리 설정된 wake-up 문구가 입력된 이후에 제공될 수 있다.
Figure PCTKR2020015974-appb-img-000001
또한, 사용자(103)가 내시경 검사를 통해 병변을 설명하기 위해 발화한 음성이 A인 경우, 실제로 병변을 설명하기 위해 필요한 정보는 A 이외에도 B, C, D와 같이 추가 정보가 더 필요할 수 있다. 이 경우, 컴퓨팅 장치(202)는 사용자(103)가 내시경 검사 중에 발화한 음성이 실제로 병변을 설명하기 위해 필요한 정보를 반영하지 못하는 경우, 병변을 설명하기 위해 누락된 정보에 대해 요청하는 안내 메시지를 스피커 등을 통해 출력할 수 있다.
예를 들어, 내시경 검사를 통해 확인된 병변을 설명하기 위해, 병변의 이름, 병변의 위치, 병변의 크기, 병변의 속성(모양, 색깔 등)이 모두 필요하다고 가정한다. 하지만, 사용자(103)가 발화한 음성에 병변의 이름만 포함된 경우, 컴퓨팅 장치(202)는 사용자(103)가 발화한 음성을 인식한 후, 누락된 정보인 병변의 위치, 병변의 크기, 병변의 속성 등 병변을 설명하기 위해 필요한 정보들 중 사용자(103)가 발화하지 않은 정보를 추가로 음성으로 입력할 것을 요청하는 안내 메시지를 실시간으로 제공할 수 있다.
그러면, 사용자(103)가 추가적으로 누락된 정보를 음성으로 입력하면, 컴퓨팅 장치(202)는 사용자(103)가 추가로 입력한 음성을 인식한 후 이전에 음성 인식을 통해 확인된 텍스트와 추가로 입력된 음성의 인식 결과를 통해 확인된 텍스트를 동일한 병변에 대한 정보로 설정할 수 있다.
또는 음성인식 기능을 처음 사용하는 내시경 검사자의 경우, 이러한 입력 정보를 순서대로 가이드 해주는 안내 메시지를 스피커를 통해 출력할 수 있다. 예를 들어, 컴퓨팅 장치(202)는 사용자(103)가 특정 순서에 따라 병변에 대한 정보들에 대해 음성으로 입력할 수 있도록 안내 메시지를 출력할 수 있다.
도 3은 본 발명의 일실시예에 따른 데이터베이스 생성 과정을 도시한 도면이다.
도 3을 참고하면, 음성 녹음 이벤트와 영상 캡쳐 이벤트가 발생될 수 있다. 음성 녹음 이벤트는 사용자가 마이크의 버튼을 누르거나, 종류와 무관하게 음성을 입력하거나 또는 특정 wake-up 문구를 발화(예를 들면, 안녕xx 등, 미리 지정된 단어로 구성된 문장 등)함으로써 시작될 수 있다. 그리고, 영상 캡쳐 이벤트는 내시경 장치의 조작 버튼을 누르면서 발생될 수 있다. 일례로, 영상 캡쳐 이벤트가 발생되고 난 후, 음성 녹음 이벤트가 발생될 수 있다. 다시 말해서, 병변의 영상이 촬영된 이후에, 음성 녹음 이벤트로 트리거링된 마이크를 통해 음성이 입력됨으로써 영상과 음성이 매칭될 수 있다.
영상 캡쳐 이벤트를 통해 내시경 장치가 획득한 영상은 DICOM 게이트웨이를 통해 컴퓨팅 장치에 입력될 수 있다. 그리고 음성 녹음 이벤트를 통해 내시경 장치가 획득한 음성은 컴퓨팅 장치에 입력될 수 있다.
컴퓨팅 장치는 (1) 과정에서 음성을 텍스트로 변환할 수 있다. 그리고, 컴퓨팅 장치는 (2) 과정에서 변환된 음성을 구문 분석할 수 있다. 그리고, 컴퓨팅 장치는 (3) 과정에서 텍스트로부터 키워드를 추출하고, (4) 과정에서 키워드와 코드를 매핑할 수 있다. 여기서, 키워드는 병변에 대한 정보를 나타내는 키워드이며, 키워드와 코드를 매핑하는 과정은 코드 AI를 통해 수행될 수 있다.
구체적으로 코드 AI는 키워드와 통합 코드에 저장된 코드 카테고리와 코드 진단을 서로 매핑하는 과정을 자동화하여 수행할 수 있다. 만약에 통합 코드에 저장된 코드와 대응하는 키워드가 존재하지 않는다면, 키워드에 대한 내용을 통합 코드에 업데이트할 수 있다.
내시경 검사를 통해 진행된 검진 결과를 유효성 있는 의료정보 데이터로 활용 할 수 있도록 병변 공통데이터로 모델링 하고 병변 이미지, 변병 이미지의 특징, 검진, 소견, 판독 등의 데이터를 그룹핑하고, 데이터를 통합 코드로 분류 / 매핑하는 코드 AI를 통해 데이터 Repository로 저장할 수 있다.
그리고, 컴퓨팅 장치는 (5) 과정에서 DICOM 게이트웨이를 통해 내시경 장치에서 캡쳐한 영상과 환자 정보를 획득할 수 있다. 그리고, 컴퓨팅 장치는 (6) 과정에서 영상 AI를 통해 캡쳐한 영상에서 병변을 식별하고, 병변의 크기, 병변의 모양(형태), 병변의 색깔, 영상 내에서의 병변의 위치, 병변의 악성 여부 등을 CNN 등을 통해 병변에 대한 특징을 분석하여 판단할 수 있다.
그러면, 코드 AI와 영상 AI를 통해 데이터베이스가 생성될 수 있다. 구체적으로 코드 AI를 통해 통합 코드가 생성되고, 음성에서 변환된 텍스트로부터 사용자의 소견이나 병변에 대한 판독 내용이 데이터베이스에 저장될 수 있다. 그리고, 영상 AI를 통해 추출된 영상 경로와 영상의 특징이 데이터베이스에 저장될 수 있다. 이 때, 코드 AI를 통해 추출된 정보와 영상 AI를 통해 추출된 정보는 환자에 대해 그룹핑되어 저장될 수 있다. 한편, 컴퓨팅 장치는 병변이 포함된 영상을 저장하는 한편, 병변의 위치와 병변의 영상을 처리한 결과인 시각화 데이터도 저장할 수 있다.
도 4는 본 발명의 일실시예에 따른 데이터 입력 방법을 도시한 플로우차트이다.
도 4에서 단계(1) 내지 단계(3)은 도 3의 단계 (1) 내지 (4)에 대응하고, 도 4의 단계(4) 내지 단계(6)은 도 3의 단계(5) 내지 (6)에 대응할 수 있다.
단계(401)에서, 컴퓨팅 장치(102)는 내시경 장치(101)와 연결될 수 있는 마이크를 통해 병변에 대한 음성을 수신할 수 있다. 일례로, 컴퓨팅 장치(102)는 내시경 장치(101)를 통해 검사하면서 환자(104)의 병변이 발견되었을 때 별도의 마이크 등을 통해서 검사하고 있는 사용자(103)의 음성을 수신할 수 있다.
병변에 대한 음성은 음성 녹음 이벤트에 의해 녹음될 수 있다. 일례로, 음성 녹음 이벤트는, 사용자가 마이크의 버튼을 누르거나, 종류와 무관하게 음성을 입력하거나 또는 특정 wake-up 문구를 발화(예를 들면, 안녕xx 등, 미리 지정된 단어로 구성된 문장 등)함으로써 시작될 수 있다.
단계(2)에서, 컴퓨팅 장치(102)는 사용자(103)의 음성을 인식하여 음성을 텍스트로 변환할 수 있다. 텍스트는 음성 녹음 이벤트에 따라 사용자(103)의 음성이 입력된 시점부터 종료될 때까지의 음성 프레임이 변환된 결과일 수 있다.
일례로, 컴퓨팅 장치(102)는 내시경 검사 이전에 사용자(103)에게 테스트 음성을 입력하도록 하고, 테스트 음성에 대한 특징 정보를 추출할 수 있다. 그런 후, 컴퓨팅 장치(102)는 내시경 검사가 진행된 이후에 음성 녹음 이벤트에 따라 녹음된 음성을 인식할 때 입력된 음성의 특징 정보과 테스트 음성에 대한 특징 정보가 다른 경우에, 컴퓨팅 장치(102)는 사용자(103)와 다른 제3자의 음성이 입력된 것으로 판단할 수 있다. 그러면, 컴퓨팅 장치는 제3자가 입력한 음성에 대해서는 음성 인식을 진행하지 않을 수 있다.
한편, 컴퓨팅 장치(102)는 음성을 히스토리 DB에 기초하여 변환할 수 있다. 히스토리 DB는, 내시경 장치(101)를 통해 환자를 검사하기 전에 이미 사용자에 의해 등록된 텍스트 또는 내시경 장치(101)를 통해 환자를 검사하기 전에 다른 환자들을 검사하면서 사용자(103)가 입력한 음성으로부터 변환된 텍스트 중 적어도 하나를 포함할 수 있다. 변환된 텍스트가 히스토리 DB에 포함된 텍스트와 다른 경우, 변환된 텍스트에 대한 인식 결과를 표시하고, 인식 결과에 대한 선택 여부를 사용자(103)로부터 수신할 수 있다.
즉, 텍스트에 대한 변환 결과에 대해 오류가 발생될 가능성을 줄이기 위해, 사용자(103)가 평소에 등록한 텍스트나, 과거에 다른 환자(104)의 장기(105)를 검사하면서 등록했던 텍스트와 다른 텍스트가 도출된 경우 이를 히스토리 DB를 통해 확인하여 텍스트의 변환 결과에 대한 오류를 줄일 수 있다. 그리고, 음성에 대응하는 텍스트가 히스토리 DB에 포함된 텍스트와 다른 경우, 상기 변환된 텍스트를 사용자의 선택에 따라 히스토리 DB에 업데이트할 수 있다.
그리고, 단계(2)에서, 컴퓨팅 장치(102)는 텍스트에 대해 구문 분석을 수행할 수 있다. 구문 분석을 통해 키워드가 출력될 수 있다. 이 때, 컴퓨팅 장치(102)는 변환된 텍스트를 의료 정보의 카테고리에 대응하는 블록으로 분할하고, 분할된 블록을 키워드로 설정할 수 있다.
단계(3)에서, 컴퓨팅 장치(102)는 텍스트의 구문 분석을 통해 추출된 키워드 및 코드의 매핑을 수행할 수 있다. 여기서, 키워드는 병변에 대한 정보를 나타내는 키워드이며, 키워드와 코드를 매핑하는 과정은 코드 AI를 통해 수행될 수 있다. 구체적으로 코드 AI는 키워드와 통합 코드에 저장된 코드 카테고리와 코드 진단을 서로 매핑하는 과정을 자동화하여 수행할 수 있다. 만약에 통합 코드에 저장된 코드와 대응하는 키워드가 존재하지 않는다면, 키워드에 대한 내용을 통합 코드에 업데이트할 수 있다.
내시경 검사를 통해 진행된 검진 결과를 유효성 있는 의료정보 데이터로 활용 할 수 있도록 병변 공통데이터로 모델링 하고 병변 이미지, 변병 이미지의 특징, 검진, 소견, 판독 등의 데이터를 그룹핑하고, 데이터를 통합 코드로 분류 / 매핑하는 코드 AI를 통해 데이터 Repository로 저장할 수 있다.
한편, 영상 촬영 이벤트에 따라 내시경 장치(101)를 통해 병변이 촬영되면, 단계(4)에서 컴퓨팅 장치(102)는 병변의 영상을 수신할 수 있다. 단계(5)에서, 컴퓨팅 장치(102)는 병변에 대한 환자 정보를 획득할 수 있다. 그리고, 단계(6)에서, 컴퓨팅 장치(102)는 영상 AI를 통해 캡쳐한 영상에서 병변을 식별하고, 병변의 크기, 병변의 모양(형태), 병변의 색깔, 영상 내에서의 병변의 위치, 병변의 악성 여부 등을 CNN 등을 통해 병변에 대한 특징을 분석할 수 있다.
그러면, 단계(7)에서, 컴퓨팅 장치(102)는 병변의 영상에 대한 분석 정보와 병변에 대한 키워드를 매핑하여 데이터베이스에 저장할 수 있다. 여기서, 영상에 대한 분석 정보는 병변의 영상의 경로 또는 병변의 위치, 모양, 크기, 색상 등 병변을 식별하기 위한 영상의 특징을 의미할 수 있다. 그리고, 병변에 대한 키워드는 병변에 대해 사용자(103)가 발화한 음성을 인식함으로써 도출된 키워드로, 통합 코드와 매핑되는 정보일 수 있다.
단계(7)에서, 내시경 장치의 병변 영상이 캡쳐된 이후, 음성이 입력된 시점에 대응하는 제1 타임스탬프가 음성에 설정되고, 영상이 촬영되는 시점의 제2 타임 스탬프가 영상에 설정될 수 있다. 그러면, 제1 타임스탬프와 제2 타임스탬프를 통해 음성과 영상이 서로 동기화되어 맵핑될 수 있다.
일례로, 키워드는 내시경 장치(101)를 통해 진행하고 있는 검사 정보, 병변과 관련된 환자 정보, 병변의 외형 정보, 병변의 위치 정보, 병변과 관련된 진단 정보, 병변과 관련된 치료 정보 중 적어도 하나를 나타낼 수 있다.
검사 정보는, 사용자(103)의 식별 정보(이름, 소속), 검사 시간, 검사 장소, 검사 이유 등을 포함할 수 있다. 환자 정보는 환자(104)의 식별 정보 (이름, 일련번호), 복용 약품, 이전에 진단받은 병명 등을 포함할 수 있다. 병변의 외형 정보는, 병변의 크기, 병변의 사이즈, 병변의 모양 등을 포함할 수 있다. 병변의 위치 정보는, 장기(105) 내에서 병변의 위치를 포함할 수 있다. 병변과 관련된 진단 정보는, 병변에 대해 사용자(103)가 판독한 병명이나, 현재 상태 등을 포함할 수 있다. 병변과 관련된 치료 정보는, 진단 정보에 따라 어떻게 치료하면 좋을지에 대한 시술 방향이나 수술/약물 치료 방법 등을 포함할 수 있다.
또한, 도 4에서, 데이터베이스에 저장되는 영상이 미리 설정된 줌 배율 이상인 확대 영상인 경우, 컴퓨팅 장치(102)는 영상이 촬영되기 전에 줌 배율이 적용되지 않은 전체 영상과 확대 영상을 텍스트와 함께 등록할 수 있다. 즉, 내시경 장치(101)를 통해 병변이 촬영되는 경우, 병변에 대한 원경을 나타내는 영상과 근경을 나타내는 영상이 함께 등록됨으로써 내시경 장치(102)를 통한 검사 결과를 다시 진단하는데 도움이 된다.
컴퓨팅 장치(102)는 음성을 인식한 텍스트로부터 도출된 키워드를 병변의 영상에 대한 분석 정보와 서로 매핑하여 데이터베이스에 등록할 수 있다. 일례로, 컴퓨팅 장치(102)는 병변이 존재하는 장기(105)의 영상에서 상기 병변이 위치한 지점에 식별자가 표시되고, 식별자가 선택되면 병변과 관련된 정보 및 상기 병변이 발견되었을 때 사용자(103)로부터 수신한 음성이 변환된 텍스트를 식별자와 연동하여 제공할 수 있다.
다른 일례로, 컴퓨팅 장치(102)는 병변이 존재하는 장기의 영상에서 장기의 시작 위치부터 장기의 종료 위치까지를 표현하는 인포그래픽 데이터를 제공할 수 있다. 그리고, 컴퓨팅 장치(102)는 병변이 위치한 지점에 병변의 영상에 대응하는 식별자를 인포그래픽 데이터에 표시할 수 있다. 인포그래픽 데이터는 내시경 검사를 통해 확인된 병변에 대한 정보 (병변의 이름, 병변의 위치, 병변의 속성 등)를 시각화하여 제3자가 쉽게 이해할 수 있는 데이터를 의미할 수 있다.
환자의 인포그래픽 데이터에서 병변이 위치한 지점에 식별자가 표시될 수 있다. 이 때, 식별자가 선택되면, 컴퓨팅 장치(102)는 병변의 영상 및 영상에 맵핑된 병변에 대한 키워드를 인포그래픽 데이터가 표시된 인터페이스와 오버랩되도록 제공하거나 또는 인포그래픽 데이터가 표시된 인터페이스와 별도의 인터페이스를 통해 제공할 수 있다.
이 때, 키워드는 언어 선택 모드를 통해 선택된 언어에 따라 번역되어 제공될 수도 있다. 예를 들어, 키워드가 한글로 되어 있고, 언어 선택 모드를 통해 영어가 선택되었다면, 키워드는 영어로 번역되어 제공될 수 있다. 언어 선택 모드는 키워드를 제공할 때 선택되거나 또는 사용자/환자의 인적 정보에 따라 자동으로 결정될 수 있다.
도 5는 본 발명의 일실시예에 따라 영상과 음성으로부터 인식된 텍스트를 맵핑하는 과정을 도시한 도면이다.
<과정 I>
도 5를 참고하면, 병변의 영상이 도시된다. 그리고, 내시경 장치(102)를 통해 화면에 디스플레이되는 경우, 사용자(103)는 음성을 발화할 수 있다. 내시경 화면 캡쳐를 통해 병변의 영상이 획득된다.
그러면, (i)과 같이 영상 획득과 함께 사용자(103)의 음성이 입력된 시점(t1)에서 음성 입력이 종료된 시점(t2)까지의 음성 프레임이 생성될 수 있다. 음성 프레임은 컴퓨팅 장치(102)에 의해 텍스트로 변환된다. (ii)와 같이, 음성은 히스토리 DB에 의해 인식되고 텍스트로 변환될 수 있다. 히스토리 DB는 내시경 장치(102)를 통해 환자(104)를 검사하기 전에 이미 사용자(103)에 의해 등록된 텍스트 또는 내시경 장치를 통해 환자를 검사하기 전에 다른 환자들을 검사하면서 사용자(103)가 입력한 음성으로부터 변환된 텍스트 중 적어도 하나를 포함할 수 있다. 음성에 대응하는 텍스트가 히스토리 DB에 포함된 텍스트와 다른 경우, 음성은 히스토리 DB가 아닌 일반 사전 DB를 통해 변환될 수 있다. 그리고, 사전 DB에 의해 음성으로부터 변환된 텍스트는 사용자의 선택에 따라 히스토리 DB에 업데이트될 수 있다.
그리고, (iii)과 같이 텍스트는 내시경 장치를 통해 진행하고 있는 검사 정보, 병변과 관련된 환자 정보, 병변의 외형 정보, 병변의 위치 정보, 병변과 관련된 진단 정보, 병변과 관련된 치료 정보 중 적어도 하나의 카테고리에 대응하는 키워드로 추출될 수 있다. 사용자(103)가 발화한 음성은 병변을 식별하거나 진단한 다양한 정보와 노이즈가 포함될 수 있다. 그래서, 음성 인식을 통해 변환된 텍스트의 모든 정보가 병변의 영상에 맵핑될 필요가 없다.
변환된 텍스트는 병변을 식별하거나, 병변을 표현하거나 또는 병변을 진단하는 다양한 정보와 관련된 카테고리에 대응하는 키워드로 세그먼트될 수 있다. 즉, 일정 길이를 가지는 텍스트는 병변과 관련된 카테고리에 대응하는 적어도 하나의 키워드로 세그먼트되어, 병변의 영상에 유의미한 정보만 맵핑될 수 있다. 키워드는 공통 코드와 매핑될 수 있다. 그리고, 키워드는 병변의 영상에 매핑되어 등록될 수 있다.
<과정 II>
과정 II는 키워드(X, Z, S)와 병변의 영상이 매핑되어 등록된 결과이다. 키워드와 병변의 영상이 매핑되어 등록된 결과는 컴퓨팅 장치(102)에 의해 DB에 저장된다. 이 때, 사용자(103)가 음성으로 발화한 내용이 통일화되어 입력되지 않을 수 있다. 예를 들어, 어떤 병변에서는 진단명, 병변 위치, 모양을 음성으로 표현될 수 있고, 다른 병변에서는 병변 위치, 사이즈만 음성으로 표현될 수 있다. 그러면, 병변의 영상을 확인할 때는 사용자가 음성으로 발화하지 않은 모든 카테고리가 병변의 영상과 함께 표시될 수 있다. 그리고, 사용자가 음성을 통해 표현하지 않은 카테고리에 대해서는 별도로 키워드로 추가할 수 있다. 즉, 내시경 장치를 통해 시술 당시 음성으로 표현하지 못한 카테고리는 나중에 병변의 영상을 확인할 때 사후적으로 키워드로 입력될 수 있다.
도 6는 본 발명의 일실시예에 따라 확대 영상과 전체 영상의 관계를 설명하는 도면이다.
사용자(103)가 내시경 장치(101)의 카메라를 통해 환자의 장기 내부를 관찰하면서 병변(1-3)이 발견될 수 있다. 그러면, 사용자(103)는 병변이 발생된 위치에서 줌-인(Zoom-In)하여 줌 배율을 증가시키면서 좀더 상세하게 보고자 하는 병변을 확대할 수 있다. 그러면, 병변이 확대된 상황에서 확대 영상(1-3)이 내시경 장치(101)를 통해 획득된다. 이 때, 확대 영상(1-3)이 획득되면, 확대되기 전의 전체 영상도 함께 저장된다. 즉, 컴퓨팅 장치는 병변의 영상이 미리 설정된 줌 배율 이상인 확대 영상인 경우, 영상이 촬영되기 전에 줌 배율이 적용되지 않은 전체 영상과 확대 영상을 텍스트와 함께 등록할 수 있다. 여기서, 텍스트는 음성의 인식 과정을 통해 음성으로 변환된 결과이며, 텍스트는 적어도 하나의 키워드로 구성될 수 있다. 키워드는 병변을 나타내는 정보들에 대응한다.
그러면, 나중에 병변에 대해 내시경 장치를 통한 관찰이 종료된 이후에 사후적으로 병변의 영상을 확인하는 경우, 병변을 근거리에서 표현하여 병변을 좀더 구체적으로 표현하는 확대 영상과 병변이 위치한 부근의 다른 조직들과의 관계를 확인할 수 있도록 병변을 원거리에서 표현한 전체 영상을 함께 등록함으로써 사용자가 병변을 진단할 때 도움이 되도록 한다.
도 7은 본 발명의 일실시예에 따라 인포그래픽 데이터에서 영상과 텍스트가 매핑된 결과를 제공하는 과정을 도시한 도면이다.
도 7의 I과 II는 내시경 장치(101)를 통해 검사가 완료된 후, 사용자(103) 등이 발화한 음성에 대한 인식 결과를 재확인하는 과정을 제시한다. 또는, 내시경 장치(101)를 통해 병변이 확인된 경우, 사용자(103)가 환자(104)에게 병변과 관련된 정보를 설명하기 위한 예시를 도시한다.
도 7의 I은 컴퓨팅 장치(102)의 디스플레이를 통해 환자(104)의 장기(105)에 대한 인포그래픽 데이터를 표시한 것이다. 인포그래픽 데이터는 내시경 검사를 통해 확인된 환자(104)의 병변을 실제 영상 또는 가공 영상을 통해 설명하기 위해 이용된다. 여기서, 인포그래픽 데이터는 환자(104)의 장기에 대한 실제 영상이거나 또는 일러스트 형태로 가공된 영상을 포함할 수 있다. 환자의 인포그래픽 데이터는 병변의 영상이 맵핑될 수 있다. 그리고, 환자의 장기(105)에 대한 인포그래픽 데이터에 내시경 장치(102)를 통해 확인된 병변에 대응하는 식별자(별표 마크)가 맵핑되어 표시될 수 있다. 여기서, 내시경 장치(102)를 통해 복수 개의 병변이 확인된 경우, 병변들 각각에 대응하는 식별자가 장기(105)의 인포그래픽 데이터에 맵핑될 수 있다.
인포그래픽 데이터가 도 7의 I과 같이 대장과 같은 장기(105)의 시작 부분부터 끝 부분까지 전부 표현할 수 있다. 그러면, 장기의 시작 부분부터 끝 부분까지 인포그래픽 데이터에서 오버랩되어 이동하는 식별자가 존재할 수 있다. 이 때, 식별자가 이동하면서 병변이 위치했던 위치에 도달하면, 해당 식별자로부터 사용자(103)의 음성이 변환된 텍스트가 팝업이나 애니메이션 등의 형태로 표시될 수 있다.
도 7의 II는 병변과 관련된 텍스트의 예시를 나타낸다. 환자의 인포그래픽 데이터에서 병변이 위치한 지점에 식별자가 표시될 수 있다. 이 때, 도 7의 II와 같이 식별자가 선택되면 컴퓨팅 장치는 병변의 영상 및 영상에 맵핑된 키워드를 인포그래픽 데이터가 표시된 인터페이스와 오버랩되도록 제공될 수 있다. 또는 컴퓨팅 장치는 인포그래픽 데이터가 표시된 인터페이스와 별도의 인터페이스를 통해 제공할 수 있다. 여기서, 영상에 맵핑된 키워드는 도 4에서 설명한 바와 같이 의료 정보에 대응하는 카테고리로 표현되는 키워드를 의미할 수 있다. 키워드는 사용자가 음성을 인식한 결과인 텍스트로부터 추출되는 키워드이다.
그리고, 도 7의 II에 도시되지 않았지만 내시경 장치(101)를 통해 검사하면서 발견된 병변의 식별 정보(순서 정보 or 병변이 발견된 시간(타임스탬프))도 추가로 표현될 수 있다. 그리고, 병변의 식별 정보와 함께, 환자(104)의 장기(105)에서 병변이 발견된 위치도 함께 등록될 수 있다. 여기서, 10cm, 30cm 와 같이 병변이 발견된 위치가 표현될 수 있다. 여기서, 위치는 장기의 시작 위치로부터의 장기 내에서 병변이 위치한 지점까지의 거리로 표현될 수 있다. 또는 이러한 거리가 아닌 장기(105) 내에서 병변이 발견된 부위 (ex. 장기(105)의 좌측 상단부 등)로도 표현될 수 있다.
그리고, 각각의 병변에는 병변이 발견되었을 때 사용자(103)가 발화한 음성의 인식 결과를 통해 도출된 텍스트로부터 적어도 하나의 키워드(XXXX, YYYY, ZZZZZZ, WWWWWW)가 추출되고, 키워드는 병변의 영상과 함께 맵핑되어 등록될 수 있다. 도 7의 II에서 표시되지 않았지만, 내시경 장치(101)를 통해 확인된 병변의 영상도 키워드와 연동하여 등록될 수 있다.
즉, 도 7의 II에 의하면 병변 A의 경우, 장기(105)의 시작 위치에서 10cm가 지난 후에 발견되었고, 이 때 사용자(103)가 병변 A에 대해 XXXX라는 음성을 입력한 것으로 파악될 수 있다. 유사하게, 병변 D의 경우, 장기(105)의 시작 위치에서 80cm가 지난 후에 발견되었고, 이 때, 사용자(103)가 병변 D에 대해 WWWWW라는 음성을 입력한 것으로 파악될 수 있다.
그리고, 본 발명에 의하면, 병변이 발견된 시점에 사용자(103)가 입력한 음성으로부터 변환된 텍스트에 대해서 후속적으로 수정이 가능할 수 있다.
본 발명에 의하면, 사용자(103)가 내시경 장치(101)를 통해 환자(104)의 장기(105)의 내부를 조사하면서 발견된 병변에 대해 추후에 따로 키워드를 입력하기 보다는, 병변이 발견된 시점에 음성으로 병변과 관련된 다양한 정보를 입력하는 것만으로도 추후에 정보를 입력할 번거로움이 감소될 수 있다. 그리고, 자동으로 병변에 대해 입력한 음성의 인식 과정을 통해 도출된 키워드가 병변에 연동하여 병변의 영상 등과 함께 제공될 수 있으므로, 차후에 병변에 대한 진단이나 치료를 진행할 때에도 보다 정확하고 신속하게 진행할 수 있다.
도 8은 본 발명의 일실시예에 따라 텍스트에 매핑되는 영상들을 제공하는 과정을 도시한 도면이다.
도 8은 도 5의 과정 II와 같이 병변의 영상과 사용자의 음성으로부터 변환된 텍스트가 서로 조합된 결과가 누적되면, 서로 동일한 카테고리에 따라 영상을 그룹핑한 결과를 나타낸다. 병변의 영상은 의료 정보에 대응하는 다양한 카테고리(진단면, 병변의 모양, 병변의 사이즈, 병변의 위치 등)로 설정된 키워드와 매핑되어 등록된다.
여기서, 카테고리로 복수의 환자들 각각으로부터 획득한 병변의 영상을 그룹핑함으로써 컴퓨팅 장치는 병변의 영상에 대한 인공지능을 통한 학습시 레이블링된 학습 데이터로 활용될 수 있다. 이렇게 카테고리로 맵핑된 병변의 영상은 학습 데이터로 가공되어 병변의 영상을 인공 지능을 기반으로 판독하는 소프트웨어를 위해 활용될 수 있다.
한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims (16)

  1. 내시경 검사장치와 연결된 컴퓨팅 장치가 수행하는 데이터 입력 방법에 있어서,
    상기 내시경 검사장치를 통해 검사하면서 환자의 병변이 발견되었을 때 상기 검사 장치로 검사하고 있는 사용자의 음성을 수신하는 단계 - 상기 음성은, 음성 녹음 이벤트에 따라 활성화된 마이크를 통해 획득됨-;
    상기 사용자의 음성을 텍스트로 변환하는 단계; 및
    상기 변환된 텍스트로부터 추출된 적어도 하나의 키워드들을 상기 검사 장치가 표시하고 있는 병변의 영상과 함께 등록하는 단계 -상기 병변의 영상은, 영상 촬영 이벤트에 따라 카메라를 통해 획득됨-
    를 포함하는 데이터 입력 방법.
  2. 제1항에 있어서,
    상기 등록하는 단계는,
    상기 변환된 텍스트를 의료 정보의 카테고리에 대응하는 키워드로 세그멘트하는 단계;
    상기 세그먼트로 분할된 키워드를 영상에 맵핑하는 단계
    를 포함하는 데이터 입력 방법.
  3. 제2항에 있어서,
    상기 텍스트는,
    상기 내시경 장치를 통해 진행하고 있는 검사 정보, 상기 병변과 관련된 환자 정보, 상기 병변의 외형 정보, 상기 병변의 위치 정보, 상기 병변과 관련된 진단 정보, 상기 병변과 관련된 치료 정보 중 적어도 하나의 카테고리에 대응하는 키워드로 세그먼트되는 데이터 입력 방법.
  4. 제1항에 있어서,
    사용자에 의해 미리 등록된 웨이크업 문구가 음성으로 입력되어 음성 녹음 이벤트가 발생되면, 단계별로 병변에 대한 정보를 음성으로 요청하는 음성 가이드를 제공하는 단계
    를 더 포함하고,
    상기 음성은, 음성 가이드에 따라 순차적으로 입력되는 데이터 입력 방법.
  5. 제1항에 있어서,
    상기 사용자의 음성이 변환된 텍스트에서, 병변을 설명하기 위해 필요한 적어도 하나의 키워드들 중 일부의 키워드가 누락되었는지 여부를 판단하는 단계;
    상기 키워드가 누락된 경우, 상기 키워드에 대응하는 음성을 추가로 입력할 것을 알림으로 제공하는 단계
    를 더 포함하는 데이터 입력 방법.
  6. 제4항에 있어서,
    내시경 장치의 카메라에 의해서 병변이 캡쳐 되는 경우, 상기 음성이 입력된 시점에 대응하는 제1 타임스탬프가 음성에 설정되고, 상기 영상이 촬영되는 시점의 제2 타임 스탬프가 영상에 설정되는 데이터 입력 방법.
  7. 제1항에 있어서,
    상기 텍스트로부터 추출된 적어도 하나의 키워드는,
    상기 병변에 대한 정보를 나타내는 코드와 매핑될 수 있는 데이터 입력 방법.
  8. 제7항에 있어서,
    상기 코드는,
    상기 병변에 대한 정보들이 카테고리에 따라 할당되고,
    상기 병변의 영상은,
    상기 음성의 인식 과정을 통해 음성으로부터 변환된 텍스트로부터 도출된 키워드가 매핑된 코드와 함께 저장되는 데이터 입력 방법.
  9. 제1항에 있어서,
    상기 병변의 영상이 맵핑된 환자의 인포그래픽 데이터를 제공하는 단계
    를 더 포함하는 데이터 입력 방법.
  10. 제9항에 있어서,
    상기 제공하는 단계는,
    상기 환자의 인포그래픽 데이터에서 상기 병변이 위치한 지점에 식별자가 표시되고, 상기 식별자가 선택되면 상기 병변의 영상 및 상기 영상에 맵핑된 키워드를 인포그래픽 데이터가 표시된 인터페이스와 오버랩되도록 제공하거나 또는 인포그래픽 데이터가 표시된 인터페이스와 별도의 인터페이스를 통해 제공하는 데이터 입력 방법.
  11. 제9항에 있어서,
    상기 제공하는 단계는,
    언어 선택 모드를 통해 선택된 언어에 따라 상기 등록된 키워드를 번역하여 제공하는 데이터 입력 방법.
  12. 제9항에 있어서,
    상기 제공하는 단계는,
    상기 병변이 존재하는 장기의 영상에서 장기의 시작 위치부터 장기의 종료 위치까지를 표현하는 인포그래픽 데이터를 제공하고,
    상기 병변이 위치한 지점에 상기 병변의 영상에 대응하는 식별자를 인포그래픽 데이터에 표시하는 데이터 입력 방법.
  13. 내시경 장치에 연결되어 데이터 입력 방법을 수행하는 컴퓨팅 장치는,
    적어도 하나의 프로세서를 포함하고,
    상기 프로세서는,
    상기 내시경 검사장치를 통해 검사하면서 환자의 병변이 발견되었을 때 상기 검사 장치로 검사하고 있는 사용자의 음성을 수신하고,
    상기 사용자의 음성을 텍스트로 변환하고,
    상기 변환된 텍스트로부터 추출된 적어도 하나의 키워드들을 상기 검사 장치가 표시하고 있는 병변의 영상과 함께 등록하며,
    상기 음성은, 음성 녹음 이벤트에 따라 활성화된 마이크를 통해 획득되고, 상기 병변의 영상은, 영상 촬영 이벤트에 따라 카메라를 통해 획득되는 컴퓨팅 장치.
  14. 제13항에 있어서,
    상기 프로세서는,
    상기 음성에서 변환된 텍스트를 의료 정보의 카테고리에 대응하는 키워드로 세그먼트하고, 상기 세그먼트로 분할된 키워드를 영상에 맵핑하는 컴퓨팅 장치.
  15. 제13항에 있어서,
    상기 프로세서는,
    사용자에 의해 미리 등록된 웨이크업 문구가 음성으로 입력되어 음성 녹음 이벤트가 발생되면, 단계별로 병변에 대한 정보를 음성으로 요청하는 음성 가이드를 제공하고,
    상기 음성은, 음성 가이드에 따라 순차적으로 입력되는 컴퓨팅 장치.
  16. 제13항에 있어서,
    상기 프로세서는,
    상기 사용자의 음성이 변환된 텍스트에서, 병변을 설명하기 위해 필요한 적어도 하나의 키워드들 중 일부의 키워드가 누락되었는지 여부를 판단하고,
    상기 키워드가 누락된 경우, 상기 키워드에 대응하는 음성을 추가로 입력할 것을 알림으로 제공하는 컴퓨팅 장치.
PCT/KR2020/015974 2019-11-15 2020-11-13 내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치 WO2021096279A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20190146743 2019-11-15
KR10-2019-0146743 2019-11-15
KR1020200150946A KR102453580B1 (ko) 2019-11-15 2020-11-12 내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치
KR10-2020-0150946 2020-11-12

Publications (1)

Publication Number Publication Date
WO2021096279A1 true WO2021096279A1 (ko) 2021-05-20

Family

ID=75913091

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/015974 WO2021096279A1 (ko) 2019-11-15 2020-11-13 내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치

Country Status (1)

Country Link
WO (1) WO2021096279A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116364265A (zh) * 2023-06-02 2023-06-30 深圳市依诺普医疗设备有限公司 一种医用内窥镜图像优化***及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010080655A (ko) * 1999-10-01 2001-08-22 요트.게.아. 롤페즈 음성 통신을 갖는 초음파 진단 이미징 시스템
JP2008136646A (ja) * 2006-12-01 2008-06-19 Toshiba Corp 医用支援装置
KR100921655B1 (ko) * 2009-05-19 2009-10-14 주식회사 인트로메딕 촬영 이미지에 대한 병증 소견 입력이 편리한 소화 기관의 이미지 프로세싱 시스템
JP4405172B2 (ja) * 2003-04-03 2010-01-27 株式会社東芝 医用システム
JP2013106752A (ja) * 2011-11-21 2013-06-06 National Cancer Center 電子内視鏡システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010080655A (ko) * 1999-10-01 2001-08-22 요트.게.아. 롤페즈 음성 통신을 갖는 초음파 진단 이미징 시스템
JP4405172B2 (ja) * 2003-04-03 2010-01-27 株式会社東芝 医用システム
JP2008136646A (ja) * 2006-12-01 2008-06-19 Toshiba Corp 医用支援装置
KR100921655B1 (ko) * 2009-05-19 2009-10-14 주식회사 인트로메딕 촬영 이미지에 대한 병증 소견 입력이 편리한 소화 기관의 이미지 프로세싱 시스템
JP2013106752A (ja) * 2011-11-21 2013-06-06 National Cancer Center 電子内視鏡システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116364265A (zh) * 2023-06-02 2023-06-30 深圳市依诺普医疗设备有限公司 一种医用内窥镜图像优化***及方法
CN116364265B (zh) * 2023-06-02 2023-08-15 深圳市依诺普医疗设备有限公司 一种医用内窥镜图像优化***及方法

Similar Documents

Publication Publication Date Title
WO2017022882A1 (ko) 의료 영상의 병리 진단 분류 장치 및 이를 이용한 병리 진단 시스템
WO2019088462A1 (ko) 혈압 추정 모델 생성 시스템 및 방법과 혈압 추정 시스템 및 방법
US20080133233A1 (en) Medical assistance device
WO2018070780A1 (en) Electronic device and method for controlling the same
WO2021025458A1 (ko) 멀티미디어 정보를 이용한 휴대용 체외진단키트 해석장치
WO2014208971A1 (en) Ultrasound image display method and apparatus
WO2020111754A9 (ko) 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법 및 이를 이용하는 진단 시스템
WO2021096279A1 (ko) 내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치
WO2016159726A1 (ko) 의료 영상으로부터 병변의 위치를 자동으로 감지하는 장치 및 그 방법
WO2021118072A1 (ko) 음성 및 영상 정보를 활용한 의미있는 구간을 검출하기 위한 방법 및 이를 위한 장치
WO2020032562A2 (ko) 생체 이미지 진단 시스템, 생체 이미지 진단 방법, 및 이를 수행하기 위한 단말
WO2022131642A1 (ko) 의료 영상 기반 질환 중증도 결정 장치 및 방법
KR100751160B1 (ko) 의료용 화상 기록 시스템
WO2020159140A1 (ko) 전자 장치 및 이의 제어 방법
KR102453580B1 (ko) 내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치
WO2024111914A1 (ko) 범용성이 향상된 인공지능에 의한 의료영상 변환방법 및 그 장치
WO2021033303A1 (ja) 訓練データ生成方法、学習済みモデル及び情報処理装置
WO2023121051A1 (ko) 환자 정보 제공 방법, 환자 정보 제공 장치, 및 컴퓨터 판독 가능한 기록 매체
WO2023113452A1 (ko) 인공 지능 기반 의료 텍스트의 노이즈 데이터 필터링 방법, 장치 및 프로그램
WO2023106516A1 (ko) 인공지능 콜을 이용한 질의응답 기반의 치매 검사 방법 및 서버
WO2022015010A1 (ko) 음향 신호를 분석하여 기침을 계수하는 방법, 이를 수행하는 서버 및 비일시성의 컴퓨터 판독 가능 기록 매체
WO2021205818A1 (ja) 内視鏡挿入支援装置、方法及びプログラムが格納された非一時的なコンピュータ可読媒体
JP2010072786A (ja) 医療支援システム及び解説提供方法
WO2020159276A1 (ko) 수술 분석 장치, 수술영상 분석 및 인식 시스템, 방법 및 프로그램
WO2021132786A1 (ko) 고령자를 위한 휴먼케어 로봇의 학습 데이터 처리 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20886766

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20886766

Country of ref document: EP

Kind code of ref document: A1