CN113555133A - 一种医疗问诊数据处理方法和装置 - Google Patents

一种医疗问诊数据处理方法和装置 Download PDF

Info

Publication number
CN113555133A
CN113555133A CN202110601186.6A CN202110601186A CN113555133A CN 113555133 A CN113555133 A CN 113555133A CN 202110601186 A CN202110601186 A CN 202110601186A CN 113555133 A CN113555133 A CN 113555133A
Authority
CN
China
Prior art keywords
voice
data
text
inquiry
user identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110601186.6A
Other languages
English (en)
Inventor
赖伟
周昌伟
***
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yikang Medical Technology Co ltd
Original Assignee
Beijing Yikang Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yikang Medical Technology Co ltd filed Critical Beijing Yikang Medical Technology Co ltd
Priority to CN202110601186.6A priority Critical patent/CN113555133A/zh
Publication of CN113555133A publication Critical patent/CN113555133A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开涉及一种医疗问诊数据处理方法和装置,其中,方法包括:在医疗问诊过程中,采集目标时长的问诊语音数据;根据语音方向信息对问诊语音数据进行切割,获取第一语音片段集合和第二类语音片段集合;对第一语音片段集合和第二语音片段集合进行语音识别,生成第一文本集合和第二文本集合;对第一文本集合和第二文本集合进行语义理解,确定第一语音方向对应的第一用户身份标识,以及第二语音方向对应的第二用户身份标识;根据第一用户身份标识和第二用户身份标识对第一文本集合和第二文本集合进行语义分析,获取结构化数据和问诊语音数据存储在预设数据库。由此,在临床问诊过程中,实现更高效的记录信息和保存原始数据。

Description

一种医疗问诊数据处理方法和装置
技术领域
本公开涉及医疗数据处理技术领域,尤其涉及一种医疗问诊数据处理方法和装置。
背景技术
随着医疗信息化的普及,很多医院(尤其是三甲医院)都已经有整套的医疗信息化***,大量医疗数据以数字化形式记录在***中,比如电子病历、影像数据等等,这些数据不仅用于患者病历信息查询和追溯,也用于专家医生进行回顾性临床研究,因此对这些数据的质量和完整性有着极高的需求。
在目前的医疗场景中,这些数据大多是在临床诊断过程中记录下来的,由于临床诊断过程中,专家医生绝大部分的时间和精力都是用于对患者进行诊疗,尤其是门诊场景下,医生只有少量的时间花费在信息记录上,一般有以下两种方式来进行信息录入:第一种,医生在完成上一个病人的诊疗后,以及在下一个病人进来前,以最快的速度(比如1分钟)把最主要的一些信息以比较简单的方式录入***;第一种,每个医生专门搭配一个助手,在医生诊疗过程中,他专门负责把问诊信息进行转写录入。
然而,在第一种方式下,由于医生录入花费的时间极其有限,因此录入的信息非常少,导致信息记录不完整,并且由于人工录入赶时间会导致信息录入的错误率较高;在第二种方式下,每个医生需要单独配一个助手,大幅增加了额外的人力成本,普通医生是无法承担的,只有少数大专家医生才有这个条件,而且助手大多都是专家带的学生之类的,存在知识水平和临床经验不足,也会导致录入的信息与医生专家期望的不符,即信息有缺失,即存在医生在临床问诊过程中信息记录效率低、不完整有缺失甚至出错的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种医疗问诊数据处理方法和装置,解决了原始问诊过程进行人工摘要转录,效率比较低,以及只保存了部分简要文字信息,导致诊疗过程中的原始问诊语音没有保存下来,信息记录不完整,从而对后续的患者病史追溯,以及进行回顾性研究都有影响。
本公开提供了一种医疗问诊数据处理方法,包括:
在医疗问诊过程中,采集目标时长的问诊语音数据;
根据语音方向信息对所述问诊语音数据进行切割,获取属于第一语音方向的第一语音片段集合和属于第二语音方向的第二类语音片段集合;
对所述第一语音片段集合和所述第二语音片段集合进行语音识别,生成第一文本集合和第二文本集合;
对所述第一文本集合和所述第二文本集合进行语义理解,确定所述第一语音方向对应的第一用户身份标识,以及所述第二语音方向对应的第二用户身份标识;
根据所述第一用户身份标识和所述第二用户身份标识对所述第一文本集合和所述第二文本集合进行语义分析获取结构化数据,将所述问诊语音数据和所述结构化数据存储在预设数据库。
在本公开的一个可选实施例中,所述对所述第一文本集合和所述第二文本集合进行语义理解,获取确定所述第一语音方向对应的第一用户身份标识,以及所述第二语音方向对应的第二用户身份标识,包括:
根据所述第一文本集合中每第一文本的语义理解结果确定所述每第一文本属于所述第一用户身份标识的第一概率和所述第二用户身份标识的第二概率;
根据所述第二文本集合中每第二文本的语义理解结果确定所述每第二文本属于所述第一用户身份标识的第三概率和所述第二用户身份标识的第四概率;
根据多个所述第一概率确定所述第一用户身份标识的第一总概率,并根据多个所述第二概率确定所述第二用户身份标识的第二总概率,在所述第一总概率大于等于所述第二总概率的情况下,确定所述第一语音方向为所述第一用户身份标识;
根据多个所述第三概率确定所述第一用户身份标识的第三总概率,并根据多个所述第四概率确定所述第二用户身份标识的第四总概率,在所述第三总概率小于所述第四总概率的情况下,确定所述第二语音方向为所述第二用户身份标识。
在本公开的一个可选实施例中,所述对所述第一语音片段集合和所述第二语音片段集合进行语音识别,生成第一文本集合和第二文本集合,包括:
对所述第一语音片段集合中的每第一语音片段和所述第二语音片段集合中的每第二语音片段进行特征提取,获取多个第一声学特征和多个第二声学特征;
通过预训练的声学模型和语言模型分别对所述多个第一声学特征和所述多个第二声学特征进行解码搜索,获取所述第一文本集合和所述第二文本集合。
在本公开的一个可选实施例中,获取已标注的语音数据样本,将所述语音数据样本输入神经网络进行训练,获取基础模型;
通过已标注的医疗问诊语音数据,将所述医疗问诊语音数据输入所述基础模型进行训练,对所述基础模型的模型参数进行调整,获取所述声学模型。
在本公开的一个可选实施例中,获取医疗领域的专业文本数据,将所述专业文本数据与通用文本数据按照预设权重混合,训练所述语言模型。
在本公开的一个可选实施例中,所述根据所述第一用户身份标识和所述第二用户身份标识对所述第一文本集合和所述第二文本集合进行语义分析获取结构化数据,将所述问诊语音数据和所述结构化数据存储在预设数据库,包括:
根据所述第一文本集合和所述第二文本集合确定多组问答文本,通过预训练的分类器对所述多组问答文本进行分类,获取每一组问答文本对应的问答类型;
根据问答类型确定目标文本,通过预训练的信息提取模型对所述目标文本进行信息提取,获取多个关键词;
根据预设的词典和映射模型对所述多个关键词进行数据规范化处理,获取目标词语;
根据所述目标词语生成所述结构化数据,将所述问诊语音数据和所述结构化数据存储在预设数据库。
在本公开的一个可选实施例中,所述的医疗问诊数据处理方法,还包括:
将所述结构化数据发送到终端显示;
接收到对所述结构化数据的确认信息或更新信息,获取问诊语音数据、确认或更新文本信息训练声学模型和语言模型。
在本公开的一个可选实施例中,所述的医疗问诊数据处理方法,还包括:
将所述结构化数据发送到终端显示;
接收到对所述结构化数据的确认信息,获取识别的问诊对话文本数据,根据所述问诊对话文本数据对分类器进行优化处理。
在本公开的一个可选实施例中,所述的医疗问诊数据处理方法,还包括:
将所述结构化数据发送到终端显示;
接收到对所述结构化数据的更新指令,根据所述更新指令对所述结构化数据进行更新;
对更新后的结构化数据进行标注作为训练样本用于训练信息提取模型。
本公开提供了一种医疗问诊数据处理装置,包括:
采集模块,用于在医疗问诊过程中,采集目标时长的问诊语音数据;
切割模块,用于根据语音方向信息对所述问诊语音数据进行切割,获取属于第一语音方向的第一语音片段集合和属于第二语音方向的第二类语音片段集合;
识别模块,用于对所述第一语音片段集合和所述第二语音片段集合进行语音识别,生成第一文本集合和第二文本集合;
语义理解模块,用于对所述第一文本集合和所述第二文本集合进行语义理解,确定所述第一语音方向对应的第一用户身份标识,以及所述第二语音方向对应的第二用户身份标识;
获取存储模块,用于根据所述第一用户身份标识和所述第二用户身份标识对所述第一文本集合和所述第二文本集合进行语义分析获取结构化数据,将所述问诊语音数据和所述结构化数据存储在预设数据库。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
在医疗问诊过程中,采集目标时长的问诊语音数据,根据语音方向信息对问诊语音数据进行切割,获取属于第一语音方向的第一语音片段集合和属于第二语音方向的第二类语音片段集合,对第一语音片段集合和第二语音片段集合进行语音识别,生成第一文本集合和第二文本集合,对第一文本集合和第二文本集合进行语义理解,确定第一语音方向对应的第一用户身份标识,以及第二语音方向对应的第二用户身份标识,根据第一用户身份标识和第二用户身份标识对第一文本集合和第二文本集合进行语义分析获取结构化数据,将问诊语音数据和结构化数据存储在预设数据库。由此,在临床问诊过程中,实现更高效的记录信息和保存原始数据,可以随时根据需要进行数据追溯和比对,确保数据的真实有效性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例所述一种医疗问诊数据处理方法的流程示例图;
图2为本公开实施例所述一种医疗问诊数据处理方法的场景示例图;
图3为本公开实施例所述话者分离和识别流程的示例图;
图4为本公开实施例所述语音识别的流程示例图;
图5为本公开实施例所述语义分析的流程示例图;
图6为本公开实施例所述信息提取模型的结构示例图;
图7为本公开实施例所述模型优化的示例图;
图8为本公开实施例所述一种医疗问诊数据处理装置的结构示例图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
图1为本公开实施例所述一种医疗问诊数据处理方法的流程示例图。
具体地,如图1所示,包括:
步骤101,在医疗问诊过程中,采集目标时长的问诊语音数据。
在本公开实施例中,医疗问诊指的是医生对患者进行诊疗的过程,主要是通过两者对话,了解病人信息。
在本公开实施例中,针对的医疗问诊场景中,具有包括麦克风阵列的声音采集设备,比如手机、录音机等,具体根据应用场景选择设置。
在本公开实施例中,目标时长可以根据应用场景选择设置,比如1分钟、2分钟等,目标时长的问诊语音数据可以是针对一个病人问诊开启,医生手动启动声音采集设备,直到问诊结束,手动停止声音采集设备,获取的一段时长的问诊语音数据,也可以是声音采集设备根据静音检测,自动开启采集和结束采集的一段时长的问诊语音数据。
在本公开实施例中,问诊语音数据指的是医疗问诊过程中医生和病人之间的对话的音频数据。
步骤102,根据语音方向信息对问诊语音数据进行切割,获取属于第一语音方向的第一语音片段集合和属于第二语音方向的第二类语音片段集合。
在本公开实施例中,麦克风阵列在采集问诊语音数据的同时,可以每隔预设时长比如10毫秒判断一次当前语音的说话人方向,医生和患者的位置不同,所以对应的语音方向是不同的。因此可以通过语音方向信息把问诊语音数据按照片段切割为两类,即第一语音片段集合和第二类语音片段集合。
步骤103,对第一语音片段集合和第二语音片段集合进行语音识别,生成第一文本集合和第二文本集合。
在本公开实施例中,可以通过语音识别模型等方式对第一语音片段集合和第二语音片段集合进行语音识别,生成第一文本集合和第二文本集合。
作为一种可能实现方式,对第一语音片段集合中的每第一语音片段和第二语音片段集合中的每第二语音片段进行特征提取,获取多个第一声学特征和多个第二声学特征,通过预训练的声学模型和语言模型分别对多个第一声学特征和多个第二声学特征进行解码搜索,获取第一文本集合和第二文本集合。
步骤104,对第一文本集合和第二文本集合进行语义理解,确定第一语音方向对应的第一用户身份标识,以及第二语音方向对应的第二用户身份标识。
在本公开的实施例中,可以通过语义理解模型、算法等方式对第一文本集合和第二文本集合进行语义理解,确定第一用户身份标识和第二用户身份标识。
作为一种可能实现方式,根据第一文本集合中每第一文本的语义理解结果确定每第一文本属于第一用户身份标识的第一概率和第二用户身份标识的第二概率;根据第二文本集合中每第二文本的语义理解结果确定每第二文本属于第一用户身份标识的第三概率和第二用户身份标识的第四概率;根据多个第一概率确定第一用户身份标识的第一总概率,并根据多个第二概率确定第二用户身份标识的第二总概率,在第一总概率大于等于第二总概率的情况下,确定第一语音方向为第一用户身份标识;根据多个第三概率确定第一用户身份标识的第三总概率,并根据多个第四概率确定第二用户身份标识的第四总概率,在第三总概率小于第四总概率的情况下,确定第二语音方向为第二用户身份标识。
步骤105,根据第一用户身份标识和第二用户身份标识对第一文本集合和第二文本集合进行语义分析获取结构化数据,将问诊语音数据和结构化数据存储在预设数据库存储在预设数据库。
在本公开的一个实施例中,根据第一文本集合和第二文本集合确定多组问答文本,通过预训练的分类器对多组问答文本进行分类,获取每一组问答文本对应的问答类型,根据问答类型确定目标文本,通过预训练的信息提取模型对目标文本进行信息提取,获取多个关键词,根据预设的词典和映射模型对多个关键词进行数据规范化处理,获取目标词语,根据目标词语生成结构化数据,将问诊语音数据和结构化数据存储在预设数据库。
由此,在医疗问诊过程中,采集目标时长的问诊语音数据,根据语音方向信息对问诊语音数据进行切割,获取属于第一语音方向的第一语音片段集合和属于第二语音方向的第二类语音片段集合,对第一语音片段集合和第二语音片段集合进行语音识别,生成第一文本集合和第二文本集合,对第一文本集合和第二文本集合进行语义理解,确定第一语音方向对应的第一用户身份标识,以及第二语音方向对应的第二用户身份标识,根据第一用户身份标识和第二用户身份标识对第一文本集合和第二文本集合进行语义分析获取结构化数据,将问诊语音数据和结构化数据存储在预设数据库。由此,在临床问诊过程中,实现更高效的记录信息和保存原始数据,可以随时根据需要进行数据追溯和比对,确保数据的真实有效性。
作为一种场景举例,如图2所示,比如通过智能终端的麦克风阵列采集医生问诊过程中的语音数据,一方面把完整的问诊语音数据保存在数据平台中,另一方面对问诊语音数据进行实时人工智能分析,包括话者分离、语音识别、语义理解,得到对应的结构化数据,并返回给医生进行确认和编辑,这样医生只需花费少量时间对问诊信息进行确认和必要的编辑,即可完整记录问诊信息数据。通过这种方式,一方面减轻了医生专家在信息录入方面的工作量,提高了他们的效率,另一方面通过记录了原始的问诊语音数据,可以随时根据需要进行数据追溯和比对,确保数据的真实有效性。
在本公开的一个可能实现方式中,根据第一文本集合中每第一文本的语义理解结果确定每第一文本属于第一用户身份标识的第一概率和第二用户身份标识的第二概率;根据第二文本集合中每第二文本的语义理解结果确定每第二文本属于第一用户身份标识的第三概率和第二用户身份标识的第四概率;根据多个第一概率确定第一用户身份标识的第一总概率,并根据多个第二概率确定第二用户身份标识的第二总概率,在第一总概率大于等于第二总概率的情况下,确定第一语音方向为第一用户身份标识;根据多个第三概率确定第一用户身份标识的第三总概率,并根据多个第四概率确定第二用户身份标识的第四总概率,在第三总概率小于第四总概率的情况下,确定第二语音方向为第二用户身份标识。
具体地,在对问诊语音进行识别和理解之前,首先要进行对应的话者识别,也就是判断哪些话是医生说的,哪些话是患者说的。如图3所示的话者分离和识别流程,主要通过两方面的信息来进行话者分离和识别,通过对每一个话者对应片段的文字进行语义理解和分类,最终判断出话者A和话者B的身份信息,也就是哪一位是医生,哪一位是患者。其中,语义分类采用统计分类器算法(两类:医生/患者),对每个话者的每句话都计算医生/患者类别的概率,然后累计每个话者所有句子的类别概率,最后判断话者A和话者B是属于医生还是患者,即上述实施例描述的第一用户身份标识和第二用户身份标识。
在本公开的一个可能实现方式中,对第一语音片段集合中的每第一语音片段和第二语音片段集合中的每第二语音片段进行特征提取,获取多个第一声学特征和多个第二声学特征,通过预训练的声学模型和语言模型分别对多个第一声学特征和多个第二声学特征进行解码搜索,获取第一文本集合和第二文本集合。
具体地,对于一个通用的非特定人的语音识别***来说,语音信号首先被输入特征提取和处理模块,得到需要的声学特征,然后用数学模型来描述大量语音特征的发音统计特点和大量发音文本的统计特点,前者的数学模型一般称为声学模型,后者的数学模型通常称为语言模型。对需要识别的语音信号,通过由训练数据生成的声学模型和语言模型,进行解码搜索,即可得到识别的文本。整个流程图如下图4所示。
在本公开实施例中,获取已标注的语音数据样本,将语音数据样本输入神经网络进行训练,获取基础模型,通过已标注的医疗问诊语音数据,将医疗问诊语音数据输入基础模型进行训练,对基础模型的模型参数进行调整,获取声学模型。
具体地,通过收集和标注少量医疗问诊的语音数据,采用模型自适应和迁移学习算法,对基础模型的参数进行微调优化。
在本公开实施例中,获取医疗领域的专业文本数据,将专业文本数据与通用文本数据按照预设权重混合,训练语言模型。
具体地,医疗领域有大量的专业术语,包括疾病、症状、药品等,如果不对语言模型做领域定制化,很多专业术语很容易就会识别错误,比如“马氏杆试验”“坠积性肺不张”。通过收集大量医疗领域的专业文本数据(包括专业书籍、问诊对话、病历文本等),并与通用的文本数据按照一定权重混合在一起,重新训练一个医疗领域的专用语言模型。
在本公开的一个可能实现方式中,根据第一文本集合和第二文本集合确定多组问答文本,通过预训练的分类器对多组问答文本进行分类,获取每一组问答文本对应的问答类型,根据问答类型确定目标文本,通过预训练的信息提取模型对目标文本进行信息提取,获取多个关键词,根据预设的词典和映射模型对多个关键词进行数据规范化处理,获取目标词语,根据目标词语生成结构化数据,将问诊语音数据和结构化数据存储在预设数据库。
具体地,在医疗问诊过程中,采集病史数据包括很多内容分阶段进行,主要分为主诉、现病史、既往史、个人史、家族史、婚育史等,本公开的语义分析模块根据收集的医患问答语音识别后的文本数据,分析理解医生的问诊阶段和具体问题,以及用户的回答内容,从中提取出相应的关键信息,并对数据进行规范化并形成对应的结构化数据,具体流程如下图5所示。
本公开的语义分析模块,主要是定制和优化对应的算法和模型,具体如下:也就是针对医疗行业知识和诊疗场景的问答,设计对应的分类算法和模型,并根据需要提取的实体信息设计对应的结构化信息提取模板和算法,比如疾病、症状、药物等相关信息。
具体地,针对每一组医患问答,需要进行分类,即判断该问答的问诊阶段和具体信息类型,比如“你最近有什么症状”,就是主诉阶段症状类型的问题,这种分类不仅依赖当前的问答文本,还与问诊流程的上下文高度相关,比如“有多长时间了”,如果前面的问答是主诉症状,那这个问题的分类就是症状的持续时间,如果前面的问答是关于既往史,那这个问题的分类就是既往病史的时间周期。因此,分类器算法的输入信息包括当前问答的文本、上一轮问答的文本、以及上一轮问答的分类决策信息,输出信息为当前问答的分类决策,采用的分类器算法是基于深度学习的BERT模型,在预训练模型基础上,采用大量医患问诊的对话文本进行模型参数的调优训练(fine-tuning)。
具体地,病人回答的关键信息,例如疾病、症状、药物等医学信息,词汇量较大,同时非标准的词语分布长尾效应明显,在做信息提取时词语的边界很难确定。本公开实施例通过对医患问诊对话数据库的实体词语信息标注,采用深度迁移学习算法加条件随机场CRF的模型(模型架构如下图6所示),能够很好的确定词语边界,最终提取到有效的实体词语。
具体地,在问诊过程中,病人回答的文本口语化比较突出,通用的语言模型不能很好的覆盖这些口语词语。本公开实施例通过对医患问诊对话数据库的统计学习,采用信息熵和文本聚类算法,挖掘出大量在词典中没有出现的未登录词,比如表示咳嗽的词语(咳嗽,有点咳,咳嗽得厉害,咳得厉害,经常咳,偶尔咳等等),然后使用支持向量机根据词语的上下文统计信息做分类,最终筛选出高质量的口语化词语,形成对应的规范化词典和映射模型。
在本公开中,问诊语音数据经过智能分析和结构化,以及医生进行信息编辑确认之后,这些数据和确认信息可以反馈回***,对人工智能模型进行重新训练优化,形成人工智能模型优化的闭环。
在本公开一个可能实现方式中,将结构化数据发送到终端显示,接收到对结构化数据的确认信息或更新信息,获取问诊语音数据、确认或更新文本信息训练声学模型和语言模型。
具体地,问诊语音数据和编辑确认后的文字信息,一方面可以用于医疗领域共用的ASR(Automatic Speech Recognition,自动语音识别技术)模型的重新训练,也可以用于针对这个医生的个性化专用ASR模型的自适应训练。
在本公开一个可能实现方式中,将结构化数据发送到终端显示,接收到对结构化数据的确认信息,获取识别的问诊对话文本数据,根据问诊对话文本数据对分类器进行优化处理。
具体地,问诊的对话文本数据,经过编辑审核后,生成大量的对话语料库,可以优化文本分类算法。
在本公开一个可能实现方式中,将结构化数据发送到终端显示,接收到对结构化数据的更新指令,根据更新指令对结构化数据进行更新,对更新后的结构化数据进行标注作为训练样本用于训练信息提取模型。
具体地,提取出的结构化数据经过标注后,可以用来优化关键信息提取的迁移学习模型等。
如图7所示,医生进行编辑和确认后的数据反馈回来,可用于语音识别(ASR)和语义分析(NLP,Natural Language Processing)的模型优化。
具体地,另外,医生编辑确认的数据分为两类,一类是无修改直接确认的数据,第二类是经过编辑修改后再确认的数据,由于第一类数据是人工智能(AI,ArtificialIntelligence)模型分析正确的,而第二类数据是AI模型处理有错误的,因此在模型训练优化中,本公开实施例会对第二类数据加更大的权重,从而使得模型训练优化更加有针对性,性能提升更高效。
通过上述模型优化的闭环,AI技术能力持续优化增强,后续可以用优化后的AI技术对数据平台中的数据进行识别和分析,从而能够更好的挖掘数据用于临床研究。
基于上述描述,本公开通过智能设备采集问诊过程中的原始语音数据,并实时上传到云端进行保存,用于后续数据分析和历史追溯;通过定制优化的AI技术对采集的原始语音数据进行分析,包括话者识别、语音识别和语义分析技术对数据进行分析和结构化;采集后的数据经过AI分析形成结构化数据之后,即时反馈给医生专家进行确认,大幅提高医生信息录入的效率和准确性;经过医生专家确认后的数据,反馈回来用于模型训练和优化,从而形成模型优化的闭环。
因此,本公开的医疗问诊数据处理方法有以下几方面的优点:医生问诊过程中的语音对话原始数据完整记录下来,而传统方式没有原始数据记录,只有少量医生转录的文字信息,解决了传统方式都是医生/助手根据自己的记忆,以人工的方式转录部分信息,导致信息有丢失,甚至有不少错误等问题,通过本公开的定制化AI技术对数据进行识别和理解,然后医生进行即时编辑和确认,大幅提高数据录入的效率、完整性和准确性,同时节省医生的时间;通过本公开的AI模型优化闭环,可以充分利用医生专家们确认后的数据进行模型训练优化,从而达到AI模型在使用过程中越来越智能,识别理解能力越来越强;在本公开中,通过语音识别和语音检索技术,后续可以直接在原始问诊语音数据中进行快速查询分析,挖掘更多有价值的信息,提高科研效率,而传统方式则完全没有办法追溯原始数据进行信息挖掘。
与上述图1至图7实施例提供的医疗问诊数据处理方法相对应,本公开还提供一种医疗问诊数据处理装置,由于本公开实施例提供的医疗问诊数据处理装置与上述图1至图7实施例提供的医疗问诊数据处理方法相对应,因此在医疗问诊数据处理方法的实施方式也适用于本公开实施例提供的医疗问诊数据处理装置,在本公开实施例中不再详细描述。
图8为本公开实施例所述的医疗问诊数据处理装置的结构示意图。
如图8所示,该医疗问诊数据处理装置,包括:采集模块801、切割模块802、识别模块803、语义理解模块804和获取存储模块805。
采集模块801,用于在医疗问诊过程中,采集目标时长的问诊语音数据。
切割模块802,用于根据语音方向信息对所述问诊语音数据进行切割,获取属于第一语音方向的第一语音片段集合和属于第二语音方向的第二类语音片段集合。
识别模块803,用于对所述第一语音片段集合和所述第二语音片段集合进行语音识别,生成第一文本集合和第二文本集合。
语义理解模块804,用于对所述第一文本集合和所述第二文本集合进行语义理解,确定所述第一语音方向对应的第一用户身份标识,以及所述第二语音方向对应的第二用户身份标识。
获取存储模块805,用于根据所述第一用户身份标识和所述第二用户身份标识对所述第一文本集合和所述第二文本集合进行语义分析获取结构化数据,将所述问诊语音数据和所述结构化数据存储在预设数据库。
由此,在医疗问诊过程中,采集目标时长的问诊语音数据,根据语音方向信息对问诊语音数据进行切割,获取属于第一语音方向的第一语音片段集合和属于第二语音方向的第二类语音片段集合,对第一语音片段集合和第二语音片段集合进行语音识别,生成第一文本集合和第二文本集合,对第一文本集合和第二文本集合进行语义理解,确定第一语音方向对应的第一用户身份标识,以及第二语音方向对应的第二用户身份标识,根据第一用户身份标识和第二用户身份标识对第一文本集合和第二文本集合进行语义分析获取结构化数据,将问诊语音数据和结构化数据存储在预设数据库。由此,在临床问诊过程中,实现更高效的记录信息和保存原始数据,可以随时根据需要进行数据追溯和比对,确保数据的真实有效性。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种医疗问诊数据处理方法,其特征在于,包括:
在医疗问诊过程中,采集目标时长的问诊语音数据;
根据语音方向信息对所述问诊语音数据进行切割,获取属于第一语音方向的第一语音片段集合和属于第二语音方向的第二类语音片段集合;
对所述第一语音片段集合和所述第二语音片段集合进行语音识别,生成第一文本集合和第二文本集合;
对所述第一文本集合和所述第二文本集合进行语义理解,确定所述第一语音方向对应的第一用户身份标识,以及所述第二语音方向对应的第二用户身份标识;
根据所述第一用户身份标识和所述第二用户身份标识对所述第一文本集合和所述第二文本集合进行语义分析获取结构化数据,将所述问诊语音数据和所述结构化数据存储在预设数据库。
2.根据权利要求1所述的医疗问诊数据处理方法,其特征在于,所述对所述第一文本集合和所述第二文本集合进行语义理解,获取确定所述第一语音方向对应的第一用户身份标识,以及所述第二语音方向对应的第二用户身份标识,包括:
根据所述第一文本集合中每第一文本的语义理解结果确定所述每第一文本属于所述第一用户身份标识的第一概率和所述第二用户身份标识的第二概率;
根据所述第二文本集合中每第二文本的语义理解结果确定所述每第二文本属于所述第一用户身份标识的第三概率和所述第二用户身份标识的第四概率;
根据多个所述第一概率确定所述第一用户身份标识的第一总概率,并根据多个所述第二概率确定所述第二用户身份标识的第二总概率,在所述第一总概率大于等于所述第二总概率的情况下,确定所述第一语音方向为所述第一用户身份标识;
根据多个所述第三概率确定所述第一用户身份标识的第三总概率,并根据多个所述第四概率确定所述第二用户身份标识的第四总概率,在所述第三总概率小于所述第四总概率的情况下,确定所述第二语音方向为所述第二用户身份标识。
3.根据权利要求1所述的医疗问诊数据处理方法,其特征在于,所述对所述第一语音片段集合和所述第二语音片段集合进行语音识别,生成第一文本集合和第二文本集合,包括:
对所述第一语音片段集合中的每第一语音片段和所述第二语音片段集合中的每第二语音片段进行特征提取,获取多个第一声学特征和多个第二声学特征;
通过预训练的声学模型和语言模型分别对所述多个第一声学特征和所述多个第二声学特征进行解码搜索,获取所述第一文本集合和所述第二文本集合。
4.根据权利要求3所述的医疗问诊数据处理方法,其特征在于,
获取已标注的语音数据样本,将所述语音数据样本输入神经网络进行训练,获取基础模型;
通过已标注的医疗问诊语音数据,将所述医疗问诊语音数据输入所述基础模型进行训练,对所述基础模型的模型参数进行调整,获取所述声学模型。
5.根据权利要求3所述的医疗问诊数据处理方法,其特征在于,
获取医疗领域的专业文本数据,将所述专业文本数据与通用文本数据按照预设权重混合,训练所述语言模型。
6.根据权利要求1所述的医疗问诊数据处理方法,其特征在于,所述根据所述第一用户身份标识和所述第二用户身份标识对所述第一文本集合和所述第二文本集合进行语义分析获取结构化数据,将所述问诊语音数据和所述结构化数据存储在预设数据库,包括:
根据所述第一文本集合和所述第二文本集合确定多组问答文本,通过预训练的分类器对所述多组问答文本进行分类,获取每一组问答文本对应的问答类型;
根据问答类型确定目标文本,通过预训练的信息提取模型对所述目标文本进行信息提取,获取多个关键词;
根据预设的词典和映射模型对所述多个关键词进行数据规范化处理,获取目标词语;
根据所述目标词语生成所述结构化数据,将所述问诊语音数据和所述结构化数据存储在预设数据库。
7.根据权利要求1所述的医疗问诊数据处理方法,其特征在于,还包括:
将所述结构化数据发送到终端显示;
接收到对所述结构化数据的确认信息或更新信息,获取问诊语音数据、确认或更新文本信息训练声学模型和语言模型。
8.根据权利要求1-6任一项所述的医疗问诊数据处理方法,其特征在于,还包括:
将所述结构化数据发送到终端显示;
接收到对所述结构化数据的确认信息,获取识别的问诊对话文本数据,根据所述问诊对话文本数据对分类器进行优化处理。
9.根据权利要求1-6任一项所述的医疗问诊数据处理方法,其特征在于,还包括:
将所述结构化数据发送到终端显示;
接收到对所述结构化数据的更新指令,根据所述更新指令对所述结构化数据进行更新;
对更新后的结构化数据进行标注作为训练样本用于训练信息提取模型。
10.一种医疗问诊数据处理装置,其特征在于,包括:
采集模块,用于在医疗问诊过程中,采集目标时长的问诊语音数据;
切割模块,用于根据语音方向信息对所述问诊语音数据进行切割,获取属于第一语音方向的第一语音片段集合和属于第二语音方向的第二类语音片段集合;
识别模块,用于对所述第一语音片段集合和所述第二语音片段集合进行语音识别,生成第一文本集合和第二文本集合;
语义理解模块,用于对所述第一文本集合和所述第二文本集合进行语义理解,确定所述第一语音方向对应的第一用户身份标识,以及所述第二语音方向对应的第二用户身份标识;
获取存储模块,用于根据所述第一用户身份标识和所述第二用户身份标识对所述第一文本集合和所述第二文本集合进行语义分析获取结构化数据,将所述问诊语音数据和所述结构化数据存储在预设数据库。
CN202110601186.6A 2021-05-31 2021-05-31 一种医疗问诊数据处理方法和装置 Pending CN113555133A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110601186.6A CN113555133A (zh) 2021-05-31 2021-05-31 一种医疗问诊数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110601186.6A CN113555133A (zh) 2021-05-31 2021-05-31 一种医疗问诊数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN113555133A true CN113555133A (zh) 2021-10-26

Family

ID=78130244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110601186.6A Pending CN113555133A (zh) 2021-05-31 2021-05-31 一种医疗问诊数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN113555133A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115579008A (zh) * 2022-12-05 2023-01-06 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质
CN117253576A (zh) * 2023-10-30 2023-12-19 来未来科技(浙江)有限公司 基于中文医疗大模型的门诊电子病历生成方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115579008A (zh) * 2022-12-05 2023-01-06 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质
CN117253576A (zh) * 2023-10-30 2023-12-19 来未来科技(浙江)有限公司 基于中文医疗大模型的门诊电子病历生成方法
CN117253576B (zh) * 2023-10-30 2024-03-05 来未来科技(浙江)有限公司 基于中文医疗大模型的门诊电子病历生成方法

Similar Documents

Publication Publication Date Title
US10347244B2 (en) Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
US11646032B2 (en) Systems and methods for audio processing
US6434520B1 (en) System and method for indexing and querying audio archives
JP5330450B2 (ja) テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
CN105957531B (zh) 基于云平台的演讲内容提取方法及装置
Li et al. Learning fine-grained cross modality excitement for speech emotion recognition
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和***
CN111180025B (zh) 表示病历文本向量的方法、装置及问诊***
CN113555133A (zh) 一种医疗问诊数据处理方法和装置
CN113744727A (zh) 模型训练方法、***、终端设备及存储介质
CN112183051A (zh) 智能语音随访方法、***、计算机设备、存储介质及程序产品
Koumpis et al. Content-based access to spoken audio
CN117149977A (zh) 一种基于机器人流程自动化的智能催收机器人
CN113129895B (zh) 一种语音检测处理***
CN112908296A (zh) 一种方言识别方法
Andra et al. Contextual keyword spotting in lecture video with deep convolutional neural network
CN114333828A (zh) 用于数码产品的快速语音识别***
Tumminia et al. Diarization of legal proceedings. Identifying and transcribing judicial speech from recorded court audio
CN112951237A (zh) 一种基于人工智能的自动语音识别方法及***
CN112233668A (zh) 一种基于神经网络的语音指令及身份识别方法
Lane et al. Local word discovery for interactive transcription
CN112287673B (zh) 一种基于深度学习来实现语音导航机器人的方法
CN112820274B (zh) 一种语音信息识别校正方法和***
Gereg et al. Semi-automatic processing and annotation of meeting audio recordings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination