CN112989767A

CN112989767A - 医学词语标注方法、医学词语映射方法、装置及设备

Info

Publication number: CN112989767A
Application number: CN202110430710.8A
Authority: CN
Inventors: 施晓明; 陈曦; 张子恒
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-06-18
Anticipated expiration: 2041-04-21
Also published as: CN112989767B

Abstract

本申请实施例公开了一种医学词语标注方法、医学词语映射方法、装置及设备，属于计算机技术领域。该方法包括：获取第一症状描述语句和对第一症状描述语句的回复语句，基于回复语句中包含的医学词语，生成第一症状描述语句的标注信息，根据第一症状描述语句及标注信息，对词语标注模型进行训练，调用训练后的词语标注模型，对第二症状描述语句进行标注，得到第二症状描述语句对应的医学词语，采用第一症状描述语句和对该第一症状描述语句的回复语句，对该词语标注模型的训练，实现了对词语标注模型的无监督训练，并且，通过训练后的词语标注模型，能够实现对症状描述语句的自动标注，节省了人为标注的时间，提高了标注效率。

Description

医学词语标注方法、医学词语映射方法、装置及设备

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种医学词语标注方法、医学词语映射方法、装置及设备。

背景技术

随着计算机技术的发展，语义识别的技术应用越来越广泛。例如，在医疗场景下，采用语义识别技术，能够将用户输入的口语化的症状描述语句映射为医学词语，以便后续能够根据医学词语来为用户提供就诊服务。

相关技术中，通过采用人为标注的方式，根据输入语句所表达的含义，标注出与该输入语句具有相同含义的医学词语，并根据标注结果对网络模型进行训练，以便后续基于训练后的网络模型，来确定任一输入语句对应的医学词语。但是这种人为标注的方式所需花费的时间长，标注效率低。

发明内容

本申请实施例提供了一种医学词语标注方法、医学词语映射方法、装置及设备，能够提高标注效率，所述技术方案如下。

一方面，提供了一种医学词语标注方法，所述方法包括：

获取第一症状描述语句和对所述第一症状描述语句的回复语句；

基于所述回复语句中包含的医学词语，生成所述第一症状描述语句的标注信息，所述标注信息包括与所述第一症状描述语句所描述的症状关联的医学词语；

根据所述第一症状描述语句及所述标注信息，对词语标注模型进行训练，所述词语标注模型用于为任一症状描述语句标注对应的医学词语；

调用训练后的词语标注模型，对第二症状描述语句进行标注，得到所述第二症状描述语句对应的医学词语。

在一种可能实现方式中，所述方法还包括：

对所述第二症状描述语句进行分割处理，得到多个语句片段，每个语句片段包括至少一个词语；

将所述每个语句片段中所包含的词语的权重之和，分别确定为所述每个语句片段的权重；

将从所述多个语句片段中最大权重对应的语句片段，确定为所述第二症状描述语句中的样本语句片段。

在另一种可能实现方式中，所述根据所述第三症状描述语句及对应的医学词语，对所述词语映射模型再次进行训练，包括：

根据所述第三症状描述语句中的样本语句片段及所述第三症状描述语句对应的医学词语，对所述词语映射模型再次进行训练，所述样本语句片段为所述第三症状描述语句中用于描述症状的片段。

在另一种可能实现方式中，所述调用所述词语标注模型，对所述第一症状描述语句进行特征提取，得到所述第一症状描述语句的语句特征，包括：

调用所述词语标注模型，对所述第一症状描述语句进行分词处理，得到至少一个词语；

对所述至少一个词语进行编码处理，得到所述至少一个词语的词向量；

对所述至少一个词语的词向量进行融合，得到所述第一症状描述语句的语句特征。

在另一种可能实现方式中，所述至少一个词语包括多个词语；所述对所述至少一个词语的词向量进行融合，得到所述第一症状描述语句的语句特征，包括：

根据所述多个词语的词向量，获取每个词语的权重；

根据所述多个词语的权重，对所述多个词语的词向量进行加权融合，得到所述第一症状描述语句的语句特征。

在另一种可能实现方式中，所述对所述回复语句进行关键词提取，得到所述回复语句中的医学词语，包括：

对所述回复语句进行分词处理，得到至少一个词语；

将所述至少一个词语，从知识数据库中查询所述至少一个词语包含的医学词语，所述知识数据库包括至少一个医学词语。

在另一种可能实现方式中，所述对所述回复语句进行关键词提取，得到所述回复语句中的第一医学词语及第二医学词语，包括：

对所述回复语句进行分词处理，得到至少一个词语；

根据所述至少一个词语，从所述知识数据库中查询所述至少一个词语包含的第一医学词语及第二医学词语。

在另一种可能实现方式中，所述词语标注模型包括多个参考医学词语，每个参考医学词语用于描述一种症状；所述调用训练后的词语标注模型，对第二症状描述语句进行标注，得到所述第二症状描述语句对应的医学词语，包括：

调用所述训练后的词语标注模型，对所述第二症状描述语句进行标注，得到所述多个参考医学词语对应的概率，每个参考医学词语对应的概率用于表示所述参考医学词语为所述第二症状描述语句对应的医学词语的可能性；

将所述多个参考医学词语中最大概率对应的参考医学词语，确定为所述第二症状描述语句对应的医学词语。

另一方面，提供了一种医学词语映射方法，所述方法包括：

根据所述第一症状描述语句及所述标注信息，对词语映射模型进行训练，所述词语映射模型用于为任一症状描述语句标注对应的医学词语；

调用训练后的词语映射模型，对目标症状描述语句进行映射，得到所述目标症状描述语句对应的医学词语。

另一方面，提供了一种医学词语标注装置，所述装置包括：

获取模块，用于获取第一症状描述语句和对所述第一症状描述语句的回复语句；

生成模块，用于基于所述回复语句中包含的医学词语，生成所述第一症状描述语句的标注信息，所述标注信息包括与所述第一症状描述语句所描述的症状关联的医学词语；

训练模块，用于根据所述第一症状描述语句及所述标注信息，对词语标注模型进行训练，所述词语标注模型用于为任一症状描述语句标注对应的医学词语；

标注模块，用于调用训练后的词语标注模型，对第二症状描述语句进行标注，得到所述第二症状描述语句对应的医学词语。

在一种可能实现方式中，所述装置还包括：

所述训练模块，还用于根据所述第二症状描述语句及所述第二症状描述语句对应的医学词语，对词语映射模型进行训练，所述词语映射模型用于将任一症状描述语句映射为对应的医学词语；

映射模块，用于调用训练后的词语映射模型，对任一目标症状描述语句进行映射，得到所述目标症状描述语句对应的医学词语。

在另一种可能实现方式中，所述训练模块，用于根据所述第二症状描述语句中的样本语句片段及所述第二症状描述语句对应的医学词语，对所述词语映射模型进行训练，所述样本语句片段为所述第二症状描述语句中用于描述症状的片段；

所述映射模块，用于调用所述训练后的词语映射模型，对所述目标症状描述语句中的目标语句片段进行映射，得到所述目标症状描述语句对应的医学词语，所述目标语句片段为所述目标症状描述语句中用于描述症状的片段。

在另一种可能实现方式中，所述装置还包括：

分割模块，用于对所述第二症状描述语句进行分割处理，得到多个语句片段，每个语句片段包括至少一个词语；

确定模块，用于将所述每个语句片段中所包含的词语的权重之和，分别确定为所述每个语句片段的权重；

所述确定模块，还用于将从所述多个语句片段中最大权重对应的语句片段，确定为所述第二症状描述语句中的样本语句片段。

在另一种可能实现方式中，所述获取模块，还用于获取第三症状描述语句及对应的医学词语，所述第三症状描述语句对应的医学词语是由人为标注得到的；

所述训练模块，还用于根据所述第三症状描述语句及对应的医学词语，对所述词语映射模型再次进行训练。

在另一种可能实现方式中，所述训练模块，用于根据所述第三症状描述语句中的样本语句片段及所述第三症状描述语句对应的医学词语，对所述词语映射模型再次进行训练，所述样本语句片段为所述第三症状描述语句中用于描述症状的片段。

在另一种可能实现方式中，所述词语标注模型包括多个参考医学词语，每个参考医学词语用于描述一种症状；所述训练模块，包括：

标注单元，用于调用所述词语标注模型，对所述第一症状描述语句进行标注，得到所述多个参考医学词语对应的预测概率，每个参考医学词语对应的预测概率用于表示所述参考医学词语为所述第一症状描述语句对应的医学词语的可能性；

训练单元，用于根据所述多个参考医学词语对应的预测概率及所述标注信息中的医学词语，对所述词语标注模型进行训练。

在另一种可能实现方式中，所述标注单元，用于调用所述词语标注模型，对所述第一症状描述语句进行特征提取，得到所述第一症状描述语句的语句特征；对所述语句特征进行特征变换，得到参考特征，所述参考特征包括多个维度的特征值，每个维度与一个参考医学词语对应；将所述参考特征中所述每个维度的特征值，分别确定为所述每个维度对应的参考医学词语所对应的预测概率。

在另一种可能实现方式中，所述标注单元，用于调用所述词语标注模型，对所述第一症状描述语句进行分词处理，得到至少一个词语；对所述至少一个词语进行编码处理，得到所述至少一个词语的词向量；对所述至少一个词语的词向量进行融合，得到所述第一症状描述语句的语句特征。

在另一种可能实现方式中，所述至少一个词语包括多个词语；所述标注单元，用于根据所述多个词语的词向量，获取每个词语的权重；根据所述多个词语的权重，对所述多个词语的词向量进行加权融合，得到所述第一症状描述语句的语句特征。

在另一种可能实现方式中，所述训练单元，用于将第一目标数值确定为所述标注信息中的医学词语的真实概率；对于所述标注信息中的任一医学词语，将与所述医学词语相同的参考医学词语对应的预测概率，确定为所述医学词语对应的预测概率；根据所述标注信息中的每个医学词语对应的预测概率和真实概率，确定所述词语标注模型的损失值；根据所述损失值，对所述词语标注模型进行训练。

在另一种可能实现方式中，所述装置还包括：

确定模块，用于将第二目标数值，确定为所述多个参考医学词语中、未包含于所述标注信息中的参考医学词语对应的真实概率；

所述训练单元，用于根据所述标注信息中的每个医学词语对应的预测概率和真实概率，及未包含于所述标注信息中的参考医学词语对应的预测概率和真实概率，确定所述词语标注模型的损失值。

在另一种可能实现方式中，所述生成模块，包括：

提取单元，用于对所述回复语句进行关键词提取，得到所述回复语句中的医学词语；

构成单元，用于将得到的医学词语构成所述标注信息。

在另一种可能实现方式中，所述提取单元，用于对所述回复语句进行分词处理，得到至少一个词语；将所述至少一个词语，从知识数据库中查询所述至少一个词语包含的医学词语，所述知识数据库包括至少一个医学词语。

在另一种可能实现方式中，所述生成模块，包括：

提取单元，用于对所述回复语句进行关键词提取，得到所述回复语句中的第一医学词语及第二医学词语，所述第一医学词语为用于描述疾病的词语，所述第二医学词语为用于描述症状的词语；

查询单元，用于根据所述第一医学词语，从知识数据库中查询所述第一医学词语对应的至少一个第二医学词语，所述知识数据库包括第一医学词语与第二医学词语之间的对应关系；

构成单元，用于将提取到的第二医学词语及查询到的第二医学词语，构成所述标注信息。

在另一种可能实现方式中，所述提取单元，用于对所述回复语句进行分词处理，得到至少一个词语；根据所述至少一个词语，从所述知识数据库中查询所述至少一个词语包含的第一医学词语及第二医学词语。

在另一种可能实现方式中，所述词语标注模型包括多个参考医学词语，每个参考医学词语用于描述一种症状；所述标注模块，用于调用所述训练后的词语标注模型，对所述第二症状描述语句进行标注，得到所述多个参考医学词语对应的概率，每个参考医学词语对应的概率用于表示所述参考医学词语为所述第二症状描述语句对应的医学词语的可能性；将所述多个参考医学词语中最大概率对应的参考医学词语，确定为所述第二症状描述语句对应的医学词语。

另一方面，提供了一种医学词语映射装置，所述装置包括：

训练模块，用于根据所述第一症状描述语句及所述标注信息，对词语映射模型进行训练，所述词语映射模型用于为任一症状描述语句标注对应的医学词语；

映射模块，用于调用训练后的词语映射模型，对目标症状描述语句进行映射，得到所述目标症状描述语句对应的医学词语。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的医学词语标注方法中所执行的操作，或者，以实现如上述方面所述的医学词语映射方法中所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的医学词语标注方法中所执行的操作，或者，以实现如上述方面所述的医学词语映射方法中所执行的操作。

再一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行所述计算机程序代码，使得所述计算机设备实现如上述方面所述的医学词语标注方法中所执行的操作，或者，以实现如上述方面所述的医学词语映射方法中所执行的操作。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的方法、装置、计算机设备及存储介质，采用第一症状描述语句和对该第一症状描述语句的回复语句，对该词语标注模型的训练，在此训练过程中，无需人为对症状描述语句进行标注，实现了对词语标注模型的无监督训练，能够减轻词语标注模型对标注数据的依赖，提高了词语标注模型的准确性。并且，通过训练后的词语标注模型，能够实现对症状描述语句的自动标注，无需人为对症状描述语句进行标注，节省了人为标注的时间，提高了标注效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的结构示意图；

图2是本申请实施例提供的一种医学词语标注方法的流程图；

图3是本申请实施例提供的另一种医学词语标注方法的流程图；

图4是本申请实施例提供的一种获取标注信息的流程图；

图5是本申请实施例提供的一种获取参考医学词语的预测概率的流程图；

图6是本申请实施例提供的一种获取医学词语和样本语句片段的流程图；

图7是本申请实施例提供的一种医学词语映射方法的流程图；

图8是本申请实施例提供的另一种医学词语映射方法的流程图；

图9是本申请实施例提供的一种医学词语标注装置的结构示意图；

图10是本申请实施例提供的另一种医学词语标注装置的结构示意图；

图11是本申请实施例提供的一种医学词语映射装置的结构示意图；

图12是本申请实施例提供的一种终端的结构示意图；

图13是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请所使用的术语“第一”、“第二”、“第三”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，能够将第一症状描述语句称为第二症状描述语句，且类似地，可将第二症状描述语句称为第一症状描述语句。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，而每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个语句片段包括3个语句片段，而每个是指这3个语句片段中的每一个语句片段，任一是指这3个语句片段中的任意一个，能够是第一个，或者，是第二个，或者，是第三个。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例提供的方案，根据人工智能的自然语言处理、机器学习等技术，能够训练词语标注模型，利用训练后的词语标注模型，能够实现对症状描述语句的自动标注。

本申请实施例提供的医学词语标注方法或医学词语映射方法，能够用于计算机设备中。可选地，该计算机设备为终端或服务器。可选地，该服务器是独立的物理服务器，或者，是多个物理服务器构成的服务器集群或者分布式***，或者，是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（ContentDelivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

在一种可能实现方式中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备能够组成区块链***。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链（Blockchain），本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成（账户管理）、密钥管理以及用户真实身份和区块链地址对应关系维护（权限管理）等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置（风控审计）；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理（接口适配），然后通过共识算法将业务信息加密（共识管理），在加密之后完整一致的传输至共享账本上（网络通信），并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上（合约注册），根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括多个终端101（图1中仅以3个终端101为例）和服务器102。终端101和服务器102之间通过无线或者有线网络连接。终端101上安装由服务器102提供服务的目标应用，终端101能够通过该目标应用实现例如数据传输、消息交互等功能。可选地，目标应用为终端101操作***中的目标应用，或者为第三方提供的目标应用。例如，目标应用为就诊指引应用，该就诊指引应用具有指引功能，当然，该就诊指引应用还能够具有其他功能，例如，点评功能、内容分享功能、导航功能等。

每个终端101用于根据用户标识登录目标应用，通过目标应用向服务器102发送用户输入的症状描述语句，服务器102接收多个终端101发送的症状描述语句，并获取每个症状描述语句对应的回复语句，服务器102中还配置有词语标注模型，基于获取到的症状描述语句及对应的回复语句，能够训练词语标注模型，并基于训练后的词语标注模型，能够实现对任一终端101发送的症状描述语句进行标注。

本申请实施例提供的方法，可用于多种场景。

例如，医生问诊场景下：

终端中安装有就诊指引应用，该就诊指引应用对应的服务器中配置有词语标注模型及词语映射模型，该服务器采用本申请实施例提供的方法，调用训练后的词语标注模型，对多个症状描述语句进行标注，并根据标注得到的多个症状描述语句及对应的医学词语，对该词语映射模型进行训练。之后，终端基于用户标识登录就诊指引应用，向该服务器发送输入的症状描述语句，服务器接收到该症状描述语句后，调用训练后的词语映射模型，确定该症状描述语句对应的医学词语，之后医生根据确定的医学词语并结合用户的其他信息，来确定用户的身体状况。

例如，就诊指引场景下：

终端中安装有就诊指引应用，该就诊指引应用对应的服务器中配置有词语标注模型及词语映射模型，该服务器采用本申请实施例提供的方法，调用训练后的词语标注模型，对多个症状描述语句进行标注，并根据标注得到的多个症状描述语句及对应的医学词语，对该词语映射模型进行训练。之后，终端基于用户标识登录就诊指引应用，向该服务器发送输入的症状描述语句，服务器接收到该症状描述语句后，调用训练后的词语映射模型，确定该症状描述语句对应的医学词语，并确定具有该医学词语所描述的症状的疾病所属的科室，将该科室或属于该科室的医生返回至就诊指引应用，由终端通过该就诊指引应用进行显示，以使用户根据显示的科室或医生进行就诊。

图2是本申请实施例提供的一种医学词语标注方法的流程图，应用于计算机设备中，如图2所示，该方法包括以下步骤。

201、计算机设备获取第一症状描述语句和对第一症状描述语句的回复语句。

其中，第一症状描述语句用于描述症状，回复语句是用于回复第一症状描述语句的语句，该回复语句中包含的医学词语与第一症状描述语句所描述的症状相关联。

202、计算机设备基于回复语句中包含的医学词语，生成第一症状描述语句的标注信息。

其中，标注信息包括与第一症状描述语句所描述的症状关联的医学词语，该标注信息中的医学词语也即是该第一症状描述语句对应的真实医学词语。

203、计算机设备根据第一症状描述语句及标注信息，对词语标注模型进行训练。

其中，词语标注模型用于为任一症状描述语句标注对应的医学词语。在本申请实施例中，标注信息中的医学词语为第一症状描述语句对应的真实医学词语，通过第一症状描述语句，及该第一症状描述语句中的医学词语，对该词语标注模型进行训练，以提高词语标注模型的标注能力，从而提高词语标注模型的准确性。

204、计算机设备调用训练后的词语标注模型，对第二症状描述语句进行标注，得到第二症状描述语句对应的医学词语。

其中，第二症状描述语句用于描述症状，第二症状描述语句与第一症状描述语句类似。在训练完成词语标注模型后，调用训练后的词语标注模型能够对任一症状描述语句进行标注，从而得到该症状描述语句对应的医学词语。

本申请实施例提供的方法，采用第一症状描述语句和对该第一症状描述语句的回复语句，对该词语标注模型的训练，在此训练过程中，无需人为对症状描述语句进行标注，实现了对词语标注模型的无监督训练，能够减轻词语标注模型对标注数据的依赖，提高了词语标注模型的准确性。并且，通过训练后的词语标注模型，能够实现对症状描述语句的自动标注，无需人为对症状描述语句进行标注，节省了人为标注的时间，提高了标注效率。

图3是本申请实施例提供的一种医学词语标注方法的流程图，应用于计算机设备中，如图3所示，该方法包括以下步骤。

301、计算机设备获取第一症状描述语句和对第一症状描述语句的回复语句。

其中，第一症状描述语句用于描述症状，可选地，第一症状描述语句为口语化的描述语句，例如，该第一症状描述语句为“我肚子痛”，对第一症状描述语句的回复语句是用于回复第一症状描述语句的语句，该回复语句中包含的医学词语与第一症状描述语句所描述的症状相关联。可选地，该回复语句是由医生针对第一症状描述语句回复的，例如，该回复语句为“腹痛可能是由多种原因造成的”。

在一种可能实现方式中，该步骤301包括：计算机设备接收其他设备发送的第一症状描述语句和对第一症状描述语句的回复语句。

在另一种可能实现方式中，该计算机设备是为目标应用提供服务的服务器，该服务器中的数据库中包括多个第一症状描述语句和对每个第一症状描述语句的回复语句，则该计算机设备从该数据库中获取第一症状描述语句和对该第一症状描述语句的回复语句。

例如，该目标应用为疾病诊断应用，用户终端和医生终端均安装有疾病诊断应用，该服务器是用于为疾病诊断应用提供服务的服务器，当用户与医生基于疾病诊断应用聊天时，该服务器能够将用户输入的症状描述语句及医生回复的回复语句存储于该数据库中。

在一种可能实现方式中，该步骤301包括：计算机设备获取多个第一症状描述语句和对每个第一症状描述语句的回复语句。

302、计算机设备基于回复语句中包含的医学词语，生成第一症状描述语句的标注信息。

其中，标注信息包括与第一症状描述语句所描述的症状关联的医学词语，可选地，该标注信息中包括的医学词语为第二医学词语，或者，该标注信息中包括的医学词语为第一医学词语，或者，该标注信息中包括第二医学词语及第一医学词语。其中，第一医学词语为用于描述疾病的词语，第二医学词语为用于描述症状的词语。例如，第一症状描述语句为“我肚子痛”，该标注信息中包括的医学词语为“腹痛”。可选地，该标注信息包括至少一个与第一症状描述语句所描述的症状关联的医学词语。

在本申请实施例中，对第一症状描述语句的回复语句中包含医学词语，且回复语句中包含的医学词语，与该第一症状描述语句关联。可选地，该回复语句中包含的医学词语为第二医学词语，且该第二医学词语所描述的症状与第一症状描述语句所描述的症状相同。例如回复语句中包含的医学词语为“腹痛”，第一症状描述语句为“我肚子痛”。

可选地，该回复语句中包含的医学词语为第一医学词语，且第一症状描述语句所描述的症状为该第一医学词语所描述的疾病具有的症状。例如，回复语句中包含的医学词语为“肠胃疾病”，第一症状描述语句为“我肚子痛”，即回复语句中包含的医学词语为第一医学词语，且第一症状描述语句所描述的症状为该第一医学词语所指示的疾病具有的症状。

可选地，该回复语句中包含的医学词语为第二医学词语，且该第二医学词语所描述的症状与第一症状描述语句所描述的症状相同。

可选地，该回复语句中包含的多个医学词语包括第二医学词语及第一医学词语，且第二医学词语及第一医学词语均与第一症状描述语句所描述的症状关联。例如，回复语句中包含的第二医学词语为“腹痛”，回复语句中包含的第一医学词语为“肠胃疾病”，第一症状描述语句为“我肚子痛”，即该第二医学词语所描述的症状与第一症状描述语句所描述的症状相同，第一症状描述语句所描述的症状为该第一医学词语所指示的疾病具有的症状。

在一种可能实现方式中，该步骤302包括：调用信息生成模型，基于回复语句中包含的医学词语，生成第一症状描述语句的标注信息。

在本申请实施例中，信息生成模型用于生成任一症状描述语句的标注信息。可选地，该信息生成模型为伪标签生成器，该标注信息即为第一症状描述语句的伪标签。后续基于该伪标签，对词语标注模型进行训练。

在一种可能实现方式中，该步骤302包括以下三种方式。

第一种方式：对回复语句进行关键词提取，得到回复语句中的医学词语，将得到的医学词语构成标注信息。

在本申请实施例中，回复语句中包含医学词语，采用关键词提取的方式，从回复语句中提取出该回复语句包含的医学词语，并将提取到的医学词语构成第一症状描述语句的标注信息。

在一种可能实现方式中，获取回复语句中的医学词语的过程包括：对回复语句进行分词处理，得到至少一个词语，将至少一个词语，从知识数据库中查询至少一个词语包含的医学词语。

其中，知识数据库包括至少一个医学词语。可选地，知识数据库中包含的医学词语包括第二医学词语及第一医学词语中的至少一种。通过采用分词处理的方式，得到该回复语句包含的至少一个词语，将每个词语分别与知识数据库中包含的医学词语进行对比，以确定该至少一个词语中与知识数据库中包含的医学词语相同的词语，从而确定了该至少一个词语包含的医学词语，从而保证了确定的医学词语的准确性。

可选地，查询医学词语的过程包括：对于该至少一个词语中的任一词语，根据该词语查询知识数据库，响应于查询到与该词语相同的医学词语，确定该词语为医学词语，响应于未查询到与该词语相同的医学词语，确定该词语不是医学词语。

第二种方式包括：对回复语句进行关键词提取，得到回复语句中的第一医学词语及第二医学词语，根据第一医学词语，从知识数据库中查询第一医学词语对应的至少一个第二医学词语，将提取到的第二医学词语及查询到的第二医学词语，构成标注信息。

在本申请实施例中，知识数据库包括第一医学词语与第二医学词语之间的对应关系，用于表示某种疾病具有的症状，可选地，该知识数据库为医疗知识图谱。例如，在知识数据库中，第一医学词语为“真菌感染”，该第一医学词语对应的第二词语为“红肿”。回复语句中包含第一医学词语及第二医学词语，第一医学词语为用于描述疾病的词语，第二医学词语为用于描述症状的词语。

如图4所示，回复语句为“皮疹可能是由真菌感染引起的”，通过对该回复语句进行关键词提取，得到该回复语句中的第一医学词语“真菌感染”及第二医学词语“皮疹”，并根据该第一医学词语，查询该知识数据库，确定该第一医学词语“真菌感染”对应的第二医学词语，将得到的所有第二医学词语，构成该回复语句对应的第一症状描述语句的标注信息。并且，在知识数据库中，以三元组的形式存储第一医学词语与第二医学词语之间的对应关系，即第一医学词语、用于表示关系的词语及第二医学词语，如“真菌感染，症状，发红”，表示第一医学词语“真菌感染”的某种症状为第二医学词语“发红”。

采用关键词提取的方式，从回复语句中提取出该回复语句包含的第一医学词语及第二医学词语，并从知识数据库中查询第一医学词语对应的第二医学词语，以丰富与该第一症状描述语句所描述的症状关联的第二医学词语，之后将提取到第二医学词语及查询到的第二医学词语，构成第一症状描述语句对应的标注信息，从而保证了标注信息的准确性。

在一种可能实现方式中，获取回复语句中的医学词语的过程包括：对回复语句进行分词处理，得到至少一个词语，根据至少一个词语，从知识数据库中查询至少一个词语包含的第一医学词语及第二医学词语。

通过采用分词处理的方式，得到该回复语句包含的至少一个词语，将每个词语分别与知识数据库中包含的医学词语进行对比，以确定该至少一个词语中与知识数据库中包含的医学词语相同的词语，从而确定了该至少一个词语包含的第一医学词语及第二医学词语，从而保证了确定的医学词语的准确性。

可选地，该知识数据库中包括第一子数据库及第二子数据库，该第一子数据库中包括多个第一医学词语，第二子数据库中包括多个第二医学词语。则查询医学词语的过程包括：对于该至少一个词语中的任一词语，根据该词语查询第一子数据库，响应于查询到与该词语相同的第一医学词语，确定该词语为第一医学词语，响应于未查询到与该词语相同的第一医学词语，确定该词语不是第一医学词语；之后，对于该至少一个词语中不是第一医学的任一词语，根据该词语查询第二子数据库，响应于查询到与该词语相同的第二医学词语，确定该词语为第二医学词语，响应于未查询到与该词语相同的第二医学词语，确定该词语不是第二医学词语。

按照上述方式，根据至少一个词语分别查询第一子数据库及第二子数据库，即可确定至少一个词语中的第一医学词语及第二医学词语。

需要说明的是，本申请实施例仅是以根据至少一个词语，先查询第一子数据库，再查询第二子数据库进行说明的，而在另一实施例中，能够按照上述方式，根据至少一个词语，先查询第二子数据库，再查询第一子数据库，以确定至少一个词语中包含的第一医学词语及第二医学词语；或者，根据至少一个词语同时查询第一子数据库及第二子数据库，以确定至少一个词语中包含的第一医学词语及第二医学词语。

第三种方式包括：对回复语句进行关键词提取，得到回复语句中的第一医学词语，根据第一医学词语，从知识数据库中查询第一医学词语对应的至少一个第二医学词语，将查询到的第二医学词语，构成标注信息。该过程与上述第二种方式同理，在此不再赘述。

303、计算机设备调用词语标注模型，对第一症状描述语句进行标注，得到多个参考医学词语对应的预测概率。

其中，词语标注模型用于为任一症状描述语句标注对应的医学词语。该词语标注模型包括多个参考医学词语，每个参考医学词语用于描述一种症状。每个参考医学词语对应的预测概率用于表示对应的参考医学词语为第一症状描述语句对应的医学词语的可能性，预测概率越大，对应的参考医学词语为第一症状描述语句对应的医学词语的可能性越大，预测概率越小，对应的参考医学词语为第一症状描述语句对应的医学词语的可能性越小。

通过词语标注模型对第一症状描述语句进行标注，以确定多个参考医学词语对应的预测概率，即确定了第一症状描述语句与每个参考医学词语关联的可能性，以便后续基于得到预测概率来训练该词语标注模型。

在一种可能实现方式中，该步骤303包括以下步骤3031-3033。

3031、调用词语标注模型，对第一症状描述语句进行特征提取，得到第一症状描述语句的语句特征。

其中，第一症状描述语句的语句特征用于表示第一症状描述语句所包含的特征，可选地，该语句特征为语句特征矩阵或语句特征向量。

在一种可能实现方式中，该步骤3031包括：调用词语标注模型，对第一症状描述语句进行分词处理，得到至少一个词语，对至少一个词语进行编码处理，得到至少一个词语的词向量，对至少一个词语的词向量进行融合，得到第一症状描述语句的语句特征。

其中，每个词语的词向量用于表示对应的词语的含义。通过调用词语标注模型，将第一症状描述语句分割成至少一个词语，并将该至少一个词语的词向量融合，得到该第一症状描述语句的语句特征，使得该语句特征中包含了每个词语的词向量，从而保证了语句特征的准确性。

可选地，至少一个词语包括多个词语，则获取语句特征的过程包括：根据多个词语的词向量，获取每个词语的权重，根据多个词语的权重，对多个词语的词向量进行加权融合，得到第一症状描述语句的语句特征。

其中，每个词语的权重用于表示对应的词语与该第一症状描述语句所描述的症状的关联程度，权重越大，表示对应的词语与该第一症状描述语句所描述的症状的关联程度越大，权重越小，表示对应的词语与该第一症状描述语句所描述的症状的关联程度越小。

在得到第一症状描述语句包含的多个词语的词向量后，通过该多个词语的词向量来获取每个词语的权重，并按照多个词语的权重，将多个词语的词向量进行融合，以使第一症状描述语句的语句特征中融合了多个词语的词向量，且突出与该第一症状描述语句所描述的症状关联程度大的词语在语句特征中的影响，削弱与该第一症状描述语句所描述的症状关联程度小的词语在语句特征中的影响，从而提高了第一症状描述语句的语句特征的准确性。

可选地，获取多个词语的权重的过程包括以下三种方式。

第一种方式：将多个词语的词向量之和，确定为词向量和，将每个词语的词向量与词向量和之间的相似度，分别确定为每个词语的权重。

第二种方式：根据多个词语的初始权重，对多个词语的词向量进行加权融合，得到融合向量，将每个词语的词向量与该融合向量之间的相似度，分别确定为每个词语的权重。

其中，初始权重是任意设置的权重，例如，每个词语的初始权重均为0.5，或者，在多个词语中不同词语对应的权重均为大于0小于1的数值。

第三种方式：根据多个词语在该第一症状描述语句中的位置，确定目标词语，将每个词语的词向量与该目标词语的词向量之间的相似度，分别确定为每个词语的权重。其中，目标词语为多个词语中的任一个词语，例如，该目标词语为多个词语中的第一个词语，或者，该目标词语为多个词语中的最后一个词语。

3032、对语句特征进行特征变换，得到参考特征。

其中，参考特征包括多个维度的特征值，可选地，该参考特征为参考特征矩阵或者参考特征向量。参考特征中的每个维度与一个参考医学词语对应。可选地，多个参考医学词语在该词语标注模型中按序排列，该参考特征包括的多个维度，按照顺序，与多个参考医学词语一一对应。例如，参考特征中的第一个维度，与按序排列的多个参考医学词语中的第一个医学词语对应，参考特征中的第二个维度，与按序排列的多个参考医学词语中的第二个医学词语对应。

3033、将参考特征中所述每个维度的特征值，分别确定为每个维度对应的参考医学词语所对应的预测概率。

由于语句特征中包括第一症状描述语句所包含的特征，且第一症状描述语句用于描述症状，每个参考医学词语用于描述一种症状，则通过对该语句特征进行变换，以确定第一症状描述语句所描述的特征与每个参考医学词语描述的症状之间的相似度，得到参考特征包括的多个维度的特征值，每个维度的特征值即为对应的参考医学词语为第一症状描述语句对应的医学词语的可能性，即得到多个参考医学词语的预测概率。

在一种可能实现方式中，该词语标注模型包括编码子模型、权重获取子模型、特征变换子模型，则该步骤303包括：调用该词语标注模型，对第一症状描述语句进行分词处理，得到多个词语，调用该编码子模型，对多个词语进行编码处理，得到多个词语的词向量，调用该权重获取子模型，根据该多个词语的词向量，获取每个词语的权重，根据该多个词语的权重，对多个词语的词向量进行加权融合，得到第一症状描述语句的语句特征，调用特征变换子模型，对语句特征进行特征变换，得到参考特征，将参考特征中所述每个维度的特征值，分别确定为每个维度对应的参考医学词语所对应的预测概率。

如图5所示，在词语标注模型对该第一症状描述语句进行分词处理，得到多个词语后，通过调用词语标注模型中的编码子模型、权重获取子模型及特征变换子模型，得到每个参考医学词语的预测概率。

304、计算机设备根据多个参考医学词语对应的预测概率及标注信息中的医学词语，对词语标注模型进行训练。

由于多个参考医学词语对应的预测概率用于表示对应的参考医学词语为第一症状描述语句对应的医学词语的可能性，且标注信息中医学词语为第一症状描述语句对应的医学词语，则通过该多个参考医学词语的预测概率及标注信息中的医学词语，能够确定该词语标注模型的准确率，从而对该词语标注模型进行训练，以提高该词语标注模型的准确性。

在本申请实施例中，采用第一症状描述语句和对该第一症状描述语句的回复语句，对该词语标注模型进行训练，在此训练过程中，无需对症状描述语句进行标注，实现了对词语标注模型的无监督训练，能够减轻词语标注模型对标注数据的依赖，提高了词语标注模型的准确性。

在一种可能实现方式中，该步骤304包括：将第一目标数值确定为标注信息中的医学词语的真实概率，对于标注信息中的任一医学词语，将与医学词语相同的参考医学词语对应的预测概率，确定为医学词语对应的预测概率，根据标注信息中的每个医学词语对应的预测概率和真实概率，确定词语标注模型的损失值，根据损失值，对词语标注模型进行训练。

其中，第一目标数值为任意的数值，例如，该第一目标数值为1，标注信息中包括至少一个医学词语，每个医学词语可能与一个参考医学词语相同，则对于标注信息中的任一医学词语，将与该医学词语相同的参考医学词语对应的预测概率，确定为该医学词语对应的预测概率，以表示该医学词语为该第一症状描述语句对应的医学词语的可能性。

在得到标注信息中每个医学词语对应的真实概率和预测概率后，每个医学词语的真实概率表示对应的医学词语为第一症状描述语句所对应的医学词语，则通过该标注信息中的医学词语对应的真实概率和预测概率，能够确定每个医学词语对应的真实概率与预测概率之间的差异，从而能够确定该词语标注模型的损失值，通过该损失值对词语标注模型进行训练，以提高词语标注模型的准确性。

可选地，获取词语标注模型的损失值的过程包括：在得到标注信息中的每个医学词语对应的预测概率之后，将第二目标数值，确定为多个参考医学词语中、未包含于标注信息中的参考医学词语对应的真实概率，根据标注信息中的每个医学词语对应的预测概率和真实概率，及未包含于标注信息中的参考医学词语对应的预测概率和真实概率，确定词语标注模型的损失值。

其中，第二目标数值为任意的数值，例如，该第二目标数值为0。在多个参考医学词语中，未包含于标注信息中的参考医学词语所描述的症状与第一症状描述语句所描述的症状无关。在确定未包含于标注信息中的参考医学词语的真实概率后，即确定了标注信息中的每个医学词语对应的预测概率和真实概率，及未包含于标注信息中的参考医学词语对应的预测概率和真实概率，则根据每个医学词语对应的预测概率与真实概率之间的差异，及每个参考医学词语对应的预测概率与真实概率之前的差异，能够确定词语标注模型的损失值。

可选地，在确定标注信息中的每个医学词语对应的预测概率和真实概率，及未包含于标注信息中的参考医学词语对应的预测概率和真实概率后，也即是确定了多个参考医学词语对应的预测概率和真实概率，将多个参考医学词语对应的真实概率，构成真实特征，可选地，该真实特征为真实特征向量，或者，为真实特征矩阵。该真实特征包括多个维度的特征值，每个维度与一个参考医学词语对应，每个维度的特征值为对一个的参考医学词语的真实概率，则词语标注模型的损失值满足以下关系：

其中，

用于表示词语标注模型的损失值，

用于表示真实特征，

用于表示Sigmoid（逻辑回归）函数，用于将数值映射到

；

用于表示第一症状描述语句的语句特征；

用于表示词语标注模型中的特征变换矩阵；

用于表示对矩阵的转置；

用于表示参考特征。

需要说明的是，本申请实施例是通过确定多个参考医学词语对应的预测概率及标注信息中的医学词语，对词语标注模型进行训练的，而在另一实施例中，无需执行步骤303-304，能够采取其他方式，根据第一症状描述语句及标注信息，对词语标注模型进行训练。

需要说明的是，本申请实施例仅是以一个第一症状描述语句和对该第一症状描述语句的回复语句，来对词语标注模型进行训练的，而在另一实施例中，获取多个第一症状描述语句和对每个第一症状描述语句的回复语句，按照上述步骤301-305，对词语标注模型进行训练。

需要说明的是，本申请实施例仅是以一个轮次来说明对词语标注模型的训练过程，而在另一实施例中，获取多个第一症状描述语句和对每个第一症状描述语句的回复语句，重复上述步骤302-304，对词语标注模型进行迭代训练，响应于迭代伦次达到第一阈值，停止对该词语标注模型进行训练；或者，响应于当前迭代轮次得到的损失值不大于第二阈值，停止对词语标注模型进行训练。其中，第一阈值和第二阈值均为任意的数值，例如，第一阈值为10或15等，第二阈值为0.4或0.3等。

需要说明的是，上述根据多个参考医学词语对应的预测概率及标注信息中的医学词语，对词语标注模型进行训练的过程，是在多个参考医学词语包括标注信息中的医学词语的情况下进行说明的，而在另一实施例中，在得到第一症状描述语句的标注信息后，响应于标注信息中的任一医学词语不包含于该多个参考医学词语中，将该医学词语确定为参考医学词语，更新词语标注模型中包括的多个参考医学词语，并在更新词语标注模型包含的参考医学词语之后，按照上述步骤301-304，重新对词语标注模型进行训练。

305、计算机设备调用训练后的词语标注模型，对第二症状描述语句进行标注，得到第二症状描述语句对应的医学词语。

其中，第二症状描述语句用于描述症状，在本申请实施例中，第二症状描述语句与第一症状描述语句不同，且第二症状描述语句与第一症状描述语句类似。在训练完成词语标注模型后，调用训练后的词语标注模型能够对任一症状描述语句进行标注，从而得到该症状描述语句对应的医学词语。

通过训练后的词语标注模型，能够实现对症状描述语句的自动标注，无需人为对症状描述语句进行标注，节省了人为标注的时间，提高了标注效率。

在一种可能实现方式中，该步骤305包括：调用训练后的词语标注模型，对第二症状描述语句进行标注，得到多个参考医学词语对应的概率，将多个参考医学词语中最大概率对应的参考医学词语，确定为第二症状描述语句对应的医学词语。

在本申请实施例中，词语标注模型包括多个参考医学词语，每个参考医学词语用于描述一种症状，每个参考医学词语对应的概率用于表示参考医学词语为第二症状描述语句对应的医学词语的可能性，在确定每个参考医学词语对应的概率后，将最大概率对应的参考医学词语，确定为第二症状描述语句对应的医学词语，以保证确定的医学词语的准确性。

在上述获取每个参考医学词语对应的概率的过程，与上述步骤303同理，在此不再赘述。

306、计算机设备根据第二症状描述语句中的样本语句片段及第二症状描述语句对应的医学词语，对词语映射模型进行训练。

其中，样本语句片段为第二症状描述语句中用于描述症状的片段，词语映射模型用于将任一症状描述语句映射为对应的医学词语。可选地，该词语映射模型包括编码层、注意力层和输出层，该编码层与词语标注模型中的编码子模型类似，该注意力层与词语标注模型中的权重获取子模型类似，该输出层与词语标注模型中的特征变换子模型类似。可选地，词语映射模型为WordCNN（Word Convolutional Neural Networks，词语卷积网络模型），或者为WordGRU（Word Gate Recurrent Unit，词语循环神经网络模型）。

在本申请实施例中，在训练完成词语标注模型后，调用词语标注模型对第二症状描述语句进行标注，并将标注得到的标注结果作为词语映射模型的训练样本，采用第二症状标注语句中的样本语句片段及为该第二症状描述语句标注出的医学词语，对词语映射模型进行训练，使得在训练词语映射模型的过程中，无需人为标注，采用词语标注模型能够实现对第二症状标注语句的自动标注，以实现对词语映射模型的无监督训练，减轻词语映射模型对人为标注数据的依赖，从而提高了词语映射模型的准确性。

在一种可能实现方式中，该步骤306包括：调用词语映射模型对该样本语句片段进行标注，得到多个参考医学词语对应的预测概率，根据多个参考医学词语对应的预测概率及第二症状描述语句对应的医学词语，对词语映射模型进行训练。

在本申请实施例中，词语映射模型中包括多个参考医学词语，每个参考医学词语用于描述一种症状。可选地，该词语映射模型包括的多个参考医学词语，与词语标注模型包括的多个参考医学词语中的参考医学词语完全相同。即词语映射模型包括的参考医学词语的数目，与词语标注模型包括的参考医学词语的数目相同，且词语映射模型中的每个参考医学词语，与词语标注模型中的一个参考医学词语相同。可选地，该词语映射模型包括的多个参考医学词语，与词语标注模型包括的多个参考医学词语中的部分参考医学词语相同。即词语映射模型中包括的至少一个参考医学词语未包含于词语标注模型中；或者，词语标注模型中包括的至少一个参考医学词语未包含于词语映射模型中。可选地，该词语映射模型包括的多个参考医学词语，与词语标注模型包括的多个参考医学词语中的参考医学词语完全不同。即词语映射模型中的每个参考医学词语均未包含于词语标注模型中，且词语标注模型中的每个参考医学词语均未包含于词语映射模型中。

其中，调用词语映射模型，获取每个参考医学词语对应的预测概率，并根据获取到的概率及第二症状描述语句对应的医学词语，对词语映射模型进行训练的过程，与上述步骤303-304同理，在此不再赘述。

需要说明的是，上述根据多个参考医学词语对应的预测概率及第二症状描述语句对应的医学词语，对词语映射模型进行训练的过程，是在多个参考医学词语包括第二症状描述语句对应的医学词语的情况下进行说明的，而在另一实施例中，在得到第二症状描述语句对应的医学词语后，响应于第二症状描述语句对应的医学词语不包含于词语映射模型中的多个参考医学词语中，将该医学词语确定为参考医学词语，更新词语映射模型中包括的多个参考医学词语，并在更新词语映射模型包含的参考医学词语之后，按照上述步骤305-306，重新对词语映射模型进行训练。

在一种可能实现方式中，获取第二症状描述语句中的样本语句片段的过程，包括：对第二症状描述语句进行分割处理，得到多个语句片段，将每个语句片段中所包含的词语的权重之和，分别确定为每个语句片段的权重，将从多个语句片段中最大权重对应的语句片段，确定为第二症状描述语句中的样本语句片段。

其中，每个语句片段包括至少一个词语，每个词语的权重用于表示对应的词语与该第二症状描述语句所描述的症状的关联程度，权重越大，表示对应的词语与该第二症状描述语句所描述的症状的关联程度越大，权重越小，表示对应的词语与该第二症状描述语句所描述的症状的关联程度越小。每个语句片段的权重表示对应的语句片段与该第二症状描述语句所描述的症状的关联程度。

在将第二症状描述语句分割成多个语句片段后，最大权重对应的语句片段，即为该多个语句片段中，与该第二症状描述语句所描述的症状的关联程度最大的语句片段，也即是最大权重对应的语句片段为第二症状描述语句中用于描述症状的片段，则将最大权重对应的语句片段确定为第二症状描述语句中的样本语句片段。

可选地，获取多个语句片段的过程包括：根据第二症状描述语句包含的多个词语在该第二症状描述语句中的位置，依次将目标阈值个词语确定为一个语句片段，得到多个语句片段。

其中，目标阈值为任意的数值，例如，目标阈值为3或4等。在得到的多个语句片段中，每个语句片段包括目标阈值个词语。

例如，第二症状描述语句包括的多个词语为：词语1、词语2、词语3、词语4及词语5，目标阈值为2，则分割得到的4个语句片段分别为：词语1和词语2、词语2和词语3、词语3和词语4、词语4和词语5。

可选地，多个语句片段的权重满足以下关系：

其中，

用于表示多个语句片段中第

个语句片段对应的权重，

用于表示多个语句片段的序号，序号

为大于等于1的正整数；

用于表示第

个语句片段中每个词语在第二症状描述语句中的序号，

用于表示第

个语句片段中包含的词语数目，也即是该目标阈值，

用于表示第

个词语对应的权重。

另外，上述获取每个语句片段中所包含的词语的权重的过程，与上述步骤303中获取多个词语的权重的过程同理，在此不再赘述。

如图6所示，在词语标注模型对该第二症状描述语句进行分词处理，得到多个词语后，通过调用词语标注模型中的编码子模型、权重获取子模型及特征变换子模型，得到每个参考医学词语的预测概率，从多个参考医学词语中选取最大预测概率对应的医学词语。并根据第二症状描述语句包含的多个词语在该第二症状描述语句中的位置，依次将目标阈值个词语确定为一个语句片段，得到多个语句片段，并根据第二症状描述语句中每个词语的权重，确定每个语句片段的权重，从多个语句片段中选取最大权重对应的样本语句片段。

需要说明的是，本申请实施例仅是以一个第二症状描述语句，来对词语映射模型进行训练的，而在另一实施例中，获取多个第二症状描述语句，按照上述步骤305-306，对词语映射模型进行训练。

需要说明的是，本申请实施例仅是以一个轮次来说明对词语映射模型的训练过程，而在另一实施例中，获取多个第二症状描述语句，重复上述步骤305-306，对词语映射模型进行迭代训练，响应于迭代伦次达到第三阈值，停止对该词语映射模型进行训练；或者，响应于当前迭代轮次得到的损失值不大于第四阈值，停止对词语映射模型进行训练。其中，第三阈值和第四阈值均为任意的数值，例如，第三阈值为10或15等，第四阈值为0.4或0.3等。

在一种可能实现方式中，在步骤306之后，该方法还包括：获取第三症状描述语句及对应的医学词语，根据第三症状描述语句及对应的医学词语，对词语映射模型再次进行训练。

其中，第三症状描述语句用于描述症状，在本申请实施例中，第三症状描述语句与第一症状描述语句、第二症状描述语句不同，且第三症状描述语句与第一症状描述语句、第二症状描述语句类似。第三症状描述语句对应的医学词语是由人为标注得到的。

在按照上述步骤305-306对词语映射模型进行训练之后，获取第三症状描述语句，及人为标注得到的第三症状描述语句对应的医学词语，之后按照人为标注的结果，对词语映射模型再次进行训练，以实现对词语映射模型的微调，从而提高了词语映射模型的准确性。

可选地，对词语映射模型训练的过程包括：根据第三症状描述语句中的样本语句片段及第三症状描述语句对应的医学词语，对词语映射模型再次进行训练。

其中，样本语句片段为第三症状描述语句中用于描述症状的片段。该过程与上述步骤306同理，在此不再赘述。

307、计算机设备调用训练后的词语映射模型，对目标症状描述语句中的目标语句片段进行映射，得到目标症状描述语句对应的医学词语。

其中，目标语句片段为目标症状描述语句中用于描述症状的片段。在训练完成词语映射模型后，调用训练后的词语映射模型能够对任一症状描述语句中的目标语句片段进行映射，从而得到该症状描述语句对应的医学词语。通过采用无监督方式训练后的词语映射模型，来对任一症状描述语句进行映射，以保证映射得到的医学词语的准确性。

在一种可能实现方式中，该步骤307包括：调用训练后的词语映射模型，确定目标症状描述语句中的目标语句片段，对该目标语句片段进行映射，得到目标症状描述语句对应的医学词语。

可选地，确定目标语句片段的过程包括：对目标症状描述语句进行分割处理，得到多个语句片段，将每个语句片段中所包含的词语的权重之和，分别确定为每个语句片段的权重，将从多个语句片段中最大权重对应的语句片段，确定为目标症状描述语句中的目标语句片段。

其中，上述获取每个语句片段中所包含的词语的权重的过程，与上述步骤303中获取多个词语的权重的过程同理，在此不再赘述。并且，确定目标语句片段的过程，与上述步骤306中获取第二症状描述语句中的样本语句片段的过程同理，在此不再赘述。

需要说明的是，本申请实施例是根据第二症状描述语句中的样本语句片段来训练词语映射模型的，并在训练完成词语映射模型后，对目标症状描述语句中的目标语句片段进行映射的，而在另一实施例中，无需执行步骤306-307，能够采用其他方式，根据第二症状描述语句及第二症状描述语句对应的医学词语，对词语映射模型进行训练，调用训练后的词语映射模型，对任一目标症状描述语句进行映射，得到目标症状描述语句对应的医学词语。

在一种可能实现方式中，目标症状描述语句对应的医学词语为第二医学词语，则在步骤307之后，该方法还包括：根据该目标症状描述语句对应的第二医学词语，查询知识数据库，确定与该第二医学词语对应的第一医学词语，并确定与该第一医学词语匹配的科室信息，向终端进行发送包含该科室信息，由该终端显示该科室信息。

其中，第一医学词语为用于描述疾病的词语，第二医学词语为用于描述症状的词语。知识数据库包括第一医学词语与第二医学词语之间的对应关系，且还包括第一医学词语与科室信息之间的对应关系。该科室信息用于指示诊断该第一医学词语的科室，可选地，该科室信息包括属于该科室的医生信息。

在本申请实施例中，该计算机设备为服务器，该终端为用户终端，步骤307中的目标症状描述语句是由该终端发送的，则在计算机设备得到目标症状描述语句对应的第二医学词语后，查询知识数据库，确定与该第二医学词语对应的第一医学词语，即确定了具有第二医学词语所描述的症状的疾病，并确定与该第一医学词语对应的科室信息，即确定可能够诊断该第一医学词语所描述的疾病的科室，之后，将查询到的科室信息发送至终端，由终端显示该科室信息，以便用户到该科室信息所指示的科室进行就诊，从而实现就诊指引的功能。

在一种可能实现方式中，目标症状描述语句对应的医学词语为第二医学词语，则在步骤307之后，该方法还包括：根据该目标症状描述语句对应的第二医学词语，查询知识数据库，确定与该第二医学词语对应的第一医学词语。

通过本申请实施例提供的方法，能够确定任一症状描述语句对应的第一医学词语，之后由医生根据确定的第一医学词语并结合用户的其他信息，来确定用户的身体状况。

在本申请实施例中，症状描述语句为口语化的描述语句，即用口语化的语句来描述症状，医学词语为标准的医学实体，通过本申请实施例提供的词语映射模型，能够将症状描述语句映射到标准的医学词语，以实现口语化到标准化的精确转换，实现了医疗实体标准化（Medical Concept Normalization），以便后续基于映射得到的标准化的医学词语进行后续处理。例如，将本申请实施例提供的方法应用到医疗预问诊***中，能够将用户输入的口语化的或是表意不清的症状描述语句，准确地映射到对应的医学词语，之后连接医疗知识数据库，能够实现疾病推测或者对应科室推荐，从而达到医疗预问诊的目的。

并且，利用训练后的词语标注模型，为词语映射模型提供自动标注结果，之后根据自动标注结果，对词语映射模型进行训练，在此训练过程中，无需人为标注，实现了对词语映射模型的无监督训练，减轻词语映射模型对人为标注数据的依赖，从而提高了词语映射模型的准确性。

并且，利用训练后的词语标注模型，对词语映射模型训练完成后，利用词语映射模型来对症状描述语句进行映射，以保证映射得到的医学词语的准确性。

通过本申请实施例提供的训练词语映射模型的方法，采用无监督的方式，利用训练后的词语标注模型，对词语映射模型进行预训练，并在预训练结束后，基于人为标注结果，对预训练后的词语映射模型再次进行训练，以实现对词语映射模型的精调，提高词语映射模型的准确性。

对于词语映射模型为多种网络模型时，如词语映射模型为WordCNN或WordGRU等，通过采用本申请的预训练的方式和不采用预训练的方式，得到的词语映射模型的准确率，如表1所示。通过表1可知，无论词语映射模型为哪种网络模型，通过采用本申请提供的预训练方式，来训练词语映射模型的准确率更高，且随着用于训练词语映射模型的症状描述语句的增多，词语映射模型的准确性增高。

表1

词语映射模型	预训练	700条症状描述语句	800条症状描述语句	900条症状描述语句
					WordCNN	否	79.40	84.40	86.40
WordCNN	是	88.60	89.40	92.20
					WordGRU	否	84.00	85.80	88.80
WordGRU	是	88.40	89.20	91.20

图7是本申请实施例提供的一种医学词语映射方法的流程图，应用于计算机设备中，如图7所示，该方法包括以下步骤。

701、计算机设备获取第一症状描述语句和对第一症状描述语句的回复语句。

702、计算机设备基于回复语句中包含的医学词语，生成第一症状描述语句的标注信息。

703、计算机设备根据第一症状描述语句及标注信息，对词语映射模型进行训练。

其中，词语映射模型用于为任一症状描述语句标注对应的医学词语。

704、计算机设备调用训练后的词语映射模型，对目标症状描述语句进行映射，得到目标症状描述语句对应的医学词语。

需要说明的是，本申请实施例中的步骤701-704，与上述步骤201-204同理，在此不再赘述。

本申请实施例提供的方法，采用第一症状描述语句和对该第一症状描述语句的回复语句，对该词语映射模型进行训练，在此训练过程中，无需人为对症状描述语句进行标注，实现了对词语映射模型的无监督训练，能够减轻词语映射模型对标注数据的依赖，提高了词语映射模型的准确性。并且，通过训练后的词语映射模型，能够实现对症状描述语句的映射，得到症状描述语句对应的医学词语，实现了对症状描述语句的标准化映射。

图8是本申请实施例提供的一种医学词语映射方法的流程图，应用于计算机设备中，如图8所示，该方法包括以下步骤。

801、计算机设备获取第一症状描述语句和对第一症状描述语句的回复语句。

802、计算机设备基于回复语句中包含的医学词语，生成第一症状描述语句的标注信息。

803、计算机设备调用词语映射模型，对第一症状描述语句进行标注，得到多个参考医学词语对应的预测概率。

其中，词语映射模型用于为任一症状描述语句标注对应的医学词语，该词语映射模型中包括多个参考医学词语。

804、计算机设备根据多个参考医学词语对应的预测概率及标注信息中的医学词语，对词语标注模型进行训练。

需要说明的是，本申请实施例是通过确定多个参考医学词语对应的预测概率及标注信息中的医学词语，对词语映射模型进行训练的，而在另一实施例中，无需执行步骤803-804，能够采取其他方式，根据第一症状描述语句及标注信息，对词语映射模型进行训练。

805、计算机设备调用训练后的词语映射模型，对目标症状描述语句进行映射，得到目标症状描述语句对应的医学词语。

需要说明的是，本申请实施例中的步骤801-805，与上述实施例中的步骤301-305同理，在此不再赘述。

图9是本申请实施例提供的一种医学词语标注装置的结构示意图，如图9所示，该装置包括：

获取模块901，用于获取第一症状描述语句和对第一症状描述语句的回复语句；

生成模块902，用于基于回复语句中包含的医学词语，生成第一症状描述语句的标注信息，标注信息包括与第一症状描述语句所描述的症状关联的医学词语；

训练模块903，用于根据第一症状描述语句及标注信息，对词语标注模型进行训练，词语标注模型用于为任一症状描述语句标注对应的医学词语；

标注模块904，用于调用训练后的词语标注模型，对第二症状描述语句进行标注，得到第二症状描述语句对应的医学词语。

如图10所示，在一种可能实现方式中，装置还包括：

训练模块903，还用于根据第二症状描述语句及第二症状描述语句对应的医学词语，对词语映射模型进行训练，词语映射模型用于将任一症状描述语句映射为对应的医学词语；

映射模块905，用于调用训练后的词语映射模型，对任一目标症状描述语句进行映射，得到目标症状描述语句对应的医学词语。

在另一种可能实现方式中，训练模块903，用于根据第二症状描述语句中的样本语句片段及第二症状描述语句对应的医学词语，对词语映射模型进行训练，样本语句片段为第二症状描述语句中用于描述症状的片段；

映射模块905，用于调用训练后的词语映射模型，对目标症状描述语句中的目标语句片段进行映射，得到目标症状描述语句对应的医学词语，目标语句片段为目标症状描述语句中用于描述症状的片段。

在另一种可能实现方式中，装置还包括：

分割模块906，用于对第二症状描述语句进行分割处理，得到多个语句片段，每个语句片段包括至少一个词语；

确定模块907，用于将每个语句片段中所包含的词语的权重之和，分别确定为每个语句片段的权重；

确定模块907，还用于将从多个语句片段中最大权重对应的语句片段，确定为第二症状描述语句中的样本语句片段。

在另一种可能实现方式中，获取模块901，还用于获取第三症状描述语句及对应的医学词语，第三症状描述语句对应的医学词语是由人为标注得到的；

训练模块903，还用于根据第三症状描述语句及对应的医学词语，对词语映射模型再次进行训练。

在另一种可能实现方式中，训练模块903，用于根据第三症状描述语句中的样本语句片段及第三症状描述语句对应的医学词语，对词语映射模型再次进行训练，样本语句片段为第三症状描述语句中用于描述症状的片段。

在另一种可能实现方式中，词语标注模型包括多个参考医学词语，每个参考医学词语用于描述一种症状；训练模块903，包括：

标注单元9031，用于调用词语标注模型，对第一症状描述语句进行标注，得到多个参考医学词语对应的预测概率，每个参考医学词语对应的预测概率用于表示参考医学词语为第一症状描述语句对应的医学词语的可能性；

训练单元9032，用于根据多个参考医学词语对应的预测概率及标注信息中的医学词语，对词语标注模型进行训练。

在另一种可能实现方式中，标注单元9031，用于调用词语标注模型，对第一症状描述语句进行特征提取，得到第一症状描述语句的语句特征；对语句特征进行特征变换，得到参考特征，参考特征包括多个维度的特征值，每个维度与一个参考医学词语对应；将参考特征中每个维度的特征值，分别确定为每个维度对应的参考医学词语所对应的预测概率。

在另一种可能实现方式中，标注单元9031，用于调用词语标注模型，对第一症状描述语句进行分词处理，得到至少一个词语；对至少一个词语进行编码处理，得到至少一个词语的词向量；对至少一个词语的词向量进行融合，得到第一症状描述语句的语句特征。

在另一种可能实现方式中，至少一个词语包括多个词语；标注单元9031，用于根据多个词语的词向量，获取每个词语的权重；根据多个词语的权重，对多个词语的词向量进行加权融合，得到第一症状描述语句的语句特征。

在另一种可能实现方式中，训练单元9032，用于将第一目标数值确定为标注信息中的医学词语的真实概率；对于标注信息中的任一医学词语，将与医学词语相同的参考医学词语对应的预测概率，确定为医学词语对应的预测概率；根据标注信息中的每个医学词语对应的预测概率和真实概率，确定词语标注模型的损失值；根据损失值，对词语标注模型进行训练。

在另一种可能实现方式中，装置还包括：

确定模块907，用于将第二目标数值，确定为多个参考医学词语中、未包含于标注信息中的参考医学词语对应的真实概率；

训练单元9032，用于根据标注信息中的每个医学词语对应的预测概率和真实概率，及未包含于标注信息中的参考医学词语对应的预测概率和真实概率，确定词语标注模型的损失值。

在另一种可能实现方式中，生成模块902，包括：

提取单元9021，用于对回复语句进行关键词提取，得到回复语句中的医学词语；

构成单元9022，用于将得到的医学词语构成标注信息。

在另一种可能实现方式中，提取单元9021，用于对回复语句进行分词处理，得到至少一个词语；将至少一个词语，从知识数据库中查询至少一个词语包含的医学词语，知识数据库包括至少一个医学词语。

在另一种可能实现方式中，生成模块902，包括：

提取单元9021，用于对回复语句进行关键词提取，得到回复语句中的第一医学词语及第二医学词语，第一医学词语为用于描述疾病的词语，第二医学词语为用于描述症状的词语；

查询单元9023，用于根据第一医学词语，从知识数据库中查询第一医学词语对应的至少一个第二医学词语，知识数据库包括第一医学词语与第二医学词语之间的对应关系；

构成单元9022，用于将提取到的第二医学词语及查询到的第二医学词语，构成标注信息。

在另一种可能实现方式中，提取单元9021，用于对回复语句进行分词处理，得到至少一个词语；根据至少一个词语，从知识数据库中查询至少一个词语包含的第一医学词语及第二医学词语。

在另一种可能实现方式中，词语标注模型包括多个参考医学词语，每个参考医学词语用于描述一种症状；标注模块904，用于调用训练后的词语标注模型，对第二症状描述语句进行标注，得到多个参考医学词语对应的概率，每个参考医学词语对应的概率用于表示参考医学词语为第二症状描述语句对应的医学词语的可能性；将多个参考医学词语中最大概率对应的参考医学词语，确定为第二症状描述语句对应的医学词语。

需要说明的是：上述实施例提供的医学词语标注装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的医学词语标注装置与医学词语标注方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本申请实施例提供的一种医学词语映射装置的结构示意图，如图11所示，该装置包括：

获取模块1101，用于获取第一症状描述语句和对所述第一症状描述语句的回复语句；

生成模块1102，用于基于所述回复语句中包含的医学词语，生成所述第一症状描述语句的标注信息，所述标注信息包括与所述第一症状描述语句所描述的症状关联的医学词语；

训练模块1103，用于根据所述第一症状描述语句及所述标注信息，对词语映射模型进行训练，所述词语映射模型用于为任一症状描述语句标注对应的医学词语；

映射模块1104，用于调用训练后的词语映射模型，对目标症状描述语句进行映射，得到所述目标症状描述语句对应的医学词语。

需要说明的是：上述实施例提供的医学词语映射装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的医学词语映射装置与医学词语映射方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现上述实施例的医学词语标注方法中所执行的操作，或者以实现上述实施例的医学词语映射方法中所执行的操作。

可选地，计算机设备提供为终端。图12示出了本申请一个示例性实施例提供的终端1200的结构框图。该终端1200可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器（Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3）、MP4（Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4）播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（Field-Programmable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器1201所执行以实现上述实施例的医学词语标注方法中所执行的操作，或者以实现上述实施例的医学词语映射方法中所执行的操作。

在一些实施例中，终端1200还可选包括有：***设备接口1203和至少一个***设备。处理器1201、存储器1202和***设备接口1203之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1203相连。具体地，***设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

***设备接口1203可被用于将I/O（Input /Output，输入/输出）相关的至少一个***设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和***设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和***设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi(Wireless Fidelity，无线保真）网络。在一些实施例中，射频电路1204还可以包括NFC（Near Field Communication，近距离无线通信）有关的电路，本申请对此不加以限定。

显示屏1205用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205可以为一个，设置在终端1200的前面板；在另一些实施例中，显示屏1205可以为至少两个，分别设置在终端1200的不同表面或呈折叠设计；在另一些实施例中，显示屏1205可以是柔性显示屏，设置在终端1200的弯曲表面上或折叠面上。甚至，显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。显示屏1205可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。

摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。

定位组件1208用于定位终端1200的当前地理位置，以实现导航或LBS（LocationBased Service，根据位置的服务）。定位组件1208可以是根据美国的GPS（GlobalPositioning System，全球定位***）、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

加速度传感器1211可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1211可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211采集的重力加速度信号，控制显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1212可以检测终端1200的机体方向及转动角度，陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1213可以设置在终端1200的侧边框和/或显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时，可以检测用户对终端1200的握持信号，由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在显示屏1205的下层时，由处理器1201根据用户对显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1214用于采集用户的指纹，由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份，或者，由指纹传感器1214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1201授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置在终端1200的正面、背面或侧面。当终端1200上设置有物理按键或厂商Logo时，指纹传感器1214可以与物理按键或厂商Logo集成在一起。

光学传感器1215用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1215采集的环境光强度，控制显示屏1205的显示亮度。具体地，当环境光强度较高时，调高显示屏1205的显示亮度；当环境光强度较低时，调低显示屏1205的显示亮度。在另一个实施例中，处理器1201还可以根据光学传感器1215采集的环境光强度，动态调整摄像头组件1206的拍摄参数。

接近传感器1216，也称距离传感器，设置在终端1200的前面板。接近传感器1216用于采集用户与终端1200的正面之间的距离。在一个实施例中，当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变小时，由处理器1201控制显示屏1205从亮屏状态切换为息屏状态；当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变大时，由处理器1201控制显示屏1205从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，计算机设备提供为服务器。图13是本申请实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（Central Processing Units，CPU）1301和一个或一个以上的存储器1302，其中，存储器1302中存储有至少一条计算机程序，至少一条计算机程序由处理器1301加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现上述实施例的医学词语标注方法中所执行的操作，或者以实现上述实施例的医学词语映射方法中所执行的操作。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备实现上述实施例的医学词语标注方法中所执行的操作，或者实现上述实施例的医学词语映射方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种医学词语标注方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述调用训练后的词语标注模型，对第二症状描述语句进行标注，得到所述第二症状描述语句对应的医学词语之后，所述方法还包括：

根据所述第二症状描述语句及所述第二症状描述语句对应的医学词语，对词语映射模型进行训练，所述词语映射模型用于将任一症状描述语句映射为对应的医学词语；

调用训练后的词语映射模型，对任一目标症状描述语句进行映射，得到所述目标症状描述语句对应的医学词语。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第二症状描述语句及所述第二症状描述语句对应的医学词语，对词语映射模型进行训练，包括：

根据所述第二症状描述语句中的样本语句片段及所述第二症状描述语句对应的医学词语，对所述词语映射模型进行训练，所述样本语句片段为所述第二症状描述语句中用于描述症状的片段；

所述调用训练后的词语映射模型，对任一目标症状描述语句进行映射，得到所述目标症状描述语句对应的医学词语，包括：

调用所述训练后的词语映射模型，对所述目标症状描述语句中的目标语句片段进行映射，得到所述目标症状描述语句对应的医学词语，所述目标语句片段为所述目标症状描述语句中用于描述症状的片段。

4.根据权利要求2所述的方法，其特征在于，所述根据所述第二症状描述语句及所述第二症状描述语句对应的医学词语，对词语映射模型进行训练之后，所述方法还包括：

获取第三症状描述语句及对应的医学词语，所述第三症状描述语句对应的医学词语是由人为标注得到的；

根据所述第三症状描述语句及对应的医学词语，对所述词语映射模型再次进行训练。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述词语标注模型包括多个参考医学词语，每个参考医学词语用于描述一种症状；所述根据所述第一症状描述语句及所述标注信息，对词语标注模型进行训练，包括：

调用所述词语标注模型，对所述第一症状描述语句进行标注，得到所述多个参考医学词语对应的预测概率，每个参考医学词语对应的预测概率用于表示所述参考医学词语为所述第一症状描述语句对应的医学词语的可能性；

根据所述多个参考医学词语对应的预测概率及所述标注信息中的医学词语，对所述词语标注模型进行训练。

6.根据权利要求5所述的方法，其特征在于，所述调用所述词语标注模型，对所述第一症状描述语句进行标注，得到所述多个参考医学词语对应的预测概率，包括：

调用所述词语标注模型，对所述第一症状描述语句进行特征提取，得到所述第一症状描述语句的语句特征；

对所述语句特征进行特征变换，得到参考特征，所述参考特征包括多个维度的特征值，每个维度与一个参考医学词语对应；

将所述参考特征中所述每个维度的特征值，分别确定为所述每个维度对应的参考医学词语所对应的预测概率。

7.根据权利要求5所述的方法，其特征在于，所述根据所述多个参考医学词语对应的预测概率及所述标注信息中的医学词语，对所述词语标注模型进行训练，包括：

将第一目标数值确定为所述标注信息中的医学词语的真实概率；

对于所述标注信息中的任一医学词语，将与所述医学词语相同的参考医学词语对应的预测概率，确定为所述医学词语对应的预测概率；

根据所述标注信息中的每个医学词语对应的预测概率和真实概率，确定所述词语标注模型的损失值；

根据所述损失值，对所述词语标注模型进行训练。

8.根据权利要求7所述的方法，其特征在于，所述根据所述标注信息中的每个医学词语对应的预测概率和真实概率，确定所述词语标注模型的损失值之前，所述方法还包括：

将第二目标数值，确定为所述多个参考医学词语中、未包含于所述标注信息中的参考医学词语对应的真实概率；

所述根据所述标注信息中的每个医学词语对应的预测概率和真实概率，确定所述词语标注模型的损失值，包括：

根据所述标注信息中的每个医学词语对应的预测概率和真实概率，及未包含于所述标注信息中的参考医学词语对应的预测概率和真实概率，确定所述词语标注模型的损失值。

9.根据权利要求1-4任一项所述的方法，其特征在于，所述基于所述回复语句中包含的医学词语，生成所述第一症状描述语句的标注信息，包括：

对所述回复语句进行关键词提取，得到所述回复语句中的医学词语；

将得到的医学词语构成所述标注信息。

10.根据权利要求1-4任一项所述的方法，其特征在于，所述基于所述回复语句中包含的医学词语，生成所述第一症状描述语句的标注信息，包括：

对所述回复语句进行关键词提取，得到所述回复语句中的第一医学词语及第二医学词语，所述第一医学词语为用于描述疾病的词语，所述第二医学词语为用于描述症状的词语；

根据所述第一医学词语，从知识数据库中查询所述第一医学词语对应的至少一个第二医学词语，所述知识数据库包括第一医学词语与第二医学词语之间的对应关系；

将提取到的第二医学词语及查询到的第二医学词语，构成所述标注信息。

11.一种医学词语映射方法，其特征在于，所述方法包括：

12.一种医学词语标注装置，其特征在于，所述装置包括：

13.一种医学词语映射装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现如权利要求1至10任一权利要求所述的医学词语标注方法中所执行的操作；或者，以实现如权利要求11所述的医学词语映射方法中所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至10任一权利要求所述的医学词语标注方法中所执行的操作；或者，以实现如权利要求11所述的医学词语映射方法中所执行的操作。