CN111026320A - 多模态智能文本处理方法、装置、电子设备及存储介质 - Google Patents
多模态智能文本处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111026320A CN111026320A CN201911363559.XA CN201911363559A CN111026320A CN 111026320 A CN111026320 A CN 111026320A CN 201911363559 A CN201911363559 A CN 201911363559A CN 111026320 A CN111026320 A CN 111026320A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- information
- text content
- touch screen
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种多模态智能文本处理方法,包括:根据相应环境的噪音信息将语音指令转换为相应的可识别文本信息;获取触摸屏中选中操作;提取与所述触摸屏中所显示的文本内容相匹配的特征向量;生成与词语级的隐变量相对应的候选词语以及候选词语的被选取概率;根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与所述文本内容相对应的目标文本;在触摸屏中以与选中操作对应的显示方式,显示目标文本。本发明还提供了多模态智能文本处理装置、电子设备及存储介质。本发明能够实现在用户使用多模态环境触摸屏选择文本的过程中,能够对用户所要选择的目标文本进行预判,并输出相应的目标文本以供用户进行选择。
Description
技术领域
本发明涉及信息处理技术,尤其涉及多模态智能文本处理方法、装置、电子设备及存储介质。
背景技术
传统技术中,在多模态环境下使用触摸屏电子设备(多模态终端或者这辆中控设备等)选择文本信息的时候,由于多模态的触摸屏可操作面积的限制和用户单手操作的习惯,用户没有时间和精力进行精确的选择,使得用户手动控制光标选择文本并不准确,经常遇到无法选择到多模态的触摸屏中理想的文本的情况,影响了用户对于文本的选择速度与选择精确度,为此,人工智能技术(AI,Artificial Intelligence)提供了适当的文本处理进程的运行机制来支持上述应用的方案。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用***人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能,在语音处理领域中,也就是通过利用数字计算机或者数字计算机控制的机器实现对文本信息的识别。
发明内容
有鉴于此,本发明实施例提供一种多模态智能文本处理方法、装置、电子设备及存储介质,本发明实施例的技术方案是这样实现的:
本发明实施例通过了一种多模态智能文本处理方法,包括:
获取触摸屏中选中操作对应的文本内容;
提取与所述文本内容相匹配的特征向量;
根据所述特征向量确定与所述文本内容所对应的至少一个词语级的隐变量;
根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的候选词语以及所述候选词语的被选取概率;
根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与所述文本内容相对应的目标文本;
在所述触摸屏中以与所述选中操作对应的显示方式,显示所述目标文本。
上述方案中,所述方法还包括:
侦测不同用户对所述文本内容的处理结果,以及相应的操作参数;
根据对所述文本内容的处理结果,以及相应的操作参数形成与所述不同用户分别对应的历史数据索引;其中,所述历史数据索引用于对所述文本处理模型所生成的目标文本进行评价。
上述方案中,所述提取与所述触摸屏中所显示的文本内容相匹配的特征向量,包括:
对所述触摸屏中所显示的文本内容进行分词处理,形成分词处理结果;
响应于所述分词处理结果,对所述文本内容进行去停用词处理,以形成与所述文本内容相匹配的文本关键词;
根据所述文本内容相匹配的文本关键词,确定与所述文本内容相匹配的词性标注结果,并形成与所述文本内容相对应的词性特征向量集合。
上述方案中,所述根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与所述文本内容相对应的目标文本,包括:
对所述可识别文本信息与所述触摸屏中所显示的文本内容相匹配;
根据所述可识别文本信息与所述触摸屏中所显示的文本内容的匹配结果,对所述候选词语的被选取概率进行融合处理;
根据所述候选词语的被选取概率的融合处理结果,选取至少一个候选词语组成与所述文本内容相对应的目标文本
本发明实施例还提供了一种多模态智能文本处理装置,所述装置包括:
信息传输模块,用于获取触摸屏中选中操作对应的文本内容;
信息处理模块,用于提取与所述文本内容相匹配的特征向量;
所述信息处理模块,用于根据所述特征向量确定与文本内容所对应的至少一个词语级的隐变量;
所述信息处理模块,用于根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的候选词语以及所述候选词语的被选取概率;
所述信息处理模块,用于根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与所述文本内容相对应的目标文本;
所述信息处理模块,用于在所述触摸屏中以与所述选中操作对应的显示方式,显示所述目标文本。
上述方案中,
所述信息处理模块,用于根据所述触摸屏中所显示的文本内容所携带的文本参数信息,触发相应的分词库;
所述信息处理模块,用于通过所触发的所述分词库单词词典对所述触摸屏中所显示的文本内容进行分词处理,形成不同的词语级特征向量;
所述信息处理模块,用于对所述不同的词语级特征向量进行除噪处理,形成与所述文本内容相对应的词语级特征向量集合。
上述方案中,
所述信息处理模块,用于确定与所述文本处理模型的使用环境相匹配的动态噪声阈值;
所述信息处理模块,用于根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;
所述信息处理模块,用于根据与所述动态噪声阈值相匹配的动态分词策略,对所述触摸屏中所显示的文本内容进行分词处理,形成与所述文本内容相对应的动态词语级特征向量集合。
上述方案中,
所述信息处理模块,用于确定与所述文本处理模型的使用环境相对应的固定噪声阈值;
所述信息处理模块,用于根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述固定噪声阈值相匹配的固定分词策略;
所述信息处理模块,用于根据与所述固定噪声阈值相匹配的固定分词策略,对所述目标文本进行分词处理,与所述文本内容相对应的固定词语级特征向量集合。
上述方案中,
所述信息处理模块,用于对所述触摸屏中所显示的文本内容进行分词处理,形成分词处理结果;
所述信息处理模块,用于响应于所述分词处理结果,对所述文本内容进行去停用词处理,以形成与所述文本内容相匹配的文本关键词;
所述信息处理模块,用于根据所述文本内容相匹配的文本关键词,确定与所述文本内容相匹配的词性标注结果,并形成与所述文本内容相对应的词性特征向量集合。
上述方案中,所述装置还包括:
训练模块,用于获取与所述文本处理模型的使用环境相匹配的训练样本;
所述训练模块,用于通过所述文本处理模型的提取与所述训练样本相匹配的特征集合;
所述训练模块,用于根据与所述训练样本相匹配的特征集合和相应的目标文本标签对所述文本处理模型进行训练,以实现确定与所述文本处理模型相适配的模型参数。
上述方案中,
所述信息处理模块,用于侦测不同用户对所述文本内容的处理结果,以及相应的操作参数;
所述信息处理模块,用于根据对所述文本内容的处理结果,以及相应的操作参数形成与所述不同用户分别对应的历史数据索引;其中,所述历史数据索引用于对所述文本处理模型所生成的目标文本进行评价。
上述方案中,
所述信息处理模块,用于对所述可识别文本信息与所述触摸屏中所显示的文本内容相匹配;
根据所述可识别文本信息与所述触摸屏中所显示的文本内容的匹配结果,对所述候选词语的被选取概率进行融合处理;
根据所述候选词语的被选取概率的融合处理结果,选取至少一个候选词语组成与所述文本内容相对应的目标文本。
上述方案中,
所述信息处理模块,用于将所述文本内容及对应的与所述文本内容相匹配目标文本发送至区块链网络,以使
所述区块链网络的节点将所述文本内容及对应的与所述文本内容相匹配目标文本填充至新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链的尾部。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的多模态智能文本处理方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现前序的多模态智能文本处理方法。
本发明实施例具有以下有益效果:
通过获取触摸屏中选中操作对应的文本内容;提取与所述文本内容相匹配的特征向量;根据所述特征向量确定与文本内容所对应的至少一个词语级的隐变量;根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的候选词语以及所述候选词语的被选取概率;根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与所述文本内容相对应的目标文本;在所述触摸屏中以与所述选中操作对应的显示方式,显示所述目标文本,由此,在用户使用触摸屏选择文本的过程中,能够通过相应的文本处理模型对用户所要选择的目标文本进行预判,并输出相应的目标文本以供用户进行选择,使得通过本发明的方案能够智能的产生高质量的目标文本,减少用户由于选择错误所造成的重复选择操作,提升用户的使用体验。
附图说明
图1为本发明实施例提供的多模态智能文本处理方法的使用场景示意图;
图2为本发明实施例提供的电子设备的组成结构示意图;
图3为本发明实施例提供的多模态智能文本处理方法一个可选的流程示意图;
图4为本发明实施例中文本处理模型一个可选的处理过程示意图;
图5为本发明实施例文本处理方法一个可选的处理过程示意图;
图6为本发明实施例提供的文本处理模型的文本信息处理一个可选的流程示意图;
图7是本发明实施例提供的多模态智能文本处理装置100的架构示意图;
图8是本发明实施例提供的区块链网络200中区块链的结构示意图;
图9是本发明实施例提供的区块链网络200的功能架构示意图;
图10为本发明实施例中相关技术对文本选取的应用环境示意图;
图11为本发明实施例中相关技术对文本选取的应用环境示意图;
图12为本发明实施例中相关技术对文本选取的应用环境示意图;
图13为本发明实施例所提供的文本处理模型的工作过程示意图;
图14A为本发明实施例所提供的文本处理模型的文本选择示意图;
图14B为本发明实施例所提供的文本处理模型的训练过程示意图;
图15A为本发明实施例中其中文本处理模型的数据结构示意图;
图15B为本发明实施例中其中文本处理模型的数据结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)分词:又称切词,起作用为把一个完整的句子的文本信息切分成多个词,例如:刘德华是个中国歌手。分词后的结果为:刘德华、中国、歌手。
3)分词库:又称切词库,指一种特定的分词方法,不同的分词库各自对应的单词字典,并可以根据各自对应的单词字典对相应的文本信息进行分词处理。
4)一致性(consistency):表示在不同服务器访中问到的数据始终唯一。
5)下采样处理,对于一个样值序列间隔几个样值取样一次,这样得到新序列就是原序列的下采样,例如:对于一幅图像I尺寸为M*N,对其进行s倍下采样,即得到(M/s)*(N/s)尺寸的得分辨率图像,其中s应该是M和N的公约数。
6)模型训练,对图像数据集进行多分类学习。该模型可采用TensorFlow、torch等深度学习框架进行构建,使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵,模型输出为多分类概率,通过softmax等算法最终输出网页类别。在训练时,模型通过交叉熵等目标函数向正确趋势逼近。
7)交易(Transaction),等同于计算机术语“事务”,交易包括了需要提交到区块链网络执行的操作,并非单指商业语境中的交易,鉴于在区块链技术中约定俗成地使用了“交易”这一术语,本发明实施例遵循了这一习惯。
8)区块链(Blockchain),是由区块(Block)形成的加密的、链式的交易的存储结构。
9)区块链网络(Blockchain Network),通过共识的方式将新区块纳入区块链的一系列的节点的集合。
10)账本(Ledger),是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。
11)智能合约(Smart Contracts),也称为链码(Chaincode)或应用代码,部署在区块链网络的节点中的程序,节点执行接收的交易中所调用的智能合约,来对状态数据库的键值对数据进行更新或查询的操作。
12)共识(Consensus),是区块链网络中的一个过程,用于在涉及的多个节点之间对区块中的交易达成一致,达成一致的区块将被追加到区块链的尾部,实现共识的机制包括工作量证明(PoW,Proof of Work)、权益证明(PoS,Proof of Stake)、股份授权证明(DPoS,Delegated Proof-of-Stake)、消逝时间量证明(PoET,Proof of Elapsed Time)等。
13)卷积神经网络(CNN Convolutional Neural Networks)是一类包含卷积计算且具有深度结构的前馈神经网络(Feed forward Neural Networks),是深度学***移不变分类(shift-invariantclassification)。
14)多模态,用户通过语音指令触发封装于电子设备中神经网络模型,通过将相应的语音信息转换为可识别信息,并与触摸屏中所显示的文本内容相匹配,以对文本处理模型的结果进行调整。
图1为本发明实施例提供的多模态智能文本处理方法的使用场景示意图,参见图1,终端(包括终端10-1和终端10-2)上设置有能够执行不同功能相应客户端其中,所属客户端为终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中获取不同的文本信息进行浏览,终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输,其中,终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的文本信息类型并不相同,例如:终端(包括终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取任意类型的文本信息,也可以通过网络300从相应的服务器200中获取仅与相应的检索指令相匹配的文本信息进行浏览。服务器200中可以保存有通过不同分词库进行分词处理的文本信息或者相应的倒排索引。在本发明的一些实施例中,服务器200中所保存的不同类型的文本信息可以是在不同编程语言的软件代码环境中所编写的,代码对象可以是不同类型的代码实体。例如,在C语言的软件代码中,一个代码对象可以是一个函数。在JAVA语言的软件代码中,一个代码对象可以是一个类,IOS端OC语言中可以是一段目标代码。在C++语言的软件代码中,一个代码对象可以是一个类或一个函数以执行来自于不同终端的文本处理指令。其中本申请中不再对文本处理模型所要处理的文本信息的来源进行区分。
服务器200通过网络300向终端(终端10-1和/或终端10-2)发送不同类型的文本信息的过程中服务器200需要确定用户所选取的文本信息进行监控,因此。作为一个事例,服务器200用于获取语音指令信息和相应环境的噪音信息;
响应于所述语音指令信息,根据所述相应环境的噪音信息将所述语音指令转换为相应的可识别文本信息;响应于所述语音指令信息,获取触摸屏中选中操作对应的文本内容;提取与所述文本内容相匹配的特征向量;通过所述文本处理模型,根据所述特征向量确定与文本内容所对应的至少一个词语级的隐变量;通过所述文本处理模型,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的候选词语以及所述候选词语的被选取概率;根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与所述文本内容相对应的目标文本;在触摸屏中以与选中操作对应的显示方式,显示所述目标文本,由此,实现了输出所述目标文本,实现将所述文本内容分割为不同的目标文本与用户的操作相匹配,便于用户执行性后续的不同操作。
下面对本发明实施例的电子设备的结构做详细说明,电子设备可以各种形式来实施,如带有文本处理功能的专用终端,也可以为带有文本处理功能的电子设备,例如前述图1中的服务器。图2为本发明实施例提供的电子设备的组成结构示意图,可以理解,图2仅仅示出了电子设备的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的电子设备包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。电子设备中的各个组件通过总线***205耦合在一起。可以理解,总线***205用于实现这些组件之间的连接通信。总线***205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作***和应用程序。其中,操作***包含各种***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的多模态智能文本处理装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的多模态智能文本处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的多模态智能文本处理方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的多模态智能文本处理装置采用软硬件结合实施的示例,本发明实施例所提供的多模态智能文本处理装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的多模态智能文本处理方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的多模态智能文本处理装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的多模态智能文本处理方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何可执行指令,如可执行指令,实现本发明实施例的从多模态智能文本处理方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的多模态智能文本处理装置可以采用软件方式实现,图2示出了存储在存储器202中的多模态智能文本处理装置2020,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括多模态智能文本处理装置2020,多模态智能文本处理装置2020中包括以下的软件模块:信息传输模块2081,信息处理模块2082。当多模态智能文本处理装置2020中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的多模态智能文本处理方法,下面对多模态智能文本处理装置2020中各个软件模块的功能进行介绍:
信息传输模块2081,用于获取触摸屏中选中操作对应的文本内容;
信息处理模块2082,用于提取与所述文本内容相匹配的特征向量;
所述信息处理模块2082,用于通过所述文本处理模型,根据所述特征向量确定与文本内容所对应的至少一个词语级的隐变量;
所述信息处理模块2082,用于通过所述文本处理模型,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的候选词语以及所述候选词语的被选取概率;
所述信息处理模块2082,用于根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与所述文本内容相对应的目标文本;
所述信息处理模块2082,用于在所述触摸屏中以与所述选中操作对应的显示方式,显示所述目标文本。
结合图2示出的电子设备说明本发明实施例提供的多模态智能文本处理方法,参见图3,图3为本发明实施例提供的多模态智能文本处理方法一个可选的流程示意图,可以理解地,图3所示的步骤可以由运行多模态智能文本处理装置的各种电子设备执行,例如可以是如带有检索指令处理功能的专用终端、电子设备或者电子设备集群。下面针对图3示出的步骤进行说明。
步骤301:多模态智能文本处理装置获取触摸屏中选中操作对应的文本内容。
其中,用户在使用触摸屏电子设备(例如车辆中控设备等)选择文本信息的时候,由于触摸屏可操作面积的限制和用户单手操作的习惯,使得用户手动控制光标选择文本并不准确,经常遇到无法选择到理想的文本的情况,影响了用户对于文本的选择速度与选择精确度。因此,可以使用封装于多模态智能文本处理装置中的文本处理模型获取触摸屏中选中操作对应的文本内容(长文本)以生成相应的新的目标文本(短文本)以供用户选择,避免用户由于选择错误所造成的重复文本选择操作。
步骤302:多模态智能文本处理装置提取与所述文本内容相匹配的特征向量。
在本发明的一些实施例中,提取与所述文本内容相匹配的特征向量,可以通过以下方式实现:
根据所述触摸屏中所显示的文本内容所携带的文本参数信息,触发相应的分词库;通过所触发的所述分词库单词词典对所述触摸屏中所显示的文本内容进行分词处理,形成不同的词语级特征向量;对所述不同的词语级特征向量进行除噪处理,形成与所述文本内容相对应的词语级特征向量集合。其中,所谓分词,即有动词含义也有名词含义;每个分词就是一个单词或者词组,即有确定意义的最小语义单元;对于所接收的不同的用户或者不同的文本处理模型的使用环境,其需要划分其中包含的最小语义单位也是不同的,需要及时地做出调整,这一过程叫做分词,即分词可以指上述划分最小语义单位的过程;另一方面,划分后获得的最小语义单位,也常常被称为分词,即分词这个操作执行后获得的单词;有时为了将两个意思相互区别,将后一个意思所指称的最小语义单位称为分词对象(Term);本申请中即使用分词对象这个称呼;分词对象对应于倒排表中作为索引依据的关键词。对于汉语而言,由于作为最小语义单位的词往往是由不同数量的字组成的,词之间不存在空白隔断等拼音文字中天然的区分标志,因此,对于汉语而言,准确进行分词以获得合理的分词对象是一个重要的步骤。
其中,结合前序步骤301,不同的终端设备(例如前序图1所示的终端10-1和/或终端10-2)可以在各自对应触摸屏显示界面上(例如网页、专用APP和微信的小程序的显示界面)提供用于用户阅读或者使用的文本信息,用户可以通过电子设备的触摸屏对所显示的文本信息进行处理,从中选取想要使用的文本信息,当该终端设备检测到对文本的点击操作(或者选取操作)时,触发该服务器启动相应的分词指令,该分词指令携带所述文本内容所携带的文本参数信息,以触发与文本内容相匹配的分词库,该服务器接收该分词指令,以执行相应的操作形成不同的词语级特征向量。或者,该终端设备在触摸屏显示界面上显示不同的文本信息时,当检测到对文本信息的点击操作时,该终端设备向该服务器发送该分词指令,该分词指令携带该与当前用户相匹配的分词库(分词库携带有相应的用户标识符),该服务器接收该分词指令,以执行相应的操作形成不同的词语级特征向量。需要说明的是本发明实施例对该分词指令的触发方式不做限定。
在本发明的一些实施例中,不同的用户的语言习惯与操作习惯并不相同,对于不同的用户需要调整不同的分词方式,以适配不同用户的语言习惯。尤其是对于汉语而言,以汉字为基础表意单位,而真正具有含义的最小语义单位则是词;由于词与词之间并没有像英语单词之间的空格作为分割,因此,一句文本中,哪些字组成词并不确定,因此,对汉语文本进行分词就是一个重要的工作。并且,对于文本处理指令文本,其中包含一些仅仅对自然语言理解有价值的东西,而对文本处理模型而言,要查询到相关内容,必须确定哪些是真正有价值的检索依据,因此,通过步骤302所示的对不同的词语级特征向量进行除噪处理,能够形成与文本处理指令文本相对应的词语级特征向量集合,避免词语级特征向量集合出现无意义的词语级特征向量,例如“的”、“地”和“得”。
在本发明的一些实施例中,对所述不同的词语级特征向量进行除噪处理,形成与所述文本内容相对应的词语级特征向量集合,可以通过以下方式实现:
确定与所述文本处理模型的使用环境相匹配的动态噪声阈值;根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;根据与所述动态噪声阈值相匹配的动态分词策略,对所述触摸屏中所显示的文本内容进行分词处理,形成与所述文本内容相对应的动态词语级特征向量集合。其中,由于文本处理模型的使用环境不同,与所述文本处理模型的使用环境相匹配的动态噪声阈值也不相同,例如,学术翻译的使用环境中,终端所显示的文本信息仅包括了学术论文的文本信息与所述文本处理模型的使用环境相匹配的动态噪声阈值需要小于娱乐信息文本的阅读环境中的动态噪声阈值。
在本发明的一些实施例中,对所述不同的词语级特征向量进行除噪处理,形成与所述文本内容相对应的词语级特征向量集合,可以通过以下方式实现:
确定与所述文本处理模型的使用环境相对应的固定噪声阈值;
根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述固定噪声阈值相匹配的固定分词策略;根据与所述固定噪声阈值相匹配的固定分词策略,对所述目标文本进行分词处理,与所述文本内容相对应的固定词语级特征向量集合。其中,当文本处理模型固化于相应的硬件机构中,例如多模态终端或者智慧医疗***中时,使用环境为专业术语文本信息(或者某一领域的文本信息)时,由于噪声较为单一,通过固定文本处理模型相对应的固定噪声阈值,能够有效提升文本处理模型的处理速度,减少用户的等待时间,提升用户的使用体验。
在本发明的一些实施例中,提取与所述文本内容相匹配的特征向量,可以通过以下方式实现:
对所述触摸屏中所显示的文本内容进行分词处理,形成分词处理结果;响应于所述分词处理结果,对所述文本内容进行去停用词处理,以形成与所述文本内容相匹配的文本关键词;根据所述文本内容相匹配的文本关键词,确定与所述文本内容相匹配的词性标注结果,并形成与所述文本内容相对应的词性特征向量集合。其中,由于文本处理模型所处理的文本不仅包括单一语种的文本信息还可能是多语种的复杂文本信息(例如作为文本信息的中英文混合学术论文),其中,与英文直接将空格作为词之间的间隔不同,对于中文文本,相应的需要对中文文本进行分词,因为在汉语里面词语才能包含完整的信息。相应的可以使用中文分词工具Jieba对中文文本进行分词。另外,相应的需要对分词后的关键词集合去停用词处理,因为类似“是的”,“可以”这类词语对于相应的的类目标注任务没有信息帮助。比如对于文本“是的,我喜欢的饭店”,分词,去停用词得到“喜欢/的/饭店”(使用/作为分隔符,以下相同)两个关键词组成的集合,由此,能够有效提升文本处理模型的处理速度。
步骤303:多模态智能文本处理装置通过所述文本处理模型,根据所述特征向量确定与文本内容所对应的至少一个词语级的隐变量。
步骤304:多模态智能文本处理装置通过所述文本处理模型,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的候选词语以及所述候选词语的被选取概率。
步骤305:多模态智能文本处理装置根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与所述文本内容相对应的目标文本。
其中,需要说明的是,本发明中与文本内容相匹配的文本信息的全局词性是指待描述文本内容的自然语言描述信息所对应的各个词性,全局词性向量即为各个词性组合的向量,全局词性向量特征即为各个词性组合的向量的特征。其中,词性是字、词、词组或单词的一种属性,各种语言都会定义有多种词性。作为示例地,中文包括但不限于名词、动词、形容词、量词、副词、介词等词性;英语包括但不限于noun(名词)、verb(动词)、gerund(动名词)、adjective(形容词)、adverb(副词)、article(冠词)、preposition(介词)等词性;在其他语言中,也可能包括其他类型的词性,在此不再赘述。而词性向量是相对于自然语言描述的句子而言的,通常句子是由两个或多个词组成的,词性向量特征即为句子中的各个词的词性特征的组合。
在本发明的一些实施例中,根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与所述文本内容相对应的目标文本,可以通过以下方式实现:
对所述可识别文本信息与所述触摸屏中所显示的文本内容相匹配;根据所述可识别文本信息与所述触摸屏中所显示的文本内容的匹配结果,对所述候选词语的被选取概率进行融合处理;根据所述候选词语的被选取概率的融合处理结果,选取至少一个候选词语组成与所述文本内容相对应的目标文本。其中,由于不同目标用户的文本选择习惯与需求均不相同,因此,根据可识别文本信息与所述触摸屏中所显示的文本内容的匹配结果,对候选词语的被选取概率进行融合处理,能够使得候选词语的被选取概率更加符合目标用户的使用习惯与需求。
其中,参考图4,图4为本发明实施例中文本处理模型一个可选的处理过程示意图,其中,编码器中可以包含卷积神经网络,将特征向量集输入编码器后,输出特征向量集合对应的相应的浮点特征向量。具体地,将特征向量集合输入编码器,即输入编码器中的卷积神经网络,通过卷积神经网络提取特征向量集合对应的相应的浮点特征向量,卷积神经网络输出提取的相应的浮点特征向量,并作为编码器的输出,进而利用编码器输出的浮点特征向量执行相应的文本信息处理,或者,编码器中可以包含卷积神经网络和循环神经网络,将特征向量集合输入编码器后,输出特征向量集合对应的携带有时序信息的相应的浮点特征向量,如图4中的编码器所示。具体地,将特征向量集合输入编码器,即输入编码器中的卷积神经网络(例如图4中的CNN神经网络),通过卷积神经网络提取特征向量集合对应的相应的浮点特征向量,卷积神经网络输出提取的相应的浮点特征向量,输入到编码器中的循环神经网络(对应图4中的hi-1、hi等结构),通过循环神经网络对提取的卷积神经网络特征向量进行时序信息的提取与融合,循环神经网络输出携带有时序信息的浮点特征向量,并作为编码器的输出,进而利用编码器输出的浮点特征向量执行相应的处理步骤。
参考图5,图5为本发明实施例文本处理方法一个可选的处理过程示意图,其中,双流长短期记忆网络可以包括双向向量模型、注意力模型、全连接层和sigmoid分类器,双向向量模型对于输入文本内容的特征向量集合中的不同特征向量分别进行递归处理,并采用注意力模型分别将递归处理后的特征向量合并在一起形成更长的向量,例如将词性特征向量合并在一起形成更长的向量,并将两个合并后的向量再次合并在一起形成更长的向量,最后采用两个全连接层将学到的分布式特征表示映射到对应的样本标记空间,以提高最终分类结果的准确性,最后采用sigmoid分类器确定文本内容对应各个标签的概率值,以实现对所述目标文本进行整合处理,形成与所述文本内容信息相对应的新的文本信息。
其中,卷积神经网络模型的批处理参数(batch size)可选值为32或64,卷积神经网络模型的优化器选择自适应优化器(adam)的初始学习率可选值为0.0001,随机失活(dropout)可选值为0.3。经过10000次迭代训练后,训练集和测试集准确率均稳定在98%以上,说明模型和该任务场景相匹配,能取得较为理想的训练效果并固定该状态下的卷积神经网络模型的所有参数。
步骤306:在所述触摸屏中以与所述选中操作对应的显示方式,显示所述目标文本。
由此,实现了多模态智能文本处理装置输出所述目标文本,将所述文本内容分割为不同的目标文本与用户的操作相匹配,以便于用户的后续操作。
结合图2示出的电子设备说明本发明实施例提供的文本处理模型的文本信息处理方法,参见图6,图6为本发明实施例提供的文本处理模型的文本信息处理一个可选的流程示意图,可以理解地,图6所示的步骤可以由运行文本处理模型的文本信息处理装置的各种电子设备执行,例如可以是如带有文本处理模型的文本信息处理功能的专用终端、服务器或者服务器集群用于对文本信息处理模型进行训练,以确定与所述文本处理模型相适配的模型参数,具体包括以下步骤:
步骤601:服务器获取与所述文本处理模型的使用环境相匹配的训练样本。
在本发明的一些实施例中,获取训练样本可以通过以下方式实现:
侦测不同用户对所述文本内容的处理结果,以及相应的操作参数;根据对所述文本内容的处理结果,以及相应的操作参数形成与所述不同用户分别对应的历史数据索引;其中,所述历史数据索引用于对所述文本处理模型所生成的目标文本进行评价。其中,由于不同的用户的语言习惯以及操作需求均不相同,因此,通过侦测不同用户对所述文本内容的处理结果,以及相应的操作参数不但能够获取针对某一用户的训练样本,还能够将不同用户的训练样本进行融合获得通用的训练样本集合,以训练文本处理模型的通用性。
步骤602:服务器通过所述文本处理模型的提取与所述训练样本相匹配的特征集合。
步骤603:服务器根据与所述训练样本相匹配的特征集合和相应的目标文本标签对所述文本处理模型进行训练,以实现确定与所述文本处理模型相适配的模型参数。
在本发明的一些实施例中,所述方法还包括:
将所述文本内容及对应的与所述文本内容相匹配目标文本发送至区块链网络,以使所述区块链网络的节点将所述文本内容及对应的与所述文本内容相匹配目标文本填充至新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链的尾部。
参见图7,图7是本发明实施例提供的多模态智能文本处理装置100的架构示意图,包括区块链网络200(示例性示出了共识节点210-1至共识节点210-3)、认证中心300、业务主体400和业务主体500,下面分别进行说明。
区块链网络200的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的电子设备例如用户终端和服务器,都可以在不需要授权的情况下接入区块链网络200;以联盟链为例,业务主体在获得授权后其下辖的电子设备(例如终端/服务器)可以接入区块链网络200,此时,成为区块链网络200中的客户端节点。
在一些实施例中,客户端节点可以只作为区块链网络200的观察者,即提供支持业务主体发起交易(例如,用于上链存储数据或查询链上数据)功能,对于区块链网络200的共识节点210的功能,例如排序功能、共识服务和账本功能等,客户端节点可以缺省或者有选择性(例如,取决于业务主体的具体业务需求)地实施。从而,可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络200中,通过区块链网络200实现数据和业务处理过程的可信和可追溯。
区块链网络200中的共识节点接收来自不同业务主体(例如图7中示出的业务主体400和业务主体500)的客户端节点(例如,图7中示出的归属于业务主体400的客户端节点410、以及归属于业务主体500的客户端节点510)提交的交易,执行交易以更新账本或者查询账本,执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。
例如,客户端节点410/510可以订阅区块链网络200中感兴趣的事件,例如区块链网络200中特定的组织/通道中发生的交易,由共识节点210推送相应的交易通知到客户端节点410/510,从而触发客户端节点410/510中相应的业务逻辑。
下面以多个业务主体接入区块链网络以实现文本信息的管理与处理为例,说明区块链网络的示例性应用。
参见图7,管理环节涉及的多个业务主体,如业务主体400可以是基于人工智能的多模态智能文本处理装置,业务主体500可以是带有文本显示(操作)功能的显示***,从认证中心300进行登记注册获得各自的数字证书,数字证书中包括业务主体的公钥、以及认证中心300对业务主体的公钥和身份信息签署的数字签名,用来与业务主体针对交易的数字签名一起附加到交易中,并被发送到区块链网络,以供区块链网络从交易中取出数字证书和签名,验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息,区块链网络会根据身份进行验证,例如是否具有发起交易的权限。业务主体下辖的电子设备(例如终端或者服务器)运行的客户端都可以向区块链网络200请求接入而成为客户端节点。
业务主体400的客户端节点410用于获取触摸屏中选中操作对应的文本内容;提取与所述文本内容相匹配的特征向量;通过所述文本处理模型,根据所述特征向量确定与文本内容所对应的至少一个词语级的隐变量;通过所述文本处理模型,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的候选词语以及所述候选词语的被选取概率;根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与所述文本内容相对应的目标文本;在所述触摸屏中以与所述选中操作对应的显示方式,显示所述目标文本,以实现输出所述目标文本,将所述文本内容分割为不同的目标文本与用户的操作相匹配,并将文本内容及对应的与文本内容相匹配目标文本发送至区块链网络200。
其中,将文本内容与所生成的目标文本发送至区块链网络200,可以预先在客户端节点410设置业务逻辑,当形成相应的文本信息时,客户端节点410将文本内容及对应的与文本内容相匹配目标文本自动发送至区块链网络200,也可以由业务主体400的业务人员在客户端节点410中登录,手动打包文本内容与所生成的目标文本,并将其发送至区块链网络200。在发送时,客户端节点410根据文本内容及对应的与文本内容相匹配目标文本生成对应更新操作的交易,在交易中指定了实现更新操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端节点410的数字证书、签署的数字签名(例如,使用客户端节点410的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络200中的共识节点210。
区块链网络200中的共识节点210中接收到交易时,对交易携带的数字证书和数字签名进行验证,验证成功后,根据交易中携带的业务主体400的身份,确认业务主体400是否是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署节点210自己的数字签名(例如,使用节点210-1的私钥对交易的摘要进行加密得到),并继续在区块链网络200中广播。
区块链网络200中的共识节点210接收到验证成功的交易后,将交易填充到新的区块中,并进行广播。区块链网络200中的共识节点210广播的新区块时,会对新区块进行共识过程,如果共识成功,则将新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交更新文本内容及对应的与文本内容相匹配目标文本的交易,在状态数据库中添加包括文本内容及对应的与文本内容相匹配目标文本的键值对。
业务主体500的业务人员在客户端节点510中登录,输入文本内容或者文本信息查询请求,客户端节点510根据文本内容或者文本信息查询请求生成对应更新操作/查询操作的交易,在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端节点510的数字证书、签署的数字签名(例如,使用客户端节点510的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络200中的共识节点210。
区块链网络200中的共识节点210中接收到交易,对交易进行验证、区块填充及共识一致后,将填充的新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交的更新某一文文本内容及对应的与文本内容相匹配目标文本的交易,根据不同目标文本更新状态数据库中该文本内容对应的键值对;对于提交的查询某个文本内容的交易,从状态数据库中查询文本内容对应的键值对,并返回交易结果。
值得说明的是,在图7中示例性地示出了将文本内容与所生成的目标文本直接上链的过程,但在另一些实施例中,对于文本内容的数据量较大的情况,客户端节点410可将文本内容的哈希以及相应的文本信息的哈希成对上链,将原始的文本内容以及相应的目标文本信息存储于分布式文件***或数据库。客户端节点510从分布式文件***或数据库获取到文本内容以及相应的目标文本信息后,可结合区块链网络200中对应的哈希进行校验,从而减少上链操作的工作量。
作为区块链的示例,参见图8,图8是本发明实施例提供的区块链网络200中区块链的结构示意图,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后,会被追加到区块链的尾部从而形成链式的增长,区块之间基于哈希值的链式结构保证了区块中交易的防篡改和防伪造。其中,存储在区块链网络中的文本内容可以是某一领域的专用文本(例如医疗***的病例信息或者科学实验中的实验信息数据文本),通过存储在区块链网络中可以实现不同的节点之间共享这些文本内容。
下面说明本发明实施例提供的区块链网络的示例性的功能架构,参见图9,图9是本发明实施例提供的区块链网络200的功能架构示意图,包括应用层201、共识层202、网络层203、数据层204和资源层205,下面分别进行说明。
资源层205封装了实现区块链网路200中的各个节点210的计算资源、存储资源和通信资源。
数据层204封装了实现账本的各种数据结构,包括以文件***中的文件实现的区块链,键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。
网络层203封装了点对点(P2P,Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。
其中,P2P网络协议实现区块链网络200中节点210之间的通信,数据传播机制保证了交易在区块链网络200中的传播,数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现节点210之间传输数据的可靠性;接入认证机制用于根据实际的业务场景对加入区块链网络200的业务主体的身份进行认证,并在认证通过时赋予业务主体接入区块链网络200的权限;业务主体身份管理用于存储允许接入区块链网络200的业务主体的身份、以及权限(例如能够发起的交易的类型)。
共识层202封装了区块链网络200中的节点210对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法,支持共识算法的可插拔。
交易管理用于验证节点210接收到的交易中携带的数字签名,验证业务主体的身份信息,并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息);对于获得接入区块链网络200的授权的业务主体而言,均拥有认证中心颁发的数字证书,业务主体利用自己的数字证书中的私钥对提交的交易进行签名,从而声明自己的合法身份。
账本管理用于维护区块链和状态数据库。对于取得共识的区块,追加到区块链的尾部;执行取得共识的区块中的交易,当交易包括更新操作时更新状态数据库中的键值对,当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作,包括:根据区块向量号(例如交易的哈希值)查询区块;根据区块哈希值查询区块;根据交易向量号查询区块;根据交易向量号查询交易;根据业务主体的账号(向量号)查询业务主体的账号数据;根据通道名称查询通道中的区块链。
应用层201封装了区块链网络能够实现的各种业务,包括交易的溯源、存证和验证等。
下面以对医疗终端使用时的多模态环境对本申请的多模态终端触摸屏中的文本信息的选择为例对本发明实施例所提供的多模态智能文本处理方法进行说明,其中,图10为本发明实施例中相关技术对文本选取的应用环境示意图,其中,相关技术中可以如图10所示,仅通过触摸屏感应的方式选择文本,具体的,该方案在使用过程中,终端通过触摸屏接收手指触摸的信号,根据触摸位置定位光标,用户可以利用光标选择相应的文本的边界。但是这一过程中,只能根据触摸屏感应手指触摸的位置进行选择文本,文本字体小的时候选中目标文本不方便,同时由于用户的单手操作经常容易选错或者漏选文字,用户常常重复多次才能选中目标文本,浪费用户的操作时间。
进一步地,图11为本发明实施例中相关技术对文本选取的应用环境示意图,其中,相关技术中可以如图11所示,通过触摸屏感应的方式选择文本,并且考虑标点符号,具体的,在前序图10所示的方案的基础上,在确定待选文本的文本信息时,可以对普通文字和标点符号做区分,由于标点符号是句子或半句的边界,用户的光标移动到标点附近的时候,***会以更大的概率以标点为目标文本的边界,但是这一过程中,虽然在文本选择时考虑标点符号,但是这一过程只能利用标点进行辅助选择,对于用户想选定句子内的文本,例如图11所示的对句子内的词语,无法进行辅助选择。同时也无法根据用户历史习惯,进行个性化推荐(例如用的用户需要选择包括标点的文本,有的用户则不需要包括标点的文本),不利于不同的用户使用。
进一步地,图12为本发明实施例中相关技术对文本选取的应用环境示意图,相关技术中可以如图12所示,通过触摸屏感应的方式选择相应的目标文本,并且考虑分词信息,对目标文本进行分词处理。但是,这一过程中,只能利用词语信息进行辅助选择,无法选择一个较长的短语或者短句,同时,这一过程无法根据用户历史习惯,进行个性化推荐(不同的用户和不同的领域中分词的处理方式均不相同)。
图13为本发明实施例所提供的文本处理模型的工作过程示意图,具体包括以下步骤:
步骤1301:医疗终端获取语音指令信息和相应环境的噪音信息;
步骤1302:响应于所述语音指令信息,触发文本处理模型,根据相应环境的噪音信息将语音指令转换为相应的可识别文本信息。
步骤1303:响应于所述语音指令信息,获取医疗终端触摸屏中所显示的病例信息的文本内容;
步骤1304:获取触摸屏中选中操作,并响应于选中操作,提取与触摸屏中所显示的病例信息的文本内容相匹配的特征向量;
其中,由于医疗设备的触摸屏可操作面积的限制和用户单手操作的习惯,用户没有时间和精力进行精确的选择,使得用户手动控制光标选择文本并不准确,经常遇到无法选择到多模态的触摸屏中理想的文本,而单纯的语音指令并不能够支撑获取准确地文本内容,通过响应语音指令,即可触发文本处理模型确定相应的目标文本,无需用户的精准选择操控。
步骤1305:通过文本处理模型的编码器,确定与病例信息的文本内容所对应的至少一个词语级的隐变量。
当然,在所述文本处理模型处理病例信息的文本内容之前还需要对文本处理模型进行训练,以确定相应的网络参数。
继续参考图14A和14B,图14A为本发明实施例所提供的文本处理模型的文本选择示意图,图14B为本发明实施例所提供的文本处理模型的训练过程示意图,具体包括以下步骤:
步骤1401:获取与目标用户相匹配的训练样本。
其中,为实现获取训练样本,需要记录用户历史数据,具体的,可以记录所有用户(针对不同的文本内容)的使用数据。首先,用户可能会提供一次或多次触摸屏幕来选择文本,然后选定目标文本之后会进行进一步的操作(例如,复制、发送等)。可以把用户进行下一步操作前选定的文本视为用户真实的目标文本。同时,记录下用户对屏幕的触摸时手指的位置。当然,为了区分不同用户,在记录训练数据的时候会为用户配置一个ID(相互不重复),每条样本会标明用户ID。结合前序实施例,针对同一目标用户的不同多模态终端,服务器可以从相应的区块链网络中获取与目标用户相匹配的训练样本,对文本处理模型进行训练。
步骤1402:通过特征提取器提取训练样本的多种特征,输入文本处理模型。
其中,所提取的特征包括,分词(用ID表示改字属于第几个词)、词性标注、词向量、实体识别、语义角色分析(经过标注的主/谓/宾)。其中,文本处理模型的数据结构参考图15A,图15A为本发明实施例中其中文本处理模型的数据结构示意图,图15B为本发明实施例中其中文本处理模型的数据结构示意图,每一种特征分别用一个特征提取器进行提取,提取好的特征可以通过浮点向量的形式表示。
步骤1403:将浮点向量会输入循环神经网络模型,通过循环神经网络预测最终的结果。
这一过程中,迭代更新文本处理模型的编码器参数和解码器参数,直至达到相应的收敛函数。
步骤1404:完成对文本处理模型的训练。
在本发明的一些实施例中,本发明所提供的文本处理模型可以包括两个子模型,分别为:全局用户文本处理模型和当前用户文本处理模型,其中,对于全局用户文本处理模型的训练可以使用所有用户的数据作为训练样本,而当前用户文本处理模型的训练中仅适用当前用户得数据作为训练样本以提升模型的针对性。
步骤1306:通过所述文本处理模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的候选词语以及所述候选词语的被选取概率;
步骤1307:根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与病例信息的文本内容相对应的处理结果。
步骤1308:向多模态终端的显示界面中输出短文本语句或词语,以实现预测用户所要选取的目标文本。
由此,相比于传统技术对触摸屏中文本的处理,通过本申请所提供的技术方案,通过侦测用户对触摸屏的操作触发文本处理模型,实现仅通过目标用户的选中操作即可对用户所要选取的文本的预测,提升用户选择的准确率,提升用户使用的流畅度,同时,减少用户在车在环境下对触摸屏中文本信息的操作步骤,从而有效提升用户的使用体验。
有益技术效果:
通过获取触摸屏中选中操作对应的文本内容;提取与所述文本内容相匹配的特征向量;通过所述文本处理模型,根据所述特征向量确定与文本内容所对应的至少一个词语级的隐变量;通过所述文本处理模型,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的候选词语以及所述候选词语的被选取概率;根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与所述文本内容相对应的目标文本;在触摸屏中以与所述选中操作对应的显示方式,显示所述目标文本,由此,在用户使用车在环境触摸屏选择文本的过程中,能够通过相应的文本处理模型对用户所要选择的目标文本进行预判,并输出相应的目标文本以供用户进行选择,使得文本处理模型能够产生高质量的目标文本,减少用户由于选择错误所造成的重复选择操作,提升用户的使用体验。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多模态智能文本处理方法,其特征在于,所述方法包括:
获取语音指令信息和相应环境的噪音信息;
响应于所述语音指令信息,根据所述相应环境的噪音信息将所述语音指令转换为相应的可识别文本信息;
响应于所述语音指令信息,获取触摸屏中选中操作;
响应于所述选中操作,提取与所述触摸屏中所显示的文本内容相匹配的特征向量;
根据所述特征向量确定与所述文本内容所对应的至少一个词语级的隐变量;
根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的候选词语以及所述候选词语的被选取概率;
根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与所述文本内容相对应的目标文本;
在所述触摸屏中以与所述选中操作对应的显示方式,显示所述目标文本。
2.根据权利要求1所述的方法,其特征在于,所述提取与所述触摸屏中所显示的文本内容相匹配的特征向量,包括:
根据所述触摸屏中所显示的文本内容所携带的文本参数信息,触发相应的分词库;
通过所触发的所述分词库单词词典对所述触摸屏中所显示的文本内容进行分词处理,形成不同的词语级特征向量;
对所述不同的词语级特征向量进行除噪处理,形成与所述文本内容相对应的词语级特征向量集合。
3.根据权利要求2所述的方法,其特征在于,所述对所述不同的词语级特征向量进行除噪处理,形成与所述文本内容相对应的词语级特征向量集合,包括:
确定与文本处理模型的使用环境相匹配的动态噪声阈值;
根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;
根据与所述动态噪声阈值相匹配的动态分词策略,对所述触摸屏中所显示的文本内容进行分词处理,形成与所述文本内容相对应的动态词语级特征向量集合。
4.根据权利要求2所述的方法,其特征在于,所述对所述不同的词语级特征向量进行除噪处理,形成与所述文本内容相对应的词语级特征向量集合,包括:
确定与文本处理模型的使用环境相对应的固定噪声阈值;
根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述固定噪声阈值相匹配的固定分词策略;
根据与所述固定噪声阈值相匹配的固定分词策略,对所述目标文本进行分词处理,与所述文本内容相对应的固定词语级特征向量集合。
5.根据权利要求1所述的方法,其特征在于,所述根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与所述文本内容相对应的目标文本,包括:
对所述可识别文本信息与所述触摸屏中所显示的文本内容相匹配;
根据所述可识别文本信息与所述触摸屏中所显示的文本内容的匹配结果,对所述候选词语的被选取概率进行融合处理;
根据所述候选词语的被选取概率的融合处理结果,选取至少一个候选词语组成与所述文本内容相对应的目标文本。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取与文本处理模型的使用环境相匹配的训练样本,其中,所述训练样本中包括相应目标用户的历史行为信息;
通过所述文本处理模型的提取与所述训练样本相匹配的特征集合;
根据与所述训练样本相匹配的特征集合和相应的目标文本标签对所述文本处理模型进行训练,以实现确定与所述文本处理模型相适配的模型参数。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
将所述文本内容及对应的与所述文本内容相匹配目标文本发送至区块链网络,以使
所述区块链网络的节点将所述文本内容及对应的与所述文本内容相匹配目标文本填充至新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链的尾部。
8.一种多模态智能文本处理装置,其特征在于,所述装置包括:
信息传输模块,用于获取触摸屏中选中操作对应的文本内容;
信息处理模块,用于提取与所述文本内容相匹配的特征向量;
所述信息处理模块,用于根据所述特征向量确定与所述文本内容所对应的至少一个词语级的隐变量;
所述信息处理模块,用于根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的候选词语以及所述候选词语的被选取概率;
所述信息处理模块,用于根据所述候选词语的被选取概率以及所述可识别文本信息,选取至少一个候选词语组成与所述文本内容相对应的目标文本;
所述信息处理模块,用于在所述触摸屏中以与所述选中操作对应的显示方式,显示所述目标文本。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至7任一项所述的多模态智能文本处理方法。
10.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至7任一项所述的多模态智能文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911363559.XA CN111026320B (zh) | 2019-12-26 | 2019-12-26 | 多模态智能文本处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911363559.XA CN111026320B (zh) | 2019-12-26 | 2019-12-26 | 多模态智能文本处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111026320A true CN111026320A (zh) | 2020-04-17 |
CN111026320B CN111026320B (zh) | 2022-05-27 |
Family
ID=70213644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911363559.XA Active CN111026320B (zh) | 2019-12-26 | 2019-12-26 | 多模态智能文本处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111026320B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428025A (zh) * | 2020-06-10 | 2020-07-17 | 科大讯飞(苏州)科技有限公司 | 文本摘要方法、装置、电子设备和存储介质 |
CN111552797A (zh) * | 2020-04-30 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 名称预测模型的训练方法、装置、电子设备及存储介质 |
CN111552890A (zh) * | 2020-04-30 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 基于名称预测模型的名称信息处理方法、装置、电子设备 |
CN112149425A (zh) * | 2020-09-15 | 2020-12-29 | 深圳康佳电子科技有限公司 | 终端控制方法、装置、设备及计算机可读存储介质 |
CN113778580A (zh) * | 2021-07-28 | 2021-12-10 | 赤子城网络技术(北京)有限公司 | 模态用户界面显示方法、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011090160A (ja) * | 2009-10-22 | 2011-05-06 | Sharp Corp | 電子機器 |
CN107945798A (zh) * | 2017-12-18 | 2018-04-20 | 唐丙振 | 一种人声智能识别触控开关及其控制方法 |
CN108986801A (zh) * | 2017-06-02 | 2018-12-11 | 腾讯科技(深圳)有限公司 | 一种人机交互方法、装置及人机交互终端 |
CN110413738A (zh) * | 2019-07-31 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、服务器及存储介质 |
CN110502610A (zh) * | 2019-07-24 | 2019-11-26 | 深圳壹账通智能科技有限公司 | 基于文本语义相似度的智能语音签名方法、装置及介质 |
-
2019
- 2019-12-26 CN CN201911363559.XA patent/CN111026320B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011090160A (ja) * | 2009-10-22 | 2011-05-06 | Sharp Corp | 電子機器 |
CN108986801A (zh) * | 2017-06-02 | 2018-12-11 | 腾讯科技(深圳)有限公司 | 一种人机交互方法、装置及人机交互终端 |
CN107945798A (zh) * | 2017-12-18 | 2018-04-20 | 唐丙振 | 一种人声智能识别触控开关及其控制方法 |
CN110502610A (zh) * | 2019-07-24 | 2019-11-26 | 深圳壹账通智能科技有限公司 | 基于文本语义相似度的智能语音签名方法、装置及介质 |
CN110413738A (zh) * | 2019-07-31 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、服务器及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111552797A (zh) * | 2020-04-30 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 名称预测模型的训练方法、装置、电子设备及存储介质 |
CN111552890A (zh) * | 2020-04-30 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 基于名称预测模型的名称信息处理方法、装置、电子设备 |
CN111428025A (zh) * | 2020-06-10 | 2020-07-17 | 科大讯飞(苏州)科技有限公司 | 文本摘要方法、装置、电子设备和存储介质 |
CN112149425A (zh) * | 2020-09-15 | 2020-12-29 | 深圳康佳电子科技有限公司 | 终端控制方法、装置、设备及计算机可读存储介质 |
CN113778580A (zh) * | 2021-07-28 | 2021-12-10 | 赤子城网络技术(北京)有限公司 | 模态用户界面显示方法、电子设备及存储介质 |
CN113778580B (zh) * | 2021-07-28 | 2023-12-08 | 赤子城网络技术(北京)有限公司 | 模态用户界面显示方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111026320B (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111026319B (zh) | 一种智能文本处理方法、装置、电子设备及存储介质 | |
CN111026320B (zh) | 多模态智能文本处理方法、装置、电子设备及存储介质 | |
US9318027B2 (en) | Caching natural language questions and results in a question and answer system | |
CN111552799B (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN109815333B (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
CN111026858B (zh) | 基于项目推荐模型的项目信息处理方法及装置 | |
US20220138432A1 (en) | Relying on discourse analysis to answer complex questions by neural machine reading comprehension | |
CN108959559B (zh) | 问答对生成方法和装置 | |
US20210056113A1 (en) | Utilizing unsumbitted user input data for improved task performance | |
CN111552797B (zh) | 名称预测模型的训练方法、装置、电子设备及存储介质 | |
AU2022223275B2 (en) | Auditing citations in a textual document | |
US20210191938A1 (en) | Summarized logical forms based on abstract meaning representation and discourse trees | |
US20200257679A1 (en) | Natural language to structured query generation via paraphrasing | |
US20220114346A1 (en) | Multi case-based reasoning by syntactic-semantic alignment and discourse analysis | |
WO2020149959A1 (en) | Conversion of natural language query | |
CN110162771A (zh) | 事件触发词的识别方法、装置、电子设备 | |
CN111552798B (zh) | 基于名称预测模型的名称信息处理方法、装置、电子设备 | |
US11120064B2 (en) | Transliteration of data records for improved data matching | |
CN111142728B (zh) | 车载环境智能文本处理方法、装置、电子设备及存储介质 | |
WO2022141872A1 (zh) | 文献摘要生成方法、装置、计算机设备及存储介质 | |
CN113343108A (zh) | 推荐信息处理方法、装置、设备及存储介质 | |
Zhou et al. | Effective approaches to combining lexical and syntactical information for code summarization | |
Yang et al. | PurExt: Automated Extraction of the Purpose‐Aware Rule from the Natural Language Privacy Policy in IoT | |
CN111552890B (zh) | 基于名称预测模型的名称信息处理方法、装置、电子设备 | |
Fan et al. | Topic modeling methods for short texts: A survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40022208 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |