CN112417875A - 配置信息的更新方法、装置、计算机设备及介质 - Google Patents

配置信息的更新方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN112417875A
CN112417875A CN202011286425.5A CN202011286425A CN112417875A CN 112417875 A CN112417875 A CN 112417875A CN 202011286425 A CN202011286425 A CN 202011286425A CN 112417875 A CN112417875 A CN 112417875A
Authority
CN
China
Prior art keywords
sequence
word segmentation
word
participle
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011286425.5A
Other languages
English (en)
Other versions
CN112417875B (zh
Inventor
张光才
邝国宏
冯文平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Pingan Zhihui Enterprise Information Management Co ltd
Original Assignee
Shenzhen Pingan Zhihui Enterprise Information Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Pingan Zhihui Enterprise Information Management Co ltd filed Critical Shenzhen Pingan Zhihui Enterprise Information Management Co ltd
Priority to CN202011286425.5A priority Critical patent/CN112417875B/zh
Publication of CN112417875A publication Critical patent/CN112417875A/zh
Application granted granted Critical
Publication of CN112417875B publication Critical patent/CN112417875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及通信领域,公开了一种配置信息的更新方法、装置、计算机设备及介质,所述方法包括:接收配置更新请求,获取配置更新请求中包含的业务标识和初始语句,并根据业务标识匹配业务场景,得到目标业务场景,进而获取目标业务场景对应的预设场景用词,作为候选用词,再对初始语句进行分词处理,得到基础分词序列,根据候选用词,依次识别基础分词序列中包含的业务对象分词和逻辑分词,并将识别结果按照位置的前后顺序进行排序,得到转换分词序列,最后按照预设的语法转换规则,对转换分词序列进行表达式转换,生成目标表达式,并基于目标表达式,对配置信息进行更新,本发明提高配置信息更新效率。

Description

配置信息的更新方法、装置、计算机设备及介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种配置信息的更新方法、装置、计算机设备及介质。
背景技术
规则表达式是计算机编程领域常用的逻辑处理方法。一条规则表达式往往包括了计算的对象,计算的逻辑,计算的结果,对不同结果后续处理逻辑。程序可以对规则表达式计算来实现程序内的逻辑分支。
在大型组织的业务场景中,所需处理的业务对象是海量且变化的,业务数据逻辑是各不相同的,这些数据逻辑预先配置在服务端,且需要根据实际需求进行配置更新,现有的方式是通过预设一些固定条件,通过对这些固定条件进行组合的方式,来生成新的规则表达式,实现对规则表达式进行更新,这种方式不够灵活,使得配置数据更新效率较低。
发明内容
本发明实施例提供一种配置信息的更新方法、装置、计算机设备和存储介质,以配置信息的更新效率。
为了解决上述技术问题,本申请实施例提供一种配置信息的更新方法,包括:
接收配置更新请求,获取所述配置更新请求中包含的业务标识和初始语句,并根据所述业务标识匹配业务场景,得到目标业务场景;
获取所述目标业务场景对应的预设场景用词,作为候选用词,其中,所述候选用词包括逻辑用词和业务对象分词;
对所述初始语句进行分词处理,得到基础分词序列;
根据所述候选用词,依次识别所述基础分词序列中包含的业务对象分词,作为目标对象分词,识别所述基础分词序列中包含的逻辑分词,作为目标逻辑分词,并对所述目标对象分词和所述目标逻辑分词按照位置的前后顺序进行排序,得到转换分词序列;
按照预设的语法转换规则,对所述转换分词序列进行表达式转换,生成目标表达式,并基于所述目标表达式,对配置信息进行更新。
可选地,对所述初始语句进行分词处理,得到基础分词序列包括:
获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据;
对初始语句进行分词解析,得到M个分词序列,其中,M为正整数;
针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列;
将所述目标分词序列中的每个分词,作为初始语句中包含的基础分词,并按照基础分词位置的前后顺序进行排序,得到基础分词序列。
可选地,所述针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率包括:
针对每个所述分词序列,获取该分词序列内的所有分词a1,a2,...,an-1,an,其中,n为大于1的正整数;
依据所述词序列数据,使用如下公式计算n个分词中第n个分词an出现在词序列(a1a2…an-1)之后的概率,将所述概率作为该分词序列的发生概率:
Figure BDA0002782541420000021
其中,P(an|a1a2…an-1an)为n个分词中第n个分词an出现在词序列(a1a2…an-1)之后的概率,C(a1a2…an-1an)为词序列a1a2…an-1an的词序列频度,C(a1a2…an-1)为词序列(a1a2…an-1)的词序列频度。
可选地,在所述获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据之前,所述配置信息的更新方法还包括:
构建业务场景信息库;
基于所述业务场景信息库,生成补充语料库;
将所述补充语料库与预设的基础语料库进行组合,得到所述预设的训练语料库。
可选地,所述基于所述业务场景信息库,生成补充语料库包括:
提取所述业务场景信息库中的所述业务资讯;
对所述业务资讯进行分词处理,得到关键分词;
建立所述关键分词与对应的所述业务资讯之间的映射关系,并将所述业务资讯、所述关键分词和所述映射关系对应保存到所述补充语料库中。
可选地,所述按照预设的语法转换规则,对所述转换分词序列进行表达式转换,生成目标表达式包括:
针对所述转换分词序列中的每个所述目标对象分词和每个所述逻辑分词,分别进行逻辑表达,得到逻辑表达对象;
根据所述转换分词序列中每个业务对象分词和和逻辑分词的位置信息,确定相邻逻辑表达对象之间的关联关系;
根据所述关联关系,生成拼接指令;
根据预设的指令编写规则,结合所述逻辑表达对象和所述拼接指令,生成所述规则表达式。
为了解决上述技术问题,本申请实施例还提供一种配置信息的更新装置,包括:
请求解析模块,用于接收配置更新请求,获取所述配置更新请求中包含的业务标识和初始语句,并根据所述业务标识匹配业务场景,得到目标业务场景;
词库选取模块,用于获取所述目标业务场景对应的预设场景用词,作为候选用词,其中,所述候选用词包括逻辑用词和业务对象分词;
语句分词模块,用于对所述初始语句进行分词处理,得到基础分词序列;
分词转换模块,用于根据所述候选用词,依次识别所述基础分词序列中包含的业务对象分词,作为目标对象分词,识别所述基础分词序列中包含的逻辑分词,作为目标逻辑分词,并对所述目标对象分词和所述目标逻辑分词按照位置的前后顺序进行排序,得到转换分词序列;
配置更新模块,用于按照预设的语法转换规则,对所述转换分词序列进行表达式转换,生成目标表达式,并基于所述目标表达式,对配置信息进行更新。
可选地,所述语句分词模块包括:
语料库获取单元,用于获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据;
分词解析单元,用于对初始语句进行分词解析,得到M个分词序列,其中,M为正整数;
概率计算单元,用于针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
序列确定单元,用于从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列;
配需单元,用于将所述目标分词序列中的每个分词,作为初始语句中包含的基础分词,并按照基础分词位置的前后顺序进行排序,得到基础分词序列。
可选地,所述概率计算单元包括:
分词获取子单元,用于针对每个所述分词序列,获取该分词序列内的所有分词a1,a2,...,an-1,an,其中,n为大于1的正整数;
发生概率计算子单元,用于依据所述词序列数据,使用如下公式计算n个分词中第n个分词an出现在词序列(a1a2…an-1)之后的概率,将所述概率作为该分词序列的发生概率:
Figure BDA0002782541420000041
其中,P(an|a1a2…an-1an)为n个分词中第n个分词an出现在词序列(a1a2…an-1)之后的概率,C(a1a2…an-1an)为词序列a1a2…an-1an的词序列频度,C(a1a2…an-1)为词序列(a1a2…an-1)的词序列频度。
可选地,所述配置信息的更新装置还包括:
场景信息库构建模块,用于构建业务场景信息库;
补充语料库生成模块,用于基于所述业务场景信息库,生成补充语料库;
训练语料库将所述补充语料库与预设的基础语料库进行组合,得到所述预设的训练语料库。
可选地,所述补充语料库生成模块包括:
资讯提取单元,用于提取所述业务场景信息库中的所述业务资讯;
分词单元,用于对所述业务资讯进行分词处理,得到关键分词;
补充语料库构建单元,用于建立所述关键分词与对应的所述业务资讯之间的映射关系,并将所述业务资讯、所述关键分词和所述映射关系对应保存到所述补充语料库中。
可选地,所述配置更新模块包括:
分词转换单元,用于针对所述转换分词序列中的每个所述目标对象分词和每个所述逻辑分词,分别进行逻辑表达,得到逻辑表达对象;
关系建立单元,用于根据所述转换分词序列中每个业务对象分词和和逻辑分词的位置信息,确定相邻逻辑表达对象之间的关联关系;
指令拼接单元,用于根据所述关联关系,生成拼接指令;
表达式生成单元,用于根据预设的指令编写规则,结合所述逻辑表达对象和所述拼接指令,生成所述规则表达式。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述配置信息的更新方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述配置信息的更新方法的步骤。
本发明实施例提供的配置信息的更新方法、装置、计算机设备及存储介质,通过接收配置更新请求,获取配置更新请求中包含的业务标识和初始语句,并根据业务标识匹配业务场景,得到目标业务场景,进而获取目标业务场景对应的预设场景用词,作为候选用词,其中,候选用词包括逻辑用词和业务对象分词,再对初始语句进行分词处理,得到基础分词序列,根据候选用词,依次识别基础分词序列中包含的业务对象分词,作为目标对象分词,识别基础分词序列中包含的逻辑分词,作为目标逻辑分词,并对目标对象分词和目标逻辑分词按照位置的前后顺序进行排序,得到转换分词序列,最后按照预设的语法转换规则,对转换分词序列进行表达式转换,生成目标表达式,并基于目标表达式,对配置信息进行更新,实现通过接收客户端配置更新请求中的语句,进行分词和解析,生成计算机可读的目标表达式,进而根据目标表达式实现对配置信息的更新,提高配置信息更新效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性***架构图;
图2是本申请的配置信息的更新方法的一个实施例的流程图;
图3是根据本申请的配置信息的更新装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture E界面显示perts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureE界面显示perts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的配置信息的更新方法由服务器执行,相应地,配置信息的更新装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用***。
请参阅图2,图2示出本发明实施例提供的一种配置信息的更新方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S201:接收配置更新请求,获取配置更新请求中包含的业务标识和初始语句,并根据业务标识匹配业务场景,得到目标业务场景。
具体地,用户在客户端在进行规则配置时,先选择业务场景(每个业务场景对应唯一业务标识),进而采用自然语言输入需要更新或添加的配置内容,客户端将业务场景对应的标识作为业务标识,将输入的配置内容作为初始语句,根据业务标识和初始语句生成配置请求并发送到服务端,服务端接收该配置请求,并获取其中包含的业务标识和初始语句,根据业务标识先匹配指定的业务场景,作为目标业务场景。
需要说明的是,本实施例中,输入的配置内容可以是自然语言,而非特定的计算机可读指令或其组合。
具体匹配业务场景的方式,可以是通过遍历查询、字符串匹配等方式,此处不做限制。
S202:获取目标业务场景对应的预设场景用词,作为候选用词,其中,候选用词包括逻辑用词和业务对象分词。
具体地,在确认目标业务场景后,从服务端预设的数据库中,获取目标业务场景对应预设场景用词,作为候选用词,其中,候选分词包括逻辑用词和业务对象分词。
需要说明的是,不同的业务场景,根据实际需求预设有不同的逻辑用词和业务对象用词。
其中,业务对应的逻辑用词包括但不限于:普通运算符、逻辑预算符、括号、数字等,业务对象分词主要指业务中的专业术语等,例如,薪酬管理业务中的底薪、绩效分和出勤率等。
S203:对初始语句进行分词处理,得到基础分词序列。
具体地,通过预设的分词方式,对初始语句均进行分词处理,得到每个基础分词。
其中,预设的分词方式包括但不限于:通过第三方分词工具或者分词算法等。
其中,常见的第三方分词工具包括但不限于:Stanford NLP分词器、ICTClAS分词***、ansj分词工具和HanLP中文分词工具等。
其中,分词算法包括但不限于:最大正向匹配(Maximum Matching,MM)算法、逆向最大匹配(ReverseDirectionMaximum Matching Method,RMM)算法、双向最大匹配(Bi-directction Matching method,BM)算法、隐马尔科夫模型(Hidden Markov Model,HMM)和N-gram模型等。
容易理解地,通过分词的方式提取基础分词,一方面,可以过滤掉有效初始语句中一些无意义的词汇,另一方面,也有利于后续使用这些基础分词进行语义识别。
S204:根据候选用词,依次识别基础分词序列中包含的业务对象分词,作为目标对象分词,识别基础分词序列中包含的逻辑分词,作为目标逻辑分词,并对目标对象分词和目标逻辑分词按照位置的前后顺序进行排序,得到转换分词序列。
具体地,采用相似词匹配的方式,将候选用词与基础分词序列中的分词进行匹配,得到目标逻辑分词和目标对象分词,并根据每个目标逻辑分词和每个目标对象分词在基础分词序列中对应的位置进行排序,得到转换分词序列。
其中,相似词匹配的方式,具体包括但不限于:相似度值计算,模糊匹配、语义识别、分词聚类等。
S205:按照预设的语法转换规则,对转换分词序列进行表达式转换,生成目标表达式,并基于目标表达式,对配置信息进行更新。
具体地,按照预设的语法转换规则,对转换分词序列进行规则表达式的转换,得到目标表达式,该目标表达式为可被计算机处理器直接执行的计算机程序,实现通过自然语言快速进行后台业务规则的配置,提高了配置效率。
其中,预设的语法转换规则可根据实际需求进行设置,本实施例中,通过构建逻辑分词、业务对象分词与函数的映射关系,来进行自然语义转计算机程序,进而通过计算机程序的语法规则,进行拼接和修复。
本实施例中,通过接收配置更新请求,获取配置更新请求中包含的业务标识和初始语句,并根据业务标识匹配业务场景,得到目标业务场景,进而获取目标业务场景对应的预设场景用词,作为候选用词,其中,候选用词包括逻辑用词和业务对象分词,再对初始语句进行分词处理,得到基础分词序列,根据候选用词,依次识别基础分词序列中包含的业务对象分词,作为目标对象分词,识别基础分词序列中包含的逻辑分词,作为目标逻辑分词,并对目标对象分词和目标逻辑分词按照位置的前后顺序进行排序,得到转换分词序列,最后按照预设的语法转换规则,对转换分词序列进行表达式转换,生成目标表达式,并基于目标表达式,对配置信息进行更新,实现通过接收客户端配置更新请求中的语句,进行分词和解析,生成计算机可读的目标表达式,进而根据目标表达式实现对配置信息的更新,提高配置信息更新效率。
在本实施例的一些可选的实现方式中,步骤S203中,对初始语句进行分词处理,得到基础分词序列包括:
获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据;
对初始语句进行分词解析,得到M个分词序列,其中,M为正整数;
针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列;
将目标分词序列中的每个分词,作为初始语句中包含的基础分词,并按照基础分词位置的前后顺序进行排序,得到基础分词序列。
具体地,训练语料库是用来为了对使用自然语言中的初始语句进行评估,而使用相关语料进行训练得到的语料库,通过使用N-gram模型对预设的训练语料库中每个语料进行统计分析,得出预设的训练语料库中一个语料H出现在另一个语料I之后的次数,进而得到“语料I+语料H”组成的词序列出现的词序列数据。本发明实施例中训练语料库中的内容包含但不限于:业务场景的网页站点、咨询信息、业务语料和通用语料库等。
其中,语料库(Corpus)是指经科学取样和加工的大规模电子文本库。语料库是语言学研究的基础资源,也是经验主义语言研究方法的主要资源,应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面,语料,即语言材料,语料是语言学研究的内容,也是构成语料库的基本单元。
例如,在一具体实施方式中,预设的训练语料库为通过对热门网络话题和时事新闻通过网络爬虫的方式进行爬取,得到“时事”领域的语料库。
其中,词序列是指由至少两个语料按照一定顺序组合而成的序列,词序列频度是指该词序列出现的次数占整个语料库中分词(Word Segmentation)出现次数的比例,这里的分词指的是将连续的字序列按照预设的组合方式进行组合得到的词序列。例如,某个词序列“爱吃西红柿”在整个语料库中出现的次数为100次,整个语料库所有分词出现的次数之和为100000次,则词序列“爱吃西红柿”的词序列频度为0.0001。
其中,N-gram模型是大词汇连续文字语义识别中常用的一种语言模型,利用上下文中相邻词间的搭配信息,在需要把连续无空格的文字转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,提高了词序列确定的准确性。
进一步地,具体地,每个初始语句,断句方式不一样,理解出的语句可能存在差别,为保证语句理解的正确性,服务端在获取到初始语句后,获取该基础语句的M个分词序列的组成,M为所有可能出现的分词序列的总数。
其中,每个分词序列均是将一个初始语句进行划分得到的一种结果,得到的包含至少两个分词的文字序列。
例如,在一具体实施方式中,一初始语句为“今天真热”,对该基础语句进行解析,得到分词序列A为:“今天”、“真”、“热”,得到分词序列B为:“今”、“天真”、“热”等。
进一步地,具体地,根据步骤S32中获取到的词序列数据,对每个分词序列进行发生概率计算,得到M个分词序列的发生概率。
对分词序列计算发生概率具体可使用马尔科夫假设理论:第Y个词的出现只与前面Y-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计Y个词同时出现的次数得到。即:
P(T)=P(W1W2...WY)=P(W1)P(W2|W1)...P(WY|W1W2...WY-1)公式(1)
其中,P(T)为整句出现的概率,P(WY|W1W2...WY-1)为第Y个分词出现在Y-1个分词组成的词序列之后的概率。
例如:在“中华民族是一个有着悠久文明历史的民族”这句话进行语音识别后,划分的一种分词序列为:“中华民族”、“是”、“一个”、“有着”、“悠久”、“文明”、“历史”、“的”、“民族”,一共出现了9个分词,当n=9的时候,即计算“民族”这个分词在出现在“中华民族是一个有着悠久文明历史的”这个词序列之后的概率。
进一步地,具体地,针对每个分词序列,通过计算均得到一个发生概率,共得到M个分词序列的发生概率,将这M个分词序列的发生概率分别与预设概率阈值进行比较,选取大于或者等于预设概率阈值的发生概率,作为有效发生概率,进而找到有效发生概率对应的分词序列,将这些分词序列作为目标分词序列。
通过与预设概率阈值进行比较,过滤掉发生概率不符合要求的分词序列,从而使得选取的目标分词序列更为接近自然语言中表达的含义,提高了语义识别的准确率。
优选地,在本实施例中,选取最大发生概率对应的分词序列,作为目标分词序列,以便减少后续的运算量,提高初始语句分词的效率。
值得说明的是,为了提高初始语句的分词效率,在本实施例中,获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据的过程,可以在识别初始语句之前进行,并将得到的词序列数据进行存储,在需要对初始语句进行语义识别时,直接调用该词序列数据即可。
在本实施例中,通过获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据,方便后续计算发生概率时可直接使用词序列数据,从而节省了计算概率的时间,有利于提高初始语句识别效率,同时,对初始语句进行分词解析,得到M个分词序列,进而针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率,再从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列,并将目标分词序列中的每个分词,作为基础语句中包含的基础分词有利于提高分词的准确率。
在本实施例的一些可选的实现方式中,针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率包括:
针对每个分词序列,获取该分词序列内的所有分词a1,a2,...,an-1,an,其中,n为大于1的正整数;
依据词序列数据,使用如下公式计算n个分词中第n个分词an出现在词序列(a1a2…an-1)之后的概率,将概率作为该分词序列的发生概率:
Figure BDA0002782541420000121
其中,P(an|a1a2…an-1an)为n个分词中第n个分词an出现在词序列(a1a2…an-1)之后的概率,C(a1a2…an-1an)为词序列a1a2…an-1an的词序列频度,C(a1a2…an-1)为词序列(a1a2…an-1)的词序列频度。
具体地,获取该分词序列内的分词是分别按照词序从前到后的顺序依次获取,例如,针对一分词序列“我爱中国”,按照词序从前到后的顺序依次进行分词提取,得到第一个分词“我”,第二个分词“爱”,第三个分词“中国”。
进一步地,,每个词序列的词序列频度均通过N-gram模型对训练语料库的分析得出,此处仅需按照公式(2)进行计算即可。
值得说明的是,由于N-gram模型使用的训练语料库较为庞大,而且数据稀疏严重,时间复杂度高,对于兴趣点计算出的发生概率数值偏小,所以也可以使用二元模型来计算发生概率。
其中,二元模型是通过使用公式(2)来分别计算分词a2出现在分词a1之后的概率A1,分词a3出现在分词a2之后的概率A2,...,分词an出现在分词an-1之后的概率An-1,进而使用公式(3)计算整个词序列(a1a2...an-1an)的发生概率:
P(T')=A1A2...An-1公式(3)
本实施例中,针对每个分词序列,获取该分词序列内的所有分词,并计算最后一个分词出现在前面所有分词组合而成的词序列之后的概率来得到整个句子出现的概率,进而评估句子的分词方式是否合理,从而识别出自然语言的语音信息包含的语义,得到相关要分词等信息,提高分词的准确性。
在本实施例的一些可选的实现方式中,步骤S203中,在获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据之前,配置信息的更新方法还包括:
构建业务场景信息库;
基于业务场景信息库,生成补充语料库;
将补充语料库与预设的基础语料库进行组合,得到预设的训练语料库。
具体地,在进行分词识别之前,为加强对业务相关的分词识别的准确性,需要构建一个包含业务相关信息较全面的业务场景信息库,该业务场景信息库中包含每个业务场景的分词信息,可以使用现有的通用模型来生成业务场景信息库,也可以通过人工采集兴趣点的方式进行业务场景信息库的构建,或者使用网络爬虫的方式,获取业务场景,来构建业务场景信息库,具体方式在此不做具体限制。
优选地,本发明实施例采用的方式为使用网络爬虫的方式,来获取业务场景相关资讯,并通过爬取的数据构建业务场景信息库。
其中,预设的基础语料库根据实际需要来进行选取,例如,选取相同领域近三年业务相关的新闻和事件,并经过文本清理和整理生成的语料库作为基础语料库。
本实施例中,通过构建业务场景信息库,并基于业务场景信息库,生成补充语料库,进而将补充语料库与预设的基础语料库进行组合,得到训练语料库,使得用来进行N-gram模型分析的训练语料库不仅具有评估语句是否合理的能力,还包含了业务场景的相关信息,从而可以对一条语句中是否包含业务场景进行准确的评估,有利于提高自然语言的信息识别准确率和对业务场景中信息识别的准确率。
在本实施例的一些可选的实现方式中,基于业务场景信息库,生成补充语料库包括:
提取业务场景信息库中的业务资讯;
对业务资讯进行分词处理,得到关键分词;
建立关键分词与对应的业务资讯之间的映射关系,并将业务资讯、关键分词和映射关系对应保存到补充语料库中。
本实施例中,通过对业务资讯进行分词解析,得到关键分词,进而构建关键分词与对应的业务资讯之间的映射关系,并存入到补充语料库中,在后续可以根据该映射关系,快速进行语义识别和分词处理,有利于提高分词的效率和准确率。
在本实施例的一些可选的实现方式中,步骤S205中,按照预设的语法转换规则,对转换分词序列进行表达式转换,生成目标表达式包括:
针对转换分词序列中的每个目标对象分词和每个逻辑分词,分别进行逻辑表达,得到逻辑表达对象;
根据转换分词序列中每个业务对象分词和和逻辑分词的位置信息,确定相邻逻辑表达对象之间的关联关系;
根据关联关系,生成拼接指令;
根据预设的指令编写规则,结合逻辑表达对象和拼接指令,生成规则表达式。
具体地,目标对象分词和逻辑分词为标准化的词语,通过将逻辑表达,将标准化的词语转化为对应的逻辑表达对象,例如,将逻辑分词“自增”转化为逻辑表达为“i++”,转换分词序列中每个业务对象分词和和逻辑分词的位置将会导致其执行逻辑的不同,因而,通过每个业务对象分词和和逻辑分词的位置的位置信息,确定任意两个相邻逻辑表达对象之间的关联关系,进而根据该关联关系生成拼接指令,并根据预设的指令编写规则,结合逻辑表达对象和拼接指令,生成规则表达式。
其中,关联关系具体包括但不限于:循环关系、条件关系、判断关系和并列关系等,根据关联关系,生成拼接指令,具体可通过对每种关联关系进行预先设置对应的拼接指令来实现。
本实施例中,通过将转换分词序列中的分词进行逻辑表达,得到逻辑表达对象,再确定相邻逻辑表达对象之间的关联关系,进而根据关联关系,生成拼接指令,再根据预设的指令编写规则,结合逻辑表达对象和拼接指令,生成规则表达式,实现将自然语言识别语义后,得到的标准分词转化为计算机可识别的规则表达式,有利于后续通过该规则表达式对配置信息进行准确更新,提高了配置信息更新的准确性和效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图3示出与上述实施例配置信息的更新方法一一对应的配置信息的更新装置的原理框图。如图3所示,该配置信息的更新装置包括请求解析模块31、词库选取模块32、语句分词模块33、分词转换模块34和配置更新模块35。各功能模块详细说明如下:
请求解析模块31,用于接收配置更新请求,获取配置更新请求中包含的业务标识和初始语句,并根据业务标识匹配业务场景,得到目标业务场景;
词库选取模块32,用于获取目标业务场景对应的预设场景用词,作为候选用词,其中,候选用词包括逻辑用词和业务对象分词;
语句分词模块33,用于对初始语句进行分词处理,得到基础分词序列;
分词转换模块34,用于根据候选用词,依次识别基础分词序列中包含的业务对象分词,作为目标对象分词,识别基础分词序列中包含的逻辑分词,作为目标逻辑分词,并对目标对象分词和目标逻辑分词按照位置的前后顺序进行排序,得到转换分词序列;
配置更新模块35,用于按照预设的语法转换规则,对转换分词序列进行表达式转换,生成目标表达式,并基于目标表达式,对配置信息进行更新。
可选地,语句分词模块33包括:
语料库获取单元,用于获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据;
分词解析单元,用于对初始语句进行分词解析,得到M个分词序列,其中,M为正整数;
概率计算单元,用于针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
序列确定单元,用于从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列;
配需单元,用于将目标分词序列中的每个分词,作为初始语句中包含的基础分词,并按照基础分词位置的前后顺序进行排序,得到基础分词序列。
可选地,概率计算单元包括:
分词获取子单元,用于针对每个分词序列,获取该分词序列内的所有分词a1,a2,...,an-1,an,其中,n为大于1的正整数;
发生概率计算子单元,用于依据词序列数据,使用如下公式计算n个分词中第n个分词an出现在词序列(a1a2…an-1)之后的概率,将概率作为该分词序列的发生概率:
Figure BDA0002782541420000161
其中,P(an|a1a2…an-1an)为n个分词中第n个分词an出现在词序列(a1a2…an-1)之后的概率,C(a1a2…an-1an)为词序列a1a2…an-1an的词序列频度,C(a1a2…an-1)为词序列(a1a2…an-1)的词序列频度。
可选地,配置信息的更新装置还包括:
场景信息库构建模块,用于构建业务场景信息库;
补充语料库生成模块,用于基于业务场景信息库,生成补充语料库;
训练语料库将补充语料库与预设的基础语料库进行组合,得到预设的训练语料库。
可选地,补充语料库生成模块包括:
资讯提取单元,用于提取业务场景信息库中的业务资讯;
分词单元,用于对业务资讯进行分词处理,得到关键分词;
补充语料库构建单元,用于建立关键分词与对应的业务资讯之间的映射关系,并将业务资讯、关键分词和映射关系对应保存到补充语料库中。
可选地,配置更新模块35包括:
分词转换单元,用于针对转换分词序列中的每个目标对象分词和每个逻辑分词,分别进行逻辑表达,得到逻辑表达对象;
关系建立单元,用于根据转换分词序列中每个业务对象分词和和逻辑分词的位置信息,确定相邻逻辑表达对象之间的关联关系;
指令拼接单元,用于根据关联关系,生成拼接指令;
表达式生成单元,用于根据预设的指令编写规则,结合逻辑表达对象和拼接指令,生成规则表达式。
关于配置信息的更新装置的具体限定可以参见上文中对于配置信息的更新方法的限定,在此不再赘述。上述配置信息的更新装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作***和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行电子文件的控制的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的配置信息的更新方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种配置信息的更新方法,其特征在于,包括:
接收配置更新请求,获取所述配置更新请求中包含的业务标识和初始语句,并根据所述业务标识匹配业务场景,得到目标业务场景;
获取所述目标业务场景对应的预设场景用词,作为候选用词,其中,所述候选用词包括逻辑用词和业务对象分词;
对所述初始语句进行分词处理,得到基础分词序列;
根据所述候选用词,依次识别所述基础分词序列中包含的业务对象分词,作为目标对象分词,识别所述基础分词序列中包含的逻辑分词,作为目标逻辑分词,并对所述目标对象分词和所述目标逻辑分词按照位置的前后顺序进行排序,得到转换分词序列;
按照预设的语法转换规则,对所述转换分词序列进行表达式转换,生成目标表达式,并基于所述目标表达式,对配置信息进行更新。
2.如权利要求1所述的配置信息的更新方法,其特征在于,对所述初始语句进行分词处理,得到基础分词序列包括:
获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据;
对初始语句进行分词解析,得到M个分词序列,其中,M为正整数;
针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列;
将所述目标分词序列中的每个分词,作为初始语句中包含的基础分词,并按照基础分词位置的前后顺序进行排序,得到基础分词序列。
3.如权利要求2所述的配置信息的更新方法,其特征在于,所述针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率包括:
针对每个所述分词序列,获取该分词序列内的所有分词a1,a2,...,an-1,an,其中,n为大于1的正整数;
依据所述词序列数据,使用如下公式计算n个分词中第n个分词an出现在词序列(a1a2…an-1)之后的概率,将所述概率作为该分词序列的发生概率:
Figure FDA0002782541410000021
其中,P(an|a1a2…an-1an)为n个分词中第n个分词an出现在词序列(a1a2…an-1)之后的概率,C(a1a2…an-1an)为词序列a1a2…an-1an的词序列频度,C(a1a2…an-1)为词序列(a1a2…an-1)的词序列频度。
4.如权利要求1所述的配置信息的更新方法,其特征在于,在所述获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据之前,所述配置信息的更新方法还包括:
构建业务场景信息库;
基于所述业务场景信息库,生成补充语料库;
将所述补充语料库与预设的基础语料库进行组合,得到所述预设的训练语料库。
5.如权利要求4所述的配置信息的更新方法,其特征在于,所述基于所述业务场景信息库,生成补充语料库包括:
提取所述业务场景信息库中的所述业务资讯;
对所述业务资讯进行分词处理,得到关键分词;
建立所述关键分词与对应的所述业务资讯之间的映射关系,并将所述业务资讯、所述关键分词和所述映射关系对应保存到所述补充语料库中。
6.如权利要求1至5任一项所述的配置信息的更新方法,其特征在于,所述按照预设的语法转换规则,对所述转换分词序列进行表达式转换,生成目标表达式包括:
针对所述转换分词序列中的每个所述目标对象分词和每个所述逻辑分词,分别进行逻辑表达,得到逻辑表达对象;
根据所述转换分词序列中每个业务对象分词和和逻辑分词的位置信息,确定相邻逻辑表达对象之间的关联关系;
根据所述关联关系,生成拼接指令;
根据预设的指令编写规则,结合所述逻辑表达对象和所述拼接指令,生成所述规则表达式。
7.一种配置信息的更新装置,其特征在于,包括:
请求解析模块,用于接收配置更新请求,获取所述配置更新请求中包含的业务标识和初始语句,并根据所述业务标识匹配业务场景,得到目标业务场景;
词库选取模块,用于获取所述目标业务场景对应的预设场景用词,作为候选用词,其中,所述候选用词包括逻辑用词和业务对象分词;
语句分词模块,用于对所述初始语句进行分词处理,得到基础分词序列;
分词转换模块,用于根据所述候选用词,依次识别所述基础分词序列中包含的业务对象分词,作为目标对象分词,识别所述基础分词序列中包含的逻辑分词,作为目标逻辑分词,并对所述目标对象分词和所述目标逻辑分词按照位置的前后顺序进行排序,得到转换分词序列;
配置更新模块,用于按照预设的语法转换规则,对所述转换分词序列进行表达式转换,生成目标表达式,并基于所述目标表达式,对配置信息进行更新。
8.如权利要求7所述的配置信息的更新装置,其特征在于,所述语句分词模块包括:
语料库获取单元,用于获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据;
分词解析单元,用于对初始语句进行分词解析,得到M个分词序列,其中,M为正整数;
概率计算单元,用于针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
序列确定单元,用于从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列;
配需单元,用于将所述目标分词序列中的每个分词,作为初始语句中包含的基础分词,并按照基础分词位置的前后顺序进行排序,得到基础分词序列。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的配置信息的更新方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的配置信息的更新方法。
CN202011286425.5A 2020-11-17 2020-11-17 配置信息的更新方法、装置、计算机设备及介质 Active CN112417875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011286425.5A CN112417875B (zh) 2020-11-17 2020-11-17 配置信息的更新方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011286425.5A CN112417875B (zh) 2020-11-17 2020-11-17 配置信息的更新方法、装置、计算机设备及介质

Publications (2)

Publication Number Publication Date
CN112417875A true CN112417875A (zh) 2021-02-26
CN112417875B CN112417875B (zh) 2023-08-15

Family

ID=74831538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011286425.5A Active CN112417875B (zh) 2020-11-17 2020-11-17 配置信息的更新方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN112417875B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407236A (zh) * 2021-06-29 2021-09-17 上海阵量智能科技有限公司 一种指令汇编方法、装置、计算机设备及存储介质
CN113987146A (zh) * 2021-10-22 2022-01-28 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的新型智能问答***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160684A (ja) * 1993-12-03 1995-06-23 Matsushita Electric Ind Co Ltd 文書圧縮装置および文書圧縮方法
US20180060419A1 (en) * 2016-08-31 2018-03-01 Alibaba Group Holding Limited Generating Prompting Keyword and Establishing Index Relationship
US20190205384A1 (en) * 2017-12-28 2019-07-04 Beijing Baidu Netcom Science And Technology Co., Ltd. Search method and device based on artificial intelligence
CN110597959A (zh) * 2019-09-17 2019-12-20 北京百度网讯科技有限公司 文本信息抽取方法、装置以及电子设备
WO2020153159A1 (ja) * 2019-01-24 2020-07-30 日本電信電話株式会社 系列ラベリング装置、系列ラベリング方法、およびプログラム
CN111914534A (zh) * 2020-07-30 2020-11-10 上海数策软件股份有限公司 构建知识图谱语义映射方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160684A (ja) * 1993-12-03 1995-06-23 Matsushita Electric Ind Co Ltd 文書圧縮装置および文書圧縮方法
US20180060419A1 (en) * 2016-08-31 2018-03-01 Alibaba Group Holding Limited Generating Prompting Keyword and Establishing Index Relationship
US20190205384A1 (en) * 2017-12-28 2019-07-04 Beijing Baidu Netcom Science And Technology Co., Ltd. Search method and device based on artificial intelligence
WO2020153159A1 (ja) * 2019-01-24 2020-07-30 日本電信電話株式会社 系列ラベリング装置、系列ラベリング方法、およびプログラム
CN110597959A (zh) * 2019-09-17 2019-12-20 北京百度网讯科技有限公司 文本信息抽取方法、装置以及电子设备
CN111914534A (zh) * 2020-07-30 2020-11-10 上海数策软件股份有限公司 构建知识图谱语义映射方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407236A (zh) * 2021-06-29 2021-09-17 上海阵量智能科技有限公司 一种指令汇编方法、装置、计算机设备及存储介质
CN113407236B (zh) * 2021-06-29 2024-03-08 上海阵量智能科技有限公司 一种指令汇编方法、装置、计算机设备及存储介质
CN113987146A (zh) * 2021-10-22 2022-01-28 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的新型智能问答***
CN113987146B (zh) * 2021-10-22 2023-01-31 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的智能问答***

Also Published As

Publication number Publication date
CN112417875B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
AU2017408800B2 (en) Method and system of mining information, electronic device and readable storable medium
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN112328761B (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN111177532A (zh) 一种垂直搜索方法、装置、计算机***及可读存储介质
CN111695338A (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN110808032A (zh) 一种语音识别方法、装置、计算机设备及存储介质
WO2021218027A1 (zh) 智能面试中专业术语的提取方法、装置、设备及介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN112417875B (zh) 配置信息的更新方法、装置、计算机设备及介质
CN111353311A (zh) 一种命名实体识别方法、装置、计算机设备及存储介质
CN112836521A (zh) 问答匹配方法、装置、计算机设备及存储介质
CN111160007A (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN112446209A (zh) 一种意图标签的设置方法、设备、装置及存储介质
CN112395391A (zh) 概念图谱构建方法、装置、计算机设备及存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN115392235A (zh) 字符匹配方法、装置、电子设备及可读存储介质
CN111400340A (zh) 一种自然语言处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant