CN112632991A - 一种中文语言的特征信息提取方法及装置 - Google Patents
一种中文语言的特征信息提取方法及装置 Download PDFInfo
- Publication number
- CN112632991A CN112632991A CN202011625809.5A CN202011625809A CN112632991A CN 112632991 A CN112632991 A CN 112632991A CN 202011625809 A CN202011625809 A CN 202011625809A CN 112632991 A CN112632991 A CN 112632991A
- Authority
- CN
- China
- Prior art keywords
- word
- semantic
- text
- recognized
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000013598 vector Substances 0.000 claims abstract description 131
- 238000006243 chemical reaction Methods 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000004590 computer program Methods 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 17
- 238000013515 script Methods 0.000 description 17
- 230000014509 gene expression Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008676 import Effects 0.000 description 6
- 230000009191 jumping Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 239000003607 modifier Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种中文语言的特征信息提取方法及装置,所述方法包括:获取待识别文本;对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。所述装置用于执行上述方法。本发明实施例提供的中文语言的特征信息提取方法及装置,提高了特征信息的提取效率。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种中文语言的特征信息提取方法及装置。
背景技术
基于自然语言处理技术,可以用于识别用户语言描述的操作意图,以更自然的方式,实现人机交互。
现有技术中,可以通过关键词匹配理解用户意图,通常通过预置相关的关键词,匹配关键词在语句中是否出现来判断用户操作意图。由于该技术通过关键词进行匹配,只能识别大概的意图,并且识别的准确率低,经常发生误判和错判的情况。还可以基于正则表达式进行模式匹配识别,通过编写正则表达式,穷举所有可能的表述方式,对其中的查询特征信息进行提取。但是,正则表达式编写规则复杂,技术难度高,通过这种方式进行自然语言处理,工作量巨大,需要大量的人工来编写识别规则;并且规则执行效率低下,支持的场景有限,难以大规模使用。还可以基于神经网络的机器学习技术,通过对海量数据样本的标注和训练,生成数据识别模型,基于生成的模型进行自然语言理解和处理。由于机器学习技术在需要针对大量的样本数据进行标注和训练,模型的学习成本较高,且需要较长的训练周期,在一些无法获取足够样本的场景下,难以使用;并且训练生成的模型优化困难,难以干预或调整。
发明内容
针对现有技术中的问题,本发明实施例提供一种中文语言的特征信息提取方法及装置,能够至少部分地解决现有技术中存在的问题。
一方面,本发明提出一种中文语言的特征信息提取方法,包括:
获取待识别文本;
对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;
根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;
根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。
另一方面,本发明提供一种中文语言的特征信息提取装置,包括:
获取单元,用于获取待识别文本;
第一获得单元,用于对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;
第二获得单元,用于根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;
提取单元,用于根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。
再一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述中文语言的特征信息提取方法的步骤。
又一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述中文语言的特征信息提取方法的步骤。
本发明实施例提供的中文语言的特征信息提取方法及装置,能够获取待识别文本,对待识别文本进行分词并标注词性,获得待识别文本的词向量,根据词向量以及第一语义规则状态机,获得待识别文本对应的第一特征要素,每个第一特征要素对应第一语义规则状态机中的一条第一识别分支,根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得待识别文本的特征信息,能够从自然语言文本中,快速识别出特征信息,提高了特征信息的提取效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例提供的中文语言的特征信息提取方法的流程示意图。
图2是本发明另一实施例提供的中文语言的特征信息提取方法的流程示意图。
图3是本发明一实施例提供的第一语义规则状态机的结构示意图。
图4是本发明再一实施例提供的中文语言的特征信息提取方法的流程示意图。
图5是本发明一实施例提供的语义网络的结构示意图。
图6是本发明又一实施例提供的中文语言的特征信息提取方法的流程示意图。
图7是本发明一实施例提供的第二语义规则状态机的结构示意图。
图8是本发明一实施例提供的修正后的词向量与第二语义规则状态机中的每条第二识别分支进行匹配的流程图。
图9是本发明一实施例提供的中文语言的特征信息提取装置的结构示意图。
图10是本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
为了便于理解本申请提供的技术方案,下面先对本申请技术方案的相关内容进行说明。
本发明实施例提供的中文语言的特征信息提取方法,能够识别用户中文自然语言中数据分析涉及到的特征语言信息,可以精确提取用户语言表达中的数据分析所需的特性信息,而对于语言表达中辅助语义描述(如感叹、疑问语气、重复强调等等),则会进行模糊化处理。
本发明实施例提供的中文语言的特征信息提取方法,可广泛应用于各种基于语音、文本等形式的智能化人机交互,快速提取用户中文自然语言中描述的特征信息,从而实现基于中文自然语言的交互式问答查询,为用户提供智能化的交互体验。
图1是本发明一实施例提供的中文语言的特征信息提取方法的流程示意图,如图1所示,本发明实施例提供的中文语言的特征信息提取方法,包括:
S101、获取待识别文本;
具体地,服务器能够获取待识别文本,所述待识别文本可以是一句话,也可以是一段文本,根据实际需要进行设置,本发明实施例不做限定。其中,本发明实施例提供的中文语言的特征信息提取方法的执行主体包括但不限于服务器。
例如,用户可以通过键盘输入一句话“我想看看2018年以来各地区销售收入的变化情况?”,服务器可以获取到上述语句作为待识别文本。
例如,服务器可以从文件中读取一段文本作为待识别文本。
例如,用户以语音输入的方式输入“我想看看2018年以来各地区销售收入的变化情况?”,服务器可以将上述语音输入转化为文本,将转化的文本作为待识别文本。
S102、对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;
具体地,所服务器在获得所述待识别文本之后,可以对所述待识别文本进行分词,获得所述待识别文本包括的每个词语,然后对每个词语进行词性标注,获得每个词语的词性,并将所述待识别文本包括的每个词语按照阅读顺序进行排序,获得所述待识别文本的词向量,所述词向量包括每个词语、每个词语的词性以及各个词语的排列顺序。
例如,所述服务器基于通用词库对待识别文本“我想看看2018年以来各地区销售收入的变化情况?”进行分词,获得如下分词结果:
我想看看2018年以来各地区销售收入的变化情况?
对上述分词结果中的每个词语进行词性标准并排序,获得表1所示的词向量。序号表示每个词语在词向量中的排列位置。其中,通用词库在当前业界已形成标准规范,本发明直接使用业界标准的分词规范。
例如,所述服务器可以通过通用词库对所述待识别文本进行分词和词性标注,将所述待识别文本按通用词库分割为多个词语,每个词语为词元素。在对每个词语进行词性标注时,如果在通用词库中没有查询到对应的词性,可以将该词语标注为其它类词性。
表1词向量表
序号 | 词 | 词性 |
1 | 我 | r/代词 |
2 | 想 | v/动词 |
3 | 看看 | v/动词 |
4 | 2018 | m/数词 |
5 | 年 | t/时间词 |
6 | 以来 | t/时间词 |
7 | 各 | r/代词 |
8 | 地区 | n/名词 |
9 | 销售 | v/动词 |
10 | 收入 | n/名词 |
11 | 的 | u/助词 |
12 | 变化 | v/动词 |
13 | 情况 | n/名词 |
14 | ? | w/标点 |
S103、根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;
具体地,所述服务器在获得所述词向量之后,可以根据所述词向量和所述第一语义规则状态机,获得所述待识别文本对应的第一特征要素,所述待识别文本对应的第一特征要素可以有一个,两个或者两个以上的第一特征要素。每个第一特征要素与所述第一语义规则状态机中的一条第一识别分支匹配,每个第一特征要素与匹配的第一识别分支对应。其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支。可理解的是,如果每个获得所述待识别文本对应的第一特征要素,那么所述待识别文本的特征信息的提取失败。
例如,所述第一语义规则状态机可以通过特征语义文法文件生成,所述特征语义文法文件是预设的。所述特征语义文法文件可以通过语义特征识别文法语言(SemanticFeature Recognition Grammar Language,简称F语言)进行定义,F语言能够以脚本化的方式定义特征语义文法文件,用于对自然语言文本进行识别和特征提取,易于理解和维护且执行效率高。
S104、根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。
具体地,所述服务器在获得所述待识别文本对应的第一特征要素对应的第一特征要素之后,对于每个第一特征要素,根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得每个第一特征要素对应的特征信息,各个第一特征要素对应的特征信息构成所述待识别文本的特征信息。其中,第一识别分支所对应的转化规则是预设的。
本发明实施例提供的中文语言的特征信息提取方法,能够获取待识别文本,对待识别文本进行分词并标注词性,获得待识别文本的词向量,根据词向量以及第一语义规则状态机,获得待识别文本对应的第一特征要素,每个第一特征要素对应第一语义规则状态机中的一条第一识别分支,根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得待识别文本的特征信息,能够从自然语言文本中,快速识别出特征信息,提高了特征信息的提取效率。
图2是本发明另一实施例提供的中文语言的特征信息提取方法的流程示意图,如图2所示,在上述各实施例的基础上,进一步地,所述根据所述待识别文本的词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素包括:
S1031、将所述待识别文本的词向量与所述第一语义规则状态机中的每条第一识别分支进行匹配;
具体地,所述服务器会将所述待识别文本的词向量与所述第一语义规则状态机中的每条第一识别分支进行匹配,以确定所述词向量中是否存在词语与每条第一识别分支匹配,可以确定所述词向量中的哪些词语与所述第一识别分支匹配,或者确定所述词向量中不存在与所述第一识别分支匹配的词语。可理解的是,如果所述词向量与所述第一语义规则状态机中的所有第一识别分支都不匹配,那么所述服务器可以输入特征信息提取失败的提示信息。
S1032、若判断获知所述词向量包括的词语与所述第一识别分支匹配,则将与所述第一识别分支匹配的词语作为与所述第一识别分支对应的第一特征要素。
具体地,所述服务器如果判断出所述词向量包括的词语与所述第一识别分支匹配,那么将与所述第一识别分支匹配的词语作为所述第一识别分支对应的第一特征要素。可理解的是,所述词向量包括的词语中可以获得一个词语与所述第一识别分支匹配,也可以获得多个词语与所述第一识别分支匹配。
在上述各实施例的基础上,进一步地,所述将所述待识别文本的词向量与所述第一语义规则状态机中的每条第一识别分支进行匹配包括:
按照所述词向量包括的词语的排列顺序,根据每个词语和/或每个词语对应的词性以及第一语义匹配规则将每个词语与每条第一识别分支包括的第一个语义单元进行匹配;其中,每条第一识别分支包括至少一个语义单元;所述第一语义匹配规则是预设的。
具体地,所述服务器可以按照所述词向量包括的词语的排列顺序,将每个词语与每条第一识别分支包括的第一个语义单元进行匹配,在匹配的时候,可以根据所述词语以及所述第一语义匹配规则,判断所述词语与所述第一个语义单元是否匹配;可以根据所述词语的词性以及所述第一语义匹配规则,判断所述词语与所述第一个语义单元是否匹配;还可以根据所述词语和所述词语的词性,以及所述第一个语义匹配规则,判断所述词语与所述第一语义单元是否匹配。其中,所述语义单元根据实际需要进行设置,本发明实施例不做限定。每条第一识别分支包括至少一个语义单元。所述第一语义匹配规则是预设的。
例如,所述语义单元为常量语义单元,包括至少一个常量,所述常量为设定的数值。所述语义单元为单词语义单元,包括至少一个词对象的词性。所述语义单元为截止语义单元,在指定的语义前截止,参数传入截止的语义单元声明,语义为词对象。所述语义单元为到达语义单元,到指定的语义截止,参数传入截止的语义单元声明,语义为词对象。所述语义单元为排除语义单元,指定的语义不允许出现。所述语义单元为分句语义单元,对指定的模式进行匹配,匹配之后将模式所属的整个语句提取出来。所述语义单元为字典语义单元,字典语义单元按引用的字典进行词语匹配。所述语义单元为开始语义单元,用于判断当前词语是否为词向量的第一个词语。所述语义单元为结束语义单元,用于当前词语是否为词向量的最后一个词语。所述语义单元为引用语义单元,用于引用其他的语义单元。所述语义单元为条目编号语义单元,用于识别当前词语是否为条目或目录编号。其中,所述语义为词对象,所述词对象为词语,根据实际需要进行设置,本发明实施例不做限定。所述模式根据实际需要进行设置,本发明实施例不做限定。
例如,所述第一语义匹配规则包括至少一个匹配条件,每个语义单元对应一个匹配条件。
对于常量语义单元,对应的匹配条件为:词语与一个常量相同,那么词语与常量语义单元匹配;或者,词语与常量的开头部分相同,那么继续比较下一个词语,如果连续几个词语的组合能够与常量相同,那么这几个词语与常量语义单元匹配。
对于单词语义单元,可以用word表示,对应的匹配条件为:按声明的词性匹配当前词语的词性,例如word(m),在当前词词性为m(数词)时匹配成功。
对于截止语义单元,可以用before表示,表达式为before(next),对应的匹配条件为:从当前词语的位置P1开始,对next语义单元进行后续匹配,如果next从位置P2开始匹配成功,则从P1(包含)到P2(不包含)之间的位置的词语为匹配结果,词向量当前位置移动至P2-1。其中,next表示截止的语义单元或引用语义单元。
对于到达语义单元,可以用until表示表达式为until(next):从当前词语的位置P1开始,对next语义单元进行后续匹配,如果next从位置P2对应的词向量开始匹配成功,则从P1(包含)到P2(包含)之间的位置的词向量为匹配结果,词向量的当前位置移动至P2。其中,next表示到达语义单元或引用语义单元。
对于排除语义单元,可以用not表示:排除语义单元不进行实际的匹配,但会对后续的语义单元进行限制,在后续语义单元与词向量进行匹配时禁止出现排除语义元设定的词向量。
对于分句语义单元,可以用sentence表示,表达式为sentence(expr),对应的匹配条件为:从当前词语开始对expr进行匹配,如果成功匹配expr位置为从P1(包含)到P2(不包含)。那么,从P1往前搜索任一标点符号“,。!?”出现的位置,记为S1(不存在时记为-1);从P2往后搜索任一标点符号“,。!?”出现的位置,记为S2(不存在时记录最末尾位置)。分句语义单元匹配的范围则为从S1+1(包含)到S2+1(不包含)之间的词向量。其中,expr表示语义单元或者引用语义单元。
对于字典语义单元,可以用dict表示,对应的匹配条件为:加载指定的字典的脚本文件,如果当前词语在字典中出现,则匹配成功,否则当前词语没有出现在字典中,那么匹配不成功。
对于开始语义单元,可以用bof表示,对应的匹配条件为:当前词语为词向量的第一个词语时,匹配成功,否则,当前词语不是词向量的第一个词,匹配不成功。
对于结束语义单元,可以用eof表示,对应的匹配条件为:当前已经读取到词向量的末尾(没有当前词语)时,匹配成功,否则读取到词向量的末尾,还能获得当前词语,匹配不成功。
对于引用语义单元,对应的匹配条件为:将当前词语与引用的语义单元进行匹配,如果匹配成功,在进行后续识别;如果匹配不成功,当前词语匹配不成功。例如某个第一识别分支time_after中引用的语义单元time_year_spec,识别时从当前词语位置开始对语义单元time_year_spec进行递归识别,匹配成功后再进行后续识别。
对于条目编号语义单元,可以用CatagoryID表示,对于的匹配条件为:穷举文档中目录和条目编号可能出现的表示形式,进行匹配,表示形式例如为“一、”、“(1)”、“1.”、“1.1.2”等等。如果当前词语与列举的一种表现形式相同,那么匹配成功,如果当前词语与列举的所有表现形式都不相同,那么匹配失败。
对于占位节点(图3和图5中的圆点):依次识别当前节点出发的后续语义单元,以第一个与当前词语匹配成功的节点为匹配结果,且标记该分支路径为当前分支路径,状态机后续从该分支路径读取下一个语义单元。
在上述各实施例的基础上,进一步地,本发明实施例提供的中文语言的特征信息提取方法还包括:
若判断获知所述词语与所述第一识别分支包括的第一个语义单元匹配,则从所述词语的下一个词语开始按照所述词向量包括的词语的排列顺序依次将每个词语与所述第一识别分支包括的剩余语义单元进行匹配,直到完成所述第一识别分支的匹配。
具体地,所述服务器在判断获知所述词语与所述第一识别分支包括的第一个语义单元匹配之后,那么会根据所述词向量包括的词语的排列顺序,获得所述词语的下一个词语作为当前词语,并获取第一个语义单元的下一个语义单元作为当前语义单元,然后将所述当前词语与当前语义单元进行匹配,如果匹配成功,那么获取当前词语的下一个词语作为当前词语,并获取当前语义单元的的下一个语义单元作为当前语义单元,继续进行匹配。如果匹配不成功,那么获取当前词语的下一个词语作为当前词语,与当前语义单元重新进行匹配。不断重复上述过程,将当前词语与当前语义单元进行匹配,直到完成所述第一识别分支的匹配。其中,所述第一识别分支包括的剩余语义单元是指所述第一识别分支中除了第一个语义单元以外的语义单元。
下面一个具体的实施例来说明本发明实施例提供的中文语言的特征信息提取方法的实现过程。
某招标公告包括如下内容:
某市政府采购中心受市财政局委托,就某市师范高等专科学校印刷采购项目进行询价采购活动,项目编号为2018-1234-X567,询价小组按照询价文件的要求,进行了客观公正的评审,现将评审结果公告如下:
1、采购单位名称:某市师范高等专科学校
地址:某市某街59号
联系人:张某某
电话:135xxxxxxxx
2、集中采购机构:某市政府采购中心
地址:某市某路某号
3、询价时间:2018年4月24日上午9:00时
4、询价公告发布时间:2018年4月25日
5、询价结果:
中标金额:2,706.25元
中标单位名称:某市办公教学设施有限责任公司
中标单位地址:XX市XX路XX号
6、询价小组成员名单:张某某、霍某某、刘某某
若对本项目有异议,请于公告之日起三个工作日内与我中心联系。
联系人:杨某联系电话:1234567
感谢本项目所有投标供应商对某市政府采购中心工作的支持。
特此公告
某市政府采购中心
2018年4月24日
服务器获取上述招标公告的内容作为待识别文本。
服务器通过通用词库对上述招标公告的内容进行分析和词性标注,获得上述招标公告的词向量。上述招标公告的词向量的部分内容如表2所示。其中,通用词库根据实际需要进行设置,本发明实施例不做限定。
表2招标公告的部分词向量
序号 | 词语 | 词性 |
1 | (省略……) | |
2 | 1 | m/数词 |
3 | 、 | w/标点 |
4 | 采购 | v/动词 |
5 | 单位 | n/名词 |
6 | 名称 | n/名词 |
7 | : | w/标点 |
8 | 某市 | r/代词 |
9 | 师范 | j/简称 |
10 | 高等 | a/形容词 |
11 | 专科学校 | i/习语 |
12 | 地址 | n/名词 |
13 | (省略……) | |
14 | 询价 | v/动词 |
15 | 结果 | n/名词 |
16 | : | w/标点 |
17 | 中标 | v/动词 |
18 | 金额 | n/名词 |
19 | 2,706.25 | m/数词 |
20 | 元 | q/两次 |
21 | 中标 | v/动词 |
22 | 单位 | n/名词 |
23 | 名称 | n/名词 |
24 | : | w/标点 |
25 | 某市 | r/代词 |
26 | 办公 | v/动词 |
27 | 教学 | v/动词 |
28 | 设施 | n/名词 |
29 | 有限 | a/形容词 |
30 | 责任 | n/名词 |
31 | 公司 | n/名词 |
32 | 中标 | v/动词 |
33 | 单位 | n/名词 |
34 | 地址 | n/名词 |
35 | (省略……) |
通过F语言编写特征语义文法文件,作为脚本文件,脚本文件命名为bidding.f。bidding.f脚本文件的内容如下:
import"title.dict";
title_tenderee="招标人"|"采购单位""名称"?;
title_bidwinner="中标人"|"中标单位""名称"?;
title_amount="中标金额";
value_expr(VALUE)=word(){1,13};
@tenderee(TENDEREE)=title_tenderee":"value_expr before(dict(title));
@bidwinner(BIDWINNER)=title_bidwinner":"value_expr before(dict(title));
@amount(AMOUNT)=title_amount":"word(m)"元";
上述bidding.f脚本文件通过F语言编写,F语言是一种形式文法语言,语法包括如下要素:
(1)文件
1)脚本规则文件:以.f为扩展名,定义语义单元主体内容;
2)字典文件:以.dict为扩展名,定义查找字典,字典词之间以空白字符分隔。脚本之间支持引用,通过import关键字引入。
(2)引用
F语言支持脚本之间或字典的引用,引用语法如下:
import"<file_name>";
引用时需要指定扩展名:.f表示引用脚本;.dict表示引用字典。
例如:
import"sys/times.f";
import"name_prefixs.dict";
(3)语义单元
语义单元是语法定义中的一个语法片段,描述一定的语法逻辑。语义单元可以嵌套;
语义单元可以公布为语义入口,也可以仅作为内部使用。语义单元的标识不允许重复。
语义单元分为查询要素、过滤、分析方法等类型。
语义单元语法为:
[@|$|#]<element_id>[(sign[,param=value])]=<expr>
1)等号定义语义单元,左侧为单元标识,右侧为表达式;
2)以@、$或#符号为前缀对语义单元进行公开,@符号表示为查询要素,$符号表示为过滤,#符号表示分析方法;
3)语义单元标识声明时,可在后缀括号内声明内部标识,用于统一化多种语义单元使用;
4)语义单元引用时,可在后缀括号内传入属性,用于进行个性化识别;
5)等号右侧引用语义单元时,可以使用范围符(..),表示按脚本出现顺序的所有语义单元都进行或组合。
例如:
more_equal(>=)=“不小于”|“不少于”|“超过”;
range_all=“全部”|“所有”;
@concept_all=range_all{0,1}concept;
time_all=time1..time2;
***内置了部分语义单元,内置语义单元可附加语义限定,语法为:
<element_id>[(restriction+)]
其中,***语义单元可以通过限定参数进行控制,如果存在限定参数,仅有一个参数为默认参数,其它参数必须使用<param_name>=<param_value>的模式指定。
(4)运算符
F语言定义的运算符如下:
1)import引用运算符,用于引入依赖的F脚本文件或字典文件;
2)=语义单元定义运算符,定义语义单元的模式规则;
3)@要素语义单元修饰符,表示该语义单元公开且为要素语义;
4)$限定语义单元修饰符,表示该语义单元公开且为限定语义;
5)#分析方法语义单元修饰符,表示该语义单元公开且为分析方法语义;
6)|可选语义组合运算符,匹配指定的任意一种语义单元;
7)..可选语义范围运算符,按照语义单元声明的顺序,对指定范围内出现的语义单元进行匹配,匹配任一语义单元即可;
8)""字符串标识符,表示字面常量值;
9)?可选匹配运算符,表示指定的语义单元可以出现0次或1次;
10)*任意匹配运算符,表示指定的语义单元可以出现多次或不出现;
11)+多次匹配运算符,表示指定的语义单元至少出现一次,不限制重复次数;
12){n,m}限次匹配运算符,表示指定的语义单元至少出现n次,最多出现m次;
13)//正则匹配运算符,反斜杠之间为正则表达式,按给出的正则表达式规则进行匹配;
14)()语义分段运算符,括号内的语义单元组合为一段语义;
15);语义分隔符,分隔语义单元定义语句;
(5)注释
F语言支持为脚本添加注释,支持两种注释方式:
1)行注释:以//开头,注释到行末;
2)块注释:以/*开头,以*/结束,中间的内容为注释
在bidding.f脚本文件中,title.dict为字典文件,是预先定义的,title.dict字典文件包括如下内容:
//条目标题字典
采购单位名称单位名称地址联系人电话集中采购机构询价时间中标金额中标单位名称中标单位地址
//表示行注释,注释到行末,采购单位名称、单位名称、地址、联系人、电话、集中采购机构、询价时间、中标金额、中标单位名称和中标单位地址为定义的词语。
服务器基于bidding.f脚本文件可以生成第一语义规则状态机,生成的第一语义规则状态机如图3所示。
在如图3所示的第一语义规则状态机中,
1)从左向右箭头的连线为匹配分支,从右向左箭头的分支为循环分支。
2)小圆点的节点为占位节点,用于进行分支占位或循环占位使用,匹配时需要根据后续的内容匹配。
3)从同一节点出发的匹配分支为或关系,仅匹配满足条件的第一条分支即可。
4)循环分支可以指定循环次数:
a)?:表示出现一次或者不出现(0次);
b)+:表示至少循环一次,可无限多次;
c)*:表示可以不出现(0次)或出现任意多次;
d){n,m}:表示至少出现n次,最多出现m次
5)虚框表示语义单元的引用,当匹配到引用语义单元时,跳转到被引用语义单元匹配成功后,再继续后续匹配。
6)从开始节点出发的分支,仅为公开的语义单元(以@#$标识符开头的语义单元),非公开的语义单元,会被内联到引用处(嵌入到引用语义单元中)以优化效率。
图3中,第一语义规则状态机包括@tenderee,@amount和@bidwinner三个第一识别分支,value_expr语义单元被@tenderee和@bidwinner引用,第一语义规则状态机中会标记出value_expr的部分。
服务器根据表2所示的词向量和图3所示的第一语义规则状态机,可以获得招标公告对应的第一特征要素如下:
1)@tenderee(TENDEREE):匹配的第一特征要素为“采购单位名称:某市师范高等专科学校”,词语位置:4~11。其中,引用的语义单元value_expr匹配“某市师范高等专科学校”,词语位置:8~11。
2)@amount(AMOUNT):匹配的第一特征要素为“中标金额:2,706.25元”,词语位置:17~20。
3)@bidwinner(BIDWINNER):匹配的第一特征要素为“中标单位名称:某市办公教学设施有限责任公司”,词语位置:21~31。其中,引用的语义单元value_expr匹配“某市办公教学设施有限责任公司”,词语位置:25~31。
根据招标公告的场景特征,预先为公开的第一识别分支的语义单元定义对应的转化规则,定义的转化规则如下:
1)标识为TENDEREE的语义单元为招标方,标识为BIDWINNER的语义单元为中标方。招标方和中标方从匹配结果中提取value_expr的匹配内容即为匹配结果。
2)标识为BIDWINNER的语义单元为中标金额,从匹配结果中提取数词的值为结果。
服务器根据招标公告对应的第一特征要素以及上述转化规则,可以获得招标公告的特征信息如下:
1)招标方:某市师范高等专科学校
2)中标方:某市办公教学设施有限责任公司
3)中标金额:2,706.25
图4是本发明再一实施例提供的中文语言的特征信息提取方法的流程示意图,如图4所示,在上述各实施例的基础上,进一步地,本发明实施例提供的中文语言的特征信息提取方法还包括:
S401、通过行业词库对所述待识别文本的词向量进行修正并标注分类,获得修正后的词向量;其中,所述行业词库是预先生成的;
具体地,所述服务器在获得所述待识别文本的词向量之后,可以通过行业词库对所述待识别文本的词向量进行修正,对出现在行业词库中的词语标准分类,获得修正后的词向量,修正后的词向量包括各个词语的排列顺序、每个词语、每个词语的词性和/或每个词语的分类。其中,所述行业词库是预先生成的,所述分类可以包括实体和概念,根据实际需要进行设置,本发明实施例不做限定。
其中,语义网络是一种用图来表示知识的结构化方式。在一个语义网络中,信息被表达为一组节点,结点通过一组带标记的有向直线彼此相连,用于表示节点间的关系。
在本发明中,语义网络的节点由概念和实体两种节点构成,节点之间的连线表示节点之间的所属关系。概念用于描述数据分析中的业务对象,比如数据表、维度、度量、指标等;实体是业务对象的具体成员,比如地区是概念,其中的北京、上海、广州等成员则是概念包含的实体对象;实体之间可以含有层级关系。语义网络在软件实现中以有向图的形式缓存于内存中,以加速使用效率。
对于某些应用场景,可以预先构造语义网络图,通过语义网络图生成行业词库,语义网络图中的概念和实体作为行业词语组合成行业词库,概念和实体根据实际需要进行定义,本发明实施例不做限定。行业词库分词后,为词语标注分类,分类包括概念和实体。在行业词库的分类中,概念根据来源的业务对象不同,又可以分为下面几类,每个分类又可以分为多种分类属性,例如:
1)维度:概念对应维度实体,例如单位、科目、产品等等;
2)数据表:概念对应的是数据表实体,例如现金流量表、销售合同表等等;
3)度量:概念对应的是度量实体,例如销售收入、合同回款额等等。
图5是本发明一实施例提供的语义网络图的结构示意图,如图5所示,经营情况为概念,地区、销售收入和销售成本为概念,地区为维度,销售收入和销售成本为度量,北京、上海和天津为地区包括的实体,海淀和朝阳北京的下一级实体。
例如,服务器通过行业词库对表1所示的词向量进行修正并标注分类之后,获得表3所示的修正后的词向量。如表3所示,销售收入为行业词库中的词语,将通用词库分词获得的两个词销售和收入合并为一个词,并标注分类为概念;地区既为通用词库中的词语,又是行业词库中的词语,对地区添加分类。可理解的是,对于行业词库中没有的词语,不标注分类。
表3修正后的词向量
序号 | 词 | 词性 | 分类 | 分类属性 |
1 | 我 | r/代词 | ||
2 | 想 | v/动词 | ||
3 | 看看 | v/动词 | ||
4 | 2018 | m/数词 | ||
5 | 年 | t/时间词 | ||
6 | 以来 | t/时间词 | ||
7 | 各 | r/代词 | ||
8 | 地区 | n/名词 | 概念 | 维度 |
9 | 销售收入 | - | 概念 | 度量 |
10 | 的 | u/助词 | ||
11 | 变化 | v/动词 | ||
12 | 情况 | n/名词 | ||
13 | ? | w/标点 |
S402、根据修正后的词向量以及第二语义规则状态机,获得所述待识别文本对应的第二特征要素,每个第二特征要素对应所述第二语义规则状态机中的一条第二识别分支;其中,所述第二语义规则状态机是预先生成的,包括多条第二识别分支;
具体地,所述服务器在获得修正后的词向量之后,可以根据修正后的词向量和第二语义规则状态机,获得所述待识别文本对应的第二特征要素,所述待识别文本对应的第二特征要素可以有一个,两个或者两个以上的第二特征要素。每个第二特征要素与所述第二语义规则状态机中的一条第二识别分支匹配,每个第二特征要素与匹配的第二识别分支对应。其中,所述第二语义规则状态机是预先生成的,包括多条第二识别分支。可理解的是,如果每个获得所述待识别文本对应的第二特征要素,那么所述待识别文本的特征信息的提取失败。
例如,所述第二语义规则状态机可以通过特征语义文法文件生成,所述特征语义文法文件是预设的。所述特征语义文法文件可以通过简称F语言进行定义。
S403、根据每个第二特征要素以及每个第二特征要素对应第二识别分支所对应的转化规则,获得所述待识别文本的特征信息。
具体地,所述服务器在获得所述待识别文本对应的第二特征要素对应的第二特征要素之后,对于每个第二特征要素,根据每个第二特征要素以及每个第二特征要素对应第二识别分支所对应的转化规则,获得每个第二特征要素对应的特征信息,各个第二特征要素对应的特征信息构成所述待识别文本的特征信息。其中,第二识别分支所对应的转化规则是预设的。
图6是本发明又一实施例提供的中文语言的特征信息提取方法的流程示意图,如图6所示,在上述各实施例的基础上,进一步地,所述根据修正后的词向量以及第二语义规则状态机,获得所述待识别文本对应的第二特征要素包括:
S4021、将所述修正后的词向量与所述第二语义规则状态机中的每条第二识别分支进行匹配;
具体地,所述服务器会将所述修正后的词向量与所述第二语义规则状态机中的每条第一识别分支进行匹配,以确定所述修正后的词向量中是否存在词语与每条第二识别分支匹配,可以确定所述修正后的词向量中的哪些词语与所述第二识别分支匹配,或者确定所述修正后的词向量中不存在与所述第二识别分支匹配的词语。可理解的是,如果所述修正后的词向量与所述第二语义规则状态机中的所有第二识别分支都不匹配,那么所述服务器可以输入特征信息提取失败的提示信息。
S4022、若判断获知所述修正后的词向量包括的词语与所述第二识别分支匹配,则将与所述第二识别分支匹配的词语作为与所述第二识别分支对应的第二特征要素。
具体地,所述服务器如果判断出所述修正后的词向量包括的词语与所述第一识别分支匹配,那么将与所述第二识别分支匹配的词语作为所述第二识别分支对应的第一特征要素。可理解的是,所述修正后的词向量包括的词语中可以获得一个词语与所述第二识别分支匹配,也可以获得多个词语与所述第二识别分支匹配。
在上述各实施例的基础上,进一步地,所述将所述修正后的词向量与所述第二语义规则状态机中的每条第二识别分支进行匹配包括:
按照所述修正后的词向量包括的词语的排列顺序,根据每个词语的词语信息以及第二语义匹配规则将每个词语与每条第二识别分支包括的第一个语义单元进行匹配;其中,每条第二识别分支包括至少一个语义单元;其中,所述词语信息包括所述词语、所述词语的词性或者所述词语的分类中的至少一个信息;所述第二语义匹配规则是预设的。
具体地,所述服务器可以按照所述修正后的词向量包括的词语的排列顺序,将每个词语与每条第二识别分支包括的第二个语义单元进行匹配,在匹配的时候,可以根据所述词语的词语信息以及所述第二语义匹配规则,判断所述词语与所述第二个语义单元是否匹配。所述词语信息包括所述词语、所述词语的词性或者所述词语的分类中的至少一个信息。所述语义单元根据实际需要进行设置,本发明实施例不做限定。每条第一识别分支包括至少一个语义单元。所述第二语义匹配规则是预设的。
例如,所述语义单元在上文提到的常量语义单元、单词语义单元、截止语义单元等语义单元的基础上,还可以有概念语义单元和实体语义单元。概念语义单元定义概念,用于指定语义网络中的概念。实体语义单元用于指定语义网络中的实体。
例如,所述第二语义匹配规则可以包括上述第一语义匹配规则包括的匹配条件,还可以包括概念语义单元对应的匹配条件和实体语义单元对应的匹配条件。
对于概念语义单元,可以用concept表示,对应的匹配条件为:在当前词语的分类为概念时,匹配成功,否则当前词语的分类不为概念,匹配不成功。
对于实体语义单元,可以用entity表示,对应的匹配条件为:在当前词分类为实体时,匹配成功,否则当前词语的分类不为实体,匹配不成功。
在上述各实施例的基础上,进一步地,本发明实施例提供的中文语言的特征信息提取方法还包括:
若判断获知所述词语与所述第二识别分支包括的第一个语义单元匹配,则从所述词语的下一个词语开始按照所述修正后的词向量包括的词语的排列顺序依次将每个词语与所述第二识别分支包括的剩余语义单元进行匹配,直到完成所述第二识别分支的匹配。
具体地,所述服务器在判断获知所述词语与所述第二识别分支包括的第一个语义单元匹配之后,那么会根据所述修正后的词向量包括的词语的排列顺序,获得所述词语的下一个词语作为当前词语,并获取第一个语义单元的下一个语义单元作为当前语义单元,然后将所述当前词语与当前语义单元进行匹配,如果匹配成功,那么获取当前词语的下一个词语作为当前词语,并获取当前语义单元的的下一个语义单元作为当前语义单元,继续进行匹配。如果匹配不成功,那么获取当前词语的下一个词语作为当前词语,与当前语义单元重新进行匹配。不断重复上述过程,将当前词语与当前语义单元进行匹配,直到完成所述第一识别分支的匹配。其中,所述第一识别分支包括的剩余语义单元是指所述第一识别分支中除了第一个语义单元以外的语义单元。
下面一个具体的实施例来说明本发明实施例提供的中文语言的特征信息提取方法的实现过程。
服务器获取待识别文本为:我想看看2018年以来各地区销售收入的变化情况?
服务器基于通用分词引擎按通用词库对上述待识别文本进行分词,生成词向量并标记词性。然后,基于行业分词引擎在上述词向量的基础上,按行业词库进行分词处理,对于匹配的词向量中的词语进行分类标注,对匹配的词向量中的多个词语进行合并与分类标注,获得修正后的词向量如表3所示。其中,“地区”被标记为概念,且为维度类型;“销售”和“收入”被合并标记为概念,且为度量类型。
预先通过F语言编写特征语义文法文件,命名为dataquery.f,dataquery.f脚本文件的内容如下:
//基础语义单元定义
word_auxiliary="的"|"得"|"地";
all_range="所有"|"全部";
//方法定义
#method_trend(TREND)="变化"word_auxiliary?("情况"|"趋势");
//时间定义
@time_year_spec(YEAR)=word(m)("年"|"年度");
@time_after(TIME.AFTER)=("自从"|"从")?time_year_spec("以来"|"以后");
//概念定义
@all_concept=all_range concept;
@concpet_list=concept+;
通过F语言解析引擎解析dataquery.f脚本文件,解析其中的语义单元定义,为公开的语义单元生成第二语义规则状态机,如图7所示。
图7中,第二语义规则状态机包括@time_afte,@time_year_spec,@all_concept,@concept_list和#method_trend五个第二识别分支。
服务器根据表3所示的修正后的词向量和图7所示的第二语义规则状态机,可以获得上述待识别文本对应的第二特征要素。
图8是本发明一实施例提供的修正后的词向量与第二语义规则状态机中的每条第二识别分支进行匹配的流程图,如图8所示,服务器将修正后的词向量与第二语义规则状态机中的每条第二识别分支进行匹配的具体流程如下:
第一步、初始化当前词向量位置为1。
第二步、判断当前词向量位置是否为末尾:
a)如果当前位置为词向量末尾时,结束匹配流程;
b)如果当前位置不是词向量末尾时,继续第三步。
第三步、标记当前词位置,记为P。
第四步、读取第二语义规则状态机中的第二识别分支。
第五步、判断第二识别分支读取状态是否成功:
a)读取成功时,继续第六步;
b)读取的第二识别分支不存在时,跳转至第十二步。
第六步、获取第二识别分支的第一个语义单元。
第七步、匹配当前词语与当前语义单元。其中,基于第二语义匹配规则匹配当前词语与当前语义单元。
第八步、判断第七步的匹配结果:
a)匹配成功时,继续第九步;
b)匹配失败时,跳转至第十三步。
第九步、获取当前第二识别分支的当前语义单元的下一个语义单元作为当前语义单元。
第十步、判断第九步获取下一个语义单元时是否到达当前第二识别分支的末尾:
a)如果到达当前第二识别分支的末尾时,继续第十一步;
b)如果未到达当前第二识别分支的末尾,跳转至第十五步。
第十一步、记录匹配结果,当前第二识别分支匹配成功,将从位置P到当前位置对应的词语作为匹配结果,即第二识别分支对应的第二特征要素。
第十二步、当前词语位置增加1,跳转至第二步。
第十三步、重置当前词语位置为P。
第十四步、读取第二语义规则状态机的下一个第二识别分支,跳转至第五步。
第十五步、当前词位置增加1。
第十六步、判断当前词向量位置是否为末尾:
a)当前词向量位置为词向量末尾时,跳转至第十三步;
b)当前词向量位置不是词向量末尾时,跳转至第七步。
服务器获得的上述待识别文本对应的第二特征要素如下:
1)@time_after(TIME.AFTER)time_after:匹配的第二特征要素为“2018年以来”,词语位置:4~6。其中,引用语义单元time_year_spec匹配(“2018年)”,词语位置:4~5。其中,词语位置为表3中的序号。
2)@all_concept:匹配的第二特征要素为“各地区”,词语位置:7~8。其中,“地区”词被标记为维度概念
3)@concept_list:匹配的第二特征要素为“销售收入”,词语位置:9。其中,“销售收入”被标记为度量概念
4)#method_trend(TREND):匹配的第二特征要素为“变化情况”,词语位置:11~12。
根据数据查询的场景特征,预先为第二识别分支的语义单元定义对应的转化规则,定义的转化规则如下:
1)查询要素识别:以@开头的未标识的语义单元为要素列表,提取匹配的词向量中分类为概念或实体的词语,生成查询要素。
2)TIME.AFTER:标识为TIME.AFTERD的语义单元为时间范围语义。提取匹配词向量中数词(2018)的值,结合当前***日期(2020年),记录时间范围;
3)TREND:标识为TREND的语义单元为查询方法,直接记录查询方法为“趋势分析”。
基于如上的转化规则,服务器获得上述待识别文本的特征信息如下:
1)查询时间:从2018年到2020年
2)查询要素:地区
3)查询要素:销售收入
4)查询方法:趋势分析
本发明实施例提供的中文语言的特征信息提取方法,可以从自然语言文本中,快速提取出问题的关键特征信息,特别是对于中文语言中存在大量辅助、反复、强调等语义表达时,本发明的技术方案可以最大程度的屏蔽这些非关键语义的影响。并且,本方案基于F语言脚本编写识别规则,易学易用,并且可以根据用户需求快速调整,具有极大的灵活性。
本发明实施例提供的中文语言的特征信息提取方法,具有广泛的应用场景,例如:
1)与OCR识别技术结合,可以实现对纸质合同等文档进行关键信息要素提取,识别合同方、签订日期、合同额度等信息;
2)与语音识别和机器人技术结合,可以提供智能问答机器人,实现在线或电话客服机器人;
3)与语音识别、大数据分析技术结合,可以提供智能分析机器人,通过语音问答实现数据分析交互。
图9是本发明一实施例提供的中文语言的特征信息提取装置的结构示意图,如图9所示,本发明实施例提供的中文语言的特征信息提取装置包括获取单元901、第一获得单元902、第二获得单元903和提取单元904,其中:
获取单元901用于获取待识别文本;第一获得单元902用于对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;第二获得单元903用于根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;提取单元904用于根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。
具体地,获取单元901能够获取待识别文本,所述待识别文本可以是一句话,也可以是一段文本,根据实际需要进行设置,本发明实施例不做限定。
在获得所述待识别文本之后,第一获得单元902可以对所述待识别文本进行分词,获得所述待识别文本包括的每个词语,然后对每个词语进行词性标注,获得每个词语的词性,并将所述待识别文本包括的每个词语按照阅读顺序进行排序,获得所述待识别文本的词向量,所述词向量包括每个词语、每个词语的词性以及各个词语的排列顺序。
在获得所述词向量之后,第二获得单元903可以根据所述词向量和所述第一语义规则状态机,获得所述待识别文本对应的第一特征要素,所述待识别文本对应的第一特征要素可以有一个,两个或者两个以上的第一特征要素。每个第一特征要素与所述第一语义规则状态机中的一条第一识别分支匹配,每个第一特征要素与匹配的第一识别分支对应。其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支。可理解的是,如果每个获得所述待识别文本对应的第一特征要素,那么所述待识别文本的特征信息的提取失败。
在获得所述待识别文本对应的第一特征要素对应的第一特征要素之后,提取单元904对于每个第一特征要素,根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得每个第一特征要素对应的特征信息,各个第一特征要素对应的特征信息构成所述待识别文本的特征信息。其中,第一识别分支所对应的转化规则是预设的。
本发明实施例提供的中文语言的特征信息提取装置,能够获取待识别文本,对待识别文本进行分词并标注词性,获得待识别文本的词向量,根据词向量以及第一语义规则状态机,获得待识别文本对应的第一特征要素,每个第一特征要素对应第一语义规则状态机中的一条第一识别分支,根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得待识别文本的特征信息,能够从自然语言文本中,快速识别出特征信息,提高了特征信息的提取效率。
本发明实施例提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图10是本发明一实施例提供的电子设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1001、通信接口(Communications Interface)1002、存储器(memory)1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信。处理器1001可以调用存储器1003中的逻辑指令,以执行如下方法:获取待识别文本;对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。
此外,上述的存储器1003中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取待识别文本;对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取待识别文本;对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种中文语言的特征信息提取方法,其特征在于,包括:
获取待识别文本;
对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;
根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;
根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待识别文本的词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素包括:
将所述待识别文本的词向量与所述第一语义规则状态机中的每条第一识别分支进行匹配;
若判断获知所述词向量包括的词语与所述第一识别分支匹配,则将与所述第一识别分支匹配的词语作为与所述第一识别分支对应的第一特征要素。
3.根据权利要求2所述的方法,其特征在于,所述将所述待识别文本的词向量与所述第一语义规则状态机中的每条第一识别分支进行匹配包括:
按照所述词向量包括的词语的排列顺序,根据每个词语和/或每个词语对应的词性以及第一语义匹配规则将每个词语与每条第一识别分支包括的第一个语义单元进行匹配;其中,每条第一识别分支包括至少一个语义单元;所述第一语义匹配规则是预设的。
4.根据权利要求3所述的方法,其特征在于,还包括:
若判断获知所述词语与所述第一识别分支包括的第一个语义单元匹配,则从所述词语的下一个词语开始按照所述词向量包括的词语的排列顺序依次将每个词语与所述第一识别分支包括的语义单元进行匹配,直到完成所述第一识别分支的匹配。
5.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
通过行业词库对所述待识别文本的词向量进行修正并标注分类,获得修正后的词向量;其中,所述行业词库是预先生成的;
根据修正后的词向量以及第二语义规则状态机,获得所述待识别文本对应的第二特征要素,每个第二特征要素对应所述第二语义规则状态机中的一条第二识别分支;其中,所述第二语义规则状态机是预先生成的,包括多条第二识别分支;
根据每个第二特征要素以及每个第二特征要素对应第二识别分支所对应的转化规则,获得所述待识别文本的特征信息。
6.根据权利要求5所述的方法,其特征在于,所述根据修正后的词向量以及第二语义规则状态机,获得所述待识别文本对应的第二特征要素包括:
将所述修正后的词向量与所述第二语义规则状态机中的每条第二识别分支进行匹配;
若判断获知所述修正后的词向量包括的词语与所述第二识别分支匹配,则将与所述第二识别分支匹配的词语作为与所述第二识别分支对应的第二特征要素。
7.根据权利要求6所述的方法,其特征在于,所述将所述修正后的词向量与所述第二语义规则状态机中的每条第二识别分支进行匹配包括:
按照所述修正后的词向量包括的词语的排列顺序,根据每个词语的词语信息以及第二语义匹配规则将每个词语与每条第二识别分支包括的第一个语义单元进行匹配;其中,每条第二识别分支包括至少一个语义单元;其中,所述词语信息包括所述词语、所述词语的词性或者所述词语的分类中的至少一个信息;所述第二语义匹配规则是预设的。
8.根据权利要求7所述的方法,其特征在于,还包括:
若判断获知所述词语与所述第二识别分支包括的第一个语义单元匹配,则从所述词语的下一个词语开始按照所述修正后的词向量包括的词语的排列顺序依次将每个词语与所述第二识别分支包括的剩余语义单元进行匹配,直到完成所述第二识别分支的匹配。
9.一种中文语言的特征信息提取装置,其特征在于,包括:
获取单元,用于获取待识别文本;
第一获得单元,用于对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;
第二获得单元,用于根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;
提取单元,用于根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011625809.5A CN112632991B (zh) | 2020-12-30 | 2020-12-30 | 一种中文语言的特征信息提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011625809.5A CN112632991B (zh) | 2020-12-30 | 2020-12-30 | 一种中文语言的特征信息提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112632991A true CN112632991A (zh) | 2021-04-09 |
CN112632991B CN112632991B (zh) | 2024-05-14 |
Family
ID=75290334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011625809.5A Active CN112632991B (zh) | 2020-12-30 | 2020-12-30 | 一种中文语言的特征信息提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632991B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101470701A (zh) * | 2007-12-29 | 2009-07-01 | 日电(中国)有限公司 | 支持基于有限状态机的语义规则的文本分析器及其方法 |
CN103440234A (zh) * | 2013-07-25 | 2013-12-11 | 清华大学 | 自然语言理解***及方法 |
CN107608949A (zh) * | 2017-10-16 | 2018-01-19 | 北京神州泰岳软件股份有限公司 | 一种基于语义模型的文本信息抽取方法及装置 |
WO2019051064A1 (en) * | 2017-09-06 | 2019-03-14 | Rosoka Software, Inc. | SEMANTIC VECTOR RULE DISCOVERY |
CN110334344A (zh) * | 2019-06-13 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 一种语义意图识别方法、装置、设备及存储介质 |
CN110569507A (zh) * | 2019-09-09 | 2019-12-13 | 北京金鑫魔方科技有限责任公司 | 语义识别方法、装置、设备及存储介质 |
CN111144127A (zh) * | 2019-12-25 | 2020-05-12 | 科大讯飞股份有限公司 | 文本语义识别方法及其模型的获取方法及相关装置 |
CN111368540A (zh) * | 2020-03-05 | 2020-07-03 | 国网安徽省电力有限公司 | 一种基于语义角色分析的关键词信息抽取方法 |
CN111859968A (zh) * | 2020-06-15 | 2020-10-30 | 深圳航天科创实业有限公司 | 一种文本结构化方法、文本结构化装置及终端设备 |
CN112069298A (zh) * | 2020-07-31 | 2020-12-11 | 杭州远传新业科技有限公司 | 基于语义网和意图识别的人机交互方法、设备及介质 |
-
2020
- 2020-12-30 CN CN202011625809.5A patent/CN112632991B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101470701A (zh) * | 2007-12-29 | 2009-07-01 | 日电(中国)有限公司 | 支持基于有限状态机的语义规则的文本分析器及其方法 |
CN103440234A (zh) * | 2013-07-25 | 2013-12-11 | 清华大学 | 自然语言理解***及方法 |
WO2019051064A1 (en) * | 2017-09-06 | 2019-03-14 | Rosoka Software, Inc. | SEMANTIC VECTOR RULE DISCOVERY |
CN107608949A (zh) * | 2017-10-16 | 2018-01-19 | 北京神州泰岳软件股份有限公司 | 一种基于语义模型的文本信息抽取方法及装置 |
CN110334344A (zh) * | 2019-06-13 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 一种语义意图识别方法、装置、设备及存储介质 |
CN110569507A (zh) * | 2019-09-09 | 2019-12-13 | 北京金鑫魔方科技有限责任公司 | 语义识别方法、装置、设备及存储介质 |
CN111144127A (zh) * | 2019-12-25 | 2020-05-12 | 科大讯飞股份有限公司 | 文本语义识别方法及其模型的获取方法及相关装置 |
CN111368540A (zh) * | 2020-03-05 | 2020-07-03 | 国网安徽省电力有限公司 | 一种基于语义角色分析的关键词信息抽取方法 |
CN111859968A (zh) * | 2020-06-15 | 2020-10-30 | 深圳航天科创实业有限公司 | 一种文本结构化方法、文本结构化装置及终端设备 |
CN112069298A (zh) * | 2020-07-31 | 2020-12-11 | 杭州远传新业科技有限公司 | 基于语义网和意图识别的人机交互方法、设备及介质 |
Non-Patent Citations (3)
Title |
---|
万晓辉;谢深泉;: "基于语义分析的汉语短句概念图技术的研究", 福建电脑, no. 10, 25 October 2016 (2016-10-25), pages 94 - 96 * |
周琦;陆叶;李婷玉;王亚;张再跃;曹存根;: "基于语义文法的地理实***置关系的获取", 计算机科学, vol. 43, no. 7, 15 July 2016 (2016-07-15), pages 208 - 215 * |
王玉美, 阮晓钢: "基于人的语言认知行为的汉语文法分析专家***", 北京工业大学学报, vol. 29, no. 1, 30 March 2003 (2003-03-30), pages 27 - 30 * |
Also Published As
Publication number | Publication date |
---|---|
CN112632991B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10262062B2 (en) | Natural language system question classifier, semantic representations, and logical form templates | |
CN110543644A (zh) | 包含术语翻译的机器翻译方法、装置与电子设备 | |
CN108874774B (zh) | 一种基于意图理解的服务调用方法和*** | |
CN107798123B (zh) | 知识库及其建立、修改、智能问答方法、装置及设备 | |
Van Atteveldt et al. | Computational analysis of communication | |
Bjarnadóttir | The database of modern Icelandic inflection (Beygingarlýsing íslensks nútímamáls) | |
CN109949799B (zh) | 一种语义解析方法及*** | |
Zhao et al. | Sentiment analysis on the online reviews based on hidden Markov model | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN111104803A (zh) | 语义理解处理方法、装置、设备及可读存储介质 | |
CN113157727A (zh) | 提供召回结果的方法、设备和存储介质 | |
US20220366135A1 (en) | Extended open information extraction system | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、***、设备及存储介质 | |
CN117609477B (zh) | 一种基于领域知识的大模型问答方法和装置 | |
CN113934834A (zh) | 一种问句匹配的方法、装置、设备和存储介质 | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 | |
JP6942759B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN115080603B (zh) | 一种数据库查询语言转换方法、装置、设备及存储介质 | |
CN112732743B (zh) | 一种基于中文自然语言的数据分析方法及装置 | |
CN103646017A (zh) | 用于命名的缩略词生成***及其工作方法 | |
CN112632991B (zh) | 一种中文语言的特征信息提取方法及装置 | |
CN107168950B (zh) | 一种基于双语语义映射的事件短语学习方法及装置 | |
CN115269797A (zh) | 面向知识社区模糊问题的答案推荐方法及*** | |
Ramesh et al. | Interpretable natural language segmentation based on link grammar | |
CN114970541A (zh) | 文本语义理解方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |