CN111859949B - 一种文言文的解析方法及*** - Google Patents
一种文言文的解析方法及*** Download PDFInfo
- Publication number
- CN111859949B CN111859949B CN201910365272.4A CN201910365272A CN111859949B CN 111859949 B CN111859949 B CN 111859949B CN 201910365272 A CN201910365272 A CN 201910365272A CN 111859949 B CN111859949 B CN 111859949B
- Authority
- CN
- China
- Prior art keywords
- sample
- keyword
- corpus
- keywords
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000010586 diagram Methods 0.000 claims abstract description 48
- 239000001963 growth medium Substances 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 35
- 230000010365 information processing Effects 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种文言文的解析方法及***,其方法包括:获取文言文中易混淆的关键词,根据关键词建立关键词库;获取文言文样本和对应的样本语义;结合关键词库,根据文言文样本和样本语义确定样本属性信息;根据样本属性信息和关键词库建立语义概念图;获取文言文语料;将文言文语料与关键词库进行比对,确定文言文语料中包含的语料关键词;根据文言文语料分析语料关键词的属性信息;结合语义概念图,分析语料关键词和属性信息确定语料关键词对应的语料关键词语义;结合语料关键词语义分析文言文语料确定文言文语料语义。本发明通过概念图解析用户有疑问的文言文语料,从而快速准确地确定文言文语料中易混淆的词语。
Description
技术领域
本发明涉及自然语言处理解析技术领域,尤指一种文言文的解析方法及***。
背景技术
文言文是用“文言”这种古代书面语写成的文章。所谓“文言”,是汉语书面语的一种,产生于先秦时期,因此,文言文首先是指古代秦汉时期所写的文章,也包括后代作家模仿秦汉语言而写成的文章。从外延来看,“文言文”指古代诗、词、曲、小说以外的各体文章,主要包括散体文、赋与骈文等。几千年中华文化的核心都蕴含在文言文中,它是中华文化数千年延绵不断的主要原因之一,也是中国古人的信仰、价值观的载体。可以说,文言文就是中华文化基因图谱。
与现代白话文相比,文言文语言往往更为简洁典雅。在移动应用中,比如手机短信中能够较少的文字表达丰富的含义;同时在游戏(比如与历史相关的游戏)、网上聊天等场景中,用文言文要么更符合场景的需求,要么能显得风趣幽默,更好地起到娱乐休闲的效果。
然而,文言文学习往往无法一蹴而就,大多数人无法流利使用文言文,特别是对于文言文初学者来说,在读一篇新的文言文时,字词解释是最大的障碍,发现68%学生因为不理解文言文字、词、句,“把握文意”是文言文学习的一大难点,而部分的字、词在文言文不同场景下的应用种类繁多,甚至可能超过十种,例如之、者等字。
但是,初学者往往由于刚开始接触文言文。知识积累不够丰富,无法快速准确地判断出每个场景下的具体应用,并且一时之间也无法联系到之前学习过的相同应用的文言文语句,通过对比分析确定文言文中字、词的语义。
因此,目前还需要一种文言文的解析方法及***。
发明内容
本发明的目的是提供一种文言文的解析方法及***,实现通过概念图解析用户有疑问的文言文语料,从而快速准确地确定文言文语料中易混淆的词语,有助于用户确定文言文语义。
本发明提供的技术方案如下:
本发明提供一种文言文的解析方法,包括:
获取文言文中易混淆的关键词,根据所述关键词建立关键词库;
获取文言文样本和对应的样本语义;
结合所述关键词库,根据所述文言文样本和所述样本语义确定样本属性信息;
根据所述样本属性信息和所述关键词库建立语义概念图;
获取文言文语料;
将所述文言文语料与所述关键词库进行比对,确定所述文言文语料中包含的语料关键词;
根据所述文言文语料分析所述语料关键词的属性信息;
结合所述语义概念图,分析所述语料关键词和所述属性信息确定所述语料关键词对应的语料关键词语义;
结合所述语料关键词语义分析所述文言文语料确定文言文语料语义。
进一步的,获取文言文中易混淆的关键词,根据所述关键词建立关键词库具体包括:
获取文言文中易混淆的所述关键词;
获取所述关键词对应的词语信息,所述词语信息包括关键词词性和关键词词义;
根据所述关键词和所述词语信息建立所述关键词库。
进一步的,结合所述关键词库,根据所述文言文样本和所述样本语义确定样本属性信息具体包括:
将所述文言文样本与所述关键词库进行比对,确定所述文言文样本中包含的样本关键词;
根据所述样本语义确定所述样本关键词的样本关键词语义;
根据所述样本关键词分析所述文言文样本确定所述样本属性信息,所述样本属性信息为所述样本关键词与所述文言文样本中其余的样本词语之间的位置关系。
进一步的,根据所述样本属性信息和所述关键词库建立语义概念图具体包括:
根据所述样本关键词、所述样本词语以及所述位置关系建立每一个文言文样本对应的样本概念图;
根据所述关键词库将所有的样本概念图结合,得到所述语义概念图。
进一步的,还包括:
根据所述语料关键词、所述属性信息以及所述语料关键词语义确定相符的文言文样本,将所述相符的文言文样本集合生成拓展训练集;
根据所述拓展训练集进行知识拓展训练。
本发明还提供一种文言文的解析***,包括:
词库建立模块,获取文言文中易混淆的关键词,根据所述关键词建立关键词库;
样本获取模块,获取文言文样本和对应的样本语义;
信息处理模块,结合所述词库建立模块建立的所述关键词库,根据所述样本获取模块获取的所述文言文样本和所述样本语义确定样本属性信息;
概念图建立模块,根据所述信息处理模块确定的所述样本属性信息和所述所述词库建立模块建立的关键词库建立语义概念图;
语料获取模块,获取文言文语料;
关键词分析模块,将所述语料获取模块获取的所述文言文语料与所述词库建立模块建立的所述关键词库进行比对,确定所述语料获取模块获取的所述文言文语料中包含的语料关键词;
信息分析模块,根据所述语料获取模块获取的所述文言文语料分析所述关键词分析模块确定的所述语料关键词的属性信息;
关键词语义分析模块,结合所述概念图建立模块建立的所述语义概念图,分析所述关键词分析模块确定的所述语料关键词和所述信息分析模块确定的所述属性信息确定所述关键词分析模块确定的所述语料关键词对应的语料关键词语义;
语料语义分析模块,结合所述关键词语义分析模块确定的所述语料关键词语义,分析所述语料获取模块获取的所述文言文语料确定文言文语料语义。
进一步的,所述词库建立模块具体包括:
关键词获取单元,获取文言文中易混淆的所述关键词;
信息获取单元,获取所述关键词获取单元获取的所述关键词对应的词语信息,所述词语信息包括关键词词性和关键词词义;
词库建立单元,根据所述关键词获取单元获取的所述关键词和所述信息获取单元获取的所述词语信息建立所述关键词库。
进一步的,所述信息处理模块具体包括:
关键词分析单元,将所述样本获取模块获取的所述文言文样本与所述词库建立模块建立的所述关键词库进行比对,确定所述样本获取模块获取的所述文言文样本中包含的样本关键词;
语义分析单元,根据所述样本获取模块获取的所述样本语义确定所述关键词分析单元确定的所述样本关键词的样本关键词语义;
信息分析单元,根据所述关键词分析单元确定的所述样本关键词,分析所述样本获取模块获取的所述文言文样本确定所述样本属性信息,所述样本属性信息为所述样本关键词与所述文言文样本中其余的样本词语之间的位置关系。
进一步的,所述概念图建立模块具体包括:
样本概念图建立单元,根据所述关键词分析单元确定的所述样本关键词、所述信息分析单元中的所述样本词语以及所述位置关系建立每一个文言文样本对应的样本概念图;
语义概念图建立单元,根据所述词库建立模块建立的所述关键词库,将所述样本概念图建立单元建立的所有的样本概念图结合,得到所述语义概念图。
进一步的,包括:
训练集生成模块,根据所述关键词分析模块确定的所述语料关键词、所述信息分析模块确定的所述属性信息,以及所述关键词语义分析模块确定的所述语料关键词语义确定相符的文言文样本,将所述相符的文言文样本集合生成拓展训练集;
拓展训练模块,根据所述训练集生成模块生成的所述拓展训练集进行知识拓展训练。
通过本发明提供的一种文言文的解析方法及***,能够带来以下至少一种有益效果:
1、本发明中,通过分析统计文言文样本中样本关键词的规律建立语义概念图,然后结合语义概念图解析用户有疑问的文言文语料,从而快速准确地确定文言文语料中易混淆的词语。
2、本发明中,获取文言文中易混淆的关键词建立关键词库,一方面关键词库中逻辑清晰地梳理了关键词以及词语信息的对应关系,另一方面便于后续比对文言文语料中的语料关键词。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种文言文的解析方法及***的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种文言文的解析方法的一个实施例的流程图;
图2是本发明一种文言文的解析方法的另一个实施例的流程图;
图3是本发明一种文言文的解析方法的另一个实施例的流程图;
图4是本发明一个文言文样本对应的样本概念图的示意图;
图5是本发明一种文言文的解析方法的另一个实施例的流程图;
图6是本发明一种文言文的解析***的一个实施例的结构示意图;
图7是本发明一种文言文的解析***的另一个实施例的结构示意图。
附图标号说明:
100文言文的解析***
110词库建立模块 111关键词获取单元 112信息获取单元 113词库建立单元
120样本获取模块
130信息处理模块 131关键词分析单元 132语义分析单元 133信息分析单元
140概念图建立模块 141样本概念图建立单元 142语义概念图建立单元
150语料获取模块
160关键词分析模块 170信息分析模块 180关键词语义分析模块
190语料语义分析模块 195训练集生成模块 196拓展训练模块
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘出了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
具体实现中,本申请实施例中描述的终端设备包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机、家教机或平板计算机之类的其他便携式设备。还应当理解的是,在某些实施例中,所述终端设备并非便携式通信设备,而是具有触摸敏感表面(例如:触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的终端设备。然而,应当理解的是,终端设备可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其他物理用户接口设备。
终端设备支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、网络创建应用程序、文字处理应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄像机应用程序、Web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在终端设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样,终端的公共物理架构(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。
另外,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
本发明的一个实施例,如图1所示,一种文言文的解析方法,包括:
S100获取文言文中易混淆的关键词,根据所述关键词建立关键词库;
具体的,获取文言文中易混淆的关键词,例如之、者、也等语义以及用法繁多的字、词等。其中,获取的方式可以是通过分析用户的作业识别其中出错率较高的词语作为关键词,也可以让用户进行补充输入。然后将获取到的所有的关键词库集合建立关键词库,便于后续比对识别样本以及语料中的关键词。
S200获取文言文样本和对应的样本语义;
具体的,获取文言文样本和对应的样本语义,例如,可以从教科书上获取文言文样本,教科书上的文言文一般都能找到理解比较准确的样本语义,该样本语义不仅只文言文样本对应的语义,还包括了文言文样本中每一个字、词的语义。
S300结合所述关键词库,根据所述文言文样本和所述样本语义确定样本属性信息;
具体的,通过关键词库确定文言文样本中包含的样本关键词,然后通过样本关键词和样本语义分析文言文样本,归纳总结其中的规律,确定样本属性信息。
S400根据所述样本属性信息和所述关键词库建立语义概念图;
具体的,根据样本属性信息确定单个的文言文样本对应的样本概念图,样本概念图中包含有在该文言文样本环境下的样本关键词的信息,因此,结合关键词库中关键词和多个关键词语义之间的对应关系,将各个样本概念图进行结合,最终建立语义概念图。
S500获取文言文语料;
具体的,获取文言文语料,该文言文语料可以是用户做作业或者翻阅书籍或者浏览视频等情形下所碰到的自身无法理解的文言文语料,需要进行解析。或者用户自己想要用文言文的语言进行表达,希望判断自己的描述中的用词是否正确。
S600将所述文言文语料与所述关键词库进行比对,确定所述文言文语料中包含的语料关键词;
具体的,分析文言文语料中的句式结构以及各个词语的词性,将文言文语料进行分词得到若干个独立的字、词,然后和关键词库中的关键词逐一地进行比对,如果比对相符则确定文言文语料中包含的语料关键词。
S700根据所述文言文语料分析所述语料关键词的属性信息;
具体的,根据文言文语料分析语料关键词的属性信息,该属性信息为文言文语料中语料关键词与其余的字、词之间的位置关系,包括先后顺序以及中间间隔的词语数量。
S800结合所述语义概念图,分析所述语料关键词和所述属性信息确定所述语料关键词对应的语料关键词语义;
S900结合所述语料关键词语义分析所述文言文语料确定文言文语料语义。
具体的,将语料关键词和对应的属性信息结合语义概念图确定语料关键词对应的语料关键词语义,然后根据确定的语料关键词语义解析文言文语料的语义。
本实施例中,通过分析统计文言文样本中样本关键词的规律建立语义概念图,然后结合语义概念图解析用户有疑问的文言文语料,从而快速准确地确定文言文语料中易混淆的词语。
本发明的另一个实施例,是上述的实施例的优化实施例,如图2所示,包括:
S100获取文言文中易混淆的关键词,根据所述关键词建立关键词库;
S110获取文言文中易混淆的所述关键词;
具体的,获取文言文中易混淆的关键词,例如之、者、也等语义以及用法繁多的字、词等。其中,获取的方式可以是通过分析用户的作业识别其中出错率较高的词语作为关键词,也可以让用户进行补充输入。
例如,在文言文中,“之”具有多种不同的语义,可以指代人,也可以指代物,也可以表示到哪里去等。其次,“之”字用在句子中不同的位置也表示不同的关系,用在定语和中心词之间,表示修饰、领属的关系,或者用在主谓之间,取消句子独立性,一般不必译出等。再次,“之”字还可以表示不同的标志,定语后置的标志,或者用宾语前置的标志等。归纳总结“之”字不同用法的语义超过十种,其中有的有实际意义,有的并没有实际意义,而对于初学者来说,可能无法准确区分,容易混淆。
S120获取所述关键词对应的词语信息,所述词语信息包括关键词词性和关键词词义;
具体的,获取的关键词对应的词语信息,词语信息包括关键词词性和关键词词义。同一个关键词可能对应多个关键词词性以及多个关键词语义,因此,需要将这两者之间的对应关系一一对应。
S130根据所述关键词和所述词语信息建立所述关键词库。
具体的,根据获取关键词和词语信息建立关键词库,在关键词库中关键词和关键词库之间建立唯一确定的一一对应的关系。
例如,在文言文中,“之”字对应多种词性以及多种语义,而且即便是同一词性,也可能对应多种语义,当“之”字词性为代词时,可以是指示代词,相当于“这个”、“这”、“这种”等,也可以是第三人称代词,相当于“他”、“它”、“它们”、“他们”等,也可以是第二人称代词,相当于“你”、“您”,还可以是指代说话者本人或听话者的对方。那么在关键词库中同样需要将每一种语义对应的词性都进行区分。可以选择通过数字进行标记,例如,代词1对应指示代词,代词2对应第三人称代词等。
S200获取文言文样本和对应的样本语义;
S300结合所述关键词库,根据所述文言文样本和所述样本语义确定样本属性信息;
S400根据所述样本属性信息和所述关键词库建立语义概念图;
S500获取文言文语料;
S600将所述文言文语料与所述关键词库进行比对,确定所述文言文语料中包含的语料关键词;
S700根据所述文言文语料分析所述语料关键词的属性信息;
S800结合所述语义概念图,分析所述语料关键词和所述属性信息确定所述语料关键词对应的语料关键词语义;
S900结合所述语料关键词语义分析所述文言文语料确定文言文语料语义。
本实施例中,获取文言文中易混淆的关键词建立关键词库,一方面关键词库中逻辑清晰地梳理了关键词以及词语信息的对应关系,另一方面便于后续比对文言文语料中的语料关键词。
本发明的另一个实施例,是上述的实施例的优化实施例,如图3所示,包括:
S100获取文言文中易混淆的关键词,根据所述关键词建立关键词库;
S200获取文言文样本和对应的样本语义;
S300结合所述关键词库,根据所述文言文样本和所述样本语义确定样本属性信息;
S310将所述文言文样本与所述关键词库进行比对,确定所述文言文样本中包含的样本关键词;
具体的,分析文言文样本中的句式结构以及各个词语的词性,将文言文样本进行分词得到若干个独立的字、词,然后和关键词库中的关键词逐一地进行比对,如果比对相符则确定文言文样本中包含的样本关键词。
例如,某一个文言文样本为:师道之不传也久矣,对其进行分词得到:“师道”、“之”、“不传”、“也”、“久”、“矣”,和关键词库进行比对,该文言文样本中包含有样本关键词“之”。
S320根据所述样本语义确定所述样本关键词的样本关键词语义;
具体的,根据样本语义确定样本关键词的样本关键词语义,如果获取的样本语义中包含有文言文样本中每个字、词的语义,则可以直接获取。如果获取的样本语义只包含文言文样本语句的语义,则结合文言文样本的句式结构分析样本关键词对应的样本关键词语义。
例如,某一个文言文样本为:师道之不传也久矣,其中包含的样本关键词为“之”,由于该文言文样本来源于学习教材,因此一般可以获得其中每个分词的语义,其中,“之”字用在主谓之间,取消句子独立性,一般不必译出。但是有时候可能无法直接获取样本关键词语义,只能获取文言文样本的语义,该文言文样本的语义为:从师学习的道理已经很久都不流传了,而其中的分词“师道”、“不传”、“久”等的并没有多种语义,那么结合其余的没有多种语义的分词对应的语义就能够分析出,在该文言文样本的语义中“之”字并没有进行翻译,从而确定样本关键词语义。
S330根据所述样本关键词分析所述文言文样本确定所述样本属性信息,所述样本属性信息为所述样本关键词与所述文言文样本中其余的样本词语之间的位置关系。
具体的,根据样本关键词分析文言文样本中样本关键词与其余的样本词语之间的位置关系,从而确定样本属性信息,其中位置关系包括先后顺序、中间间隔的词语数量以及结合句子结构判断的在句式中的位置。
例如,某一个文言文样本为:师道之不传也久矣,其中包含的样本关键词为“之”,其中可以直接判断出“之”在“师道”与“不传”之间,分析文言文样本的句子结构,可以得出“之”字在主语和谓语之间。
S400根据所述样本属性信息和所述关键词库建立语义概念图;
S410根据所述样本关键词、所述样本词语以及所述位置关系建立每一个文言文样本对应的样本概念图;
具体的,对于每一个的文言文样本来说,根据分析该文言文样本得到的样本关键词、样本词语以及位置关系可以确定该文言文样本对应的样本概念图,该样本概念图中只有该文言文样本所包含的信息。
例如,某一个文言文样本为:师道之不传也久矣,其中包含的样本关键词为“之”,其中可以直接判断出“之”在“师道”与“不传”之间,分析文言文样本的句子结构,可以得出“之”字在主语和谓语之间,样本关键词语义为用在主谓之间,取消句子独立性,一般不必译出。
按照上述举例建立如图4所示的样本概念图,其中,“主语”、“谓语”、样本关键词语义“取消句子独立性”、样本关键词词性“助词1”、样本关键词“之”分别作为节点,通过直线或箭头表示各个节点之间的关系,其中,“主语”的实体内容包含“师道”,“谓语”的实体内容包含“不传”。样本关键词、样本关键词词性以及样本关键词语义之间没有先后顺序等连接关系,因此使用直线进行连接。“主语”、“谓语”与“取消句子独立性”则在文言文样本中具有先后顺序,则通过箭头进行连接,有顺序在前的指向顺序在后的,并且还可以通过数字标注其中相隔的词语的数量,图4中不做具体举例。
S420根据所述关键词库将所有的样本概念图结合,得到所述语义概念图。
具体的,单一的文言文样本对应的样本概念图中的规律可能不具有适用性,因此需要将大量的样本概念图结合才能得到更加准确的语义概念图。而由于样本概念图中包含各个文言文样本的样本关键词,因此,以关键词库为节点,将所有的样本概念图结合,得到语义概念图。
S500获取文言文语料;
S600将所述文言文语料与所述关键词库进行比对,确定所述文言文语料中包含的语料关键词;
S700根据所述文言文语料分析所述语料关键词的属性信息;
S800结合所述语义概念图,分析所述语料关键词和所述属性信息确定所述语料关键词对应的语料关键词语义;
S900结合所述语料关键词语义分析所述文言文语料确定文言文语料语义。
本实施例中,通过分析文言文样本中样本关键词与其余的样本词语之间的位置关系,进行归纳总结,从而建立语义概念图。首先分析单一的文言文样本中的字、词的特征,建立相应的样本概念图,然后结合所有的样本概念图建立语义概念图,先区块化分析处理,再归一整合,提高了***处理的速度。
本发明的另一个实施例,是上述的实施例的优化实施例,如图5所示,包括:
S100获取文言文中易混淆的关键词,根据所述关键词建立关键词库;
S200获取文言文样本和对应的样本语义;
S300结合所述关键词库,根据所述文言文样本和所述样本语义确定样本属性信息;
S400根据所述样本属性信息和所述关键词库建立语义概念图;
S500获取文言文语料;
S600将所述文言文语料与所述关键词库进行比对,确定所述文言文语料中包含的语料关键词;
S700根据所述文言文语料分析所述语料关键词的属性信息;
S800结合所述语义概念图,分析所述语料关键词和所述属性信息确定所述语料关键词对应的语料关键词语义;
S900结合所述语料关键词语义分析所述文言文语料确定文言文语料语义。
S950根据所述语料关键词、所述属性信息以及所述语料关键词语义确定相符的文言文样本,将所述相符的文言文样本集合生成拓展训练集;
具体的,根据语料关键词、属性信息以及语料关键词语义确定相符的文言文样本,该相符的文言文样本实际上是其中的样本关键词与文言文语料中关键词用法一致,因此将此类的文言文样本集合生成拓展训练集。
S960根据所述拓展训练集进行知识拓展训练。
具体的,根据所述拓展训练集进行知识拓展训练,当用户碰到某一文言文语料时,推荐和其中的语料关键词相同用法的文言文样本做拓展训练,加强巩固,加深用户的印象,以便用户掌握相应的关键词的使用方法。
本实施例中,针对用户输入的文言文语料生成相关度高的拓展训练集,并推荐给用户进行知识拓展训练,从而有助于用户快速掌握文言文中易混淆的关键词的使用方法。
本发明的一个实施例,如图6所示,一种文言文的解析***100,包括:
词库建立模块110,获取文言文中易混淆的关键词,根据所述关键词建立关键词库;
样本获取模块120,获取文言文样本和对应的样本语义;
信息处理模块130,结合所述词库建立模块110建立的所述关键词库,根据所述样本获取模块120获取的所述文言文样本和所述样本语义确定样本属性信息;
概念图建立模块140,根据所述信息处理模块130确定的所述样本属性信息和所述所述词库建立模块110建立的关键词库建立语义概念图;
语料获取模块150,获取文言文语料;
关键词分析模块160,将所述语料获取模块150获取的所述文言文语料与所述词库建立模块110建立的所述关键词库进行比对,确定所述语料获取模块150获取的所述文言文语料中包含的语料关键词;
信息分析模块170,根据所述语料获取模块150获取的所述文言文语料分析所述关键词分析模块160确定的所述语料关键词的属性信息;
关键词语义分析模块180,结合所述概念图建立模块140建立的所述语义概念图,分析所述关键词分析模块160确定的所述语料关键词和所述信息分析模块170确定的所述属性信息确定所述关键词分析模块160确定的所述语料关键词对应的语料关键词语义;
语料语义分析模块190,结合所述关键词语义分析模块180确定的所述语料关键词语义,分析所述语料获取模块150获取的所述文言文语料确定文言文语料语义。
本实施例中的各个模块的具体操作方式在上述对应的方法实施例中已经进行了详细描述,因此不再一一进行赘述。
本发明的另一个实施例,是上述的实施例的优化实施例,如图7所示,包括:
词库建立模块110,获取文言文中易混淆的关键词,根据所述关键词建立关键词库;
所述词库建立模块110具体包括:
关键词获取单元111,获取文言文中易混淆的所述关键词;
信息获取单元112,获取所述关键词获取单元111获取的所述关键词对应的词语信息,所述词语信息包括关键词词性和关键词词义;
词库建立单元113,根据所述关键词获取单元111获取的所述关键词和所述信息获取单元112获取的所述词语信息建立所述关键词库。
样本获取模块120,获取文言文样本和对应的样本语义;
信息处理模块130,结合所述词库建立模块110建立的所述关键词库,根据所述样本获取模块120获取的所述文言文样本和所述样本语义确定样本属性信息;
所述信息处理模块130具体包括:
关键词分析单元131,将所述样本获取模块120获取的所述文言文样本与所述词库建立模块110建立的所述关键词库进行比对,确定所述样本获取模块120获取的所述文言文样本中包含的样本关键词;
语义分析单元132,根据所述样本获取模块120获取的所述样本语义确定所述关键词分析单元131确定的所述样本关键词的样本关键词语义;
信息分析单元133,根据所述关键词分析单元131确定的所述样本关键词,分析所述样本获取模块120获取的所述文言文样本确定所述样本属性信息,所述样本属性信息为所述样本关键词与所述文言文样本中其余的样本词语之间的位置关系。
概念图建立模块140,根据所述信息处理模块130确定的所述样本属性信息和所述所述词库建立模块110建立的关键词库建立语义概念图;
所述概念图建立模块140具体包括:
样本概念图建立单元141,根据所述关键词分析单元131确定的所述样本关键词、所述信息分析单元133中的所述样本词语以及所述位置关系建立每一个文言文样本对应的样本概念图;
语义概念图建立单元142,根据所述词库建立模块110建立的所述关键词库,将所述样本概念图建立单元141建立的所有的样本概念图结合,得到所述语义概念图。
语料获取模块150,获取文言文语料;
关键词分析模块160,将所述语料获取模块150获取的所述文言文语料与所述词库建立模块110建立的所述关键词库进行比对,确定所述语料获取模块150获取的所述文言文语料中包含的语料关键词;
信息分析模块170,根据所述语料获取模块150获取的所述文言文语料分析所述关键词分析模块160确定的所述语料关键词的属性信息;
关键词语义分析模块180,结合所述概念图建立模块140建立的所述语义概念图,分析所述关键词分析模块160确定的所述语料关键词和所述信息分析模块170确定的所述属性信息确定所述关键词分析模块160确定的所述语料关键词对应的语料关键词语义;
语料语义分析模块190,结合所述关键词语义分析模块180确定的所述语料关键词语义,分析所述语料获取模块150获取的所述文言文语料确定文言文语料语义。
训练集生成模块195,根据所述关键词分析模块160确定的所述语料关键词、所述信息分析模块170确定的所述属性信息,以及所述关键词语义分析模块180确定的所述语料关键词语义确定相符的文言文样本,将所述相符的文言文样本集合生成拓展训练集;
拓展训练模块196,根据所述训练集生成模块195生成的所述拓展训练集进行知识拓展训练。
本实施例中的各个模块的具体操作方式在上述对应的方法实施例中已经进行了详细描述,因此不再一一进行赘述。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种文言文的解析方法,其特征在于,包括:
获取文言文中易混淆的关键词,根据所述关键词建立关键词库;
获取文言文样本和对应的样本语义;
结合所述关键词库,根据所述文言文样本和所述样本语义确定样本属性信息;
根据所述样本属性信息和所述关键词库建立语义概念图;
获取文言文语料;
将所述文言文语料与所述关键词库进行比对,确定所述文言文语料中包含的语料关键词;
根据所述文言文语料分析所述语料关键词的属性信息,该属性信息为所述文言文语料中所述语料关键词与其余的字、词之间的位置关系,包括先后顺序以及中间间隔的词语数量;
结合所述语义概念图,分析所述语料关键词和所述属性信息确定所述语料关键词对应的语料关键词语义;
结合所述语料关键词语义分析所述文言文语料确定文言文语料语义;
其中,获取文言文中易混淆的关键词,根据所述关键词建立关键词库具体包括:
获取文言文中易混淆的所述关键词;
获取所述关键词对应的词语信息,所述词语信息包括关键词词性和关键词词义;
根据所述关键词和所述词语信息建立所述关键词库,在所述关键词库中所述关键词和所述关键词库之间建立唯一确定的一一对应的关系。
2.根据权利要求1所述的文言文的解析方法,其特征在于,结合所述关键词库,根据所述文言文样本和所述样本语义确定样本属性信息具体包括:
将所述文言文样本与所述关键词库进行比对,确定所述文言文样本中包含的样本关键词;
根据所述样本语义确定所述样本关键词的样本关键词语义;
根据所述样本关键词分析所述文言文样本确定所述样本属性信息,所述样本属性信息为所述样本关键词与所述文言文样本中其余的样本词语之间的位置关系。
3.根据权利要求2所述的文言文的解析方法,其特征在于,根据所述样本属性信息和所述关键词库建立语义概念图具体包括:
根据所述样本关键词、所述样本词语以及所述位置关系建立每一个文言文样本对应的样本概念图;
根据所述关键词库将所有的样本概念图结合,得到所述语义概念图。
4.根据权利要求1-3任一项所述的文言文的解析方法,其特征在于,还包括:
根据所述语料关键词、所述属性信息以及所述语料关键词语义确定相符的文言文样本,将所述相符的文言文样本集合生成拓展训练集;
根据所述拓展训练集进行知识拓展训练。
5.一种文言文的解析***,其特征在于,包括:
词库建立模块,获取文言文中易混淆的关键词,根据所述关键词建立关键词库;
样本获取模块,获取文言文样本和对应的样本语义;
信息处理模块,结合所述词库建立模块建立的所述关键词库,根据所述样本获取模块获取的所述文言文样本和所述样本语义确定样本属性信息;
概念图建立模块,根据所述信息处理模块确定的所述样本属性信息和所述所述词库建立模块建立的关键词库建立语义概念图;
语料获取模块,获取文言文语料;
关键词分析模块,将所述语料获取模块获取的所述文言文语料与所述词库建立模块建立的所述关键词库进行比对,确定所述语料获取模块获取的所述文言文语料中包含的语料关键词;
信息分析模块,根据所述语料获取模块获取的所述文言文语料分析所述关键词分析模块确定的所述语料关键词的属性信息,该属性信息为所述文言文语料中所述语料关键词与其余的字、词之间的位置关系,包括先后顺序以及中间间隔的词语数量;
关键词语义分析模块,结合所述概念图建立模块建立的所述语义概念图,分析所述关键词分析模块确定的所述语料关键词和所述信息分析模块确定的所述属性信息确定所述关键词分析模块确定的所述语料关键词对应的语料关键词语义;
语料语义分析模块,结合所述关键词语义分析模块确定的所述语料关键词语义,分析所述语料获取模块获取的所述文言文语料确定文言文语料语义;
其中,所述词库建立模块具体包括:
关键词获取单元,获取文言文中易混淆的所述关键词;
信息获取单元,获取所述关键词获取单元获取的所述关键词对应的词语信息,所述词语信息包括关键词词性和关键词词义;
词库建立单元,根据所述关键词获取单元获取的所述关键词和所述信息获取单元获取的所述词语信息建立所述关键词库,在所述关键词库中所述关键词和所述关键词库之间建立唯一确定的一一对应的关系。
6.根据权利要求5所述的文言文的解析***,其特征在于,所述信息处理模块具体包括:
关键词分析单元,将所述样本获取模块获取的所述文言文样本与所述词库建立模块建立的所述关键词库进行比对,确定所述样本获取模块获取的所述文言文样本中包含的样本关键词;
语义分析单元,根据所述样本获取模块获取的所述样本语义确定所述关键词分析单元确定的所述样本关键词的样本关键词语义;
信息分析单元,根据所述关键词分析单元确定的所述样本关键词,分析所述样本获取模块获取的所述文言文样本确定所述样本属性信息,所述样本属性信息为所述样本关键词与所述文言文样本中其余的样本词语之间的位置关系。
7.根据权利要求6所述的文言文的解析***,其特征在于,所述概念图建立模块具体包括:
样本概念图建立单元,根据所述关键词分析单元确定的所述样本关键词、所述信息分析单元中的所述样本词语以及所述位置关系建立每一个文言文样本对应的样本概念图;
语义概念图建立单元,根据所述词库建立模块建立的所述关键词库,将所述样本概念图建立单元建立的所有的样本概念图结合,得到所述语义概念图。
8.根据权利要求5-7任一项所述的文言文的解析***,其特征在于,包括:
训练集生成模块,根据所述关键词分析模块确定的所述语料关键词、所述信息分析模块确定的所述属性信息,以及所述关键词语义分析模块确定的所述语料关键词语义确定相符的文言文样本,将所述相符的文言文样本集合生成拓展训练集;
拓展训练模块,根据所述训练集生成模块生成的所述拓展训练集进行知识拓展训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910365272.4A CN111859949B (zh) | 2019-04-30 | 2019-04-30 | 一种文言文的解析方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910365272.4A CN111859949B (zh) | 2019-04-30 | 2019-04-30 | 一种文言文的解析方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111859949A CN111859949A (zh) | 2020-10-30 |
CN111859949B true CN111859949B (zh) | 2023-04-25 |
Family
ID=72966735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910365272.4A Active CN111859949B (zh) | 2019-04-30 | 2019-04-30 | 一种文言文的解析方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859949B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451114A (zh) * | 2017-06-28 | 2017-12-08 | 广州尚恩科技股份有限公司 | 一种古汉语语义分析方法及其*** |
CN109800430A (zh) * | 2019-01-18 | 2019-05-24 | 广东小天才科技有限公司 | 一种语义理解方法及*** |
-
2019
- 2019-04-30 CN CN201910365272.4A patent/CN111859949B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451114A (zh) * | 2017-06-28 | 2017-12-08 | 广州尚恩科技股份有限公司 | 一种古汉语语义分析方法及其*** |
CN109800430A (zh) * | 2019-01-18 | 2019-05-24 | 广东小天才科技有限公司 | 一种语义理解方法及*** |
Non-Patent Citations (3)
Title |
---|
基于文言虚词的知识图谱构建;朱厚望;《中国优秀博硕士论文全文数据库(硕士)信息科技辑(月刊)》;20190315(第03期);第I138-1077页 * |
基于词典信息的先秦汉语全文词义标注方法研究;张颖杰 等;《中文信息学报》;20120531;第26卷(第3期);第65-71页 * |
文言虚词的形态特征定性分析与语义识别;董伊环;《中国优秀博硕士论文全文数据库(硕士)信息科技辑(月刊)》;20190315(第03期);第I138-1074页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111859949A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7108675B2 (ja) | 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN105183761A (zh) | 敏感词替换方法和装置 | |
KR20100047221A (ko) | 사전 단어 및 어구 판정 | |
WO2023240943A1 (zh) | 生成数字人的方法、模型的训练方法、装置、设备和介质 | |
US9396230B2 (en) | Searching and content delivery system | |
KR102104294B1 (ko) | 디스플레이 장치로 읽을 수 있는 저장매체에 저장된 수화 영상 챗봇 애플리케이션 | |
CN109359308B (zh) | 机器翻译方法、装置及可读存储介质 | |
van Esch et al. | Writing across the world's languages: Deep internationalization for Gboard, the Google keyboard | |
JP2021082306A (ja) | 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体 | |
Bragg et al. | Designing an animated character system for American sign language | |
Farooq et al. | A crowdsourcing-based framework for the development and validation of machine readable parallel corpus for sign languages | |
Graham et al. | Evaluating OpenAI's Whisper ASR: Performance analysis across diverse accents and speaker traits | |
JP2017091368A (ja) | 言い換え装置、方法、及びプログラム | |
Bhikne et al. | Faster and less error-prone: Supplementing an accessible keyboard with speech input | |
CN111859949B (zh) | 一种文言文的解析方法及*** | |
CN112149403A (zh) | 一种确定涉密文本的方法和装置 | |
CN111555960A (zh) | 信息生成的方法 | |
Cignarella et al. | Twittirò: an Italian twitter corpus with a multi-layered annotation for irony | |
CN111914533A (zh) | 一种解析英语长句的方法及*** | |
JP6693032B2 (ja) | 文章を解析するための方法、プログラムおよびシステム | |
Fume et al. | Implementation of Automatic Captioning System to Enhance the Accessibility of Meetings | |
Abdusselam | A Research on Students' Preferences for Mobile On-Screen Keyboard. | |
CN111858622A (zh) | 基于质量传播的多意图排序方法和装置,及存储介质 | |
Kudubayeva et al. | THE INFLUENCE OF THE KAZAKH LANGUAGE SEMANTIC PECULIARITIES ON COMPUTER SIGN LANGUAGE. | |
CN111859941B (zh) | 一种调整英文语句顺序的方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |