CN110909537A - 现代汉语成分分析的一种人工智能方法 - Google Patents

现代汉语成分分析的一种人工智能方法 Download PDF

Info

Publication number
CN110909537A
CN110909537A CN201911188728.0A CN201911188728A CN110909537A CN 110909537 A CN110909537 A CN 110909537A CN 201911188728 A CN201911188728 A CN 201911188728A CN 110909537 A CN110909537 A CN 110909537A
Authority
CN
China
Prior art keywords
phrase
word
verb
phrases
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911188728.0A
Other languages
English (en)
Inventor
曲英洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201911188728.0A priority Critical patent/CN110909537A/zh
Publication of CN110909537A publication Critical patent/CN110909537A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本方法涉及一种使用人工智能分析现代汉语句子成分的方法。设计目的是使计算机将文本按语法规范逐层分解为短语和词,并且划分成主语、谓语、宾语等。(如摘要附图1)。本方法具有以下特征:1、建立和调用词库以及将文本切分成语段、句和词。2、一词多性可操作设置。3、必须预设置的固定或者确定的短语属性。4、建立习惯用法词库和调用规则。5、短语构成的判定。6、短语组成计算以及记录模块的设计。7、介词结构、动宾结构、联合短语、【的】字短语等特定用法的设计。8、根据短语和词的构成方式划分句子成分以及划分函数库的设置。本方法作为基础的技术适用于教育教学、新闻编辑、文本处理、远程诊断、机器人人机对话等领域。

Description

现代汉语成分分析的一种人工智能方法
技术领域
《现代汉语成分分析的一种人工智能方法》(以下简称本方法)涉及一种使用人工智能分析现代汉语句子成分的方法。本方法所称人工智能,是指使用计算机模拟人的思维——包括通过阅读语句理解人的思想和感情,以及因此进行联想、想象、判断、推理和论证的全过程。本方法的设计目的是实现这个过程最基础的一环——使计算机将现代汉语文本按语法规范逐层分解为短语和词,并且划分成主语、谓语、宾语、定语、补语、状语。(如附图1)。
本方法的先进性在于:
1、它解决了计算机划分现代汉语这种复杂自然语言语句成分的问题,能够将现代汉语一层一层的从句子划分成短语,又从短语划分成词。这种划分,使复杂的语句变得简单明了、一目了然。
2、这种划分不仅使计算机能够获得汉语语句中的主要成分,而且能够获得每一层短语中的主要成分。
3、这种划分由于明确了词、短语乃至语句在具体语境中的位置及作用等,所以词可以构成计算机所能理解的概念,语句可以改写成计算机所能理解的判断,句群则可以改写成计算机所能理解的推理和论证。词、短语、句的感情色彩,则可以构成计算机联想、想象的情感基础。最终,计算机模拟了人的思维(见附图2、3、4)。
在此之前,计算机无法划分现代汉语成分。
背景技术
本方法背景技术主要为当前现代汉语语法***。代表作如:詹人凤教授《现代汉语》《语言学》(哈尔滨师范大学中文系1993年版),中央电大《现代汉语讲义》(1993年版)等。
但本方法与上述背景技术不同之处在于:
①本方法的对象是计算机,是计算机在分析文本语句和语句成分,而不是人脑;
②本方法分析的目的是在计算机内部形成概念、判断和推理,是使计算机形成思维,而非简单用于语言研究或者教育教学过程。
本方法具有以下独创:
一、建立和调用词库以及将文本切分成语段、句和词。
二、一词多性可操作设置。
三、必须预设置的固定或者确定的短语属性。
四、建立习惯用法词库和调用规则。
五、短语构成的判定。
六、短语组成计算以及记录模块的设计。
七、介词结构、动宾结构、联合短语、【的】字短语等特定用法的设计。
八、根据短语和词的构成方式划分句子成分以及划分函数库的设置。
本方法的实用性体现在:
①当人和计算机交流需要通过现代汉语文本时。
②语言是思维的外壳,思维是语言的内容。当需要计算机使用现代汉语进行思维时。
当出现上述情况需要计算机对现代汉语进行成分分析的所有场合,包括教育教学、新闻编辑、文本处理、远程诊断、机器人人机对话等领域,都可以实际应用本方法达到预期效果。
比如:附图2、附图3、附图4描写了一个本方法分析高考作文试题并进行提示的简短过程。这个过程可以理解为一个实际发生的智能教学过程或者智能阅读及写作过程。本例作文题是实实在在的2016年山东省高考题。本方法的采用使计算机自动迅速分析了这个作文题阅读材料及题给要求的每一个语句。这些句子的主要成分按位置和关系组成一系列概念和判断,这些判断在计算机内部构成推理并获得结论。最终,计算机自动形成指令完成了解题、分析、注解、提示题目与提纲等全过程。
发明内容
本方法用于使计算机对汉语文本划分成句短语和词,以及主谓宾定补状等句子主要成分。划分中要遵循现代汉语语法规范并使划分能方便计算机概念、判断、推理和论证过程形成。技术方案如下:
一、建立和调用词库以及将文本切分成语段、句和词:
1、词库:所谓词库,是指计算机关于现代汉语词汇可以存储和调用的所有文件。建立词库的目的,是为了将文本分割成词。词库按词所包含的字符从多到少依次存放。包括;
①5个字符及以上的。如“知无不言,言无不尽”等;
②4个字符:如“猴皮筋儿”等;
③3个字符:如“保龄球”等;
④2个字符,如“努力”等;
⑤1个字符,如“走”等。
2、词变量:词以变量的形式存放在词库中。词变量具有4个属性:
①以字符串形式存在词本身;
②词性:以数字表示,如“1”表示名词,“2”表示动词等;
③感情色彩:以数字表示,如“1”表示褒义,“-1”表示贬义等;
④使用频率:以数字表示,每使用一次就增加“1”。
3、词库调用时遵循2个原则:
①按字符数从多向少依次调用。比如:语句“我们要知无不言,言无不尽。”分割成词时先调用词库中5个及以上字符文件进行对照,得到词“知无不言,言无不尽”;调用2个字符文件对照时,得到“我们”;调用1个字符文件对照又得到“要”;这样全句就由“我们”“要”“知无不言,言无不尽”3个词组成。
②按使用频率从多到少依次调用。词的使用习惯具有明确的民族、地区、时代、使用者等个性差异。词库中,将使用频率高的词排在前面。调用时,按使用频率从高到低依次调用。这样,可以在语句切割中提高效率,减少错误。
4、词单元:词单元是最基本的分析单位,它是通过调用词库切割文本后获得的。比如,前例中“我们”“要”“知无不言,言无不尽”就是3个词单元。词单元包括5个属性:
①词性,用数字表示,如“1”表示名词等,共58个词性。来自词库阅读。
②短语属性,用数字表示,比如:“59”表示“的字结构”等。来自具体分析。
③语法成分,用数字表示,比如“1”表示主语等。来自具体分析。
④词在文本中的起始位置,用数字表示。来自实际统计。
⑤词包含的字符数,用数字表示。来自词库阅读。
本方法词性属性列表:
Figure BSA0000196076100000021
Figure BSA0000196076100000031
本方法列举短语属性有:
Figure BSA0000196076100000032
5、短语单元:用来纪录和展示短语属性和构成,在划分短语过程中产生。
①它是变量二维数组。第一维表示短语的构成层次,按行的方式从上向下依次纪录。第二维表示行中的列,用来横向纪录短语的属性、起点和终点。比如,“俄罗斯科学家最近设计出一种外形不透光的黑色管状物……”句中:
第一层:完全主谓短语,从0(俄罗斯)到13(物).
第二层:主谓短语,从0(俄罗斯)到4(出)+【的】字短语:从5(一种)到13(管状物)。
第三层:(1)主谓短语包括:偏正短语从0到1;状动短语从2到4;(2)【的】字短语包括:完全主谓短语从5到10;结构助词从11到11;偏正短语从12到13。
第四层:(1)偏正短语包括:处所名词0;名词1;(2)状动短语包括:状动短语从2到3;趋向动词4;(3)完全主谓短语包括:偏正短语从5到7;动宾短语从8到10;;(4)偏正短语包括:形容词从12到12;名词从13到13;……
②短语单元是最重要的变量数组,计算方法是:
(1)初始计算:新建短语数组,每一个词记入短语数组一个列,当前行为0;
(2)新建短语纪录:在每次短语划分后,将划分结果记入左端第一个列,并将左端第一个列原有记录依次下移一行。比如:词3“设计”和词4“出”构成动补短语,则将动补短语记入3所在列的短语属性中,标记该列起点和终点分别为3和4;同时要将词3所在列原有记录依次下移一行:比如将“设计”0行的“动词”属性和起点3、终点3分别移到1行;以此类推。
(3)短语划分后,涉及的各列原有记录依次移向左端第一列的下一行。比如:词3“设计”和词4“出”构成动补短语,0行短语属性记录动宾短语,始末点分别为3和4:词4“出”的趋向动词属性和始末点4则斜向从当前行移动到左端第一列相对应的下一行。如:从0移向1行,和词3所在列的第一行共同构成“1.短语属性动词,起点3,终点3);2.短语属性趋向动词,起点4,终点4”两条记录。其余类推。
(4)当前划分未涉及的其余各列,原有记录应依次平移至划分涉及的左端第一列记录后,原有数组相应缩短。例如:“俄罗斯科学家最近设计出一种外形为不透光的黑色管状物……”句,0行纪录原有15列,当划分出词3“设计”和词4“出”动补短语后,5列纪录平移至4列,6列平移至5列,以此类推,全部记录由15列缩短为14列。
6、切分文本及语句:
将文本切分成自然句完整句和语段,并分别记录自然句完整句语段的始末位置:即从哪一个词开始,到哪一个词结束。
①自然句按句号、逗号、冒号、右引号、问号、惊叹号、删节号、破折号分号划分;
②完整句按句号、问号、惊叹号、删节号、回车符划分;
③语段按回车符划分。
二、一词多性可操作的设置:
词性和词的位置是划分短语的重要依据。从计算机分析的角度看,一词多性是指同一个词由于位置、关联的词类或者具体词不同,具有多个词性。但操作中一个词只能有一个词性。所以设置如下:
(1)名词“月”当前面出现数词或者“正”“初”等词汇时,作时间动词;
(2)名词“日”“时”“夜”“天”“年”“刻”“昼”当前面出现名词、数词、时间词时,作时间动词;
(3)动词“科研”“教学”“学习”“支边”“创新”“锻炼”“互助”“创城”“考试”“工作”“旅游”等当出现在″规划”“计划”“总结”“报告”“小结”“工作″时。作属性词。
(4)动词在下一个词为“力度”时。作属性词。
(5)“才能”当与“只有”连用时,作连接句子的连词。
(6)动词形容词动词+形容词名词当用在“高度”前面时,作属性词。
(7)“首”“末”“再”“头”“尾”当用在量词前面时,作数词。
(8)″声”“把”“路”“群”“碗”“回”“种”“只”“锅”“桶”“单”“杯”“缸”“船”“勺”“栏”“篮”“窝”“杆”“排”“队”“列”“张”“匣”“盒”“堆”“洼”……等用在数词或者指示代词后面,作量词。
(9)当数词用于句首并且后面有“、”“.”“,”等符号时,作序数词。
(10)当数词“一”前面和后面都是动词或者形容词,并且前后动词或者形容词重叠时,“一”作副词,全部短语作状动短语;当“一”后为动词或形容词时,“一”作副词。
(11)当数词“万”后一个词为数词“一”或“万”的时候,两个词都作副词;当前一个词或者后一个词为“千”的时候,用在动词前作副词,用在形容词名词前作形容词。
(12)当数词用于″年”“月”“日”“时”“点”“秒″等量词前时,和量词一同作时间词,构成时间短语。
(13)动词“没有”“继续”“至于”用在动词趋向动词前面时,作副词。
(14)动词“到”“至”用在数词、时间名词、处所名词、名词、代词、人称代词、指示代词前面或后面,都作介词。
(15)动词“看”当用在″上”“表面”“大致”“大体”“大概”“整体”“总体”“总的”“概括”“实际”“具体”“精确”“精准″等后面时,作判断动词。
(16)动词“来”用在其他动词后面作语气助词。
(17)动词“流”用在″到”“向”“往”“在”“经”“出″等趋向动词或者介词前面时,作动词,否则如果用在名词、结构助词后面则作名词。
(18)“想”单独或者重叠使用时,作动词;用在动词、不及物动词、表心理活动动词、表存在与变化动词、使令动词前面,作情状副词。
(19)动词“等”当用在数词和指示代词后面的时候,作量词;如果“等”前面不是兼语短语,后面如果″功能”“特点”“方法”“用途”“作用”“模式”“途径”“优点”“毛病”“缺点”“说法”“成就”“人”“类别”“污点”等词汇,作结构助词;“等”的后面如果出现时间词、【的】字结构、【的】字短语、偏正短语、联合短语、引用、时间短语等,作结构助词;“等”的后面如果出现名词或者处所名词,并且不是单称的,作结构助词。另外,当“等”不作结构助词时,如果“等”的后面出现动词、不及物动词、表心理活动的动词、表存在与变化的动词、使动词、判断动词、是、进行状态动词……“等”作语气助词。“等”在句末,如果“等等”重叠,作语气词;如果非重叠而上一个词是时间词【的】字结构【的】字短语偏正短语联合短语引用时间短语时间短语,或者上一个词是名词处所名词但不是单称的,也作语气助词。
(20)动词“领导”如果下一个词是动词形容词如″说”“想”“看”“认为”“觉得”“以为”“寻思”“知道”“懂得”“晓得”“问”“思考”……时,作名词。
(21)“是”在与″还是”“或是”“拟或″等搭配时。作连接句子的连词。
(22)能愿动词用在副词、副词+助词、副词+连词、程度副词、时态副词、范围副词、频率副词、肯定否定副词、语气副词、情状副词、形容词前面时,作副词;能愿动词单独使用时,作判断动词。
(23)使令动词“叫”当前一个词是动词形容词副词时,作动词。
(24)使令动词″请”“盼”“望”“求”“希″后一个词是动词、不及物动词、表心理活动的动词、表存在与变化的动词、判断动词、是、进行状态动词、形容词、介词时,作语气副词。
(25)使令动词“令”后一个词是动词、不及物动词、表心理活动的动词、表存在与变化的动词、判断动词、是、进行状态动词、形容词、介词时,作语气副词;在数词的后面作量词;充当主语时,作名词。
(26)使动词″要求”“命令”“指示”“指令”“规定”“约定”“请求″等如果前方存在″按照”“遵照”“按”“遵”“循”“遵循”“遵守”“依据”“依照”“依”“据″等词语,作名词。
(27)副词″究竟”“到底”“大概”“可能”“也许”“只会”“似乎”“好像”“不会″等,如果后面没有动词或判断动词是,则作判断动词。
(28)时态副词“在”如果句子没有其他动词,作动词;否则在名词、代词、指示代词、人称代词、疑问代词、处所名词、时间词等前面作介词。
(29)范围副词用在名词、动词、量词、数词、时间名词、处所名词、人称代词、指示代词等前面,作动词
(30)肯定否定副词当直接用在时态助词和标点前面时,作判断动词:当用在句末或者语气词、叹词、拟声词前面时,作判断动词;用在名词、量词、数词、时间名词、处所名词、人称代词、指示代词前面时,作属性词。
(31)时间名词用在“的”的后面,作名词。
(32)处所名词用在“的”的后面或者″次”“回”“趟”“遭”“圈″的后面,作名词。
(33)全面组合方位词如果前一个词为副词,作副词;如果前一个词为动词、不及物动词、表心理活动的动词、表存在与变化的动词,作趋向动词;如果后一个词为名词、代词、人称代词、指示代词、疑问代词,作趋向动词。
(34)介词“用”当下一个词为“的”或者句中没有主要动词情况下,作动词。
(35)介词“为”用于全句结尾,句末标点是冒号破折号时,作判断动词;句末标点是问号惊叹号删节号时,作语气副词;在“何以为……”结构中作动词;在“何以……为”中作语气助词。
(36)介词“被”当下一个词为动词时,作副词。
(37)介词″同”“共″如果它的下一个词是动词,那么这个动词作名词。
(38)介词“在”如果句子中没有主要动词,作动词;如果句中有动词并且在这个动词前面,作副词。
(39)介词“替”“跟”重叠使用时作动词,或者在句子没有主要动词条件下作动词。
(40)介词“根据”“依据”如果句子中没有主要动词,作动词;用在“的”的后面,作名词;用在″有”“存在”“拥有”“具有”“成为”“查找”“寻找”“找到”“发现”“什么”“这”“这个”“这类”“这种”“这些”“那”“那个”“那类”“那种”“那些″等词后面,作名词。
(41)介词“把”“将”当下一个词是动词,而动词的后面是名词、处所名词、代词、人称代词、指示代词、疑问代词时,这个动词用作名词。
(42)介词“自”,与″到”“至”“以来”“以后”“以远”“以外″等搭配,否则作人称代词。
(43)介词″在”“比”“向”“给”“对”“按”“经过”“通过”“乘”“临”“将”“依照”“按照”“根据”“遵照″,如果和下一个词不构成介宾短语,如果句子不存在其他动词充当谓语,作动词;“将”“在”在动词前面作副词。
(44)动词“打”如果与″以来”“来”“去”“发生”“出现”“诞生”“产生”“爆发″搭配,作介词。
(45)动词“叫”如果后面的词是人称代词,作介词。
(46)动词“到”如果前面有″从”“自”“打″,作介词。
(47)动词″管”“朝″如果后面有其他动词谓语,作介词。
(48)连词“和”“与”“同″如果前面不存在可以构成联合短语的名词或者名词性短语,而后面存在可以构成联合短语的名词或者名词性短语,并且短语后面存在动词、不及物动词、表心理活动的动词、表存在与变化的动词、使动词、判断动词、是、进行状态动词、动词+形容词、能愿动词、趋向动词、动宾短语、动补短语、连动短语、状动短语、形容词、形容词联合短语、形容词偏正短语等,“和”“与”“同″作介词。
(49)连词“一边”如果在“的”或者处所名词后面,作方位词。
(50)连词“只有”如果后面是名词数量词代词,作动词。
(51)连词″只是”“就是”“却是″如果后面不存在动词,但出现了“的”,作判断动词。
(52)连词“别管”,如果后面不出现动词、不及物动词、动词+形容词、能愿动词、趋向动词、表心理活动的动词、表存在与变化的动词、使动词、表判断的动词、是、肯定否定副词、时态助词、比况助词等,作动词。
(53)代词“之”在’形容词、非谓形容词、名词、方位词、时间词、全面组合方位词、左右方位词、内中间方位词、旁方位词前面,作结构助词。
(54)代词“其”在数词前面并且位于句首,作序数词。
(55)疑问代词″几”“多”“多少″用在量词前面,作数词;在名词“天”“日”“月”“年”“时”“分”“秒”等前面,作数词,名词作量词。
(56)疑问代词″多会”“几时”“哪会儿”“那会儿″作时间名词。
(57)疑问代词″哪儿”“哪里”“哪块”“哪″作处所名词。
(58)疑问代词″多么”“怎会”“咋会”“多”“何等”“何种”“这么”“那么”“什么”“怎么”“怎样”“怎么样”“咋样”“如何”“何如”“奈何″在动词、形容词前面,作副词。
(59)时态助词“着”“了”“过”如果是单独使用的名词、形容词时,该名词、形容词作动词。
(60)结构助词“地”用于句末时,作名词;“地”后面如果没有动词、不及物动词、表心理活动的动词、表存在与变化的动词、使令动词、进行状态动词等,作名词。
(61)结构助词“得”当前一个词不作谓语时,作动词。
(62)形容词“老”“少”“大”“小”当下一个词是数词、名词时,作名词。
(63)形容词“真”当下一个词是动词、形容词、不及物动词、表心理活动动词、表存在与变化动词、使令动词、表判断动词、是时,作情状副词。
(64)形容词″文明”“繁荣″当前一个词是名词、指示代词时,作名词。
(65)形容词“长”当下一个词是时态助词、形容词或者“得”时,作动词;当前一个词是“军”“旅”“师”“团”“营”“连”“排”“班”“省”“市”“镇”“乡”“村”“局”“处”“科”“厂”“矿”“县”“署”“学”“校”“河”“部”“课”“院”“所”“路”时,作名词。
(66)形容词“好”当前半句不存在判断动词、是时,如果下一个词是量词、形容词或者“一”后带量词,作判断动词。
(67)形容词“安全”当前一个词是名词、处所名词、指示代词、疑问代词、结构助词,并且句中充当主语、宾语时,作名词。
(68)形容词当前一个词是指示代词如″任何”“各种”“每一种”“每种”“每一个”“这”“这个”“这种”“那″″那种″等时,作名词。
(69)特殊标点:书名号、方括号内部所有词都为名词。
(70)成语如果前一个词为介词,成语作名词。并且,除关联词外,所有与之接续的成语都作名词。
(71)名词、处所名词后面出现时态助词,名词用作动词。
(72)名词、处所名词后面出现“一下”“一次”“下”“个”“次”“些”“阵”“回”“起”“掉”“成″等语词,名词用作动词。
(73)名词、处所名词前面出现“不”“很”“特”“永远”“非常”“不”“很”“特”“永远”“特别”“一直”“超″″十分”“万分”“超”“格外”等副词修饰,或者″怎么”“怎样”“怎么样”“咋”“咋样″等,名词用作动词。
(74)动词在结构助词“的”“之”“等”的后面,“的”字前面第一个词如果是动词,并且如果它所在位置如果能构成动宾短语、【的】字结构或者只是单个动词,“的”前面的动词和“的”构成的是【的】字结构;否则,“的”后面的动词用作名词。
(75)动词位于句首,动词后有状语或者表存在与变化的动词、判断动词出现,动词作名词。
(76)动词位于句首,动词后出现“受到”“遭受”“遭到”“承受”“受”“遭”“遭遇”“经受”“接受”等,动词作名词。
(77)形容词受数量词限制时作名词;在时态助词后面时,当前形容词作名词;形容词用作定语中心词,作名词。
(78)形容词后面出现时态助词,形容词用作动词;形容词后面紧跟趋向动词,作动词;形容词后面出现“一”并且和″下”“个”“次”“些”“阵”“回″等量词搭配时,形容词作动词;形容词后面出现“起”“掉”“成”时,形容词作动词。
三、必须预设置的固定或者确定的短语属性:
对于无法在规范的划分程序中获得属性的某些特殊的短语,应该预先设置短语属性:
(1)如果“子”“儿”“头”只是单一的词素并且不居于句子的开头,它的前一个词如果是偏正短语、联合短语、“的”字结构、引用、形容词、动词、不及物动词、表心理活动的动词、量词、数词等,那么它们构成联合短语;
(2)如果“化”只是单一的词素并且不居于句子的开头,它的前一个词如果是偏正短语、联合短语、主谓短语、动宾短语、“的”字结构、方位短语、状动短语、引用、形容词联合短语、形容词偏正短语、成语、时间短语等,那么它们构成连动短语;
(3)“供”……“用”搭配,设为固定短语。
(4)“就”……“说”或“言”或“看”搭配,设为介宾短语。
(5)“像″、″象″、″如″、″如同″、″好像″、″好似”……″一样″或″似的″或″一般″或″般″或″模样″或″样″搭配,设为介宾短语。
(6)″关于″、″对于″、″对″、″按照″、″按″……“等”搭配,设为介宾短语。
(7)″除了″、″除″……″外″或″之外″或″以外″搭配,设为介宾短语。
(8)″为了”“为”“因为”“为着”“由于”“因”“依”“根据”“据”“以”“本着″……“等”或者“而”搭配,设为介宾短语。
(9)“从”……与全面组合方位词、左右、内中间、旁、兼表时间的方位词搭配,设为介宾短语;与“到……”“起”搭配,如果“到”或“起”的后面不存在时态助词,“到”或“起”前面不存在动词、不及物动词、趋向动词、能愿动词、表心理活动的动词、表存在与变化的动词、使动词、判断动词、进行状态动词、副词、程度副词、时态副词、范围非常、频率副词、肯定否定副词、情状副词,则设为联合短语。
(10)“在”“自”“朝”“于”……与全面组合方位词、左右、内中间、旁、兼表时间的方位词搭配,设为介宾短语。
(11)“同”……“的”搭配,设为介宾短语。
(12)“当”“从打”“自从”“一从”“趁”……,与“一”或者“时”“时候”搭配,或者与“刚刚”“刚”“已经”“竟然”“将要”“偶然”“渐渐”“终于”“忽然”“突然”“连续”“再三”“马上”“永远”“常常”“屡次”“再”“正”“正在”“继续“搭配,或者与“开始”“发生”“发送”“结束”“发布”“进行”“爆发”“举行”“召集”“闭幕”“继续”“停止”“变革”搭配,设为介宾短语。
(13)“有关”……与动词搭配,动词为名词,“有关”为属性词,设为偏正短语。
(14)“把”“看”……与名词、处所名词、人称代词,以及动词、不及物动词、表心理活动的动词、形容词、动词+形容词,以及“的”搭配,设为陈述性联合短语。
(15)“全”“要”“只能”“只有”“必须”……与“凭”“靠”“仗”“依仗”“凭借”“凭靠”“依靠”搭配,设为判断连动短语,后者为判断动词。
(16)“把”……与“同”“和”“与”“跟”搭配,从“把”到“同”“和”“与”“跟”后一个短语或词,设为介宾短语。
(17)“和”“与”“同”“跟”“伴”“陪”……与“一路”“一道”“一起”“一同”“一块”“一伙”搭配,当句中存在可作谓语的动词、不及物动词、表心理活动的动词、表存在与变化的动词、使动词、判断动词、是、进行状态动词、能愿动词、趋向动词、形容词、形容词+动词时,设为介宾短语;当句中不存在可做谓语时,如果本句末是逗号,设为介宾短语;如果本句末不是逗号,介宾短语设到上一个词,“一路”“一道”“一起”“一同”“一块”“一伙”等作动词。
(18)比况助词“一样”“似的”“一般”“般”“模样”“样”,与前面的名词、处所名词、人称代词、指示代词、疑问代词、形容词等;如果存在,则与前面的顿号、连词、副词+连词、介词+连词、连接词的连词、介词、时间介词、处所介词、范围介词、方式介词、原因介词、比较介词、排除介词等构成介宾短语。
(19)“所”……与结构助词“的”构成固定短语;如果“所”的前面存在名词、处所名词、代词、人称代词、指示代词、疑问代词、【的】字结构、偏正短语、联合短语、方位短语、形容词联合短语、【的】字短语、引用、时间短语、成语等,则从这些词或者短语开始,构成主谓短语。
(20)“手段”“形式”“方式”“方法”“办法”与前面的“制定”“指定”“研究”“采用”“采取”“使用”“说明”“优选”“选择”“挑选”“琢磨”“思考”等搭配,当前半句没有主语并且后半句存在谓语情况下,或者前半句存在谓语并且没有谓语和宾语的情况下,构成偏正短语。
(21)“子”与前面的名词、数词、处所名词搭配,设为联合短语。
(22)“工程”与前面的“完成”“实施”“拟定”“推进”“修改”“修订”“指定”“保证”“监督”“计划”“承包”“分包”“规划”“草拟”“投标”“招标”“建设”搭配,如果“工程”与“完成”等词汇之间有其他文本,那么这些文本和“工程”构成联合短语;当前半句没有主语并且后半句存在谓语情况下,或者前半句存在谓语并且没有谓语和宾语的情况下,“工程”与“完成”等构成偏正短语。
(23)“工作”“斗争”“运动”“问题”“计划”“方案”“政策”“研究”“行为″,″方面”“方法”“方式”“模式”“学说”“假说”“理想”“主义”“思维”“领域”“范畴”与前面的动词、不及物动词、连动短语搭配,当前半句没有主语并且后半句存在谓语情况下,或者前半句存在谓语并且没有谓语和宾语的情况下,构成偏正短语。
(24)“年来”与前面的“几”“数”“近”“将近”“大约”“约”搭配,构成时间短语。
(25)“时”“日”“周”“月”“年”,如果前面的词或短语是动词、不及物动词、名词、处所名词、形容词、动词+形容词、主谓短语、动宾短语、偏正短语、联合短语、连动短语、状动短语、形容词联合短语、形容词偏正短语,则与前面的词或短语构成时间短语。
(26)“农历”“阴历”“旧历”“公历”“阳历”“公元”“新历”“秦”“汉”“隋”“唐”“宋”“元”“明”“清”“民国”与后面的“月”“年”“日”“节”搭配,构成时间短语。
(27)“每”“另”“另外”“此外”与数量词搭配。构成数量短语。
(28)“五一”“五一节”“五一劳动节”“五一国际劳动节”“六一”“六一节”“六一儿童节”“六一国际儿童节”“七一”“七一建党节”“七一党的生日”“八一”“八一建军节”“……,设为时间短语。
(29)数词与前面的或者后面的“老”“少”“大”“小”构成数量短语;数词和数词构成数量短语。
(30)“有”与数词、量词搭配,构成数量短语。
(31)“栏”“单”“账”“类”“种”“之类”与前面的名词、处所名词、动词、不及物动词搭配,构成联合短语。
(32)“首”“末”“头”“尾”“次”与后面的数词、量词搭配,构成数量短语。
(33)拟声词、叹词与拟声词、叹词、顿号、引号、连接词的连词、数词等搭配,以后面的或者前面的“声”“声音”“声响”“响”“阵”“曲”“一”“一阵”“巨响”“脆响”“巨”“脆”“闷响”“闷”为标志,构成拟声短语。
(34)“们”与前面的名词、人称代词或者联合短语、偏正短语搭配,构成联合短语或者偏正短语。
(35)“各”与后面的量词搭配,构成数量短语;与后面的名词、和联合短语以及“站”“自”“个”“部”“路”“委”“省”“社”“村”等搭配,构成偏正短语。
(36)左右书名号之间、左右注释号之间,构成联合短语。
(37)左右引号之间的文本,如果它的前一句末有冒号,并且冒号前有“说”“喊”“嚷”“告诉”“诉说”“哭诉”“写”“记载”“记有”“想”“思索”“寻思”“道”“报告”“着”“了”“过”“发出”“叹息”“自言自语”“骂”“吵”“发言”“讽刺”“嘲弄”等,那么这些引号间的文本构成陈述性联合短语。
(38)如果引号间文本不属于陈述性联合短语,并且它的字符数在1——7个之间,那么它们构成引用。
(39)如果动词、不及物动词、表心理活动的动词、表存在与变化的动词、进行状态动词、表存在与变化的动词、趋向动词、动词·形容词、形容词等采用AABB式重叠,那么它们构成形容词联合短语;如果它们采用A一A、A了A、A了x A、A过x A、A着A着、从等形式重叠,那么它们构成连动短语。
(40)如果方位词、全面组合的方位词、左右等采用AABB式重叠,那么它们构成形容词联合短语。
(41)如果动词、不及物动词、动词+形容词、表心理活动的动词、表存在与变化的动词、介词、时间介词、处所介词、范围介词、方式介词、原因介词、比较介词、排除介词等与“的”“是”搭配,采用“A的是”式重叠,构成判断连动短语。
(42)如果形容词与“就”“在”搭配,采用“A就A”或者“A就A在”式重叠,构成判断连动短语。
(43)如果形容词与“不”“就”搭配,采用“不就A”或者“不就不A”式重叠,构成判断连动短语。
(44)“这”“这种”“这些”“这类”“这个”“那”“那种”“那些”“哪类”“那个”等与后面的动词、不及物动词、动词·形容词、表心理活动的动词、表存在与变化的动词、进行状态动词、表存在与变化的动词、趋向动词等搭配,如果动词等下一个词或短语是主谓短语、动宾短语、动补短语、连动短语、状动短语、形容词联合短语、形容词偏正短语、完全主谓短语、完全兼语短语、存变合成谓语、存变主谓短语、存变连动短语、……,那么“这”“这种”“这些”“这类”“这个”“那”“那种”“那些”“哪类”“那个”等与动词类构成偏正短语。
(45)“这样”“那样”“哪样”“如此”等与后面的动词、不及物动词、动词·形容词、表心理活动的动词、进行状态动词、表存在与变化的动词、趋向动词等搭配,如果动词等下一个词或短语是主谓短语、动宾短语、动补短语、连动短语、状动短语、形容词联合短语、形容词偏正短语、完全主谓短语、完全兼语短语、存变合成谓语、存变主谓短语、存变连动短语、祈使短语、祈使合成谓语、祈使主谓短语、祈使动词、祈使动宾短语、动词、不及物动词、能愿动词、趋向动词、表心理活动的动词、表存在与变化的动词、进行状态动词、形容词、语气助词、叹词、拟声词等,那么“这样”“那样”“哪样”“如此”等与动词类构成偏正短语。
(46)“什么”“哪些”等与后面的动词、不及物动词、动词·形容词、表心理活动的动词、表存在与变化的动词、进行状态动词、表存在与变化的动词、趋向动词等搭配,在前半句或者后半句存在谓语条件下,构成偏正短语。
(47)疑问代词″怎么”“如何”“何如″,与时态助词搭配,构成动补短语;与动词、不及物动词、表心理活动的动词、形容词、动词+形容词、趋向动词等搭配,构成状动短语。
(48)疑问代词“多少”“几何”“几许”“几多”,与时态助词搭配,构成动补短语;与名词、处所名词、时间词搭配,构成偏正短语;与量词搭配,构成数量短语。
(49)疑问代词“哪儿”“哪处”“哪里”“多会儿”,与时态助词搭配,构成动补短语;与名词、处所名词、时间词搭配,构成偏正短语。
(50)疑问代词“怎样”“怎么样”,如果用在结构助词“的”的前面,如果“的”后面是联合短语、偏正短语、引用、成语、【的】字结构、【的】字短语、方位短语、介宾短语、动词、不及物动词、表心理活动的动词、进行状态动词、名词、处所名词、形容词、动词+形容词、代词、人称代词、时间词等,那么疑问代词+“的”+“的”后词或短语构成【的】字短语。
(51)疑问代词“怎样”“怎么样”,与时态助词搭配,构成动补短语;与动词、不及物动词、表心理活动的动词、形容词、动词+形容词、趋向动词等搭配,构成状动短语。
(52)指示代词“这”“这种”“这些”“这类”“这个”“这样”“那”“那种”“那些”“那个”“那样”“一类”“那类”,与名词、人称代词、联合短语搭配,构成联合短语。
(53)指示代词“这”“那”与数词“一”搭配,构成数量短语。
(54)指示代词、人称代词,与名词、形容词判断,或者与联合短语、偏正短语搭配,构成偏正短语。
(55)“建设”“工作”“劳动”“教育”“活动”“享受”“观望”“守法”“侵犯”“忍受”“忧愁”“复仇”“奋斗”“进取”“拼搏”“自强”“堕落”“思考”“自责”“图谋”“贪婪”“昏庸”“创业”“探索”“献身”“牺牲”“沉思”“反思”“检讨”“贡献”“守旧”“创新”“进取”“革新”“有为”“成功”“失败”“革命”等与代词“者”搭配,构成联合短语。
(56)同一句中连词“越”……“越”……及其对应文本,构成陈述性联合短语。
(57)同一句中连词“又”……“又”……及其对应文本,构成陈述性联合短语。
(58)同一句中连词“边”……“边”……及其对应文本,构成陈述性联合短语。
(59)同一句中连词“一边”或“一面”……“一边”或“一面”……及其对应文本,构成陈述性联合短语。
(60)肯定否定副词“不”“没”,与前面和后面的表存在与变化的动词、进行状态动词采用“A不A”或者“A没A”格式,构成陈述性联合短语。
(61)兼表时间的方位词“有”“从”“自”“自从”“在”“打从”“自打”“自有”与“以来”“以前”搭配,采用“有……以来”“有……以前”格式,构成时间短语。
(62)“不”与“了”“着”“过”“上”“得”以及“用”“花”等搭配,采用“A不了”格式,构成判断连动短语。
(63)形容词“多”“少”“高”“低”“快”“慢”“大”“小”“快”“慢”“长”“短”“远”“近”,与介词“于”以及后面的数词、量词、名词、动词、不及物动词搭配,构成动补短语。
(64)全面组合的方位词,与“的”以及后面的名词、处所名词、代词、人称代词、指示代词、疑问代词、【的】字结构、偏正短语、联合短语、方位短语、形容词联合短语、【的】字短语、引用、时间短语、成语等,构成【的】字短语。
(65)时间名词“时候”“时”“时令”“时刻”“季节”“时分”,与前面的“有”“某”“某个”“无”“没有”“没”,采用“有……时候”“有……时”格式,构成时间短语。
(66)当顿号连用的时候,在顿号之间、顿号和连词之间的短语,优先设置。
四、建立习惯用法词库和调用规则:
1、建立习惯用法词库,应该先建立一个变量组。这个变量组的每一个变量都由2个元素组成:
①主词或者中心词,只有一个词,表示所有附类词的名称或者类名,主要由动词或者名词充当。
②附类词:同一类中所有的词。由字符串数组构成,其中每一个字符串表示一个词。
例如:
职业,科学家,艺术家,作家,政治家,医生,律师,法官,书记,护士,大夫,演员,画家,音乐家,建筑师,教师,教授,老师,工人,农民,清洁工,钟点工……
主词为“职业”,主词是附录词的类名。附录词是“,科学家,艺术家,作家,政治家,医生……”等等,附录词为本类所有成员,成员间用“,”分割。
2、习惯用法词库主要包括2类:
1.逻辑类。包括:
①划分关系:是从习惯用法中的语词搭配角度对词分类。主词为类名,附录词为类成员。
②概念关系:是从习惯用法中的逻辑关系对概念分类。主词为种概念,附类词为所有属概念。
③同义关系:意思相同或者相近的一类词。主词为本类词中最常用的一个词,附录词为其余词。
④判断关系:性质判断定义中属概念与种概念搭配关系。主词表示种概念,附录词表示属概念。
2.语法类。包括:
①动宾关系:最主要的类别,显示动宾搭配关系。主词表示动词,附录类表示可或不可搭配的词。
②偏正关系:主词表示中心词,附录词表示可或不可充当中心词定语的词。
③量中关系:主词表示中心词,附录词表示可限制中心词的量词。例如:
④主谓关系:主词表示可充当谓语的动词或形容词,附录词表示可或不可与之搭配主谓关系的词。
⑤状动关系:主词表示动词,附录词表示可与不可限制该动词的词。
3、习惯用法词库符号:
①“=”表示全等,即在该范畴内所有的词都与中心词搭配。如,动宾关系词库中:
“爱,=,”表示主词“爱”可以与任意名词、动词、数量词构成动宾关系。
②“$”表示反对关系。即“$”后所有的词都不可与主词搭配。例如,判断关系词库中:
“国家$,观点,理论,看法,逻辑,说法,……”表示“观点”“理论”“看法”“逻辑”等等都不能与国家构成判断关系,都不能表述为“……观点是……国家”等。
③“~”表示连接关系。即标有“~”号的词,可以拥有同一个附录词。如,动宾关系词库中:
捧 手捧~
手捧 花卉,中药,蔬菜,,家电,文具,书籍,乐器,文章,工具,刀具,枪械,鞋子,布匹,衣物,庄稼,粮食,液体,蛋,食物,药液,奶,水,……
“捧”是“手捧”的主词,但由于“手捧~”有“~”,所以“捧”也拥有“手捧”的全部附录词。
4、词库调用的规则:
习惯用法词库的建立和调用,是为了解决现代汉语的习惯用语问题。例如,句子:“别怕人笑话”中:“怕人”是动词+形容词,它能否和名词“笑话”构成动宾短语,有时需要查习惯词库。调阅划分关系词库,得:
表示,显示,倾诉,表述,诉说,讥笑,嘲笑,嘲弄,戏弄,报复,笑话,讽刺,谩骂,哭诉,亲昵,悲伤,忧愁,回忆,瞧不起,轻蔑,白眼,冷淡,冷漠,反感,
动作,跑,跳,扔,哭,笑,悲,愁,怒,喜,哀,乐,羞,忧,倒,走,立,站,爬,趴,卧,躺,说,坐,做,装,拌,奔跑,冲,冲锋,蹦,蹦高,跳跃,跳高,跳远,投掷,投,掷,欢笑,表示,
行动,行为,活动,表情,动作,
“笑话”属于“表示”类,“表示”属于“动作”类,“动作”属于“行为”类。调阅结果一共获得3个主词“行为”、“动作”、“表示”,再加“笑话”,共4个词。
再查动宾关系词库,得:
怕人 行为,表情,赞扬,表扬,批评,批判,攻击,责骂,……
“怕人”的附录词中有“行为”,动宾短语成立。所以,词库调用的规则是:
①检阅习惯用法时先调阅划分、概念等关系词库,用字符串数组纪录要检阅的词和类名主词。
②根据中心词及需要直接调阅动宾、量中、主谓、偏正等语法词库,找到中心词作为主词的类后,在该类的附录词中找到字符串数组中任一个词,该习惯用法即成立。
五、短语构成的判定:
短语(或词)和短语(或词)相连,可以合并组成新短语。“+”两侧表示语句中相连接的短语,“=”后表示合并后组成的新短语。任意词只要在“+”任一侧并列的短语或词类别内,即可参加新短语构成。“验证”则是指采用处理连词或者顿号专用程序处理短语组成。
短语组成的判定采用“短语基本组合+短语动态组合”的方式:
1、基本组合的短语:
(1)数词+数词=数量短语
(2)验证:数词+数词、数量短语=数量短语
(3)数量短语+形容词、量词=数量短语
(4)指示代词、数词+量词=数量短语
(5)量词+量词=数量短语
(6)验证:数词、数量短语+数词、数量短语=数量短语
(7)叹词、拟声词+数量短语=拟声短语
(8)拟声短语+兼表时间的方位词=时间短语
(9)时间短语+时间词=时间短语
(10)【的】字结构
(11)形容词+形容词=形容词联合短语
(12)属性词、属性词副词、程度副词、时态副词、频率副词、肯定否定副词、情状副词+形容词=形容词偏正短语
(13)属性词、属性词副词、程度副词、时态副词、频率副词、肯定否定副词、情状副词+形容词联合短语=形容词偏正短语
(14)验证:形容词、动词+形容词、属性词+形容词、动词+形容词、属性词=形容词联合短语
(15)验证:形容词联合短语+形容词、动词+形容词、属性词=形容词联合短语
(16)名词+名词=联合短语
(17)联合短语+名词=联合短语
(18)形容词、属性词+名词=偏正短语
(19)处所名词+名词=偏正短语
(20)代词、人称代词、指示代词、疑问代词+名词=偏正短语
(21)形容词、属性词+代词、人称代词、指示代词、疑问代词=偏正短语
(22)处所名词+代词、人称代词、指示代词、疑问代词=偏正短语
(23)形容词、属性词+处所名词=偏正短语
(24)代词、人称代词、指示代词、疑问代词+处所名词=偏正短语
(25)人称代词、指示代词+名词、代词、处所名词、人称代词=偏正短语
(26)代词、人称代词、指示代词、疑问代词+引用=偏正短语
(27)形容词、属性词、处所名词+引用=偏正短语
(28)形容词偏正短语+名词=偏正短语
(29)全面组合的方位词+名词、处所名词=偏正短语
(30)引用+名词、处所名词、时间词、全面组合方位词=联合短语
(31)引用+联合短语=联合短语
(32)名词、处所名词、代词、人称代词+【的】字短语=【的】字短语
(33)指示代词、疑问代词+时间词=时间短语
(34)代词、人称代词、指示代词、疑问代词+联合短语=偏正短语
(35)验证:名词、处所名词+名词、处所名词=联合短语
(36)数量短语+名词、代词、处所名词、人称代词=偏正短语
(37)数量短语+偏正短语、联合短语=偏正短语
(38)偏正短语、联合短语+数量短语、数词=偏正短语
(39)验证:动词、不及物动词、趋向动词、表心理活动动词、表存在与变化动词、进行状态动词、动词·形容词+动词、不及物动词、趋向动词、表心理活动动词、表存在与变化动词、进行状态动词、动词·形容词=连动短语
(40)验证:偏正短语、联合短语、方位短语、【的】字短语、【的】字结构、引用、成语、形容词偏正短语、形容词联合短语、陈述性联合短语、主谓短语、动宾短语、数量短语、时间短语、名词、处所名词、形容词、代词、人称代词、指示代词、疑问代词、动词、不及物动词、表心理活动的动词、表存在与变化的动词+偏正短语、联合短语、方位短语、【的】字短语、【的】字结构、引用、成语、形容词偏正短语、形容词联合短语、陈述性联合短语、主谓短语、动宾短语、数量短语、时间短语、名词、处所名词、形容词、代词、人称代词、指示代词、疑问代词、动词、不及物动词、表心理活动的动词、表存在与变化的动词=联合短语
(41)验证:所有实词+所有实词=联合短语
(42)陈述性联合短语、形容词偏正短语、形容词联合短语、拟声短语、偏正短语、形容词+【地】=【地】字短语
(43)时间词+时间词=时间短语
(44)指示代词、疑问代词+时间词=时间短语
(45)时间词+时间短语=时间短语
(46)时间词+兼表时间的方位词=时间短语
(47)时间短语+兼表时间的方位词=时间短语
(48)名词、处所名词、代词、人称代词+形容词=主谓短语
(49)名词、处所名词、代词、人称代词+形容词联合短语、引用、成语=主谓短语
(50)名词、处所名词、代词、人称代词、指示代词、疑问代词、时间词+方位词、全面组合方位词、在右、内中间、旁=方位短语
(51)数量短语+方位词、全面组合方位词、在右、内中间、旁=方位短语
(52)联合短语+方位词、全面组合方位词、在右、内中间、旁=方位短语
(53)偏正短语+方位词、全面组合方位词、在右、内中间、旁=方位短语
(54)引用+方位词、全面组合方位词、在右、内中间、旁=方位短语
(55)形容词偏正短语+方位词、全面组合方位词、在右、内中间、旁=方位短语
(56)形容词联合短语+方位词、全面组合方位词、在右、内中间、旁=方位短语
(57)介宾短语+方位词、全面组合方位词、在右、内中间、旁=介宾短语
(58)介词、时间介词、处所介词、范围介词、方式介词、原因介词、比较介词、排除介词+方位短语=介宾短语
(59)介词、时间介词、处所介词、范围介词、方式介词、原因介词、比较介词、排除介词+名词、代词、人称代词、指示代词、疑问代词=介宾短语
(60)介词、时间介词、处所介词、范围介词、方式介词、原因介词、比较介词、排除介词+方位词、全面组合方位词、左右、内中间、旁=介宾短语
(61)介词、时间介词、处所介词、范围介词、方式介词、原因介词、比较介词、排除介词+时间词=介宾短语
(62)介词、时间介词、处所介词、范围介词、方式介词、原因介词、比较介词、排除介词+处所名词=介宾短语
(63)介宾短语+方位词、全面组合方位词、左右、内中间、旁=介宾短语
(64)介词、时间介词、处所介词、范围介词、方式介词、原因介词、比较介词、排除介词+联合短语=介宾短语
(65)介词、时间介词、处所介词、范围介词、方式介词、原因介词、比较介词、排除介词+偏正短语=介宾短语
(66)介词、时间介词、处所介词、范围介词、方式介词、原因介词、比较介词、排除介词+时间短语=介宾短语
(67)介词、时间介词、处所介词、范围介词、方式介词、原因介词、比较介词、排除介词+引用=介宾短语
(68)方位短语+偏正短语、联合短语、【的】字短语、【的】字结构、名词、处所名词=偏正短语
(69)形容词、动词·形容词、能愿动词、形容词、副词、程度副词、时态副词、范围副词、频率副词、肯定否定副词、情状副词、时间词、处所名词、副词·连词+祈使动词=祈使短语
(70)时间词+祈使动词=祈使短语
(71)祈使短语、祈使动词+趋向动词=祈使短语
(72)祈使短语、祈使动词+形容词、动词·形容词=祈使短语
(74)祈使短语、祈使动词+时态助词=祈使短语
(75)形容词、动词·形容词、能愿动词、形容词、副词、程度副词、时态副词、范围副词、频率副词、肯定否定副词、情状副词、时间词、处所名词、副词·连词+动词、不及物动词、趋向动词、表心理活动动词、动词·形容词=状动短语
(76)时间词+动词、不及物动词、趋向动词、表心理活动动词、动词·形容词=状动短语
(77)形容词、动词·形容词、能愿动词、形容词、副词、程度副词、时态副词、范围副词、频率副词、肯定否定副词、情状副词、时间词、处所名词、副词·连词+动词·形容词、能愿动词=状动短语
(78)动词、不及物动词、动词+形容词、名词、处所名词+趋向动词=动补短语
(79)动词、不及物动词、趋向动词、表心理活动动词、动词·形容词+形容词、动词·形容词=动补短语
(80)动词、不及物动词、趋向动词、表心理活动动词、动词·形容词+时态助词=动补短语
(81)动补短语+时态助词=动补短语
(82)状动短语+趋向动词=状动短语
(83)拟声短语、’叹词、拟声词+动词、不及物动词、趋向动词、表心理活动动词、动词·形容词=状动短语
(84)动词、不及物动词、趋向动词、表心理活动动词、动词·形容词+兼表时间的方位词=时间短语
(85)偏正短语、联合短语+时间短语=时间短语
2、动态组合的短语:
所谓动态组合,是指短语组合循环进行。循环停止的条件是所有符合条件短语得以实现。动态循环库如下:
①划分偏正短语
②划分动宾短语
③划分【的】字结构
④划分主谓短语
⑤划分祈使短语
⑥划分联合短语
⑦处理【地】字和【得】字短语
⑧划分偏正短语2
⑨划分联合短语2
⑩划分动宾短语2
Figure BSA0000196076100000151
划分主谓短语2
Figure BSA0000196076100000152
划分【的】字短语2
Figure BSA0000196076100000153
划分偏正短语3
Figure BSA0000196076100000154
划分联合短语3
Figure BSA0000196076100000155
划分动宾短语3
Figure BSA0000196076100000156
划分【的】字短语3
Figure BSA0000196076100000157
划分动宾短语4
Figure BSA0000196076100000158
划分主谓短语3
其中,每一个库单元都是一个独立的短语组合模块。比如:
【偏正短语】构造如下:
(86)联合短语+名词、代词、人称代词=联合短语
(87)名词、代词、人称代词+偏正短语=偏正短语
(88)指示代词+偏正短语=偏正短语
(89)指示代词+联合短语=偏正短语
(90)形容词、属性词+联合短语=偏正短语
(91)指示代词、疑问代词+联合短语=偏正短语
(92)指示代词、疑问代词+偏正短语=偏正短语
(93)名词、处所名词、代词、人称代词、指示代词、疑问代词+引用=偏正短语
(94)形容词、属性词+联合短语=偏正短语
(95)偏正短语+联合短语=偏正短语
(96)时间短语、成语、引用、时间词、处所名词+名词、处所名词=偏正短语
(97)联合短语+名词=联合短语
(98)联合短语+方位短语=方位短语
(99)形容词偏正短语、形容词联合短语+联合短语=偏正短语
(100)验证:形容词联合短语+形容词、动词+形容词、属性词=形容词联合短语
(101)验证:形容词联合短语+成语=陈述性形容词联合短语
(102)验证:联合短语+名词=联合短语
(103)验证:联合短语+成语=联合短语
(104)验证:【的】字结构+【的】字结构=联合短语
(105)验证:’连动短语+动词、不及物动词、趋向动词、表心理活动动词、表存在与变化动词、进行状态动词、动词·形容词=连动短语
(106)验证:联合短语+偏正短语、联合短语、方位短语、【的】字短语、【的】字结构、引用、成语、形容词偏正短语、形容词联合短语、陈述性联合短语、主谓短语、动宾短语、数量短语、时间短语、名词、处所名词、形容词、代词、人称代词、指示代词、疑问代词、动词、不及物动词、表心理活动的动词、表存在与变化的动词=联合短语
(107)指示代词、数词+数量短语=数量短语
(108)数量短语+名词、处所名词、时间词、方位词、全面组合方位词=偏正短语
(109)数量短语+偏正短语=偏正短语
(110)数量短语+联合短语=偏正短语
(111)时间词、指示代词、疑问代词+时间短语=时间短语
(112)时间短语+时间词、指示代词、疑问代词=时间短语
(113)介词、时间介词、处所介词、范围介词、方式介词、原因介词、比较介词、排除介词+联合短语=介宾短语
(114)介词、时间介词、处所介词、范围介词、方式介词、原因介词、比较介词、排除介词+偏正短语=介宾短语
(115)介词、时间介词、处所介词、范围介词、方式介词、原因介词、比较介词、排除介词+时间短语=介宾短语
(116)验证:联合介宾短语+介宾短语=介宾短语
(117)介宾短语+时间短语=介宾短语
(118)形容词、动词+形容词、属性词、副词、程度副词、时态副词、范围副词、频率副词、肯定否定副词、情状副词+【地】=【地】字短语
(119)陈述性联合短语、形容词偏正短语、形容词联合短语、引用、成语、固定短语+【地】=【地】字短语
(120)拟声短语、拟声词+【地】=【地】字短语
(121)介宾短语、方位短语、时间短语+【地】字短语=【地】字短语
(122)偏正短语、联合短语、【的】字短语、【的】字结构+陈述性联合短语、形容词偏正短语、形容词联合短语、成语=主谓短语
【动宾短语】结构如下:
(123)进行状态动词、表存在与变化的动词+时态助词=存变合成谓语
(124)进行状态动词、表存在与变化的动词+介宾短语、时间短语、时间词=存变合成谓语
(125)副词、程度副词、时态副词、范围副词、频率副词、肯定否定副词、情状副词、助动词、形容词、动词+形容词、属性词+进行状态动词、表存在与变化的动词=存变合成谓语
(126)副词、程度副词、时态副词、范围副词、频率副词、肯定否定副词、情状副词、助动词、形容词、动词+形容词、属性词+存变合成谓语=存变合成谓语
(127)介宾短语、方位短语、时间短语、形容词偏正短语+进行状态动词、表存在与变化的动词=存变合成谓语
(128)介宾短语、方位短语、时间短语、形容词偏正短语+存变合成谓语=存变合成谓语
(129)存变合成谓语+介宾短语、时间短语、时间词=存变合成谓语
(130)动词、不及物动词、表心理活动动词、趋向动词+存变合成谓语=存变主谓短语
(131)动词、不及物动词、表心理活动动词、趋向动词+动词、不及物动词、表心理活动动词、趋向动词=连动短语
(132)使动词+动词、不及物动词、表心理活动动词、趋向动词=连动短语
(133)连动短语+动词、不及物动词、趋向动词、表心理活动动词=连动短语
(134)介宾短语+动词、不及物动词、趋向动词、表心理活动动词=状动短语
(135)形容词偏正短语+动词、不及物动词、趋向动词、表心理活动动词=状动短语
(136)时间短语+动词、不及物动词、趋向动词、表心理活动动词=状动短语
(137)方位短语+动词、不及物动词、趋向动词、表心理活动动词=状动短语
(138)动词、趋向动词、表心理活动动词+介宾短语=动补短语
(139)动词、趋向动词、表心理活动动词+时间短语=动补短语
(140)不及物动词、动词·形容词+介宾短语=动补短语
(141)不及物动词、动词·形容词+时间短语=动补短语
(142)动词、不及物动词、趋向动词、表心理活动动词、动词·形容词+形容词偏正短语=动补短语
(143)状动短语+动词、不及物动词、趋向动词、表心理活动动词=状动短语
(144)动补短语+动词、不及物动词、趋向动词、表心理活动动词=连动短语
(145)动词、不及物动词、趋向动词、表心理活动动词+状动短语=连动短语
(146)动词、不及物动词、趋向动词、表心理活动动词+动补短语=连动短语
(147)连动短语、状动短语、动词、不及物动词、趋向动词、表心理活动动词+内中间=动补短语
(148)连动短语、状动短语、动词、不及物动词、趋向动词、表心理活动动词+全面组合的方位词=动补短语
(149)副词、程度副词、时态副词、范围副词、频率副词、肯定否定副词、情状副词、助动词+动补短语=动补短语
(150)副词、程度副词、时态副词、范围副词、频率副词、肯定否定副词、情状副词、助动词+连动短语=状动短语
(151)连动短语+时态助词、形容词、动词·形容词=动补短语
(152)状动短语+时态助词、形容词、动词·形容词=动补短语
(153)介宾短语+动补短语=状动短语
(154)介宾短语+连动短语=状动短语
(155)介宾短语+状动短语=状动短语
(156)副词、程度副词、时态副词、范围副词、频率副词、肯定否定副词、情状副词、助动词+状动短语=状动短语
(157)副词、程度副词、时态副词、范围副词、频率副词、肯定否定副词、情状副词、助动词+连动短语=状动短语
(158)副词、程度副词、时态副词、范围副词、频率副词、肯定否定副词、情状副词、助动词+动补短语=状动短语
(159)形容词偏正短语+状动短语=状动短语
(160)形容词偏正短语+连动短语=状动短语
(161)形容词偏正短语+动补短语=状动短语
(162)连动短语+介宾短语=动补短语
(163)状动短语+介宾短语=动补短语
(164)状动短语+动补短语=动补短语
(165)连动短语+动补短语=动补短语
(166)状动短语+连动短语=状动短语
(167)动补短语+连动短语=动补短语
(168)时间词、时间短语+动补短语、连动短语、状动短语=状动短语
(169)介宾短语、方位短语、时间短语、形容词偏正短语+动补短语、连动短语、状动短语=状动短语
(170)连动短语+状动短语=状动短语
(171)动补短语+状动短语=状动短语
(172)验证:’动补短语、连动短语、状动短语+动补短语、连动短语、状动短语=连动短语
(173)动补短语、连动短语、状动短语+形容词偏正短语=动补短语
(174)动词、不及物动词、表心理活动动词、趋向动词+名词、处所名词、代词、人称代词、指示代词、疑问代词=动宾短语
(175)动词·形容词+名词、处所名词、代词、人称代词、指示代词、疑问代词=动宾短语
(176)动词、不及物动词、表心理活动动词、趋向动词+偏正短语、联合短语=动宾短语
(177)动词、不及物动词、表心理活动动词、趋向动词+【的】字短语、【的】字结构=动宾短语
(178)动词、不及物动词、表心理活动动词、趋向动词+引用=动宾短语
(179)动补短语、连动短语、状动短语+拟声短语、叹词、拟声词=动宾短语
(180)动词、不及物动词、表心理活动动词、趋向动词+拟声短语、叹词、拟声词=动宾短语
(181)动词、不及物动词、表心理活动动词、趋向动词+动宾短语=动宾短语
(182)连动短语+动宾短语=动宾短语
(183)状动短语+动宾短语=动宾短语
(184)介宾短语+动宾短语=动宾短语
(185)形容词偏正短语+动宾短语=动宾短语
(186)时间短语+动宾短语=动宾短语
(187)方位短语+动宾短语=动宾短语
(188)连动短语+联合短语=动宾短语
(189)状动短语+联合短语=动宾短语
(190)动补短语+联合短语=动宾短语
(191)连动短语+偏正短语=动宾短语
(192)状动短语+偏正短语=动宾短语
(193)动补短语+偏正短语=动宾短语
(194)动补短语+方位短语=动宾短语
(195)连动短语+方位短语=动宾短语
(196)状动短语+方位短语=动宾短语
(197)连动短语+名词、代词、人称代词、指示代词、疑问代词、处所名词=动宾短语
(198)状动短语+名词、代词、人称代词、指示代词、疑问代词、处所名词=动宾短语
(199)动补短语+名词、代词、人称代词、指示代词、疑问代词、处所名词=动宾短语
(200)动宾短语+名词=偏正短语
(201)动补短语、连动短语、状动短语+【的】字短语、【的】字结构=动宾短语
(202)动补短语、连动短语、状动短语+引用=动宾短语
(203)使令动词+名词、代词、人称代词、指示代词、疑问代词、处所名词=兼语短语
(204)使令动词+偏正短语=兼语短语
(205)使令动词+联合短语=兼语短语
(206)使令动词+引用=兼语短语
(207)形容词偏正短语+兼语短语=兼语短语
(208)副词、程度副词、时态副词、范围副词、频率副词、肯定否定副词、情状副词、助动词+兼语短语=兼语短语
(209)兼语短语+动词、不及物动词、趋向动词、表心理活动动词、形容词、动词·形容词=兼语短语
(210)兼语短语+连动短语=兼语短语
(211)兼语短语+状动短语=兼语短语
(212)兼语短语+动补短语=兼语短语
(213)兼语短语+动宾短语=兼语短语
(214)使令动词+主谓短语=兼语短语
(215)介词、时间介词、处所介词、方式介词、原因介词、比较介词、排除介词+时间短语=介宾短语
(216)介词、时间介词、处所介词、方式介词、原因介词、比较介词、排除介词+动宾短语=介宾短语
……
六、短语组成计算以及记录模块的设计:
短语组成计算以及计算结果的记录是通过这个模块完成的。其构成为:
1、检查***:
依次搜索指定语句中的每一个词。如果某词(或短语)符合参数要求,那么记录它的起始位置并继续检查它相邻的下一个词(或短语)是否符合另一个参数要求。如果符合,记录它的结束位置。然后进入计算***。
比如,在语句“俄罗斯科学家最近设计出一种外形不透光的黑色管状物”检查中:有“肯定否定副词+动词=状动短语”的参数要求,句中第9个词“不”是表肯定否定副词,符合条件;同时它的下一个词“透”是动词。所以,从词9到词10,状动短语可能成立,进入计算***。
在实际操作中,为提高效率,应该采用一个数字代表一类短语或词。比如:用1000表示名词类短语组:包括偏正短语、联合短语、方位短语、【的】字短语、【的】字结构、引用等。当参数为1000时,只要一个词具有以上任一短语属性,检查即可通过。
2、组成限制:
Figure BSA0000196076100000201
Figure BSA0000196076100000211
3、记录组合结果:
(1)检查和组合过程是依据词单元纪录中的词性、短语属性进行的。根据词单元的位置记录找到左侧短语(词)最左端词的起始位置作为新短语的起始位置;然后找到右侧短语(词)最右端词的起始位置+字符数作为新短语的结束位置。
(2)将新短语的短语属性、起始位置和结束位置分别记入短语单元。
(3)将新短语的短语属性分别记入该短语所涵盖的所有词的词单元短语属性记录中,作为下一轮组合的依据。
七、介词结构、动宾结构、联合短语、【的】字短语等特定用法的设计。
1、“的”作语气助词、结构助词与【的】字结构;
1.“的”位于句末,或者从“的”后到句末只有语气词、叹词:
①“的”与前一个″似”“是”“行”“好”“不”“可以”“对”“错″搭配,“的”作语气助词。
②“的”上一个词是成语或者熟语,“的”做语气助词;
如果“的”上一个词是动词、不及物动词、表心理活动的动词、形容词、动词+形容词:
③句子长度为4个词以内短句,并且句子后面是逗号——如果下一句开头的词是名词、代词、方位词,“的”作语气助词;如果下一句开头的词是动词,“的”和上面的词或者短语构成【的】字结构。
④句子长度为4个词以内短句,但句子后面不是逗号——如果存在前一句,并且前一句句末是问号,并且前一句句末有“的”作语气词,本句“的”作语气助词。
⑤本句在5个词以上,如果“的”的前面存在顿号或者连词,顿号与当前【的】的间隔距离5个词以上,“的”作语气助词;如果“的”前2个词是人称代词,“的”作语气助词。
⑥“的”上2个词是人称代词,“的”作语气助词。
⑦否则,本句前半句如果存在是、判断动词,“的”作语气助词。
⑧否则,本句前半句如果存在动词“在乎”,“的”作语气助词。
⑨否则,本句前半句如果存在疑问代词“什么”“怎样”“怎么”“咋样”“咋”“啥”,“的”作语气助词。
⑩否则,本句前半句如果存在语气助词、语气副词”啊”“呀”“哇”“呵”“哦”“噢”,“的”作语气助词。
Figure BSA0000196076100000221
否则,“的”上一个词是动词、不及物动词、形容词、动词+形容词、表心理活动动词、表存在与变化动词,“的”前二个词是名词、人称代词或者形容词、副词,“的”作语气助词。
Figure BSA0000196076100000222
否则,“的”上一个词是形容词重叠,“的”作语气助词。
2.如果“的”下一个词不是标点,而是名词:
Figure BSA0000196076100000223
“的”下一个词是“话”“了”,“的”作语气助词;否则,“的”作结构助词。
3.“的”下一个词不是标点,而是代词、数词、量词、人称代词、指示代词:
Figure BSA0000196076100000224
“的”作结构助词。
4.如果“的”不是语气词并且不是结构助词,“的”下一个词是句号、逗号、分号、顿号、右引号、问号、惊叹号、删节号、破折号:
Figure BSA0000196076100000225
“的”上一个词是动词、动词+形容词、表心理活动动词、趋向动词、不及物动词,“的”和前面的词或者短语构成【的】字结构。
Figure BSA0000196076100000226
“的”上一个词是形容词,“的”和前面的词或者短语构成【的】字结构。
Figure BSA0000196076100000227
“的”上一个词是名词,“的”上二个词是动词、动词+形容词、表心理活动动词、趋向动词、不及物动词,“的”和前面的词或者短语构成【的】字结构。
5.结构助词“的”“等”“之”“者”,如果在句子末端,或者“的”“等”“之”“者”到句末只有语气词、叹词、拟声词,或者“的”“等”“之”“者”后是顿号:
①“的”前是动宾短语、动补短语、连动短语、状动短语、【的】字结构、主谓短语,并且该短语+“的”不超过3个词,短语+“的”构成【的】字结构。
②“的”前是方位短语、数量短语、判断合成谓语,并且该短语+“的”不超过3个词,短语+“的”构成【的】字结构。
③“的”前是成语、固定短语、引用,短语+“的”构成【的】字结构。
④否则,“的”前是名词、处所名词、代词、人称代词、指示代词、疑问代词、形容词、动词+形容词、属性词,短语+“的”构成【的】字结构。
⑤否则,“的”前是动词、不及物动词、表心理活动的动词、表存在与变化的动词、进行状态动词,短语+“的”构成【的】字结构。
6.结构助词“的”“等”“之”“者”,如果在句子中间,或者本句是【的】字短语句但本“的”“等”“之”“者”并不作中心词定语;并且“的”前是动宾短语、动补短语、连动短语、状动短语、【的】字结构、主谓短语、方位短语、数量短语、判断合成谓语以及动词、名词等:
⑥“的”后是动宾短语、动补短语、连动短语、状动短语、形容词偏正短语、形容词联合短语、存变连动短语、祈使短语、祈使动词等,并且这些短语后有时态助词“了”,“的”与前短语构成【的】字结构。
⑦“的”前是名词、处所名词、代词、人称代词、指示代词、疑问代词、形容词,“的”与前词构成【的】字结构。
⑧“的”后是判断连动短语、判断合成谓语,并且判断短语的左端应该在“的”下一个字符,“的”与前短语构成【的】字结构。
⑨“的”后是动词、不及物动词、趋向动词、表心理活动的动词、表存在与变化的动词、进行状态动词、形容词,如果本句是【的】字短语句并且“的”后动词与本句中心词不构成动宾搭配关系,“的”与前短语构成【的】字结构。
2、【的】字短语:
①当结构助词“的”“等”“之”出现时,寻找右端中心词。中心词指被“的”等结构助词限制修饰的词。中心词只能由实词充当。如果是一个短语,那么“的”的中心词就是该短语的中心词。
②从“的”“等”“之”开始,逆循环查找左端词或者短语。左端第一个短语或词,是中心词的定语,与中心词构成【的】字短语。
1.从左端逆循环第二个短语或词起,除核查与中心词的关系:
③指示代词、人称代词,与中心词构成【的】字短语。
④数量短语如果量词与中心词的量中关系查询通过,与中心词构成【的】字短语;否则,【的】字短语中断。
⑤名词、形容词如果与中心词的偏正关系查询通过,与中心词构成【的】字短语;否则,【的】字短语中断。
⑥动词、不及物动词、进行状态动词、表存在与变化的动词、动词·形容词、表心理活动的动词、不表存在与变化的动词、使令动词、表判断的动词、是等,如果这些动词左端有与中心词搭配的指示代词或者量中关系成立的数量短语,【的】字短语延续。否则,检查当前动词与中心词的动宾搭配关系,如果搭配,与中心词构成【的】字短语;如果不搭配,【的】字短语中断,当前动词是全句谓语。
⑦主谓短语、动补短语、连动短语、状动短语、祈使合成谓语、祈使主谓短语、祈使动宾短语、存变合成谓语、存变主谓短语、存变连动短语、祈使短语、祈使动词等,核验方法与动词核验相同。
⑧其他短语或词,核验与中心词的偏正搭配关系。
3、动宾短语:
1.检查当前动宾短语的宾语部分是否是本句【的】字短语的定语。如果不是:
①检查当前动宾短语的动词或动词性短语是否与名词或名词性短语动宾适配,如果适配,当前动宾短语成立。
2.如果当前动宾短语的宾语部分是本句【的】字短语的定语:
②如果从当前动宾短语到“的”只有1个短语或词,当前动词与当前名词的动宾适配性不成立,则不构成动宾短语;反之,如果当前动词与中心词动宾适配,并且如果当前名词能做中心词偏正适配,则不构成动宾短语。
③如果从当前动宾短语到“的”有多个短语或词:当前动词与当前名词的动宾适配性不成立,则不构成动宾短语;如果当前动词构成全句中心词定语,则动宾短语不成立。
④如果当前动宾短语动宾适配关系存在,但如果句中存在判断句式,并且如果当前动词与全句中心词可以构成动宾关系,且当前名词可以与全句中心词构成判断关系,则当前动宾结构不成立。
4、介宾短语:
①介词“当”“从打”“打从”“自从”“趁”“一从”,当介宾短语的宾语是单个的词时,不构成介宾短语。
②如果介宾短语的宾语是【的】字短语的定语,如果介宾短语的宾语是主谓短语、动宾短语,并且介宾短语的介词不是“从”“从打”“打从”“自从”“自”“到”“趁”“由”“往”“朝”“对”“向”“对于”“关于”“比”“同”“为”“与”“跟”“把”“通过”“错非”“为了”“由于”“因为”“因”“除了”“除开”“除非”“一从”“关于”“基于”“至于”“当”,则不构成介宾短语。
③如果介宾短语的宾语是【的】字短语的定语,如果介宾短语的宾语是完全主谓短语、判断主谓短语、完全兼语短语、兼语短语、连动短语、状动短语、数量短语、陈述性联合短语、形容词联合短语、形容词偏正短语,并且介宾短语的介词不是“从”“从打”“打从”“自从”“自”“到”“趁”“由”“往”“朝”“对”“向”“对于”“关于”“比”“同”“为”“与”“跟”“把”“通过”“错非”“为了”“由于”“因为”“因”“除了”“除开”“除非”“一从”“关于”“基于”“至于”“当”,则不构成介宾短语。
④如果介宾短语的宾语是【的】字短语的定语:从中心词下一个词开始,正循环寻找可充作谓语成分的动词或者动词性短语:如果存在,提取这个动词,并验证中心词与这个动词的主谓搭配关系——如果搭配,当前介宾短语成立,宾语是那个名词或名词性短语。
⑤否则,从介词上一个词开始,逆循环查找动词或动词性短语。如果存在:如果介宾短语后半句也存在动词,但那个动词与中心词主谓关系不搭配,或者后半句不存在动词——当前请求的介宾短语不成立,介宾短语的宾语应该延伸到中心词。
⑥否则,如果前半句没有动词,从介词上一个词开始,逆循环查找名词或名词性短语;如果存在,当前介宾短语成立。
⑦否则,如果当前介宾短语构成整个句子,则当前介宾短语成立。
5、偏正短语:
1.形容词或形容词性短语+动词或动词性短语=?
①中心词动词或短语如果在【的】字短语定语中或者是【的】字短语的中心词,则当前检测短语构成偏正短语。
②否则,如果除当前检测短语外,句中另外存在主要动词:如果在当前检测短语的动词或动词短语虚拟为名词的条件下,形容词性短语充当的成分如果是主谓短语、【的】字结构、【的】字短语,则当前检测短语为偏正短语。
③否则,如果在当前检测短语的动词或动词短语虚拟为名词的条件下,形容词性短语充当的成分如果是联合短语、偏正短语:如果当前句子在除检测短语外其他位置存在谓语,则当前检测短语构成偏正短语。
④否则,如果当前句子在除检测短语外其他位置不存在谓语,但存在宾语,则检查当前检测短语的动词与宾语中心词的动宾搭配关系,如果不搭配,则当前检测短语构成偏正短语。
⑤除了上述情况,当前检测短语为状动短语。
2.名词或名词性短语+动词或动词性短语=?,如果指定检测词为【的】字结构定语或者为定语中心词或者句中另外存在主要动词:
⑥如果指定检测动词部分是短语或者无短语的形容词、动词+形容词,指定检测短语构成主谓短语。
⑦如果指定检测短语的名词部分是人称代词、指示代词,指定检测短语构成偏正短语。
⑧如果指定检测短语的名词部分和动词部分偏正搭配关系成立,指定检测短语构成偏正短语。
⑨除了上述情况,当前检测短语为主谓短语。
6、姓氏短语:
①直接从姓氏字符串数组查询。
②否则,当遇到以下字符:“赵”“钱”“孙”“李”“周”“吴”“郑”“王”“冯”“陈”“褚”“卫”……
③姓氏前一个词如果为“老”“小”“阿”“大”,姓氏短语则从前一个词开始;
④从姓氏向右最多4个字,构成姓氏短语。但:如果遇到介词、连词、时态助词、结构助词时,终止退出。
⑤如果遇到词经过查询属于下列词类,姓氏短语完成:“人类”“至亲”“朋亲”“职务”“职业”“人物”“军人”“家”“学校”“住所”“公寓”。
⑥姓氏短语必须进过验证,能够成为人类活动的主动者。并且,应该记入姓氏数组。
7、地名和物品名称:
①直接从物品字符串数组查询。
②否则,当遇到以下字符,标志地名结束:“社”“店”“铺”“馆”“廊”“堂”“城”“场”“广场”……
③逆循环,查找地名全称:遇到量词、代词、指示代词、人称代词、疑问代词、能愿动词、趋向动词、时态助词、表存在与变化的动词、介词、连词以及右引号、顿号、右书名号、右注释号、右括号、回车符、左引号、左书名号、左注释号、左括号等退出。
④遇到“来”“到”“有”“看见”“看到”“觉得”“说”“想”“听说”“知道”“走到”“找”“寻找”……等以及判断动词、是退出。
⑤否则,遇到“国有”“国营”“私有”“民营”“私营”“个体”“有限”“无限”“责任”“公办”“民办”……等退出。
⑥确立的地名短语要经过验证并记入地名数组。
8、顿号、连接词的连词和连接句子的连词构成的联合类短语:
用顿号和连词连接的短语呈非常复杂的情况。连接后可能形成联合短语、连动短语、数量短语、介宾短语、方位短语等,也可能由于连接中出现定语从句、状语从句而出现错误。所以必须认真鉴别:
(1)在同一个语句内,如果顿号和连词关联的情况同时出现,一般先处理顿号连接的短语,后处理连词连接的短语。但如果每对顿号之间只有一对用连词关联的短语(或词)时除外。
(2)获得始末位置:从参数指定的关联顿号(或连词)分别向左或者向右搜索端点顿号(或者连词)的位置;搜索中如果从最近顿号(或连词)开始超过8个字符,则退出搜索,将最近顿号(连词)作为端点。搜索如果是从顿号开始的,那么如果遇到连词就退出,将最近顿号作为端点。反之亦然。
(3)找到并记录左端上一个短语的短语属性以及这个短语的起始点,如果左端上一个短语属性为0,那么就记录左端上一个词的词性以及词的起点。右端亦然,不过右端需要记录的是短语(或词)终点。
(4)检查中间项:如果左、右端顿号(或者连词)之间存在其他顿号(或连词),那么从左向右依次检查两个顿号(或连词)之间是否只有一个短语(或词)。如果不是,则退出等待两个顿号(或连词)之间的短语形成,当前联合类短语才能成立。
(5)如果不存在中间项,如果顿号(连词)两端都存在短语,如果连词两端短语类型完全相同,则当前联合类短语成立。否则:
Figure BSA0000196076100000251
Figure BSA0000196076100000261
(6)无论是顿号(或连词)两端或者是具有多个顿号(连词)的整个目标短语两端,如符合下列条件之一,则目标短语成立:
①两端的短语类型完全相同。
②两端的短语的字符数相近或者相同。
③两端的短语类别相同。
Figure BSA0000196076100000262
(7)句子成分分析的方法:
①如果目标短语在句中充当定语,那么要么位于句首,要么它前面只能出现谓语或补语。
②如果目标短语在句中充当谓语,那么要么位于句首,要么它前面只能出现主语或状语。
③如果目标短语在句中充当主语,那么要么位于句首,要么它前面只能出现定语。
④如果目标短语在句中充当宾语,那么要么位于句末,要么它前面只能出现定语或谓语、补语。
⑥如果目标短语在句中充当状语,那么要么独立存在,要么它后面只能出现谓语。
⑦如果目标短语在句中充当补语,那么它不能独立存在,要么它前面只能出现谓语。
八、根据短语和词的构成方式划分句子成分以及划分函数库的设置;
1、以一个完整句为单位,按下列顺序划分成分:(完整句是指以句号、冒号、右引号、问号、惊叹号、删节号、破折号、分号结束的句子。)
(1)判断谓语。
(2)判断主语、宾语、状语、补语和定语。
(3)补充划分未划分的成分。
(4)根据句子间联系纠正错划的成分。
2、划分成分的方法:
(1)短语单元循环:纵向按行循环;横向按列循环;
(2)每一行的列从左向右依次循环,同时检查各列与语法成分的关系:①短语确认成分;②短语包含成分。
(3)如果当前行存在短语包含成分情况,那么转入下一行继续列的循环分析;
(4)如果所有成分都得到确认,那么在词单元中记录这些成分,然后退出循环。
例如,句子“俄罗斯科学家最近设计出一种外形不透光的黑色管状物”中:第二层①主谓短语(从0到4)包含主语和谓语;②【的】字短语(从5到13)包含定语和宾语;第三层①偏正短语(从0到1)包含定语和主语;②状动短语(从2到4)包含状语、谓语和补语;③完全主谓短语(从5到10)作定语;④结构助词(11)作定语;⑤偏正短语(从12到13)包含定语和宾语。第四层①处所名词(0)作定语;②名词(1)作主语;③状动短语(从2到3)包含状语和谓语;④趋向动词(4)作补语;⑤形容词(12)作定语;⑥名词(13)作宾语……
3、划分函数库的设置:
(1)关于状动短语、连动短语、动补短语:
Figure BSA0000196076100000271
(2)兼语短语:
Figure BSA0000196076100000272
(3)动宾短语:
Figure BSA0000196076100000273
Figure BSA0000196076100000281
(4)祈使短语:
Figure BSA0000196076100000282
(5)存变合成谓语:
Figure BSA0000196076100000283
附图说明
附图1是采用本方法编写的软件分析语句“俄罗斯科学家最近设计出一种外形不透光的黑色管状物,具有重量轻、耗能小、精确度高、抗干扰能力强的特点和数字摄像、使航天器准确识别方向等功能的新型星际‘指南针’”的效果图。
该语句是近年高考的一个阅读题,分析具有较大的难度。图中用红色粗体表示主语,用黑色粗体表示谓语,用蓝色粗体表示宾语,用下划线表示定语,用斜体表示状语,整个句子结构一目了然。
接着是文字说明图。图中从大到小,一层层展开短语并说明属性及始末点。第一句全部短语共12层,第二句短语共17层。分析层层相扣,简明而扼要。
以上全部分析均由计算机自动完成。说明本方法具有可实现性。
附图2显示2016年山东省高考作文题的内容。
附图3是以本方法为基础技术的人工智能程序对2016年山东高考作文题的分析辅导。包括:内容和要求、划分层次、摘要要点、提取关键词、解题、提示共6部分内容。右侧小窗口内是对可拟题目、可用提纲、论据与材料等的提示。
附图4是根据用户选择或自拟题目以及选择的结构方式、感情色彩人工智能程序自动提示的可用提纲供用户选择。该人工智能程序是以本方法为基础的。
以上附图是一个完整的实际发生的写作课辅导过程。它说明本方法具有实用性。
具体实施方式
本方法能够实施于所有计算机与人交流中需要现代汉语文本的场合。具体地说,包括:
1、汉语文教育技术。包括:作文批改、作文辅导、作文教学、语文阅读、文学欣赏等,尤其是有关上述项目的人工智能技术。
2、汉语文阅读与写作技术。包括:办公软件中的汉语文文本阅读、句群划分、内容摘要、关键词、语句与逻辑判断、推理的转换、病句与错别字与标点纠错、文学作品阅读与鉴赏、大型学术著作阅读与摘要、学术论文写作等领域,尤其是有关上述项目的人工智能技术。
3、中外文学习、互译,对照阅读等领域,尤其是有关上述项目的人工智能技术。

Claims (8)

1.一种使用人工智能分析现代汉语句子成分的方法,其特征是:建立和调用词库以及将文本切分成语段、句和词——具体表现为:(1)词库按词所包含的字符从多到少依次存放,(2)词变量有字符串形式、词性、感情色彩、使用频率等4个以上属性,(3)词库调用要遵循2原则,(4)具有词性、短语属性、语法成分、起始位置和包含的字符数等5个以上属性的词单元,(5)记录短语属性和短语始末点的变量二维数组的短语单元等5项特征。
2.如权利要求1所述的方法,其特征是:一词多性可操作的设置——具体表现为:“(1)名词‘月’当前面出现数词或者‘正’‘初’等词汇时,作时间动词”等78条数据设计。
3.如权利要求2所述的方法,其特征是:必须预设置的固定或者确定的短语属性——具体表现为:“(1)如果‘子’‘儿’‘头’只是单一的词素并且不居于句子的开头,它的前一个词如果是偏正短语、联合短语、‘的’字结构、引用、形容词、动词、不及物动词、表心理活动的动词、量词、数词等,那么它们构成联合短语”等66条数据设计。
4.如权利要求3所述的方法,其特征是:建立习惯用法词库和调用规则——具体表现为:(1)建立习惯用法词库,应该先建立一个变量组,这个变量组的每一个变量都由2个元素组成,(2)习惯用法词库主要包括逻辑和语法2类,(3)习惯用法词库的符号设计,(4)词库调用的规则等4项特征。
5.如权利要求4所述的方法,其特征是:短语构成的判定——具体表现为:(1)基本组合的短语构造如“(1)数词+数词=数量短语”等共85条数据设计,(2)动态组合的短语的循环组合方式、动态循环库中如“①划分偏正短语……”等18种形态设计以及如【偏正短语】构造如“(86)联合短语+名词、代词、人称代词=联合短语”等130条数据设计。
6.如权利要求5所述的方法,其特征是:短语组成计算以及记录模块的设计——具体表现为:(1)检查***的设计,(2)组成限制中“偏正短语”等14种类短语限制的设计,(3)记录组合结果种方法和步骤的设计。
7.如权利要求6所述的方法,其特征是:介词结构、动宾结构、联合短语、【的】字短语等特定用法的区分规定设计——具体表现为:(1)“的”作语气助词、结构助词与【的】字结构,(2)【的】字短语,(3)动宾短语(4)介宾短语,(5)偏正短语,(6)姓氏短语,(7)地名和物品名称,(8)顿号、连接词的连词和连接句子的连词构成的联合类短语等8种特别规定或函数的设计。
8.如权利要求7所述的方法,其特征是:根据短语和词的构成方式划分句子成分以及划分函数库的设置——具体表现为:(1)以一个完整句为单位按顺序划分成分的关于完整句的规定和划分顺序的规定,(2)划分成分的方法的4个步骤,(3)划分函数库的设置,包括关于状动短语、连动短语、动补短语、兼语短语、动宾短语、祈使短语、存变合成谓语等5个特殊函数的设计。
CN201911188728.0A 2019-11-19 2019-11-19 现代汉语成分分析的一种人工智能方法 Pending CN110909537A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911188728.0A CN110909537A (zh) 2019-11-19 2019-11-19 现代汉语成分分析的一种人工智能方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911188728.0A CN110909537A (zh) 2019-11-19 2019-11-19 现代汉语成分分析的一种人工智能方法

Publications (1)

Publication Number Publication Date
CN110909537A true CN110909537A (zh) 2020-03-24

Family

ID=69819941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911188728.0A Pending CN110909537A (zh) 2019-11-19 2019-11-19 现代汉语成分分析的一种人工智能方法

Country Status (1)

Country Link
CN (1) CN110909537A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699664A (zh) * 2021-01-08 2021-04-23 中国专利信息中心 一种中文句法分析方法和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273314A1 (en) * 2004-06-07 2005-12-08 Simpleact Incorporated Method for processing Chinese natural language sentence
CN1790238A (zh) * 2005-12-31 2006-06-21 清华大学 一种中文词的计算机处理和键盘输入的方法
CN101739393A (zh) * 2008-11-20 2010-06-16 苗玉水 汉语文本智能分词法
CN105320644A (zh) * 2015-09-23 2016-02-10 陕西中医药大学 一种基于规则的自动汉语句法分析方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273314A1 (en) * 2004-06-07 2005-12-08 Simpleact Incorporated Method for processing Chinese natural language sentence
CN1790238A (zh) * 2005-12-31 2006-06-21 清华大学 一种中文词的计算机处理和键盘输入的方法
CN101739393A (zh) * 2008-11-20 2010-06-16 苗玉水 汉语文本智能分词法
CN105320644A (zh) * 2015-09-23 2016-02-10 陕西中医药大学 一种基于规则的自动汉语句法分析方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699664A (zh) * 2021-01-08 2021-04-23 中国专利信息中心 一种中文句法分析方法和***

Similar Documents

Publication Publication Date Title
Tesnière Elements of structural syntax
US20110184718A1 (en) Interlingua, Interlingua Engine, and Interlingua Machine Translation System
Scott The vertical dimension and time in Mandarin
Chappell et al. The history of Chinese grammars in Chinese and western scholarly traditions
Spina The Dictionary of Italian Collocations: Design and Integration in an Online Learning Environment.
Kang Spoken language to sign language translation system based on HamNoSys
Love Science, language and linguistic culture
Jackson et al. An introduction to English lexicology: Words, meaning and vocabulary
Salgado Terminological methods in lexicography: conceptualising, organising and encoding terms in general language dictionaries
Li et al. Enriching Word Alignment with Linguistic Tags.
List Towards a history of concept list compilation in historical linguistics
Kim et al. English cognate object construction: A usage-based, construction grammar approach
CN110909537A (zh) 现代汉语成分分析的一种人工智能方法
Takkinen et al. Finnish sign language
Gianninoto The development of Chinese grammars and the classification of the parts of speech
Sprenger et al. It’s time to do the math: Computation and retrieval in phrase production
Crasborn et al. Global signbank manual
Man Application on iWrite platform in college English writing teaching
Ninio Learning a generative syntax from transparent syntactic atoms in the linguistic input
Xiaoli Analysis on lexical errors in college English writing
Kristiansen et al. Cognitive Sociolinguistics in the 21st century
Dąbkowski et al. The apprehensional domain in A’ingae (Cofán)
Shen EFL learners’ synonymous errors: A case study of glad and happy
Berry Diachronic Adverbial Morphosyntax: A Minimalist Study of Lexicalization and Grammaticalization
Iwasaki The Syntax and Semantics of Comparative Correlatives: A Generative-Cognitive Language Design

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Qu Yingzhou

Document name: Notice of First Examination Opinion

DD01 Delivery of document by public notice
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200324

WD01 Invention patent application deemed withdrawn after publication