CN109376355B - 英文单词和语句筛选方法、装置、存储介质及电子设备 - Google Patents
英文单词和语句筛选方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN109376355B CN109376355B CN201811166650.8A CN201811166650A CN109376355B CN 109376355 B CN109376355 B CN 109376355B CN 201811166650 A CN201811166650 A CN 201811166650A CN 109376355 B CN109376355 B CN 109376355B
- Authority
- CN
- China
- Prior art keywords
- word
- clause
- score
- english
- scores
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本公开涉及一种英文单词和语句筛选方法、英文单词和语句筛选装置、计算机可读存储介质及电子设备。本公开实施例中的英文单词筛选方法,包括:获取待筛选的英文文本,并对所述英文文本做分词处理,得到多个候选单词;分别获取各个候选单词的单词统计评分和单词经验评分;其中,所述单词统计评分与单词使用频率相关,所述单词经验评分与单词等级相关;对所述候选单词的单词统计评分和单词经验评分加权求和,得到所述候选单词的单词综合评分;根据所述单词综合评分对所述候选单词进行筛选,得到预设数量的英文单词。本公开实施例提供的英文单词和语句筛选方法能帮助英文学***的目的。
Description
技术领域
本公开涉及智能教育技术领域,具体涉及一种英文单词和语句筛选方法、英文单词和语句筛选装置、计算机可读存储介质及电子设备。
背景技术
在智能教育领域,现有的英语作文评价方法,都是用机器模拟人工批阅过程,从而给出合理的作文得分。这些方法的基本思路是通过自然语言处理技术,从待评分的英语作文中,提取文本特征,用人工评分及机器学习与人工智能方法,对文本特征与分数之间的关系进行学习,通过所得的文本特征与分数之间的关系进行自动评分。
现有的英语作文评价方法并不能从更细致的层面去评价一篇作文。如果学生使用这些英语作文评价方法来进行英语学***的作用非常有限。因此,如何利用英语作文自动评分技术来帮助学生提高英语写作水平是目前亟待解决的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种英文单词和语句筛选方法、英文单词和语句筛选装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个技术问题。
根据本公开的一个方面,提供一种英文单词筛选方法,其特殊之处在于,包括:
获取待筛选的英文文本,并对所述英文文本做分词处理,得到多个候选单词;
分别获取各个候选单词的单词统计评分和单词经验评分;其中,所述单词统计评分与单词使用频率相关,所述单词经验评分与单词等级相关;
对所述候选单词的单词统计评分和单词经验评分加权求和,得到所述候选单词的单词综合评分;
根据所述单词综合评分对所述候选单词进行筛选,得到预设数量的英文单词。
在本公开的一种示例性实施方式中,在分别获取各个候选单词的单词统计评分和单词经验评分之前,所述方法还包括:
对所述候选单词做词性标注,并根据词性标注结果对所述候选单词进行筛选,得到符合预设词性的候选单词。
在本公开的一种示例性实施方式中,所述预设词性为名词、动词、形容词和/或副词;其中,所述名词是除专有名词以外的普通名词。
在本公开的一种示例性实施方式中,在分别获取各个候选单词的单词统计评分和单词经验评分之前,所述方法还包括:
对所述候选单词做字符数标注,并根据字符数标注结果对所述候选单词进行筛选,得到符合预设字符数的候选单词。
在本公开的一种示例性实施方式中,所述分别获取各个候选单词的单词统计评分和单词经验评分,包括:
查询与单词使用频率相关的单词统计评分词典,得到各个候选单词的单词统计评分;
查询与单词等级相关的单词经验评分词典,得到各个候选单词的单词经验评分。
在本公开的一种示例性实施方式中,在查询与单词使用频率相关的单词统计评分词典之前,所述方法还包括:
获取英文语料库,并对所述英文语料库中的英文语料进行分词处理,得到多个语料单词;
统计各个语料单词在所有语料单词中的使用频率,并根据所述使用频率计算所述语料单词的单词统计评分;
建立所述语料单词与所述单词统计评分的映射关系,形成所述单词统计评分词典。
在本公开的一种示例性实施方式中,所述根据所述使用频率计算所述语料单词的单词统计评分,包括:
按照如下公式计算所述语料单词的单词统计评分:
其中,s为所述语料单词的单词统计评分,a为所述语料单词的使用频率,β为所有语料单词中使用频率的最大值,γ为所有语料单词中使用频率的最小值,A为单词评分调整系数。
根据本公开的一个方面,提供一种英文单词筛选装置,其特殊之处在于,包括:
单词获取单元,被配置为获取待筛选的英文文本,并对所述英文文本做分词处理,得到多个候选单词;
单词评分获取单元,被配置为分别获取各个候选单词的单词统计评分和单词经验评分;其中,所述单词统计评分与单词使用频率相关,所述单词经验评分与单词等级相关;
单词综合评分单元,被配置为对所述候选单词的单词统计评分和单词经验评分加权求和,得到所述候选单词的单词综合评分;
单词筛选单元,被配置为根据所述单词综合评分对所述候选单词进行筛选,得到预设数量的英文单词。
根据本公开的一个方面,提供一种英文语句筛选方法,其特殊之处在于,包括:
获取待筛选的英文文本,对所述英文文本做分句处理得到多个候选语句,并对所述候选语句做分词处理得到各个所述候选语句的组成单词以及语块;
对各个所述候选语句做句法分析得到句法分析树,并根据所述句法分析树得到各个所述候选语句中从句的从句标签;
针对各个所述候选语句,获取与所述从句标签相关的从句统计评分和从句经验评分,获取与所述组成单词相关的单词统计评分和单词经验评分,获取与所述语块相关的语块评分;
对所述从句统计评分、从句经验评分、单词统计评分、单词经验评分、语块评分加权求和得到所述候选语句的语句综合评分;
根据所述语句综合评分对所述候选语句进行筛选,得到预设数量的英文语句。
在本公开的一种示例性实施方式中,在对所述候选语句做分词处理得到各个所述候选语句的组成单词以及语块之前,所述方法还包括:
对所述候选语句做语法检测,并根据语法检测结果对所述候选语句进行筛选,得到语法正确的候选语句。
在本公开的一种示例性实施方式中,在获取与所述组成单词相关的单词统计评分和单词经验评分之前,所述方法还包括:
对所述组成单词做词性标注,并根据词性标注结果对所述组成单词进行筛选,得到符合预设词性的组成单词。
在本公开的一种示例性实施方式中,所述预设词性为名词、动词、形容词和/或副词;其中,所述名词是除专有名词以外的普通名词。
在本公开的一种示例性实施方式中,在获取与所述组成单词相关的单词统计评分和单词经验评分之前,所述方法还包括:
对所述组成单词做字符数标注,并根据字符数标注结果对所述组成单词进行筛选,得到符合预设字符数的组成单词。
在本公开的一种示例性实施方式中,所述获取与所述从句标签相关的从句统计评分和从句经验评分,包括:
查询与从句使用频率相关的从句统计评分词典,得到各个从句标签的从句统计评分,并以候选语句中各个从句标签的从句统计评分平均值作为所述候选语句的从句统计评分;
查询与从句复杂程度相关的从句经验评分词典,得到各个从句标签的从句经验评分,并以候选语句中各个从句标签的从句经验评分平均值作为所述候选语句的从句经验评分。
在本公开的一种示例性实施方式中,在查询与从句使用频率相关的从句统计评分词典之前,所述方法还包括:
获取英文语料库,并对所述英文语料库中的英文语料进行分句处理,得到多个语料语句;
对各个所述语料语句做句法分析得到句法分析树,并根据所述句法分析树得到各个所述语料语句中的从句的语料从句标签;
统计各个语料从句标签在所有语料从句标签中的使用频率,并根据所述使用频率计算各个所述语料从句标签的从句统计评分;
建立所述语料从句标签与所述从句统计评分的映射关系,形成所述从句统计评分词典。
在本公开的一种示例性实施方式中,所述根据所述使用频率计算各个所述语料从句标签的从句统计评分,包括:
按照如下公式计算所述语料从句标签的从句统计评分:
其中,t为所述语料从句标签的从句统计评分,b为所述语料从句标签的使用频率,θ为所有语料从句标签中使用频率的最大值,ε为所有语料从句标签中使用频率的最小值,B为语句评分调整系数。
在本公开的一种示例性实施方式中,所述获取与所述组成单词相关的单词统计评分和单词经验评分,包括:
查询与单词使用频率相关的单词统计评分词典,得到各个组成单词的单词统计评分,并以各个所述组成单词的单词统计评分平均值作为所述候选语句的单词统计评分;
查询与单词等级相关的单词经验评分词典,得到各个组成单词的单词经验评分,并以各个所述组成单词的单词经验评分平均值作为所述候选语句的单词经验评分。
在本公开的一种示例性实施方式中,在查询与单词使用频率相关的单词统计评分词典之前,所述方法还包括:
获取英文语料库,并对所述英文语料库中的英文语料进行分词处理,得到多个语料单词;
统计各个语料单词在所有语料单词中的使用频率,并根据所述使用频率计算所述语料单词的单词统计评分;
建立所述语料单词与所述单词统计评分的映射关系,形成所述单词统计评分词典。
在本公开的一种示例性实施方式中,所述根据所述使用频率计算所述语料单词的单词统计评分,包括:
按照如下公式计算所述语料单词的单词统计评分:
其中,s为所述语料单词的单词统计评分,a为所述语料单词的使用频率,β为所有语料单词中使用频率的最大值,γ为所有语料单词中使用频率的最小值,A为单词评分调整系数。
根据本公开的一个方面,提供一种英文语句筛选装置,其特殊之处在于,包括:
语句获取单元,被配置为获取待筛选的英文文本,对所述英文文本做分句处理得到多个候选语句,并对所述候选语句做分词处理得到各个所述候选语句的组成单词以及语块;
从句标签获取单元,被配置为对各个所述候选语句做句法分析得到句法分析树,并根据所述句法分析树得到各个所述候选语句中从句的从句标签;
语句评分获取单元,被配置为针对各个所述候选语句,获取与所述从句标签相关的从句统计评分和从句经验评分,获取与所述组成单词相关的单词统计评分和单词经验评分,获取与所述语块相关的语块评分;
语句综合评分单元,被配置为对所述从句统计评分、从句经验评分、单词统计评分、单词经验评分、语块评分加权求和得到所述候选语句的语句综合评分;
语句筛选单元,被配置为根据所述语句综合评分对所述候选语句进行筛选,得到预设数量的英文语句。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,所述计算机程序被处理器执行时实现以上任一所述的方法。
根据本公开的一个方面,提供一种电子设备,其特殊之处在于,包括处理器和存储器;其中,存储器用于存储所述处理器的可执行指令,所述处理器被配置为经由执行所述可执行指令来执行以上任一所述的方法。
本公开实施例所提供的英文单词和语句筛选方法,利用多种评分维度分别对英文文本中的单词和语句进行综合评价,从而筛选出能够体现英文写作水平的亮点词汇和亮点语句,以供英文学***的目的。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开一种示例性实施方式中英文单词筛选方法的步骤流程图。
图2示意性示出本公开另一示例性实施方式中英文单词筛选方法的部分步骤流程图。
图3示意性示出本公开另一示例性实施方式中英文单词筛选方法的部分步骤流程图。
图4示意性示出本公开示例性实施方式中英文单词筛选装置的组成框图。
图5示意性示出本公开一种示例性实施方式中英文语句筛选方法的步骤流程图。
图6示意性示出本公开另一示例性实施方式中英文语句筛选方法的部分步骤流程图。
图7示意性示出本公开另一示例性实施方式中英文语句筛选方法的部分步骤流程图。
图8示意性示出本公开另一示例性实施方式中英文语句筛选方法的部分步骤流程图。
图9示意性示出本公开示例性实施方式中英文语句筛选装置的组成框图。
图10示意性示出本公开应用于一应用场景中的方法步骤流程图。
图11示意性示出本公开应用于一应用场景中的***组成框图。
图12示意性示出本公开示例性实施方式中一种程序产品的示意图。
图13示意性示出本公开示例性实施方式中一种电子设备的模块示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本公开的示例性实施方式中首先提供一种英文单词筛选方法,该方法可以对英文文本(例如英语作文)进行自动化评价,筛选出英文文本中能够体现英文写作水平的高级词汇,以供英文学习之用。
如图1所示,本示例性实施方式中的英文单词筛选方法主要可以包括以下步骤:
步骤S110.获取待筛选的英文文本,并对英文文本做分词处理,得到多个候选单词。
本步骤首先获取待筛选英文单词的英文文本,对该英文文本做分词处理后可以得到用于筛选英文单词的多个候选单词,例如可以根据分词结果构建一候选单词集合。为了提高后续英文单词筛选步骤的针对性和有效性,在由本步骤得到候选单词之后还可以依据预先设定的筛选规则先对候选单词进行初步筛选。举例而言,本步骤可以对候选单词做词性标注,并根据词性标注结果对候选单词进行筛选,得到符合预设词性的候选单词。其中,预设词性可以包括名词、动词、形容词和/或副词,名词是除专有名词(人名、地名、国家名、单位名、组织名等都是专有名词)以外的普通名词。另外,本步骤也可以对候选单词做字符数标注,并根据字符数标注结果对候选单词进行筛选,得到符合预设字符数(例如包含2个或者2个以上的英文字符)的候选单词。当然,在其他一些示例性实施方式中,也可以采用其他任意的筛选规则,或者根据实际情况对候选单词的筛选规则进行调整,本公开对此均不做特殊限定。
步骤S120.分别获取各个候选单词的单词统计评分和单词经验评分;其中,单词统计评分与单词使用频率相关,单词经验评分与单词等级相关。
针对各个候选单词,本步骤可以分别获取各个候选单词的在单词统计评分和单词经验评分两个维度上的评价分数。其中,单词统计评分与单词使用频率相关,在统计意义上度量了候选单词的优良程度。一般而言,使用频率越高的单词,单词统计评分越低。单词经验评分与单词等级相关,在经验意义上度量了候选单词的优良程度。一般而言,等级越高的单词,单词经验评分也越高。
步骤S130.对候选单词的单词统计评分和单词经验评分加权求和,得到候选单词的单词综合评分。
由步骤S120得到每个候选单词的单词统计评分和单词经验评分之后,本步骤将对二者进行加权求和,以得到各个候选单词的单词综合评分。其中,单词统计评分和单词经验评分的加权系数可以根据实际需要进行分配和调整。例如,本步骤可以将单词统计评分的加权系数设置为0.4,同时将单词经验评分的加权系数设置为0.6;如此一来,在对候选单词进行筛选时,单词经验评分将占更大比重。
步骤S140.根据单词综合评分对候选单词进行筛选,得到预设数量的英文单词。
以步骤S130中计算得到的单词综合评分作为筛选依据,本步骤可以对候选单词进行筛选以得到预设数量的英文单词。例如,本步骤可以将所有的候选单词按照单词综合评分由高到低的顺序进行排列,然后将排序靠前的若干候选单词选入一好词集合中,该好词集合内的单词即为能够体现英文写作水平的亮点词汇,可供英文学习者学习使用。本步骤中筛选得到的英文单词的数量可以是预先设定的固定数量,另外也可以根据候选单词的数量进行调整,例如,筛选得到的英文单词数量可以是候选单词数量的0.2倍。
在本示例性实施方式提供的英文单词筛选方法中,利用单词统计评分和单词经验评分两个维度对英文文本中的单词进行综合评价,从而筛选出能够体现英文写作水平的亮点词汇,以供英文学***的目的。
如图2所示,在本公开的另一示例性实施方式中,步骤S120.分别获取各个候选单词的单词统计评分和单词经验评分,可以包括以下步骤:
步骤S210.查询与单词使用频率相关的单词统计评分词典,得到各个候选单词的单词统计评分。
步骤S220.查询与单词等级相关的单词经验评分词典,得到各个候选单词的单词经验评分。
在本示例性实施方式中,可以将不同词汇的单词统计评分以及单词经验评分分别构建形成单词统计评分词典和单词经验评分词典,查询相应的词典即可获得对应的评分。当然,在其他一些实施例中,也可以将单词统计评分与单词经验评分共同集合于一个评分词典中,本公开对此不做特殊限定。
如图3所示,在本示例性实施方式中,构建单词统计评分词典的方法主要可以包括以下步骤:
步骤S310.获取英文语料库,并对英文语料库中的英文语料进行分词处理,得到多个语料单词。
本步骤首先获取一英文语料库,该英文语料库可以由各种英文语句或者英文文本作为英文语料,以供统计训练之用。在对英文语料库中的英文语料进行分词处理后,可以得到多个语料单词。较为优选地,本步骤中可以使用与步骤S110中相同的分词处理算法,以便保证分词结果的一致性。另外,与步骤S110相似地,本步骤也可以对语料单词按照词性和字符数等预先设定的筛选规则进行初步筛选。当然,本步骤也可以使用与步骤S110中不同的分词处理算法和/或筛选规则,本示例性实施方式对此不做特殊限定。
步骤S320.统计各个语料单词在所有语料单词中的使用频率,并根据使用频率计算语料单词的单词统计评分。
基于步骤S310中得到的语料单词,本步骤可以统计各个语料单词在所有语料单词中的使用频率,并根据该使用频率计算各个语料单词的单词统计评分。举例而言,本步骤可以使用如下公式计算各个语料单词的单词统计评分:
其中,s为语料单词的单词统计评分,a为语料单词的使用频率,β为所有语料单词中使用频率的最大值,γ为所有语料单词中使用频率的最小值,A为单词评分调整系数。
基于该公式,使用频率越低的语料单词,其单词统计评分越高,并且每个语料单词的单词统计评分限定在[0,A]区间内,例如单词评分调整系数A取值为3,那么单词统计评分的取值范围即为[0,3]。根据不同的使用场景和用户的英文水平,也可以采用其他任意的计算方式,本示例性实施方式对此不做特殊限定。
步骤S330.建立语料单词与单词统计评分的映射关系,形成单词统计评分词典。
根据步骤S320的计算结果,本步骤将各个语料单词与相应的单词统计评分建立映射关系,形成单词统计评分词典。
单词统计评分词典可以从统计意义上评价一个英文单词的高级程度,而单词经验评分词典则可以从经验意义上评价一个英文单词的高级程度。一般而言,本示例性实施方式中的单词经验评分词典可以基于现有的单词等级划分标准进行构建,例如可以基于全国英语等级考试(Public English Test System,简称PETS)的等级划分标准,将英文单词划分为若干等级,同时对各个等级内的英文单词形成相应的等级评分。另外,单词经验评分词典也可以由专业英文教师人工构建或者通过其他专家经验构建得到,本示例性实施方式对此不做特殊限定。
基于以上示例性实施方式中的英文单词筛选方法,本公开还提供一种英文单词筛选装置。如图4所示,英文单词筛选装置400主要可以包括:单词获取单元410、单词评分获取单元420、单词综合评分单元430和单词筛选单元440。其中,单词获取单元410被配置为获取待筛选的英文文本,并对英文文本做分词处理,得到多个候选单词;单词评分获取单元420被配置为分别获取各个候选单词的单词统计评分和单词经验评分;其中,单词统计评分与单词使用频率相关,单词经验评分与单词等级相关;单词综合评分单元430被配置为对候选单词的单词统计评分和单词经验评分加权求和,得到候选单词的单词综合评分;单词筛选单元440被配置为根据单词综合评分对候选单词进行筛选,得到预设数量的英文单词。
上述英文单词筛选装置的具体细节已经在对应的英文单词筛选方法中进行了详细的描述,因此此处不再赘述。
在本公开的另一示例性实施方式中,提供一种英文语句筛选方法,该方法可以对英文文本(例如英语作文)进行自动化评价,筛选出英文文本中能够体现英文写作水平的高级语句,以供英文学习之用。
如图5所示,本示例性实施方式中的英文语句筛选方法主要可以包括以下步骤:
步骤S510.获取待筛选的英文文本,对英文文本做分句处理得到多个候选语句,并对候选语句做分块处理得到各个候选语句的组成单词以及语块。
本步骤首先获取待筛选的英文文本,对该英文文本做分句处理后可以得到用于筛选英文语句的多个候选语句,例如可以根据分句结果得到一候选语句集合。与此同时,本步骤还可以对候选语句做语法检测,并根据语法检测结果对候选语句进行筛选,以便得到语法正确的候选语句。针对存在语法错误的候选语句,本步骤还可以向用户返回语法错误消息,用以提示语法错误类型和错误位置。在对候选语句做分块处理后,可以得到各个候选语句的组成单词以及语块(chunk)。其中,语块是按照一定的语法规则生成的语言单位,例如可以是常用习语或者具有固定表达形式的词语组合。在表现形式上,语块可以是连续性短语结构,例如“in the end”、“on the other hand”等;另外语块也可以是不连续的框架结构,例如“not only…but also”、“neither…nor”等。对于组成单词而言,为了提高后续评分计算的针对性和有效性,本步骤还可以依据预先设定的筛选规则对组成单词进行初步筛选。举例而言,本步骤可以对组成单词做词性标注,并根据词性标注结果对组成单词进行筛选,得到符合预设词性的组成单词。其中,预设词性可以包括名词、动词、形容词和/或副词,名词是除专有名词(人名、地名、国家名、单位名、组织名等都是专有名词)以外的普通名词。另外,本步骤也可以对组成单词做字符数标注,并根据字符数标注结果对组成单词进行筛选,得到符合预设字符数(例如包含2个或者2个以上的英文字符)的组成单词。当然,在其他一些示例性实施方式中,也可以采用其他任意的筛选规则,或者根据实际情况对组成单词的筛选规则进行调整,本公开对此均不做特殊限定。
步骤S520.对各个候选语句做句法分析得到句法分析树,并根据句法分析树得到各个候选语句中从句的从句标签。
基于步骤S510中得到的候选语句,本步骤可以对各个候选语句做句法分析(syntactic parsing),以得到各个候选语句的句法分析树(parsing tree)。针对每个句法分析树,可以获取对应的候选语句中从句的从句标签。例如,本步骤可以统计每个句法分析树中从句的句法标签和以该标签为根节点的子树的高度,组成形如“tag-n”结构的字符串,并以该字符串作为从句的从句标签。其中,“tag”是该从句的句法标签,“n”是以该句法标签为根节点的子树的高度。本步骤可以使用宾州树库(Penn Treebank Tagset)的句法标签,另外也可以采用其他任意标准的句法标签,本示例性实施方式对此不做特殊限定。
步骤S530.针对各个候选语句,获取与从句标签相关的从句统计评分和从句经验评分,获取与组成单词相关的单词统计评分和单词经验评分,获取与语块相关的语块评分。
针对各个候选语句,本步骤可以获取五个维度上的评价分数,具体包括:与从句标签相关的从句统计评分和从句经验评分、与组成单词相关的单词统计评分和单词经验评分、与语块相关的语块评分。其中,从句统计评分与从句标签对应从句结构的使用频率相关,在统计意义上度量了从句结构的优良程度。一般而言,使用频率越高的从句结构,从句统计评分越低。从句经验评分与从句标签对应从句结构的复杂程度相关,在经验意义上度量了从句结构的优良程度。一般而言,复杂程度越高的从句结构,其从句经验评分也越高。单词统计评分与单词使用频率相关,在统计意义上度量了组成单词的优良程度。一般而言,使用频率越高的单词,单词统计评分也越低。单词经验评分与单词等级相关,在经验意义上度量了组成单词的优良程度。一般而言,等级越高的单词,单词经验评分也越高。与单词经验评分相类似地,语块评分与语块等级相关,在经验意义上度量了语块的优良程度。一般而言,等级越高的语块,其语块评分也越高。
步骤S540.对从句统计评分、从句经验评分、单词统计评分、单词经验评分、语块评分加权求和得到候选语句的语句综合评分。
由步骤S530得到候选语句在不同维度上的评价分数后,本步骤可以对各个评分进行加权求和,以得到候选语句的语句综合评分。其中,各个维度评分的加权系数可以根据实际需要进行分配和调整。例如,本步骤可以将从句统计评分的加权系数设置为0.15,将从句经验评分的加权系数设置为0.25,将单词统计评分的加权系数设置为0.15,将单词经验评分的加权系数设置为0.25,将语块评分的加权系数设置为0.20。如此一来,在对候选语句进行筛选时,单词经验评分和从句经验评分将占更大比重。
步骤S550.根据语句综合评分对候选语句进行筛选,得到预设数量的英文语句。
以步骤S540中计算得到的语句综合评分作为筛选依据,本步骤可以对候选语句进行筛选以得到预设数量的英文语句。例如,本步骤可以将所有的候选语句按照语句综合评分由高到低的顺序进行排列,然后将排序靠前的若干候选语句选入一好句集合中,该好句集合内的语句即为能够体现英文写作水平的亮点语句,可供英文学习者学习使用。本步骤中筛选得到的英文语句的数量可以是预先设定的固定数量,另外也可以根据候选语句的数量进行调整。例如,可以将好句集合中的语句数量设定为3个,如果候选语句的数量少于或者等于3个,那么可以将全部候选语句选入好句集合,而如果候选语句的数量多于3个,那么可以将排序靠前的3个候选语句选入好句集合。
在本示例性实施方式提供的英文语句筛选方法中,利用与从句标签、组成单词和语块相关的五个维度对英文文本中的语句进行综合评价,从而筛选出能够体现英文写作水平的亮点语句,以供英文学***的目的。
如图6所示,在本公开的另一示例性实施方式中,步骤S530中的获取与从句标签相关的从句统计评分和从句经验评分,可以进一步包括以下步骤:
步骤S610.查询与从句使用频率相关的从句统计评分词典,得到各个从句标签的从句统计评分,并以候选语句中各个从句标签的从句统计评分平均值作为候选语句的从句统计评分。
步骤S620.查询与从句复杂程度相关的从句经验评分词典,得到各个从句标签的从句经验评分,并以候选语句中各个从句标签的从句经验评分平均值作为候选语句的从句经验评分。
在本示例性实施方式中,可以将不同语句的从句统计评分以及从句经验评分分别构建形成从句统计评分词典和从句经验评分词典,查询相应的词典即可获得对应的评分。当然,在其他一些实施例中,也可以将从句统计评分与从句经验评分共同集合于一个评分词典中,本公开对此不做特殊限定。需要说明的是,对于一些候选语句而言,如果候选语句中未使用从句结构,那么对应的相关评分为零;如果候选语句中使用一种从句结构,那么对应的从句标签的评分即可作为候选语句的评分;如果候选语句中使用了多种从句结构,那么可以将不同从句标签的评分平均值作为候选语句的评分。
如图7所示,在本示例性实施方式中,构建从句统计评分词典的方法主要可以包括以下步骤:
步骤S710.获取英文语料库,并对英文语料库中的英文语料进行分句处理,得到多个语料语句。
本步骤首先获取一英文语料库,该英文语料库可以由各种英文语句或者英文文本作为英文语料,以供统计训练之用。在对英文语料库中的英文语料进行分句处理后,可以得到多个语料语句。
步骤S720.对各个语料语句做句法分析得到句法分析树,并根据句法分析树得到各个语料语句中的从句的语料从句标签。
针对步骤S710中得到的各个语料语句,本步骤可以进行句法分析得到与各个语料语句相对应的句法分析树,并可以根据句法分析树得到各个语料语句中的从句的语料从句标签。较为优选地,本步骤中可以使用与步骤S520中相同的句法分析算法,以便保证分析结果的一致性。当然,本步骤也可以使用与步骤S520中不同的其他的句法分析算法,本示例性实施方式对此不做特殊限定。
步骤S730.统计各个语料从句标签在所有语料从句标签中的使用频率,并根据使用频率计算各个语料从句标签的从句统计评分。
基于步骤S720中得到的语料从句标签,本步骤可以统计各个语料从句标签在所有语料从句标签中的使用频率,并根据该使用频率计算各个语料从句标签的从句统计评分。举例而言,本步骤可以使用如下公式计算语料从句标签的从句统计评分:
其中,t为语料从句标签的从句统计评分,b为语料从句标签的使用频率,θ为所有语料从句标签中使用频率的最大值,ε为所有语料从句标签中使用频率的最小值,B为语句评分调整系数。
基于该公式,使用频率越低的语料从句标签,其从句统计评分越高,并且每个语料从句标签的从句统计评分限定在[0,B]区间内,例如语句评分调整系数B取值为10,那么从句统计评分的取值范围即为[0,10]。根据不同的使用场景和用户的英文水平,也可以采用其他任意的计算方式,本示例性实施方式对此不做特殊限定。
步骤S740.建立语料从句标签与从句统计评分的映射关系,形成从句统计评分词典。
根据步骤S730的计算结果,本步骤将各个语料从句标签与相应的从句统计评分建立映射关系,形成从句统计评分词典。
从句统计评分词典可以从统计意义上评价一个英文语句的高级程度,而从句经验评分词典则可以从经验意义上评价一个英文语句的高级程度。一般而言,本示例性实施方式中的从句经验评分词典可以基于现有的英文等级划分标准进行构建,例如可以基于全国英语等级考试(Public English Test System,简称PETS)的等级划分标准,将从句结构划分为若干等级,同时对各个等级内的从句结构形成相应的等级评分。另外,从句经验评分词典也可以由专业英文教师人工构建或者通过其他专家经验构建得到,本示例性实施方式对此不做特殊限定。
如图8所示,在本公开的另一示例性实施方式中,步骤S530中的获取与组成单词相关的单词统计评分和单词经验评分,可以进一步包括以下步骤:
步骤S810.查询与单词使用频率相关的单词统计评分词典,得到各个组成单词的单词统计评分,并以各个组成单词的单词统计评分平均值作为候选语句的单词统计评分;
步骤S820.查询与单词等级相关的单词经验评分词典,得到各个组成单词的单词经验评分,并以各个组成单词的单词经验评分平均值作为候选语句的单词经验评分。
在本示例性实施方式中,可以将不同组成单词的单词统计评分以及单词经验评分分别构建形成单词统计评分词典和单词经验评分词典,查询相应的词典即可获得对应的评分。当然,在其他一些实施例中,也可以将单词统计评分与单词经验评分共同集合于一个评分词典中,本公开对此不做特殊限定。一般而言,一个候选语句中可以包括多个组成单词,每个组成单词都可以查询到一个与之对应的单词统计评分和单词经验评分。本示例性实施方式将候选语句中各个组成单词的单词统计评分的平均值作为候选语句的单词统计评分,同时将候选语句中各个组成单词的单词经验评分的平均值作为候选语句的单词经验评分。
构建单词统计评分词典以及单词经验评分词典的方法已在前述示例性实施方式中做出说明,因此此处不再赘述。
基于以上示例性实施方式中的英文语句筛选方法,本公开还提供一种英文语句筛选装置。如图9所示,英语语句筛选装置900主要可以包括:语句获取单元910、从句标签获取单元920、语句评分获取单元930、语句综合评分单元940和语句筛选单元950。其中,语句获取单元910被配置为获取待筛选的英文文本,对英文文本做分句处理得到多个候选语句,并对候选语句做分词处理得到各个候选语句的组成单词以及语块;从句标签获取单元920被配置为对各个候选语句做句法分析得到句法分析树,并根据句法分析树得到各个候选语句中的从句的从句标签;语句评分获取单元930被配置为针对各个候选语句,获取与从句标签相关的从句统计评分和从句经验评分,获取与组成单词相关的单词统计评分和单词经验评分,获取与语块相关的语块评分;语句综合评分单元940被配置为对从句统计评分、从句经验评分、单词统计评分、单词经验评分、语块评分加权求和得到候选语句的语句综合评分;语句筛选单元950被配置为根据语句综合评分对候选语句进行筛选,得到预设数量的英文语句。
上述英文语句筛选装置的具体细节已经在对应的英文语句筛选方法中进行了详细的描述,因此此处不再赘述。
需要说明的是,虽然以上示例性实施方式以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或者必须执行全部的步骤才能实现期望的结果。附加地或者备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
另外,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
下面结合一应用场景对本公开示例性实施方式中提供的英文单词筛选方法和英文语句筛选方法做出详细说明。
如图10和图11所示,该应用场景涉及一种英语作文好词好句评价方法及***,具体评价方法包括以下流程步骤:
步骤S1、获取待评作文;
步骤S2、建立候选语句集合,对有语法错误的语句进行筛选;
首先,文本预处理模块01对待评作文进行分句,建立原始语句集合。
其次,语法检测模块02对原始语句集合中的所有语句进行语法检测。若原始语句集合中的语句有语法错误,则返回语法错误信息,主要包括语法错误类型,错误位置等;若没有检测出语法错误,则语法错误信息为空。
最后,根据语法检测结果确定候选语句集合。具体为:若原始语句集合中的语句被检测为无语法错误,即语法错误信息为空,则存放至候选语句集合中;遍历原始语句集合中的所有语句后,确定候选语句集合。
其中,语法检测模块02检测的语法错误类型用来衡量***对语法错误的容忍程度,可根据实际使用场景和用户的英语写作水平来调整。
步骤S3、建立候选单词集合;
首先,文本预处理模块01对步骤S2中得到的候选语句进行分词和词性标注。
然后,依据预先制定的规则筛选每个语句中的候选单词,构建候选单词集合。具体的筛选规则如下:
规则1.单词中包含2个以上的英文字符;
规则2.词性为名词、动词、形容词、副词;
规则3.不是专有名词(人名,地名,国家名,单位名,组织名等都是专有名词)。
其中,候选单词的筛选规则可以根据实际情况进行调整。
步骤S4、计算候选单词和候选语句的单词统计评分;
对于候选单词集合中的每个单词,查找该词在单词词典09中对应的分数,作为该词的单词统计评分;对于候选语句集合中的每个语句,计算该语句中的候选单词在单词词典09中对应的分数的平均值,作为该语句的单词统计评分。
其中,单词词典09记录了统计意义上不同词汇的高级程度,越高级的词汇分数越高。
单词统计评分在统计意义上度量了语句中词汇使用的优良程度。
步骤S5、计算候选单词和候选语句的单词经验评分;
对于候选单词集合中的每个单词,查找该词在分级词表10中对应的分数,作为该词的单词经验评分;对于候选语句集合中的每个语句,计算该语句中的候选单词在分级词表10中对应的分数的平均值,作为该语句的单词统计评分。
其中,分级词表10记录了经验意义上不同词汇的高级程度,越高级的词汇分数越高。分级词表10由专业英文教师人工构建,也可以通过其他专家经验得到。
单词经验评分在经验意义上度量了语句中词汇使用的优良程度。
步骤S6、对候选语句进行句法分析;
首先,句法分析模块03对候选语句集合中的每个语句进行句法分析(syntacticparsing),得到该句的句法分析树(parsing tree)。
然后,对候选语句集合中每个语句的句法分析树,统计树中从句的句法标签和以该标签为根节点的子树的高度,组成形如“tag-n”结构的字符串,简称为从句标签,其中“tag”是从句的句法标签,“n”是以该标签为根节点的子树的高度。
步骤S7、计算候选语句的从句统计评分;
对于候选语句集合中的每个语句,计算该语句中的从句标签在句法标签词典12中对应的分数的平均值,作为该语句的从句统计评分。
其中,句法标签词典12记录了统计意义上不同从句结构的复杂程度,越复杂的从句结构分数越高。
从句统计评分在统计意义上度量了语句的句法结构的优良程度。
步骤S8、计算候选语句的从句经验评分;
对于候选语句集合中的每个语句,计算该语句中的从句标签在分级标签表13中对应的分数的平均值,作为该语句的从句经验评分。
其中,分级标签表13记录了经验意义上不同从句结构的复杂程度,越复杂的从句结构分数越高。分级标签表13由专业英文教师人工构建,也可以通过其他专家经验得到。
句法结构经验评分在经验意义上度量了语句的句法结构的优良程度。
步骤S9、计算候选语句的语块评分;
对于候选语句集合中的每个语句,计算各个语句中的语块在分级语块表11中对应的分数之和,作为该语句的语块评分。
其中,分级语块表11不仅仅包括单个单词,还包括由多个单词组成的词组,记录了语块的高级程度,越高级的语块分数越高。分级语块表11由专业英文教师人工构建,也可以通过其他专家经验得到。
步骤S10、计算候选单词的单词评分
候选单词集合中每个单词的单词统计评分和单词经验评分两部分加权求和得到该词的单词综合评分。
其中,单词统计评分和单词经验评分的权重可根据实际情况进行调整。在本实施例中,二者的权重由人工确定,分别为0.4和0.6,表示本实施例在选择好词时更看重专家经验。
步骤S11、选出好词集合;
将候选单词集合中的词,按照单词综合评分从高到低排列,依次将排序靠前的词选入到好词集合中。
其中,好词集合的大小可以根据实际情况进行调整。例如,好词集合的大小是候选单词集合的大小的0.2倍。
步骤S12、计算候选语句的语句评分;
候选语句集合中每个语句的单词统计评分、单词经验评分、从句统计评分、从句经验评分、语块评分这五部分评分加权求和得到该语句的语句综合评分。
其中,这五部分的权重可根据实际情况进行调整。其权重由人工确定,分别为单词统计评分0.15、单词经验评分0.25、句法结构统计评分0.15、句法结构经验评分0.25、语块评分0.2,表明在选择好句时更看重专家经验。
步骤S13、选出好句集合;
将候选语句集合中的语句,按照语句综合评分从高到低排序,依次将排序靠前的语句选入到好句集合中。
其中,好句集合的大小可以根据实际情况进行调整。例如,人工确定好句集合的大小为3。若候选语句集合的大小小于3,则候选语句全部选为好句;否则选择候选语句集合排序后的前三个语句作为好句。
本应用场景中使用的英语作文好词好句评价方法及***,通过计算一篇作文中单词的两个维度评分(单词统计评分和单词经验评分)的加权和来对单词进行评分,并依据单词评分来选出作文的好词集合;通过计算一篇作文中语句的五个维度得分(单词统计评分、单词经验评分、从句统计评分、从句经验评分、语块评分)的加权和来对语句进行评分,并依据语句评分来选出作文的好句集合。相比于传统的作文评分方法,该方案能客观、科学的找出作文的闪光词句,从词句的层面更细致的评价一篇作文。
在本公开的示例性实施方式中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时可实现本公开的上述的英文单词和语句筛选方法。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码;该程序产品可以存储在一个非易失性存储介质(可以是CD-ROM、U盘或者移动硬盘等)中或网络上;当所述程序产品在一台计算设备(可以是个人计算机、服务器、终端装置或者网络设备等)上运行时,所述程序代码用于使所述计算设备执行本公开中上述各示例性实施例中的方法步骤。
参见图12所示,根据本公开的实施方式的用于实现上述方法的程序产品1200,其可以采用便携式紧凑磁盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备(例如个人计算机、服务器、终端装置或者网络设备等)上运行。然而,本公开的程序产品不限于此。在本示例性实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或者多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。
可读存储介质例如可以为但不限于电、磁、光、电磁、红外线或半导体的***、装置或器件、或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任意可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户计算设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN)等)连接到用户计算设备;或者,可以连接到外部计算设备,例如利用因特网服务提供商来通过因特网连接。
在本公开的示例性实施方式中,还提供一种电子设备,所述电子设备包括至少一个处理器以及至少一个用于存储所述处理器的可执行指令的存储器;其中,所述处理器被配置为经由执行所述可执行指令来执行本公开中上述各示例性实施例中的方法步骤。
下面结合图13对本示例性实施方式中的电子设备1300进行描述。电子设备1300仅仅为一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
参见图13所示,电子设备1300以通用计算设备的形式表现。电子设备1300的组件可以包括但不限于:至少一个处理单元1310、至少一个存储单元1320、连接不同***组件(包括处理单元1310和存储单元1320)的总线1330、显示单元1340。
其中,存储单元1320存储有程序代码,所述程序代码可以被处理单元1310执行,使得处理单元1310执行本公开中上述各示例性实施例中的方法步骤。
存储单元1320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元1321(RAM)和/或高速缓存存储单元1322,还可以进一步包括只读存储单元1323(ROM)。
存储单元1320还可以包括具有一组(至少一个)程序模块1325的程序/实用工具1324,这样的程序模块包括但不限于:操作***、一个或者多个应用程序、其他程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用各种总线结构中的任意总线结构的局域总线。
电子设备1300也可以与一个或多个外部设备1400(例如键盘、指向设备、蓝牙设备等)通信,还可以与一个或者多个使得用户可以与该电子设备1300交互的设备通信,和/或与使得该电子设备1300能与一个或多个其他计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口1350进行。并且,电子设备1300还可以通过网络适配器1360与一个或者多个网络(例如局域网(LAN)、广域网(WAN)和/或公共网络,例如因特网)通信。如图13所示,网络适配器1360可以通过总线1330与电子设备1300的其他模块通信。应当明白,尽管图中未示出,可以结合电子设备1300使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
本领域技术人员能够理解,本公开的各个方面可以实现为***、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
上述所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中,如有可能,各实施例中所讨论的特征是可互换的。在上面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组件、材料等。在其它情况下,不详细示出或描述公知结构、材料或者操作以避免模糊本公开的各方面。
Claims (22)
1.一种英文单词筛选方法,其特征在于,包括:
获取待筛选的英文文本,并对所述英文文本做分词处理,得到多个候选单词;
分别获取各个候选单词的单词统计评分和单词经验评分;其中,所述单词统计评分与单词使用频率相关,所述单词经验评分与单词等级相关;所述单词统计评分是根据语料单词的使用频率、所有语料单词中使用频率的最大值、所有语料单词中使用频率的最小值以及单词评分调整系数计算得到的;所述单词经验评分是通过查询与单词等级相关的单词经验评分词典得到的,所述单词经验评分词典是基于现有的单词等级划分标准进行构建的;
对所述候选单词的单词统计评分和单词经验评分加权求和,得到所述候选单词的单词综合评分;
根据所述单词综合评分对所述候选单词进行筛选,得到预设数量的英文单词。
2.根据权利要求1所述的英文单词筛选方法,其特征在于,在分别获取各个候选单词的单词统计评分和单词经验评分之前,所述方法还包括:
对所述候选单词做词性标注,并根据词性标注结果对所述候选单词进行筛选,得到符合预设词性的候选单词。
3.根据权利要求2所述的英文单词筛选方法,其特征在于,所述预设词性为名词、动词、形容词和/或副词;其中,所述名词是除专有名词以外的普通名词。
4.根据权利要求1所述的英文单词筛选方法,其特征在于,在分别获取各个候选单词的单词统计评分和单词经验评分之前,所述方法还包括:
对所述候选单词做字符数标注,并根据字符数标注结果对所述候选单词进行筛选,得到符合预设字符数的候选单词。
5.根据权利要求1所述的英文单词筛选方法,其特征在于,所述分别获取各个候选单词的单词统计评分和单词经验评分,包括:
查询与单词使用频率相关的单词统计评分词典,得到各个候选单词的单词统计评分;
查询与单词等级相关的单词经验评分词典,得到各个候选单词的单词经验评分。
6.根据权利要求5所述的英文单词筛选方法,其特征在于,在查询与单词使用频率相关的单词统计评分词典之前,所述方法还包括:
获取英文语料库,并对所述英文语料库中的英文语料进行分词处理,得到多个语料单词;
统计各个语料单词在所有语料单词中的使用频率,并根据所述使用频率计算所述语料单词的单词统计评分;
建立所述语料单词与所述单词统计评分的映射关系,形成所述单词统计评分词典。
8.一种英文单词筛选装置,其特征在于,包括:
单词获取单元,被配置为获取待筛选的英文文本,并对所述英文文本做分词处理,得到多个候选单词;
单词评分获取单元,被配置为分别获取各个候选单词的单词统计评分和单词经验评分;其中,所述单词统计评分与单词使用频率相关,所述单词经验评分与单词等级相关;所述单词统计评分是根据语料单词的使用频率、所有语料单词中使用频率的最大值、所有语料单词中使用频率的最小值以及单词评分调整系数计算得到的;所述单词经验评分是通过查询与单词等级相关的单词经验评分词典得到的,所述单词经验评分词典是基于现有的单词等级划分标准进行构建的;
单词综合评分单元,被配置为对所述候选单词的单词统计评分和单词经验评分加权求和,得到所述候选单词的单词综合评分;
单词筛选单元,被配置为根据所述单词综合评分对所述候选单词进行筛选,得到预设数量的英文单词。
9.一种英文语句筛选方法,其特征在于,包括:
获取待筛选的英文文本,对所述英文文本做分句处理得到多个候选语句,并对所述候选语句做分块处理得到各个所述候选语句的组成单词以及语块;
对各个所述候选语句做句法分析得到句法分析树,并根据所述句法分析树得到各个所述候选语句中从句的从句标签;
针对各个所述候选语句,获取与所述从句标签相关的从句统计评分和从句经验评分,获取与所述组成单词相关的单词统计评分和单词经验评分,获取与所述语块相关的语块评分;其中,所述从句统计评分与从句标签对应从句结构的使用频率相关,所述从句经验评分与从句标签对应从句结构的复杂程度相关,所述语块评分与语块等级相关;所述从句统计评分是根据语料从句标签的使用频率、所有语料从句标签中使用频率的最大值、所有语料从句标签中使用频率的最小值以及语句评分调整系数计算得到的;所述从句经验评分是通过查询与从句复杂程度相关的从句经验评分词典得到的,所述从句经验评分词典是基于现有的英文等级划分标准进行构建的;
对所述从句统计评分、从句经验评分、单词统计评分、单词经验评分、语块评分加权求和得到所述候选语句的语句综合评分;
根据所述语句综合评分对所述候选语句进行筛选,得到预设数量的英文语句。
10.根据权利要求9所述的英文语句筛选方法,其特征在于,在对所述候选语句做分词处理得到各个所述候选语句的组成单词以及语块之前,所述方法还包括:
对所述候选语句做语法检测,并根据语法检测结果对所述候选语句进行筛选,得到语法正确的候选语句。
11.根据权利要求9所述的英文语句筛选方法,其特征在于,在获取与所述组成单词相关的单词统计评分和单词经验评分之前,所述方法还包括:
对所述组成单词做词性标注,并根据词性标注结果对所述组成单词进行筛选,得到符合预设词性的组成单词。
12.根据权利要求11所述的英文语句筛选方法,其特征在于,所述预设词性为名词、动词、形容词和/或副词;其中,所述名词是除专有名词以外的普通名词。
13.根据权利要求9所述的英文语句筛选方法,其特征在于,在获取与所述组成单词相关的单词统计评分和单词经验评分之前,所述方法还包括:
对所述组成单词做字符数标注,并根据字符数标注结果对所述组成单词进行筛选,得到符合预设字符数的组成单词。
14.根据权利要求9所述的英文语句筛选方法,其特征在于,所述获取与所述从句标签相关的从句统计评分和从句经验评分,包括:
查询与从句使用频率相关的从句统计评分词典,得到各个从句标签的从句统计评分,并以候选语句中各个从句标签的从句统计评分平均值作为所述候选语句的从句统计评分;
查询与从句复杂程度相关的从句经验评分词典,得到各个从句标签的从句经验评分,并以候选语句中各个从句标签的从句经验评分平均值作为所述候选语句的从句经验评分。
15.根据权利要求14所述的英文语句筛选方法,其特征在于,在查询与从句使用频率相关的从句统计评分词典之前,所述方法还包括:
获取英文语料库,并对所述英文语料库中的英文语料进行分句处理,得到多个语料语句;
对各个所述语料语句做句法分析得到句法分析树,并根据所述句法分析树得到各个所述语料语句中的从句的语料从句标签;
统计各个语料从句标签在所有语料从句标签中的使用频率,并根据所述使用频率计算各个所述语料从句标签的从句统计评分;
建立所述语料从句标签与所述从句统计评分的映射关系,形成所述从句统计评分词典。
17.根据权利要求9所述的英文语句筛选方法,其特征在于,所述获取与所述组成单词相关的单词统计评分和单词经验评分,包括:
查询与单词使用频率相关的单词统计评分词典,得到各个组成单词的单词统计评分,并以各个所述组成单词的单词统计评分平均值作为所述候选语句的单词统计评分;
查询与单词等级相关的单词经验评分词典,得到各个组成单词的单词经验评分,并以各个所述组成单词的单词经验评分平均值作为所述候选语句的单词经验评分。
18.根据权利要求17所述的英文语句筛选方法,其特征在于,在查询与单词使用频率相关的单词统计评分词典之前,所述方法还包括:
获取英文语料库,并对所述英文语料库中的英文语料进行分词处理,得到多个语料单词;
统计各个语料单词在所有语料单词中的使用频率,并根据所述使用频率计算所述语料单词的单词统计评分;
建立所述语料单词与所述单词统计评分的映射关系,形成所述单词统计评分词典。
20.一种英文语句筛选装置,其特征在于,包括:
语句获取单元,被配置为获取待筛选的英文文本,对所述英文文本做分句处理得到多个候选语句,并对所述候选语句做分词处理得到各个所述候选语句的组成单词以及语块;
从句标签获取单元,被配置为对各个所述候选语句做句法分析得到句法分析树,并根据所述句法分析树得到各个所述候选语句中从句的从句标签;
语句评分获取单元,被配置为针对各个所述候选语句,获取与所述从句标签相关的从句统计评分和从句经验评分,获取与所述组成单词相关的单词统计评分和单词经验评分,获取与所述语块相关的语块评分;其中,所述从句统计评分与从句标签对应从句结构的使用频率相关,所述从句经验评分与从句标签对应从句结构的复杂程度相关,所述语块评分与语块等级相关;所述从句统计评分是根据语料从句标签的使用频率、所有语料从句标签中使用频率的最大值、所有语料从句标签中使用频率的最小值以及语句评分调整系数计算得到的;所述从句经验评分是通过查询与从句复杂程度相关的从句经验评分词典得到的,所述从句经验评分词典是基于现有的英文等级划分标准进行构建的;
语句综合评分单元,被配置为对所述从句统计评分、从句经验评分、单词统计评分、单词经验评分、语块评分加权求和得到所述候选语句的语句综合评分;
语句筛选单元,被配置为根据所述语句综合评分对所述候选语句进行筛选,得到预设数量的英文语句。
21.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7或9-19中任意一项所述的方法。
22.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1-7或9-19中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811166650.8A CN109376355B (zh) | 2018-10-08 | 2018-10-08 | 英文单词和语句筛选方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811166650.8A CN109376355B (zh) | 2018-10-08 | 2018-10-08 | 英文单词和语句筛选方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109376355A CN109376355A (zh) | 2019-02-22 |
CN109376355B true CN109376355B (zh) | 2023-07-04 |
Family
ID=65403073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811166650.8A Active CN109376355B (zh) | 2018-10-08 | 2018-10-08 | 英文单词和语句筛选方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109376355B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767709A (zh) * | 2019-03-27 | 2020-10-13 | 武汉慧人信息科技有限公司 | 一种对英文文本进行纠错及句法分析的逻辑方法 |
CN113095071A (zh) * | 2021-04-28 | 2021-07-09 | 杭州菲助科技有限公司 | 将英文视频或文本难度对标至国内年级的***和方法 |
CN113205084B (zh) * | 2021-07-05 | 2021-10-08 | 北京一起教育科技有限责任公司 | 一种英语听写批改方法、装置和电子设备 |
CN114547281B (zh) * | 2022-02-23 | 2024-07-05 | 北京林业大学 | 一种基于词汇和语法的英文文本筛选方法及*** |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0635959A (ja) * | 1992-07-20 | 1994-02-10 | Csk Corp | 構文解析システム及び構文解析制御方式 |
JP3116159U (ja) * | 2005-06-02 | 2005-12-02 | 良和 田中 | 中学英単語学習教材 |
US7552045B2 (en) * | 2006-12-18 | 2009-06-23 | Nokia Corporation | Method, apparatus and computer program product for providing flexible text based language identification |
CN103294660B (zh) * | 2012-02-29 | 2015-09-16 | 张跃 | 一种英语作文自动评分方法及*** |
US9424245B2 (en) * | 2012-05-16 | 2016-08-23 | Personalweb Technologies, LLC | Universal language classification devices, systems, and methods |
CN108519974A (zh) * | 2018-03-31 | 2018-09-11 | 华南理工大学 | 英语作文语法错误自动检测与分析方法 |
-
2018
- 2018-10-08 CN CN201811166650.8A patent/CN109376355B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109376355A (zh) | 2019-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Martinc et al. | Supervised and unsupervised neural approaches to text readability | |
CN109376355B (zh) | 英文单词和语句筛选方法、装置、存储介质及电子设备 | |
Siyanova‐Chanturia et al. | Multi‐word expressions in second language writing: A large‐scale longitudinal learner corpus study | |
CN111104789B (zh) | 文本评分方法、装置和*** | |
Leacock et al. | Automated grammatical error detection for language learners | |
US9836985B2 (en) | Systems and methods for automated scoring of textual responses to picture-based items | |
CN110852087A (zh) | 中文纠错方法和装置、存储介质及电子装置 | |
CN106796594B (zh) | 从句子生成高级别问题 | |
CN103823794B (zh) | 一种关于英语阅读理解测试疑问式简答题的自动化命题方法 | |
US20110270603A1 (en) | Method and Apparatus for Language Processing | |
US20080183463A1 (en) | Cooccurrence and constructions | |
US20200193095A1 (en) | Method, apparatus, device and storage medium for evaluating quality of answer | |
Dürlich et al. | EFLLex: A graded lexical resource for learners of English as a foreign language | |
CN110083837B (zh) | 一种关键词生成方法及装置 | |
CN108280065B (zh) | 一种外文文本评价方法及装置 | |
CN111832281A (zh) | 作文评分方法、装置、计算机设备及计算机可读存储介质 | |
CN113836894B (zh) | 多维度英语作文评分方法、装置及可读存储介质 | |
Dunn et al. | Stability of syntactic dialect classification over space and time | |
KR102251554B1 (ko) | 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법 | |
Imperial et al. | Application of Lexical Features Towards Improvement of Filipino Readability Identification of Children's Literature | |
CN113139043A (zh) | 问答样本生成方法、装置、电子设备和存储介质 | |
Abe | Frequency change patterns across proficiency levels in Japanese EFL learner speech | |
Alexopoulou et al. | Classifying intermediate Learner English: a data-driven approach to learner corpora | |
Bailey et al. | DATA MINING WITH NATURAL LANGUAGE PROCESSING AND CORPUS LINGUISTICS: UNLOCKING ACCESS TO SCHOOL CHILDREN'S LANGUAGE IN DIVERSE CONTEXTS TO IMPROVE INSTRUCTIONAL AND ASSESSMENT PRACTICES | |
Hong et al. | Linguistic Feature Analysis of CEFR Labeling Reliability and Validity in Language Textbooks. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |