CN109726392B - 一种基于大数据的智能语言认知信息处理***及方法 - Google Patents

一种基于大数据的智能语言认知信息处理***及方法 Download PDF

Info

Publication number
CN109726392B
CN109726392B CN201811521939.7A CN201811521939A CN109726392B CN 109726392 B CN109726392 B CN 109726392B CN 201811521939 A CN201811521939 A CN 201811521939A CN 109726392 B CN109726392 B CN 109726392B
Authority
CN
China
Prior art keywords
module
verification
data
language
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811521939.7A
Other languages
English (en)
Other versions
CN109726392A (zh
Inventor
尹观海
方燕红
王文烨
李小东
陈佳
张明宝
廖玲萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinggangshan University
Original Assignee
Jinggangshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinggangshan University filed Critical Jinggangshan University
Priority to CN201811521939.7A priority Critical patent/CN109726392B/zh
Publication of CN109726392A publication Critical patent/CN109726392A/zh
Application granted granted Critical
Publication of CN109726392B publication Critical patent/CN109726392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明属于大数据领域,公开了一种基于大数据的智能语言认知信息处理***及方法;通过语音与文字输入形式将语言进行输入;利用词语、成语、谚语、句型对语言采用最佳一致逼近方法进行词语提取,词语提取后进行转化;对转化内容与***内存在的句意,采用肖维涅算法进行核对,对转化内容进行验证;验证后通过输入到微处理器;验证失败后重新进行提取与转化,合格后出入到微处理器;最终对信息采用PURE-LET的小波域去噪进行保存并通过扬声器进行输出。本发明可以使得智能语言认知***的出错率大大降低,并且可以进行多种语言转化,通过记忆功能可以提高转化效率。

Description

一种基于大数据的智能语言认知信息处理***及方法
技术领域
本发明属于大数据领域,尤其涉及一种基于大数据的智能语言认知信息处理***及方法。
背景技术
语言就广义而言,是采用一套具有共同处理规则来进行表达的沟通指令,指令会以视觉、声音或者触觉方式来传递。严格来说,语言是指人类沟通所使用的指令-自然语言。所有人都是通过学习从而获得的语言能力,语言的目的是交流观念、意见、思想等。语言学就是从人类研究语言分类与规则而发展出来的。语言是人与人之间的一种交流方式,人们彼此的交往离不开语言。尽管通过图片、动作、表情等可以传递人们的思想,但是语言是其中最重要的,也是最方便的媒介。当人类发现了某些动物能够以某种方式沟通,就诞生了动物语言的概念。到了电脑的诞生,人类需要给予电脑指令。这种“单向沟通”就成了电脑语言。但是电脑在直接理解人类说出的语言时并不能很好的认知,目前计算机在智能语言认知方面出错率高,并且有很多词语无法识别,只能进行简单单一的识别。
综上所述,现有技术存在的问题是:
目前计算机在智能语言认知方面出错率高,并且有很多词语无法识别,只能进行简单单一的识别。
现有技术中无法对对词语进行准确的提取;现有技术中转化内容不能有效去除错误或赘余信息,延长校对时间,降低核对效率,无法实现对转化内容的高效验证;现有技术中信息易受到外界因素的干扰,降低信息质量,造成误差,不利于扬声器进行准确无误的输出。
发明内容
针对现有技术存在的问题,本发明提供了一种基于大数据的智能语言认知信息处理***及方法。
本发明是这样实现的,一种基于大数据的智能语言认知信息处理方法,所述基于大数据的智能语言认知信息处理方法包括:
第一步,通过语音与文字输入形式将语言进行输入;
第二步,利用词语、成语、谚语、句型对语言采用最佳一致逼近方法进行词语提取,词语提取后进行转化;
第三步,对转化内容与***内存在的句意,采用肖维涅算法进行核对,对转化内容进行验证;
第四步,验证后通过输入到微处理器;验证失败后重新进行提取与转化,合格后出入到微处理器;最终对信息采用PURE-LET的小波域去噪进行保存并通过扬声器进行输出。
进一步,所述第二步中利用词语、成语、谚语、句型对于语言采用最佳一致逼近方法进行词语提取,具体算法为:f(x)∈C[a,b],pn(x)是次数不超过n的全体多项式构成的集合;如果:
则称p*(x)是f(x)在[a,b]上的最佳一致逼近多项式,也称极小化极大多项式;
采用里米兹算法求取最佳多项式;根据切比雪夫定理求解:
其中:ak(k=0,1,…n)为待求多项式系数;ρ为最佳逼近值;xi用反复校正法取得。
进一步,所述第三步中对转化内容采用肖维涅算法进行核对,实现对转化内容的高效验证;具有算法为:
利用数据样本集合S0={x0,x1,…,xn},n个样本数据中含有m个误差数据样本点,f0(x)是反映这组数据样本基本特征的函数,如下:
式中:n是一组数据的个体数;
Di=|xi-f(xi)|;
用来衡量样本点数据xi偏离函数关系的程度,Di越大,样本点成为误差数据的可能性越大;对n个数据求Di最大值;
肖维涅算法剔除Di值最大的样本点j,建立新的样本集合S1={S0–xj},对剩余的数据进行重复运算,数据满足运算终止条件时,剔除的m个样本点就是误差数据。
本发明的另一目的在于提供一种实现所述基于大数据的智能语言认知信息处理方法的基于大数据的智能语言认知信息处理***,所述基于大数据的智能语言认知信息处理***包括:语言接收模块、文字输入模块、词语提取模块、转化模块、验证模块、微处理器、储存模块、扬声器模块、大数据;
大数据给词语提取模块、验证模块提供知识支持;语音接收模块与文字输入模块进行输入后通过词语提取模块进行提取,将词语提取模块后进行转化,转化模块将转化内容输入到验证模块;
验证模块验证通过后输入到微处理器,验证失败后返回词语提取模块进行重新转化;
微处理器将转化信息保存到储存模块;微处理器将信息通过扬声器模块进行输出。
本发明的另一目的在于提供一种应用所述基于大数据的智能语言认知信息处理方法的余元认知平台。
本发明的优点及积极效果为:设置有验证模块,验证模块将转化模块输出的信息与大数据内信息进行验证,若检验转化有误,则重新进行提取转化,使得***可以有正确的认知,避免了出错;该发明设置有储存模块,储存模块可以将转化后的语言进行记录,进而使得转化***产生记忆,使得下次转化时更加的迅速。该发明设置有大数据,可以使得***的词汇来源更加的广阔,可以识别多种语言,可以查询俗语成语等,出错率低。可以使得智能语言认知***的出错率大大降低,并且可以进行多种语言转化,通过记忆功能可以提高转化效率。
本发明利用词语、成语、谚语、句型等对于语言采用最佳一致逼近方法进行词语提取,提高词语提取的准确度;本发明对转化内容采用肖维涅算法进行核对,有效去除错误或赘余信息,提高核对效率,实现对转化内容的高效验证;本发明对信息采用PURE-LET的小波域去噪进行保存,有效避免外界因素的干扰,保证信息质量,有利于扬声器进行准确无误的输出。
附图说明
图1是本发明实施例提供的基于大数据的智能语言认知信息处理方法流程图。
图2是本发明实施例提供的基于大数据的智能语言认知信息处理***结构示意图;
图中:1、语言接收模块;2、文字输入模块;3、词语提取模块;4、转化模块;5、验证模块;6、微处理器;7、储存模块;8、扬声器模块;9、大数据。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图1详细说明如下。
下面结合附图对本发明的结构作详细的描述。
如图1所示,本发明实施例提供的基于大数据的智能语言认知信息处理方法,具体包括以下步骤:
S101:通过语音与文字输入形式将语言进行输入;
S102:利用词语、成语、谚语、句型等对于语言采用最佳一致逼近方法进行词语提取,词语提取后进行转化;
S103:对转化内容与***内存在的句意,采用肖维涅算法进行核对,对转化内容进行验证;
S104:验证后通过输入到微处理器;验证失败后重新进行提取与转化,合格后出入到微处理器;最终对信息采用PURE-LET的小波域去噪进行保存并通过扬声器进行输出。
步骤S102中,本发明实施例提供的利用词语、成语、谚语、句型等对于语言采用最佳一致逼近方法进行词语提取,提高词语提取的准确度;具体算法为:
设f(x)∈C[a,b],pn(x)是次数不超过n的全体多项式构成的集合;如果
则称p*(x)是f(x)在[a,b]上的最佳一致逼近多项式,也称极小化极大多项式;
采用里米兹算法求取最佳多项式;根据切比雪夫定理求解
其中:ak(k=0,1,…n)为待求多项式系数;ρ为最佳逼近值;xi用反复校正法取得。
步骤S103中,本发明实施例提供的对转化内容采用肖维涅算法进行核对,有效去除错误或赘余信息,提高核对效率,实现对转化内容的高效验证;具有算法为:
利用数据样本集合S0={x0,x1,…,xn},n个样本数据中含有m个误差数据样本
点,f0(x)是反映这组数据样本基本特征的函数,如下:
式中:n是一组数据的个体数;
Di=|xi-f(xi)|
用来衡量样本点数据xi偏离函数关系的程度,Di越大,样本点成为误差数据的可能性越大;对n个数据求Di最大值;
肖维涅算法剔除Di值最大的样本点j,建立新的样本集合S1={S0-xj},对剩余的数据进行重复运算,数据满足运算终止条件时,剔除的m个样本点就是误差数据。
步骤S103中,本发明实施例提供的对信息采用PURE-LET的小波域去噪进行保存,有效避免外界因素的干扰,保证信息质量,有利于扬声器进行准确无误的输出;具体算法为:
在每一尺度下的信息将小波系数估计均写成一组基本阈值函数的线性组合:
并通过PURE的最小化来确定系数向量a=[a1,…,aM]T
令θ(d,s)=θj(di,sj)为无噪声小波系数δ=δj的一个估计;函数θ+(d,s)和θ-(d,s)如下:
其中,为/>的标准基,除ek(k)=外其余元素均为0;则随机变量PUREj为子带j下MSE的无偏估计,即E{PUREj}=E{MSEj};
通过PURE的最小化,来计算式(2)中小波估计的线性组合参数;将式(2)代入式(3),并省略自变量(d,s),有
如图2所示,本发明实施例提供的基于大数据的智能语言认知信息处理***,具体包括:
语言接收模块1、文字输入模块2、词语提取模块3、转化模块4、验证模块5、微处理器6、储存模块7、扬声器模块8、大数据9。
大数据9给词语提取模块3、验证模块4提供了知识支持;语音接收模块1与文字输入模块2进行输入后通过词语提取模块3进行提取,将词语提取模块3后进行转化,转化模块4将转化内容输入到验证模块5。
本发明实施例提供的验证模块5验证通过后输入到微处理器6,验证失败后返回词语提取模3块进行重新转化。
本发明实施例提供的微处理器6将转化信息保存到储存模块7。
本发明实施例提供的微处理器6将信息通过扬声器模块8进行输出。
本发明的工作原理:通过语音接收模块1与文字输入模块2进行输入,词语提取模块3通过大数据9内的词语、成语、谚语、句型等进行提取,词语提取后进行通过转化模块4转化,将转化内容输入到验证模块5进行验证,验证模块5接收大数据9内存在的句意进行核对,验证模块5验证通过后输入到微处理器6,验证失败后返回词语提取模块3转化提取方式进行重新转化,微处理器6将信息保存到储存模块7并通过扬声器模块8进行输出。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (3)

1.一种基于大数据的智能语言认知信息处理方法,其特征在于,所述基于大数据的智能语言认知信息处理方法包括:
第一步,通过语音与文字输入形式将语言进行输入;
第二步,利用词语、成语、谚语、句型对语言采用最佳一致逼近方法进行词语提取,词语提取后进行转化;
第三步,对转化内容与***内存在的句意,采用肖维涅算法进行核对,对转化内容进行验证;
第四步,验证后通过输入到微处理器;验证失败后重新进行提取与转化,合格后输入到微处理器;最终对信息采用PURE-LET的小波域去噪进行保存并通过扬声器进行输出;
所述第二步中利用词语、成语、谚语、句型对于语言采用最佳一致逼近方法进行词语提取,具体算法为:f(x)∈C[a,b],pn(x)是次数不超过n的全体多项式构成的集合;如果:
则称p*(x)是f(x)在[a,b]上的最佳一致逼近多项式,也称极小化极大多项式;
采用里米兹算法求取最佳多项式;根据切比雪夫定理求解:
其中:ak(k=0,1,…n)为待求多项式系数;ρ为最佳逼近值;xi用反复校正法取得;
所述第三步中对转化内容采用肖维涅算法进行核对,实现对转化内容的高效验证;具有算法为:
利用数据样本集合S0={x0,x1,…,xn},n个样本数据中含有m个误差数据样本点,f0(x)是反映这组数据样本基本特征的函数,如下:
式中:n是一组数据的个体数;
Di=|xi-f(xi)|;
用来衡量样本点数据xi偏离函数关系的程度,Di越大,样本点成为误差数据的可能性越大;对n个数据求Di最大值;
肖维涅算法剔除Di值最大的样本点j,建立新的样本集合S1={S0–xj},对剩余的数据进行重复运算,数据满足运算终止条件时,剔除的m个样本点就是误差数据。
2.一种实现权利要求1所述基于大数据的智能语言认知信息处理方法的基于大数据的智能语言认知信息处理***,其特征在于,所述基于大数据的智能语言认知信息处理***包括:语言接收模块、文字输入模块、词语提取模块、转化模块、验证模块、微处理器、储存模块、扬声器模块、大数据;
大数据给词语提取模块、验证模块提供知识支持;语音接收模块与文字输入模块进行输入后通过词语提取模块进行提取,将词语提取模块后进行转化,转化模块将转化内容输入到验证模块;
验证模块验证通过后输入到微处理器,验证失败后返回词语提取模块进行重新转化;
微处理器将转化信息保存到储存模块;微处理器将信息通过扬声器模块进行输出。
3.一种应用权利要求1所述基于大数据的智能语言认知信息处理方法的语言认知平台。
CN201811521939.7A 2018-12-13 2018-12-13 一种基于大数据的智能语言认知信息处理***及方法 Active CN109726392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811521939.7A CN109726392B (zh) 2018-12-13 2018-12-13 一种基于大数据的智能语言认知信息处理***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811521939.7A CN109726392B (zh) 2018-12-13 2018-12-13 一种基于大数据的智能语言认知信息处理***及方法

Publications (2)

Publication Number Publication Date
CN109726392A CN109726392A (zh) 2019-05-07
CN109726392B true CN109726392B (zh) 2023-10-10

Family

ID=66294925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811521939.7A Active CN109726392B (zh) 2018-12-13 2018-12-13 一种基于大数据的智能语言认知信息处理***及方法

Country Status (1)

Country Link
CN (1) CN109726392B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221704A (zh) * 2007-01-12 2008-07-16 戴献东 电子语言学习策略
CN101604204A (zh) * 2009-07-09 2009-12-16 北京科技大学 智能情感机器人分布式认知技术
CN104778254A (zh) * 2015-04-20 2015-07-15 北京蓝色光标品牌管理顾问股份有限公司 一种非参数的话题自动标注的分布式***和标注方法
CN105494230A (zh) * 2015-09-30 2016-04-20 常州大学怀德学院 一种水产养殖智能定向增氧方法及其装置
CN107123068A (zh) * 2017-04-26 2017-09-01 北京航空航天大学 一种面向程序设计语言课程个性化学习效果分析***及方法
CN107273361A (zh) * 2017-06-21 2017-10-20 河南工业大学 基于广义一般二型模糊集合的词计算方法及其装置
CN107741295A (zh) * 2017-09-15 2018-02-27 江苏大学 一种mens电容式气压传感器测试标定装置及方法
CN207541938U (zh) * 2017-11-08 2018-06-26 延边大学 一种自然语言智能交互机
CN108537332A (zh) * 2018-04-12 2018-09-14 合肥工业大学 一种基于Remez算法的Sigmoid函数硬件高效率实现方法
CN111597790A (zh) * 2020-05-25 2020-08-28 郑州轻工业大学 一种基于人工智能的自然语言处理***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9275636B2 (en) * 2012-05-03 2016-03-01 International Business Machines Corporation Automatic accuracy estimation for audio transcriptions

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221704A (zh) * 2007-01-12 2008-07-16 戴献东 电子语言学习策略
CN101604204A (zh) * 2009-07-09 2009-12-16 北京科技大学 智能情感机器人分布式认知技术
CN104778254A (zh) * 2015-04-20 2015-07-15 北京蓝色光标品牌管理顾问股份有限公司 一种非参数的话题自动标注的分布式***和标注方法
CN105494230A (zh) * 2015-09-30 2016-04-20 常州大学怀德学院 一种水产养殖智能定向增氧方法及其装置
CN107123068A (zh) * 2017-04-26 2017-09-01 北京航空航天大学 一种面向程序设计语言课程个性化学习效果分析***及方法
CN107273361A (zh) * 2017-06-21 2017-10-20 河南工业大学 基于广义一般二型模糊集合的词计算方法及其装置
CN107741295A (zh) * 2017-09-15 2018-02-27 江苏大学 一种mens电容式气压传感器测试标定装置及方法
CN207541938U (zh) * 2017-11-08 2018-06-26 延边大学 一种自然语言智能交互机
CN108537332A (zh) * 2018-04-12 2018-09-14 合肥工业大学 一种基于Remez算法的Sigmoid函数硬件高效率实现方法
CN111597790A (zh) * 2020-05-25 2020-08-28 郑州轻工业大学 一种基于人工智能的自然语言处理***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Austin F. Frank等.Speaking Rationally:Uniform Information Density as an Optimal Strategy for Language Production.《Proceedings of the Annual Meeting of the Cognitive Science Society》.2008,939-944. *
吴晶等.计算机辅助模式下外语自主学习者的认知.《现代教育技术》.2008,第第18卷卷(第第18卷期),37-41. *

Also Published As

Publication number Publication date
CN109726392A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN111128394B (zh) 医疗文本语义识别方法、装置、电子设备及可读存储介质
CN111401084B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
JP6832501B2 (ja) 意味生成方法、意味生成装置及びプログラム
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
CN111143530B (zh) 一种智能答复方法及装置
EP3620994A1 (en) Methods, apparatuses, devices, and computer-readable storage media for determining category of entity
CN110765785A (zh) 基于神经网络的中英翻译方法、及其相关设备
CN116629275A (zh) 一种基于大数据的智能决策支持***及方法
CN106997342A (zh) 基于多轮交互的意图识别方法和装置
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN113657098A (zh) 文本纠错方法、装置、设备及存储介质
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN115730590A (zh) 意图识别方法以及相关设备
CN113705207A (zh) 语法错误识别方法及装置
CN116364072B (zh) 一种基于人工智能的教育信息监管方法
CN109726392B (zh) 一种基于大数据的智能语言认知信息处理***及方法
WO2023116572A1 (zh) 一种词句生成方法及相关设备
CN114048319B (zh) 基于注意力机制的幽默文本分类方法、装置、设备、介质
CN115858776A (zh) 一种变体文本分类识别方法、***、存储介质和电子设备
Hladek et al. Unsupervised spelling correction for Slovak
CN111310452A (zh) 一种分词方法和装置
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质
CN115080748A (zh) 一种基于带噪标签学习的弱监督文本分类方法和装置
CN114974310A (zh) 基于人工智能的情感识别方法、装置、计算机设备及介质
CN111538814A (zh) 一种语义理解中协议支持自定义标准化的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant