CN109726392B

CN109726392B - 一种基于大数据的智能语言认知信息处理***及方法

Info

Publication number: CN109726392B
Application number: CN201811521939.7A
Authority: CN
Inventors: 尹观海; 方燕红; 王文烨; 李小东; 陈佳; 张明宝; 廖玲萍
Original assignee: Jinggangshan University
Current assignee: Jinggangshan University
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2023-10-10
Anticipated expiration: 2038-12-13
Also published as: CN109726392A

Abstract

本发明属于大数据领域，公开了一种基于大数据的智能语言认知信息处理***及方法；通过语音与文字输入形式将语言进行输入；利用词语、成语、谚语、句型对语言采用最佳一致逼近方法进行词语提取，词语提取后进行转化；对转化内容与***内存在的句意，采用肖维涅算法进行核对，对转化内容进行验证；验证后通过输入到微处理器；验证失败后重新进行提取与转化，合格后出入到微处理器；最终对信息采用PURE－LET的小波域去噪进行保存并通过扬声器进行输出。本发明可以使得智能语言认知***的出错率大大降低，并且可以进行多种语言转化，通过记忆功能可以提高转化效率。

Description

一种基于大数据的智能语言认知信息处理***及方法

技术领域

本发明属于大数据领域，尤其涉及一种基于大数据的智能语言认知信息处理***及方法。

背景技术

语言就广义而言，是采用一套具有共同处理规则来进行表达的沟通指令，指令会以视觉、声音或者触觉方式来传递。严格来说，语言是指人类沟通所使用的指令－自然语言。所有人都是通过学习从而获得的语言能力，语言的目的是交流观念、意见、思想等。语言学就是从人类研究语言分类与规则而发展出来的。语言是人与人之间的一种交流方式，人们彼此的交往离不开语言。尽管通过图片、动作、表情等可以传递人们的思想，但是语言是其中最重要的，也是最方便的媒介。当人类发现了某些动物能够以某种方式沟通，就诞生了动物语言的概念。到了电脑的诞生，人类需要给予电脑指令。这种“单向沟通”就成了电脑语言。但是电脑在直接理解人类说出的语言时并不能很好的认知，目前计算机在智能语言认知方面出错率高，并且有很多词语无法识别，只能进行简单单一的识别。

综上所述，现有技术存在的问题是：

目前计算机在智能语言认知方面出错率高，并且有很多词语无法识别，只能进行简单单一的识别。

现有技术中无法对对词语进行准确的提取；现有技术中转化内容不能有效去除错误或赘余信息，延长校对时间，降低核对效率，无法实现对转化内容的高效验证；现有技术中信息易受到外界因素的干扰，降低信息质量，造成误差，不利于扬声器进行准确无误的输出。

发明内容

针对现有技术存在的问题，本发明提供了一种基于大数据的智能语言认知信息处理***及方法。

本发明是这样实现的，一种基于大数据的智能语言认知信息处理方法，所述基于大数据的智能语言认知信息处理方法包括：

第一步，通过语音与文字输入形式将语言进行输入；

第二步，利用词语、成语、谚语、句型对语言采用最佳一致逼近方法进行词语提取，词语提取后进行转化；

第三步，对转化内容与***内存在的句意，采用肖维涅算法进行核对，对转化内容进行验证；

第四步，验证后通过输入到微处理器；验证失败后重新进行提取与转化，合格后出入到微处理器；最终对信息采用PURE－LET的小波域去噪进行保存并通过扬声器进行输出。

进一步，所述第二步中利用词语、成语、谚语、句型对于语言采用最佳一致逼近方法进行词语提取，具体算法为：f(x)∈C[a,b],p_n(x)是次数不超过n的全体多项式构成的集合；如果：

则称p*(x)是f(x)在[a,b]上的最佳一致逼近多项式，也称极小化极大多项式；

采用里米兹算法求取最佳多项式；根据切比雪夫定理求解：

其中：ak(k＝0,1,…n)为待求多项式系数；ρ为最佳逼近值；x_i用反复校正法取得。

进一步，所述第三步中对转化内容采用肖维涅算法进行核对，实现对转化内容的高效验证；具有算法为：

利用数据样本集合S₀＝{x₀，x₁，…，x_n}，n个样本数据中含有m个误差数据样本点，f₀(x)是反映这组数据样本基本特征的函数，如下：

式中：n是一组数据的个体数；

D_i＝|x_i-f(x_i)|；

用来衡量样本点数据x_i偏离函数关系的程度，D_i越大，样本点成为误差数据的可能性越大；对n个数据求D_i最大值；

肖维涅算法剔除D_i值最大的样本点j，建立新的样本集合S₁＝{S₀–x_j}，对剩余的数据进行重复运算，数据满足运算终止条件时，剔除的m个样本点就是误差数据。

本发明的另一目的在于提供一种实现所述基于大数据的智能语言认知信息处理方法的基于大数据的智能语言认知信息处理***，所述基于大数据的智能语言认知信息处理***包括：语言接收模块、文字输入模块、词语提取模块、转化模块、验证模块、微处理器、储存模块、扬声器模块、大数据；

大数据给词语提取模块、验证模块提供知识支持；语音接收模块与文字输入模块进行输入后通过词语提取模块进行提取，将词语提取模块后进行转化，转化模块将转化内容输入到验证模块；

验证模块验证通过后输入到微处理器，验证失败后返回词语提取模块进行重新转化；

微处理器将转化信息保存到储存模块；微处理器将信息通过扬声器模块进行输出。

本发明的另一目的在于提供一种应用所述基于大数据的智能语言认知信息处理方法的余元认知平台。

本发明的优点及积极效果为：设置有验证模块，验证模块将转化模块输出的信息与大数据内信息进行验证，若检验转化有误，则重新进行提取转化，使得***可以有正确的认知，避免了出错；该发明设置有储存模块，储存模块可以将转化后的语言进行记录，进而使得转化***产生记忆，使得下次转化时更加的迅速。该发明设置有大数据，可以使得***的词汇来源更加的广阔，可以识别多种语言，可以查询俗语成语等，出错率低。可以使得智能语言认知***的出错率大大降低，并且可以进行多种语言转化，通过记忆功能可以提高转化效率。

本发明利用词语、成语、谚语、句型等对于语言采用最佳一致逼近方法进行词语提取，提高词语提取的准确度；本发明对转化内容采用肖维涅算法进行核对，有效去除错误或赘余信息，提高核对效率，实现对转化内容的高效验证；本发明对信息采用PURE－LET的小波域去噪进行保存，有效避免外界因素的干扰，保证信息质量，有利于扬声器进行准确无误的输出。

附图说明

图1是本发明实施例提供的基于大数据的智能语言认知信息处理方法流程图。

图2是本发明实施例提供的基于大数据的智能语言认知信息处理***结构示意图；

图中：1、语言接收模块；2、文字输入模块；3、词语提取模块；4、转化模块；5、验证模块；6、微处理器；7、储存模块；8、扬声器模块；9、大数据。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图1详细说明如下。

下面结合附图对本发明的结构作详细的描述。

如图1所示，本发明实施例提供的基于大数据的智能语言认知信息处理方法，具体包括以下步骤：

S101：通过语音与文字输入形式将语言进行输入；

S102：利用词语、成语、谚语、句型等对于语言采用最佳一致逼近方法进行词语提取，词语提取后进行转化；

S103：对转化内容与***内存在的句意，采用肖维涅算法进行核对，对转化内容进行验证；

S104：验证后通过输入到微处理器；验证失败后重新进行提取与转化，合格后出入到微处理器；最终对信息采用PURE－LET的小波域去噪进行保存并通过扬声器进行输出。

步骤S102中，本发明实施例提供的利用词语、成语、谚语、句型等对于语言采用最佳一致逼近方法进行词语提取，提高词语提取的准确度；具体算法为：

设f(x)∈C[a,b],p_n(x)是次数不超过n的全体多项式构成的集合；如果

采用里米兹算法求取最佳多项式；根据切比雪夫定理求解

步骤S103中，本发明实施例提供的对转化内容采用肖维涅算法进行核对，有效去除错误或赘余信息，提高核对效率，实现对转化内容的高效验证；具有算法为：

利用数据样本集合S₀＝{x₀，x₁，…，x_n}，n个样本数据中含有m个误差数据样本

点，f₀(x)是反映这组数据样本基本特征的函数，如下：

式中：n是一组数据的个体数；

D_i＝|x_i-f(x_i)|

肖维涅算法剔除D_i值最大的样本点j，建立新的样本集合S₁＝{S₀-x_j}，对剩余的数据进行重复运算，数据满足运算终止条件时，剔除的m个样本点就是误差数据。

步骤S103中，本发明实施例提供的对信息采用PURE-LET的小波域去噪进行保存，有效避免外界因素的干扰，保证信息质量，有利于扬声器进行准确无误的输出；具体算法为：

在每一尺度下的信息将小波系数估计均写成一组基本阈值函数的线性组合：

并通过PURE的最小化来确定系数向量a＝[a₁，…，a_M]^T；

令θ(d，s)＝θ^j(dⁱ，s^j)为无噪声小波系数δ＝δ^j的一个估计；函数θ⁺(d，s)和θ^-(d，s)如下：

其中，为/>的标准基，除e_k(k)＝外其余元素均为0；则随机变量PURE_j为子带j下MSE的无偏估计，即E{PURE_j}＝E{MSE_j}；

通过PURE的最小化，来计算式(2)中小波估计的线性组合参数；将式(2)代入式(3)，并省略自变量(d，s)，有

如图2所示，本发明实施例提供的基于大数据的智能语言认知信息处理***，具体包括：

语言接收模块1、文字输入模块2、词语提取模块3、转化模块4、验证模块5、微处理器6、储存模块7、扬声器模块8、大数据9。

大数据9给词语提取模块3、验证模块4提供了知识支持；语音接收模块1与文字输入模块2进行输入后通过词语提取模块3进行提取，将词语提取模块3后进行转化，转化模块4将转化内容输入到验证模块5。

本发明实施例提供的验证模块5验证通过后输入到微处理器6，验证失败后返回词语提取模3块进行重新转化。

本发明实施例提供的微处理器6将转化信息保存到储存模块7。

本发明实施例提供的微处理器6将信息通过扬声器模块8进行输出。

本发明的工作原理：通过语音接收模块1与文字输入模块2进行输入，词语提取模块3通过大数据9内的词语、成语、谚语、句型等进行提取，词语提取后进行通过转化模块4转化，将转化内容输入到验证模块5进行验证，验证模块5接收大数据9内存在的句意进行核对，验证模块5验证通过后输入到微处理器6，验证失败后返回词语提取模块3转化提取方式进行重新转化，微处理器6将信息保存到储存模块7并通过扬声器模块8进行输出。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于大数据的智能语言认知信息处理方法，其特征在于，所述基于大数据的智能语言认知信息处理方法包括：

第一步，通过语音与文字输入形式将语言进行输入；

第四步，验证后通过输入到微处理器；验证失败后重新进行提取与转化，合格后输入到微处理器；最终对信息采用PURE－LET的小波域去噪进行保存并通过扬声器进行输出；

所述第二步中利用词语、成语、谚语、句型对于语言采用最佳一致逼近方法进行词语提取，具体算法为：f(x)∈C[a,b],p_n(x)是次数不超过n的全体多项式构成的集合；如果：

则称p^*(x)是f(x)在[a,b]上的最佳一致逼近多项式，也称极小化极大多项式；

采用里米兹算法求取最佳多项式；根据切比雪夫定理求解：

其中：a_k(k＝0,1,…n)为待求多项式系数；ρ为最佳逼近值；x_i用反复校正法取得；

所述第三步中对转化内容采用肖维涅算法进行核对，实现对转化内容的高效验证；具有算法为：

式中：n是一组数据的个体数；

D_i＝|x_i-f(x_i)|；

2.一种实现权利要求1所述基于大数据的智能语言认知信息处理方法的基于大数据的智能语言认知信息处理***，其特征在于，所述基于大数据的智能语言认知信息处理***包括：语言接收模块、文字输入模块、词语提取模块、转化模块、验证模块、微处理器、储存模块、扬声器模块、大数据；

3.一种应用权利要求1所述基于大数据的智能语言认知信息处理方法的语言认知平台。