CN107704453B - 一种文字语义分析方法、文字语义分析终端及存储介质 - Google Patents
一种文字语义分析方法、文字语义分析终端及存储介质 Download PDFInfo
- Publication number
- CN107704453B CN107704453B CN201710995052.0A CN201710995052A CN107704453B CN 107704453 B CN107704453 B CN 107704453B CN 201710995052 A CN201710995052 A CN 201710995052A CN 107704453 B CN107704453 B CN 107704453B
- Authority
- CN
- China
- Prior art keywords
- word
- metadata
- words
- semantic
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种文字语义分析方法、文字语义分析终端及存储介质,通过接收用户输入的文字信息,将所述文字信息中包含的字符串分隔成独立的单词,得到单词序列;对分隔出的单词序列进行语法分析,判断所述单词序列中是否存在语法错误;将单词序列中含有的单词转化成相对应的元数据,计算各个元数据之间的语义相似度和特征项权重,并提取所述单词序列的关键词特征项,得到各个单词所对应的语义标记文本,建立文本数据库,按照单词序列中各个单词的排列顺序,依次从文本数据库中匹配出语义标记文本,并将排序后合成的文本信息输出显示。本发明通过元数据的格式反馈给用户,从而方便用户获取语义分析终端反馈过来的信息,正确理解和使用信息。
Description
技术领域
本发明涉及语义分析技术领域,尤其涉及一种文字语义分析方法、文字语义分析终端及存储介质。
背景技术
目前人机之间的交互方式还是采用文字对话方式,信息采集和过滤达不到预期想要的目的,无法准确识别出当前用户所说出话的含义,比如说“后海可以吗?”,但机器却可以理解为“后海不在家”这样的意思,而我们用户的意思是说“我们去后海那边吃饭可以吗?”,虽然采用的都是文字类型的会话,但人类所表达的意义可以是***的,这种文字会话的语义分析方法存在以下诸多不便:
首先,一般情况下,用户所表达的含义富含人类独特的情感在里面,如果采用这种简单的文字会话语义分析方法,机器是没法做到识别出用户真正想表达的意思;其实,即使机器可能识别出了用户的大部分意思,但是通过机器一转述,可能表达的意思又不一样;第三,如果人机之间的会话都是这种简单的文字会话,没有对数据进行加密、抽样分析、输出加密,则信息的安全性得不到保障,很容易别有心思的人或黑客破解获取,不利于数据信息的传递。
因此,现有技术需要进一步的改进。
发明内容
针对上述技术问题,本发明实施例提供了一种文字语义分析方法、文字语义分析终端及存储介质,以旨在帮助现有人机会话无法识别用户所表述的信息真实的含义,解决信息传递错误的问题。
本发明实施例的第一方面提供一种文字语义分析方法,所述文字语义分析方法包括以下步骤:
接收用户输入的文字信息,并对输入的所述文字信息进行词法分析,将所述文字信息中包含的字符串分隔成独立的单词,得到单词序列;
对分隔出的单词序列进行语法分析,判断所述单词序列中是否存在语法错误,并将存在语法错误的单词或相邻单词组成的词组过滤掉;
将单词序列中含有的单词转化成相对应的元数据,计算各个元数据之间的语义相似度和特征项权重,并根据计算出的语义相似度和特征项权重提取所述单词序列的关键词特征项,并根据所述关键词特征项得到各个单词所对应的语义标记文本,并将所述语义标记文本存储在文本数据库;
按照单词序列中各个单词的排列顺序,依次从所述文本数据库中匹配出对应的语义标记文本,并将排序后合成的文本信息输出显示。
可选地,所述用户输入的文字信息包括:用户的身份信息和用户输入的问题信息;
所述用户的身份信息包括:用户ID信息字节、用户姓名字节、手机号码字节。
可选地,所述将所述文字信息中包含的字符串分隔成独立的单词的步骤包括:
使用空格作为分隔符,将所述文字信息中包含的字符串分隔成独立的单词,并为每个单词设置唯一对应的编号标识和下一个元数据的指向标识。
可选地,接收用户输入的文字信息之前还包括:
创建用于存储元数据的元数据库,并且建立单词目录与元数据库中所含元数据之间的关联关系;
在所述将单词序列中含有的单词转化成相对应的元数据的步骤中,通过所述关联关系,查找出所述单词所对应的元数据。
可选地,所述计算各个元数据之间的语义相似度和特征项权重,并根据计算出的语义相似度和特征项权重提取所述单词序列的关键词特征项的步骤包括:
采用基于语料库的词语相似度分析法和基于词语向量空间模型,计算各个元数据之间的语义相似度和特征项权重。
本发明实施例的第二方面提供一种文字语义分析终端,所述文字语义分析终端包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的文字语义分析程序,其中所述文字语义分析程序被所述处理器执行时实现以下步骤:
接收用户输入的文字信息,并对输入的所述文字信息进行词法分析,将所述文字信息中包含的字符串分隔成独立的单词,得到单词序列;
对分隔出的单词序列进行语法分析,判断所述单词序列中是否存在语法错误,并将存在语法错误的单词或相邻单词组成的词组过滤掉;
将单词序列中含有的单词转化成相对应的元数据,计算各个元数据之间的语义相似度和特征项权重,并根据计算出的语义相似度和特征项权重提取所述单词序列的关键词特征项,并根据所述关键词特征项得到各个单词所对应的语义标记文本,并将所述语义标记文本存储在文本数据库;
按照单词序列中各个单词的排列顺序,依次从所述文本数据库中匹配出对应的语义标记文本,并将排序后合成的文本信息输出显示。
可选地,所述文字语义分析程序被所述处理器执行时,还实现以下步骤:
使用空格作为分隔符,将所述文字信息中包含的字符串分隔成独立的单词,并为每个单词设置唯一对应的编号标识和下一个元数据的指向标识。
可选地,所述文字语义分析程序被所述处理器执行时,还实现以下步骤:
创建用于存储元数据的元数据库,并且建立单词目录与元数据库中所含元数据之间的关联关系;
在所述将单词序列中含有的单词转化成相对应的元数据的步骤中,通过所述关联关系,查找出所述单词所对应的元数据。
可选地,所述文字语义分析程序被所述处理器执行时,还实现以下步骤:
采用基于语料库的词语相似度分析法和基于词语向量空间模型,计算各个元数据之间的语义相似度和特征项权重。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机存储介质上存储文字语义分析程序,所述文字语义分析程序被处理器执行时实现所述的文字语义分析方法。
本发明实施例提供的技术方案中,通过将用户输入的信息的保存均采用元数据的格式进行存储,元数据会进行适当地分析、识别,然后通过元数据的结构格式反馈给用户,在反馈给用户时候,屏除掉和用户无关的信息,只给用户推送用户关心的信息,从而方便用户获取机器反馈过来的信息,正确理解和使用信息。
附图说明
图1为本发明所述的文字语义分析方法的步骤流程图;
图2为本发明所述的文字语义分析方法的原理示意框图;
图3为本发明所述的文字语义分析方法的具体应用实施例步骤流程图;
图4为本发明所述的文字语义分析终端的原理结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在计算机术语中,语义分析是编译过程的一个逻辑阶段,语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。而结构上不正确的源程序无法进入到审查阶段,但有可能这个结构上不正确的源程序在上下文方面、类型方面可能是正确的,只是编译程序时会报错误。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当这种运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。
目前人与人之间的交流,主要是以语言、文字为工具,才能使交流顺畅进行,人们表达的意思得到正确理解,人机之间的会话采用文字的方式居多,而电脑机器只能识别“0”和“1”两种数字符号,人机会话就要通过计算机指令进行传输,在进行传输的过程中,首先要通过输入设备,将这些指令等数据输入到电脑中,并将处理结果存储在电脑中,最后经电脑的输出设备,显示处理结果,让人们阅读和听。但在这个数据存储和传递的过程中,需要对数据进行一系列的处理,才能达到人与机器之间的顺利交流,从而到达人与人之间的交流正确。而本发明采用的元数据管理的方式正好给这个过程提供了保障和实现机制。
元数据它其实是一种编码体系,它是描述其它数据的数据;常用来描述数字化信息资源,尤其是网络信息资源的编码体系;它同时也是一种结构化数据;元数据是指从信息资源中抽取出来的用于说明此信息资源的特征、内容的结构化的数据,比如课程名,主讲人,时长等,用于组织、检索、描述、保存、管理信息和知识资源;比如我们在线俱乐部授课老师的授课信息(信息资源),我们在俱乐部的应用中可以检索出得到的信息,比如课程名:质量管理,主讲:师伟,主讲时间:2017年6月21日。因为一个基本的元数据是由元数据项目和元数据内容构成的,利用元数据来描述资源后,我们就可以将资源进行有效过滤分类,再加上元数据的标准规范,这样就能够将资源信息的有效内容和无法内容进行区分开,也就能够很好地表达出信息的正确含义;经过这么多年的发展,元数据的格式已经能够支持xml,html等格式,这种格式便于人民自己可以定制标签,也就是所谓的元数据,通过这种标签的模式,用户可以在使用数据时首先查看标签(元数据)以便能够获取自己所需的信息,元数据通过使用属性,支撑对元数据的扩展。
本发明提供了一种语义分析方法,如图1所示,所述分析方法包括以下步骤:
步骤101、接收用户输入的文字信息,并对输入的所述文字信息进行词法分析,将所述文字信息中包含的字符串分隔成独立的单词,得到单词序列。
本步骤中,首先接收用户通过客户端发送的文字信息。在具体实施时,用户通过客户端,比如:安装在移动终端内的app发送文字信息,则客户端将接收到的文字信息发送至服务器端。
具体的,所述用户输入的文字信息包括:用户的身份信息和用户输入的问题信息;
所述用户的身份信息包括:用户ID信息字节、用户姓名字节、手机号码字节。
可以想到的是,上述用户的身份信息可以为用户每次发出信息时需要输入的信息,也可以先将用户的身份信息保存,当用户需要发出信息时,将用户输入的问题信息与预先保存的身份信息打包发送。
本步骤中所述将所述文字信息中包含的字符串分隔成独立的单词的步骤包括:
使用空格作为分隔符,将所述文字信息中包含的字符串分隔成独立的单词,并为每个单词设置唯一对应的编号标识和下一个元数据的指向标识。
由于用户输入的信息均为字符,因此本步骤先对输入的信息进行词法分析,将字符串按照单词的格式依次分割开,识别出字符串中含有的单词,并将其中无法识别组合的字符踢除。
步骤102、对分隔出的单词序列进行语法分析,判断所述单词序列中是否存在语法错误,并将存在语法错误的单词或相邻单词组成的词组过滤掉。
对分隔出的单词序列进行语法上的分析,判断是否含有不符合语法上的单词组合,通过把语言结构的属性赋予给代表语言结构的非终结字符上,而属性值由附加到语法产生式的语义规则计算,从而产生代码,进行语法制导翻译,以及进行上下文无关语法的语义翻译。
本步骤还包括:通过对单词序列中的赋值语句、算术表达式、逻辑表达式的分析判断,将变量类型的不一致词组过滤掉。
步骤103、将单词序列中含有的单词转化成相对应的元数据,计算各个元数据之间的语义相似度和特征项权重,并根据计算出的语义相似度和特征项权重提取所述单词序列的关键词特征项,并根据所述关键词特征项得到各个单词所对应的语义标记文本,并将所述语义标记文本存储在文本数据库。
将每个单词转化成其所对应的元数据,通过建立元数据模型对用户输入的信息进行语义分析,获取信息的本意。
在所述接收用户输入的文字信息的步骤之前,还包括:
创建用于存储元数据的元数据库,并且建立单词目录与元数据库中所含元数据之间的关联关系;
在所述将单词序列中含有的单词转化成相对应的元数据的步骤中,通过所述关联关系,查找出所述单词所对应的元数据。
具体的,有元数据管理的基础上,执行文字会话和用户信息的语义分析。所述语义分析为通过计算元数据之间的语义相似度和特征项权重,得到用户所输入问题的关键信息,并根据所述关键信息组建用户所输入问题的语义标记文本,也即是通过语义分析来执行文字会话的语义标记,并且将带有语义标记的文字文档存储到带标记文本数据库(元数据库)。
较佳的,所述计算各个元数据之间的语义相似度和特征项权重,并根据计算出的语义相似度和特征项权重提取所述单词序列的关键词特征项的步骤包括:
采用基于语料库的词语相似度分析法和基于词语向量空间模型,计算各个元数据之间的语义相似度和特征项权重。
步骤104、按照单词序列中各个单词的排列顺序,依次从所述文本数据库中匹配出对应的语义标记文本,并将排序后合成的文本信息输出显示。
由于获取到与单词序列相对应的语义标记文字文档分别为独立的信息,并未组合成文本信息,因此本步骤中,根据每个单词唯一对应的编号标识和下一个单词所对应元数据的指向标识,为独立信息的语义标记文字文档进行排序,并合成文本信息输出。该文本信息即是用户输入问题的正确表达。
如图2为本发明实施例提供的基于元数据管理的文字会话语义分析方法的交互流程的原理示意框图,为了便于说明结合图3,对本发明所述的方法做进一步的解释。本发明所述方法的具体应用实施例方法步骤包括:
步骤H1、当用户开启手机中的客户端或应用后,输入相关的文字信息,向终端发出请求。
所述请求包括用户的身份信息以及用户输入的问题信息。
在用户通过手机端的应用输入信息后,我们的应用也会将用户的信息以及用户输入的信息进行保存起来,想要存储在数据库中;这个时候应用就会向机器发出请求,请求内容包含用户信息和输入的信息。作为一种具体实现方式,所述输入信息包括用户ID信息字节、用户姓名字节、手机号码字节、标题字节、提交时间字节。
步骤H2、服务器终端接受客户端发出的请求,并对客户端输入的信息进行初步的词法分析。
当服务器终端接受到客户端传递过来的用户输入的信息,同时向后台服务器进行传递数据。在传递数据的过程中,服务器需要对用户的信息进行初步的预处理操作,进行信息词法分析。
具体的,所述词法分析为:按照从左至右地的顺序对用户输入信息进行扫描,按照语言的词法规则识别各类单词,并产生相应单词的属性字。也就是将用户输入的字符序列转换为单词(Token)序列。然后对识别出来的单词给出定性、定长的处理。
通过对用户输入信息进行了预处理,则可以对单词进行分类处理,比如“I amChinese”这样的输入信息,由于计算机并不知道这是以空格区分开的两个词语,只知道这是由普通的字符构成的字符串。可以通过一定的方法(这里即使用空格作为分隔符)将语素从输入字符串中分割出来。分割后的结果用XML可以表示如下:<sentence>
<word>I</word>
<word>am</word>
<word>Chinese</word>
</sentence>
步骤H3、对上述步骤H2中得到的单词序列进行语法分析,识别信息语法方面的错误,并进行过滤掉。
语法分析也是编译过程的一个逻辑阶段,语法分析的任务就是在词法分析的基础上将单词序列组合成各类语法短语,然后对单词序列在结构上进行判断,判断是否正常,可以通过上下文无关文法来描述结构。
步骤H4、将单词序列中的单词转变成元数据,并对元数据进行语义分析,得到用户输入信息所对应的语义标记文本,将所述语义标记文本存储在文本数据库;
在词法分析和语法分析阶段处理后,信息数据已基本可用,但是还是无法消除歧义、理解不对等方面的问题,这个时候我们采用将数据格式进行归类重组,将其转变成元数据的结构模式进行存储,然后对其进行***化的管理,实现数据转变成元数据的处理模式,然后进行语义分析,得到用户真正的信息目的和意图,也即是经过对所所述单词序列依次进行:语义表达、语义组织、语义存储和歧义消除的处理后,将单词序列转化成其所对应的元数据序列。
之前我们的源程序经过了词法分析,语法分析,到了第三阶段便是语义分析工作,这是编译程序最实质性的工作。之前两个步骤,词法分析和语法分析都是对源程序形式上进行识别和处理,而语义分析是对源程序的语义做出解释,引起源程序发送质的变化。而语义分析主要具有以下步骤:语法指导翻译、符号表、类型检查、中间语言、生成中间代码。当后台服务器获取到前端传递过来的数据信息,这个时候机器就要对数据信息进行语义分析,本发明中是将这些数据信息封装成元数据模型进行语义分析操作,语义分析模块,用于进行语义相似度分析以及特征项权重计算,提取用户输入的关键词特征项,对文本进行归类,文本向量化奠定基础。语义分析模块内置本体和实体词典。本体用于对文本进行语义分析,本体的基本组成单元为概念,概念构成概念树,概念树组成本体。文本概念化解决了一词多义或多词一义的问题。实体词典用于对文本进行实体提取,以便摒弃文本中不具实际意义的内容,简化后续文本处理的计算量,通过框架逻辑或描述逻辑进行推理,收集信息源中的数据,并把各局部数据库的模式信息按规定格式存储在元数据库中,通过分析元数据之间的语义关系,建立相应领域的全局本体,通过语义分析来执行文本文档的语义标记,并且将带有语义标记的文本文档存储到带标记文本文档数据库。
具体的,语义相似度是分析两个词语之间的相似度程度,主要用于文本词语消除歧义、信息检索、信息提取、机器翻译等领域中,主观性比较强,故不能脱离具体的应用环境来分析器语义相似度。目前在语义相似度分析领域有两种计算方法,一种是通过语义词典,把有关词语的概念组织在一个树形的结构中来计算;另一种是通过词语上下文的信息,运用统计的方法进行求解。结合本发明的应用场景,本发明采用语义相似度和特征项权重计算的算法都是现有的成熟算法:采用基于语料库的词语相似度分析法,算法公式:
Sim(W1,W2)=aDis(W1,W2)+a;
其中,相似度为Sim(W1,W2),a是一个可调节的参数,其含义是:当相似度为0.5时的词语距离值,词语W1,W2之间的距离为Dis(W1,W2)。特征项权重计算公式:w=tf×idf,其中,w为特征项t在文档d中的权重值,tf表示t在d内出现的频率,idf表示t的反比文本频率。采用其方法中应用广泛的词语向量空间模型,此模型包含以下几个步骤:预处理->文本特征项选择->加权->生成向量空间模型后计算余弦。该模型通过事先选择一组特征词,然后计算这一组特征词与每一个词的相关性,得到每一个词的相关性的特征词向量,用这些向量之间的相似度作为这两个词之间的相似度。
通过对用户数据进行元数据的转化,以及语义分析后,机器将数据信息生成相应的正确答案存储在数据库中,作为输出端的信息源头。
步骤H5、当用户数据进行了语义分析后,机器会按照相应的标准将其生成为应用知识库***,在知识库***里面明确标识出各个数据的特征,每当用户输入信息后,就在知识数据库中进行搜选,找到匹配的数据进行响应,也即是将语义分析结果存储至语义知识库,当用户输入信息后,从知识库检测,获取所匹配的知识,然后通过语义关联发现,得到所述需要分析结果。
数据信息虽然通过了元数据的转化和基于在元数据结构上的语义分析和生成答案,但是还是不能立即输出给用户端显示,因为这个时候的信息还不是连贯的,属于孤立分散的状态,这个时候就需要对数据进一步的处理,将数据与数据之间建立关系,通过建立这种关系,由于每个元数据数据都有一个唯一标识,这个标识上带有用户输入的编号识别和下一个元数据的指向标识,在用户输入数据开始后,自动去问题知识库中搜索,搜索到对应的问题答案数据文本,文本与文本进行组合,形成用户输入问题的对应最终结果,然后机器才能将整个文本合成的信息反馈给用户,作为机器对用户的响应,以达到用户意图。
本发明实施例的第二方面提供一种文字语义分析终端,如图3所示,所述文字语义分析终端10包括:处理器110、存储器120及存储在所述存储器上并可在所述处理器上运行的文字语义分析程序,其中所述文字语义分析程序被所述处理器执行时实现以下步骤:
接收用户输入的文字信息,并对输入的所述文字信息进行词法分析,将所述文字信息中包含的字符串分隔成独立的单词,得到单词序列;
对分隔出的单词序列进行语法分析,判断所述单词序列中是否存在语法错误,并将存在语法错误的单词或相邻单词组成的词组过滤掉;
将单词序列中含有的单词转化成相对应的元数据,计算各个元数据之间的语义相似度和特征项权重,并根据计算出的语义相似度和特征项权重提取所述单词序列的关键词特征项,并根据所述关键词特征项得到各个单词所对应的语义标记文本,并将所述语义标记文本存储在文本数据库;
按照单词序列中各个单词的排列顺序,依次从所述文本数据库中匹配出对应的语义标记文本,并将排序后合成的文本信息输出显示。
进一步的,所述文字语义分析程序被所述处理器110执行时,还实现以下步骤:
使用空格作为分隔符,将所述文字信息中包含的字符串分隔成独立的单词,并为每个单词设置唯一对应的编号标识和下一个元数据的指向标识。
较佳的,所述文字语义分析程序被所述处理器110执行时,还实现以下步骤:
创建用于存储元数据的元数据库,并且建立单词目录与元数据库中所含元数据之间的关联关系;并且所述元数据库中所含有的目录根据元数据类型的不同建立不同的分层,便于更快的根据目录查询到对应的元数据。
在所述将单词序列中含有的单词转化成相对应的元数据的步骤中,通过所述关联关系,查找出所述单词所对应的元数据。
较佳的,所述文字语义分析程序被所述处理器110执行时,还实现以下步骤:
采用基于语料库的词语相似度分析法和基于词语向量空间模型,计算各个元数据之间的语义相似度和特征项权重。
存储器120作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的文字语义分析方法。
存储器120可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据报表自动生成***的使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至文字语义分析终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器120中,当被所述一个或者多个处理器110执行时,执行上述任意方法实施例中的文字语义分析方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机存储介质上存储文字语义分析程序,所述文字语义分析程序被处理器执行时实现所述的文字语义分析方法。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
本发明中,当用户需要获取信息资源时,用户通过向机器发送相应指令命令,这时机器获取到了用户的命令,进一步将用户的命令信息保存起来;在本发明中,数据信息的保存都是通过元数据的格式进行存储,当用户的信息资源保存到元数据里面,元数据会进行适当地分析、识别,然后通过元数据的结构格式反馈给用户,在反馈给用户时候,屏除掉和用户无关的信息,只给用户推送用户关心的信息,从而方便用户获取语义分析终端反馈过来的信息,正确理解和使用信息。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及本发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种文字语义分析方法,其特征在于,包括以下步骤:
接收用户输入的文字信息,并对输入的所述文字信息进行词法分析,将所述文字信息中包含的字符串分隔成独立的单词,得到单词序列;
对分隔出的单词序列进行语法分析,判断所述单词序列中是否存在语法错误,并将存在语法错误的单词或相邻单词组成的词组过滤掉;
将单词序列中含有的单词转化成相对应的元数据,计算各个元数据之间的语义相似度和特征项权重,并根据计算出的语义相似度和特征项权重提取所述单词序列的关键词特征项,并根据所述关键词特征项得到各个单词所对应的语义标记文本,并将所述语义标记文本存储在文本数据库;
按照单词序列中各个单词的排列顺序,依次从所述文本数据库中匹配出对应的语义标记文本,并将排序后合成的文本信息输出显示;
其中,采用语义相似度和特征项权重计算的算法都是现有的成熟算法:采用基于语料库的词语相似度分析法,算法公式:
Sim(W1,W2)=aDis(W1,W2)+a;
其中,相似度为Sim(W 1,W 2),a是一个可调节的参数,其含义是:当相似度为0.5时的词语距离值,词语W1,W 2之间的距离为Dis(W 1,W 2);特征项权重计算公式:w=tf×idf,其中,w为特征项t在文档d中的权重值,tf表示t在d内出现的频率,idf表示t的反比文本频率;采用其方法中应用广泛的词语向量空间模型,此模型包含以下几个步骤:预处理->文本特征项选择->加权->生成向量空间模型后计算余弦;该模型通过事先选择一组特征词,然后计算这一组特征词与每一个词的相关性,得到每一个词的相关性的特征词向量,用这些向量之间的相似度作为这两个词之间的相似度。
2.根据权利要求1所述的文字语义分析方法,其特征在于,所述用户输入的文字信息包括:用户的身份信息和用户输入的问题信息;
所述用户的身份信息包括:用户ID信息字节、用户姓名字节、手机号码字节。
3.根据权利要求2所述的文字语义分析方法,其特征在于,所述将所述文字信息中包含的字符串分隔成独立的单词的步骤包括:
使用空格作为分隔符,将所述文字信息中包含的字符串分隔成独立的单词,并为每个单词设置唯一对应的编号标识和下一个元数据的指向标识。
4.根据权利要求3所述的文字语义分析方法,其特征在于,所述接收用户输入的文字信息之前,还包括步骤:
创建用于存储元数据的元数据库,并且建立单词目录与元数据库中所含元数据之间的关联关系;
在所述将单词序列中含有的单词转化成相对应的元数据的步骤中,通过所述关联关系,查找出所述单词所对应的元数据。
5.根据权利要求4所述的文字语义分析方法,其特征在于,所述计算各个元数据之间的语义相似度和特征项权重,并根据计算出的语义相似度和特征项权重提取所述单词序列的关键词特征项的步骤包括:
采用基于语料库的词语相似度分析法和基于词语向量空间模型,计算各个元数据之间的语义相似度和特征项权重。
6.一种文字语义分析终端,其特征在于,所述文字语义分析终端包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的文字语义分析程序,其中所述文字语义分析程序被所述处理器执行时实现以下步骤:
接收用户输入的文字信息,并对输入的所述文字信息进行词法分析,将所述文字信息中包含的字符串分隔成独立的单词,得到单词序列;
对分隔出的单词序列进行语法分析,判断所述单词序列中是否存在语法错误,并将存在语法错误的单词或相邻单词组成的词组过滤掉;
将单词序列中含有的单词转化成相对应的元数据,计算各个元数据之间的语义相似度和特征项权重,并根据计算出的语义相似度和特征项权重提取所述单词序列的关键词特征项,并根据所述关键词特征项得到各个单词所对应的语义标记文本,并将所述语义标记文本存储在文本数据库;
按照单词序列中各个单词的排列顺序,依次从所述文本数据库中匹配出对应的语义标记文本,并将排序后合成的文本信息输出显示;
其中,采用语义相似度和特征项权重计算的算法都是现有的成熟算法:采用基于语料库的词语相似度分析法,算法公式:
Sim(W1,W2)=aDis(W1,W2)+a;
其中,相似度为Sim(W 1,W 2),a是一个可调节的参数,其含义是:当相似度为0.5时的词语距离值,词语W1,W 2之间的距离为Dis(W 1,W 2);特征项权重计算公式:w=tf×idf,其中,w为特征项t在文档d中的权重值,tf表示t在d内出现的频率,idf表示t的反比文本频率;采用其方法中应用广泛的词语向量空间模型,此模型包含以下几个步骤:预处理->文本特征项选择->加权->生成向量空间模型后计算余弦;该模型通过事先选择一组特征词,然后计算这一组特征词与每一个词的相关性,得到每一个词的相关性的特征词向量,用这些向量之间的相似度作为这两个词之间的相似度。
7.根据权利要求6所述的文字语义分析终端,其特征在于,所述文字语义分析程序被所述处理器执行时,还实现以下步骤:
使用空格作为分隔符,将所述文字信息中包含的字符串分隔成独立的单词,并为每个单词设置唯一对应的编号标识和下一个元数据的指向标识。
8.根据权利要求7所述的文字语义分析终端,其特征在于,所述文字语义分析程序被所述处理器执行时,还实现以下步骤:
创建用于存储元数据的元数据库,并且建立单词目录与元数据库中所含元数据之间的关联关系;
在所述将单词序列中含有的单词转化成相对应的元数据的步骤中,通过所述关联关系,查找出所述单词所对应的元数据。
9.根据权利要求7所述的文字语义分析终端,其特征在于,所述文字语义分析程序被所述处理器执行时,还实现以下步骤:
采用基于语料库的词语相似度分析法和基于词语向量空间模型,计算各个元数据之间的语义相似度和特征项权重。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质上存储文字语义分析程序,所述文字语义分析程序被处理器执行时实现如权利要求1至5中任一项所述的文字语义分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710995052.0A CN107704453B (zh) | 2017-10-23 | 2017-10-23 | 一种文字语义分析方法、文字语义分析终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710995052.0A CN107704453B (zh) | 2017-10-23 | 2017-10-23 | 一种文字语义分析方法、文字语义分析终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107704453A CN107704453A (zh) | 2018-02-16 |
CN107704453B true CN107704453B (zh) | 2021-10-08 |
Family
ID=61181999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710995052.0A Active CN107704453B (zh) | 2017-10-23 | 2017-10-23 | 一种文字语义分析方法、文字语义分析终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107704453B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108845985B (zh) * | 2018-05-28 | 2022-02-18 | 山东浪潮科学研究院有限公司 | 一种信息匹配方法和信息匹配装置 |
US10832679B2 (en) | 2018-11-20 | 2020-11-10 | International Business Machines Corporation | Method and system for correcting speech-to-text auto-transcription using local context of talk |
JP6900946B2 (ja) * | 2018-12-25 | 2021-07-14 | 横河電機株式会社 | エンジニアリング支援システム及びエンジニアリング支援方法 |
CN110276082B (zh) * | 2019-06-06 | 2023-06-30 | 百度在线网络技术(北京)有限公司 | 基于动态窗口的翻译处理方法和装置 |
CN110489127B (zh) * | 2019-08-12 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 错误代码确定方法、装置、计算机可读存储介质及设备 |
CN111192682B (zh) * | 2019-12-25 | 2024-04-09 | 上海联影智能医疗科技有限公司 | 一种影像操练数据处理方法、***及存储介质 |
CN111310477B (zh) * | 2020-02-24 | 2023-04-21 | 成都网安科技发展有限公司 | 文档查询方法及装置 |
CN111309306B (zh) * | 2020-02-24 | 2023-07-28 | 福建天晴数码有限公司 | 人机交互的对话管理*** |
CN111680130A (zh) * | 2020-06-16 | 2020-09-18 | 深圳前海微众银行股份有限公司 | 文本检索方法、装置、设备及存储介质 |
CN111782896B (zh) * | 2020-07-03 | 2023-12-12 | 深圳市壹鸽科技有限公司 | 语音识别后文本处理方法、装置和终端 |
CN111881179B (zh) * | 2020-07-20 | 2024-03-01 | 易通星云(北京)科技发展有限公司 | 数据匹配方法、装置及其设备、计算机存储介质 |
CN112347767B (zh) * | 2021-01-07 | 2021-04-06 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置及设备 |
CN113792608B (zh) * | 2021-08-19 | 2022-05-10 | 广州云硕科技发展有限公司 | 一种智能语义分析方法及*** |
CN113705230B (zh) * | 2021-08-31 | 2023-08-25 | 中国平安财产保险股份有限公司 | 基于人工智能的保单特约的评估方法、装置、设备及介质 |
CN114707045B (zh) * | 2022-03-23 | 2023-09-26 | 江苏悉宁科技有限公司 | 一种基于大数据的舆情监测方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110812A (zh) * | 2007-08-29 | 2008-01-23 | 中兴通讯股份有限公司 | 文本命令解析处理方法 |
CN102375826A (zh) * | 2010-08-13 | 2012-03-14 | ***通信集团公司 | Sql脚本解析方法、装置及*** |
CN105335510A (zh) * | 2015-10-30 | 2016-02-17 | 成都博睿德科技有限公司 | 文本数据高效搜索方法 |
CN105389297A (zh) * | 2015-12-21 | 2016-03-09 | 浙江万里学院 | 文本相似度处理方法 |
CN106682147A (zh) * | 2016-12-22 | 2017-05-17 | 北京锐安科技有限公司 | 一种基于海量数据的查询方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8335754B2 (en) * | 2009-03-06 | 2012-12-18 | Tagged, Inc. | Representing a document using a semantic structure |
CN103927358B (zh) * | 2014-04-15 | 2017-02-15 | 清华大学 | 文本检索方法及*** |
US9348814B2 (en) * | 2014-08-01 | 2016-05-24 | Almawave S.R.L. | System and method for meaning driven process and information management to improve efficiency, quality of work and overall customer satisfaction |
CN104239513B (zh) * | 2014-09-16 | 2019-03-08 | 西安电子科技大学 | 一种面向领域数据的语义检索方法 |
CN104199965B (zh) * | 2014-09-22 | 2020-08-07 | 吴晨 | 一种语义信息检索方法 |
CN105160046A (zh) * | 2015-10-30 | 2015-12-16 | 成都博睿德科技有限公司 | 基于文本的数据检索方法 |
-
2017
- 2017-10-23 CN CN201710995052.0A patent/CN107704453B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110812A (zh) * | 2007-08-29 | 2008-01-23 | 中兴通讯股份有限公司 | 文本命令解析处理方法 |
CN102375826A (zh) * | 2010-08-13 | 2012-03-14 | ***通信集团公司 | Sql脚本解析方法、装置及*** |
CN105335510A (zh) * | 2015-10-30 | 2016-02-17 | 成都博睿德科技有限公司 | 文本数据高效搜索方法 |
CN105389297A (zh) * | 2015-12-21 | 2016-03-09 | 浙江万里学院 | 文本相似度处理方法 |
CN106682147A (zh) * | 2016-12-22 | 2017-05-17 | 北京锐安科技有限公司 | 一种基于海量数据的查询方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107704453A (zh) | 2018-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704453B (zh) | 一种文字语义分析方法、文字语义分析终端及存储介质 | |
US10896212B2 (en) | System and methods for automating trademark and service mark searches | |
CN107315737B (zh) | 一种语义逻辑处理方法及*** | |
US10810372B2 (en) | Antecedent determining method and apparatus | |
CN107451153B (zh) | 输出结构化查询语句的方法和装置 | |
CN110020424B (zh) | 合同信息的提取方法、装置和文本信息的提取方法 | |
CN108459874B (zh) | 融合深度学习和自然语言处理的代码自动化摘要方法 | |
CN111046656B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
WO2020233386A1 (zh) | 基于aiml的智能问答方法、装置、计算机设备及存储介质 | |
CN109614620B (zh) | 一种基于HowNet的图模型词义消歧方法和*** | |
CN109241080B (zh) | 一种fql查询语言的构建使用方法及其*** | |
US11699034B2 (en) | Hybrid artificial intelligence system for semi-automatic patent infringement analysis | |
CN110096599B (zh) | 知识图谱的生成方法及装置 | |
JP2006244262A (ja) | 質問回答検索システム、方法およびプログラム | |
KR101709055B1 (ko) | 오픈 웹 질의응답을 위한 질문분석 장치 및 방법 | |
CN110674378A (zh) | 基于余弦相似度和最小编辑距离的中文语义识别方法 | |
CN104484379B (zh) | 确定音乐实体关系的方法和装置及查询处理方法和装置 | |
CN115687572A (zh) | 一种数据信息的检索方法、装置、设备及存储介质 | |
CN107480197B (zh) | 实体词识别方法及装置 | |
CN112507089A (zh) | 一种基于知识图谱的智能问答引擎及其实现方法 | |
CN112380848A (zh) | 文本生成方法、装置、设备及存储介质 | |
CN110413882B (zh) | 信息推送方法、装置及设备 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN109992651B (zh) | 一种问题目标特征自动识别和抽取方法 | |
CN113792542A (zh) | 一种融合句法分析和语义角色剪枝的意图理解方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant after: Shenzhen Qianhai Zhongxing scientific research Co.,Ltd. Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant before: SHENZHEN QIANHAI ZHONGXING E-COMMERCE Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |