CN104346382A - 使用语言查询的文本分析***和方法 - Google Patents
使用语言查询的文本分析***和方法 Download PDFInfo
- Publication number
- CN104346382A CN104346382A CN201310330423.5A CN201310330423A CN104346382A CN 104346382 A CN104346382 A CN 104346382A CN 201310330423 A CN201310330423 A CN 201310330423A CN 104346382 A CN104346382 A CN 104346382A
- Authority
- CN
- China
- Prior art keywords
- text
- knowledge
- lql
- extracted
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种使用语言查询的文本分析***和方法,能从网络上获取中文文本信息,并作出分析,从而提取所需知识。本发明使用中文分词和语言查询语言(LQL)技术。透过中文分词技术,能对中文文本进行词的切分,并对所切分出的词进行词性标注。LQL技术对被切分和被标注的中文文本,进行LQL分析,并提取知识。本***还提供了一种错误校正分析,用于删除错误被提取的知识。本发明的优点在于,非电脑程式员也能简单地设定LQL规则。同时,本发明是独立于文本内容的网络格式和结构,大大增强了收集信息的范围。本发明适用于网络信息提取、商业情报挖掘、信息聚合、网络知识库建立等应用领域。
Description
技术领域
本发明属于计算机科学领域中的网络分支,具体涉及一种使用语言查询的文本分析***和方法,适用于网络信息提取、商业情报挖掘、信息聚合、网络知识库建立等应用领域。
背景技术
随着互联网的高速发展,网络上的信息呈***式增长,人们越来越习惯在网络上获取信息。然而,由于网络上的信息太多,即使有了网络搜索工具,人们还很难找到所需要的信息。此外,网络上也经常出现许多不相干的噪音信息,尽管很多信息是能被检索到,但其内容可能是不相干或不准确的。
因此,人们希望出现一种智能工具,根据用户的意愿,帮助人们摈除噪音,在大量的信息中,筛选出真正需要的信息。
传统的自然语言处理(NLP)***,能利用自然语言处理技术,如分词性标注,分类树,同义词,索引典等,从文本的内容,提取当中的意义。大量的计算机程序也因此被开发出来,以从这些经NLP加工后的文本内容,提取知识。但是,计算机程序的开发通常是非常耗时。此外,随着时间推移,便需要更多的计算机程序以提取新的知识,这使整个分析***的维护费用变得昂贵。在很多时候,由于被提取的知识是含糊不清,还需要人工核实和校正。
中国发明专利申请申请号为200810142630.7和200910104805.X提出利用分类树对文本进行分析的文本分析***。然而,该***高度依赖于博客或网页的结构,以作为***的输入。对于许多文本分析***,由于内容的来源(如从不同新闻网站的新闻文章,微博的内容)可能不具有良好或相同的结构,这意味着每一个网站或每一个网页便需要相对应的规则。此外,该内容的来源结构可能随时间而发生变更,所以每当该结构发生变化时,分类树也必需重建,这都是不具有成本效益的。
美国专利申请公开号2011/019671和PCT国际公布号WO2012/099970A1提出品牌估值***。该***收集品牌网站销售和传输数据,以评估品牌的价值。它也试图比较不同品牌,以创建在某一个行业的品牌指数。但该***的问题是,收集竞争对手网站的销售和流量数据是相当困难的。从理论上,如果一个组织可以从不同公司收集得到数据,该指数是可以被建立的。然而在实际上,因为销售数据通常是高度保密,所以这是不可行的。
发明内容
根据以上问题,本发明公开了一种使用语言查询的文本分析***和方法。本发明使用中文分词(Chinese Segmentation)和语言查询语言(LinguisticsQuery Language,LQL)技术。透过中文分词,能对中文文本进行词的切分,并对所切分出的词进行词性标注(Part-of-Speech,POS Tagging)。LQL技术能对该被切分和被词性标注的中文文本,作进一步分析,以提取所需的知识。
根据本发明的一个方面,提供了一种使用语言查询的文本分析***,所述***包括:
文本内容输入模块,用于输入中文文本于所述的文本分析***;
中文分词模块,用于对该中文文本进行词的切分;
词性标注模块,用于对该被切分出的词,标注上词性标签;
应用词典数据库,包括一个或多个应用词典,该应用词典包括一个或多个关键词;
语言查询语言(LQL)规则数据库,用于储存一个或多个LQL规则,其中,该LQL规则的设定包括:
定义被提取的知识在该中文文本中的位置(Extraction Position);
定义覆盖范围(Coverage),该覆盖范围是一个句子,一个段落或一个文档;
定义一个或多个匹配条件(MatchCriteria),该匹配条件是短语列表(PhraseList)或具有特定词性标注的词(WORD POS);
定义匹配模式(MatchPattern),该匹配模式是用于定义匹配条件,当该匹配条件是短语列表时,其匹配模式是一个档案名称,该档案名称指向在该应用词典内的一个或多个关键词,当该匹配条件是该具有特定词性标注的词时,其匹配模式是词性标签;
LQL分析模块,根据该LQL规则,用于对该被切分和被词性标注的中文文本,进行LQL分析,并提取所需的知识,其中,该LQL分析包括:
确立该LQL规则所定义的覆盖范围;
根据该LQL规则的匹配条件所定义的词性标签,在该被切分和被词性标注的中文文本,找出具有该词性标签的词;
根据该LQL规则的匹配条件所定义的关键词,在该被切分和被词性标注的中文文本,找出与该关键词相同的词;
当在该覆盖范围中,该匹配条件能得到满足,根据该LQL规则所定义的被提取知识在中文文本中的位置,提取一个或多个词;
被提取知识数据库,用于储存该被提取的知识。
根据本发明的另一个方面,提供了一种使用上述***的文本分析方法,所述方法包括:
S1:取得中文文本;
S2:使用中文分词模块,对该中文文本进行词的切分;
S3:使用词性标注模块,对该被切分出的词,进行词性标注;
S4:在LQL分析模块,使用LQL规则,对该被切分和标注的中文文本,进行LQL分析,以提取知识,其中,该LQL分析包括以下步骤:
确立该LQL规则所定义的覆盖范围;
根据该LQL规则的匹配条件所定义的词性标签,在该被切分和被词性标注的中文文本,找出具有该词性标签的词;
根据该LQL规则的匹配条件所定义的关键词,在该被切分和被词性标注的中文文本,找出与该关键词相同的词;
当在该覆盖范围中,该匹配条件能得到满足,根据该LQL规则所定义的被提取知识在中文文本中的位置,提取一个或多个词。
根据本发明的一个方面,提供了一种使用语言查询的文本分析***,所述***包括:
文本内容输入模块,用于输入该语言的文本于所述的文本分析***;
语言分词模块,用于对该文本进行词的切分;
词性标注模块,用于对该被切分出的词,标注上词性标签;
应用词典数据库,包括一个或多个应用词典;
语言查询语言(LQL)规则数据库,用于储存一个或多个LQL规则,其中,该LQL规则的设定包括:
定义被提取的知识在该文本中的位置(Extraction Position);
定义覆盖范围(Coverage),该覆盖范围是一个句子,一个段落或一个文档;
定义一个或多个匹配条件(MatchCriteria),该匹配条件是短语列表(PhraseList)或具有特定词性标注的词(WORD POS);
定义匹配模式(MatchPattern),该匹配模式是用于定义匹配条件,当该匹配条件是短语列表时,其匹配模式是一个档案名称,该档案名称指向在该应用词典内的一个或多个关键词,当该匹配条件是该具有特定词性标注的词时,其匹配模式是词性标签;
LQL分析模块,根据该LQL规则,用于对该被切分和被词性标注的文本,进行LQL分析,并提取所需的知识,其特征在于,该LQL分析包括:
确立该LQL规则所定义的覆盖范围;
根据该LQL规则的匹配条件所定义的词性标签,在该被切分和被词性标注的文本,找出具有该词性标签的词;
根据该LQL规则的匹配条件所定义的关键词,在该被切分和被词性标注的文本,找出与该关键词相同的词;
当在该覆盖范围中,该匹配条件能得到满足,根据该LQL规则所定义的被提取知识在文本中的位置,提取一个或多个词;
被提取知识数据库,用于储存该被提取的知识。
依据本发明,以语言查询的文本分析***包括文本内容输入模块、文本语法分析模块、文本分词模块、词性标注模块、LQL分析模块、被提取知识数据库、中文分词词典、LQL规则数据库、应用词典数据库、错误校正规则数据库、错误校正模块、LQL规则输入界面、应用词典输入界面和错误校正规则输入界面。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词指的是将汉字序列切分成一个一个单独的词。所述中文分词模块是用于对中文文本进行词的切分,即像英文那样,使得中文句子中的每一个词之间留有空格。所述词性标注模块便是对被切分出的词进行词性标注(POSTagging)。
所述中文分词词典包括术语列表,当中的术语具有词性标注和该词性标注出现的频率。该文本分词模块和该词性标注模块便是基于该中文分词词典、对中文文本进行词的切分和词性标注。
所述应用词典数据库包含一个或多个应用词典。每一个应用词典记载了一系列根据特定应用的关键词。应用词典会被应用于LQL规则的设定中。
所述LQL分析模块使用LQL规则,对被切分和被词性标注的中文文本进行分析,并从中提取所需的知识。用户能使用LQL规则输入界面,根据不同的需要,而设定所需的LQL规则,并把LQL规则储存于LQL规则数据库当中。该被提取的知识会被储存于被提取知识数据库当中。
该错误校正模块能使用错误校正规则,对被提取的知识作出分析,并删除那些被错误提取的知识,从而提高知识提取的准确性。用户能使用错误校正规则输入界面,根据不同的需要,设定错误校正规则。被设定的错误校正规则会被储存于错误校正规则数据库当中。
根据本发明的一个方面,LQL规则设定包括:
定义被提取知识在文本中的位置(Extraction Position);
定义覆盖范围(Coverage),该覆盖范围可以是一个句子,一个段落或一个文档;
定义匹配条件(MatchCriteria),该匹配条件可以是短语列表(Phrase List)、具有特定词性标签的词(WORD POS)或不具有特定词性标签的词(WORDNOT POS);
定义匹配模式(MatchPattern),该匹配模式是用于定义匹配条件,对于Phrase List,其匹配模式可以是一个档案名称,该档案名称指向在应用词典内的一系列关键词,对于WORD POS或WORD NOT POS,其匹配模式是词性标签;
定义可选的条件(OptionalCriteria),用于匹配条件,并能被一般的正规表达式所定义。
根据本发明的一个方面,所述LQL分析模块使用LQL规则,对被切分和被词性标注的文本进行分析,该LQL分析包括:
确立LQL规则所定义的覆盖范围;
根据LQL规则的匹配条件所定义的词性标签,在该被切分和被词性标注的文本,找出具有该词性标签的词;
根据LQL规则的匹配条件所定义的关键词,在该被切分和被词性标注的文本,找出与该关键词相同的词;
当在该覆盖范围中,能找出具有该词性标签的词和与该关键词相同的词,即该匹配条件能得到满足,根据该LQL规则所定义的被提取知识在中文文本中的位置,提取一个或多个词。
根据本发明的一个方面,所述错误校正规则设定包括定义一个或多个的数值和数值比较要求。定义该数值可以是:
定义被提取的知识是单值的或多值的;
定义被提取知识来源数目的阈值;
定义被提取知识数目的阈值;或
定义被提取知识的数目占所有被提取知识数目的百分比的阈值。
该数值比较要求是比较统计值和该数值,可以是大于、小于或者等于。
当被提取的知识不符合以上一个或多个错误校正规则,这些错误被提取的知识会被删除。
根据本发明的一个方面,所述错误校正模块使用错误校正规则,对被切分和被词性标注的文本进行分析,该错误校正分析包括:
对所有被提取的知识进行统计,以取得统计值;
把该统计值和该错误校正规则所定义的数值比较;
删除不符合数值比较要求的被提取的知识。
根据本发明的另一个方面,提供了一种使用语言查询的文本分析方法,所述方法包括以下步聚:
S1:使用LQL规则输入界面,定义LQL规则;
S2:使用应用词典输入界面,定义应用词典;
S3:使用错误校正规则输入界面,定义错误校正规则;
S4:使用文本内容输入模块,取得文本;
S5:使用文本语法分析模块,对该文本进行语法分析。
S6:使用文本分词模块,对该文本进行词的切分;
S7:使用词性标注模块,对被切分出的词进行词性标注;
S8:在LQL分析模块,使用LQL规则,对已被切分和标注的中文文本,进行LQL分析,以提取知识;
S9:把被提取的知识,储存于被提取知识数据库中;
S10:使用错误校正模块,并根据错误校正规则,删除错误被提取的知识,以增加所述被提的知识的准确性。
本发明的优点在于,由于语言查询语言的设定很接近自然语言,而非一般的计算机语言,所以非计算机程式员也能简单地设定语言规则语言,以提取知识,从而减低计算机程序开发的难度,有效地降低***开发和维护成本。同时,被设定的语言查询语言能够被累积和储存于语言查询语言数据库,以作为新应用的参考。此外,本发明是可以独立于文本内容的网页格式和结构,大大增强了收集信息的范围。
根据本发明的多个方面,只需简单地更改语言查询语言和更新应用词典,便能使用者因需要而建立不同种类的应用。例如,人物搜索,以提取人和机构的关系;新闻搜寻***,其能联系一篇新闻文章于一个地方;品牌估值,以监测品牌于不同社交媒体平台的认受程度。
附图说明
通过下面的附图本领域技术人员将对本发明有更好的理解,并且更能清楚地体现出本发明的优点。这里描述的附图仅为了所选实施例的说明目的,而不是全部可能的实施方式并且旨在不限定本发明的范围。
图1是根据本发明的使用语言查询的文本分析***方框图;
图2是根据本发明的一种词性标注的方法;
图3是根据本发明的使用语言查询的文本分析方法流程图;
图4是根据本发明的LQL分析方法流程图;
图5是根据本发明的错误校正分析流程图。
具体实施方式
图1示出了根据本发明的一个实施例的文本分析***,包括文本内容输入模块101、文本语法分析模块102、文本分词模块103、词性标注模块104、LQL分析模块105、被提取知识数据库106、中文分词词典107、LQL规则数据库108、应用词典数据库109、错误校正规则数据库110、错误校正模块111、LQL规则输入界面112、应用词典输入界面113和错误校正规则输入界面114。
该文本内容输入模块101用于输入文本内容进入LQL文本分析***。该文本内容可以是在互联网上或非互联网上获取的。当文本内容是在互联网上时,该文本内容输入模块101能使用在网站上提供的应用程序界面(Application Program Interface,API)以取得已经被API所激活的网页中的文本。或者,使用网络搜索器以抓取(crawl)有超文本格式的网站,并抽取有超文本格式的文本。
该文本语法分析模块102用于分析该文本内容的语法。
该文本分词模块103用于对该文本内容进行中文分词的切分。例如,一句中文句子“冬季风暴袭菲恐夺百命”,可被切分为冬季、风暴、袭、菲、恐、夺、百、命。
该词性标注模块104能对被切分的词进行词性标注,即每个被切分出的词,再根据其词性,被标注上相对应的英文字母,即词性标签。例如,冬季/t、风暴/n、袭/v、菲/j、恐/d、夺/v、百/m、命/n。t代表时间词、n代表名词、v代表动词、j代表简称略语、d代表副词、m代表数词。
下图是根据本发明的一个词性标签一览表。当中a代表形容词、Ag代表形语素、ad代表副形词、an代表名形词、b代表区别词等。
优选地,词性标注模块104使用维特比算法(viterbi algorithm)于词性标注中。维特比算法是一种动态编程算法,用于找到最可能的隐藏状态序列,该序列称为维特比路径,特别在马氏信源,或隐马尔可夫模型,能总结出被观察到的事件序列。另一方法是使用前向算法(forward algorithm),该算法是计算观察到事件序列的概率,也同属于概率论范围。图3是根据本发明,使用维特比算法于词性标注的一个例子。对于句子“冬季风暴袭菲恐夺百命”,当中各词的词性标注为冬季/t、风暴/n、袭/v、菲/j、恐/d、夺/v、百/m和命/n。
中文分词字典107包括该术语列表和相对应的词性标注,用于对于文本进行分词和词性标注。中文分词字典107是可以被用户定义或修改的。
所述应用词典数据库109包括至少一个应用词典。该应用词典是根据应用所设定的,用于记载特定应用的一系列关键词。用户可使用应用词典输入界面113,以创建,编辑或删除应用词典。根据本发明的一个实施例,在一个品***的应用中,便包括品***的关键词,例如,时尚品牌(LV、Gucci等)或行业特定术语(产品名称、型号等)。这些关键词会被用于LQL规则设定中。下图是根据本发明的一个用于找出新闻和地区关系的应用词典。
该LQL处理模块105能根据LQL规则,从对被切分和词性标注的文本,提取所需的知识,并将知识储存于被提取知识数据库106当中。LQL是一种脚本语言,类似于结构化查询语言(SQL),但LQL是能够从未经结构化的文本资料中,提取所需资料。此外,LQL是能基于应用和用户的需要,而被定义所得。LQL规则输入界面112用于让使用者输入LQL规则,该LQL规则会被储存在该LQL规则数据库108。
根据本发明的一个实施例,LQL规则设定包括:
Select是选择的意思。Extraction Position是被提取知识在文本中的位置,以数值代表。因此,Select<Extraction Position>代表选择被提取知识在文本中的位置。
Coverage是LQL分析的覆盖范围,该覆盖范围可以是一个句子(Sentence),一个段落(Paragraph)或一个文档(Document)。
MatchCriteria是匹配条件,该匹配条件可以是短语列表(Phrase List)、具有特定词性标签的词(WORD POS)或不具有特定词性标签的词(WORDNOT POS)。
MatchPattern是匹配模式,该匹配模式是用于定义匹配条件。对于PhraseList,匹配模式可以是一个档案名称,该档案名称指向在一个应用词典内的一系列关键词。对于WORD POS或WORD NOT POS,其匹配模式是词性标签,如n、v、t等。
OptionalCriteria是可选的条件,应用于匹配条件,同时它能被一般的正规表达式所定义。
以下的是一个用于找出某人说了什么的例子。
在该LQL规则中,Select<1,3>是代表选择被提取知识在文本中的位置。1和3代表第一和第三个匹配条件(Word NOT pos不包含在内)。Sentence代表覆盖范围是句子。[Word pos=″nr″]是找出带有人名的词,“nr”代表人名。[Word NOT pos=″nr″]*{0-5}是在刚被找出的人名后的五个词里,不带有人名的词,以防止多于两个人的情况出现。对于[Phrase list=″speech_word.txt″],“speech_word.txt”是一个档案名称,其指向是一个应用词典,当中包括一系列的关键词,如提出、说、强调、指出、表示、指示、称、预计、认为、重申、估计、预估、预测、预期,都是“说”的同义词,用于表示某人说了什么。当在一个句子里出现具有人名的词性标签的词和所定义的关键词,即以上的匹配条件能得到满足,该人名(第一个匹配条件)和这些关键词后的一个或多个词(第三个匹配条件,但没有被显示出来)便会被提取出来。例如,陈大文估计股票会涨。根据该LQL规则,“陈大文、股票、会、涨”这四个词便从该句子中被提取出来。
以下的是一个用于分析某人国籍的例子。
Select<1,3>代表被选取的词在[Word pos=″nr″]和[Word pos=″ns″]的位置上。Sentence代表覆盖范围是句子。[Word pos=″nr″]是找出带有人名的词。[Word NOT pos=″nr″]*{0-5}是在刚被找出的人名后的五个词里,不带有人名的词,以防止多于两个人的情况出现。对于[Phraselist=″nationality_word.txt″],“nationality_word.txt”是一个档案名称,其指向是一个应用词典,当中包括一系列的关键词,如祖籍,籍貫等。[Word pos=″ns″]是找出有地方名称的词。当以上四个匹配条件在一个句子里都得到满足,带有人名和地方的词便被提取。例如,王大文的祖籍是台山。“王大文”和“台山”便被提取。
以下的便是一个用于寻找在新闻内容中发生意外的地点的例子。
Select<1,3>代表被选取的词在[Phrase list=″accidentType_word.txt″]和[Word pos=″ns″]的位置上。Sentence代表覆盖范围是句子。[Phraselist=″accidentType_word.txt″]是找出带有意外意思的关键词如風災,地震,海嘯,水難等。[Phrase list=″accident_word.txt″]是找出关键词如發生於, 位置在等。[Word pos=″ns″]是找出有词性标签为地名的词(ns)。当以上三个匹配条件在一个句子里都得到满足,带有意外意思的关键词和该地名便被提取。例如,風災發生於菲律宾。“風災”和“菲律宾”便被提取。
以下的便是其中一个用于品***的例子。
该LQL规则是:[品牌名称]+[新系列/新产品]+[新产品名称]。[品牌名称]是一个应用词典,其包括一系列品牌的名称。[新系列/新产品]是一个应用词典,其包括一系列在品牌名称前缀的关键词,如新系列。[新产品名称]是需要被找出的产品名称。
该LQL规则是:
Select<3> 代表被选取在product_prefix.txt中的关键词之后的词。Sentence代表覆盖范围是句子。[Phrase list=″brand_name.txt″]是找出brand_name.txt所指向有关品牌名称的关键词。[Phrase list=″product_prefix.txt″]是找出product_prefix.txt所指向有关品牌名称前缀的关键词。当以上两个匹配条件在一个句子里都得到满足,新产品名称便被提取。例句,GUCCI“新系列竹節包”2011新款只有這裡有。“竹節包”会被提取为新产品名称。
在很多时候,多个答案被提取,但当中只有一个或数个是正确的。错误校正模块111能根据错误校正规则,删除一些被错误提取的知识。错误校正规则输入界面114用于让使用者设定和输入错误校正规则。错误校正规则能被储存于错误校正规则数据库110中。此外,该错误校正模块111能对被提取的知识进行统计,以取得统计值。
下图示出一个用于寻找一个人的出生日期的例子。
该错误校正规则为:
答案只有一个,即为单值(因为一个人的出生日期只有一个);
被提取知识的来源数目需要大于3个(例如,在三个以上不同的网站中,获得该被提取的知识);
被提取知识的数目占所有被提取知识数目的百分比需要大于70%。
在此,3个和70%为该错误校正规则中定义的数值。“大于”便是该错误校正规则中定义的数值比较要求。因此,3个和70%也可称为阀值。图中的数目为这些被提取的知识的统计值。只有06/07/1951符合以上的数值比较要求,因为它的被提取知识的来源数目(该统计值为6)大于3和它的被提取知识的数目占所有被提取知识数目的百分(该统计值为88%)比也大于70%,因此被选为正确的答案。其他两个选择,07/06/1951和06/07/1952被删除。
下图示出一个用于寻找发生地震意外的地方的例子。
该错误校正规则为:
答案可以有多个,即为多值(因为在同一个时段可以发生多个地震);
被提取知识的来源数目需要大于3个;
被提取知识的数目占所有被提取知识数目的百分比需要大于20%。
在此,3个和20%为该错误校正规则中定义的数值。“大于”便是该错误校正规则中定义的数值比较要求。因此,3个和20%也可称为阀值。只有四川汶川和青海玉樹符合以上数值比较要求,因此被选为正确的答案。四川雲川只有一个文本来源和被提取知识的数目占所有被提取知识数目的百分比只有2%,因此被删除。
下图示出一个用于寻找新产品名称的例子。
该错误校正规则为:
答案可以有多个,即为多值(因为能同时有多个新产品);
被提取知识的来源数目需要大于3个;
被提取知识的数目占所有被提取知识数目的百分比需要大于20%。
在此,3个和20%为该错误校正规则中的阀值。竹節包和罪爱暗流符合以上的数值比较要求,因此被选为正确的答案。但最爱暗流因未能满足以上的要求,因此被删除。
根据本发明的另一个方面,提供了一种使用语言查询的文本分析方法,如图3所示,所述方法包括以下步聚:
S301:使用LQL规则输入界面,定义LQL规则;
S302:使用应用词典输入界面,定义应用词典;
S303:使用错误校正规则输入界面,定义错误校正规则;
S304:使用文本内容输入模块,取得文本内容;
S305:使用文本语法分析模块,对该文本进行语法分析。
S306:使用文本分词模块,对该文本进行词的切分;
S307:使用词性标注模块,对被切分出的词,进行词性标注;
S308:在LQL分析模块,使用LQL规则,对已被切分和标注的文本,进行LQL分析,以提取知识;
S309:把被提取的知识,储存于被提取知识数据库中;
S310:使用错误校正模块,并根据错误校正规则,删除错误被提取的知识,以增加所述被提取知识的准确性。
在步聚S308中,如图4所示,该LQL分析包括以下步聚:
S401:确立LQL规则所定义的覆盖范围;
S402:根据LQL规则的匹配条件所定义的词性标签,在该被切分和被词性标注的文本,找出具有该词性标签的词;
S403:根据LQL规则的匹配条件所定义关键词,在该被切分和被词性标注的文本,找出与该关键词相同的词;
S404:当在该覆盖范围中,该匹配条件能得到满足,根据LQL规则所定义的被提取知识在文本中位置,在该被切分和被词性标注的文本,提取一个或多个词。
在步聚S310中,如图5所示,该错误校正分析包括以下步聚:
S501:对被提取的知识进行统计,以取得统计值;
S502:把该统计值和该错误校正规则所定义的数值比较;
S503:删除不符合数值比较要求的被提取的知识。
根据本发明的以语言查询的文本分析方法和***,除了中文以外,也可适用于其他语言,如英语、德语、日语、韩语等,只需要使用合适的分词模块和词性标注模块便可。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
尽管已经示出和描述了本发明,本领域的技术人员可以理解的是,在不偏离本发明的原理和精神的前提下,可以在本实施例中进行改变,本发明的范围由所附权利要求及其等价物限定。
Claims (21)
1.一种使用语言查询的文本分析***,其特征在于,所述***包括:
文本内容输入模块,用于输入中文文本于所述的文本分析***;
中文分词模块,用于对该中文文本进行词的切分;
词性标注模块,用于对该被切分出的词,标注上词性标签;
应用词典数据库,包括一个或多个应用词典,该应用词典包括一个或多个关键词;
语言查询语言(LQL)规则数据库,用于储存一个或多个LQL规则,其中,该LQL规则的设定包括:
定义被提取的知识在该中文文本中的位置(Extraction Position);
定义覆盖范围(Coverage),该覆盖范围是一个句子,一个段落或一个文档;
定义一个或多个匹配条件(MatchCriteria),该匹配条件是短语列表(Phrase List)或具有特定词性标注的词(WORD POS);
定义匹配模式(MatchPattern),该匹配模式是用于定义匹配条件,当该匹配条件是短语列表时,其匹配模式是一个档案名称,该档案名称指向在该应用词典内的一个或多个关键词,当该匹配条件是该具有特定词性标注的词时,其匹配模式是词性标签;
LQL分析模块,根据该LQL规则,用于对该被切分和被词性标注的中文文本,进行LQL分析,并提取所需的知识,其中,该LQL分析包括:
确立该LQL规则所定义的覆盖范围;
根据该LQL规则的匹配条件所定义的词性标签,在该被切分和被词性标注的中文文本,找出具有该词性标签的词;
根据该LQL规则的匹配条件所定义的关键词,在该被切分和被词性标注的中文文本,找出与该关键词相同的词;
当在该覆盖范围中,该匹配条件能得到满足,根据该LQL规则所定义的被提取知识在中文文本中的位置,提取一个或多个词;
被提取知识数据库,用于储存该被提取的知识。
2.根据权利要求1所述的文本分析***,其特征在于,所述***还包括:
错误校正规则数据库,用于储存一个或多个错误校正规则;
错误校正模块,能使用该错误校正规则,对被提取的知识,进行错误校正分析,以删除错误被提取的知识,增加所述被提取的知识的准确性。
3.根据权利要求2所述的文本分析***,其特征在于,该错误校正规则包括设定一个或多个数值和数值比较要求,该错误校正模块对被提取的知识进行统计,取得统计值,并和该数值比较,当该被提取的知识的该统计值不符合该数值比较要求,该被提取的知识会被删除。
4.根据权利要求3所述的文本分析***,其特征在于,该统计值包括被提取知识的来源数目、被提取知识的数目或被提取知识的数目占所有被提取知识数目的百分比。
5.根据权利要求3所述的文本分析***,其特征在于,该数值包括被提取知识来源数目的阈值、被提取知识数目的阈值或被提取知识的数目占所有被提取知识数目的百分比的阈值,该数值比较要求是比较该统计值和该数值,该统计值大于、小于或者等于该数值。
6.根据权利要求1所述的文本分析***,其特征在于,所述***还包括:
文本语法分析模块,用于分析该中文文本的语法;
中文分词词典,包括术语列表,该术语列表中的术语具有词性标注和该词性标注出现的频率,用于对该中文文本进行词的切分和词性标注;
LQL规则输入界面,用于让使用者设定LQL规则;
应用词典输入界面,用于让使用者设定应用词典。
7.根据权利要求2所述的文本分析***,其特征在于,所述***还包括:
错误校正规则输入界面,用于让使用者输入错误校正规则。
8.根据权利要求1所述的文本分析***,其特征在于,该中文文本是在互联网被获取的。
9.根据权利要求8所述的文本分析***,其特征在于,使用应用程序界面或网络搜索器以获取该在互联网上的中文文本。
10.根据权利要求1所述的文本分析***,其特征在于,使用维特比算法或前向算法以对被切分出的词进行词性标注。
11.根据权利要求1所述的文本分析***,其特征在于,该匹配条件还包括不具有特定的词性标注的词(WORD NOT POS),其匹配模式是词性标签。
12.根据权利要求1所述的文本分析***,其特征在于,该LQL规则的设定还包括:
定义可选的条件(OptionalCriteria),用于匹配条件上。
13.根据权利要求2所述的文本分析***,其特征在于,该错误校正规则包括设定该被提取的知识是单值的或多值的。
14.根据权利要求1所述的文本分析***,其特征在于,所述***应用于人物搜索、新闻搜寻***或品***。
15.一种使用权利要求1所述的***的文本分析方法,其特征在于,所述方法包括:
S1:取得中文文本;
S2:使用中文分词模块,对该中文文本进行词的切分;
S3:使用词性标注模块,对该被切分出的词,进行词性标注;
S4:在LQL分析模块,使用LQL规则,对该被切分和标注的中文文本,进行LQL分析,以提取知识,其中,该LQL分析包括以下步骤:
确立该LQL规则所定义的覆盖范围;
根据该LQL规则的匹配条件所定义的词性标签,在该被切分和被词性标注的中文文本,找出具有该词性标签的词;
根据该LQL规则的匹配条件所定义的关键词,在该被切分和被词性标注的中文文本,找出与该关键词相同的词;
当在该覆盖范围中,该匹配条件能得到满足,根据该LQL规则所定义的被提取知识在中文文本中的位置,提取一个或多个词。
16.根据权利要求15所述的文本分析方法,其特征在于,所述方法还包括:
根据错误校正规则,对该被提取的知识进行错误校正分析,以删除错误被提取的知识,增加所述被提取的知识的准确性。
17.根据权利要求16所述的文本分析方法,其特征在于,该错误校正分析包括:
对该被提取的知识进行统计,以取得统计值;
把该统计值和该错误校正规则所定义的数值进行比较;
当该被提取的知识的该统计值不符合数值比较要求,该被提取的知识会被删除。
18.根据权利要求17所述的文本分析方法,其特征在于,该统计值包括被提取知识的来源数目、被提取知识的数目或被提取知识的数目占所有被提取知识数目的百分比。
19.根据权利要求17所述的文本分析方法,其特征在于,该数值包括被提取知识来源数目的阈值、被提取知识数目的阈值或被提取知识的数目占所有被提取知识数目的百分比的阈值,该数值比较要求是比较该统计值和该数值,该统计值大于、小于或者等于该数值。
20.根据权利要求15所述的文本分析方法,其特征在于,所述方法应用于人物搜索、新闻搜寻***或品***。
21.一种使用语言查询的文本分析***,其特征在于,所述***适用于不同的语言,所述***包括:
文本内容输入模块,用于输入该语言的文本于所述的文本分析***;
语言分词模块,用于对该文本进行词的切分;
词性标注模块,用于对该被切分出的词,标注上词性标签;
应用词典数据库,包括一个或多个应用词典;
语言查询语言(LQL)规则数据库,用于储存一个或多个LQL规则,其中,该LQL规则的设定包括:
定义被提取的知识在该文本中的位置(Extraction Position);
定义覆盖范围(Coverage),该覆盖范围是一个句子,一个段落或一
个文档;
定义一个或多个匹配条件(MatchCriteria),该匹配条件是短语列表(Phrase List)或具有特定词性标注的词(WORD POS);
定义匹配模式(MatchPattern),该匹配模式是用于定义匹配条件,当该匹配条件是短语列表时,其匹配模式是一个档案名称,该档案名称指向在该应用词典内的一个或多个关键词,当该匹配条件是该具有特定词性标注的词时,其匹配模式是词性标签;
LQL分析模块,根据该LQL规则,用于对该被切分和被词性标注的文本,进行LQL分析,并提取所需的知识,其特征在于,该LQL分析包括:
确立该LQL规则所定义的覆盖范围;
根据该LQL规则的匹配条件所定义的词性标签,在该被切分和被词性标注的文本,找出具有该词性标签的词;
根据该LQL规则的匹配条件所定义的关键词,在该被切分和被词性标注的文本,找出与该关键词相同的词;
当在该覆盖范围中,该匹配条件能得到满足,根据该LQL规则所定义的被提取知识在文本中的位置,提取一个或多个词;
被提取知识数据库,用于储存该被提取的知识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310330423.5A CN104346382B (zh) | 2013-07-31 | 2013-07-31 | 使用语言查询的文本分析***和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310330423.5A CN104346382B (zh) | 2013-07-31 | 2013-07-31 | 使用语言查询的文本分析***和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104346382A true CN104346382A (zh) | 2015-02-11 |
CN104346382B CN104346382B (zh) | 2017-08-29 |
Family
ID=52501997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310330423.5A Active CN104346382B (zh) | 2013-07-31 | 2013-07-31 | 使用语言查询的文本分析***和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104346382B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778262A (zh) * | 2015-04-21 | 2015-07-15 | 无锡天脉聚源传媒科技有限公司 | 一种搜索方法及装置 |
CN105243130A (zh) * | 2015-09-29 | 2016-01-13 | 中国电子科技集团公司第三十二研究所 | 面向数据挖掘的文本处理***及方法 |
CN107870966A (zh) * | 2017-08-11 | 2018-04-03 | 成都萌想科技有限责任公司 | 一种基于语义模型的招聘简章数据抽取方法 |
CN109214005A (zh) * | 2018-09-14 | 2019-01-15 | 南威软件股份有限公司 | 一种基于中文分词的线索提取方法及*** |
CN109558589A (zh) * | 2018-11-12 | 2019-04-02 | 速度时空信息科技股份有限公司 | 一种基于中文分词技术的畅想文书的方法及*** |
CN113239206A (zh) * | 2021-06-18 | 2021-08-10 | 广东博维创远科技有限公司 | 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100069120A (ko) * | 2008-12-16 | 2010-06-24 | 한국전자통신연구원 | 운율 모델을 이용한 형태소 품사 태깅 방법 및 그 장치 |
CN102207947A (zh) * | 2010-06-29 | 2011-10-05 | 天津海量信息技术有限公司 | 一种直接引语素材库的生成方法 |
CN102253930A (zh) * | 2010-05-18 | 2011-11-23 | 腾讯科技(深圳)有限公司 | 一种文本翻译的方法及装置 |
CN102654873A (zh) * | 2011-03-03 | 2012-09-05 | 苏州同程旅游网络科技有限公司 | 基于中文分词的旅游信息抽取与聚合方法 |
-
2013
- 2013-07-31 CN CN201310330423.5A patent/CN104346382B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100069120A (ko) * | 2008-12-16 | 2010-06-24 | 한국전자통신연구원 | 운율 모델을 이용한 형태소 품사 태깅 방법 및 그 장치 |
CN102253930A (zh) * | 2010-05-18 | 2011-11-23 | 腾讯科技(深圳)有限公司 | 一种文本翻译的方法及装置 |
CN102207947A (zh) * | 2010-06-29 | 2011-10-05 | 天津海量信息技术有限公司 | 一种直接引语素材库的生成方法 |
CN102654873A (zh) * | 2011-03-03 | 2012-09-05 | 苏州同程旅游网络科技有限公司 | 基于中文分词的旅游信息抽取与聚合方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778262A (zh) * | 2015-04-21 | 2015-07-15 | 无锡天脉聚源传媒科技有限公司 | 一种搜索方法及装置 |
CN104778262B (zh) * | 2015-04-21 | 2018-07-24 | 无锡天脉聚源传媒科技有限公司 | 一种搜索方法及装置 |
CN105243130A (zh) * | 2015-09-29 | 2016-01-13 | 中国电子科技集团公司第三十二研究所 | 面向数据挖掘的文本处理***及方法 |
CN107870966A (zh) * | 2017-08-11 | 2018-04-03 | 成都萌想科技有限责任公司 | 一种基于语义模型的招聘简章数据抽取方法 |
CN109214005A (zh) * | 2018-09-14 | 2019-01-15 | 南威软件股份有限公司 | 一种基于中文分词的线索提取方法及*** |
CN109558589A (zh) * | 2018-11-12 | 2019-04-02 | 速度时空信息科技股份有限公司 | 一种基于中文分词技术的畅想文书的方法及*** |
CN113239206A (zh) * | 2021-06-18 | 2021-08-10 | 广东博维创远科技有限公司 | 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置 |
CN113239206B (zh) * | 2021-06-18 | 2023-05-12 | 广东博维创远科技有限公司 | 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104346382B (zh) | 2017-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763333B (zh) | 一种基于社会媒体的事件图谱构建方法 | |
CN106874378B (zh) | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 | |
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
CN102254014B (zh) | 一种网页特征自适应的信息抽取方法 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN108628828A (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
US20080306941A1 (en) | System for automatically extracting by-line information | |
CN103544210A (zh) | 一种识别网页类型的***和方法 | |
CN104346382A (zh) | 使用语言查询的文本分析***和方法 | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
CN111104801B (zh) | 基于网址域名的文本分词方法、***、设备及介质 | |
CN104965823A (zh) | 一种基于大数据的观点抽取方法 | |
CN106484797A (zh) | 基于稀疏学习的突发事件摘要抽取方法 | |
CN104281565A (zh) | 语义词典构建方法和装置 | |
CN105183765A (zh) | 一种基于大数据的话题抽取方法 | |
Loynes et al. | The detection and location estimation of disasters using Twitter and the identification of Non-Governmental Organisations using crowdsourcing | |
Campbell et al. | Content+ context networks for user classification in twitter | |
Hedar et al. | Mining social networks arabic slang comments | |
Zhang et al. | Event-based summarization for scientific literature in chinese | |
Yang et al. | A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree | |
Tian et al. | Research of product ranking technology based on opinion mining | |
Kannan et al. | Text document clustering using statistical integrated graph based sentence sensitivity ranking algorithm | |
CN113157857A (zh) | 面向新闻的热点话题检测方法、装置及设备 | |
Raj et al. | A trigraph based centrality approach towards text summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |