CN109214005A - 一种基于中文分词的线索提取方法及*** - Google Patents
一种基于中文分词的线索提取方法及*** Download PDFInfo
- Publication number
- CN109214005A CN109214005A CN201811074803.6A CN201811074803A CN109214005A CN 109214005 A CN109214005 A CN 109214005A CN 201811074803 A CN201811074803 A CN 201811074803A CN 109214005 A CN109214005 A CN 109214005A
- Authority
- CN
- China
- Prior art keywords
- clue
- word segmentation
- text
- chinese word
- extracting method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 239000000284 extract Substances 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理技术领域,公开了一种基于中文分词的线索提取方法及***,***包括语义分词模块、线索提取模块和文本标注模块,对中文分词进行线索提取首先采用导入Asnj开源工具包调用NlpAnalysis.parse()方法将线索文本根据语义分词,并分析词性,然后将分词所得词序列结合词性提取线索价值信息,最后在文本内容中标出提取到的线索信息;同时公开一种提取方法。本发明能够根据切分出来的词性进行组合提取,大大提高了提取的灵活性和准确性,提高了工作效率,节省了时间和人力。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于中文分词的线索提取方法及***。
背景技术
目前,业内常用的现有技术是这样的:
近年来,随着网络日益普及,互联网上的文本规模逐步扩大,信息资源不断增加,相关部门的工作人员往往需要通过技术手段从海量文本信息中提取具有线索价值的内容。由于计算机不能识别中文文本的语义,所以必须将文本进行中文分词。
中文分词是指将连续的中文字符串按照一定的规范分割成词序列的过程。中文不同于英文,其自身特点在于中文是以字为基本的书写单位,句子和段落之间通过分界符来划界,但词间并没有形式上的分界符,而在自然语言处理中,词是最小的能够独立活动的有意义的语言成分,所以分词的质量的好坏直接影响之后的自然语言处理任务。
传统的技术如果要在一段文本中提取可能存在的人名或地名,需将预先准备好的可能存在的人名或地名进行全文检索提取,这样灵活性、准确性大大降低。
综上所述,现有技术存在的问题是:
传统的技术提取文本缺乏灵活性,且准确率很低,致使提取文本的工作效率低,浪费时间。
发明内容
针对现有技术存在的问题,本发明提供了一种基于中文分词的线索提取方法及***。
本发明是这样实现的,一种基于中文分词的线索提取方法,所述基于中文分词的线索提取方法包括:
根据切分出来的词性进行组合提取;
对文本内容进行智能分析,提取具有线索价值的内容。
进一步,所述基于中文分词的线索提取方法具体包括:
将线索文本根据语义分词,并分析词性;
将分词所得词序列结合词性提取线索价值信息;
在文本内容中标出提取到的线索信息。
进一步,所述将线索文本根据语义分词采用导入Asnj开源工具包调用NlpAnalysis.parse()方法。
本发明的另一目的在于提供一种线索提取计算机程序,所述线索提取计算机程序实现所述的基于中文分词的线索提取方法。
本发明的另一目的在于提供一种终端,所述终端至少搭载实现基于中文分词的线索提取方法的控制器。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于中文分词的线索提取方法。
本发明的另一目的在于提供一种实施所述基于中文分词的线索提取方法的基于中文分词的线索提取方法及***,所述基于中文分词的线索提取***包括:
语义分词模块,用于将文本分词并分析词性;
线索提取模块,用于提取分词的线索价值信息;
文本标注模块,用于标注文本内容中的线索信息。
本发明的另一目的在于提供一种网络文本词语提取平台,所述网络文本词语提取平台至少搭载所述的基于中文分词的线索提取***。
综上所述,本发明的优点及积极效果为:
本发明可实现根据切分出来的词性进行组合提取,如将相同词性都为nr(人名)或ns(地名)的词语进行提取,大大提高了提取灵活性及准确性。同时还可对文本内容进行智能分析,快速准确提取具有线索价值的内容,大大提高工作效率,节省大量的时间和人力。
附图说明
图1是本发明实施例提供的基于中文分词的线索提取方法流程图。
图2是本发明实施例提供的基于中文分词的线索提取***示意图;
图中:1、语义分词模块;2、线索提取模块;3、文本标注模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
中文分词是文本挖掘的基础,文本挖掘是用于基于文本信息的知识发现,对于输入的一段中文,成功的进行中文分词,可以达到使计算机能够自动识别语句含义的效果。从而大大提高工作人员对线索的分析速度和价值线索的感知提取速度,提高工作效能。
为了解决现有技术存在的问题,本发明提供了一种基于中文分词的线索提取方法及***,
如图1所示,本发明实施例提供的基于中文分词的线索提取方法步骤为:
S101:将线索文本根据语义分词,并分析词性;
S102:将分词所得词序列结合词性提取线索价值信息;
S103:在文本内容中标出提取到的线索信息。
所述将线索文本根据语义分词采用导入Asnj开源工具包调用NlpAnalysis.parse()方法。
如图2所示,本发明还提供的基于中文分词的线索提取***,包括:语义分词模块1、线索提取模块2和文本标注模块3;
所述语义分词模块1用于将文本分词并分析词性;
所述线索提取模块2用于提取分词的线索价值信息;
所述文本标注模块3用于标注文本内容中的线索信息。
所述语义分词模块1进行分词,所有分词进入到线索提取模块2,线索提取模块2进行线索价值信息的提取,提取结果进入到文本标注模块3,文本标注模块3将文本中的线索信息标出。
下面通过实施例对本发明做进一步描述。
将线索文本根据语义分词,并分析词性中,对“厅情报中心工作发现嫌疑人王某可疑手机号码为12345678901”这段线索内容进行分词后会得到一段词序列及词性,结果为“厅情报中心/nt,工作/vn,发现/v,嫌疑人/n,王某/nr,可疑/a,手机/n,号码/n,为/p,12345678901/m”。其中nt为机构团体名,vn是名动词,v是动词,n为名词,nr是人名,a是形容词,m是数词等等。
将分词所得词序列结合词性提取线索价值信息中,对手机号码提取可只提取词性为m的词片段并结合前后文进行正则表达式验证,匹配是否为手机号码。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于中文分词的线索提取方法,其特征在于,所述基于中文分词的线索提取方法包括:
将工程项目导入Asnj开源工具包并调用NlpAnalysis.parse()方法,并返回分词相关属性序列。
2.如权利要求1所述的基于中文分词的线索提取方法,其特征在于,所述基于中文分词的线索提取方法包括:
对文本内容进行智能分析,将分词后所得词序列中带有相同词性进行提取线索信息。
3.如权利要求2所述的基于中文分词的线索提取方法,其特征在于,在文本内容中标出提取到的线索信息。
4.一种线索提取计算机程序,其特征在于,所述线索提取计算机程序实现权利要求1~3任意一项所述的基于中文分词的线索提取方法。
5.一种终端,其特征在于,所述终端至少搭载实现权利要求1~3任意一项所述基于中文分词的线索提取方法的控制器。
6.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-3任意一项所述的基于中文分词的线索提取方法。
7.一种实施权利要求1所述基于中文分词的线索提取方法的基于中文分词的线索提取方法及***,其特征在于,所述基于中文分词的线索提取***包括:
语义分词模块,用于将文本分词并分析词性;
线索提取模块,用于提取分词的线索价值信息;
文本标注模块,用于标注文本内容中的线索信息。
8.一种网络文本词语提取平台,其特征在于,所述网络文本词语提取平台至少搭载权利要求7所述的基于中文分词的线索提取***。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811074803.6A CN109214005A (zh) | 2018-09-14 | 2018-09-14 | 一种基于中文分词的线索提取方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811074803.6A CN109214005A (zh) | 2018-09-14 | 2018-09-14 | 一种基于中文分词的线索提取方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109214005A true CN109214005A (zh) | 2019-01-15 |
Family
ID=64984142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811074803.6A Pending CN109214005A (zh) | 2018-09-14 | 2018-09-14 | 一种基于中文分词的线索提取方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109214005A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818677A (zh) * | 2021-02-22 | 2021-05-18 | 康美健康云服务有限公司 | 一种基于互联网的信息评估方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009175895A (ja) * | 2008-01-22 | 2009-08-06 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN104346382A (zh) * | 2013-07-31 | 2015-02-11 | 香港理工大学 | 使用语言查询的文本分析***和方法 |
CN105354333A (zh) * | 2015-12-07 | 2016-02-24 | 天云融创数据科技(北京)有限公司 | 一种基于新闻文本的话题提取方法 |
-
2018
- 2018-09-14 CN CN201811074803.6A patent/CN109214005A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009175895A (ja) * | 2008-01-22 | 2009-08-06 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN104346382A (zh) * | 2013-07-31 | 2015-02-11 | 香港理工大学 | 使用语言查询的文本分析***和方法 |
CN105354333A (zh) * | 2015-12-07 | 2016-02-24 | 天云融创数据科技(北京)有限公司 | 一种基于新闻文本的话题提取方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818677A (zh) * | 2021-02-22 | 2021-05-18 | 康美健康云服务有限公司 | 一种基于互联网的信息评估方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI729472B (zh) | 特徵詞的確定方法、裝置和伺服器 | |
CN113807098A (zh) | 模型训练方法和装置、电子设备以及存储介质 | |
KR101893090B1 (ko) | 취약점 정보 관리 방법 및 그 장치 | |
CN105335360B (zh) | 生成文档结构的方法和装置 | |
CN111079408B (zh) | 一种语种识别方法、装置、设备及存储介质 | |
CN111160003B (zh) | 一种断句方法及装置 | |
CN112507102B (zh) | 基于预训练范式模型的预测部署***、方法、装置及介质 | |
CN108563629B (zh) | 一种日志解析规则自动生成方法和装置 | |
CN115544240B (zh) | 文本类敏感信息识别方法、装置、电子设备和存储介质 | |
CN109582954A (zh) | 用于输出信息的方法和装置 | |
WO2023116561A1 (zh) | 一种实体提取方法、装置、电子设备及存储介质 | |
CN116108857B (zh) | 信息抽取方法、装置、电子设备以及存储介质 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
JP2023015215A (ja) | テキスト情報の抽出方法、装置、電子機器及び記憶媒体 | |
CN105573980A (zh) | 信息片段生成方法和装置 | |
WO2022121146A1 (zh) | 一种代码片段重要性的判断方法和装置 | |
WO2024051196A1 (zh) | 恶意代码检测方法、装置、电子设备及存储介质 | |
CN111492364B (zh) | 数据标注方法、装置及存储介质 | |
CN109672586A (zh) | 一种dpi业务流量识别方法、装置与计算机可读存储介质 | |
CN111626055B (zh) | 文本处理方法及装置、计算机存储介质、电子设备 | |
CN109214005A (zh) | 一种基于中文分词的线索提取方法及*** | |
US9710450B2 (en) | Recombining incorrectly separated tokens in natural language processing | |
CN114662469B (zh) | 情感分析方法、装置、电子设备及存储介质 | |
CN113312451B (zh) | 文本标签确定方法和装置 | |
US10002450B2 (en) | Analyzing a document that includes a text-based visual representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190115 |
|
RJ01 | Rejection of invention patent application after publication |