CN111401450A - 一种交易场所分类方法和装置 - Google Patents
一种交易场所分类方法和装置 Download PDFInfo
- Publication number
- CN111401450A CN111401450A CN202010184062.8A CN202010184062A CN111401450A CN 111401450 A CN111401450 A CN 111401450A CN 202010184062 A CN202010184062 A CN 202010184062A CN 111401450 A CN111401450 A CN 111401450A
- Authority
- CN
- China
- Prior art keywords
- data
- keyword
- boundary
- model
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012795 verification Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 24
- 239000000047 product Substances 0.000 description 10
- 238000010276 construction Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 235000010469 Glycine max Nutrition 0.000 description 3
- 244000068988 Glycine max Species 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 239000002184 metal Substances 0.000 description 3
- 229910052751 metal Inorganic materials 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2451—Classification techniques relating to the decision surface linear, e.g. hyperplane
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种交易场所分类方法和装置,包括步骤:接收第一数据,根据第一数据获取第二数据,所述第二数据为文本数据,对所述第二数据进行标记处理,生成第三数据;对所述第三数据进行第二预处理,得出第四数据,将所述第四数据进行转换,得出第五数据,根据所述第五数据,生成第一模型;将所述第五数据划分为第一部分和第二部分,将所述第一部分导入第一库生成所述第一边界,将所述第二部分导入验证,得出第二模型;接收场所信息,将所述场所信息进行所述第二预处理得出所述第一信息,将所述第一信息导入所述第二模型,得出场所类别。通过分界线判断所述场所类别,在直观而且快捷的同时,提高所述场所类别的划分准确性。
Description
技术领域:
本发明涉及金融监管领域,具体的,涉及一种交易场所分类方法和装置。
背景技术:
在我国,交易场所在活跃金融市场、促进金融资产流动性等方面发挥着显著的作用。地 方政府出于发展经济的需要,相继批设了一些从事权益和商品交易的场所,其中,金融资产 交易场所作为多层次资本市场体系的有益补充,拓宽了中小微企业的融资渠道,为地方经济 的良性发展注入活水之源。
但是,金融资产交易场所在发挥积极作用的同时也暴露出一些风险和问题,如违规开展 证券期货业务、涉嫌权益拆分公开发行、涉嫌违规采用集中交易、涉嫌违规发行投资收益权 类产品、涉嫌非法转让不良资产等。成立清理整顿各类交易场所联席会议机制,对各个地方 交易场所进行清理整顿,虽然将滥设交易场所、违规违法经营的现象得到有效遏制,整顿工 作成效显著,但违规异常行为仍然存在。
在实际监管工作中,往往存在着网络数据量大,难以监管的问题,因此需要结合交易所 其他违规异常行为检测方法,实现对交易场所违规异常行为的准确检测。
因此,本领域亟需一种交易场所分类方法和装置以解决现有技术中的至少一项技术问 题。
发明内容:
为解决背景技术中的至少一个技术问题,提出本发明。
具体的,本发明提供了一种交易场所分类方法,包括步骤:
数据采集,接收第一数据,根据第一数据获取第二数据,所述第二数据为文本数据,对 所述第二数据进行标记处理,生成第三数据;
数据处理,对所述第三数据进行第二预处理,得出第四数据,将所述第四数据进行转换, 得出第五数据,根据所述第五数据,生成第一模型;
分类模型构建,将所述第五数据划分为第一部分和第二部分,将所述第一部分导入第一 库生成第一边界,将所述第二部分导入验证,得出第二模型;
场所分类,接收场所信息,将所述场所信息进行所述第二预处理得出第一信息,将所述 第一信息导入所述第二模型,得出场所类别。
采用上述方案,根据互联网中的所述第一数据采集所述第一数据中的文本数据,所述第 三数据为标记后的第二数据,使用带有标记的第三数据、第四数据转换为第五数据,所述第 五数据同样带有标记,方便验证模型的正确率;通过分界线判断所述场所类别,在直观而且 快捷的同时,提高所述场所类别的划分准确性。
进一步地,所述第一数据为网页地址数据,所述数据采集的步骤还包括:
根据所述第一数据,在互联网中找到网页数据,提取所述网页数据,得出第二数据;
接收类别关键词数据,根据所述类别关键词数据对所述第二数据进行标记,得出第三数 据。
采用上述方案,通过所述类别关键词对所述文本数据进行标记,能够极大程度的保证标 记的精准性,所述第三数据为后续步骤提供样本,保证标记准确性,提高后续步骤准确性, 进而提高模型的分类正确率。
进一步地,所述数据处理的步骤还包括:
接收所述第三数据;
对所述第三数据进行第二预处理,提取所述第三数据中的特征词,得出第四数据;
将所述第四数据转换为向量数据,得出所述第五数据;
将所述第五数据的所述向量数据在同一空间中体现,得出所述第一模型。
采用上述方案,将所述特征词转换为向量数据,并将所述向量数据在同一空间中体现, 便于对需要辨认的数据在同一空间中辨认,提高分类准确性。
优选地,所述向量数据为二维向量、三维向量或多维向量。
进一步地,所述第二预处理的步骤包括:
接收所述第三数据;
对所述第三数据进行分词处理,得出第一关键词;
提取所述第一关键词中的无意义词;
将所述无意义词从所述第一关键词中删除,得出第二关键词;
对所述第二关键词进行权重处理,得出所述特征词。
进一步地,所述权重处理的步骤包括:
接收权重系数阈值参数;
根据所述第二关键词的词频指数和文本频率指数得出关键词权重系数;
判断所述关键词权重系数是否大于所述权重系数阈值参数;
若否,判定所述第二关键词不为第一特征词;
若是,判定所述第二关键词为所述第一特征词;
接收特征词数量参数,设所述特征词数量参数为β;
判断所述第一特征词数量是否大于β;
若否,所有所述第一特征词都为特征词;
若是,将所述第一特征词根据所述关键词权重系数进行排名,截取前β项;
判断所述第一特征词是否属于所述前β项;
若否,所述第一特征词不为特征词;
若是,所述第一特征词为特征词。
进一步地,所述词频指数为当前第二关键词所在页面出现次数,所述文本频率指数为当 前第二关键词在所有第二关键词中的出现次数,所述词频指数≤文本频率指数。
进一步地,所述关键词权重系数=词频指数/文本频率指数*词频指数。
采用上述方案,所述第二预处理分三步对所述第三数据进行处理,分别为:一、删除无 意义词;二、根据所述词频指数和文本频率指数,得出所述关键词权重系数,通过设置权重 系数阈值参数,将所述关键词权重系数较低的数据作为无用数据,将无用数据删除;三、将 所述第一特征词根据所述关键词权重系数进行排名,截取前β项,提出β项后的数据;通过 三次处理提高数据精简性和准确性。
进一步地,所述分类模型构建的步骤包括:
将所述第五数据划分为第一部分和第二部分,所述第一部分为训练数据集,所述第二部 分为测试数据集;
将所述训练数据集导入所述第一库,根据第一函数,调整所述第一函数的第一系数得出 所述第一边界;
接收正确率阈值参数;
将所述第二部分导入标记有所述第一边界的第一模型,得出测试正确率;
判断所述测试正确率是否大于所述正确率阈值参数;
若是,标记有所述第一边界的第一模型即为所述第二模型;
若否,调整所述第一系数,重新计划所述第一边界。
采用上述方案,通过对含有分类标记的第五数据进行划分,将所述训练数据集导入所述 第一库,得出标记有所述第一边界的第一模型,在使用含有标记的测试数据集和测试结果比 对,得出测试正确率,比对正确率阈值参数调整所述第一边界,得出最佳的边界位置,提高 所述第二模型最终分类准确性。
进一步地,所述第一边界根据公式:
y=WtX+b
Wt为权重向量,t为向量维度,b为平移量。
优选地,当所述向量数据为二维向量时所述第一边界为线,当所述向量数据为三维向量 时,所述第一边界为面。
进一步地,得出所述第一边界的步骤还包括:
将所述第一部分分为第一子部分和第二子部分;
将所述第一子部分导入所述第一库,根据所述第一函数,根据所述第一系数得出第一预 边界,将所述第二子部分导入含有所述第一预边界的第一模型,得出预正确率;
重新分配所述第一子部分和第二子部分,得出新的所述预正确率;
多次重新分配所述第一子部分和第二子部分,得出多个预正确率;
计算多个所述预正确率的平均值,计算平均值对应的最佳所述第一系数。
采用上述方案,通过多次分配所述第一子部分和第二子部分对所述模型进行多次训练, 的出多个所述预正确率,将多个所述预正确率对应的第一系数作为最佳的第一系数,而不是 正确率最高的预正确率作为最佳第一系数,解决了由于样本的局限性,造成虽然训练正确率 高,但是实际分类不准确的问题。
进一步地,所述场所分类的步骤还包括:
判断所述第一信息是否为交易信息;
若否,所述第一信息不为交易信息;
若是,判断所述第一信息数据在一级类别的类型;
判断所述第一信息数据在所述一级类别下的二级类别类型。
采用上述方案,逐级判断所述第一信息数据的类型,一方面降低了计算机的计算量,另 一方面提高模型的分类精准性,解决了一次判断花费时间长且不够准确的问题。
本发明另一方面提供了一种交易场所分类装置,包括存储器、处理器及存储在存储器上 并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
综上所述,本发明具有以下有益效果:
1.本发明提供的交易场所分类方法,根据互联网中的所述第一数据采集所述第一数据中 的文本数据,所述第三数据为标记后的第二数据,使用带有标记的第三数据、第四数据转换 为第五数据,所述第五数据同样带有标记,方便验证模型的正确率;通过分界线判断所述场 所类别,在直观而且快捷的同时,提高所述场所类别的划分准确性。
2.本发明提供的交易场所分类方法通过所述第二预处理分三步对所述第三数据进行处 理,分别为:一、删除无意义词;二、根据所述词频指数和文本频率指数,得出所述关键词 权重系数,通过设置权重系数阈值参数,将所述关键词权重系数较低的数据作为无用数据, 将无用数据删除;三、将所述第一特征词根据所述关键词权重系数进行排名,截取前β项, 提出β项后的数据;通过三次处理提高数据精简性和准确性。
3.本发明提供的交易场所分类方法通过对含有分类标记的第五数据进行划分,将所述训 练数据集导入所述第一库,得出标记有所述第一边界的第一模型,在使用含有标记的测试数 据集和测试结果比对,得出测试正确率,比对正确率阈值参数调整所述第一边界,得出最佳 的边界位置,提高所述第二模型最终分类准确性。
4.本发明提供的交易场所分类方法通过多次分配所述第一子部分和第二子部分对所述 模型进行多次训练,的出多个所述预正确率,将多个所述预正确率对应的第一系数作为最佳 的第一系数,而不是正确率最高的预正确率作为最佳第一系数,解决了由于样本的局限性, 造成虽然训练正确率高,但是实际分类不准确的问题。
附图说明
图1为本发明一种交易场所分类方法一种实施方式的流程图;
图2为所述数据处理一种实施方式的流程图;
图3为所述权重处理一种实施方式的流程图;
图4为所述分类模型构建一种实施方式的流程图;
图5为调整所述第一系数得出所述第一边界一种实施方式的流程图。
具体实施方式:
这里将详细地对示例性实施例进行说明,以下示例性实施例中所描述的实施方式并不代 表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发 明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发 明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形 式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包 含一个或多个相关联的列出项目的任何或所有可能组合。
为解决背景技术中的至少一项技术问题,如图1所示,本发明提供了一种交易场所分类 方法,包括步骤:
数据采集,接收第一数据,根据第一数据获取第二数据,所述第二数据为文本数据,对 所述第二数据进行标记处理,生成第三数据;
数据处理,对所述第三数据进行第二预处理,得出第四数据,将所述第四数据进行转换, 得出第五数据,根据所述第五数据,生成第一模型;
分类模型构建,将所述第五数据划分为第一部分和第二部分,将所述第一部分导入第一 库生成第一边界,将所述第二部分导入验证,得出第二模型;
场所分类,接收场所信息,将所述场所信息进行所述第二预处理得出第一信息,将所述 第一信息导入所述第二模型,得出场所类别。
采用上述方案,根据互联网中的所述第一数据采集所述第一数据中的文本数据,所述第 三数据为标记后的第二数据,使用带有标记的第三数据、第四数据转换为第五数据,所述第 五数据同样带有标记,方便验证模型的正确率;通过分界线判断所述场所类别,在直观而且 快捷的同时,提高所述场所类别的划分准确性。
在具体实施过程中,本方法采用机器学***面(maximum-margin hyperplane)。
在具体实施过程中,所述第一数据为网页地址数据,所述数据采集的步骤还包括:
根据所述第一数据,在互联网中找到网页数据,提取所述网页数据,得出第二数据;
接收类别关键词数据,根据所述类别关键词数据对所述第二数据进行标记,得出第三数 据。
采用上述方案,通过所述类别关键词对所述文本数据进行标记,能够极大程度的保证标 记的精准性,所述第三数据为后续步骤提供样本,保证标记准确性,提高后续步骤准确性, 进而提高模型的分类正确率。
在具体实施过程中,所述网页地址数据可以为http://baijiahao.***.com/s?id=16074698 2261623397、http://baijiahao.***.com/s?id=166057924545056132或https://h5.china.com.c n/bjh/doc_1_1_730415.html等。
在具体实施过程中,类别关键词数据可以为“大宗商品类|农产品|大豆、大宗商品类| 金属产品|黄金”或“权益类|产权|房屋”等。
在具体实施过程中,所述第二数据可以为“交易大豆”、“黄金价格”或“房屋交易”等。
在具体实施过程中,“交易大豆”的标签为“大宗商品类|农产品”;“黄金价格”的标签为“大宗商品类|金属产品”;“房屋交易”的标签为“权益类|产权”。
如图2所示,在具体实施过程中,所述数据处理的步骤还包括:
接收所述第三数据;
对所述第三数据进行第二预处理,提取所述第三数据中的特征词,得出第四数据;
将所述第四数据转换为向量数据,得出所述第五数据;
将所述第五数据的所述向量数据在同一空间中体现,得出所述第一模型。
采用上述方案,将所述特征词转换为向量数据,并将所述向量数据在同一空间中体现, 便于对需要辨认的数据在同一空间中辨认,提高分类准确性。
在具体实施过程中,所述向量数据为二维向量、三维向量或多维向量。
在具体实施过程中,所述第二预处理的步骤包括:
接收所述第三数据;
对所述第三数据进行分词处理,得出第一关键词;
提取所述第一关键词中的无意义词;
将所述无意义词从所述第一关键词中删除,得出第二关键词;
对所述第二关键词进行权重处理,得出所述特征词。
在具体实施过程中,所述第三数据可以为“网友的称赞”、“微博话题的阅读量”或“推 动工程建设项目复工”等。
在具体实施过程中,所述第一关键词可以为“网友、的、称赞”、“微博、话题、的、 阅读量”或“推动、工程建设、项目、复工”等。
在具体实施过程中,所述第二关键词可以为“网友、称赞”、“微博、话题、阅读量”或“推动、工程建设、项目、复工”等。
在具体实施过程中,“网友、称赞”对应二维向量可以为(1.2)、(-1.3)或(3.5) 等,“微博、话题、阅读量”对应三维向量可以为(1.2.1)、(5.4.2)或(-1.2.-3)等,“推 动、工程建设、项目、复工”对应四维向量可以为(1.2.3.1)、(-2.1.2.-4)或(-1.4.2.6) 等。
在具体实施过程中,所述无意义词可以是连词、助词或叹词等,所述连词可以是若、如 果和若是等,所述助词可以是吧、罢和呀等,所述叹词可以是呸、啐或哼等。
如图3所示,在具体实施过程中,所述权重处理的步骤包括:
接收权重系数阈值参数;
根据所述第二关键词的词频指数和文本频率指数得出关键词权重系数;
判断所述关键词权重系数是否大于所述权重系数阈值参数;
若否,判定所述第二关键词不为第一特征词;
若是,判定所述第二关键词为所述第一特征词;
接收特征词数量参数,设所述特征词数量参数为β;
判断所述第一特征词数量是否大于β;
若否,所有所述第一特征词都为特征词;
若是,将所述第一特征词根据所述关键词权重系数进行排名,截取前β项;
判断所述第一特征词是否属于所述前β项;
若否,所述第一特征词不为特征词;
若是,所述第一特征词为特征词。
在具体实施过程中,所述词频指数为当前第二关键词所在页面出现次数,所述文本频率 指数为当前第二关键词在所有第二关键词中的出现次数,所述词频指数≤文本频率指数。
在具体实施过程中,所述关键词权重系数=词频指数/文本频率指数*词频指数。
在具体实施过程中,所述权重系数阈值参数可以为整数、分数或小数,所述权重系数阈 值参数可以为1、3/4、或1.5等。
在具体实施过程中,所述词频指数和文本频率指数可以为(10.100)、(2.3)或(4.5), 得出所述关键词权重系数分别为1、3/2和16/5。
在具体实施过程中,所述权重系数阈值参数可以为1.4,1<1.4;3/2>1.4;16/5>1.4,所述权 重系数阈值参数为1的第二关键词不为第一特征词,所述权重系数阈值参数为3/2和16/5 的第二关键词为第一特征词。
在具体实施过程中,将所述第一特征词根据所述关键词权重系数进行排名,截取前β项, β可以为100,所述权重系数阈值参数为3/2的第一特征词排名为130,所述权重系数阈值 参数为16/5的第一特征词排名为65,所述权重系数阈值参数为3/2的第一特征词不为特征 词,所述权重系数阈值参数为16/5的第一特征词为特征词。
采用上述方案,所述第二预处理分三步对所述第三数据进行处理,分别为:一、删除无 意义词;二、根据所述词频指数和文本频率指数,得出所述关键词权重系数,通过设置权重 系数阈值参数,将所述关键词权重系数较低的数据作为无用数据,将无用数据删除;三、将 所述第一特征词根据所述关键词权重系数进行排名,截取前β项,提出β项后的数据;通过 三次处理提高数据精简性和准确性。
如图4所示,在具体实施过程中,所述分类模型构建的步骤包括:
将所述第五数据划分为第一部分和第二部分,所述第一部分为训练数据集,所述第二部 分为测试数据集;
将所述训练数据集导入所述第一库,根据所述第一函数,调整所述第一系数得出所述第 一边界;
接收正确率阈值参数;
将所述第二部分导入标记有所述第一边界的第一模型,得出测试正确率;
判断所述测试正确率是否大于所述正确率阈值参数;
若是,标记有所述第一边界的第一模型即为所述第二模型;
若否,调整所述第一系数,重新计划所述第一边界。
在具体实施过程中,所述第一库可以为Python的相关库,根据所述第一函数可以为线 性核函数,所述第一系数可以为惩罚系数。
在具体实施过程中,当所述第一部分为所述第五数据的80%时,所述第二部分为所述第 五数据的20%;当所述第一部分为所述第五数据的70%时,所述第二部分为所述第五数据的 30%;当所述第一部分为所述第五数据的60%时,所述第二部分为所述第五数据的40%。
采用上述方案,通过对含有分类标记的第五数据进行划分,将所述训练数据集导入所述 第一库,得出标记有所述第一边界的第一模型,在使用含有标记的测试数据集和测试结果比 对,得出测试正确率,比对正确率阈值参数调整所述第一边界,得出最佳的边界位置,提高 所述第二模型最终分类准确性。
在具体实施过程中,所述正确率阈值参数可以为85%,当所述第一系数为1时,所述测 试正确率为80%;调整所述第一系数为1.5,所述测试正确率为83%;调整所述第一系数为 2,所述测试正确率为86%,根据所述第一系数为2建立第一边界。
在具体实施过程中,所述第一边界根据公式:
y=WtX+b
Wt为权重向量,t为向量维度,b为平移量。
在具体实施过程中,当所述向量数据为二维向量时所述第一边界为线,当所述向量数据 为三维向量时,所述第一边界为面。
如图5所示,在具体实施过程中,得出所述第一边界的步骤还包括:
将所述第一部分分为第一子部分和第二子部分;
将所述第一子部分导入所述第一库,根据所述第一函数,根据所述第一系数得出第一预 边界,将所述第二子部分导入含有所述第一预边界的第一模型,得出预正确率;
重新分配所述第一子部分和第二子部分,得出新的所述预正确率;
多次重新分配所述第一子部分和第二子部分,得出多个预正确率;
计算多个所述预正确率的平均值,计算平均值对应的最佳所述第一系数。
在具体实施过程中,所述第一子部分可以为所述第一部分的80%和第二子部分可以为所 述第一部分的20%;所述第一子部分可以为所述第一部分的90%和第二子部分可以为所述第 一部分的10%;所述第一子部分可以为所述第一部分的70%和第二子部分可以为所述第一部 分的30%。
在具体实施过程中,重新分配所述第一子部分和第二子部分均为根据比例随机分配。
在具体实施过程中,多个预正确率可以为84%、80%和86%,所述预正确率的平均值即 约为83%,83%对应的第一系数可以为1、2或1.6等。
采用上述方案,通过多次分配所述第一子部分和第二子部分对所述模型进行多次训练, 的出多个所述预正确率,将多个所述预正确率对应的第一系数作为最佳的第一系数,而不是 正确率最高的预正确率作为最佳第一系数,解决了由于样本的局限性,造成虽然训练正确率 高,但是实际分类不准确的问题。
在具体实施过程中,当模型为二维模型时,所述第一边界可以为y=2x+1,在所述y=2x+1 上方可以为第一类别,在所述y=2x+1下方可以为第二类别。
在具体实施过程中,所述第一信息可以为(1.4)、(-1.-2)或(2.6)等,判定(-1.-2)的所述第一信息为第二类别,判定(1.4)、(2.6)的所述第一信息为第一类别。
在具体实施过程中,所述场所分类的步骤还包括:
判断所述第一信息是否为交易信息;
若否,所述第一信息不为交易信息;
若是,判断所述第一信息数据在一级类别的类型;
判断所述第一信息数据在所述一级类别下的二级类别类型。
采用上述方案,逐级判断所述第一信息数据的类型,一方面降低了计算机的计算量,另 一方面提高模型的分类精准性,解决了一次判断花费时间长且不够准确的问题。
在具体实施过程中,所述一级类别包括大宗商品类、权益类和其他类,所述大宗商品类 下的二级类别包括农产品、金属产品、能源产品和海洋产品等;所述权益类下的二级类别包 括产权、股权、林权和矿权等;所述其他类下的二级类别包括聚合交易通道和二元期权等。
在本发明的另一些实施例中,本发明提供了一种交易场所分类装置,包括存储器、处理 器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上 述方法,因而具有上述任一实施例中的控制方法的全部有益效果,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算 法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件 还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每 个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范 围。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过 其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通 过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部 件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元 上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个 单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解 决前述技术问题。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在 一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技 术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产 品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服 务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储 介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些 实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理 可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被 限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的 范围。
Claims (10)
1.一种交易场所分类方法,其特征在于,包括步骤:
数据采集,接收第一数据,根据第一数据获取第二数据,所述第二数据为文本数据,对所述第二数据进行标记处理,生成第三数据;
数据处理,对所述第三数据进行第二预处理,得出第四数据,将所述第四数据进行转换,得出第五数据,根据所述第五数据,生成第一模型;
分类模型构建,将所述第五数据划分为第一部分和第二部分,将所述第一部分导入第一库生成第一边界,将所述第二部分导入验证,得出第二模型;
场所分类,接收场所信息,将所述场所信息进行所述第二预处理得出第一信息,将所述第一信息导入所述第二模型,得出场所类别。
2.根据权利要求1所述的交易场所分类方法,其特征在于,所述第一数据为网页地址数据,所述数据采集的步骤还包括:
根据所述第一数据,在互联网中找到网页数据,提取所述网页数据,得出第二数据;
接收类别关键词数据,根据所述类别关键词数据对所述第二数据进行标记,得出第三数据。
3.根据权利要求2所述的交易场所分类方法,其特征在于,所述数据处理的步骤还包括:
接收所述第三数据;
对所述第三数据进行第二预处理,提取所述第三数据中的特征词,得出第四数据;
将所述第四数据转换为向量数据,得出所述第五数据;
将所述第五数据的所述向量数据在同一空间中体现,得出所述第一模型。
4.根据权利要求1-3任一种所述的交易场所分类方法,其特征在于,所述第二预处理的步骤包括:
接收所述第三数据;
对所述第三数据进行分词处理,得出第一关键词;
提取所述第一关键词中的无意义词;
将所述无意义词从所述第一关键词中删除,得出第二关键词;
对所述第二关键词进行权重处理,得出所述特征词。
5.根据权利要求4任一种所述的交易场所分类方法,其特征在于:所述权重处理的步骤包括:
接收权重系数阈值参数;
根据所述第二关键词的词频指数和文本频率指数得出关键词权重系数;
判断所述关键词权重系数是否大于所述权重系数阈值参数;
若否,判定所述第二关键词不为第一特征词;
若是,判定所述第二关键词为所述第一特征词;
接收特征词数量参数,设所述特征词数量参数为β;
判断所述第一特征词数量是否大于β;
若否,所有所述第一特征词都为特征词;
若是,将所述第一特征词根据所述关键词权重系数进行排名,截取前β项;
判断所述第一特征词是否属于所述前β项;
若否,所述第一特征词不为特征词;
若是,所述第一特征词为特征词。
6.根据权利要求5所述的交易场所分类方法,所述分类模型构建的步骤包括:
将所述第五数据划分为第一部分和第二部分,所述第一部分为训练数据集,所述第二部分为测试数据集;
将所述训练数据集导入所述第一库,根据第一函数,调整所述第一函数的第一系数得出所述第一边界;
接收正确率阈值参数;
将所述第二部分导入标记有所述第一边界的第一模型,得出测试正确率;
判断所述测试正确率是否大于所述正确率阈值参数;
若是,标记有所述第一边界的第一模型即为所述第二模型;
若否,调整所述第一系数,重新计划所述第一边界。
7.根据权利要求6所述的交易场所分类方法,其特征在于,所述第一边界根据公式:
y=WtX+b
Wt为权重向量,t为向量维度,b为平移量。
8.根据权利要求6或7所述的交易场所分类方法,其特征在于,得出所述第一边界的步骤还包括:
将所述第一部分分为第一子部分和第二子部分;
将所述第一子部分导入所述第一库,根据所述第一函数,根据所述第一系数得出第一预边界,将所述第二子部分导入含有所述第一预边界的第一模型,得出预正确率;
重新分配所述第一子部分和第二子部分,得出新的所述预正确率;
多次重新分配所述第一子部分和第二子部分,得出多个预正确率;
计算多个所述预正确率的平均值,计算平均值对应的最佳所述第一系数。
9.根据权利要求8所述的交易场所分类方法,其特征在于,所述场所分类的步骤还包括:
判断所述第一信息是否为交易信息;
若否,所述第一信息不为交易信息;
若是,判断所述第一信息数据在一级类别的类型;
判断所述第一信息数据在所述一级类别下的二级类别类型。
10.一种交易场所分类装置,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1-9任一项的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010184062.8A CN111401450A (zh) | 2020-03-16 | 2020-03-16 | 一种交易场所分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010184062.8A CN111401450A (zh) | 2020-03-16 | 2020-03-16 | 一种交易场所分类方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111401450A true CN111401450A (zh) | 2020-07-10 |
Family
ID=71432543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010184062.8A Pending CN111401450A (zh) | 2020-03-16 | 2020-03-16 | 一种交易场所分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401450A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574047A (zh) * | 2014-10-17 | 2016-05-11 | 任子行网络技术股份有限公司 | 一种基于网站主页特征分析的中文网站分类方法和*** |
CN110245800A (zh) * | 2019-06-19 | 2019-09-17 | 南京大学金陵学院 | 一种基于优化向量空间模型定制商品信息分类标识的方法 |
-
2020
- 2020-03-16 CN CN202010184062.8A patent/CN111401450A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574047A (zh) * | 2014-10-17 | 2016-05-11 | 任子行网络技术股份有限公司 | 一种基于网站主页特征分析的中文网站分类方法和*** |
CN110245800A (zh) * | 2019-06-19 | 2019-09-17 | 南京大学金陵学院 | 一种基于优化向量空间模型定制商品信息分类标识的方法 |
Non-Patent Citations (3)
Title |
---|
吴克贤: "基于分类的文本内容判别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 12, 15 December 2013 (2013-12-15), pages 138 - 281 * |
李欣: "基于维度判别的文本情感聚类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 3, 15 March 2016 (2016-03-15), pages 138 - 7831 * |
魏芳芳;段青玲;肖晓琰;张磊;: "基于支持向量机的中文农业文本分类技术研究", 农业机械学报, no. 1, 30 December 2015 (2015-12-30), pages 179 - 184 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abraham et al. | Cryptocurrency price prediction using tweet volumes and sentiment analysis | |
US11475143B2 (en) | Sensitive data classification | |
Minh et al. | Deep learning approach for short-term stock trends prediction based on two-stream gated recurrent unit network | |
CN110009174B (zh) | 风险识别模型训练方法、装置及服务器 | |
Harfoushi et al. | Sentiment analysis algorithms through azure machine learning: Analysis and comparison | |
Chen et al. | A hybrid approach of stepwise regression, logistic regression, support vector machine, and decision tree for forecasting fraudulent financial statements | |
Ronellenfitsch et al. | Topological phenotypes constitute a new dimension in the phenotypic space of leaf venation networks | |
CN106611375A (zh) | 一种基于文本分析的信用风险评估方法及装置 | |
Şaşmaz et al. | Tweet sentiment analysis for cryptocurrencies | |
Singh et al. | A study of moment based features on handwritten digit recognition | |
CN110084468B (zh) | 一种风险识别方法及装置 | |
CN108763277A (zh) | 一种数据分析方法、计算机可读存储介质及终端设备 | |
CN110263233B (zh) | 企业舆情库构建方法、装置、计算机设备及存储介质 | |
Cheong et al. | Interpretable stock anomaly detection based on spatio-temporal relation networks with genetic algorithm | |
CN111738856A (zh) | 一种股票舆情投资决策分析方法及装置 | |
Jain et al. | NFT Appraisal Prediction: Utilizing Search Trends, Public Market Data, Linear Regression and Recurrent Neural Networks | |
Cho et al. | Non-fungible token transactions: Data and challenges | |
Sun et al. | Degree-strength correlation reveals anomalous trading behavior | |
Li et al. | Application of deep learning in recognition of accrued earnings management | |
Wang et al. | An index tracking model with stratified sampling and optimal allocation | |
CN107515928A (zh) | 一种判断资产价格走势的方法、装置、服务器、存储介质 | |
Yu et al. | Neural network based transaction classification system for chinese transaction behavior analysis | |
CN109408808B (zh) | 一种文艺作品的评估方法及评估*** | |
CN111401450A (zh) | 一种交易场所分类方法和装置 | |
Purba et al. | A hybrid convolutional long short-term memory (CNN-LSTM) based natural language processing (NLP) model for sentiment analysis of customer product reviews in Bangla |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |