CN104318268B - 一种基于局部距离度量学习的多交易账户识别方法 - Google Patents
一种基于局部距离度量学习的多交易账户识别方法 Download PDFInfo
- Publication number
- CN104318268B CN104318268B CN201410629744.XA CN201410629744A CN104318268B CN 104318268 B CN104318268 B CN 104318268B CN 201410629744 A CN201410629744 A CN 201410629744A CN 104318268 B CN104318268 B CN 104318268B
- Authority
- CN
- China
- Prior art keywords
- sample
- marked
- mrow
- training sample
- local distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/405—Establishing or using transaction specific rules
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Computer Security & Cryptography (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于局部距离度量学习的多交易账户识别方法,包括步骤:收集多个多交易账户的历史数据作为训练样本集,并对每个训练样本进行类型标记;提取标记后的每个训练样本所对应多交易账户的操作特征和用户基本特征;根据所标记的训练样本集,训练用于判断两个样本是否为同一类型的局部距离度量模型;根据所述局部距离度量模型对待识别多交易账户的类型进行识别。本发明可以自动获取各个交易账户对应用户的偏好,即对用户进行分类标记,以便于更加灵活地的安排各个用户在交易过程中的行为,也使得可通过对不同用户的行为进行分析,以评估不同用户风险承受能力的实现成为可能。
Description
技术领域
本发明涉及一种模式识别与人工智能技术,尤其涉及一种基于局部距离度量学习的多交易账户识别方法。
背景技术
利用计算机平台输入交易指令的算法交易已经成为目前主流的交易方式之一。普通的算法委托平台支持单个交易账号操作,这种方式造成了操作分散影响交易的效率,并且在单交易账户情况下无法设置灵活可靠的交易、止损等策略,限制了自动算法交易的能力。而目前的多交易账户管理方式仍需要大量的人为操作,这种方式不仅繁琐,而且工作量较大,工作效率低。
发明内容
本发明实施例所要解决的技术问题在于,提供基于局部距离度量学习的多交易账户识别方法,从而通过利用局部距离度量学习方法对多个多交易账户已有的行为进行分析学习以自动获取各个用户偏好,即根据该偏好将用户进行分类标记,以便于更加灵活地的安排各个用户在交易过程中的行为,也使得可通过对不同用户的行为进行分析,以评估不同用户风险承受能力的实现成为可能。
为了解决上述技术问题,本发明实施例提供了一种基于局部距离度量学习的多交易账户识别方法,包括步骤:
收集多个交易账户的历史数据作为训练样本集,并对每个训练样本进行类型标记;
提取标记后的每个训练样本所对应交易账户的操作特征和用户基本特征;
根据所标记的训练样本集,训练用于判断两个样本是否为同一类型的局部距离度量模型;
根据所述局部距离度量模型对待识别多个交易账户的类型进行识别。
进一步地,所述根据局部距离度量模型对待识别多个交易账户的类型进行识别的步骤,具体包括:
收集待识别的多个交易账户的历史数据作为待标记样本集;
设定已标记的训练样本集中训练样本的个数为n个,待标记样本集中待标记样本个数为u个,并给定一对特征向量对Xi和Xj分别代表两个样本,给定一个包含所有已标记训练样本和所有待标记样本的图结构G,并形成正则化框架:
s.t.wi≥0,i=1,...,n+u,
其中,W=[wi,...,wn+u]是由n个已标记训练样本和u个待标记样本的样本自适应距离wi组成的;当样本Xi和样本Xj是同类型的多交易账户时,则样本Xi和Xj的示性变量且yi=yj,其中yi表示样本Xi的标记,yj表示样本Xj的标记,而当样本Xi和Xj不是同类型的多交易账户时,该示性变量l是一个任意的凸损失函数;Ω是一个正则化项;集合Si是由与标记训练样本Xi来自于同类型的训练样本组成的集合;集合Di是由与已标记训练样本Xi来自于不同类型的训练样本组成的集合;λ是调节损失函数和正则化项重要性的参数;
利用二次规划求解算法求解上式,获得每个样本的局部距离度量;
根据获得的每个样本的局部距离度量,对所述待标记样本集进行类型标记。
进一步地,所述l为应用于分类的hinge损失函数或者用于回归模型的平方损失函数。
进一步地,所述根据所获得的每个样本的局部距离度量,对所述待标记样本集进行类型标记的步骤,具体为:
根据各自的距离度量函数,计算每个待标记样本到其近邻的标记样本之间的距离,由其近邻进行加权投票得到该待标记样本的类型,并进行标记。
实施本发明实施例,具有如下有益效果:
实施本发明的基于局部距离度量学习的多交易账户识别方法,通过利用局部距离度量学习方法对多个交易账户已有的行为进行分析学习以自动获取各个交易账户对应用户的操作偏好,即根据该操作偏好将各交易账户进行分类标记,从而对各个交易账户实现分类管理,并在后续的交易过程中,能够更加灵活地的安排各个用户在交易过程中的行为,也使得通过对不同交易账户对应的用户的行为进行分析,进而评估不同用户风险承受能力的实现成为可能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种基于距离度量学习的多交易账户识别方法的一实施例的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,为本发明的一种基于距离度量学习的多交易账户识别方法的一实施例的流程图,具体地,本实施例中该多交易账户识别方法具体包括步骤:
S11,收集多个交易账户历史数据作为训练样本集,并对每个训练样本进行类型标记。本实施例中该样本数据具体是指用户的历史交易过程中产生的数据,及用户的基本信息,如年龄,性别,职务等等。本实施例中,该样本的类型包括:谨慎型,追求高回报承担高风险型等等,其是预先由本领域的同行专家进行互评得到。
S13,提取标记后的每个训练样本所对应交易账户的操作特征和用户基本特征。本实施例中,该操作特征是指对用户相关的时序数据(如交易历史:股票、期货的代码、数量、金额等)的特征表示,例如采用以在一定窗口时间内对交易的统计量作为特征描述,而该用户基本特征则是指该用户的基本信息,则采用直接描述的方式。本实施例中,该操作特征和用户基本特征在一定程度上描述了交易账户的作用、交易账户所对应用户的统计信息。通常用户是否执行了交易往往和多个特征相关,并且不同特征之间还具有不同的权值。
S15,根据所标记的训练样本集,训练用于判断两个样本是否为同一类型的局部距离度量模型。
S17,根据上述的局部距离度量模型对待识别多个交易账户的类型进行识别。具体地,本实施例中该步骤S17具体包括步骤:
收集待识别的多个交易账户的历史数据作为待标记样本集。
设定已标记的训练样本集中训练样本的个数为n个,待标记样本集中待标记样本个数为u个,并给定一对特征向量对Xi和Xj分别代表两个样本,给定一个包含所有已标记训练样本和待标记样本的图结构G,并形成正则化框架:
s.t.wi≥0,i=1,...,n+u,
其中,W=[wi,...,wn+u]是由上述的n个标记训练样本和u个待标记样本的样本自适应距离wi组成的;当样本Xi和样本Xj是同类型的多交易账户时,则样本Xi和Xj的示性变量且yi=yj,其中yi表示样本Xi的标记,yj表示样本Xj的标记,而当样本Xi和Xj不是同类型的多交易账户时,该示性变量l是一个任意的凸损失函数;Ω是一个正则化项,用于隐式地度量传播;集合Si是由n个已标记训练样本中与已标记训练样本Xi来自于同类型的训练样本组成的集合,但不包含已标记训练样本Xi本身;集合Di是由n个已标记训练样本中与已标记训练样本Xi来自于不同类型的训练样本组成的集合;λ是调节损失函数和正则化项重要性的参数。
构建上述公式(1)时,由于已标记的n个训练样本集中,每个训练样本之间的相似度是明确度量的,需要使得学习到的距离度量方式Di(Xj)满足使得同类样本之间的距离尽量的小而异类样本之间的距离尽量的大。为达到这一目的当时,函数表示同类样本之间的距离,此时公式最小化该函数,使得同类型样本之间的距离小;而当时,函数表示不同类型样本距离乘以-1,此时最小化函数表示最大化不同类型样本之间的距离,从而达到目标需求。
而函数中Di(Xj)表示样本Xi对应的距离度量函数,函数Di(Xj)中包含了待学习的自适应距离度量wi,本实施例中已标记训练样本的自适应距离度量和待标记样本的自适应距离度量均是待学习的。其中,对于待标记样本而言,由于无法获得其对应的样本标记yi和yj,因此也无法获得的数值,为了能够对待标记样本对应距离度量进行学习,因此引入Ω(W,G),其中W是待学习的自适应距离度量wi,而G表示的是所有样本之间的图结构,其是由样本之间的欧式距离定义。此时的函数Ω(W,G)使得在欧几里得空间中样本距离相近的样本具有相似的距离度量计算方式,从而得到对待标记样本的距离度量。
在一具体实施例中,是利用二次规划求解算法求解上式获得每个样本的局部距离度量,再根据获得的每个样本的局部距离度量,对所述待标记样本集进行类型标记。具体地,由于求解优化公式(1)将直接得到每个的距离度量,在各自的距离度量方法下,计算每个样本到其近邻样本之间的距离,由其近邻进行加权投票得到该待标记样本的类型标记,即当求解得到每个样本的距离度量之后,再计算其半定矩阵A,即得到相应的特征加权值,从而更加该特征加权值进行类型标记,例如,如果两个用户的交易历史权重和保守程度的权重十分近似,那么很有可能这两者之间存在相似的行为模式,可以归为一类用户,从而可以为其推荐类似的金融产品、相近的交易策略等。
实施本发明的该基于距离度量学习的多交易账户识别方法,通过利用局部距离度量学习方法对多个样本所对应用户已有的行为进行分析学习以自动获取各个样本的特征加权值,即得到用户的操作偏好,再根据该用户的操作偏好对未标记样本进行分类标记,以便于更加灵活地的安排各个交易账户在交易过程中的行为,也使得可通过对不同多交易账户的行为进行分析,以评估不同多交易账户风险承受能力的实现成为可能。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (3)
1.一种基于局部距离度量学习的多交易账户识别方法,其特征在于,包括步骤:
收集多个多交易账户的历史数据作为训练样本集,并对每个训练样本进行类型标记;
提取标记后的每个训练样本所对应的交易账户的操作特征和用户基本特征;
根据所标记的训练样本集,训练用于判断两个样本是否为同一类型的局部距离度量模型;
根据所述局部距离度量模型对待识别多交易账户的类型进行识别;其中,所述根据局部距离度量模型对待识别多交易账户的类型进行识别的步骤,具体包括:
收集待识别的多个交易账户的历史数据作为待标记样本集;
设定已标记的训练样本集中训练样本的个数为n个,待标记样本集中待标记样本个数为u个,并给定一对特征向量对Xi和Xj分别代表两个样本,给定一个包含所有已标记训练样本和所有待标记样本的图结构G,并形成正则化框架:
<mrow>
<mover>
<mi>w</mi>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
</mover>
<msubsup>
<mi>&lambda;&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>&Element;</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
</mrow>
</msub>
<mi>l</mi>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
<mi>D</mi>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&Omega;</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>,</mo>
<mi>G</mi>
<mo>)</mo>
</mrow>
</mrow>
s.t.wi≥0,i=1,...,n+u,
其中,W=[w1,...,wn+u]是由n个已标记训练样本和u个待标记样本的样本自适应距离wi组成的;当样本Xi和样本Xj是同类型的多交易账户时,则样本Xi和Xj的示性变量且yi=yj,其中yi表示样本Xi的标记,yj表示样本Xj的标记,而当样本Xi和Xj不是同类型的多交易账户时,该示性变量l是一个任意的凸损失函数;Ω是一个正则化项;集合Si是由与标记训练样本Xi来自于同类型的训练样本组成的集合;集合Di是由与已标记训练样本Xi来自于不同类型的训练样本组成的集合;λ是调节损失函数和正则化项重要性的参数;
利用二次规划求解算法求解上式,获得每个样本的局部距离度量;
根据获得的每个样本的局部距离度量,对所述待标记样本集进行类型标记。
2.如权利要求1所述的基于局部距离度量学***方损失函数。
3.如权利要求1所述的基于局部距离度量学习的多交易账户识别方法,其特征在于,所述根据所获得的每个样本的局部距离度量,对所述待标记样本集进行类型标记的步骤,具体为:
根据各自的距离度量函数,计算每个待标记样本到其近邻的标记样本之间的距离,由其近邻进行加权投票得到该待标记样本的类型,并进行标记。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410629744.XA CN104318268B (zh) | 2014-11-11 | 2014-11-11 | 一种基于局部距离度量学习的多交易账户识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410629744.XA CN104318268B (zh) | 2014-11-11 | 2014-11-11 | 一种基于局部距离度量学习的多交易账户识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104318268A CN104318268A (zh) | 2015-01-28 |
CN104318268B true CN104318268B (zh) | 2017-09-08 |
Family
ID=52373497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410629744.XA Active CN104318268B (zh) | 2014-11-11 | 2014-11-11 | 一种基于局部距离度量学习的多交易账户识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104318268B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654192A (zh) * | 2015-12-25 | 2016-06-08 | 苏州晨川通信科技有限公司 | 一种利用多来源数据的企业行情预测方法 |
CN107563757B (zh) * | 2016-07-01 | 2020-09-22 | 阿里巴巴集团控股有限公司 | 数据风险识别的方法及装置 |
CN108280766B (zh) * | 2017-01-06 | 2022-05-13 | 创新先进技术有限公司 | 交易行为风险识别方法及装置 |
CN107203939A (zh) * | 2017-05-26 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 确定用户风险等级的方法及装置、计算机设备 |
CN107437198A (zh) | 2017-05-26 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 确定用户风险偏好的方法、信息推荐方法及装置 |
CN110278175B (zh) | 2018-03-14 | 2020-06-02 | 阿里巴巴集团控股有限公司 | 图结构模型训练、垃圾账户识别方法、装置以及设备 |
CN109034209B (zh) * | 2018-07-03 | 2021-07-30 | 创新先进技术有限公司 | 主动风险实时识别模型的训练方法和装置 |
CN111783998B (zh) * | 2020-06-30 | 2023-08-11 | 百度在线网络技术(北京)有限公司 | 一种违规账号识别模型训练方法、装置及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609533A (zh) * | 2012-02-15 | 2012-07-25 | 中国科学技术大学 | 一种基于核方法的协同过滤推荐***及方法 |
CN102819575A (zh) * | 2012-07-20 | 2012-12-12 | 南京大学 | 一种用于Web服务推荐的个性化搜索方法 |
-
2014
- 2014-11-11 CN CN201410629744.XA patent/CN104318268B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609533A (zh) * | 2012-02-15 | 2012-07-25 | 中国科学技术大学 | 一种基于核方法的协同过滤推荐***及方法 |
CN102819575A (zh) * | 2012-07-20 | 2012-12-12 | 南京大学 | 一种用于Web服务推荐的个性化搜索方法 |
Non-Patent Citations (1)
Title |
---|
《基于用户行为聚类的人物角色量化模型创建实证研究》;孙敏杰等;《现代图书情报技术》;20101231(第12期);正文第15-20页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104318268A (zh) | 2015-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104318268B (zh) | 一种基于局部距离度量学习的多交易账户识别方法 | |
Zavadskas et al. | Selecting a contractor by using a novel method for multiple attribute analysis: Weighted Aggregated Sum Product Assessment with grey values (WASPAS-G) | |
Huang et al. | Feature Selection and Parameter Optimization of a Fuzzy-based Stock Selection Model Using Genetic Algorithms. | |
CN103106535B (zh) | 一种基于神经网络解决协同过滤推荐数据稀疏性的方法 | |
Lu et al. | Estimating labor productivity using probability inference neural network | |
CN110413775A (zh) | 一种数据打标签分类方法、装置、终端及存储介质 | |
Zhao et al. | Improved multiple-objective dynamic programming model for reservoir operation optimization | |
CN107563451A (zh) | 一种泵站稳态工况下运行状态识别方法 | |
CN107545038A (zh) | 一种文本分类方法与设备 | |
CN109146611A (zh) | 一种电商产品质量信用指数分析方法及*** | |
CN110047015A (zh) | 一种融合kpca和思维优化bp神经网络的用水总量预测方法 | |
Mathew et al. | Demand forecasting for economic order quantity in inventory management | |
Lee et al. | Taiwan stock investment with gene expression programming | |
Soni et al. | Optimised prediction model for stock market trend analysis | |
Camelia et al. | A Computational Grey Based Model for Companies Risk Forecasting. | |
CN108711100A (zh) | 一种基于神经网络的p2p平台运营风险评估的*** | |
CN107578130A (zh) | 一种结构和参数联合学习的tsk型模糊***的铜期货价格预测的方法 | |
CN116883173A (zh) | 一种基于深度学习的高频量化交易方法及*** | |
Mazzi et al. | Purely data-driven approaches to trading of renewable energy generation | |
Wan Ishak et al. | Modelling of human expert decision making in reservoir operation | |
CN106886851A (zh) | 基于电能表状态检修的电能表备品备件预测方法 | |
Larsson et al. | Time series forecasting of the SP global clean energy index using a multivariate LSTM | |
CN106503871A (zh) | 一种基于多相似股票投票统计的股票近期预测方法 | |
CN110428149A (zh) | 一种基于模糊方法的司法风险评估模型构建方法 | |
Zhang et al. | Forecast the price of chemical products with multivariate data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230808 Address after: Building 3, No. 55 Jinlin Road, Changshu High tech Industrial Development Zone, Suzhou City, Jiangsu Province, 215500 Patentee after: Suzhou Dazhi Tongrun IOT Technology Co.,Ltd. Address before: Room 412, Building 1, No. 68 Southeast Avenue, Southeast Economic Development Zone, Changshu City, Suzhou City, Jiangsu Province, 215533 Patentee before: SUZHOU CHENCHUAN COMMUNICATION TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |