CN111433806A

CN111433806A - 用于分析众筹平台的***和方法

Info

Publication number: CN111433806A
Application number: CN201880078251.8A
Authority: CN
Inventors: 金·威尔士; 朱利安·比蒂; 哈拉尔德·弗罗斯特
Original assignee: Claude Biro
Current assignee: Claude Biro
Priority date: 2017-10-04
Filing date: 2018-10-03
Publication date: 2020-07-17
Also published as: EP3692451A4; GB202006540D0; GB2581696A; EP3692451A1; US20190102836A1; WO2019069138A1

Abstract

本发明提供了用于分析众筹平台的***和方法。该方法包括：使用电子设备连接到多个个体贷款平台；以及从个体贷款平台中的每一个检索贷款账簿数据；使用耦合到所述电子设备的存储器存储所述贷款账簿数据，其中，所述贷款账簿数据包括在结构化查询语言数据库中生成的元数据，并且其中，所述元数据包括与所述贷款账簿数据相关联的平台的名称和数据属性的列表。所述方法还包括：使用耦合到所述电子设备的处理器来转换来自每个平台的所述贷款账簿数据，使得转换后的贷款账簿数据使用公共数据；使用所述处理器来读取转换后的贷款账簿数据；以及针对每对平台和属性将目的地统一数据属性文档化。

Description

用于分析众筹平台的***和方法

优先权声明

本申请是PCT国际非临时申请，并要求于2017年10月4日提交的美国临时专利申请62/568,105的优先权，其全部内容通过引用结合于此。

技术领域

本发明涉及贷款分析，尤其涉及分析关于点对点贷款和股票众筹平台的数据。

背景技术

从主要街道店面到高科技创业公司，近几十年来，三分之二的新工作都是由美国的小企业和中型企业创造的。个人追求理想、创办公司和发展业务的能力是美国经济的基础。

奥巴马政府试图通过2012年的《创业企业融资法案》(Jumpstart Our BusinessStartups Act)确保美国经济从2008年金融危机中持续复苏的好处惠及所有美国人，该法案允许通过中介(经纪人-交易商或注册融资平台)在线进行证券众筹(股票和债务)。这一举措促使另外40个国家修改证券法，以应对这场危机。重要的是，消费者和中小企业能够广泛获得安全和负担得起的信贷和股权融资。没有资本形成，企业家就无法将创新思想付诸行动。没有足够的资金，美国人就无法发展他们的企业，为下一代创造新的工作和机会。

自2004年英国Zopa平台、2007年繁荣市场公司向美国Kickstarter推出首个点对点贷款平台，作为2009年首个基于捐赠和奖励的平台以来，众筹变得非常受欢迎。这种“筹资民主化”让企业家和创新者有机会从世界各地的个人和机构筹集至关重要的资金，绕过传统的从朋友、家人和投资者的现有关系中筹资的方法。Kickstarter、Indiegogo和GoFundMe是常见的名字，它们带来了数十亿美元的回报和捐赠。这些众筹平台只是全球快速增长的行业中的一小部分。如果有人计划进行众筹活动，此人可能会首先转向其中一个平台。

美国各地大学的教职员工、校友和学生也开始利用这些新机制，通过学校主办的独家众筹平台，为学费、项目和企业提供资金。

大多数众筹平台可以被分配到下面列出的四个众筹类别中，尽管下面的这些组中的业务模型有时有很大的不同，下面是每个组的概述。例如，在众投类别中，商业模式之间存在巨大差异，这取决于JOBS法案的哪一部分正在被利用。注意，可以采用一个或多个模型，以便创建在项目或业务的整个生命周期中充当孵化器的“毕业”模型。

众筹定义

1、群众捐赠：基金捐赠是指没有直接可计量的报酬或福利的捐赠。示例包括社会、慈善和文化项目。群众捐赠也可以用来为政治运动筹集资金。为了群众捐赠的成功，必须在资本提供者和接受者之间建立和维持情感纽带。

2、群众奖励：群众奖励包括创意文化项目和体育项目。然而，商业项目也可以归入这一类。通过这类融资，出资人可以获得产品、艺术品或服务形式的额外津贴(如报酬)。寻求资金的各方的创造力是无限的。

3、众投(股权/债务)：众投的重点不是为项目融资，而是购买公司股权(普通股)或债务(如可转换票据、迷你债券等)。众投也为投资者提供了有限的投资机会，以支持初创企业、中小企业或生活方式的发展。作为回报，这些投资者将获得该公司的股份或基于特定条款的利息偿还。在股权投资的情况下，这些往往是沉默的伙伴关系，其中投资者只有没有或有限的投票权。

4、众贷/点对点贷：众贷主要是指公司或个人(如生活方式、助学贷款、房地产、汽车等)贷款(借入资金)融资。作为贷款的回报，贷款人希望他们的投资得到风险调整后的回报。随着产品和商业模式的发展，在线市场贷款人的投资者基础已经扩展到机构投资者、对冲基金和金融机构。

取决于国家，基于证券的众筹包括出售股份(普通股)和所有形式的信贷，包括但不限于迷你债券、点对点贷款、可转换票据等。

下一节将概述在线点对点贷款中的主要业务模型以及用于为该活动提供资金的结构。

该行业的公司已经开发了三种主要业务模式：(1)直接贷款人，其发放贷款以在其自己的投资组合中持有，通常称为资产负债表贷款人：(2)平台贷款人，其与发行存款机构合作以发放由所有类型的贷款人提供资金的贷款，然后在某些情况下，购买作为整体贷款或通过发行依赖成员的票据等证券出售给投资者的贷款；以及(3)第三种业务模式包括上述内容，并说明了证券化中的转让权利和义务。

不依赖存款机构发放贷款的直接贷款人通常需要从其贷款所在的每个州获得许可证。使用国家贷款许可证直接发放贷款的直接贷款人不受联邦银行监管机构的监管，但贷款人可能受到CFPB监管的情况除外。

发明内容

根据本发明的一个方面，提供了一种用于分析众筹平台的方法。该方法包括：使用电子设备连接到多个个体贷款平台；以及从每个个体贷款平台检索贷款账簿数据；使用耦合到所述电子设备的存储器存储所述贷款账簿数据，其中，所述贷款账簿数据包括在结构化查询语言数据库中生成的元数据，并且其中，所述元数据包括与所述贷款账簿数据相关联的平台的名称和数据属性列表。所述方法还包括：使用耦合到所述电子设备的处理器来转换来自每个平台的所述贷款账簿数据，使得转换后的贷款账簿数据使用公共数据；使用所述处理器来读取转换后的贷款账簿数据；以及针对每对平台和属性来记录目的地统一数据属性。

本发明的目的是提供用于分析众筹平台的方法，其中，元数据还包括用于何时已经接收到贷款账簿数据的时间戳。

本发明的目的是提供用于分析众筹平台的方法，其中属性列表与每个借款人列表相关联，并且贷款发放与平台相关联。

本发明的目的是提供用于分析众筹平台的方法，其中所述公共数据选自由以下组成的组：公共语言；公共货币；公共时区；公共单位；以及公共数值范围。

本发明的一个目的是提供用于分析众筹平台的方法，其中存储所述贷款账簿数据还包括针对每个平台以其自然状态实时存储所述贷款账簿数据。

本发明的目的是提供一种用于分析众筹平台的方法，其中，根据映射表来执行文档化。

本发明的目的是提供用于分析众筹平台的方法，其中，所述方法还包括预测与平台相关联的贷款是否可能被偿还。

根据本发明的另一方面，提供了一种用于分析众筹平台的***。该***包括：电子设备，其被配置为连接到多个个体贷款平台并从所述个体贷款平台中的每一个检索贷款账簿数据；存储器，其耦合到所述电子设备，所述存储器被配置为存储所述贷款账簿数据，其中，所述贷款账簿数据包括在结构化查询语言数据库中生成的元数据，并且其中，所述元数据包括与所述贷款账簿数据相关联的平台的名称和数据属性的列表；以及处理器，其耦合到所述电子设备，所述处理器被配置为转换来自每个平台的所述贷款账簿数据使得转换后的贷款账簿数据使用公共数据、读取转换后的贷款账簿数据、并且针对每对平台和属性将目的地统一数据属性文档化。

本发明的目的是提供用于分析众筹平台的***，其中，元数据还包括用于何时已经接收到贷款账簿数据的时间戳。

本发明的目的是提供用于分析众筹平台的***，其中，所述属性列表与每个借款人列表相关联，并且贷款发放与跨其他平台列出和标识的主平台相关联。

本发明的目的是提供用于分析众筹平台的***，其中所述公共数据选自由以下组成的组：公共语言；公共货币；公共时区；公共单位；以及公共数值范围。

本发明的目的是提供用于分析众筹平台的***，其中，所述处理器被进一步配置成实时地存储每个平台在其自然状态下的所述贷款账簿数据。

本发明的目的是提供用于分析众筹平台的***，其中，所述处理器被配置为根据映射表进行文档化。

本发明的目的是提供用于分析众筹平台的***，其中，所述处理器还被配置成预测与平台相关联的贷款是否可能被偿还。

本发明的目的是提供一种用于分析众筹平台的***，其中，所述电子设备选自由以下组成的组：台式计算机；膝上型计算机；平板计算机；以及智能电话。

本发明的目的是提供一种用于分析众筹平台的***，其中，所述***还包括图形用户界面，并且其中，所述存储器还被配置成存储数字应用，该数字应用被配置成使得用户能够使用所述图形用户界面访问所述目的地统一数据属性。

附图说明

图1示出了根据本发明实施例的示例性地描绘用于分析众筹平台的方法/***的框图/流程图。

图2示出了根据本发明实施例的用于分析众筹平台的数字应用的登录屏幕的屏幕截图。

图3示出了根据本发明的实施例的用于数字应用的警报***配置屏幕的屏幕截图，该数字应用用于通过使用加密的唯一标识符基于监管命令和跨平台的特定众筹业务模型来分析借款人资本限制和投资者投资限制。

图4示出了根据本发明实施例的用于为分析众筹平台的数字应用设置用户账户的屏幕截图。

图5示出了根据本发明的实施例的用于配置用于分析众筹平台的数字应用的警报的屏幕截图。

图6示出了根据本发明的实施例的用于配置用于分析众筹平台的数字应用的警报的屏幕截图。

图7示出了根据本发明实施例的使用用于分析众筹平台的数字应用的平台的屏幕截图。

图8示出了根据本发明实施例的使用用于分析众筹平台的数字应用的平台的警报的屏幕截图。

具体实施方式

现在将参照附图描述本发明的优选实施例。各图中相同的元件用相同的附图标记表示。

现在将详细参考本发明的每个实施例。这些实施例是以解释本发明的方式提供的，本发明并不旨在限于此。事实上，本领域普通技术人员在阅读本说明书并查看本附图时可以理解，可以对其进行各种修改和变型。

最近的立法改革使美国公司能够通过点对点市场贷款和证券(股权和债务(例如，点对点贷款))众筹筹集所需资本。这使得经认可和未经认可的投资者可以买卖小型私营公司和非公开交易基金的证券。本发明描述了一种用于解决该市场的挑战的集成方法，包括评级的发展和在线金融技术平台的创建，该在线金融技术平台为投资者提供透明的框架并且创建用于市场参与者遵守规则和对他们的表现进行基准测试的机制。评级框架的设计从数据收集、合并和统一点对点市场贷款和证券(股权和债务)众筹市场开始。

根据一个实施例，本***具有两个成分。

第一成分是技术栈。根据一个实施例，三个子成分构成技术栈(***)，该技术栈继续爬取并产生要收集数据的第一子成分；接着是允许第二子成分合并的净化特征；以及第三子成分，来自证券众筹平台(称为市场贷款人、点对点贷款人和众筹平台(股权和债务))的贷款账簿数据的统一。然而，应当指出的是，术语往往根据国家的起源而改变。

第二成分涉及数据收集。根据一个实施例，以每个国家的自然语言(例如，汉语、印地语、英语和更多)、计算机编码和计算机格式在第一层/第一成分中收集点对点贷款账簿数据的爬取。

现在参照图1，根据本发明的实施例，说明性地描绘了用于分析众筹平台的方法/***100的框图/流程图。

全球范围内，已有2500多个平台开始通过网络贷款平台发放消费者个人贷款、中小企业贷款、房地产贷款(商业和住宅)、助学贷款、农业/农业综合企业贷款、太阳能/可再生能源贷款和汽车贷款。金融贷款数据由每个贷款平台公布，因为每个借款人都在寻求融资的平台上列出。市场贷款方/点对点贷款方在不同的时间间隔通过不同的媒介、以不同的格式和跨不同的管辖范围更新和发布其数据。

一些平台通过网络Socket实时协议提供数据(本质上是向协议订阅者推送新的贷款数据和事件)。其他通过RESTful API，脚本可以按照预定义的时间间隔序列(每小时、3小时、每天、每月、每季度等)提取新的贷款数据。输出的依赖性取决于点对点贷款平台的使用年限、点对点贷款平台的业务模式(有些只是在借款人“要求”贷款金额时更新其贷款清单，在投资者贷款达到“要求”金额时更新事件)，并且当贷款在公共网页上发放时(例如，贷款资金全部到位)，提供逗号分隔值(CSV)文件以供下载。其他平台为零售和机构投资者和合作伙伴提供直接应用编程接口(API)。

这些点对点贷款平台以不同的格式提供其数据，包括但不限于JSON、行定界的JSON、CSV、TSV、Excel和HTML。每个格式提供有不同的可能编码，包括但不限于UTF-8、BIG5、拉丁文-1和GBK。

每个平台数据可以是不同的语言(汉语、英语、印地语、法语、西班牙语等)。任何数值可以以不同单位计值，这些单位可以是各种货币(例如，美元、人民币、欧元、英镑、卢比等)，并且具有不同的数值范围。数字范围可以包括薪水(例如，0-1百万对0-1千)。

问题源于这样一种情况，即一个实体(例如，自动化或人工)希望在点对点贷款金融业的所有平台(例如，监管机构、投资者)上，从宏观到微观的统一层面上理解这些数据。在这种情况下，“理解”是指生成统计数据，并允许在平台数据之间进行高度的定性和定量比较。

迄今描述的复杂性使分析众筹平台中的风险管理的尝试复杂化。解决该问题的解决方案包括三层成分一起工作。图1所示出的是收集、整合、统一的解决方案。

根据一个实施例，数据收集成分105包括一组定制脚本，其连接到个体贷款平台并检索其贷款账簿数据。每个脚本符合并遵循点对点借贷平台数据发布时间表、介质和格式110。一旦接收到来自每个平台的数据，就将它们与在数据收集SQL数据库115中生成的元数据一起实时地以它们的自然状态存储(存档)。根据一个实施例，元数据包括：接收到数据的时间戳；平台的名称；以及其用于每个借款人列表和后续贷款发放的数据属性的列表。根据一个实施例，每个借款人列表和/或贷款发放与在其他平台上列出和标识的主要平台相关联。在此阶段，使用相同的编码(例如UTF-8)和相同的格式(例如JSON)保存所有平台数据，但每个平台都保留其唯一且可验证的数据属性键(例如，贷款利息可以表示为“LoanInterest”或“loan_itrst”)。数据收集成分105的该归档步骤允许在净化之前出于遵从目的对原始数据足迹进行审计。

根据一个实施例，数据合并成分120解决了将数据转换为使用公共语言、货币、时区、公共单位和数字范围的需要。数据合并成分从数据收集成分105拉取数据，读取这些数据，并且在数据合并过程125期间应用各种变换，诸如以下示例的列表：

1、使用自然语言(如贷款类型/用途、利率、贷款金额、还款期限等)的数据，首先以当地语言获取，并存档以供审计，然后翻译130为英文。货币面额类型数据(如贷款金额、保费和其他数据)以当地语言获取，并由于货币波动保留为当地语言，用于研究报告和基准。通常，这将不会转换135为美元，除非需要，然后两种面额将被呈现有日期/时间戳用于返回测试。

2、时区转换140为UTC时区。

3、借款人收入信息、利率等数字信息转换145为单一浮点格式(如“18K”转换为“18000.00”，“10％”转换为“0.1”)。在此阶段，所有数据已被转换为通用格式，但每个平台仍保留其原始且唯一的数据属性密钥集。

根据一个实施例，所有这些数据被推送并存储到队列中，以由最后一个成分(数据统一成分150)消费。

根据一个实施例，数据统一成分150从由数据收集成分105填充的队列读取数据。基于映射表，为每个不同的平台数据属性对155(例如，平台A/属性Y)记录其目的地统一数据属性，数据统一成分150为所有平台/属性对155填充中央结构化查询语言(SQL)数据库160。

这导致中央数据库160以新的统一格式存储不同的平台数据，由此可以以小于1％的错误率的精度实现宏观级别的统计和比较分析。

如图1所示的这种解决方案允许在交易层面实现贷款数据的近乎实时的透明度，以及数据的规范化和标准化，从而允许跨平台、跨辖区和跨地区设置建立全行业的比较、估值、定价活动和统计数据生成。如需进一步说明，请参阅附录I。

根据一个实施例，本方法/***100包括例如将管辖区域Y中的平台A的平均利率与管辖区域Z中的另一平台B的平均利率进行比较；以及对整个管辖区域或区域的所有平台贷款违约率进行平均。

根据一个实施例，本方法/***100包括例如在传统公司(公私)特定评级模型和投资者特定评级中使用社交媒体的可行性和价值。

根据一个实施例，本方法/***100包括例如创建行业范围的标准加权信用风险模型以承保贷款和跟踪表现。

根据一个实施例，本方法/***100包括例如识别借款人何时超过一个或多个平台上的借款人限制的能力。

根据一个实施例，本方法/***100收集、合并和统一来自多个单独的点对点贷款平台的数据，例如来自中国、美国和欧洲的点对点贷款平台，包括消费者贷款、房地产、助学贷款、汽车、农业综合企业、可再生能源/太阳能和生活方式等。

根据一个实施例，本发明提供以下方面：

1、每个平台的API和/或网络抓取技术的稳定自动化。

2、平台每小时新增贷款归集/抓取情况。

3、任何贷款每小时、每平台更新事件的收集/捕获。

4、对于发放贷款，可跟踪贷款的履约情况。

5、存在以下情况的贷款的区分：

a、贷款进度小于100％-贷款处于“询价”阶段，双方无约束性合同＝>表示市场“询价”量。

b、贷款进度等于100％-贷款是双方之间有效的、具有约束力的法律合同＝>提供市场上的贷款/信贷量。

根据一个实施例，本方法/***100包括结合用于识别信用风险的方法，该方法具有识别用于预测贷款是否可能被偿还的解释变量的目的。

根据本发明的实施例，下面的数据和子集提供了用于预测贷款是否可能被偿还的方法的示例。

数据：XYZ平台发放的贷款数据，包含2010年1月至2016年9月期间发行的所有贷款，最新贷款状态截至发布日期。已经分析了贷款的两个子集-均已完成其生命周期，贷款状态为“全额偿还”或“冲销”。

子集1：2010年1月至2011年11月期间发放的三年期和五年期贷款(30986笔贷款，违约率15％)，

子集2：2010年1月至2013年12月发放的三年期贷款(166267笔贷款，违约率12％)。

模型：以贷款状况为因变量的逻辑回归模型。根据以下属性(如表1所示)建立了独立变量的不同子集：

表1

结果：到目前为止，还没有一个属性子集产生一个模型来计算与原始贷款数据中观察到的违约相匹配的违约概率。这些属性似乎都对贷款状况没有太大影响。为了进一步分析这一问题，我们计算了贷款状况与几个属性之间的相关性，如“dti”(债务收入比)。例如，dti和数据子集2中的贷款状态之间的相关性仅为0.09，这是非常低的。

说明：XYZ平台已经使用这些属性来区分“好”贷款和“坏”贷款，其中“好”贷款是XYZ平台发放的贷款；其减少了大约90％的贷款申请。因此，我们分析的数据只包含“前10％”，例如2010年至2013年所有贷款的债务收入比都低于35％。在下降的贷款数据中，对于相同的时间间隔，我们发现超过20万的dti值高于40％，高达1000％。(债务收入比是拒绝贷款数据集中唯一可以与原始贷款进行比较的属性。)

因此，似乎需要其他属性来解释原始贷款的违约。例如，这些指标可以是与健康或失业风险有关的指标。

下面提供了另一例子：

参数子集的估计量，使用5000笔贷款样本(4300笔全额支付，700笔冲销)，使用R(如表2所示)：

(Intercept)	-2,64400000
		open_acc	0,01046000
revol_util	0,01275000
		revol_bal	-0,05051000
delinq_2yrs	0,16580000
		Dti	0,01498000
pub_rec	0,02689000
		pub_rec_bankruptcies	0,50240000
mths_since_last_delinq	-0,00008213
		mths_since_last_record	-0,00243300
inq_last_6mths	0,18150000

表2

得到的按四分位数划分的违约概率和相应的观察到的违约，适用于30,086笔贷款的完整数据集(26,636笔全额支付/4,350笔冲销)(如表3所示)：

表3

比较：按四分位数划分的违约概率和从银行的300笔贷款数据集观察到的相应违约(255笔全额偿还/45笔冲销)(如表4所示)：

表4

现在参照图2，根据本发明的实施例，说明性地描绘了用于分析众筹平台的数字应用的登录屏幕的屏幕截图。

根据一个实施例，如图1所示和所述的步骤和/或功能中的一个或多个可以使用数字应用来完成。根据一个实施例，数字应用能够在诸如但不限于台式计算机、膝上型计算机、平板计算机、智能电话和/或任何其他合适的电子设备之类的电子设备上运行。根据一个实施例，一个或多个电子设备经由服务器经由有线和/或无线连接来连接。根据一个实施例，存储器可以耦合到电子设备和/或服务器，用于存储一条或多条数据和/或数字应用。

根据一个实施例，数字应用的登录屏幕使得用户能够输入登录凭证(例如，用户名、密码等)和特定技术平台。

现在参照图3，根据本发明的实施例，说明性地描绘了用于分析众筹平台的数字应用的警报***配置屏幕的屏幕截图。

根据一个实施例，用户能够配置数字应用以向用户发送警报。根据一个实施例，该配置包括输入用于平台的信息。该信息可以包括例如地址、地区、未偿贷款的范围、法定最大借款限额、向其发送警报的地址(数字的或物理的)和/或任何其他合适的信息。

现在参照图4，根据本发明的实施例，说明性地描绘了用于为分析众筹平台的数字应用设置用户账户的屏幕截图。

根据一个实施例，用户账户配置包括输入可识别信息，该可识别信息包括例如姓名、登录凭证、电子邮件地址和/或任何其他合适的信息。根据一个实施例，可以配置多于一个用户账户。

现在参照图5至图6，根据本发明的各种实施例，说明性地描绘了用于配置用于分析众筹平台的数字应用的警报的屏幕截图。

根据一个实施例，用户能够配置用于特定平台(图5)或所有平台(图6)的警报。根据一个实施例，该配置包括设置合法的最大借款限额、设置为当实际借款达到最大借款金额的某一金额或百分比时接收警报、设置为当潜在借款达到最大借款金额的某一金额或某一百分比时接收警报、以及在什么时间接收面谈警报。根据一实施例，用户还可配置警报，使得用户停止从平台已借出资金的客户接收警报，直到客户请求新的贷款为止。

现在参照图7，根据本发明的实施例，说明性地描绘了使用用于分析众筹平台的数字应用的平台中的简档的屏幕截图。

根据一个实施例，简档包括与简档相关联的身份有关的可识别信息，例如姓名、地址、地区、未偿还贷款的范围、法定最大借款限额、以及要向其发送警报的地址(数字或物理)。

现在参照图8，根据本发明的实施例，说明性地描绘了使用用于分析众筹平台的数字应用的平台的警报的屏幕截图。

根据一个实施例，按照接收到的日期来组织警报并将其列出，并且在警报中列出借款人的唯一标识符。根据一个实施例，用户能够根据特定时间帧搜索警报。

***、设备和操作***

通常，一个或多个用户(其可以是人或用户组和/或其他***)可以参与信息技术***(例如，计算机)以促进***的操作和信息处理。进而，计算机采用处理器来处理信息，并且这样的处理器可以被称为中央处理单元(CPU)。一种形式的处理器被称为微处理器。CPU使用通信电路来传递用作指令的二进制编码信号以实现各种操作。这些指令可以是包含和/或引用存储器(例如，寄存器、高速缓冲存储器、随机存取存储器等)的各种处理器可存取和可操作区域中的其它指令和数据的操作和/或数据指令。此类通信指令可作为程序和/或数据成分成批(例如，成批指令)存储和/或传输以促进所要操作。这些存储的指令代码(例如，程序)可使CPU电路成分和其它母板和/或***成分参与以执行所要操作。一种类型的程序是计算机操作***，其可以由计算机上的CPU执行；该操作***使用户能够并且便于用户访问和操作计算机信息技术和资源。可以在信息技术***中使用的一些资源包括：输入和输出机制，数据可以通过该机制传入和传出计算机；存储器存储，可以将数据保存到该存储器存储中；以及处理器，可以通过该处理器处理信息。这些信息技术***可用于收集数据以供稍后检索、分析和操纵，这可通过数据库程序来促进。这些信息技术***提供允许用户访问和操作各种***成分的接口。

在一个实施例中，本发明可以连接到实体和/或与实体通信，所述实体例例如但不限于：来自用户输入设备的一个或多个用户；***设备；可选的密码处理器设备；和/或通信网络。例如，本发明可以连接到用户和/或与用户通信，操作客户端设备，包括但不限于个人计算机、服务器和/或各种移动设备，其包括但不限于蜂窝电话、智能手机(如

基于安卓操作***的电话等)，平板电脑(例如苹果iPad^TM、惠普Slate^TM、摩托罗拉Xoom^TM等)，电子书阅读器(例如，亚马逊Kindle^TM、巴诺书店的Nook^TM电子书阅读器等)，膝上型计算机、笔记本电脑、上网本、游戏控制台(例如XBOX Live^TM、任

DS、索尼

Portable等)、便携式扫描仪等。

网络通常被认为包括图拓扑中的客户端、服务器和中间节点的互连和互操作。应注意，如本申请通篇所使用的术语“服务器”通常指代处理并响应通信网络上的远程用户的请求的计算机、其它装置、程序或其组合。服务器将其信息提供给请求的“客户端”。这里使用的术语“客户端”通常指能够处理和发出请求以及通过通信网络从服务器获得和处理任何响应的计算机、程序、其它设备、用户和/或其组合。促进、处理信息和请求和/或进一步将信息从源用户传递到目的地用户的计算机、其它设备、程序或其组合通常被称为“节点”。网络通常被认为便于从源点到目的地的信息传送。专门负责进一步将信息从源传递到目的地的节点通常被称为“路由器”。存在许多形式的网络，诸如局域网(LAN)、微微网络、广域网(WAN)、无线网络(WLAN)等。例如，互联网通常被接受为多个网络的互连，由此远程客户端和服务器可以彼此访问和互操作。

本发明可以基于计算机***，该计算机***可以包括但不限于诸如连接到存储器的计算机***之类的成分。

计算机***

计算机***可以包括时钟、中央处理单元(“CPU”和/或“处理器”)(这些术语在整个公开中可互换使用，除非另有说明)、存储器(例如只读存储器(ROM)、随机存取存储器(RAM)等)和/或接口总线，并且最频繁地，尽管不是必须地，都通过一个或多个(母)板上的***总线互连和/或通信，所述一个或多个(母)板具有导电和/或以其它方式传输的电路路径，指令(例如，二进制编码信号)可以通过所述电路路径行进以实现通信、操作、存储等。可选地，计算机***可以连接到内部电源；例如，可选地，电源可以是内部的。可选地，密码处理器和/或收发器(例如，IC)可以连接到***总线。在另一实施例中，密码处理器和/或收发器可经由接口总线I/O连接为内部和/或外部***设备。进而，收发器又可连接到天线，从而实现各种通信和/或传感器协议的无线发送和接收；例如，天线可连接到德州仪器WiLinkWL1283收发器芯片(例如，提供802.11n、蓝牙3.0、FM、全球定位***(GPS)(从而允许本发明的控制器确定其位置)；Broadcom BCM4329FKUBG收发器芯片(例如，提供802.11n、蓝牙2.1+EDR、FM等)；Broadcom BCM4750IUB8接收器芯片(例如，GPS)；英飞凌科技X-Gold 618-PMB9800(例如，提供2G/3G HSDPA/HSUPA通信)；等等。***时钟通常具有晶体振荡器并且通过计算机***的电路路径生成基础信号。时钟通常耦合到***总线和各种时钟乘法器，这些时钟乘法器将增加或降低计算机***中互连的其它成分的基本工作频率。计算机***中的时钟和各种成分驱动在整个***中体现信息的信号。这种在整个计算机***化中体现信息的指令的发送和接收通常可以被称为通信。这些通信指令还可以被发送、接收，并且返回和/或回复通信的原因超出了即时计算机***的范围：通信网络、输入设备、其他计算机***、***设备等。当然，以上成分中的任一个可直接彼此连接、连接到CPU和/或以如各种计算机***所例示的所采用的许多变化形式来组织。

CPU包括至少一个高速数据处理器，其足以执行用于执行用户和/或***生成的请求的程序成分。通常，处理器本身将并入各种专用处理单元，例如但不限于：集成***(总线)控制器、存储器管理控制单元、浮点单元，以及甚至是例如图形处理单元、数字信号处理单元等专用处理子单元。另外，处理器可以包括内部快速访问可寻址存储器，并且能够映射和寻址超出处理器本身的存储器；内部存储器可以包括但不限于：快速寄存器、各种级别的高速缓冲存储器(例如，级别1、2、3等)、RAM等。处理器可以通过使用经由指令地址可访问的存储器地址空间来访问该存储器，处理器可以对其进行构造和解码，从而允许其访问到具有存储器状态的特定存储器地址空间的电路路径。CPU可以是微处理器，例如：AMD的Athlon、Duron和/或Opteron；ARM的应用、嵌入式和安全处理器；IBM和/或摩托罗拉的DragonBall和PowerPC；IBM和索尼的单元处理器；英特尔的Celeron、Core(2)Duo、Itanium、Pentium、Xeon和/或XScale；和/或类似的处理器。CPU通过穿过导电和/或传输导管(例如，(印刷)电子和/或光学电路)的指令与存储器交互，以根据常规数据处理技术执行所存储的指令(即，程序代码)。这种指令传递便于本发明内和本发明外通过各种接口的通信。如果处理要求指示更大量的速度和/或容量，则可以类似地采用分布式处理器(例如，本发明的分布式实施例)、主机、多核、并行和/或超级计算机架构。或者，如果部署要求要求更大的便携性，则可以采用更小的个人数字助理(PDA)。

根据具体实现方式，本发明的特征可以通过实现诸如CAST的R8051XC2微控制器、英特尔的MCS 51(即8051微控制器)等的微控制器来实现。而且，为了实现各种实施例的某些特征，一些特征实现可以依赖于嵌入式成分，诸如专用集成电路(“ASIC”)、数字信号处理(“DSP”)、现场可编程门阵列(“FPGA”)和/或类似的嵌入式技术。例如，可以经由微处理器和/或经由嵌入式成分(例如，经由ASIC、协处理器、DSP、FPGA等)来实现本发明的任何成分集合(分布式或其他)和/或特征。或者，本发明的一些实施方式可以用被配置和用于实现各种特征或信号处理的嵌入式成分来实现。

取决于特定实施方式，嵌入式成分可包括软件解决方案、硬件解决方案和/或硬件/软件解决方案两者的某种组合。例如，这里论述的本发明的特征可以通过实现FPGA来实现，FPGA是包含称为“逻辑块”的可编程逻辑成分和可编程互连的半导体器件，诸如Xilinx制造的高性能FPGA Virtex系列和/或低成本Spartan系列。在制造FPGA之后，客户或设计者可以对逻辑块和互连进行编程，以实现本发明的任何特征。可编程互连的层次允许逻辑块按照本发明的***设计者/管理者的需要互连，有点像单芯片可编程试验板。FPGA的逻辑块可以被编程以执行基本逻辑门的功能，诸如AND和XOR，或更复杂的组合功能，诸如解码器或简单的数学功能。在大多数FPGA中，逻辑块还包括存储器元件，其可以是简单的触发器或更完整的存储器块。在一些情况下，本发明可以在常规FPGA上开发，然后迁移到更类似于ASIC实现的固定版本中。作为FPGA的替代或补充，替代或协调实现可以将本发明的控制器的特征迁移到最终ASIC。根据实现方式，所有上述嵌入式成分和微处理器可以被认为是本发明的“CPU”和/或“处理器”。

电源

电源可以是用于给小型电子电路板装置供电的任何标准形式，例如下面的电池：碱性电池、氢化锂电池、锂离子电池、锂聚合物电池、镍镉电池、太阳能电池等。也可以使用其它类型的AC或DC电源。在太阳能电池的情况下，在一个实施例中，外壳提供孔，太阳能电池可通过该孔捕获光子能。功率单元连接到本发明的互连的后续部件中的至少一个，从而向所有后续部件提供电流。在一个示例中，电源连接到***总线部件。在替代实施例中，通过跨I/O接口的连接来提供外部电源。例如，USB和/或IEEE 1394连接承载连接上的数据和电力，因此是合适的电源。

接口适配器

接口总线可以接受、连接和/或通信到多个接口适配器，常规地但不一定以适配器卡的形式，例如但不限于：输入输出接口(I/O)、存储接口、网络接口等。可选地，密码处理器接口类似地可以连接到接口总线。接口总线提供接口适配器彼此之间以及与计算机***的其它成分之间的通信。接口适配器适于兼容的接口总线。接口适配器通常经由槽结构连接到接口总线。可采用常规槽架构，例如但不限于：加速图形端口(AGP)、卡总线、(扩展)工业标准架构((E)ISA)、微通道架构(MCA)、NuBus、***成分互连(扩展)(PCI(X))、PCIExpress、个人计算机存储卡国际协会(PCMCIA)等。

存储器接口可以接受、通信和/或连接到多个存储设备，例如但不限于：存储设备、可移动盘设备等。存储器接口可采用诸如但不限于(超)(串行)高级技术附件(分组接口)(超)(串行)ATA(PI)、(增强)集成驱动电子((E)IDE)、电气和电子工程师协会(IEEE)1394、光纤通道、小型计算机***接口(SCSI)、通用串行总线(USB)等的连接协议。

网络接口可以接受、通信和/或连接到通信网络。通过通信网络，本发明的控制器可由用户通过远程客户端(例如，具有网络浏览器的计算机)访问。网络接口可以采用诸如但不限于直接连接、以太网(厚的、薄的、双绞线10/100/1000Base T等)、令牌环、诸如IEEE802.11a-x的无线连接等的连接协议。如果处理要求指示更大量的速度和/或容量、分布式网络控制器(例如，本发明的分布式实施例)，则可类似地采用架构来汇集、负载平衡和/或以其他方式增加本发明的控制器所需的通信带宽。通信网络可以是以下的任何一个和/或组合：直接互连；互联网；局域网(LAN)；城域网(MAN)；作为互联网上的节点的操作任务(OMNI)；安全的定制连接；广域网(WAN)；无线网络(例如，采用诸如但不限于无线应用协议(WAP)、I模式、和/或类似物)；等等。网络接口可以被认为是输入输出接口的专门形式。此外，可以使用多个网络接口来与各种通信网络类型进行交互。例如，可以采用多个网络接口来允许通过广播、多播和/或单播网络进行通信。

输入输出接口(I/O)可以接受、通信和/或连接到用户输入设备、***设备、密码处理器设备等。I/O可采用以下连接协议，例如但不限于：音频：模拟、数字、单声道、RCA、立体声等；数据：苹果台式机总线(ADB)、IEEE1394a-b、串行、通用串行总线(USB)；红外线；操纵杆；键盘；midi；光学；PC AT；PS/2；并行；无线电；视频接口：苹果台式机连接器(ADC)、BNC、同轴、成分、复合、数字、数字可视接口(DVI)、高清多媒体接口(HDMI)、RCA、RF天线、S-Video、VGA等；无线收发器：802.11a/b/g/n/x；蓝牙；蜂窝(例如，码分多址(CDMA)、高速分组接入(HSPA(+))、高速下行链路分组接入(HSDPA)、全球移动通信***(GSM)、长期演进(LTE)、WiMax等)；等等。一个典型的输出设备可以包括视频显示器，该视频显示器通常包括基于阴极射线管(CRT)或液晶显示器(LCD)的监视器，该监视器具有接受来自视频接口的信号的接口(例如，DVI电路和电缆)。视频接口合成由计算机***产生的信息，并基于视频存储器帧中的合成信息产生视频信号。另一个输出设备是电视机，它接受来自视频接口的信号。通常，视频接口通过接受视频显示接口的视频连接接口(例如，接受RCA复合视频电缆的RCA复合视频连接器；接受DVI显示电缆的DVI连接器等)提供复合视频信息。

用户输入设备通常是一种***设备(见下文)，并且可以包括：读卡器、软件狗、指纹读取器、手套、图形输入板、操纵杆、键盘、麦克风、鼠标(鼠标)、遥控器、视网膜读取器、触摸屏(例如，电容性、电阻性等)、跟踪球、跟踪板、传感器(例如，加速计、环境光、GPS、陀螺仪、接近度等)、样式等。

***设备可以是本发明的控制器的外部、内部和/或部分。***设备还可包括例如天线、音频设备(例如，入线、出线、麦克风输入、扬声器等)、相机(例如，静态、视频、网络摄像机等)、驱动电机、照明、视频监视器等。

诸如但不限于微控制器、处理器、接口和/或设备的密码单元可以附接于本发明的控制器，和/或与本发明的控制器通信。由Motorola Inc.制造的MC68HC16微控制器可以用于加密单元和/或在加密单元内使用。MC68HC16微控制器在16MHz配置中利用16位乘法和累加指令，并且需要少于一秒来执行512位RSA私钥操作。加密单元支持对来自交互代理的通信进行身份验证，并允许进行匿名事务。加密单元也可以被配置为CPU的一部分。也可以使用等效的微控制器和/或处理器。其他商用专用密码处理器包括：Broadcom公司的CryptNetX和其他安全处理器；nCipher公司的nShield、SafeNet公司的Luna PCI(例如7100)系列；Semahore通信的40MHz Roadrunner 184；Sun公司的密码加速器(例如，加速器6000PCIe板、加速器500子卡)；通过Nano处理器(例如，L2100、L2200、VLSI、U2400MHz)，其能够执行500+MB/s的密码指令；VLSI科技的33MHz 6868；等等。

存储器

通常，允许处理器影响信息的存储和/或检索的任何机械化和/或实施例被视为存储器。然而，存储器是可替换技术和资源，因此，可以采用任何数目的存储器实施例来代替彼此或彼此协调。应当理解，本发明的控制器和/或计算机***可以采用各种形式的存储器。例如，可以配置计算机***，其中片上CPU存储器(例如，寄存器)、RAM、ROM和任何其它存储设备的功能由纸穿孔带或纸穿孔卡机构提供；当然，这样的实施例将导致极低的操作速率。在典型配置中，存储器将包括ROM、RAM和存储设备。存储设备可以是任何传统的计算机***存储器。存储设备可以包括鼓；(固定和/或可移除的)磁盘驱动器；磁光驱动器；光驱动器(即，Blueray、CD ROM/RAM/可记录(R)/可重写(RW)、DVD R/RW、HD DVD R/RW等)；设备阵列(例如，独立磁盘冗余阵列(RAID)；固态存储设备(USB、固态处理器等)；以及其他可读设备。因此，计算机***化通常需要并利用存储器。

成分收集

存储器可以包含程序和/或数据库成分和/或数据的集合，例如但不限于：(多个)操作***成分(操作***)；(多个)信息服务器成分(信息服务器)；(多个)用户界面成分(用户界面)；(多个)网络浏览器成分(网络浏览器)；(多个)数据库；(多个)邮件服务器成分；(多个)邮件客户端成分(多个)；(多个)加密服务器成分(统称为加密服务器或集合)。可以从存储设备和/或从可通过接口总线访问的存储设备存储和访问这些成分。尽管诸如成分集合中的那些的非传统程序成分通常被存储在本地存储设备中，但是它们也可以被加载和/或存储在诸如***设备、RAM、通过通信网络的远程存储设备、ROM、各种形式的存储器等的存储器中。

操作***

操作***成分是便于本发明的控制器的操作的可执行程序成分。通常，操作***促进对I/O、网络接口、***设备、存储设备等的访问。操作***可以是高度容错、可扩展和安全的***，例如：苹果Macintosh OS X(服务器)；AT&T Plan 9；Be OS；Unix和Unix类***发行(例如AT&T的UNIX；Berkley软件发行(BSD)，例如FreeBSD、NetBSD、OpenBSD等；以及/等Linux发行，例如Red Hat、Ubuntu等；以及类似的操作***。然而，也可以采用更有限和/或更不安全的操作***，诸如苹果Macintosh OS、IBM OS/2、Microsoft DOS、MicrosoftWindows 2000/2003/3.1/95/98/CE/Millennium/NT/Vista/XP(服务器)、Palm OS等。操作***可以是被特别优化以在诸如iOS、Android、Windows Phone、Tizen、Symbian等的移动计算设备上运行的操作***。操作***可以与包括其自身等的成分集合中的其他成分通信和/或与其他成分通信。最频繁地，操作***与其它程序成分、用户界面等通信。例如，操作***可以包含、通信、生成、获得和/或提供程序成分、***、用户和/或数据通信、请求和/或响应。操作***一旦由CPU执行就可实现与通信网络、数据、I/O、***设备、程序成分、存储器、用户输入设备等的交互。操作***可以提供允许本发明的控制器通过通信网络与其他实体通信的通信协议。本发明的控制器可以使用各种通信协议作为用于交互的副载波传输机制，例如但不限于：多播、TCP/IP、UDP、单播等。

信息服务器

信息服务器成分是由CPU执行的存储程序成分。信息服务器可以是传统的互联网信息服务器，例如但不限于Apache软件基金会的Apache、Microsoft的互联网信息服务器等。信息服务器可以允许通过诸如活动服务器页面(ASP)、ActiveX、(ANSI)(对象-)C(++)、C#和/或.NET、公共网关接口(CGI)脚本、动态(D)超文本标记语言(HTML)、FLASH、Java、JavaScript、实际提取报告语言(PERL)、超文本预处理器(PHP)、管道、Python、无线应用(WAP)、WAP/协议等设施来执行程序成分。信息服务器可支持安全通信协议，例如但不限于文件传输协议(FTP)、超文本传输协议(HTTP)、安全超文本传输协议(HTTPS)、安全套接字层(SSL)、消息传送协议(例如，美国在线(AOL)即时消息传送(AIM)、应用交换(APEX)、ICQ、互联网中继聊天(IRC)、互联网中继聊天(IRC)、微软网络(MSN)即时消息传送(MSN)即时消息传送服务、存在和即时消息传送协议(PRIM)、互联网工程任务组的(IETF's)会话初始化协议(SIP)、用于即时消息传送和使用扩展的SIP(SIMPLE)、打开基于XML的可扩展消息传送和到场协议(XMPP)(即，Jabber或开放移动联盟(OMA)的即时消息传送和到场服务(IMPS))、雅虎即时通讯服务，等等。信息服务器以网页的形式向网络浏览器提供结果，并且允许通过与其它程序成分的交互来操纵网页的生成。在HTTP请求的域名***(DNS)解析部分解析到特定信息服务器之后，信息服务器基于HTTP请求的剩余部分解析对本发明的控制器上的指定位置处的信息的请求。例如，诸如http://123.124.125.126/myInformation.html之类的请求可能具有由DNS服务器解析到该IP地址处的信息服务器的请求“123.124.125.126”的IP部分；该信息服务器又可能进一步解析该请求的“/myInformation.html”部分的http请求，并将其解析到包含信息“Information.html”的存储器中的位置。另外，可跨各种端口采用其它信息服务协议，例如跨端口的FTP通信等。信息服务器可以与成分集合中的其他成分通信和/或与其他成分通信，包括其自身和/或类似设施。最常见的是，信息服务器与本发明的数据库、操作***、其它程序成分、用户接口、网络浏览器等通信。

可以通过多个数据库桥接机制来实现对本发明的数据库的访问，诸如通过下面列举的脚本语言(例如CGI)以及通过下面列举的应用间通信信道(例如CORBA、网络Objects等)。通过网络浏览器的任何数据请求通过桥接机制被解析成本发明所需的适当语法。在一个实施例中，信息服务器将提供可由网络浏览器访问的网络表单。网络表单中提供的字段中的条目被标记为已输入到特定字段中，并按此方式进行分析。然后将输入的项与字段标签一起传递，字段标签用于指示解析器生成针对适当的表和/或字段的查询。在一个实施例中，解析器可以通过基于标记的文本条目用适当的联接/选择命令实例化搜索串来生成标准SQL中的查询，其中所得到的命令作为查询通过桥机制提供给本发明。在从查询生成查询结果时，结果通过桥机制传递，并且可以被桥机制解析以格式化和生成新的结果网页。这样的新结果网页然后被提供给信息服务器，该信息服务器可以将其提供给请求的网络浏览器。

而且，信息服务器可以包含、传送、生成、获得和/或提供程序成分、***、用户和/或数据通信、请求和/或响应。

用户界面

计算机界面在某些方面类似于汽车操作界面。诸如方向盘、换档和速度计的汽车操作界面元件便于访问、操作和显示汽车资源和状态。诸如复选框、光标、菜单、滚动器和窗口(统称为窗口小部件)之类的计算机交互界面元素类似地便于数据和计算机硬件以及操作***资源和状态的访问、能力、操作和显示。操作界面通常称为用户界面。图形用户界面(GUI)，例如苹果Macintosh操作***的Aqua、IBM的OS/2、微软的Windows2000/2003/3.1/95/98/CE/Millennium/NT/XP/Vista/7(即Aero)、Unix的X-Windows(例如，可以包括额外的Unix图形界面库和层，例如K Desktop环境(KDE)、mythTV和GNU网络对象模型环境(GNOME))、网络接口库(例如，ActiveX、Ajax、(D)HTML、FLASH,Java、JavaScript等接口库，诸如但不限于Dojo、jQuery(UI)、MooTools、原型、script.aculo.us,SWFObject、雅虎！用户界面，其中任何一个都可以使用，并且)提供基线和以图形方式向用户访问和显示信息的手段。

用户界面成分是由CPU执行的存储的程序成分。用户界面可以是由诸如已经讨论的操作***和/或操作环境提供的、具有操作***和/或操作环境和/或在操作***和/或操作环境之上的传统图形用户界面。用户界面可以允许通过文本和/或图形设施来显示、执行、交互、操纵和/或操作程序成分和/或***设施。用户界面提供了用户可以通过其影响、交互和/或操作计算机***的设施。用户界面可以与成分集合中的其他成分通信和/或与其他成分通信，包括其自身和/或类似设施。最频繁地，用户界面与操作***、其它程序成分等通信。用户界面可以包含、传送、生成、获得和/或提供程序成分、***、用户和/或数据通信、请求和/或响应。

网络浏览器

网络浏览器成分是由CPU执行的存储的程序成分。网络浏览器可以是诸如微软互联网浏览器或网景领航员的常规超文本浏览应用。安全网络浏览可通过HTTPS、SSL等提供128位(或更高)加密。允许通过诸如ActiveX、AJAX、(D)HTML、FLASH、Java、JavaScript、网络浏览器插件API(例如，Firefox、Safari插件和/或类似API)等设施执行程序成分的网络浏览器等。网络浏览器和类似的信息访问工具可以被集成到PDA、蜂窝电话和/或其他移动设备中。网络浏览器可以与成分集合中的其他成分通信和/或与其他成分通信，包括其自身和/或类似设施。最常见的是，网络浏览器与信息服务器、操作***、集成程序成分(例如，插件)等通信；例如，它可以包含、通信、生成、获得和/或提供程序成分、***、用户和/或数据通信、请求和/或响应。当然，代替网络浏览器和信息服务器，可以开发组合应用以执行两者的类似功能。组合应用将类似地影响从本发明的使能节点获得信息和向用户、用户代理等提供信息。在采用标准网络浏览器的***上，组合应用可能是多余的。

邮件服务器

邮件服务器成分是由CPU执行的存储的程序成分。邮件服务器可以是传统的互联网邮件服务器，例如但不限于sendmail、Microsoft Exchange等。邮件服务器可以允许通过诸如ASP、ActiveX、(ANSI)(对象-)C(++)、C#和/或.NET、CGI脚本、Java、JavaScript、PERL、PHP、管道、Python、网络Objects等设施执行程序成分。邮件服务器可以支持通信协议，例如但不限于：互联网消息访问协议(IMAP)、消息应用编程接口(MAPI)/Microsoft Exchange、邮局协议(POP3)、简单邮件传输协议(SMTP)等。邮件服务器可以路由、转发和处理已经被发送、中继和/或以其他方式穿越通过和/或到达本发明的传入和传出邮件消息。

可以通过由各个网络服务器成分和/或操作***提供的多个API来实现对本发明的邮件的访问。

而且，邮件服务器可以包含、通信、生成、获得和/或提供程序成分、***、用户和/或数据通信、请求、信息和/或响应。

邮件客户端

邮件客户端成分是由CPU执行的存储的程序成分。邮件客户端可以是传统的邮件查看应用，诸如Apple Mail、Microsoft Entourage、Microsoft Outlook、MicrosoftOutlook Express、Mozilla、Thunderbird等。邮件客户端可以支持多种传输协议，例如：IMAP、Microsoft Exchange、POP3、SMTP等。邮件客户端可以与成分集合中的其他成分通信和/或与其他成分通信，包括其自身和/或类似设施。最常见的是，邮件客户端与邮件服务器、操作***、其他邮件客户端等通信；例如，它可以包含、通信、生成、获得和/或提供程序成分、***、用户和/或数据通信、请求、信息和/或响应。通常，邮件客户端提供编写和发送电子邮件消息的设施。

加密服务器

加密服务器成分是由CPU、加密处理器、加密处理器接口、加密处理器设备等执行的存储程序成分。密码处理器接口将允许密码成分加速加密和/或解密请求；然而，密码成分可替代地可在常规CPU上运行。密码成分允许对所提供的数据进行加密和/或解密。密码成分允许对称和非对称(例如，优质保护(PGP))加密和/或解密。加密成分可以采用加密技术，例如但不限于：数字证书(例如，X.509认证框架)、数字签名、双重签名、封装、密码访问保护、公钥管理等。加密成分将促进多种(加密和/或解密)安全协议，例如但不限于：校验和、数据加密标准(DES)、椭圆曲线加密(ECC)、国际数据加密算法(IDEA)、消息摘要5(MD5，其是单向散列函数)、口令、Rivest密码(RC5)、Rijndael、RSA(其是由Ron Rivest、AdiShamir和Leonard Adleman于1977年开发的互联网加密和认证***)、安全散列算法(SHA)、安全套接字层(SSL)、安全超文本传输协议(HTTPS)等。采用这种加密安全协议，本发明可以加密所有传入和/或传出通信，并且可以用作具有更宽通信网络的虚拟专用网络(VPN)内的节点。加密成分便于“安全授权”过程，由此通过安全协议禁止对资源的访问，其中加密成分实现对安全资源的授权访问。另外，加密成分可提供内容的唯一标识符，例如，采用MD5散列来获得数字音频文件的唯一签名。加密成分可以与成分集合中的其他成分通信和/或与其他成分通信，包括其自身和/或类似设施。加密成分支持允许在通信网络上安全传输信息的加密方案，以使得本发明的成分能够在需要时参与安全事务。加密成分促进本发明上的资源的安全访问，并且促进远程***上的安全资源的访问；即，它可以充当安全资源的客户端和/或服务器。最频繁地，加密成分与信息服务器、操作***、其它程序成分等通信。加密成分可以包含、传送、生成、获得和/或提供程序成分、***、用户和/或数据通信、请求和/或响应。

本发明的数据库

本发明的数据库成分可以体现在数据库及其存储的数据中。数据库是由CPU执行的存储程序成分；存储程序成分部分配置CPU以处理存储的数据。数据库可以是常规的、容错的、关系的、可缩放的、安全的数据库，诸如Oracle或Sybase。关系数据库是平面文件的扩展。关系数据库由一系列相关的表组成。这些表通过关键字段互连。键字段的使用允许通过对键字段进行索引来组合表；即，键字段充当用于组合来自各种表的信息的维度枢轴点。关系通常通过匹配主键来标识表之间维护的链接。主键表示唯一标识关系数据库中表的行的字段。更确切地说，它们在一对多关系的“一”侧唯一地标识表的行。

或者，本发明的数据库可以使用各种标准数据结构来实现，诸如数组、散列、(链接的)列表、结构、结构化文本文件(例如，XML)、表等。这样的数据结构可以存储在存储器和/或(结构化)文件中。在另一替代方案中，可以使用面向对象的数据库，诸如Frontier、ObjectStore、Poet、Zope等。对象数据库可以包括通过公共属性分组和/或链接在一起的多个对象集合；它们可以通过一些公共属性与其他对象集合相关。面向对象的数据库类似于关系数据库执行，除了对象不仅是数据片段，而且可以具有封装在给定对象内的其他类型的功能。如果本发明的数据库被实现为数据结构，则本发明的数据库的使用可以被集成到诸如本发明的成分的另一成分中。而且，数据库可以被实现为数据结构、对象和关系结构的混合。数据库可以通过标准数据处理技术以无数变化来合并和/或分布。数据库的部分，例如表，可以被导出和/或导入，从而被分散和/或集成。

在一个实施例中，数据库成分包括多个表。用户(例如，操作者和医生)表可包括诸如但不限于：user_id、ssn、dob、first_name、last_name、age、state、address_firstline、address_secondline、zipcode、devices_list、contact_info、contact_type、alt_contact_info、alt_contact_type等字段，以指代本文讨论的任何类型的可输入数据或选择。用户表可以支持和/或跟踪多个实体账户。客户端表可以包括诸如但不限于以下字段：user_id、client_id、client_ip、client_type、client_model、operating_system、os_version、app_installed_flag等等。Apps表可以包括诸如但不限于：app_ID、app_name、app_type、OS_compatibilities_list、版本、时间戳、developer_ID等的字段。饮料表，其包括例如不同饮料的热容量和其它有用参数，诸如取决于size beverage_name,beverage_size、desired_coolingtemp、cooling_time、favorite_drinker、number_of_beverages、current_beverage_temperature、current_ambient_temperature等等。参数表可以包括包含前述字段的字段，或诸如cool_start_time、cool_preset、cooling_rate等的附加字段。冷却例程表可以包括多个冷却序列，这些冷却序列可以包括例如但不限于：sequence_type、sequence_id、flow_rate、avg_water_temp、cooling_time、pump_setting、pump_speed、pump_pressure、power_level、temperature_sensor_id_number、temperature_sensor_location等等。

在一个实施例中，用户程序可以包含各种用户界面原语，其可以用于更新本发明的平台。而且，取决于本发明的***可能需要服务的客户端的环境和类型，各种账户可能需要定制的数据库表。应当注意，可以始终将任何唯一字段指定为关键字段。在替代实施例中，这些表已经被分散到它们自己的数据库和它们各自的数据库控制器(即，用于上述表中的每一个的单独的数据库控制器)中。采用标准数据处理技术，可以进一步将数据库分布在若干计算机***和/或存储设备上。类似地，分散数据库控制器的配置可以通过合并和/或分布各种数据库成分来改变。本发明的***可以被配置为经由数据库控制器跟踪各种设置、输入和参数。

当引入本公开的元件或其实施例时，冠词“一”、“一个”和“该”旨在表示存在一个或多个元件。类似地，当用于引入元件时，形容词“另一个”旨在表示一个或多个元件。术语“包括”和“具有”旨在包括在内，使得可以存在除了所列出的元件之外的附加元件。

虽然已经以一定程度的特殊性描述了本发明，但是应当理解，本公开仅是以说明的方式进行的，并且在不脱离本发明的精神和范围的情况下，可以对部件的构造和布置的细节进行许多改变。

附录I

人口局，LLC，知识产权专利申请

Kim Wales

Julien Buty

Harald Frost

摘要.....................................................3

人口局，LLC，知识产权专利申请..............................4

四种类型的众筹...........................................5

市场机会.................................................10

人口局结构...............................................11

技术发展机会.............................................12

信用风险算法.............................................23

CB网站门户报警***.......................................26

利用社交数据进行众筹的估值模型...........................27

DCF模型描述..............................................56

Z模型社交数据预测........................................73

偿付能力评分社交数据预测.................................89

每股收益社交数据预测.....................................105

特定投资者众筹的社交数据预测.............................116

人口局,LLC

IP专利

申请

从主要街道店面到高科技创业公司，美国的“中小企业在过去20年里创造了每3个净就业岗位中的2个。”¹个人追求理想、创办公司和发展业务的能力是美国经济的基础。

奥巴马政府试图通过2012年的《创业企业融资法案》(Jumpstart Our BusinessStartups Act)确保我们持续经济复苏的好处惠及所有美国人，该法案允许通过中介(经纪人-交易商或注册融资平台)在网上进行证券众筹(股票和债务)。重要的是，消费者和小企业能够广泛获得安全和负担得起的信贷和股权融资。没有资本形成，企业家就无法将创新思想付诸行动。没有足够的资金，美国人就无法发展他们的企业，为下一代创造新的工作和机会。

自Kickstarter于2009年推出以来，众筹已经变得非常受欢迎。这种“融资的民主化”使得企业家和创新者能够从世界各地的陌生人那里筹集到至关重要的资金，绕过了传统的从朋友、家人和投资者那里筹集资金的方式。Kickstarter、Indiegogo和GoFundMe是常见的名字，它们带来了数十亿美元的回报和捐赠。这些众筹平台只是快速增长的行业中的一小部分。如果有人计划发起一项众筹活动，他们可能会首先求助于其中的一个平台。

四种类型的众筹

众筹定义

1.群众捐赠：基金捐赠是指没有直接可计量的报酬或福利的捐赠。示例包括社会、慈善和文化项目。群众捐赠也可以用来为政治运动筹集资金。为了群众捐赠的成功，必须在资本提供者和接受者之间建立和维持情感纽带。

2.群众奖励：群众奖励包括创意文化项目和体育项目。然而，商业项目也可以归入这一类。通过这类融资，出资人可以获得产品、艺术品或服务形式的额外津贴(如报酬)。寻求资金的各方的创造力是无限的。

3.众投(股权/债务)：众投的重点不是为项目融资，而是购买公司股权(普通股)或债务(如可转换票据、迷你债券等)。众投也为投资者提供了有限的投资机会，以支持年轻公司的成长。作为回报，这些投资者获得了公司的股份。这些通常是沉默的合伙企业，投资者只有有限的投票权。

4.众贷/点对点贷：众贷主要是指公司或个人(如生活方式、助学贷款、房地产、汽车等)贷款(借入资金)融资。作为贷款的回报，贷款人希望他们的投资得到风险调整后的回报。随着产品和商业模式的发展，在线市场贷款人的投资者基础已经扩展到机构投资者、对冲基金和金融机构。

业务模式的类型

由于基于证券的众筹(如股权)正在出售股份(普通股)，UAB根据《JOBS法案》实施了一个平台，该平台本身不需要执行第二篇和第四篇，尽管有许多平台可以简化和管理该流程。这可以是构建在整个平台中的扩展(交易室)，如点对点贷款模型所示。因此，本节概述了在线点对点贷款中的主要业务模式以及用于为该活动提供资金的结构。

该行业的公司已经开发了两种主要业务模型：(1)直接贷款人，其发起贷款以在其自己的投资组合中持有，通常称为资产负债表贷款人(图9)：以及(图10)平台贷款人，其与发行存款机构合作以发起贷款，然后购买作为整体贷款或通过发行依赖成员的票据等证券出售给投资者的贷款(图10)。第三种业务模型(图11)旨在说明证券化中的转让权利和义务。

图9：直接“简单”模型

该模型可用于捐赠、奖励、股权和债务众筹。该平台将是灵活的，以允许针对同一发行人从活动A到活动B的多于模型和水平的结果。

图10：平台贷款模型

该模型使用伙伴银行来发起随后由平台购买的贷款。

图11：证券化中权利和义务的转让

本图仅用于说明程序中权利和义务的方向。下面不包括证券化过程的许多细节，如分档证券、创造流动性等。

众筹(债务或股权)的基本原则是将需要资本的借款人与拥有闲置资本的投资者/贷款人进行匹配，绕过传统上由银行发挥的作用。利用这些发展，贷款人可以向消费者(例如学生)和所有类型的新兴成长型公司提供更快的信贷。在过去十年中，在线市场贷款公司已经从连接个人借款人和个人贷款人的平台发展到以机构投资者、金融机构伙伴关系、直接贷款和证券化交易为特征的复杂网络。

一种方法是尝试市场和资产负债表贷款的混合模型。在我们看来，购买贷款以维持自身资产负债表的公司，以及向投资者出售其他贷款的公司，都有动机出售较弱的贷款，并为自己的资产负债表保留更好的贷款。具有“游戏中的皮肤”的概念也有好处，以保持平台和借贷双方的诚实和一致。

市场机会

当前监管状况

1.通过诸如美国的《创业企业融资法案》(Jumpstart Our Business StartupsAct)等举措，遵守资本市场的政府合规制度。

2.全球40多个国家对利用互联网买卖证券的零售消费者和中小企业(SME)的融资进行了改革和重新监管(例如，28个欧洲成员国、中国)。

3.一种被称为证券众筹平台、市场贷款人和点对点平台的新型监管中介正在通过在线买卖证券创建新型数据(例如，点对点贷款账簿数据)。

4.中国人民银行(People Bank of China)要求建立监督借款人和发行人限额以及资金转移的平台。

影响市场透明度的问题

1.投资者无法跨平台比较贷款(例如，利率)

2.没有标准的基准来评估投资者或借款人的业绩

风险评估

1.没有标准的评级体系来传达风险

2.结构性贷款产品的创建没有标准体系

人口局结构

人口局是一家金融技术公司，有望成为点对点贷款和证券众筹的替代评级机构。

该团队由敬业、经验丰富的金融服务/银行、运营、技术、法律人员组成。包括提供每日/每周/每月/季度分析的定量和定性尽职调查小组的专家。提供监管合规、基准和风险模型，以评估贷款和投资组合。

我们将为银行、点对点贷款平台、基础投资者和基金经理等客户提供研究、资产和风险管理。

技术发展机会

全球范围内，已有2500多个平台开始通过网络贷款平台发放消费者个人贷款、中小企业贷款、房地产贷款、助学贷款、农业/农业综合企业贷款、太阳能/可再生能源贷款和汽车贷款。金融贷款数据由每个贷款平台公布，因为每个借款人都在寻求融资的平台上列出。市场贷款方/点对点贷款方在不同的时间间隔通过不同的媒介、以不同的格式和跨不同的管辖范围更新和发布其数据。

一些平台通过网络Socket实时协议提供数据(本质上是向协议订阅者推送新的贷款数据和事件)。他通过RESTful API，脚本可以按照预定义的时间间隔序列(每小时、3小时、每天、每月、每季度)提取新的贷款数据。输出的依赖性取决于点对点贷款平台的使用年限、点对点贷款平台的业务模式(有些只是在借款人“要求”贷款金额时更新其贷款清单，在投资者贷款达到“要求”金额时更新事件)，并且当贷款在公共网页上发起时(例如，贷款资金全部到位)时，提供CSV文件供下载，并且其他平台为零售和机构投资者和合作伙伴提供直接应用程序接口(API)。

每个平台数据可以是不同的语言(汉语、英语、印地语、法语、西班牙语等)。任何数值可以以不同单位计值，这些单位可以是(例如，货币-美元、人民币、欧元、英镑、卢比；以及时区)，并且具有不同的数值范围。数字范围可以包括薪水(例如，0-1百万对0-1千)。

问题源于这样一种情况，即一个实体(例如，自动化或人工)希望在点对点贷款金融业的所有平台(例如，监管机构、投资者)上，从宏观到微观的统一层面上理解这些数据。“理解”是指生成统计数据，并允许在平台数据之间进行高度的定性和定量比较。

解决问题的技术方案

解决该问题的解决方案包括三层成分一起工作。图12所示出的是收集、整合、统一的解决方案。

数据收集成分。

数据收集成分包括一组定制脚本，这些脚本连接到单个贷款平台并检索其贷款账簿数据。每个脚本符合并遵循点对点借贷平台数据发布时间表、介质和格式。一旦接收到来自每个平台的数据，就将它们与在数据收集SQL数据库中生成的元数据一起实时地以它们的自然状态存储(存档)。元数据包括：接收到数据的时间戳；平台的名称；以及其用于每个借款人列表和后续贷款发起的数据属性的列表。在此阶段，使用相同的编码(UTF-8)和相同的格式(JSON)保存所有平台数据，但每个平台都保留其唯一且可验证的数据属性键(例如，贷款利息可以表示为“LoanInterest”或“loan_itrst”)。该归档步骤允许在净化之前出于遵从目的对原始数据足迹进行审计。

数据合并成分。数据合并成分解决了将数据转换为使用公共语言、货币、时区、公共单位和数字范围的需要。数据合并成分从数据收集成分中提取数据，读取这些数据并应用各种转换，例如下面的示例列表：

1.使用自然语言(如贷款类型/用途、利率、贷款金额、还款期限等)的数据，首先以当地语言获取，并存档以供审计，然后翻译为英文。货币面额类型数据(如贷款金额、保费和其他数据)以当地语言获取，并由于货币波动保留为当地语言，用于研究报告和基准。通常，这将不会转换为美元，除非需要，然后两种面额将被呈现有日期/时间戳用于返回测试。

2.时区转换为UTC时区。

3.借款人收入信息、利率等数字信息转换为单一浮点格式(如“18K”转换为“18000.00”，“10％”转换为“0.1”)。在此阶段，所有数据已被转换为通用格式，但每个平台仍保留其原始且唯一的数据属性密钥集。

所有这些数据都被推入并存储到队列中，由最后一个成分使用。

数据统一成分。数据统一成分从由数据收集成分填充的队列读取数据。基于映射表，为每个不同的平台数据属性对(例如，平台A/属性Y)记录其目的地统一数据属性，该成分为所有平台/属性对填充中央SQL数据库。这使得中央数据库以新的统一格式存储不同的平台数据，由此可以非常精确地实现宏观级别的统计和比较分析。

定义“完美”-错误率低于1％。

人口局解决方案的有益效果

这种解决方案允许在交易层面对贷款数据进行近乎实时的透明处理。数据的规范化和标准化，从而允许跨平台、跨辖区和区域环境创建行业范围的比较、估值、定价活动和统计生成。

贷款数据示例。包括将Y辖区内平台A的平均利率与Z辖区内另一平台B的平均利率进行比较；对整个辖区或地区的所有平台贷款违约率进行平均。基准/指数。

股权数据示例。包括在传统公司(公私)特定评级模型和投资者特定评级中使用社交媒体的可行性和价值。

信用风险算法示例。包括建立一个行业范围内的标准加权信用风险模型，以承保贷款和跟踪业绩。

警报***示例。包括识别借款人何时在一个或多个平台上超过借款人限额的能力。

市场数据

目前，人口局从来自中国(83个)、美国(2个)和欧洲(6个)的85个单独的点对点贷款平台收集、合并和统一数据，涵盖消费贷款、房地产、助学贷款、汽车、农业综合企业、可再生能源/太阳能和生活方式。

1.每个平台的API和/或网络抓取技术的稳定自动化。

2.平台每小时新增贷款归集/抓取情况。

3.任何贷款每小时、每平台更新事件的收集/捕获。

4.对于发起贷款，可跟踪贷款的履约情况。

5.存在以下情况的贷款的区分：

a.贷款进度小于100％-贷款处于“询价”阶段，双方无约束性合同＝>表示市场“询价”量。

b.贷款进度等于100％-贷款是双方之间有效的、具有约束力的法律合同＝>提供市场上的贷款/信贷量。

衍生信息。我们可以为客户端和产品获取信息：

1.“贷款进度<100％且＝100％”贷款的平均贷款收益率

2.“贷款进度<100％且＝100％”贷款的估计市场规模

3.还款条款信息

4.贷款用途分类

5.我们可以生成具有分类属性的派生数据，如：贷款用途、贷款偿还期限等。

基准

目前，试点阶段的基准数据按季度打印(邮寄)。数字每日、月度基准将于2017年第四季度推出。

基准特征。

1.单独P2P平台账户-所有账户托管(中国监管要求)。

2.贷款方式纯度

a.聚类由“使用贷款”-派生索赔，人们要求在P2P平台上的X货币，以例如汽车，房地产等，在一个整体市场的方式。

3.完全透明-列出的所有贷款、间隔事件和发起

4.所有平台“询价”总量

a.P2P贷款在贷款发起前有“询价”阶段。对于一般贷款(每日)，将所有仍未结清的金额进行合计，[名义贷款*(1-贷款百分比)]

b.合计所有平台＝“经济”我们知道市场想通过P2P贷款贷出多少钱。

5.履约情况

a.利率、数量、价值、违约、冲销等。

6.风险控制

a.每日、每月、每季度定量和定性审查。

信用风险算法

状态：基于XYZ平台数据估计违约概率

目的：确定用于预测贷款是否可能偿还的解释变量。

数据：XYZ平台发起的贷款数据，包含2010年1月至2016年9月期间发行的所有贷款，最新贷款状态截至发布日期。到目前为止，已经分析了两组贷款-所有贷款都已完成其生命周期，贷款状态为“全额偿还”或“冲销”：

模型：以贷款状况为因变量的逻辑回归模型。根据以下属性建立了独立变量的不同子集：

监控

描述性信息

衍生信息。我们可以为客户端和产品获取信息：

1.“贷款进度<100％以及＝100％”贷款的平均贷款收益率

2.“贷款进度<100％且＝100％”贷款的估计市场规模

3.还款条款信息

4.贷款用途分类

5.可生成贷款用途、贷款还款期限等分类属性的衍生数据

还有更多......

基准

目前，试点阶段的基准数据按季度打印(邮寄)。数字每日月度基准将于2017年第四季度推出。

说明：XYZ平台已经使用这些属性来区分“好”贷款和“坏”贷款，其中“好”贷款是XYZ平台发起的贷款；其减少了大约90％的贷款申请。因此，我们分析的数据只包含“前10％”，例如2010年至2013年所有贷款的债务收入比都低于35％。在下降的贷款数据中，对于相同的时间间隔，我们发现超过20万的dti值高于40％，高达1000％。(债务收入比是拒绝贷款数据集中唯一可以与原始贷款进行比较的属性。)

备注：使用另一组信贷数据(来自银行)对贷款俱乐部数据分析中使用的方法进行了测试。根据这些数据，参数估计得出的违约概率可以很好地预测观察到的违约和非违约。

附录：示例

参数子集的估计量，使用5000笔贷款样本(4300笔全额支付，700笔冲销)，使用R：

得到的按四分位数划分的违约概率和相应的观察到的违约，适用于30,086笔贷款的完整数据集(26,636笔全额支付/4,350笔冲销)：

比较：按四分位数划分的违约概率和从银行的300笔贷款数据集观察到的相应违约(255笔全额偿还/45笔冲销)：

利用社交数据进行众筹的估值模型

本节论述了在传统公司(公私)特定评级模型和投资者特定评级中使用社交媒体的可行性和价值，这表明某些社交媒体属性具有预测众筹成功的潜力。对于公司特定的模型，我们的结果表明，在Solvency、Z和Moat模型中使用了社交媒体数据；此外，数据还表明，社交媒体可能会对传统模型提供微小的改进，并且在单独使用时有可能预测破产等结果。

一般方法和工作流程

在评估社会股权数据可为公司评级带来的价值时，首先考虑对公司的财务健康和增长进行评级的现有方法和途径至关重要。基于财务指标的传统模型已被许多人用来预测从破产到拥有一条经济护城河的各种公司结果。从投资角度来看，能够以高精度预测这些结果的评级***在选择投资组合以最大化投资回报方面尤其有价值。

自从数字时代开始以来，相对于这一时期之前的时代，我们已经能够获得前所未有数量的数据。现在个人之间的联系比以往任何时候都要紧密，信息和事件可以在几秒钟内传播到全世界。

此外，个人越来越多地转向社交媒体，以便与他人建立联系，并迅速分享新闻、数据和想法。反过来，这些关系和想法有能力影响个人的决策。

利用现代技术，可以从社交媒体上个人之间的联系和交流中收集大量数据，但这些数据能否更好地衡量一家公司未来的健康和成功？一般方法将经济护城河、公允价值价格、Altman Z评分、偿付能力评分和每股收益估值方法确定为我们分析社会媒介公司特定评级的起点。对于针对投资者的评级，我们将注意力集中在使用社交媒体预测众筹成功的概率上。

在识别将用作社交媒体覆盖的基线的模型之后，我们接下来确定每个模型的数学基础以及每个模型所需的输入和因变量。一旦确定了建模所需的变量，我们就为每个模型获得了几个公司的历史财务数据点，以便预测每个模型旨在预测的结果(例如，偿付能力评分模型旨在预测破产)。随着时间的推移，我们将进行更全面的分析，并将我们对金融(和社交)变量的收购限制在2007年至2016年这段时间内，因为这段时间的开始是在Twitter成立一年之后。在实践中，我们的模型使用了较窄时间窗口(2009年至2015年)的数据，我们依靠QuoteMedia和Gurufocus.com获得建模中使用的所有财务数据。一旦获得，我们就使用财务数据以及适当的数学模型来构建基线模型。

然后，我们使用Crimson Hexagon、Internet Archive(https://archive.org/ index_php)Crowdfunder.com，和其他资源获取社交媒体数据。最后，我们将社交媒体数据与传统金融变量以不同的组合进行组合，以确定这些数据是否提高了传统模型的预测能力，并且我们还评估了单独的社交媒体数据在预测公司财务健康、收益或经济护城河方面是否具有任何预测能力。将并入社交媒体的每个模型的100次迭代的平均准确度与基线模型的平均准确度以及如果随机猜测以评估社交媒体在评级中的预测能力将实现的准确度进行比较。

定量护城河社交数据预测

模型概述。当考虑投资时，有经济护城河的公司是有吸引力的，因为他们往往是风险较低的投资，并提供更稳定的回报。我们的基线护城河模型基于Warren Miller2撰写的2013年Morningstar方法论论文，我们使用R3中的***包实现了所有建模。我们分析中分配给公司的护城河是2016年1月从Morningstar网站获得的(关于我们分析中使用的公司的更多信息，参见“人口局社交数据护城河聚焦基准”文件)。我们假设，截至2015年底，这些公司持有这些护城河的名称。

我们获得了Morningstar在2013年至2014年期间的其定量护城河评级(如下所述)中使用的相同12个金融变量，因为这将为我们提供在一家公司获得2015年护城河名称之前至少一年预测护城河类型的数据。同样，我们应用了两种不同的随机森林模型，以便区分有经济护城河的公司和没有护城河的公司，并区分有狭窄护城河的公司和有宽阔护城河的公司。我们的模型的预测基于500个回归树(关于随机森林模型的细节可以在Morningstar报告中找到¹)。

为了测试每个模型的准确性，我们随机地将我们的数据分成训练数据集(60％的公司)和测试数据集(40％的公司)(图13)。在用60％的公司数据对模型进行训练之后，我们使用该模型对剩余的40％的公司进行分类并计算准确度。因为由于随机选择训练和测试数据，模型的精度可以变化，所以我们执行上述步骤序列100次，并将100次试验的平均值和标准偏差作为我们的最终精度分数。为了生成最终的护城河得分，我们用矩阵中的所有数据训练每个随机森林模型，然后使用随机森林模型的概率输出来评估公司同时具有护城河和宽(wide)护城河的概率。该方法与Morningstar公司使用的方法相同，计算方法如下：

在上面的等式中，“(1-无护城河概率)”和“(宽护城河概率)”可以直接从R内的***包获得。

当覆盖社交媒体变量时，我们使用与上述相同的方法。基线模型和社交媒体覆盖模型之间的主要差异是我们提供给随机森林模型的矩阵。总共，我们构建了23个不同的模型(模型描述单独提供)，其由具有社交媒体变量的不同组合的基线模型以及完全由社交媒体变量组成的几个模型组成(下面描述)。由于时间限制，这些模型在可创建的组合的数量方面不是穷尽的，但是它们确实用作分析的实质起点。

QuoteMedia API和Morningstar网站用于获取我们分析所需的财务信息。在我们的分析中，Cridson Hexagon和公司网站被用来获取所有的社交媒体变量。

模型变量(金融和社交)

在我们的分析中，我们总共收集了17个不同变量(12个金融变量和5个社交变量)的数据。财务变量以及我们如何获得/计算这些变量的描述如下：

资产回报率(ROA)-我们计算ROA为：净收入/总资产

这些数据是使用QuoteMedia公司的年度报告数据获得的。

收益收益率-我们将收益收益率计算为：

公司在报告日的基本每股收益/未调整的收盘价

基本每股收益数据使用QuoteMedia提供的公司年报数据获得。未经调整的收盘价也从QuoteMedia获得。

账面价值收益-我们将账面价值收益计算为：1/价格与账面比率

这些数据是使用QuoteMedia公司的年度报告数据获得的。

销售收益-我们将销售收益计算为：

总收入/(已发行普通股总额x财务报告日未调整的收盘价)

股权波动率-我们计算股权波动率如下：

首先，我们收集了截至报告日期(包括报告日期)的365天内某家公司未经调整的收盘价。接下来，我们计算某一天的收盘价与前一天的收盘价之差，然后将该差除以前一天的收盘价(即，(收盘价_i+1-收盘价_i)/收盘价_i，其中，i＝0-364)。我们这样做了365天，直到报告日期，并采取这些值的标准偏差。总之，这可以通过以下等式来描述：

股票波动性＝标准偏差((收盘价_i+1-收盘价_i)/收盘价_i)

其中，i＝0-364

未经调整的收盘价从QuoteMedia获得。

最大下拉-我们计算最大下拉如下：

首先，我们收集了截至报告日期(包括报告日期)的365天内某家公司未经调整的收盘价。然后，我们从最低收盘价中减去最高收盘价，并将差值除以最高收盘价。总的来说，

最大下拉＝(最小收盘价-最大收盘价)/最大收盘价

未调整的收盘价从QuoteMedia获得。

平均日交易量-我们计算的平均日交易量是截至并包括年度报告日期的365天内每天未经调整的股份交易量的平均值)。未经调整的股份数量从QuoteMedia获得。

总收入-根据各公司的年报数据，直接从QuoteMedia API输出中获得各公司的总收入。

市值-我们将市值计算为：发行在外的普通股总额x未经调整的收盘价。

使用QuoteMedia在各公司提交年度报告之日获得这些值。

企业价值-我们将企业价值计算为：

市值+优先股+长期债务+本期债务+少数股东权益-现金及等价物

这些值是使用QuoteMedia从公司的年度报告中获得的。

企业价值/市值-我们通过将上述计算的企业价值除以上述计算的市值来计算该价值。

部门(Sector)ID-我们直接从QuoteMedia API获得部门ID。

社交媒体变量以及我们如何获得/计算这些变量的描述如下：

身份得分(Identity Score)-我们计算的身份得分是每家公司在其主网站上显示的社交媒体网站链接数。这里，社交媒体网站包括Facebook、Twitter、Tumblr、LinkedIn、Google+、Pinterest和Instagram。由于时间限制，我们使用了截至2016年2月公司网站上的链接数量，假设自2013年以来公司没有向其网站添加大量社交媒体链接。理想情况下，我们将使用Internet Archive来获取历史分数。最后，我们对网站的搜索通常包括“主页”、“媒体页面”(如果有)和“联系我们”页面。因此，我们对链接的搜索并不详尽。在社交媒体的7个构建块下，这将被分类为属于身份块。

总发帖量(Total Posts)-这是包括公司现金标签的发帖总数(例如，$AMGN是Amgen的现金标签)。我们在Crimson Hexagon上创建了一个Buzz Monitor(“护城河；2014年数据”)，从2013年1月1日到2014年12月31日在Twitter、Facebook和Tumblr上搜索公司现金标签的使用情况。对于给定的公司，从公司年度报告日期之前的12个月收集数据。在社交媒体的7个构建块下，这将被分类为属于对话块。

总潜在观感(Total Potential Impressions)-这是在公司年度报告日前12个月内，包括公司现金标签在内的帖子所产生的总潜在观感。数据来自Crimson Hexagon的“护城河；2014年数据”Buzz Monitor。在社交媒体的7个构建块下，这将被分类为属于对话块。

每位作者的发帖量(Posts per Author)-我们计算的结果是，公司年度报告日期前12个月的发帖量除以该期间发布的Twitter作者总数。数据来自Crimson Hexagon的“护城河；2014年数据”Buzz Monitor。在社交媒体的7个构建块下，这将被分类为属于对话块。注意：如果公司在该时间范围内有0个作者，则我们手动将该值设置为0，以避免除以0

每帖子的观感(Impressions per Post)-我们计算如下：

总潜在观感(见上文描述)/总发帖量(见上文描述)数据来自CrimsonHexagon上的“护城河；2014年数据”Buzz Monitor。

在社交媒体的7个构建块下，这将被分类为属于对话块。注意：如果公司在该时间范围内有0个发帖，则我们手动将该值设置为0，以避免除以0。

公司纳入标准

本节旨在概述我们对包含在护城河分析中的公司的选择过程。

关于公司本身的具体信息可从“人口局社交数据护城河焦点基准”Word文档和“Moat_2014Data_Master_Matrix”Excel文档中获取。2016年1月，我们使用Morningstar网站获得了一份约120家公司的名单，Morningstar认定这些公司要么有宽护城河，要么有窄(narrow)护城河，要么没有护城河。然后，我们使用QuoteMedia API直接获取上述12个金融变量(例如总收入)，或者获取计算这些属性所需的变量(例如，我们获取了发行在外且未经调整的总普通股，然后根据这些值计算市值)。为了保持在我们的分析中，公司必须报告获得其2014年年报的护城河模型的12个财务输入属性所需的所有变量。我们无法从2014年年报中获得全部12个属性的公司从我们的分析中剔除。在过滤之后，在我们的最终分析中总共使用了59家公司。在这些公司中，23家被列为有宽护城河，19家被列为有窄护城河，17家被列为没有护城河。

数据采集

为了获得12个金融变量(或组成这些变量的成分)，我们开发了几个内部Python脚本，使用QuoteMedia API下载这些数据。这些脚本总结如下。这些在压缩文件夹“Model_Code_2_24_16”中的脚本被上载到Git。在这个文件夹中，可以在名为“Moat_Model”的子目录中找到这些脚本。所有脚本都被设置为从给定公司的10个最近的年度报告中获取数据，但是API调用的简单修改将允许人们在需要时获取更多的报告。在运行这些脚本之前，必须在计算机上安装Python。理论上，Python2或Python3应该可以工作，但是数据是在运行Python2.7的机器上获得的。此外，这些代码依赖于多个python模块的导入。若要查看每个代码所需的模块，请使用文本编辑器打开脚本并查看前几行代码。

脚本及其目的如下：

getHistoricalROA.py-该脚本采用公司股票代码列表，并返回股票代码、净收入、总资产以及以制表符分隔格式获取净收入和总资产的报告日期。资产收益率可以使用上述净收入和总资产在Excel中计算。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第27行中以逗号分隔的公司列表中。例如：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。

用法：python getHistoricalROA.py>HistoricalROA.txt(注意：“HistoricalSY.txt”可以更改为任何需要的文件名)

getHistoricalEarningsYield.py-该脚本获取公司股票代码列表，并以制表符分隔的格式返回股票代码、每股收益、未调整的收盘价和报表日期。收益收益率可按上述方法在Excel中计算。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第27行中以逗号分隔的公司列表中。例如：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。

用法：python getHistoricalEarningsYield.py>HistoricalEY.txt(注意：“HistoricalEY.txt”可以更改为任何需要的文件名)

getHistoricalBookValueYield.py-此脚本获取公司股票代码列表，并以制表符分隔的格式返回股票代码、市净率和报表日期。账面价值收益率可按上述方法在Excel中计算。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第28行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、‘BIIB’、‘BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。

用法：python getHistoricalBookValueYield.py>HistoricalBVY.txt(注意：“HistoricalBVY.txt”可以更改为任何需要的文件名)

getHistoricalSalesYield.py-此脚本采用公司股票代码列表，并以制表符分隔的格式返回股票代码、总收入、发行在外的普通股总数、未调整的收盘价和报告日期。销售收益率可按上述方法在Excel中计算。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第27行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、‘BIIB’、‘BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。

用法：python getHistoricalSalesYield.py>HistoricalSY.txt(注意：“HistoricalSY.txt”可以更改为任何需要的文件名)

getHistoricalVolatility_MaximumDrawdown_AverageVolume.py-本脚本采用公司股票代码列表，并以制表符分隔的格式返回股票代码、股票波动率、最大消耗、平均交易量和报告日期。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第40行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、‘BIIB’、‘BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。此外，如果在计算股票波动率时出错，该代码将退出。绝大多数公司不会导致此代码遇到错误，但有些公司偶尔会导致出现错误。

虽然此错误仍然需要更多的疑难解答，但我们怀疑错误是由于丢失数据造成的。最简单的解决办法是找到导致错误的公司，并将其从第40行粘贴的公司列表中删除。由于时间限制，我们无法为这个错误提供修补程序。当前，代码被设置为首先标识在代码运行时给出错误的公司。我们首先建议通过运行“python getHistoricalVolatility_MaximumDrawdown_AverageVolume.py”来使用此代码。这将公司及其数据打印到终端。如果代码退出，则可以在退出之前查看代码所针对的公司，并删除给出错误的公司。一旦删除所有给出错误的公司，就在第117行的代码前面添加，然后在第123行的代码前面删除。然后可以使用以下代码：

python getHistoricalV olatilityMaximumDrawdo wnAverageV olume.py>HistoricalV_MD_AV.txt(注意：“HistoricalV_MD_AV.txt”可以更改为所需的任何文件名)

getHistoricalTotalRevenue.py-该脚本采用公司股票代码列表，并以制表符分隔的格式返回股票代码、总收入和报表日期。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第27行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、‘BIIB’、‘BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用MicrosoftExcel等程序对数据进行进一步处理。

用法：python getHistoricalTotalRevenue.py>HistoricalTR.txt(注意：“HistoricalTR.txt”可以更改为任何需要的文件名)

注意：这与历史销售收益的脚本在技术上是多余的。

getHistoricalMarketCap.py-此脚本采用公司股票代码列表，并以制表符分隔的格式返回股票代码、发行在外的普通股总数、未调整的收盘价和报告日期。市值可按上述方法在Excel中计算。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第27行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、‘BIIB’、‘BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。

用法：python getHistoricalMarketCap.py>HistoricalMC.txt(注意；“HistoricalMC.txt”可以更改为任何需要的文件名)

注意：这脚本与获得历史销售收益的脚本有冗余。

getHistoricalEnterpriseValue.py-该脚本采用公司股票代码列表，以制表符分隔的格式返回股票代码、发行在外的普通股总数、未调整的收盘价、当前债务、长期债务、现金和等价物、优先股、少数股东权益和报告日期。如上所述，可以在Excel中使用这些变量计算企业价值。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第28行中以逗号分隔的公司列表中。例如：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。

用法：python getHistoricalEnterpriseValue.py>HistoricalEV.txt(注意：“HistoricalEV.txt”可以更改为任何需要的文件名)

getSector.py-该脚本采用公司股票代码列表，并以制表符分隔的格式返回股票代码和部门ID。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第29行中以逗号分隔的公司列表中。例如：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。

用法：python getSector.py>HistoricalSector.txt(注意：“HistoricalSector.txt”可以更改为任何需要的文件名)

虽然在“模型变量(金融和社交)”部分有所提及，但我们在分析中采用了以下方法来获取社交媒体变量。

身份得分-我们计算的身份得分是每家公司在其主网站上显示的社交媒体网站链接数。这里，社交媒体网站包括Facebook、Twitter、Tumblr、LinkedIn、Google+、Pinterest和Instagram。由于时间限制，我们使用了截至2016年2月公司网站上的链接数量，假设自2013年以来公司没有向其网站添加大量社交媒体链接。理想情况下，我们将使用InternetArchive来获取历史分数。最后，我们对网站的搜索通常包括“主页”、“媒体页面”(如果有)和“联系我们”页面。因此，我们对链接的搜索并不详尽。

总发帖量-这是包括公司现金标签的发帖总数(例如，$AMGN是Amgen的现金标签)。我们在Crimson Hexagon上创建了一个Buzz Monitor(“护城河；2014年数据”)，从2013年1月1日到2014年12月31日在Twitter、Facebook和Tumblr上搜索公司现金标签的使用情况。对于给定的公司，从公司年度报告日期之前的12个月收集数据。为了收集公司和特定时间的数据，我们在Buzz Monitor中使用公司的现金标签创建了一个过滤器。我们将此过滤器应用于监视器，并将时间范围设置为包含公司年报日期之前的年份。例如，如果一家公司于2014年12月31日提交年度报告，那么我们获得了2013年12月31日至2014年12月31日的总发帖量。在线从监视器屏幕上获取总发帖量。

总潜在观感-这是在公司年度报告日前12个月内，包括公司现金标签在内的帖子所产生的总潜在观感。我们在Crimson Hexagon上创建了一个Buzz Monitor(“护城河；2014年数据”)，从2013年1月1日到2014年12月31日在Twitter、Facebook和Tumblr上搜索公司现金标签的使用情况。对于给定的公司，从公司年度报告日期之前的12个月收集数据。为了收集公司和特定时间的数据，我们在Buzz Monitor中使用公司的现金标签创建了一个过滤器。我们将此过滤器应用于监视器，并将时间范围设置为包含公司年报日期之前的年份。例如，如果一家公司于2014年12月31日提交年度报告，那么我们获得了2013年12月31日至2014年12月31日的总潜在观感。我们从Crimson Hexagon下载了一个excel文件，其中包含了网站界面上的总潜在观感数据。在Excel文件中，我们将每天潜在观感的数量相加，以得出该时间段的总潜在观感。

每位作者的发帖量-我们计算的结果是，公司年度报告日期前12个月的发帖量除以该期间发布的Twitter作者总数。我们在Crimson Hexagon上创建了一个Buzz Monitor(“护城河；2014年数据”)，从2013年1月1日到2014年12月31日在Twitter、Facebook和Tumblr上搜索公司现金标签的使用情况。对于给定的公司，从公司年度报告日期之前的12个月收集数据。为了收集公司和特定时间的数据，我们在Buzz Monitor中使用公司的现金标签创建了一个过滤器。我们将此过滤器应用于监视器，并将时间范围设置为包含公司年报日期之前的年份。例如，如果一家公司于2014年12月31日提交年度报告，那么我们获得了2013年12月31日至2014年12月31日的总潜在观感。我们从Crimson Hexagon下载了一个excel文件，其中包含了一天内Twitter作者总数和每位作者平均发帖次数的数据。在Excel文件中，我们首先将某一天发布的Twitter作者数乘以该天每个作者的平均发布数，以获得每天的发布数。然后，我们将整个时间段内的帖子总数相加，并将其除以该时间段内Twitter作者的总数，以得出每个作者的帖子数。

每个帖子的观感-我们在Excel中通过将总潜在观感除以总发帖量(按上述方法获取后)来计算。

模型测试和结果。

我们在分析中获取了上述59家公司的所有金融和社交媒体数据后，生成了“Moat_2014Data_Master_Matrix”Excel电子表格，可以在Confluence上找到。该电子表格太大，无法包含在报告中，但它包含了所有数据以及其他细节(例如，现金标签、报告日期、社会数据日期范围等)，这些细节有助于获取关于建模过程中使用的公司的进一步信息。在生成该数据矩阵之后，我们接下来创建了“无护城河相对护城河”随机森林模型(表1)和“窄护城河相对宽护城河”随机森林模型(表2)的基线数据矩阵。

表1。示例矩阵的快照，其中变量输入到“No Moat(无护城河)相对Moat(护城河)”模型中。输入变量为简洁起见而缩写。我们试图预测的变量(“Moat(护城河)”)用绿色突出显示。虽然未显示公司名称，但每行对应于特定的公司。ROA＝资产收益率；EY＝收益收益率；SY＝销售收益率；BVY＝账面价值收益率；EqVol＝股票波动性；MD＝最大消耗；AV＝平均交易量；TR＝总收入；MC＝市场资本化；EV＝企业价值；EV mc＝企业价值/市场资本化。TR、MC和EV，以美元计量。

Moat	ROA	EY	SY	BVY	EqVol	MD	AV	TR	MC	EV	EV_MC	Sector
													Moat	0.06	0.042	0.847	0.166	0.0146	-0.32	793565	1E+10	1.16E+10	1.32E+10	1.13179	Consumer_Cyclical
No_Moat	0	-0.23	0.818	1.053	0.0237	-0.52	1E+07	1E+10	1.25E+10	2.29E+10	1.82922	Basic_Materials
													No_Moat	0	0.058	2.049	1.075	0.0251	-0.39	559.11	8E+09	3.84E+09	1.07E+10	2.78551	Industrials
No_Moat	0.06	0.037	0.541	0.485	0.0202	-0.32	639327	6E+08	1.16E+09	1.12E+09	0.96168	Technology
													Moat	0.04	0.065	1.867	0.481	0.0138	-0.29	2E+06	6E+10	3.11E+10	3.82E+10	1.23046	Healthcare
Moat	0.08	0.049	0.256	0.285	0.0106	-0.22	23591	5E+10	1.84E+11	2.27E+11	1.23154	Consumet_Defensive
													Moat	0.05	0.036	1.133	0.269	0.0192	-0.48	290600	1E+09	9.14E+08	1.06E+09	1.16206	Healthcare
No_Moat	0	0.046	0.151	0.152	0.0189	-0.36	941.27	2E+09	1.31E+10	1.21E+10	0.9253	Healthcare
													Moat	0	0.043	0.235	0.154	0.0214	-0.24	500.99	4E+09	1.76E+10	1.93E+10	1.09982	Technology
No_Moat	-0.1	-0.2	2.657	0.258	0.0268	-0.47	2E+07	6E+09	2.07E+09	3.48E+09	1.67908	Technology

表2。示例矩阵的快照，其中变量输入到“窄护城河相对宽护城河”模型中。输入变量为简洁起见而缩写。我们试图预测的变量(“护城河”)用绿色突出显示。虽然未显示公司名称，但每行对应于特定的公司。ROA＝资产收益率；EY＝收益收益率；SY＝销售收益率；BVY＝账面价值收益率；EqVol＝股票波动性；MD＝最大消耗；AV＝平均交易量；TR＝总收入；MC＝市场资本化；EV＝企业价值；EV mc＝企业价值/市场资本化。TR、MC和EV，以美元计量。

Moat	ROA	EY	SY	BVY	EqVol	MD	AV	TR	MC	EV	EV_MC	Sector
													Narrow	0.0952	0.05	0.39	0.246	0.0081	-0.195	8E+05	8446000000	2.18E+10	2.4E+10	1.096615	Healthcare
Narrow	0.0814	0.06	0.5	0.476	0.0087	-0.257	8E+05	3563637000	7.19E+09	6.3E+09	0.875755	Technology
													Wide	0.0128	0.02	6.97	0.116	0.0088	-0.23	2E+06	1.20E+11	1.72E+10	1.7E+10	1.010908	Healthcare
Wide	0.1471	0.05	0.18	0.044	0.0089	-0.361	7E+06	17945000000	9.74E+10	1.09E+11	1.116742	Consumer_Defensive
													Narrow	0.0963	0.06	0.42	0.211	0.0091	-0.148	3E+06	16671000000	3.98E+10	4.6E+10	1.1605	Healthcare
Wide	0.0903	0.05	0.56	0.248	0.0092	-0.109	3E+06	24537000000	4.36E+10	4.6E+10	1.06595	Industrials
													Narrow	0.0529	0.04	0.98	0.36	0.0092	-0.205	8E+05	4343500000	4.4E+09	5.7E+09	1.29284	Consumer_Cyclical
Wide	0.0516	0.1	1.22	0.366	0.0094	-0.148	3E+06	36066900000	2.96E+10	6.3E+10	2.122383	Industrials
													Narrow	0.0325	0.05	0.45	0.467	0.0095	-0.297	5E+05	3350300000	7.37E+09	1.1E+10	1.552919	Utilities
Wide	0.1598	0.05	0.3	0.155	0.0095	-0.277	3E+06	31821000000	1.04E+11	1.09E+11	1.051577	Industrials

在建立基线矩阵之后，我们继续对每个基线矩阵运行随机森林模型，以计算每个基线模型的平均精度。为此，我们开发了一个名为“Script_for_Running_Models.r”的R脚本。虽然我们打算单独详细描述该脚本，但我们将简要概述该脚本如何确定模型精度的平均精度和标准偏差。该脚本被上传到Git的“Model_Code_2_24_16”压缩文件夹中，并包含在此存档的“Modeling_Script”子目录中。

此脚本的第一步涉及导入基线数据矩阵(示例见表1和表2)。在加载矩阵之后，代码随机选择60％的数据用于训练，40％的数据用于测试。作为示例，如果我们将表1(该表具有10行数据)加载到代码中，则将随机地选择6行数据以训练随机森林模型，并且将随机地选择4行数据以用于测试目的。在训练之后，代码预测测试数据中的每个数据点属于哪个类别，然后将预测与每个数据点的实际类别进行比较。然后将模型的精度存储在列表中，并且将上述步骤重复99次以上，总共100次迭代。在100次迭代之后，代码打印出平均精度和精度的标准偏差。我们绘制并比较了我们测试的模型的平均精度以及平均误差(标准偏差/样本大小的平方根)。

在实施上述建模代码之后，我们发现“无护城河相对护城河”模型的基线模型的平均准确度为83.6％，标准偏差为6.7％，而“窄护城河相对宽护城河”模型的基线模型的平均准确度为71.9％，标准偏差为11.5％。请注意，这些是我们实现模型时的精度。如果再次运行，由于训练和测试数据集的随机选择，很可能得到高度相似但不精确的结果。“无护城河相对护城河”模型的无信息率(NIR；随机预测)为71.2％，“窄护城河相对宽护城河”模型的无信息率为54.8％。如果一个人随机猜测某家公司护城河的性质，他或她会得到这些费率。

在生成基线模型之后，我们以不同的组合将社交媒体变量添加到基线矩阵中(详见“Narrow_v_Wide_Moat_Model_Descriptions”和“No_Moat_v_Moat_Model_Descriptions”文档)。我们生成了总共23个不同的覆盖模型，包括基线数据加上社交媒体数据的各种组合或者单独的社交媒体数据。由于社交媒体和基线变量的其他组合存在，我们没有对其进行测试，因此测试的模型数量远非详尽。我们也没有探索将基线变量的子集与社交媒体变量结合起来。因此，我们下面的结论是基于从基线变量(被视为“一个”变量)和社交媒体变量的组合中得出的有限的组合子集。

使用上述代码，我们计算每个模型的平均准确度和准确度的标准偏差，并将它们与我们的基线矩阵进行比较。在我们的23个模型中，当预测公司相对于基线(83.6％的准确度)是“无护城河”还是“护城河”时，模型8(M8)似乎具有边际准确度增加(85.5％的准确度)。模型8包括基线数据加上总潜在观感和身份得分。仅使用社交媒体构建的几个模型似乎无法区分“无护城河”的公司和“护城河”的公司。我们用社交媒体覆盖的模型中，没有一个比基线模型更好地预测了较窄和较宽的护城河。然而，仅使用社交媒体构建的几个模型似乎更能预测“窄”对“宽”的护城河，而不是随机的护城河。鉴于这些结果，以及我们在分析中只测试了一小部分不同的可能组合的事实，这些结果表明，有必要对人口局的《定量护城河社会数据预测》进行进一步审查。

尽管基线和社交媒体覆盖模型在预测护城河类型方面显示出了希望，但在我们的分析中，它们在这一点上仍然是分开的。为了将每个模型的预测组合为单个评级，我们使用所有数据来训练我们的“无护城河相对护城河”随机森林模型和“窄护城河相对宽护城河”随机森林模型，然后使用该模型来预测每个公司没有护城河的概率和有宽护城河的概率。然后，我们使用由Morningstar开发的方法计算护城河得分如下：

可以修改我们用于精度分析的R建模脚本，以产生上述等式中每个公司的概率。在我们的分析中，我们首先仅根据基线数据为每家公司生成了护城河得分，这些得分可以在“人口局社会数据护城河重点基准”文件中找到。因为我们观察到，对于区分有经济护城河的公司和没有经济护城河的公司，模型8略微提高了预测精度，所以我们使用模型8为每个公司生成了没有护城河的概率。然后，我们将这些概率与基线“窄护城河相对宽护城河”模型生成的宽护城河概率相结合，以获得每个公司的护城河得分，其中考虑到它们的社交媒体身份得分和总的潜在观感。可以在“人口局社会数据护城河焦点基准”文件中查看每家公司的这些得分。

最后，我们询问我们的基线定量护城河得分如何将宽、窄和无护城河公司隔离开来。使用Excel，我们根据每个公司的护城河得分计算出每个公司的百分位数。采用这种方法，排名前23的公司应该有宽阔的护城河，排名最低的17家公司应该没有护城河，排名中间的19家公司应该有狭窄的护城河。如表3所示，我们的基线模型在分离出不同护城河类型方面表现良好。为了确定社会覆盖模型是否能够改进使用护城河评分方法的传统模型的预测能力，需要更多的数据和进一步的分析。

表3 基线护城河分护城河预报能力评价

定量公允价值价格社会数据预测模型综述。

了解公司当前和未来的现金流对于寻求投资回报最大化的投资者来说是至关重要的。一种估算投资未来价值的方法是计算股票的公允价值价格。当考虑各种股票时，投资于被低估的股票是有利的。也就是说，如果股票的当前价格低于其公允价值估计，那么它将是一个很好的候选人纳入一个人的投资组合。由于时间和资源的限制，我们无法充分实施公允价值社会数据预测模型。然而，我们提供了迄今为止工作概要，并指出了为使这一模式从目前阶段向前发展所需采取的步骤。

我们的公允价值模型方法论基于Warren Miller⁴撰写的2013年Morningstar方法论论文，如果时间允许我们完成该模型的构建，我们将在R5内使用***符号包实现所有建模。我们计划在分析中使用的公司与我们在定量护城河社会数据预测中使用的公司相同。我们获得了Morningstar在2013年至2014年期间的2013年方法文件³(如下所述)中使用的12个金融变量。这些也是我们的定量护城河社会数据预测方法的相同输入。在此期间，我们还获得了社交媒体数据(如下所述)。为了预测更近期的公允价值价格，我们还收集了2014年至2015年的社交媒体数据，并构建了代码，以获取最近可从QuoteMedia获得的12个金融输入变量。

我们还构建了一个理论上的贴现现金流(DCF)模型，该模型允许我们计算公司的公允价值价格。不幸的是，我们无法获取所有变量(历史变量和当前变量)，以便在约定的时间内实现该模型。类似于我们的定量护城河社会数据预测，我们将使用500个回归树的随机森林模型(关于随机森林模型的细节可以在Morningstar报告³中找到)来预测我们分析中的公司的公允价值价格。具体而言，我们的目标是使用12个金融变量来预测公允价值价格(FVP)，我们将其计算为：

FVP＝log(0.0001+DCF-基于DCF的公允价值估算/当前收盘价)

在获得基于我们的DCF模型的12个金融变量和公允价值估计之后，我们将构建一个与表4中显示的矩阵类似的矩阵。

表4。本应在公允价值价格社会数据预测模型中使用的示例基线数据矩阵。在该表中，“x”是根据公司股票的公允价值估计值(使用DCF模型获得)除以公司在其年报日期的收盘价计算得出的。我们试图预测的变量(“FVP”)用绿色突出显示。FVP＝公允价值价格；EY＝收益收益率；SY＝销售收益率；BVY＝账面价值收益率；EqVol＝股票波动性；MD＝最大消耗；AV＝平均交易量；TR＝总收入；MC＝市场资本化；EV＝企业价值；EV mc＝企业价值/市场资本化。TR、MC和EV，以美元计量。

为了测试每个模型的准确性，我们将随机地将我们的数据分成训练数据集(60％的公司)和测试数据集(40％的公司)(图14)。在用来自60％公司的数据训练该模型之后，我们将使用该模型来计算公允价值价格。在计算此价格之后，我们将取模型对公允价值价格的估计与我们的DCF模型生成的实际公允价值价格之间的绝对差异。因为模型的精度可能由于随机选择训练和测试数据而变化，所以我们将执行上述步骤序列100次，并取跨100次试验的差异的平均值和标准偏差。这些值将允许我们评估相对于仅包含财务信息的基线模型，社会覆盖模型的预测值是否更接近DCF生成的值。对于最终评级，我们将报告由我们的DCF模型给出的公允价值价格和由我们的随机森林模型生成的公允价值价格。

使用QuoteMedia API和Morningstar网站分别获得我们分析中的财务输入变量和公司名称。我们还使用QuoteMedia API来获取计算我们的DCF模型的输出所需的几个变量，并且我们的目标是使用QuoteMedia API来获取实现DCF模型所需的其余变量。在我们的分析中，Cridson Hexagon和公司网站被用来获取所有的社交媒体变量。

DCF模型描述

贴现现金流(DCF)是一种估值方法，用于估算本案例中投资或公司的公允价值。DCF分析预测未来的自由现金流，并对其进行贴现，得出现值估计值。

我们开发了一个两阶段DCF。我们假设，从现在开始的5年中，公司的现金流将以与过去3年相同的每股收益增长率增长，此后，公司的现金流将成为永久现金流，增长率为3％，大致相当于美国经济的长期增长率。

现金流

公司目前的自由现金流，在我们的模型中为FCF₀，是以当期的经营现金流减去资本性支出计算得出的。

FCF＝经营活动产生的现金-CapEx＝经营活动产生的现金-购买PPE-购买无形资产

G＝基本EPS增长率

我们将对过去3年的对数进行线性回归(比我们有兴趣预测每股收益公允价值的日期提前3年)，并且G是系数。根据这个增长率，我们将获得未来5年的现金流。五年后，假设现金流以每年3％的速度持续增长。

折现率

这里，我们将使用WACC(加权平均资本成本)作为贴现率，贴现率是债务成本和权益成本的平均值，由债务和权益的比例加权。大致而言，债务成本的计算方法是：将利息支出除以给定年份和上一年度总债务的平均值，其中：

总债务＝当前债务+长期债务+商业票据

权益成本是通过CAPM模型计算的公司股票的预期回报。这里，我们使用2％作为无风险利率，7.5％作为市场超额收益。

Ce＝2％+beta*7.5％

对现金流进行折现

我们将首先计算永久价值，并将此永久价值加到第五年的价值上。那么，我们将把五年的利息都折现到利息的时间。

是估计的长期增长率，这里我们使用3％的内在增长率

G＝基本EPS增长率

当前发展阶段

目前，我们已经开发了从QuoteMedia获取DCF模型所需的大多数输入变量的代码。为了完成DCF模型，我们需要完全开发代码来获取基本EPS增长率所需的变量，并使用这些变量来计算增长率G。

未来方向

为了完成DCF模型并实施公允价值社会数据预测，人口局需要计算在这些模型中使用的每个公司的EPS增长率(G)。接下来，人口局需要构建基准公允价值价格矩阵(DCF的产出加上12个金融投入变量)。最后，人口局将社会媒体变量覆盖到基线矩阵上，以确定社会公平数据的添加是否通过减少随机森林模型的公允价值价格预测与DCF模型的公允价值价格预测之间的绝对差异来提高基线模型的准确性。

公允价值模型输入变量(金融和社交)

在我们的分析中，我们总共收集了17个不同输入变量(12个金融变量和5个社交变量)的数据。这些输入值与我们的定量护城河社交数据预测模型中使用的输入值完全相同。财务变量以及我们如何获得/计算这些变量的描述如下：

资产回报率(ROA)-我们计算ROA为：净收入/总资产

这些数据是使用QuoteMedia公司的年度报告数据获得的。

收益收益率-我们将收益收益率计算为：

公司在报告日的基本每股收益/未调整的收盘价

账面(Book)价值收益-我们将账面价值收益计算为：1/价格与账面比率这些数据是使用QuoteMedia公司的年度报告数据获得的。

销售收益-我们将销售收益计算为：

总收入/(已发行普通股总额x财务报告日未调整的收盘价)

股权波动率-我们计算股权波动率如下：

股票波动性＝标准偏差((收盘价_i+1-收盘价_i)/收盘价_i)

其中，i＝0-364

未经调整的收盘价从QuoteMedia获得。

最大下拉-我们计算最大下拉如下：

最大下拉＝(最小收盘价-最大收盘价)/最大收盘价

未经调整的收盘价从QuoteMedia获得。

使用QuoteMedia在各公司提交年度报告之日获得这些值。

企业价值-我们将企业价值计算为：

这些值是使用QuoteMedia从公司的年度报告中获得的。

部门ID-我们直接从QuoteMedia API获得部门ID。

社交媒体变量以及我们如何获得/计算这些变量的描述如下：

身份得分-我们计算的身份得分是每家公司在其主网站上显示的社交媒体网站链接数。这里，社交媒体网站包括Facebook、Twitter、Tumblr、LinkedIn、Google+、Pinterest和Instagram。由于时间限制，我们使用了截至2016年2月公司网站上的链接数量，假设自2013年以来公司没有向其网站添加大量社交媒体链接。理想情况下，我们将使用InternetArchive来获取历史分数。最后，我们对网站的搜索通常包括“主页”、“媒体页面”(如果有)和“联系我们”页面。因此，我们对链接的搜索并不详尽。在社交媒体的7个构建块下，这将被分类为属于身份块。

总发帖量-这是包括公司现金标签的发帖总数(例如，$AMGN是Amgen的现金标签)。我们在Crimson Hexagon上创建了一个Buzz Monitor(“护城河；2014年数据”)，从2013年1月1日到2014年12月31日在Twitter、Facebook和Tumblr上搜索公司现金标签的使用情况。对于给定的公司，从公司年度报告日期之前的12个月收集数据。在社交媒体的7个构建块下，这将被分类为属于对话块。

总潜在观感-这是在公司年度报告日前12个月内，包括公司现金标签在内的帖子所产生的总潜在观感。数据来自Crimson Hexagon的“护城河；2014年数据”Buzz Monitor。在社交媒体的7个构建块下，这将被分类为属于对话块。

每位作者的发帖量-我们计算的结果是，公司年度报告日期前12个月的发帖量除以该期间发布的Twitter作者总数。数据来自Crimson Hexagon的“护城河；2014年数据”Buzz Monitor。在社交媒体的7个构建块下，这将被分类为属于对话块。注意：如果公司在该时间范围内有0个作者，则我们手动将该值设置为0，以避免除以0

每帖子的观感-我们计算如下：

总潜在观感(见上文描述)/总发帖量(见上文描述)数据来自Crimson Hexagon上的“护城河；2014年数据”Buzz Monitor。

公司纳入标准

本节旨在概述我们对包含在公允价值价格分析中的公司的选择过程。有关这些公司本身的具体信息，可从“人口局社会数据公允价值重点基准”文件中获取。2016年1月，我们使用Morningstar网站获得了大约120家公司的名单，这些公司被Morningstar认定为拥有宽、窄或没有护城河。我们使用QuoteMedia直接获取12个金融输入变量(例如总收入)或计算这些属性所需的输入变量(例如，我们获取了发行在外且未经调整的收盘价的普通股总额，然后根据这些值计算市值)。为了保持在我们的分析中，公司必须报告获得其2014年年报的12个财务输入属性所需的所有变量。我们无法从2014年年报中获得全部12个属性的公司从我们的分析中剔除。

在这一过滤步骤之后，剩下59家公司。我们会根据是否能够获得DCF分析所需的所有变量对公司进行进一步过滤。缺乏任何变量的公司将从我们的分析中剔除。因此，59家公司的名单可能会变得更小。

数据采集

为了获取12个金融输入变量(或组成这些变量的成分)，我们开发了几个内部Python脚本，使用QuoteMedia API下载这些数据。这些脚本总结如下。这些在压缩文件夹“Model_Code_2_24_16”中的脚本被上载到Git。在这个文件夹中，可以在名为“护城河模型”的子目录中找到它们。所有脚本都是为了从给定公司的10份最近的年度报告中获取数据而设置的，但是对API调用的简单修改将允许用户在需要时获取更多的报告。我们还开发了python脚本来获取DCF模型所需的几个变量，尽管如果需要使用历史数据(例如，2013年到2014年的数据)，需要对该脚本进行更多的开发以捕获历史信息。此代码名为“getFairValueVars.py”，已上载到Git。在运行这些脚本之前，必须在计算机上安装Python。理论上，Python2或Python3应该可以工作，但是数据是在运行Python 2.7的机器上获得的。此外，这些代码依赖于多个python模块的导入。若要查看每个代码所需的模块，请使用文本编辑器打开脚本并查看前几行代码。脚本及其目的如下：

getFairValueVars.py-该脚本采用公司股票代码列表，并以制表符分隔的格式返回多个变量。虽然代码返回的前几个变量在理论上是最新的金融输入变量(即，“资产收益率”、“收益收益率”、“销售收益率”、“账面价值收益率”、“总收入”、“市值”、“企业价值”、“平均日交易量”、“股权波动率”和“最大消耗”)，由于该代码不完整，更可取的做法是使用以下列出的其他代码来获得12个金融输入变量。这也适用于代码返回的其他变量(“自由现金流”、“总债务”、“税率”、“股本成本”、“债务成本”)。为了捕获这些变量的历史数据，还需要修改这些变量的代码。该代码返回的变量是：

“股票代码”、“Sector_ID”(注意：虽然这表示“部门ID”，但其返回QuoteMedia用于其公司类型而非实际部门的“模板”类型。这是需要在代码中更正的地方。)，“资产收益率”、“收益收益率”、“销售收益率”、“账面价值收益率”、“总收益”、“市场资本化”、“企业价值”、“日均交易量”、“股票波动率”、“最大提取率”、“自由现金流”、“总债务”、“税率”、“股本成本”和“债务成本”。

要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第43行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、‘BIIB’、‘BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，此代码不返回历史数据。

用法：python getFairValueVars.py(注意：64行的'QuoteMedia_FairValue_variables.tsv'可以更改为所需的任何文件名)

getHistoricalROA.py-该脚本采用公司跑马灯符号列表，并返回跑马灯符号、净收入、总资产以及以制表符分隔格式获取净收入和总资产的报告日期。资产收益率可以使用上述净收入和总资产在Excel中计算。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第27行中以逗号分隔的公司列表中。例如：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。

getHistoricalEarningsYield.py-该脚本获取公司股票代码列表，并以制表符分隔的格式返回股票代码、每股收益、未调整的收盘价和报表日期。收益收益率可按上述方法在Excel中计算。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第27行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。

用法：python getHistoricalEamingsYield.py>HistoricalEY.txt(注意：“HistoricalEY.txt”可以更改为任何需要的文件名)

getHistoricalBookValueYield.py-此脚本获取公司股票代码列表，并以制表符分隔的格式返回股票代码、市净率和报表日期。账面价值收益率可按上述方法在Excel中计算。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第28行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。

getHistoricalSalesYield.py-此脚本采用公司股票代码列表，并以制表符分隔的格式返回股票代码、总收入、发行在外的普通股总数、未调整的收盘价和报告日期。销售收益率可按上述方法在Excel中计算。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第27行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。

getHistoricalVolatility_MaximumDrawdown_AverageVolume.py-本脚本采用公司股票代码列表，并以制表符分隔的格式返回股票代码、股票波动率、最大消耗、平均交易量和报告日期。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第40行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。此外，如果在计算股票波动率时出错，该代码将退出。绝大多数公司不会导致此代码遇到错误，但有些公司偶尔会导致出现错误。

虽然此错误仍然需要更多的疑难解答，但我们怀疑错误是由于丢失数据造成的。最简单的解决办法是找到导致错误的公司，并将其从第40行粘贴的公司列表中删除。由于时间限制，我们无法为这个错误提供修补程序。当前，代码被设置为首先标识在代码运行时给出错误的公司。我们首先建议通过运行“python getHistoricalVolatility_MaximumDrawdown_AverageVolume.py”来使用此代码。这将公司及其数据打印到终端。如果代码退出，则可以在退出之前查看代码所针对的公司，并删除给出错误的公司。一旦删除所有给出错误的公司，就在第117行的代码前面添加，然后在第123行的代码前面删除。然后可以使用以下代码：python getHistoricalVolatility MaximumDrawdownAverageVolume.py>HistoricalV_MD_AV.txt(注：“HistoricalV_MD_AV.txt”可以更改为所需的任何文件名)

getHistoricalT otalRevenue.py-该脚本采用公司股票代码列表，并以制表符分隔的格式返回股票代码、总收入和报表日期。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第27行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用MicrosoftExcel等程序对数据进行进一步处理。

注意：这与历史销售收益的脚本在技术上是多余的。

getHistoricalMarketCap.py-此脚本采用公司股票代码列表，并以制表符分隔的格式返回股票代码、发行在外的普通股总数、未调整的收盘价和报告日期。市值可按上述方法在Excel中计算。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第27行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。

注意：这脚本与获得历史销售收益的脚本有冗余。

getHistoricalEnterpriseValue.py-该脚本采用公司股票代码列表，以制表符分隔的格式返回股票代码、发行在外的普通股总数、未调整的收盘价、当前债务、长期债务、现金和等价物、优先股、少数股东权益和报告日期。如上所述，可以在Excel中使用这些变量计算企业价值。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第28行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。

getSector.py-该脚本采用公司股票代码列表，并以制表符分隔的格式返回股票代码和部门ID。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第29行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。

Z模型社交数据预测

模型概述。

公司的财务状况是最重要的时候建设一个投资组合。对投资者和公司来说，一个特别麻烦的情况是金融破产。对于投资者来说，如果投资者预期一家公司会增长，而没有预期到公司的健康状况会下降，那么财务状况不佳和破产可能会导致重大损失。在初创公司的世界里，投资者应该特别关注他们投资的财务状况，因为55％的初创公司在运营的前5年就倒闭了⁶。

利用Z模型分析来确定社会公平数据是否可以单独使用或与现有模型结合使用，以更好地预测公司的偿付能力风险(公司是否将申请破产)。我们的方法基于EdwardAltman在1968年的研究，它使用线性判别分析来评估公司的健康状况⁷。我们所有的模型测试都是使用R中的***符号包进行的⁸。虽然我们使用Compustat确定了2007年至2014年期间申请破产的公司(关于我们分析中使用的公司的更多信息，参见“人口局Z Model FocusBenchmark”文件)，但我们的最终分析包括2011年至2014年期间因时间和资源限制而申请破产的公司。我们的Z模型分析总共包括50家公司(24家破产公司和26家非破产公司)。

我们采用QuoteMedia API和Gurufocus.com相结合的方法，获得了Edward Altman在1968年的研究中确定为预示破产的5个财务比率(详见下文)。因为我们的目标是预测破产，所以我们的分析仅限于从公司申请破产的日历年度前一年的年度财务报告中获得的数据。换句话说，如果一家公司在2014年申请破产，那么我们就获得了2012年至2013年的金融和社交变量。收集公司年报日期之前12个月的数据(例如，如果公司于2013年12月31日提交年报，则从2012年12月31日至2013年12月31日收集财务和社交媒体数据)。

在收集数据并将其组织成基线(仅财务比率)、覆盖(财务比率加上社交媒体数据)和社交媒体(仅社交媒体)矩阵之后，我们将线性判别分析应用于我们创建的每个模型(图15)。为了测试每个模型的准确性，我们随机地将我们的数据分成训练数据集(60％的公司)和测试数据集(40％的公司)。一旦我们训练了线性判别式模型，我们就使用该模型对剩余40％的公司进行分类，并计算模型预测的结果准确度。因为由于随机选择训练和测试数据，模型的精度可以变化，所以我们执行上述步骤序列100次，并将100次试验的平均值和标准偏差作为我们的最终精度分数。我们用基线矩阵中的所有数据来训练我们的判别模型，然后使用模型给出的系数来生成每个公司的Z分数。这种计算可以总结为：

Z分数＝C₁ x R₁+C₂ x R₂+C₃ x R₃+C₄ x R₄+C₅ x R₅，

其中，“C”对应于我们的模型给出的系数，“R”对应于5个Altman比率中的1个(稍后描述)。在上面的等式中，系数可以直接从R内的***符号包获得。

当覆盖社交媒体变量时，我们使用与上述相同的方法。基线模型和社交媒体覆盖模型之间的主要差异是我们提供给线性判别分析函数的矩阵。总共，我们构建了24个不同的模型(模型描述单独提供)，其由具有社交媒体变量的不同组合的基线模型以及完全由社交媒体变量组成的几个模型组成(下面描述)。由于时间限制，这些模型在可创建的组合的数量方面不是穷尽的，但是它们确实用作分析的实质起点。

QuoteMedia API和Gurufocus.com网站用于获取我们分析所需的财务信息。在我们的分析中，Cridson Hexagon和互联网档案被用来获取所有的社交媒体变量。

模型变量(金融和社交)

在我们的分析中，我们总共收集了10个不同变量(5个金融变量和5个社交变量)的数据。财务变量以及我们如何获得/计算这些变量的描述如下：

营运资本/总资产

这些数据是使用QuoteMedia公司的年度报告数据获得的。

留存收益/总资产

这些数据是使用QuoteMedia公司的年度报告数据获得的。

息税前利润/总资产

这些数据是使用QuoteMedia公司的年度报告数据获得的。注意：如果没有息税前利润，则我们的代码(后面描述)尝试使用息税折旧摊销前利润(EBITDA)计算该比率。

股权市值/总负债-尽管我们后来开发了代码，使用QuoteMedia的年报数据(见“getHistoricalMarketCap.py”代码描述)下载计算股权市值所需的变量(即市值＝未偿普通股总额x年报日未调整的收盘价)，但我们的初始和最终Altman演示使用了Gurufocus.com提供的比率。

销售额/总资产

这些数据是使用QuoteMedia公司的年度报告数据获得的。

社交媒体变量以及我们如何获得/计算这些变量的描述如下：

身份得分-我们计算的身份得分是每家公司在其主网站上显示的社交媒体网站链接数。这里，社交媒体网站包括Facebook、Twitter、Tumblr、LinkedIn、Google+、Pinterest和Instagram。在社交媒体的7个构建块下，这将被分类为属于身份块。

总发帖量-这是包括公司现金标签的发帖总数(例如，$AMGN是Amgen的现金标签)。我们在Crimson Hexagon上创建了一个Buzz Monitor(“Solvency and Z”)，从2008年5月23日到永远搜索Twitter、Facebook和Tumblr上公司现金标签的使用情况。对于给定的公司，从公司年度报告日期之前的12个月收集数据。在社交媒体的7个构建块下，这将被分类为属于对话块。

总潜在观感-这是在公司年度报告日前12个月内，包括公司现金标签在内的帖子所产生的总潜在观感。数据来自Crimson Hexagon上的“Solvency and Z”Buzz Monitor。在社交媒体的7个构建块下，这将被分类为属于对话块。

每位作者的发帖量-我们计算的结果是，公司年度报告日期前12个月的发帖量除以该期间发布的Twitter作者总数。数据来自Crimson Hexagon上的“Solvency and Z”BuzzMonitor。在社交媒体的7个构建块下，这将被分类为属于对话块。注意：如果公司在该时间范围内有0个作者，则我们手动将该值设置为0，以避免除以0

每帖子的观感-我们计算如下：

总潜在观感(见上文描述)/总职位(见上文描述)数据从Crimson Hexagon上的“Solvency and Z”Buzz Monitor获得。

在社交媒体的7个构建块下，这将被分类为属于对话块。注意：如果公司在该时间范围内有0个发帖，则我们手动将该值设置为0，以避免除以0

公司纳入标准

本节旨在概述我们对包含在护城河分析中的公司的选择过程。关于公司本身的具体信息可以从“人口局Social Data Z Model Focus Benchmark”Word文档和“Z_Model_MasterMatrix”Excel文档中获得。我们使用Compustat来识别那些在2007年到2014年之间申请破产的公司。然后，我们使用QuoteMedia API计算/获取上述5个金融变量中的4个(例如营运资本/总资产)，并使用Gurufocus.com专门获取股权市值/总负债。为了保留在我们的分析中，一家公司必须被QuoteMedia归类为模板类型为“N”的公司。这使得我们可以过滤掉金融机构，而Altman Z比率并不适用。此外，一家公司必须在破产前一年拥有所有5个财务比率的数据，才能继续进行分析。我们无法获得破产前一年所有比率或没有QuoteMediaAPI模板类型“N”的公司从我们的分析中剔除。为了提高效率，我们使用定量护城河社会数据预测模型中的公司(通过Morningstar网站获得的公司列表)作为健康控制。和以前一样，公司必须满足模板和财务比率要求，才能留在我们的分析中。在过滤之后，在我们的最终分析中总共使用了50家公司。其中24家公司在2011年至2014年期间申请破产，26家公司没有破产。

数据采集

为了获得5个金融变量(或组成这些变量的成分)，我们开发了几个内部Python脚本，使用QuoteMedia API下载这些数据。这些脚本总结如下。这些在压缩文件夹“Model_Code_2_24_16”中的脚本被上载到Git。在这个文件夹中，可以在名为“Z_Model”的子目录中找到这些脚本。所有脚本都被设置为从给定公司的10个最近的年度报告中获取数据，但是API调用的简单修改将允许人们在需要时获取更多的报告。在运行这些脚本之前，必须在计算机上安装Python。理论上，Python2或Python3应该可以工作，但是数据是在运行Python2.7的机器上获得的。此外，这些代码依赖于多个python模块的导入。若要查看每个代码所需的模块，请使用文本编辑器打开脚本并查看前几行代码。

脚本及其目的如下：

get_Altman_WC_TA_RE_TA_EBIT_TA_TotalLiabilites_Sales_TA.py-该脚本采用公司股票代码列表，并公司名称、股票代码、营运资本/总资产、留存收益/总资产、息税前收益/总资产、总负债、销售/总资产以及获得这些比率的报告日期。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第52行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用Microsoft Excel等程序对数据进行进一步处理。

用法：python get_Altman_WC_TA_RE_TA_EBIT_TA_TotalLiabilites_Sales_TA.py(注意：默认输出文件名“altman_ratios.tsv”可通过添加“-o”和指定的输出文件名而更改为所需的文件名)

getHistoricalMarketCap.py-尽管我们使用Gurufocus.com来获取股权市值/总负债比率，但后来我们开发了这个脚本来从QuoteMedia API获得这些数据。该脚本采用公司股票代码列表，并以制表符分隔的格式返回股票代码、发行在外的普通股总数、未调整的收盘价和报告日期。可用Excel计算市值，方法是将发行在外的普通股总额乘以未经调整的收盘价。然后，可以将市场资本化除以总负债，以获得第四Altman比率。通过更多的工作，可以将这个脚本集成到上面刚刚描述的脚本中。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第27行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、’BIIB’、’BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用MicrosoftExcel等程序对数据进行进一步处理。

身份得分-我们计算的身份得分是每家公司在其主网站上显示的社交媒体网站链接数。这里，社交媒体网站包括Facebook、Twitter、Tumblr、LinkedIn、Google+、Pinterest和Instagram。对于该模型，我们使用Internet Archive⁹来查看公司网站的历史快照(发现网站正在进行二次研究)，以便找到历史身份得分。具体而言，如果一家公司于2014年申请破产，并于2013年12月31日提交年度报告，那么我们试图找到该公司网站的快照，该快照尽可能接近2013年12月31日。如果我们不能为公司提交年度报告的月份找到足够的快照，那么我们就移到离现在更近的日期。我们这样做是因为一个人越接近现在，存档中的快照就越多。如果我们无法在一家公司的网页上找到链接，或者该公司在接近报告提交日期的任何时候都没有网页(大约在1-2年内)，则该公司的得分为0。最后，我们对网站的搜索通常包括“主页”、“媒体页面”(如果有)和“联系我们”页面。因此，我们对链接的搜索并不详尽。在社交媒体的7个构建块下，这将被分类为属于身份块。

总发帖量-这是包括公司现金标签的发帖总数(例如，$AMGN是Amgen的现金标签)。我们在Crimson Hexagon上创建了一个Buzz Monitor(“Solvency and Z”)，从2008年5月23日到今天，它在Twitter、Facebook和Tumblr上搜索公司现金标签的使用情况。这里值得一提的是，有必要考虑破产公司是否因财务状况不佳而变更了股票代码(如ALCS至ALCSQ)。因此，我们经常使用两个现金标签来捕捉破产公司的数据(例如，Alco Stores Inc.的$ALCS和$ALCSQ)。在项目期间，我们使用次要研究来确定对于给定的公司是否发生了股票代码变更。但是，在项目过程中，QuoteMedia可以使用他们的API来确定给定的公司是否在给定的年份中更改了股票代码。

由于时间和资源的限制，我们无法将这个新的调用合并到现有的代码中，但是人口局可能希望为将来的建模探索这种可能性。

对于给定的公司，从公司年度报告日期之前的12个月收集数据。为了收集公司和特定时间的数据，我们在Buzz Monitor中使用公司的现金标签(通常是破产公司的两个现金标签)创建了一个过滤器。我们将此过滤器应用于监视器，并将时间范围设置为包含公司年报日期之前的年份。例如，如果一家公司于2013年12月31日提交年度报告(2014年破产)，则我们获得了2012年12月31日至2013年12月31日的总员额。在线从监视器屏幕上获取总发帖量。

总潜在观感-这是在公司年度报告日前12个月内，包括公司现金标签在内的帖子所产生的总潜在观感。从2008年5月23日至今，我们在Crimson Hexagon(“Solvency和Z”)上创建了一个Buzz Monitor，搜索Twitter、Facebook和Tumblr上公司现金标签的使用情况。对于给定的公司，从公司年度报告日期之前的12个月收集数据。为了收集公司和特定时间的数据，我们在Buzz Monitor中使用公司的现金标签创建了一个过滤器。我们将此过滤器应用于监视器，并将时间范围设置为包含公司年报日期之前的年份。例如，如果一家公司于2013年12月31日提交年度报告，则我们获得了2012年12月31日至2013年12月31日的总潜在观感。我们从Crimson Hexagon下载了一个excel文件，其中包含了网站界面上的总潜在观感数据。在Excel文件中，我们将每天潜在观感的数量相加，以得出该时间段的总潜在观感。

每位作者的发帖量-我们计算的结果是，公司年度报告日期前12个月的发帖量除以该期间发布的Twitter作者总数。从2008年5月23日至今，我们在Crimson Hexagon(“Solvency和Z”)上创建了一个Buzz Monitor，搜索Twitter、Facebook和Tumblr上公司现金标签的使用情况。对于给定的公司，从公司年度报告日期之前的12个月收集数据。为了收集公司和特定时间的数据，我们在Buzz Monitor中使用公司的现金标签创建了一个过滤器。我们将此过滤器应用于监视器，并将时间范围设置为包含公司年报日期之前的年份。例如，如果一家公司于2013年12月31日提交年度报告，则我们获得了2012年12月31日至2013年12月31日的总潜在观感。我们从Crimson Hexagon下载了一个excel文件，其中包含了一天内Twitter作者总数和每位作者平均发帖次数的数据。在Excel文件中，我们首先将某一天发布的Twitter作者数乘以该天每个作者的平均发布数，以获得每天的发布数。然后，我们将整个时间段内的帖子总数相加，并将其除以该时间段内Twitter作者的总数，以得出每个作者的帖子数。如果公司在收集数据的时间段内有0个作者，则将该值设置为0，以避免除以0

每个帖子的观感-我们在Excel中通过将总潜在观感除以总发帖量(按上述方法获取后)来计算。如果公司在收集数据的时间段内有0个帖子，则将该值设置为0，以避免除以0

模型测试和结果

我们在分析中获取了上述50家公司的所有金融和社交媒体数据后，生成了“ZModel MasterMatrix”Excel电子表格，可以在Confluence上找到。该电子表格太大，无法包含在报告中，但它包含了所有数据以及其他细节(例如，现金标签、报告日期、社会数据日期范围等)，这些细节有助于获取关于建模过程中使用的公司的进一步信息。在生成该数据矩阵之后，我们创建Z模型的基线数据矩阵(表5)。

表5。Z模型基线矩阵的快照。输入变量为简洁起见而缩写。我们试图预测的变量(“Bankruptcy(破产)”)用绿色突出显示。虽然未显示公司名称，但每行对应于特定的公司。WC_TA＝营运资本/总资产；RE_TA＝留存收益/总资产；EBIT_TA＝息税前收益/总资产/MVETL＝股权市值/总负债；SA_TA＝销售额/总资产。

Bankruptcy	WC_TA	RE_TA	EBIT_TA	MVE_TL	SA_TA
						Nonbankrupt	0.375676	0.053668	0.193986	3.393	0.643537
Nonbankrupt	0.742144	0.674134	0.149449	8.0367	0.480601
						Nonbankrupt	0.382911	0.97189	0.084966	6.3662	0.700166
Nonbankrupt	-0.04897	0.218853	0.152337	1.8667	0.291933
						Bankrupt	0.5479	0.269109	0.02366	0.209	2.019867
Bankrupt	-0.85481	-90.8125	-6.58448	10.6539	4.214631
						Nonbankrupt	0.217	-1.54	-0.2605	0.4943	1.3555
Nonbankrupt	0.293686	-0.11545	0.088726	1.951037725	0.282435
						Bankrupt	-0.81325	-1.5766	-0.25859	0.0606	0.736392
Bankrupt	-1.69524	-3.05019	-0.08692	0	0.804718
						Nonbankrupt	0.011849	0.540412	0.083596	2.0823	0.570327

在建立基线矩阵之后，我们对基线矩阵执行线性判别分析以计算我们的基线模型的平均准确度。为此，我们开发了一个名为“Script_for_Running_Models.r”的R脚本。虽然我们打算单独详细描述该脚本，但我们将简要概述该脚本如何确定模型精度的平均精度和标准偏差。该脚本被上传到Git的“Model_Code_2_24_16”压缩文件夹中，并包含在此存档的“Modeling_Script”子目录中。

此脚本的第一步涉及导入基线数据矩阵(例如，参见表5)。在加载矩阵之后，代码随机选择60％的数据用于训练，40％的数据用于测试。作为示例，如果我们将表5(该表具有10行数据)加载到代码中，则将随机地选择6行数据以训练线性判别模型，并且将随机地选择4行数据以用于测试目的。在训练之后，代码预测测试数据中的每个数据点属于哪个类别，然后将预测与每个数据点的实际类别进行比较。然后将模型的精度存储在列表中，并且将上述步骤重复99次以上，总共100次迭代。在100次迭代之后，代码打印出平均精度和精度的标准偏差。我们绘制并比较了我们测试的模型的平均精度以及平均误差(标准偏差/样本大小的平方根)。

在实现上述建模代码之后，我们发现我们的基线模型的平均准确度为84.5％，标准偏差为8.4％。请注意，这些是我们实现模型时的精度。如果再次运行，由于训练和测试数据集的随机选择，很可能得到高度相似但不精确的结果。Z模型的无信息率(NIR；随机预测)为52％。如果一个人随机猜测某家公司护城河的性质，他或她就会得到这些费率。

在生成基线模型之后，我们以不同的组合将社交媒体变量添加到基线矩阵中(详见“Z_Model_Model_Descriptions”文档)。我们生成了总共24个不同的覆盖模型，包括基线数据加上社交媒体数据的各种组合或者单独的社交媒体数据。由于社交媒体和基线变量的其他组合存在，我们没有对其进行测试，因此测试的模型数量远非详尽。我们也没有探索将基线变量的子集与社交媒体变量结合起来。因此，我们下面的结论是基于从基线变量(被视为“一个”变量)和社交媒体变量的组合中得出的有限的组合子集。

使用上述代码，我们计算每个模型的平均准确度和准确度的标准偏差，并将它们与我们的基线矩阵进行比较。在我们的24个模型中，当提前一年预测公司是否将申请破产时，模型15(M15)相对于基线(84.5％的准确度)似乎具有边际准确度增加(88.2％的准确度；8.0％的标准差)。模型15包括基线数据加上总的潜在观感和总的发帖量。仅使用社交媒体构建的几个模型似乎比随机模型更能预测破产。鉴于这些结果，以及我们在分析中仅测试了不同可能组合的一小部分这一事实，我们的数据表明，有必要由人口局对Z模型社交数据预测进行进一步检查。

尽管基线和社交媒体覆盖模型在预测破产方面显示出希望，但我们将基线Z模型与Edward Altman的模型对我们的数据集的预测进行了比较。为此，我们首先使用我们的模型提供的系数和Altman Z模型给出的系数计算了每家公司的Z分数。我们的模型给出的系数是：0.782(营运资本/总资产)、-0.129(留存收益/总资产)、2.396(息税前利润/总资产)、0.169(股权市值/总负债)和0.0114(销售额/总资产)。Altman的Z模型的系数为：1.2(营运资本/总资产)、1.4(留存收益/总资产)、3.3(息税前利润/总资产)、0.6(股权市值/总负债)和1(销售额/总资产)。

在计算Z得分之后，我们然后基于Morningstar计算百分位等级的方法将每个公司的Z得分转换成百分位得分(高得分公司获得较低百分位得分，而低得分公司获得较高百分位得分)¹⁰。简要说明：

百分等级＝向下舍入((99x(i-l)/(n-1)+1))

其中，“向下舍入”是指Microsoft Excel将数值向下舍入到最接近整数的函数，“n”是观察总数(即分析中的公司总数)，“i”是每个观察的绝对秩(可通过Excel的“秩”函数获得)。在获得每个公司的百分位排名之后，我们计算所有百分位排名上的累积破产频率，并相对于百分位排名绘制累积破产频率图。我们发现我们的模型与Altman的模型相似。然而，人口局可能想要考虑如Warren Miller在2009年12月的Morningstar报告中所描述的那样计算每个模型的准确度比率，以便将我们的基线Z模型与Altman Z模型11进行更定量的比较¹¹。

偿付能力评分社交数据预测

模型概述

公司财务状况是设计投资组合以获得最大回报的关键因素。对于投资者来说，如果投资者预期一家公司会增长，而没有预期到公司的健康状况会下降，那么财务状况不佳和破产可能会导致重大损失。不管一个人的投资策略如何，预测一家公司是否会破产的能力对投资者来说都是一项宝贵的资产。这在初创公司的世界中尤其相关，其中大约55％的初创公司在运营的前5年内失败¹²。

除了Z模型分析之外，还建立了偿付能力评分社会数据预测模型，以确定社会股权数据是否可以单独使用或与现有模型结合使用，从而更好地预测公司的偿付能力风险(公司是否会申请破产)。我们的方法基于Morningstar的2009年12月方法论论文(由WarrenMiller¹³撰写)中描述的Morningstar偿付能力评分，我们所有的模型测试都是使用R中的***包进行的¹⁴。虽然我们使用Compustat确定了2007年至2014年期间申请破产的公司(关于我们分析中使用的公司的更多信息，参见“人口局Solvency Score Focus Benchmark”文件)，但我们的最终分析包括2011年至2014年期间因时间和资源限制而申请破产的公司。我们的偿付能力评分分析总共包括49家公司(23家破产公司和26家非破产公司)。这49家公司也被用于我们的Z模型社会数据预测。

我们根据Morningstar在其2009年偿付能力评分方法中使用的4个财务比率(详见下文)获得了3个财务变量¹²。因为我们的目标是预测破产，所以我们的分析仅限于从公司申请破产的日历年度前一年的年度财务报告中获得的数据。换句话说，如果一家公司在2014年申请破产，那么我们就获得了2012年至2013年的金融和社交变量。收集公司年报日期之前12个月的数据(例如，如果公司于2013年12月31日提交年报，则从2012年12月31日至2013年12月31日收集财务和社交媒体数据)。

在收集数据并将其组织成基线(仅财务比率)、覆盖(财务比率加上社交媒体数据)和社交媒体(仅社交媒体)矩阵之后，我们对我们创建的每个模型应用逻辑回归分析。为了测试每个模型的准确性，我们随机地将我们的数据分成训练数据集(60％的公司)和测试数据集(40％的公司)。一旦我们训练了我们的逻辑回归模型，我们就使用该模型对剩余40％的公司进行分类，并计算模型预测的结果准确度。因为由于随机选择训练和测试数据，模型的精度可以变化，所以我们执行上述步骤序列100次，并将100次试验的平均值和标准偏差作为我们的最终精度分数。我们用基线矩阵中的所有数据来训练我们的逻辑回归模型，然后使用该模型给出的系数来生成每个公司的偿付能力评分。这种计算可以总结为：偿付能力得分＝C₁ x V₁+C₂ x V₂+C₃ x V₃+Y，

其中，“C”对应于我们的模型给出的系数，“V”对应于从上述4个比率(后面详细描述)得出的3个变量中的1个，“Y”对应于y截距。在上面的等式中，系数可以直接从R内的***符号包获得。

当覆盖社交媒体变量时，我们使用与上述相同的方法。基线模型和社交媒体覆盖模型之间的主要差异是我们提供给逻辑回归函数的矩阵。总共，我们构建了23个不同的模型(模型描述单独提供)，其由具有社交媒体变量的不同组合的基线模型以及完全由社交媒体变量组成的几个模型组成(下面描述)。由于时间限制，这些模型在可创建的组合的数量方面不是穷尽的，但是它们确实用作分析的实质起点。

QuoteMedia API用于获取我们分析所需的财务信息。在我们的分析中，CridsonHexagon和互联网档案被用来获取所有的社交媒体变量。

模型变量(金融和社交)

在我们的分析中，我们总共收集了8个不同变量(3个金融变量和5个社交变量)的数据。财务变量以及我们如何获得/计算这些变量的描述如下：

平方根(TLTA_p X EBIE_p)-

我们将TLTA_p计算为：

公司总负债/总资产的百分位数(百分位数(总负债/总资产))。

我们将EBIE_p计算为：

101-公司利息、税项、折旧和摊销前收益/利息支出的百分位数(101-百分位数(EBITDA/利息支出))。百分位数计算如下：

百分位数＝向下舍入((99x(i-l)/(n-1)+1))，

其中，“向下舍入”是指Microsoft Excel将数值向下舍入到最接近整数的函数，“n”是观察总数(即分析中的公司总数)，“i”是每个观察的绝对秩(可通过Excel的“秩”函数获得)。

这些数据是从QuoteMedia获得的公司年报数据，并在Excel中进一步处理。

QR_p-我们将QR_p计算为：

101-速动比率的百分位数。

我们将速动比率计算为：

速动比率＝(流动资产-存货)/流动负债

ROIC_p-我们将ROIC_p计算为：

101-投资资本回报率百分位数。

我们将投资资本回报率计算为：

投资资本回报率＝(净收入-股息)/总资本化

社交媒体变量以及我们如何获得/计算这些变量的描述如下：

每位作者的发帖量-我们计算的结果是，公司年度报告日期前12个月的发帖量除以该期间发布的Twitter作者总数。数据来自Crimson Hexagon上的“Solvency和Z”BuzzMonitor。在社交媒体的7个构建块下，这将被分类为属于对话块。注意：如果公司在该时间范围内有0个作者，则我们手动将该值设置为0，以避免除以0。

每帖子的观感-我们计算如下：

公司纳入标准

本节旨在概述我们对包含在护城河分析中的公司的选择过程。关于公司本身的具体信息可从“人口局Social Data Solvency Score Focus Benchmark”Word文档和“Solvency_Score_Master_Matrix_Final”文档中获得。我们使用Compustat来识别那些在2007年到2014年之间申请破产的公司。然后，我们使用QuoteMedia API来计算/获取上述3个金融变量的数据。由于时间限制，我们决定在偿付能力评分分析中的Z模型分析中使用相同的公司。因此，要保持在我们的分析中，一家公司必须被QuoteMedia归类为模板类型为“N”。这使得我们可以过滤掉金融机构，而Altman Z比率并不适用。然而，Morningstar2009年12月的偿付能力评分分析包括了金融机构，而人口局应该知道这些信息(关于Morningstar方法的更多细节，参见脚注#12中的链接)。此外，一家公司必须在破产前一年通过QuoteMedia获得所有4个财务比率的数据，才能继续进行分析。我们无法获得破产前一年所有比率或没有QuoteMedia API模板类型“N”的公司从我们的分析中剔除。为了提高效率，我们使用定量护城河社会数据预测模型中的公司(通过Morningstar网站获得的公司列表)作为健康控制。和以前一样，公司必须满足模板和财务比率要求，才能留在我们的分析中。在过滤之后，在我们的最终分析中总共使用了49家公司。其中23家公司在2011年至2014年期间申请破产，26家公司没有破产。

数据采集

为了获取构建3个金融变量(或组成这些变量的成分)所需的数据，我们开发了一个内部Python脚本，使用QuoteMedia API下载这些数据。该脚本总结如下。脚本被上传到Git的“Model_Code_2_24_16”压缩文件夹中。在这个文件夹中，可以在名为“Solvency_Model”的子目录中找到它们。所有脚本都是为了从给定公司的10份最近的年度报告中获取数据而设置的，但是对API调用的简单修改将允许用户在需要时获取更多的报告。在运行这些脚本之前，必须在计算机上安装Python。理论上，Python2或Python3应该可以工作，但是数据是在运行Python 2.7的机器上获得的。此外，这些代码依赖于多个python模块的导入。若要查看每个代码所需的模块，请使用文本编辑器打开脚本并查看前几行代码。

本脚本及其目的如下：

GetHistoricalRawSolvencyScoreVariables.py-该脚本采用公司股票代码列表，并返回公司名称、股票代码、总负债、总资产、息税折旧及摊销前利润、利息支出、流动资产、存货、流动负债、净收入、现金股息、总资本化以及获得这些数据的报告日期。偿付能力评分模型的财务比率和变量可如上所述在Excel中计算。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第70行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、‘BIIB’、‘BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用MicrosoftExcel等程序对数据进行进一步处理。

用法：python GetHistoricalRawSolvencyScoreVariables.py(注意：默认输出文件名“QuoteMedia_Solvency_score_healthy.tsv”可以通过在指定的输出文件名后添加“-o”而更改为所需的任何文件名。)

身份得分-我们计算的身份得分是每家公司在其主网站上显示的社交媒体网站链接数。这里，社交媒体网站包括Facebook、Twitter、Tumblr、LinkedIn、Google+、Pinterest和Instagram。对于该模型，我们使用Internet Archive¹⁵来查看公司网站的历史快照(发现网站正在进行二次研究)，以便找到历史身份得分。具体而言，如果一家公司于2014年申请破产，并于2013年12月31日提交年度报告，那么我们试图找到该公司网站的快照，该快照尽可能接近2013年12月31日。如果我们不能为公司提交年度报告的月份找到足够的快照，那么我们就移到离现在更近的日期。我们这样做是因为一个人越接近现在，存档中的快照就越多。如果我们无法在一家公司的网页上找到链接，或者该公司在接近报告提交日期的任何时候都没有网页(大约在1-2年内)，则该公司的得分为0。最后，我们对网站的搜索通常包括“主页”、“媒体页面”(如果有)和“联系我们”页面。因此，我们对链接的搜索并不详尽。在社交媒体的7个构建块下，这将被分类为属于身份块。

总发帖量-这是包括公司现金标签的发帖总数(例如，$AMGN是Amgen的现金标签)。从2008年5月23日至今，我们在Crimson Hexagon(“Solvency和Z”)上创建了一个BuzzMonitor，搜索Twitter、Facebook和Tumblr上公司现金标签的使用情况。这里值得一提的是，有必要考虑破产公司是否因财务状况不佳而变更了股票代码(如ALCS至ALCSQ)。因此，我们经常使用两个现金标签来捕捉破产公司的数据(例如，Alco Stores Inc.的$ALCS和$ALCSQ)。在项目期间，我们使用次要研究来确定对于给定的公司是否发生了股票代码变更。但是，在项目过程中，QuoteMedia可以使用他们的API来确定给定的公司是否在给定的年份中更改了股票代码。由于时间和资源的限制，我们无法将这个新的调用合并到现有的代码中，但是人口局可能希望为将来的建模探索这种可能性。

模型测试和结果

我们在分析中获取了上述49家公司的所有金融和社交媒体数据后，生成了“Solvency_Score_Model_MasterMatrix”Excel电子表格，可以在Confluence上找到。该电子表格太大，无法包含在报告中，但它包含了所有数据以及其他细节(例如，现金标签、报告日期、社会数据日期范围等)，这些细节有助于获取关于建模过程中使用的公司的进一步信息。在生成该数据矩阵之后，我们创建了用于偿付能力评分模型的基线矩阵(表6)。

表6。偿付能力评分模型基线数据矩阵快照。输入变量为简洁起见而缩写。我们试图预测的变量(“Bankruptcy(破产)”)用绿色突出显示。虽然未显示公司名称，但每行对应于特定的公司。SQRT＝平方根。以上定义了TLTA_p、EBIE_p、QR_p和ROIC_p。

Bankruptcy	SQRT(TLTAp x EBIEp)	QRp	ROICp
				Bankrupt	3.605551275	22	100
Bankrupt	6.708203932	6	59
				Bankrupt	8.124038405	12	96
Bankrupt	9.486832981	4	86
				Bankrupt	12	8	88
Nonbankrupt	90.33271833	76	47
				Nonbankrupt	90.48756821	63	70
Nonbankrupt	93.49866309	88	41
				Nonbankrupt	96.48834126	96	55
Nonbankrupt	100	80	49

在建立基线矩阵之后，我们对基线矩阵进行逻辑回归分析，以计算基线模型的平均准确度。为此，我们开发了一个名为“Script_for_Running_Models.r”的R脚本。虽然我们打算单独详细描述该脚本，但我们将简要概述该脚本如何确定模型精度的平均精度和标准偏差。该脚本被上传到Git的“Model_Code_2_24_16”压缩文件夹中，并包含在此存档的“Modeling_Script”子目录中。

此脚本的第一步涉及导入基线数据矩阵(例如，参见表6)。在加载矩阵之后，代码随机选择60％的数据用于训练，40％的数据用于测试。作为示例，如果我们将表5(该表具有10行数据)加载到代码中，则将随机地选择6行数据以训练线性判别模型，并且将随机地选择4行数据以用于测试目的。在训练之后，代码预测测试数据中的每个数据点属于哪个类别，然后将预测与每个数据点的实际类别进行比较。然后将模型的精度存储在列表中，并且将上述步骤重复99次以上，总共100次迭代。在100次迭代之后，代码打印出平均精度和精度的标准偏差。我们绘制并比较了我们测试的模型的平均精度以及平均误差(标准偏差/样本大小的平方根)。

在实现上述建模代码之后，我们发现我们的基线模型的平均准确度为90.5％，标准偏差为6.4％。请注意，这些是我们实现模型时的精度。如果再次运行，由于训练和测试数据集的随机选择，很可能得到高度相似但不精确的结果。偿付能力评分模型的无信息率(NIR；随机预测)为53.1％。如果一个人随机猜测某家公司护城河的性质，他或她就会得到这些费率。

在生成基线模型之后，我们以不同的组合将社交媒体变量添加到基线矩阵中(详见“Solvency_Score_Model_Descriptions”文档)。我们生成了总共23个不同的覆盖模型，包括基线数据加上社交媒体数据的各种组合或者单独的社交媒体数据。由于社交媒体和基线变量的其他组合存在，我们没有对其进行测试，因此测试的模型数量远非详尽。我们也没有探索将基线变量的子集与社交媒体变量结合起来。因此，我们下面的结论是基于从基线变量(被视为“一个”变量)和社交媒体变量的组合中得出的有限的组合子集。

使用上述代码，我们计算每个模型的平均准确度和准确度的标准偏差，并将它们与我们的基线矩阵进行比较。在我们的23个模型中，当提前一年预测公司是否将申请破产时，模型4(M)相对于基线(90.5％的准确度)似乎具有边际准确度增加(92.5％的准确度；6.3％的标准差)。模型包括基线数据加上总的潜在观感。仅使用社交媒体构建的几个模型似乎比随机模型更能预测破产。鉴于这些结果，以及我们在分析中仅测试了不同可能组合中的一小部分，我们的数据表明，有必要进一步检查人口局的偿付能力评分社会数据预测。

尽管基线和社交媒体覆盖模型在预测破产方面显示出希望，但我们将基线偿付能力评分模型与Morningstar的偿付能力评分模型对我们的数据集的预测进行了比较。为此，我们首先使用我们的模型提供的系数和Morningstar偿付能力评分模型给出的系数计算每家公司的偿付能力评分。模型给出的系数为：0.14601(SQRT(TLTA_p x EBIE_p))、0.02793(QR_p)、0.02786(ROIC_p)、并且y截距为-9.19726。Morningstar偿付能力评分系数为：5(SQRT(TLTA_p x EBIE_p))、4(QR_p)、以及1.5(ROIC_p)。在计算偿付能力得分之后，我们根据Morningstar公司计算百分位排名16的方法，将每家公司的偿付能力得分转换为百分位得分(高得分公司获得较低百分位得分，而低得分公司获得较高百分位得分)。简要地：

百分等级＝向下舍入((99x(i-l)/(n-1)+1))，

其中，“向下舍入”是指Microsoft Excel将数值向下舍入到最接近整数的函数，“n”是观察总数(即分析中的公司总数)，“i”是每个观察的绝对秩(可通过Excel的“秩”函数获得)。在获得每个公司的百分位排名之后，我们计算所有百分位排名上的累积破产频率，并相对于百分位排名绘制累积破产频率图。我们发现，我们的模型在预测破产方面与Morningstar的偿付能力评分模型类似。然而，人口局可能想要考虑如Warren Miller在2009年12月的Morningstar报告中所描述的那样计算每个模型的准确度比率，以更定量地比较我们的基线Z模型与Morningstar偿付能力评分模型¹⁷。

每股收益社交数据预测

模型概述

在决定投资哪家公司时，盈利能力是一个需要牢记的关键因素。一般来说高利润的公司往往是很好的投资。公司盈利能力的一个常见指标是每股收益。我们问，与随机预测相比，单独使用社交媒体数据能否更好地预测稀释每股收益从一年到下一年的增长或下降。

为了回答这个问题，我们构建了几个随机森林模型，使用5个社交媒体点作为输入变量。我们还收购了58家公司2013年和2014年的摊薄每股收益。为了计算一家公司的摊薄每股收益是增加还是减少，我们将某家公司2014年以来的年度摊薄每股收益(DEPS)与该公司2013年的年度DEPS进行了比较。然后，我们获得了2012年至2013年的社会股权数据(稍后描述)，以预测2013年至2014年的DEPS变化。

在获得社交媒体变量以及在我们的分析中确定公司的DEPS变化之后，我们利用这些数据构建主数据矩阵。然后，我们将随机森林模型应用于矩阵的若干不同变化，以便区分DEPS增加的公司与DEPS减少的公司。模型的预测基于500个回归树，我们使用R中的***符号包实现了所有的建模¹⁸。

为了测试每个模型的准确性，我们随机地将我们的数据分成训练数据集(60％的公司)和测试数据集(40％的公司)(图16)。在用60％的公司数据对模型进行训练之后，我们使用该模型对剩余的40％的公司进行分类并计算准确度。因为由于随机选择训练和测试数据，模型的精度可以变化，所以我们执行上述步骤序列100次，并将100次试验的平均值和标准偏差作为我们的最终精度分数。尽管我们没有为公司生成最终的定量评分，因为我们发现我们的模型没有比随机更好地预测，但是有可能直接从R内的***符号包获得DEPS增加的概率。

总共，我们构建了23个不同的模型(模型描述分别提供)，这些模型由社交媒体变量的不同组合组成(如下所述)。由于时间限制，这些模型在可创建的组合的数量方面不是穷尽的，但是它们确实用作分析的实质起点。QuoteMedia API和Morningstar网站用于获取我们分析所需的财务信息。在我们的分析中，Cridson Hexagon和公司网站被用来获取所有的社交媒体变量。

模型变量(金融和社交)

在我们的分析中，我们总共收集了6个不同变量(1个金融变量和5个社交变量)的数据。金融变量以及我们如何获得/计算该变量的描述如下：

每股摊薄收益的变化-我们直接从QuoteMedia API获得了2013年和2014年公司的年度每股摊薄收益。然后，我们将2014年的DEPS与2013年的DEPS进行比较，以确定是否

社交媒体变量以及我们如何获得/计算这些变量的描述如下：

总发帖量-这是包括公司现金标签的发帖总数(例如，$AMGN是Amgen的现金标签)。我们在Crimson Hexagon上创建了一个Buzz Monitor(“EPS；2014年变化数据”)，从2012年1月1日到2013年12月31日在Twitter、Facebook和Tumblr上搜索公司现金标签的使用情况。对于给定的公司，从公司年度报告日期之前的12个月收集数据。在社交媒体的7个构建块下，这将被分类为属于对话块。

总潜在观感-这是在公司年度报告日前12个月内，包括公司现金标签在内的帖子所产生的总潜在观感。数据来自Crimson Hexagon的“EPS；2014年变化数据”Buzz Monitor。在社交媒体的7个构建块下，这将被分类为属于对话块。

每位作者的发帖量-我们计算的结果是，公司年度报告日期前12个月的发帖量除以该期间发布的Twitter作者总数。数据来自Crimson Hexagon的“EPS；2014年变化数据”Buzz Monitor。在社交媒体的7个构建块下，这将被分类为属于对话块。注意：如果公司在该时间范围内有0个作者，则我们手动将该值设置为0，以避免除以0。

每帖子的观感-我们计算如下：

总潜在观感(见上文描述)/总发帖量(见上文描述)数据来自Crimson Hexagon上的“EPS；2014年变化数据”Buzz Monitor。在社交媒体的7个构建块下，这将被分类为属于对话块。注意：如果公司在该时间范围内有0个发帖，则我们手动将该值设置为0，以避免除以0

公司纳入标准

本节旨在概述我们对包含在护城河分析中的公司的选择过程。公司自身的具体信息可从“人口局Social Data Earnings per Share Focus Benchmark”Word文档和“EPSchanges_2013_to_2014_Master_Matrix”Excel文档中获得。2016年1月，我们使用Morningstar网站获得了一份约120家公司的名单，Morningstar认定这些公司要么有宽护城河，要么有窄护城河，要么没有护城河。然后，我们使用QuoteMedia API直接获取上述12个金融变量(例如总收入)，或者获取计算这些属性所需的变量(例如，我们获取了发行在外且未经调整的总普通股，然后根据这些值计算市值)。为了保持在我们的分析中，公司必须报告获得其2014年年报的护城河模型的12个财务输入属性所需的所有变量。我们无法从2014年年报中获得全部12个属性的公司从我们的分析中剔除。在过滤之后，在我们的最终分析中总共使用了59家公司。为了提高效率，我们获取了这59家公司的DEPS。在获得DEPS并计算DEPS变化之后，我们剔除了DEPS没有变化的公司，因为这类公司很少出现(59家公司中有1家)，并且数量太少，无法进行建模。我们的最终分析包括58家公司。

数据采集

为了在我们的分析中获得公司的摊薄每股收益，我们开发了一个Python脚本，使用QuoteMedia API下载这些数据。该脚本总结如下。脚本被上传到Git的“Model_Code_2_24_16”压缩文件夹中。在这个文件夹中，可以在名为“EPS_Model”的子目录中找到它们。该脚本是为了从给定公司的10份最近的年度报告中获取数据而设置的，但是对API调用的简单修改将允许用户在需要时获取更多的报告。在运行该脚本之前，必须在计算机上安装Python。理论上，Python2或Python3应该可以工作，但是数据是在运行Python 2.7的机器上获得的。此外，代码依赖于多个python模块的导入。若要查看代码所需的模块，请使用文本编辑器打开脚本并查看前几行代码。

本脚本及其目的如下：

getHistoricalEPS.py-该脚本采用公司股票代码列表，并返回股票代码、年度摊薄每股收益和以制表符分隔格式获取数据的报表日期。要为特定的公司列表运行此代码，请使用文本编辑器打开脚本，并粘贴到此脚本第27行中以逗号分隔的公司列表中。示例列表为：[‘AMGN’、‘BIIB’、‘BXLT’]。括号、撇号和逗号都是正确运行代码所必需的。请注意，该代码返回的是几年的历史数据(包括2014年及更久以前的数据)，因此必须使用MicrosoftExcel等程序对数据进行进一步处理。

用法：python getHistoricalEPS.py>HistoricalEPS.txt(注意：“HistoricalEPS.txt”可以。虽然在“模型变量(金融和社交)”部分有所提及，但我们在分析中采用了以下方法来获取社交媒体变量。

总发帖量-这是包括公司现金标签的发帖总数(例如，$AMGN是Amgen的现金标签)。我们在Crimson Hexagon上创建了一个Buzz Monitor(“EPS；2014年变化数据”)，从2012年1月1日到2013年12月31日在Twitter、Facebook和Tumblr上搜索公司现金标签的使用情况。对于给定的公司，从公司年度报告日期之前的12个月收集数据。为了收集公司和特定时间的数据，我们在Buzz Monitor中使用公司的现金标签创建了一个过滤器。我们将此过滤器应用于监视器，并将时间范围设置为包含公司年报日期之前的年份。例如，如果一家公司于2013年12月31日提交年度报告，则我们获得了2012年12月31日至2013年12月31日的总发帖量。在线从监视器屏幕上获取总发帖量。

总潜在观感-这是在公司年度报告日前12个月内，包括公司现金标签在内的帖子所产生的总潜在观感。我们在Crimson Hexagon上创建了一个Buzz Monitor(“EPS；2014年变化数据”)，从2012年1月1日到2013年12月31日在Twitter、Facebook和Tumblr上搜索公司现金标签的使用情况。对于给定的公司，从公司年度报告日期之前的12个月收集数据。为了收集公司和特定时间的数据，我们在Buzz Monitor中使用公司的现金标签创建了一个过滤器。我们将此过滤器应用于监视器，并将时间范围设置为包含公司年报日期之前的年份。例如，如果一家公司于2013年12月31日提交年度报告，则我们获得了2012年12月31日至2013年12月31日的总潜在观感。我们从Crimson Hexagon下载了一个excel文件，其中包含了网站界面上的总潜在观感数据。在Excel文件中，我们将每天潜在观感的数量相加，以得出该时间段的总潜在观感。

每位作者的发帖量-我们计算的结果是，公司年度报告日期前12个月的发帖量除以该期间发布的Twitter作者总数。我们在Crimson Hexagon上创建了一个Buzz Monitor(“EPS；2014年变化数据”)，从2012年1月1日到2013年12月31日在Twitter、Facebook和Tumblr上搜索公司现金标签的使用情况。对于给定的公司，从公司年度报告日期之前的12个月收集数据。为了收集公司和特定时间的数据，我们在Buzz Monitor中使用公司的现金标签创建了一个过滤器。我们将此过滤器应用于监视器，并将时间范围设置为包含公司年报日期之前的年份。例如，如果一家公司于2013年12月31日提交年度报告，则我们获得了2012年12月31日至2013年12月31日的总潜在观感。我们从Crimson Hexagon下载了一个excel文件，其中包含了一天内Twitter作者总数和每位作者平均发帖次数的数据。在Excel文件中，我们首先将某一天发布的Twitter作者数乘以该天每个作者的平均发布数，以获得每天的发布数。然后，我们将整个时间段内的帖子总数相加，并将其除以该时间段内Twitter作者的总数，以得出每个作者的帖子数。

模型测试和结果

我们在分析中获取了上述58家公司的所有金融和社交媒体数据后，生成了“EPS_changes_2013_to_2014_Master_Matrix”Excel电子表格，可以在Confluence上找到。该电子表格太大，无法包含在报告中，但它包含了所有数据以及其他细节(例如，现金标签、报告日期、社会数据日期范围等)，这些细节有助于获取关于建模过程中使用的公司的进一步信息。在生成该主数据矩阵之后，为我们的随机森林模型创建数据矩阵(表7)。

表7示例矩阵的快照，其中变量输入到DEPS模型中。输入变量为简洁起见而缩写。我们试图预测的变量(“Change(变化)”)用绿色突出显示。虽然未显示公司名称，但每行对应于特定的公司。

在建立基线矩阵之后，我们继续对每个矩阵运行随机森林模型，以计算我们的社会公平模型在预测DEPS变化中的平均准确度。为此，我们开发了一个名为“Script forRunning Models.r”的R脚本。虽然我们打算单独详细描述该脚本，但我们将简要概述该脚本如何确定模型精度的平均精度和标准偏差。该脚本被上传到Git的“Model_Code_2_24_16”压缩文件夹中，并包含在此存档的“Modeling_Script”子目录中。

此脚本的第一步涉及导入基线数据矩阵(参见表7)。

Change	Total Posts	Total Potential Impressions	Posts per Author	Impressions per Post	Identity Score
						Decrease	1791	8473215	1.121856868	4730.99665	3
Decrease	662	1701948	1.167548503	2570.918429	3
						Decrease	29	238645	1.26086957	8229.137931	3
Decrease	2134	16244398	1.277043268	7612.182755	3
						Decrease	566	840597	1.292906179	1485.15371	3
Increase	1557	2974115	1.169078449	1910.157354	0
						Increase	5	7830	1.25	1566	0
Increase	1133	5398097	1.252502779	4764.428067	0
						Increase	1324	6758186	1.29480901	5104.370091	0
Increase	9087	88106058	1.340127005	9695.835589	0

在加载矩阵之后，代码随机选择60％的数据用于训练，40％的数据用于测试。作为示例，如果我们将表7(该表具有10行数据)加载到代码中，则将随机地选择6行数据以训练随机森林模型，并且将随机地选择4行数据以用于测试目的。在训练之后，代码预测测试数据中的每个数据点属于哪个类别，然后将预测与每个数据点的实际类别进行比较。然后将模型的精度存储在列表中，并且将上述步骤重复99次以上，总共100次迭代。在100次迭代之后，代码打印出平均精度和精度的标准偏差。我们绘制并比较了我们测试的模型的平均精度以及平均误差(标准偏差/样本大小的平方根)。

我们仅基于社交媒体数据就生成了23个不同的模型(详见“Eamings_per_share_changes_model_descriptions”)。所测试的模型的数量远远不是穷尽的。因此，我们下面的结论是基于从基线变量(被视为“一个”变量)和社交媒体变量的组合中得出的有限的组合子集。在实现上述建模代码之后，我们发现我们构建的模型中没有一个能够比随机模型更能预测DEPS变化。事实上，我们的模型经常表现得比随机的差。DEPS模型的无信息率(NIR；随机预测)为63.8％。这些速率是将获得一个人在没有信息的情况下是否猜测公司的DEPS随机改变的速率。

鉴于这些结果，我们的数据表明，人口局应减少对仅使用社会公平数据预测摊薄每股收益变化的关注。

面向投资者众筹的社交数据预测

模型概述

JOBS法案的颁布使美国的公司能够通过众筹的方式筹集所需的资金，并使非注册投资者能够投资于小盘股私营公司和非公开交易基金。尽管这种新的资本投资模式是一种将大众与投资新企业的方式联系起来的令人兴奋的方法，但它也给有抱负的投资者带来了许多风险，同时也需要一个新的基础设施来传递信息和遵守新的规定。其中一个风险来自于“要么全有，要么全无”的融资方案，即公司必须完全实现其融资目标，才能获得所筹集的资金。对于企业来说，能够***完全实现筹资目标的可能性将是非常有价值的，特别是如果它们没有走上实现这一目标的轨道，而且仍有时间改变其竞选战略的话。

该模型分析了社交媒体数据在预测一家公司是否会完全实现其融资目标方面是否具有预测能力，使用的数据来自其融资期的第一季度，使用的数据来自一家公司的整个融资期。利用Crowdfunder.com，我们确定了21家公司，它们要么在分配的融资期内完全实现了融资目标(n＝11家公司)，要么没有完全实现融资目标(n＝10)。然后，我们构建了几个随机森林模型，使用5个社会公平数据点的不同组合(后面将详细描述)作为输入变量，这些数据点是在公司融资期的第一季度和整个融资期收集的。

在获得社交媒体变量并确定我们的分析中哪些公司完全达到了其筹资目标之后，我们用这些数据构建了一个主数据矩阵。然后，我们将随机森林模型应用于矩阵的若干不同变体，以便将完全资助的公司与未获得完全资助的公司区分开来。模型的预测基于500个回归树，我们使用R中的***符号包实现了所有的建模¹⁹。

为了测试每个模型的准确性，我们随机地将我们的数据分成训练数据集(60％的公司)和测试数据集(40％的公司)(图17)。在用60％的公司数据对模型进行训练之后，我们使用该模型对剩余的40％的公司进行分类并计算准确度。因为由于随机选择训练和测试数据，模型的精度可以变化，所以我们执行上述步骤序列100次，并将100次试验的平均值和标准偏差作为我们的最终精度分数。虽然我们没有在该模型中生成公司的最终定量得分，但是可以从R内的***符号包直接获得给定公司获得完全资金的概率。

总共，我们构建了23个不同的模型(模型描述分别提供)，这些模型由社交媒体变量的不同组合组成(如下所述)。

由于时间限制，这些模型在可创建的组合的数量方面不是穷尽的，但是它们确实用作分析的实质起点。The Crowdfunder.com网络site、Internet Archive(http://archive.org/.index.php)，和其他二级研究来源被用来获取我们分析所需的财务信息(即资金状况)。在我们的分析中，Cridson Hexagon和公司网站被用来获取所有的社交媒体变量。

模型变量(金融和社交)

融资-我们使用Crowdfunder.com收集有关公司的信息，包括筹资开始日期、筹资结束日期、融资目标以及在融资期之前和之前筹资的预订/资金。在筹资期内达到或超过其筹资目标的公司被视为“全额供资”公司，在筹资期内未达到其筹资目标的公司被归类为“未全额供资”公司。

社交媒体变量以及我们如何获得/计算这些变量的描述如下：

身份得分-我们计算的身份得分是每家公司在其主网站上显示的社交媒体网站链接数。这里，社交媒体网站包括Facebook、Twitter、Tumblr、LinkedIn、Google+、Pinterest和Instagram。由于时间限制，我们使用了截至2016年2月公司网站上的链接数量，假设这些公司最近没有添加或删除大量指向其网站的社交媒体链接。理想情况下，我们将使用Internet Archive来获取历史分数。最后，我们对网站的搜索通常包括“主页”、“媒体页面”(如果有)和“联系我们”页面。因此，我们对链接的搜索并不详尽。在社交媒体的7个构建块下，这将被分类为属于身份块。

总发帖量-这是包括公司Twitter句柄的发帖总数(例如，@Trustify是Trustify的Twitter句柄)。我们在Crimson Hexagon(“CrowdFunder Companies”)上创建了一个BuzzMonitor，从2013年12月31日到今天，它在Twitter、Facebook和Tumblr上搜索公司现金标签的使用情况。对于给定的公司，或者在其融资期的前四分之一期间(例如，100天的融资期的前25天)或者在其整个融资期期间收集数据。在社交媒体的7个构建块下，这将被分类为属于对话块。

总潜在观感-这是包括公司的Twitter句柄在内的帖子在其融资期的前四分之一或整个融资期所产生的总潜在观感。数据来自Crimson Hexagon上的“CrowdFunderCompanies”Buzz Monitor。在社交媒体的7个构建块下，这将被分类为属于对话块。

每个作者的帖子-我们将这一数字计算为：在众筹期的第一季度，或者整个筹款期的帖子总数除以同期发布的Twitter作者总数。数据来自Crimson Hexagon上的“CrowdFunder Companies”Buzz Monitor。在社交媒体的7个构建块下，这将被分类为属于对话块。注意：如果公司在该时间范围内有0个作者，则我们手动将该值设置为0，以避免除以0

每帖子的观感-我们计算如下：

总潜在观感(见上文描述)/总职位(见上文描述)数据从Crimson Hexagon上的“CrowdFunder Companies”Buzz Monitor获得。在社交媒体的7个构建块下，这将被分类为属于对话块。注意：如果公司在该时间范围内有0个发帖，则我们手动将该值设置为0，以避免除以0

公司纳入标准

本节旨在概述我们对包含在护城河分析中的公司的选择过程。关于公司本身的具体信息可从“人口局Investor-specific Crowdfunding Focus Benchmark”Word文档以及“Crowdfunder_Data_MasterMatrix_First_Quarter_Funding”和“Crowdfunder_Data_MasterMatrix_Full_Funding_Period”Excel文档中获取。我们使用Crowdfunder.com网站作为获取特定公司筹资数据的主要来源。我们主要排除截至2016年2月尚未完成筹资的公司，但2016年2月在筹资期结束前超过其融资目标的公司除外(例如：A公司的瘦子结束日期可能是2016年6月，但如果在2016年2月已经达到或超过其融资目标，我们将在分析中包括A公司。

数据采集

截至2016年2月，我们在针对投资者的分析中使用的大部分财务信息直接从Crowdfunder.com网站获得。然而，我们偶尔会利用互联网档案和其他资源(如谷歌搜索、新闻稿等)来确定一些公司的筹款期何时结束，因为这些信息在网站上并不总是随时可用。在我们的分析中，我们采用了以下方法来获取社交媒体变量。

身份得分-我们计算的身份得分是每家公司在其主网站上显示的社交媒体网站链接数。这里，社交媒体网站包括Facebook、Twitter、Tumblr、LinkedIn、Google+、Pinterest和Instagram。由于时间限制，我们使用了截至2016年2月公司网站上的链接数量，假设公司自2013年以来没有增加或减少过大量社交媒体链接。理想情况下，我们会使用InternetArchive来获取历史分数。最后，我们对网站的搜索通常包括“主页”、“媒体页面”(如果有)和“联系我们”页面。因此，我们对社交媒体链接的搜索并不详尽。

总发帖量-这是包含公司Twitter句柄的帖子总数。我们在Crimson Hexagon(“CrowdFunder Companies”)上创建了一个Buzz Monitor，从2013年12月31日到今天，它在Twitter、Facebook和Tumblr上搜索公司现金标签的使用情况。对于给定的公司，在公司的众筹期的第一季度(例如，持续100天的融资期的前25天)或公司的完全众筹期期间收集数据。为了收集公司和特定时间的数据，我们在Buzz Monitor中使用公司的Twitter句柄创建了一个过滤器。我们将此筛选器应用于监视器，并将时间范围设置为包含所需的时间范围。在线从监视器屏幕上获取总发帖量。

总潜在观感-这是包括公司在众筹期第一季度或整个募资期的Twitter句柄在内的帖子所产生的总潜在观感。我们在Crimson Hexagon(“CrowdFunder Companies”)上创建了一个Buzz Monitor，从2013年12月31日到今天，它在Twitter、Facebook和Tumblr上搜索公司现金标签的使用情况。对于一家给定的公司，数据是在整个筹资期的第一季度收集的。为了收集公司和特定时间的数据，我们在Buzz Monitor中使用公司的Twitter句柄创建了过滤器。我们将此筛选器应用于监视器，并将时间范围设置为需要数据的所需时间窗口。我们从Crimson Hexagon下载了一个excel文件，其中包含了网站界面上的总潜在观感数据。在Excel文件中，我们将每天潜在观感的数量相加，以得出该时间段的总潜在观感。

每个作者的帖子-我们将这一数字计算为第一季度或整个融资期的帖子总数除以在此期间发布的Twitter作者总数。我们在Crimson Hexagon(“CrowdFunder Companies”)上创建了一个Buzz Monitor，从2013年12月31日到今天，它在Twitter、Facebook和Tumblr上搜索公司的Twitter句柄。为了收集公司和特定时间的数据，我们在Buzz Monitor中使用公司的Twitter句柄创建了一个过滤器。我们将此筛选器应用于监视器，并将时间范围设置为包含所需的日期。我们从Crimson Hexagon下载了一个excel文件，其中包含了一天内Twitter作者总数和每位作者平均发帖次数的数据。在Excel文件中，我们首先将某一天发布的Twitter作者数乘以该天每个作者的平均发布数，以获得每天的发布数。然后，我们将整个时间段内的帖子总数相加，并将其除以该时间段内Twitter作者的总数，以得出每个作者的帖子数。

模型测试和结果

一旦我们在分析中获得了上述21家公司的所有金融和社交媒体数据，我们就生成了“Crowdfunder Data MasterMatrix Full Funding Period”和“Crowdfunder_Data_MasterMatrix_First_Quarter_Funding”Excel电子表格，这些电子表格可以在Confluence上找到。这些电子表格包含所有数据以及其他细节(例如Twitter句柄、报告日期、社交数据日期范围)，这些细节对于获取关于建模过程中使用的公司的进一步信息是有用的。在生成这个主数据矩阵之后，我们为我们的随机森林模型创建了筹款期的第一季度和整个筹款期的数据矩阵(关于模型矩阵的示例视图，参见表8)。

表8。示例矩阵的快照，变量输入到投资者特定的众筹社会数据预测模型中。输入变量为简洁起见而缩写。我们试图预测的变量(“Funding(融资)”)用绿色突出显示。以下数据来自公司融资期的第一季度。虽然未显示公司名称，但每行对应于一家公司。

Funding	TotalPosts	Total PotentialImpressions	Posts per Author	Impressions per Post	Identity
						Fully_Funded	181	470244	1.448	2598.033149	2
Fully_Funded	11	2287	1.1	207.9090909	3
						Fully_Funded	152	303919	1.1111	1999.467105	2
Fully_Funded	27	8128	1.8	301.037037	3
						Fully_Funded	77	379999	1.4808	4935.051948	0
Not_Fully_Funded	75	125391	1.2931	1671.88	3
						Not_Fully_Funded	14	134652	1.2727	9618	3
Not_Fully_Funded	15	305815	1	20387.66667	0
						Not_Fully_Funded	34	586026	1.0303	17236.05882	2
Not_Fully_Funded	4	11848	1	2962	0

在建立矩阵之后，我们对每个矩阵运行随机森林模型，以计算我们的社会公平模型在预测筹款成功方面的平均准确度。为此，我们开发了一个名为“Script_for_Running_Models.r”的R脚本。虽然我们打算单独详细描述该脚本，但我们将简要概述该脚本如何确定模型精度的平均精度和标准偏差。该脚本被上传到Git的“Model_Code_2_24_16”压缩文件夹中，并包含在此存档的“Modcling_Script”子目录中。

此脚本的第一步涉及导入基线数据矩阵(参见表8)。在加载矩阵之后，代码随机选择60％的数据用于训练，40％的数据用于测试。作为示例，如果我们将表8(该表具有10行数据)加载到代码中，则将随机地选择6行数据以训练随机森林模型，并且将随机地选择4行数据以用于测试目的。在训练之后，代码预测测试数据中的每个数据点属于哪个类别，然后将预测与每个数据点的实际类别进行比较。然后将模型的精度存储在列表中，并且将上述步骤重复99次以上，总共100次迭代。在100次迭代之后，代码打印出平均精度和精度的标准偏差。我们绘制并比较了我们测试的模型的平均精度以及平均误差(标准偏差/样本大小的平方根)。

仅基于社交媒体数据，我们就生成了23个不同的模型(详见“Invcstor_specific_first_quarter_model_descriptions”和“Investor_specific_full_funding_period_model_descriptions”文档)。所测试的模型的数量远远不是穷尽的。因此，我们下面的结论是基于从基线变量(被视为“一个”变量)和社交媒体变量的组合中得出的有限的组合子集。

在实施上述建模代码之后，我们发现，我们使用来自筹资期第一季度或整个筹资期的数据构建的若干模型能够比随机模型更好地预测公司完全筹资的概率。

事实上，我们使用第一季度融资数据的最准确模型的准确性几乎为80％(模型5；平均精度为79.6％，标准差为6.5％)，使用全部融资期数据的最准确模型(模型15)的准确性平均为81.1％(标准差为13.9％)。这两个值都高于无信息率(NIR；随机预测)，后者为52.4％。如果一个人猜测一家公司随机获得全额资金的可能性，他或她将获得52.4％的准确率。模型5由身份得分和每个作者的帖子组成，模型15由总的潜在观感、每个帖子的观感和每个作者的帖子组成。鉴于这些结果，以及我们仅测试了可构建的所有不同模型中的一小部分(仅使用5个社交媒体变量)，这些数据有力地表明，社交媒体在预测众筹成功方面具有预测能力，而人口局应继续使用社交股票数据开发其针对投资者的评级。

Claims

1.一种用于分析众筹平台的方法，该方法包括：

使用电子设备连接到多个个体贷款平台；

从所述个体贷款平台中的每一个检索贷款账簿数据；

使用耦合到所述电子设备的存储器来存储所述贷款账簿数据，

其中，所述贷款账簿数据包括在结构化查询语言数据库中生成的元数据，并且

其中，所述元数据包括与所述贷款账簿数据相关联的平台的名称和数据属性的列表；

使用耦合到所述电子设备的处理器来转换来自每个平台的所述贷款账簿数据，使得转换后的贷款账簿数据使用公共数据；

使用所述处理器读取转换后的贷款账簿数据；以及

针对每对平台和属性将目的地统一数据属性文档化。

2.根据权利要求1所述的方法，其中，所述元数据还包括用于何时已经接收到所述贷款账簿数据的时间戳。

3.根据权利要求1所述的方法，其中，所述属性的列表和与平台关联的每个借款人列表和贷款发放相关联。

4.根据权利要求1所述的方法，其中，所述公共数据选自由以下组成的组：公共语言；公共货币；公共时区；公共单位；以及公共数值范围。

5.根据权利要求1所述的方法，其中，所述存储所述贷款账簿数据还包括针对每个平台以其自然状态实时存储所述贷款账簿数据。

6.根据权利要求1所述的方法，其中，根据映射表来执行文档化。

7.根据权利要求1所述的方法，所述方法还包括预测与平台相关联的贷款是否可能被偿还。

8.一种用于分析众筹平台的***，该***包括：

电子设备，其被配置为：

连接到多个个体贷款平台；并且

从所述个体贷款平台中的每一个检索贷款账簿数据；

存储器，其耦合到所述电子设置，所述存储器被配置为存储所述贷款簿数据，

其中，所述元数据包括与所述贷款账簿数据相关联的平台的名称和数据属性的列表；以及

处理器，所述处理器耦合到所述电子设备，并且被配置为：

转换来自每个平台的所述贷款账簿数据，使得转换后的贷款账簿数据使用公共数据；

读取转换后的贷款账簿数据；并且

针对每对平台和属性将目的地统一数据属性文档化。

9.根据权利要求8所述的***，其中，所述元数据还包括用于何时已经接收到所述贷款账簿数据的时间戳。

10.根据权利要求8所述的***，其中，所述属性的列表与每个借款人列表相关联，并且贷款发放与跨其他平台识别和列出的主平台相关联。

11.根据权利要求8所述的***，其中，所述公共数据选自由以下组成的组：公共语言；公共货币；公共时区；公共单位；以及公共数值范围。

12.根据权利要求8所述的***，其中，所述存储器被进一步配置为实时地存储每个平台在其自然状态下的所述贷款账簿数据。

13.根据权利要求8所述的***，其中，所述处理器被配置为根据映射表进行文档化。

14.根据权利要求8所述的***，其中，所述处理器还被配置成预测与平台相关联的贷款是否可能被偿还。

15.根据权利要求8所述的***，其中，所述电子设备选自由以下组成的组：台式计算机；膝上型计算机；平板计算机；以及智能电话。

16.根据权利要求8所述的***，所述***还包括图形用户界面，并且其中，所述存储器还被配置为存储数字应用，该数字应用被配置为使得用户能够使用所述图形用户界面访问所述目的地统一数据属性。