查看: 91|回复: 0

[CFA考试经验] 2019年CFA中新加入的Fintech知识梳理

[复制链接]

736

主题

1058

帖子

4468

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4468
发表于 2019-5-15 10:39:52 | 显示全部楼层 |阅读模式
CFA中新加入的Fintech知识梳理

1、introduction

传统数据来源包括年度报告,监管标准文件,销售和收入数据以及与分析师召开电话会议等形式的公司数据。传统数据还包括在金融市场中生成的数据,包括贸易价格和数量。由于世界联系越来越紧密,我们现在可以从各种设备获取数据,包括智能手机,相机,麦克风,射频识别(RFID)读取器,无线传感器和现在全世界都在使用的卫星。随着互联网和此类网络设备的出现,使用非传统数据源或替代数据源——包括社交媒体(帖子,推文和博客),电子邮件和文本通信,网络流量,在线新闻网站和其他电子信息源——已经出现。

Big Data通常是指的具有以下特征的数据集:

l 数量(volume):文件,记录和表中收集的数据量非常大,代表数百万甚至数十亿的数据点。

l 速度(velocity):数据通信的速度非常快。实时数据或近似实时数据在许多领域中已经成为了常态。

l 种类(variety):数据从许多不同的来源以各种格式收集,包括结构化数据(例如,SQL表或CSV文件),半结构化数据(例如,HTML代码)和非结构化数据(例如,视频消息)。

大数据可以是结构化,半结构化或非结构化数据。结构化数据项可以在表中生成,并且通常存储在数据库中,其中每个字段表示相同类型的信息。非结构化数据可能是分散的,无组织的数据,无法以传统的表格形式表示。非结构化数据,例如社交媒体,电子邮件,文本消息,录音,图片,博客,扫描仪和传感器生成的数据,通常需要不同的专业应用程序或自定义程序处理之后 才能对投资专业人员的分析有用。例如,为了分析电子邮件或文本中包含的数据,可能需要专门开发或定制的计算机代码来首先处理这些文件。半结构化数据可以具有结构化和非结构化数据的属性。


2、Big Data的来源

l 金融市场(例如股票,固定收益,期货,期权和其他衍生品),

l 企业(例如,公司财务,商业交易和信用卡购买),

l 政府(例如,贸易,经济,就业和工资单数据),

l 个人(例如,信用卡购买,产品评论,互联网搜索日志和社交媒体帖子),

l 传感器(例如,卫星图像,运输货物信息和交通模式),特别是

l 物联网(LoT)(例如,由“智能”建筑物生成的数据,其中建筑物提供关于气候控制,能源消耗,安全性和其他操作细节的稳定信息流)。

通常来看,在收集商业信息时,分析师倾向于利用传统的数据来源,采用统计方法来衡量绩效,预测未来增长,并分析行业和市场趋势。相比之下,大数据的分析结合了替代数据集(alternative data)的使用。

3、替代数据集(alternative data)

自20世纪90年代末以来,大数据一词一直在使用,它指的是工业,政府,个人和电子设备生成的大量数据。Big Data包括从传统来源(如证券交易所,公司和政府)以及非传统数据类型(也称为替代数据)生成的数据,这些数据源于使用电子设备,社交媒体,传感器网络和公司排放(在正常经营过程中产生的数据)。

从零售销售数据到社交媒体情绪,再到可能揭示农业,航运和石油钻井平台信息的卫星图像,替代数据集可以提供有关消费者行为,公司业绩,趋势以及其他与投资相关活动重要因素的额外见解。这些信息对专业投资者,特别是量化投资者进行财务分析和决策过程的方式产生了重大影响。

classification of alternative data

在寻找可能影响证券价格,增强资产选择,改善交易执行和发现趋势的新因素时,正在使用替代数据集来支持数据驱动的投资模型和决策。随着对替代数据集的兴趣不断增加,收集,汇总和销售替代数据集的专业公司数量也在增长。

虽然替代数据集的作用正在扩大,但投资专业人员应该理解与不属于公共领域的信息相关的潜在法律和道德问题。例如,抓取网络数据可能潜在地会收集受法规保护的个人信息,或者可能在未经所涉个人明确知情和同意的情况下发布或提供的个人信息。许多司法管辖区仍在制定最佳做法,而且由于国家监管机构采取不同的方法,可能存在相互矛盾的指导形式。

4、Big Data的挑战

当用于投资分析时,大数据带来了一些挑战,包括数据的质量,数量和适当性。关键问题围绕以下问题展开:数据集是否具有选择偏差,缺失数据或数据异常值?收集的数据量是否足够?数据集是否适合分析类型?在大多数情况下,在进行分析之前,必须对数据进行溯源,清洗和重构。由于所涉及的数据的非结构化特征,这种过程对于替代数据而言可能是非常困难的,其通常是定性的(例如,文本,照片和视频)而不是定量的特征。

考虑到替代数据集的大小和复杂性,传统的分析方法不能总是用于解释和评估这些数据集。为了应对这一挑战,出现了人工智能和机器学习技术,提供了对如此庞大而复杂的信息来源的分析支持。

5、introduction

人工智能计算机系统(artificial intelligence computer system)能够执行传统上人类智慧需要的任务。人工智能技术使计算机系统具有与人类相当的认知和决策能力成为可能。

机器学习(Machine Learning)是一种从更广泛的AI领域发展而来的技术。ML算法本质是计算机程序,能够“学习”如何完成任务,随着时间的推移提高他们的经验。在目前在投资环境中,ML需要大量的数据用于“训练”,因此尽管一些ML技术已经存在多年,但是数据不足的限制了更广泛的应用。以前,这些算法无法通过大量的数据训练形成模型之间的稳定的关系。现如今,大数据的发展为ML算法(如神经网络)提供了足够的数据来改善建模和预测精度,现在可以更多地使用ML技术。

在ML中,计算机算法被赋予“输入变量”(一组变量或数据集)并且可以被给予“输出变量”(目标数据)。算法从所提供的数据中“学习”,拟合输入变量和输出变量之间的模型关系。训练(training)指的就是通过计算机算法发现输入变量和输出变量之间的联系的一个过程。

ML涉及将数据集拆分为训练数据集(training dataset)和验证数据集(validation dataset)。训练数据集通过算法基于数据中的历史经验模式识别输入和输出之间的关系。,然后在验证数据集上测试这些关系。一旦算法成功验证了训练和验证数据集,ML模型可用于基于其他数据集预测结果。

ML在处理底层数据和选择适当的数据分析算法时仍需要人为判断。在使用它们之前,数据必须“clean”且没有偏差和虚假数据。如上所述,ML模型还需要足够大量的数据,并且在可能没有足够的可用数据来训练和验证模型的情况下可能表现不佳。

分析师还必须认识到过度拟合(overfitting)数据可能引起的错误,因为过度拟合数据的模型可能会发现“错误”关系或“未经证实”的模式,这些模式将导致预测错误和错误的输出预测。当ML模型精确地学习输入和目标数据集时,会发生过度拟合。在这种情况下,模型已经对数据进行了“过度训练”,并将数据中的噪声视为真实参数。已经过度拟合的ML模型值得注意的是使用不同的数据集准确地预测结果并且可能过于复杂。当模型拟合不足时,ML模型将真实参数视为噪声并且无法识别训练中的关系数据。在这种情况下,该模型可能过于简单化。欠拟合的模型通常不能完全的识别底层数据之间的关系。

此外,ML技术可能看起来是不透明的或“黑箱”方法,这些方法得出的结果可能不是完全理解或可被解释的。

6、Machine Learning的类别

ML方法可以帮助识别变量之间的关系,检测模式或趋势,并从数据中创建结构,包括数据分类。机器学习方法的主要类型包括有监督(supervised learning)和无监督(unsupervised learning)学习。

在监督学习中,计算机学习基于标记的训练数据来建模关系。在监督学习中,为了进行算法的训练,输入变量和输出变量被标记。在学习如何最好地建立标记数据的关系之后,训练的算法用于建模或预测新数据集的结果。在尝试发现信号或者变量,以预测股票的未来回报或试图预测本地股票市场表现将在下一个工作日上涨,下跌或持平是可以使用监督学习技术来解决的。

在无监督学习中,计算机不给出标记数据,而是仅给出基于算法的描述数据及其结构。尝试根据公司的特点将公司分类而不是使用已经制定的标准分组是一个可以使用无监督学习技术来解决的案例。

AI的进展历程已经与神经网络技术的发展紧密联系了在一起。在深度学习(或深度学习网络)中,计算机使用神经网络(通常具有许多隐藏层)来执行多级非线性数据处理以识别模式。深度学习可以使用监督学习或无监督学习的机器学习方法。通过采用分层或多阶段方法进行数据分析,深度学习可以帮助理解简单的概念,从而对更复杂的概念进行分析。自1958年以来,神经网络已经存在,并且自20世纪90年代初以来已经被用于许多应用,例如预测和模式识别。神经网络基础算法的改进提供了更准确的模型,可以更好地整合和学习数据。因此,这些算法现在在图像,模式和语音识别等活动方面要好得多。在许多情况下,先进的算法比早期的神经网络需要更少的计算能力,并且它们改进的解决方案使分析人员能够发现信息并识别以前太难或太耗费时间而无法发现的关系。

7、conclusion

从传统的统计分析到现在使用ML技术分析大数据,,代表了投资研究的重大发展,得益于更高的数据可用性和算法本身的进步,计算能力和软件处理速度的提高以及存储成本下降的进一步发展都支持了这种发展的演变。

ML技术被用于大数据分析,以帮助预测趋势或市场活动,例如成功合并的可能性或政治选择的结果。图像识别算法现在可以分析来自卫星图像系统的数据,以提供关于零售商店停车场,运输活动和制造设施中的消费者数量以及农作物产量的情报等等。

CFA考试推荐:  
CFA全球考友交流群,群号:51678297(QQ)

更多2019CFA资料领取>>https://jinshuju.net/f/OwTE6O

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门推荐

锦鲤来袭!暴增您的幸运值,祝您考过CFA!
锦鲤来袭!暴增您的幸运值
CFA考试成绩公布在即,能否考过,很多考生心里都没底。 该做的努力,过去我们都已
在职CFA大神,长线备考三级:从没见过这么全的复习表
在职CFA大神,长线备考三
CFA三级考试和CFA一级二级考试不一样,CFA一级二级全部为客观单选题,而CFA三级考
CFA历年考试通过率汇总,一级较低, 三级威武!
CFA历年考试通过率汇总,
2019年6月CFA考试已经过去两周多了,此次考试成绩预计将在8月6日公布。今天小编来
2020年CFA奖学金你申请了吗?抓紧时间!
2020年CFA奖学金你申请了
作为一张全球认可的金融证书,拿到CFA证书的收益也是很高。如果是在职人士备考CFA
唯一真正统计了94位高考状元身份的文章,说出三个被忽视...
唯一真正统计了94位高考状
文 | 马栩文 李栩然首发 | 栩先生(ID:superMr_xu) 1一份2019全国高考状元统计
2020年CFA奖学金你申请了吗?CFA奖学金申请条件是什么?
2020年CFA奖学金你申请了
作为一张全球认可的金融证书,拿到CFA证书的收益也是很高。如果是在职人士备考CFA
CFA竟然有免考政策?精算师、ACCA、CIPM、CIMA、CFP都能免...
CFA竟然有免考政策?精算
前两天有小伙伴问CFA学姐:想考CFA,听说ACCA有免考政策,如果是会计学专业,在完
学习财务分析你还缺这10张思维导图
学习财务分析你还缺这10张
一、综述 分析一个企业的财务质量,要从这四个方面入手: ①资产质量; ②资本结构
金融行业10大热门岗位,赶紧看看你最适合哪一个
金融行业10大热门岗位,赶
月入十万、年薪百万的形容, 向来是金融人特有标签, 而从‘金融民工’走向‘金融
大神精编 | 2019CPA六科备考笔记
大神精编 | 2019CPA六科备
关于备考2019的建议 大四下学期可以报名注册会计师考试,大概四月份报名,等毕业的时
悬浮客服

Archiver|手机版|小黑屋|

  • Copyright   ©2019-2020  51CFA   Powered by©Discuz!   
快速回复 返回顶部 返回列表