alxbj 发表于 2019-4-28 15:41

华泰证券金融工程首席 林晓明:人工智能与量化投资

量化投资本身是一个很宽泛的领域,包含量化选股、行业配置、择时、CTA等等不同的类别。我们今天交流的主要内容是人工智能算法在多因子领域的应用,虽然人工智能相关算法可能在其他领域也有很多的应用,比如CTA领域,但是对于公募和保险机构而言,因为资金容量问题,这并不是我们客户的主要产品线,所以作为卖方我们主要的尝试还是集中在多因子领域。  首先我们分别谈下对于量化投资和人工智能算法的看法。整体上,近几年量化投资的接受度在逐渐提高,但是2017年以来,行业的发展也面临严峻的挑战。我自己理解是三个方面:  1. 因子模型的同质性问题。这也是中国的工程师红利对量化投资领域的直接影响,海外成熟的多因子模型,在国内经过几年的发展,已经消化吸收的非常好,非常成熟了。多因子是一个相对清晰的框架,最终的结果就是同质性很强。  2. 从2016年开始,市场的风格发生了显著的变化。沉寂很多年的蓝筹股、周期股开始主导市场,市场一直看好的TMT、成长股经过2013-2015年的大幅上涨,开始陷入低迷。规律发生了变化,无论用线性回归,还是各种机器学习算法,最终表现都很差。这就不是工具层面能够解决的问题了,你前后规律不一致,前面样本规律挖掘再深再全面也没用。  3. 量化的成本也在上升,2016-2017很多时候股指期货都是贴水的,其次是保证金比例比较高,资金利用效率不高。最后是隐形成本,沪深300指数持续上涨,贝塔收益是正的,而且性价比很不错。  接着聊下对人工智能的看法:人工智能不是一个新东西,表面上看本轮的崛起是因为围棋下赢了,上次人工智能火是因为象棋下赢了。实际我认为主要是三个因素:  1. 计算机的运算能力在持续提升。  2. 随着信息技术的持续发展,整个社会采集数据的能力快速提升,存储下来的数据急剧增长。  3. 统计工具和各种算法的持续发展。  量化投资发展到今天这一步,求变是内在的需求,然后又适逢人工智能技术的重新崛起,所以量化+人工智能,一定是一个非常值得投入精力去进行尝试的领域。  我们对人工智能在量化领域的应用,还是非常乐观的。但是呢,也要有清醒的认识和合理的预期。我们肯定不期望说,把相关的算法引入到量化投资领域,马上就能够起质的变化,大幅度的提升模型的绩效。这件事情不现实,因为二级市场是相当难的领域。昨天上涨,大家可以总结上涨的三个理由,今天下跌,很快大家又可以总结五个下跌的理由,赚到的永远都是经验。有的时候大家经常自嘲:“在二级市场上,是每天上一当,当当不一样”,很难总结出什么规律,即便总结出了规律,过段时间就都变了。  人工智能算法毕竟只是一个工具,要应用到投资领域,还是需要借助投资领域本身的一些框架。我们的尝试就是基于多因子模型进行的,主要流程有以下几步:1)输入基础数据;2)特征提取:选取有效因子;3)数据转换;4)机器学习算法拟合;5)模型选择交互验证;6)输出:预测结果。与传统的多因子模型主要区别在于,第四步用机器学习算法替代线性回归。  我们目前这个人工智能选股系列已经推出九篇报告:1)人工智能选股框架及经典算法简介;2)广义线性模型;3)支持向量机模型;4)朴素贝叶斯模型;5)随机森林模型;6)Boosting模型;7)人工智能选股之Python实战;8)全连接神经网络;9)循环神经网络;2018年1月1号开始,我们正式推出《人工智能选股周报》,跟踪所有这些模型的实际表现,希望能够和大家一起持续观察学习。  关于人工智能这里面的具体算法,我这里就不做详细的介绍了。如果大家想初步的了解每种算法的思路,可以看我们第一篇报告《人工智能选股框架及经典算法简介》。对每个算法更加细致的介绍,以及实战的测试,可以看后面针对每个模型的深度报告。  机器学习算法很多,需要针对不同的问题,选择合适的算法。如果数据中包含特征和标签,希望学习特征和标签之间的对应关系,那么可以采用监督学习的方法;如果没有标签,希望探索特征自身的规律,那么可以采用非监督学习;如果学习任务由一系列行动和对应的奖赏组成,那么可以采用强化学习。如果需要预测的标签是分类变量,比如预测股票上涨还是下跌,那么可以采用分类方法;如果标签是连续的数值变量,比如预测股票具体涨多少,那么可以采用回归方法。  整体测试下来,结论如下:  1. XGBoost具备不错的选股能力,在预测正确率、AUC指标、超额收益和信息比率方面较滚动线性回归模型表现都略胜一筹。而从回撤的角度看,XGBoost模型相比于线性回归和朴素贝叶斯不具备明显优势,很多时候回撤会更大。  2. XGBoost是Gradient Boosting方法的一种高效实现,也是GBDT算法的改进和提高。XGBoost通过对目标函数做二阶泰勒展开,使得最终的目标函数只依赖每个数据点上损失函数的一阶导和二阶导,进而容易实现并行。  3. 综合各类算法测试结果来看:1)朴素贝叶斯模型原理简单,计算速度快,外部参数很少,对样本量的依赖度小且鲁棒性强;2)随机森林模型在样本内有较高的拟合精度,但泛化能力较弱,也即对于市场投资风格的转换适应性差;3)XGBoost模型与随机森林模型效果相仿,运算速度有明显优势;4)神经网络模型对样本量要求比较高,随着网络结构加深可以达到很高的拟合精度,但是泛化能力也相应减弱。  关于人工智能应用于量化投资的思考,主要有以下几点:  1. 不同的算法体现不同的风险偏好,总体来说,收益越高的模型风险也越大。  2. 暂时没有发现一种机器学习算法在量化选股领域能够完美战胜线性回归。  3. 线性回归作为一种退化的机器学习算法,既不是最简单的(对比朴素贝叶斯模型)也不是最复杂的(对比神经网络),它的风险和收益属性相对均衡、易于理解、便于加入主观择时观点,其应用度广是一件可以理解的事。  4. 机器学习算法应用于量化选股的初步尝试并没有给人带来非常惊喜的结果,其潜在原因可能有:1)因子池构建方式:目前已有的因子基本是通过IC、IR筛选出来的,IC本质上是线性相关系数,即便有非线性因子也依据经验进行了纠正;2)模型设置、构建方法等存在局限,没有充分利用因子的时序信息;3)数据量太少,机器学习算法普遍存在样本内过拟合、泛化能力差的问题;4)XGBoost模型与随机森林模型效果相仿,运算速度有明显优势;5)股市的规律不稳定,理论上有一定的不可预测性,复杂人工智能方法很可能本来就不适用。


狙击时空 发表于 2019-4-30 16:37

{:7_317:}{:7_317:}{:7_317:}
页: [1]
查看完整版本: 华泰证券金融工程首席 林晓明:人工智能与量化投资