- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 81
- 收听数
- 1
- 能力
- 120 分
- 体力
- 541071 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 167700
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5324
- 主题
- 5250
- 精华
- 18
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
人工智能选股之随机森林模型
随机森林模型是以 Bagging 并行方法集成决策树而得到的强分类器
随机森林(Random Forest)是近年来备受青睐的机器学习方法之一。随
机森林是以 Bagging 并行方法集成一系列决策树而训练出的强分类器,可
以较好地应用于分类和回归的不同场景下。本篇报告我们将对随机森林模
型进行系统性的测试,并分析它们应用于多因子选股的异同,希望对本领
域的投资者产生有实用意义的参考价值。
随机森林模型的构建:7 阶段样本内训练与交叉验证、样本外测试
随机森林的构建包括特征和标签提取、特征预处理、样本内训练、交叉验
证和样本外测试等步骤。最终在每个月底可以产生对全部个股下期上涨概
率的预测值,然后根据正确率、AUC 等指标以及策略回测结果对模型进行
评价。我们的模型设置为月频换仓,为了让模型及时学习到市场特征的变
化并兼顾计算效率,我们采用了 7 阶段滚动回测方法,即从 2010 年底开
始,每年底重新构建一次模型,在下一年进行测试。我们还根据模型的预
测结果构建了沪深 300 成份内选股、中证 500 成份内选股和全 A 选股策略,
通过年化收益率、信息比率、最大回撤等指标综合评价策略效果。
随机森林选股模型的收益和信息比率相较于线性回归具有较大优势
对于沪深 300 成份股内选股的行业中性策略(每个行业选 6 只个股),随
机森林模型的超额收益为 6.2%,信息比率为 1.74。对于中证 500 成份股
内选股的行业中性策略,随机森林的超额收益为 8.4%,信息比率为 2.16。
对于全 A 选股的行业中性策略,随机森林相对于中证 500 的超额收益为
30.6%,信息比率为 4.17。总体而言,随机森林模型在多数情况下能获取
更高的超额收益和信息比率,相较于前度报告中广义线性模型、支持向量
机模型、朴素贝叶斯模型在此方面具有比较大的优势,而对回撤的控制不
具备优势。
市值和反转因子在随机森林模型中重要性评分较高
模型训练出的因子重要性评分表显示,随机森林模型主要受市值和反转因
子影响较大。基于树的分类方法一般在大环境不发生变化的前提下能够获
取比较好的预测效果,而此类方法对于参数、噪音、环境变化等因素也比
较敏感,即泛化能力不够强。所以随机森林模型在 2011~2016 年这段小
盘股风格主导的时期展示出了强大的选股能力,但 2017 年以来确实遭遇
一定幅度的困境。我们将在后续报告中持续关注基于树的分类方法,希望
寻找到有效的手段解决这一难题。
风险提示:通过随机森林模型构建选股策略是历史经验的总结,存在失效
的可能。
|
zan
|