2018中国大数据建模年终总决赛赛题.rar
(19.34 MB, 下载次数: 113)
无体力下载地址http://finals.tzmcm.cn
2018中国大数据建模(金融建模)年终总决赛赛题 金融市场板块划分与轮动规律挖掘与可视化问题 一、背景 金融市场行业板块的轮动会受到多种复杂多变的逻辑因素影响,但最终都表现为行业股价的某种周期现象,因此许多投资者都尝试通过观察行业的近期涨跌顺序等规律,进而对未来行业进行预测。传统分析行业联动规律有通过宏观分析,产业上下游关系,经济规律传导等方法,我们试图单纯的使用数据挖掘的方法从交易大数据中寻找出一些大概率成立的关联规则,并希望能够在未来将这些实验结果应用到股市预测和决策中。 二、问题 问题1:市场板块的划分 传统的市场板块划分或基于行业,或基于地域,或基于概念,都有一定的主观性。本题要求参赛者附件中基于中证800(即沪深300+中证500)成分股历史日线价格数据(从2010.01.01至2018.12.01),利用算法模型,对市场上的股票进行板块划分,客观地基于数据划分出股票市场中真实存在的联动板块。参考的算法如基于机器学习中的无监督聚类,或基于相关矩阵最小生成树,也可以基于构建股票联动网络社团结构划分算法等等。 1.1、长期稳定板块划分 利用较长时间段的数据,分析得到长期稳定的大类板块如约五六类,与细分板块如约二十个,并与传统行业板块相比较,探讨这种自下而上数据挖掘得到的板块划分与传统行业划分的差别,并尝试对每一类给予命名,并得到相应的板块指数(即综合代表这个板块走势平均); 1.2、板块内部分化度分析 分化度描述市场走势的一致程度。当分化度较高时,说明市场走势较为紊乱;当分化度较低时,说明市场走势整齐划一。市场走势不断循环往复,在上涨、下跌的过程中,市场各板块、各证券走势的一致程度会不断出现变化,时而步调一致的上涨或下跌、时而涨跌方向或幅度不一、走势出现分化。请基于1.1的分类,建模分析各个细分板块内部分化度的变化规律,进而分析大板块内部的分化度变化规律,乃至全市场的分化度的变化规律,分别给出度量算法和可视化方法。 1.3、不同时间尺度的板块分析 利用较短时间段的数据,在不同的时间尺度上对板块进行划分,分析在短期产生的板块。分析板块在时间上的分合与演化,即大板块分裂成小板块,小板块聚合成大板块。给出算法和可视化。 问题2:板块轮动的分析 关联规则挖掘是数据挖掘中最热门的方法之一,它可以从海量的数据中探寻一个事件和其他事件之间的依赖或关联,将关联规则应用到股市分析中,从大数据中捕捉市场不易被察觉的隐藏规则,并将其应用到股票投资中,是能够获得超额收益的。如传媒-计算机-电子元器件-通信联动效应明显,即单个表现强势时,另外几个也能获得超额收益,这三类行业同属于 TMT 行业概念股,在市场中容易受到资金的同时追捧,因而存在同涨现象。 问题2:是基于问题1对市场板块的重新划分,挖掘板块联动和轮动的规律。 2.1 强势行业联动分析 基于问题1的板块划分,寻找在不同时间尺度上,在一个板块上涨时,另外一个板块是否上涨的规律。例如在周级别上统计,若电子元器件行业强势,下一周传媒行业强势的概率较高。有的行业联动规则在每个周期上都适用,还有一些行业联动规律只在个别周期上成立。按传统行业划分,从日,周,月三个时间维度上去探寻行业可能存在的规律,会发现TMT行业,煤炭-有色,银行-非银行金融在三个时间周期上都存在很明显的联动效应。 找到一个定量度量此种轮动规律可信度的方法,并依此挖掘市场上各个周期的强势行业联动规律,同时也找到相应的弱势行业的联动规律。 2.2 条件叠加下的联动规律挖掘 相比于行业联动规则,更加可能挖掘出大概率规律的是条件叠加下的联动规律,即一个或多个行业的表现组合在一起时,能否引起未来某个行业上涨或者下跌,如果行业轮动真的存在记忆性,那么历史上大概率发生的轮动规律也能在未来重现。通过提前配置未来表现强势的行业,我们能获得超额收益。例如,在日级别数据上,T日医药行业(强势) 钢铁行业(弱势),T+1日钢铁行业(未来弱势)的可能性较高。 请尝试挖掘各种条件组合下的联动规律,并探讨检验这种规律在时间上的外推性。 2.3 行业轮动序列相似性匹配 上述2.1和2.2尝试利用上一时间周期(如日、周、月)内的强势和劣势行业的规律,来推测下一个时间周期应该超配和低配的行业。2.3则尝试利用过去更长的时间段(如过去N日、N周、N月)里的行业强弱势规律或规律的叠加,来预测未来一个周期(接下来一日、一周、一个月),在历史上找到行业轮动的类似序列,即构建一个基于轮动顺序匹配的行业轮动策略。继续改进2.1与2.2的预测准确率与稳定性。 2.4 周与月的行业配置建议 基于上述轮动规律的挖掘,或其他创造性的模型,给出推断下一周期(日、周、月或其他算法认为合适的周期)行业配置建议,即对下一周期的每个行业(你自定义的行业)的收益排名进行预测,并检验预测的排名与下一周期真实发生的排名直接的相关性度量(给出自认为合适的度量方法),并统计历史上数据中,这个相关性的变化与整体统计情况。 三、数据说明: (1)中证800指数是由中证指数有限公司编制,其成份股是由中证500和沪深300成份股构成,中证800指数综合反映沪深证券市场内大中小市值公司的整体状况; (2)附件为中证800指数成分股在2010年1月1日至2018年12月1日时间段的每日前复权的收盘价数据; (3)中证800指数股关键成分股一直在变,故在某个时间段会出现数据缺失的情况,另外也需要考虑股票停牌等情况,可以在数据处理中根据具体问题灵活剔除一些股票; (4)请将在2018年1月1日至2018年12月1日时间段的数据留作为样本外检验,即任何规律的挖掘都不能使用此段时间数据。 论文提交方法:请参赛同学将解决方案及相关附件,展示PPT,队内成员简历在2019年1月3日下午8时之前发Email到邮箱solutions@tzmcm.cn或者如果发送困难也可以发到邮箱75822904@qq.com,邮件主题注明“2018中国大数据年终总决赛参赛论文+参赛编号”。
|