机构:长江证券股份有限公司
作者:郑起
因子挖掘的三种方式
因子挖掘可以分成三种方式:人工挖掘因子,遗传规划挖掘因子,神经网络挖掘因子。前者基于逻辑,后两者基于算力。一方面,我们认为神经网络相比于人工挖掘因子的优势在于批量生成有效且低相关因子。另一方面,相比于遗传规划挖掘因子,神经网络完全牺牲所挖因子的可解释性从而提升因子的有效性上限。虽然目前仍在探索过程中,但是随着深度学习的发展,神经网络挖掘因子将逐步展示其优越性。
TCN 神经网络处理长时间输入序列
TCN(Temporal Convolutional Network)是一种用于处理序列数据的深度学习模型,它通过卷积操作来捕获输入数据中的时间动态信息,其主要优势如下:
1. 并行计算:TCN 可以并行处理输入数据,这使得它在处理长序列数据时,比RNN 具有更高的效率。
2. 捕获长距离依赖:TCN 可以通过使用膨胀卷积(Dilated Convolution)来捕获输入数据中的长距离依赖关系,这使得模型在处理长序列数据时,可以更好地理解数据的全局信息,以及较长时间前的数据信息。
3. 残差链接:它允许网络在前向传播过程中跳过某些层,直接从输入层到输出层。这种连接方式可以帮助网络更好地学习输入数据的特征,从而提高模型的性能。
因子挖掘损失函数:单个因子有效性+合成因子有效性+因子间相关系数直观上来解释,我们希望网络同时考虑每个因子的有效性,合成因子的有效性,以及因子间相关系数三个部分,前两者越高越高,后者越低越好。我们依次剔除了上述损失函数中的某一部分,来观察它对所挖因子的影响。最后发现,忽视任意一部分约束,都将使得所挖因子在该方面有一定的损失,这说明了我们所构建的损失函数的合理性。
股票未来20 日收益率量价因子
最终我们使用TCN 神经网络以股票过去63 日的量价数据作为输入,预测隔天未来20 日收益率,获得了64 个量价因子和1 个等权合成因子。样本外2018 年以来64 个量价因子的平均RankIC 为5.54%,等权合成因子的RankIC 为11.73%,表现优异。在各指数成分股上也有较好的表现。最终构建多头策略,2018 年以来,每年均实现了较高的超额收益,平均年化超额收益为20.31%。
风险提示
1、深度学习模型训练过程中有随机性,可能导致预测结果有误差;2、模型总结的市场规律是基于历史数据的,存在失效风险。
3、日频交易策略回测结果仅供参考,需要考虑实际交易存在的滑点等风险。