基于Random Forest算法的国债利率走势预测模型研究

市场资讯

4天前

考虑到对上述的五个方面而言,部分具有长期影响,部分则偏向短期影响,且典型代表指标的频率也存在差异,本文试图通过嵌套的随机森林模型,分别从低频数据、高频数据两个维度做分类预测分析,并最终形成国债利率走势的综合判定结果。

◇ 作者:金圆统一证券风险管理部 宋铭睿

◇ 本文原载《债券》2026年2月刊

摘   要

近年来,我国国债市场快速发展,交易活跃度显著提升。与此同时,国债利率呈现阶梯式下行趋势,波动率持续加大,促使市场配置盘逐渐转向交易盘,对投资者的交易能力提出了更高要求。为应对这一挑战,本文尝试运用随机森林(Random Forest)算法,构建了涵盖低频与高频指标的综合性预测模型。从测试结果来看,该模型能够有效预测测试集及抽样样本的利率走势。基于相关研究成果,本文进一步提出了国债择时的应用建议,以期为市场参与者提供参考。

关键词

国债利率 预测模型 随机森林 机器学习

无风险利率是金融市场最重要的锚,作为金融资产定价的基础,它通过资金成本、风险偏好等渠道深刻影响各类金融工具的供需及走势。其中,10年期国债利率作为无风险利率的核心代表,目前已经成为衡量经济预期、政策导向和市场情绪的重要风向标。截至2023年末,我国国债余额已超过30万亿元。2024年在强化逆周期调节的背景下,国债发行规模大幅提升至12.40万亿元。与此同时,国债交易的活跃度也显著提高,尤其是长期及超长期国债的换手率明显上升。

然而,伴随宏观经济环境的变化,国债利率总体呈下行趋势,市场波动率显著上升:2024年以来,10年期国债收益率从2.5%快速下降至当前的1.8%左右。一方面,利率下行使得国债的传统配置价值减弱,机构难以通过持有至到期策略获取稳定收益,转而需要通过交易赚取资本利得来弥补收益缺口;另一方面,利率波动的加剧也增加了交易难度,对投资者的预测能力和交易策略提出了更高要求。传统的利率预测方法主要依赖宏观经济指标或动量指标,虽然能够反映部分市场趋势,但缺乏对环境动态变化的系统性跟踪能力,不易捕捉市场中的复杂关系和非线性特征,而这些局限性在高波动、高不确定性的市场环境下愈发凸显。为此,通过机器学习算法构建综合性的国债利率预测模型,整合低频宏观数据和高频市场数据,利用其非线性建模能力和抗过拟合特性,构建更为精准的模型,具有较高的研究及参考价值。

基于随机森林算法的国债利率走势预测建模逻辑

(一)概念及文献综述

国内外研究方面,主要采用因素分析的方法阐述国债利率与宏观因素之间的关系,并逐步探索机器学习模型在国债利率走势预测中的应用。Michael等(2018)综合论述了长期无风险利率的决定因素,包括经济增长、通胀预期、货币政策以及全球储蓄和投资趋势。洪钰、李燕婷等(2023)探索多模型的机器学习策略,利用不同模型在不同经济环境下的优势,提升模型的预测精度。阳光资管(2024)深入研究了未来影响国债利率的主要因素,并结合宏观趋势对长期国债利率走势作出了研判。张超和李鸿禧(2024)深度分析了影响10年期国债收益率的重要经济因素,基于物价类指标形成对利率走势的分析框架。

(二)随机森林算法优势

随机森林(Random Forest,RF)是一种基于集成学习(Ensemble Learning)的机器学习算法,最早由贝尔实验室提出构想,并由Leo Breiman和Adele Cutler等论证及开发出来,它通过构建多棵决策树(Decision Trees)并将它们的预测结果进行集成,从而提高模型的泛化能力和预测精度。随机森林的核心思想是“自助采样”(Bagging)和“随机特征选择”。

决策树(Decision Tree)是随机森林的核心组成部分,它是一种树形结构的机器学习模型,根据在每个节点上选择一个特征进行分裂,常用的特征选择方法包括信息增益(Information Gain)和Gini指数(Gini Index),对分裂的子集递归重复分裂过程直至满足停止条件,并将该节点中的多数类别(分类问题)或平均值(回归问题)作为预测结果,即:

随机森林则通过构建多棵决策树来提高模型的稳定性,在每棵决策树的构建过程中,随机森林引入了随机特征选择的机制。从原始训练集D= {(x1, y1),(x2, y2),…,(xn, yn)}中,通过自助采样(Bootstrap Sampling)生成T个训练子集D1D2,…, DT;对于每一个训练子集Dt,训练一棵决策树htx),并将各棵树的预测结果通过多数投票得到最终预测:

H(x)=mode[h1(x),h2(x),…,hT(x)]与传统分类算法(如逻辑回归)相比,随机森林具有更高的准确率和更强的适应能力,并能捕捉数据中潜在的非线性关系。在众多机器学习算法中,随机森林也在分类预测方面具备一定的优势:相较于决策树模型,随机森林能有效降低过拟合风险,提高模型的泛化能力和预测精度;支持向量机(SVM)在处理高维数据时依赖核函数选择及正则化参数调优,模型的复杂度及稳定度偏低。此外,相较于大多数单一模型,随机森林因其集成性质,对噪声数据和缺失数据具有较高的鲁棒性,从而提升了模型在实际应用中的稳定性和可靠性。

(三)国债利率预测模型框架及指标选取

目前,行业内的利率分析主要采用定性方法,从经济基本面、资金面、政策面、供需面和情绪面等维度进行判断。然而,当这些维度给出的信号相互矛盾时,难以确定主导因素,从而影响决策的准确性。考虑到对上述的五个方面而言,部分具有长期影响,部分则偏向短期影响,且典型代表指标的频率也存在差异,本文试图通过嵌套的随机森林模型,分别从低频数据、高频数据两个维度做分类预测分析,并最终形成国债利率走势的综合判定结果。

具体而言,鉴于基本面和政策面对利率的长期影响更为显著,且这些指标通常对应低频数据,模型首先从低频数据出发,捕捉大趋势。在此基础上,进一步引入高频训练数据,以反映市场的即时动量,从而提升预测的精确性。通过这种分层分析方法,模型能够在不同时间尺度上综合考量各类指标的影响,为国债利率预测提供更为全面和动态的视角。

1.低频指标模型

国债利率的基础决定因素主要是经济基本面和政策面的表现及变化:经济基本面通过经济增长、通胀水平、就业状况等宏观变量,直接影响市场对利率的预期;而政策面则通过央行的货币政策取向、财政政策调整等手段,间接引导利率的走向。这些因素通过资金供需关系、资金的使用价格以及风险偏好等变化,逐步传导给利率,形成利率的中长期趋势。

低频指标往往是经过一段时间的统计、计算及抽样分析得出的数据,包括反映经济基本面的国内生产总值(GDP)、居民消费价格指数(CPI)、失业率、工业生产者出厂价格指数(PPI)等,反映金融市场活跃度的狭义货币供应量(M1)、广义货币供应量(M2)、国债发行规模等,这些指标具有较高的信息密度和决策价值,也是政策制定者、市场交易者最为看重的信号。另外,除了低频指标的实际表现情况,与市场预期的偏离1也是重要的关注指标,当实际指标超出市场预期时,可能意味着基本面的反转或修复等。

2.高频指标模型

国债利率的短期走势,主要源于市场交易行为产生,极易受到资金宽裕度、市场情绪以及其他突发事件的影响。高频指标在利率分析中具有重要作用,也是国债投资择时的核心参考因素,业内主要通过逻辑回归、相关性分析等统计方法捕捉有效的高频指标,这些指标对市场变化表现出极强的敏感性。

例如,反映银行间市场资金充裕度的存款类金融机构质押式回购利率(7天期)(DR007)利率,作为短期资金价格和数量的晴雨表,对国债收益率产生直接冲击;股票市场的价格表现往往与债市呈现“跷跷板效应”,当股市表现强劲时,资金可能从债市流向股市,导致债券收益率上行,反之亦然。此外,国债利率本身相较于重要利率、政策利率的偏离也是高频关注的焦点,以中期借贷便利(MLF)利率为例,其本身为低频变量,反映央行中长期政策取向,但从高频监测来看:2017年12月至2024年3月11日,10年期国债到期收益率在83%的时间处于MLF±30个基点(BP)这一利率走廊范围内,同时一旦国债利率偏离MLF的上下限,3个月内出现反弹的概率为90.42%(超涨:12次继续上行/288次反弹;超跌:26次继续下行/71次反弹)(见图1)。

3.综合预测模型

为了更准确地实现国债利率走势的分类预测,本文在分别构建低频模型和高频模型的基础上,提出了一种混合建模思路。具体而言,首先利用低频模型对利率的中长期趋势进行预测,并将其预测成果作为一个重要特征,重新纳入高频指标训练集中,进一步通过随机森林算法对低频预测成果与高频指标进行整合,构建综合预测模型,从而在兼顾长期趋势与短期波动的基础上,提升利率预测的全面性和准确性。

在构建综合预测模型时,我们假设低频指标对利率走势具有显著的方向性引导作用。在这一过程中,低频模型的预测精度至关重要,它需要具备较强的中长期预测能力;同时,在综合模型中,低频模型的预测结果应被赋予较高的权重,以避免高频指标的短期波动对模型产生过度干扰,导致综合模型失去对中长期趋势的敏感性。

模型指标体系的构建

(一)低频及高频指标模型

1.指标的选取及处理

本文基于万得(Wind)、东财Choice等平台,充分获取了可能对国债利率产生影响的经济数据、金融数据、利率数据以及市场预测数据等。响应变量方面,采用10年期国债到期收益率在不同时间节点的一定时间后(1日、5日、30日)的涨跌走势。解释变量方面,则主要基于有关文献、专家研究获取的重要信号指标,为了防止随机森林训练中出现过度拟合、决策树深度过大的问题,在选取解释变量前通过logistic回归、朴素贝叶斯分类等方式筛选出相关性及区分度较高的特征指标,用于后续的建模。

根据指标数据的更新频率,区分低频变量组和高频变量组,并通过代码程序进行标准化处理,其中,低频变量统一以月为频率,季度类数据进行月度化插值或沿用,另外对于高波动性的指标进行移动平均处理;高频变量则以工作日为频率,原则上保留高波动性指标,以更好反映高频变量的敏感性特征。具体指标信息见表1。

2.随机森林模型搭建

本文选取了2009年11月30日至2025年2月28日的样本作为低频模型建模数据,2016年1月18日至2025年3月14日的样本作为高频模型建模数据,剔除数据不全的样本后,按照7∶3的比例分割为训练集D_train和测试集D_test。如图2所示,通过Python构建随机森林算法程序,并设定决策树的数目(n_estimators)为100和最大深度(max_depth)为5,输入相应变量形成预测模型。需要说明的是,为了有效体现出低频数据的趋势性影响解释水平,低频模型仅将10年期国债到期收益率30日(1个月)后的涨跌作为响应变量。

3. 实证检验及结果对比分析

为了更好地验证预测模型的效果,本文进一步采用测试集进行分类预测,通过量化指标与实际结果进行比对评价,相关评价指标如表2所示。从几个模型的测试集表现来看,无论是低频数据组还是高频数据组,均对30日后国债收益率的走势有较高的预测精准度;而对1日/ 5日后的国债涨跌预测精准度则明显不如前者,也说明极短时间周期内,国债利率走势呈现较高随机性,预测的难度明显加大。

(三)综合预测模型构建

1.指标选择及模型构建

从前文的检测分析情况来看,虽然高频指标对国债走势的预测精准度更高,但考虑到低频类指标普遍在行业内具有一定共识,更能反映长期利率趋势,仅依赖高频指标可能过度拟合短期噪声,导致长期经济解释力不足。另外,低频RF模型对30日后国债利率的预测也体现出较高的准确性,因此进一步建立涵盖高频及低频指标的综合模型具有很高的实践价值。

具体做法上,为体现模型的层次性,本文通过将低频模型预测结果及概率引入高频变量集2,重新通过随机森林算法训练分析模型,并对测试集的预测效果进行分析(见表3),绘制受试者操作特征曲线(ROC)(见图3),从综合模型的测试表现来看,预测能力明显强于子模型。

从模型解释变量的随机森林特征重要性分布(见表4)来看,低频预测结果(概率)及低频预测结果(判定)合计贡献了39.162%的重要性,其他部分由高频指标贡献。

其中,个别指标的特征重要性偏低(如“国债期货隐含升贴水-判定”仅为0.0056),但并不意味着这些变量对预测没有贡献:随机森林算法通过构建多棵决策树进行集体决策,每个决策树仅使用部分样本进行训练,部分指标的特征重要性较低但未产生负值,表明仍有一定的预测价值。因此,为确保综合RF模型能够充分利用所有数据特征,本文保留了这些训练变量指标。

2.抽样样本测试及债券择时应用

前文采用测试集D_test切分的方式对模型进行验证,在此基础上为了更好地评估分类器在整个数据集的预测性能,本文进一步通过系统程序对模型进行五折交叉验证,其ROC曲线下的面积(AUC)均值为0.8769,总体显示出较强的预测能力。在债券择时的实践运用中,可以综合随机森林的分类预测结果及预测概率进行分析。例如,基于本文综合预测模型对国债期货设定择时策略,仅选取模型对涨跌方向预测概率超过60%时点进行交易,通过对2016年2月以来择时性模拟交易的回测结果(见表5)来看,做空及做多交易均保持了较高的胜率(平均92.73%)。

结论及应用建议

本文通过有效整合低频市场指标和高频宏观经济指标,借助随机森林算法构建了国债利率走势的预测模型,利用机器学习捕捉相关指标的关键特征,以提升预测的精准度。模型通过构建多个决策树,充分发挥低频数据的方向性引导作用,集体投票产生国债走势预测结果及概率分布,并在有效性测试中表现良好。基于模型训练和应用实践,笔者提出以下建议。

一是随机森林算法虽具有较强的泛化能力和鲁棒性,但在噪声过大的分类预测方面仍存在过度拟合的问题,对于极短期的国债利率走势预测仍需要综合考虑动量类因素对模型进行优化,以更好反映观测序列中的自相关效应。

二是应强化模型及投资策略的更新管理。随着国内金融改革的不断深化,模型的重要特征也会随之变化。例如,2024年7月后贷款市场报价利率(LPR)报价的定价基础与MLF利率弱化关联,“换锚”至7天期逆回购操作利率,更加强调市场对各类利率的调节,预计后续模型将逐步反映这些特征重要性变化。

三是引入更多的跨市场指标或高频捕捉指标,以增强模型的预测能力和适应性。一方面拓宽模型的输入维度,考虑纳入国际市场的利率变化、汇率波动、大宗商品价格等全球宏观经济指标,以及国内政策变化、市场情绪指数等非传统数据源;另一方面,针对目前理财规模、债基份额、银行超储率等指标披露偏慢的问题,可通过引入高频数据来弥补,如每日债券市场成交量、各类机构多空头寸、回购利率、同业存单发行利率等,间接反映市场流动性及资金供需状况的变化。

注:

1.本文采用的市场预期数据来自Wind资讯、东财Choice统计。

2.以工作日为基础频率,采用当日所能获取的最新低频模型预测结果。

参考文献

[1]洪钰,李燕婷,万淑珊,等.债券投资新探索:基于机器学习的利率择时策略实践[J].人工智能,2023(2).

[2]阳光资产管理公司课题组.我国利率影响因素与长期变动趋势探讨[J]. 保险理论与实践,2024(4). 

[3]张超,李鸿禧.从物价因素看10年期国债收益率走势[J].债券,2024(9).DOI:10.3969/j.issn.2095-3585.2024.09.008.

[4] MICHAEL D.BAUER, GLENN D.RUDEBUSCH. The determinants of long-term interest rates: a survey of the empirical literature[R/OL]. San Francisco: Federal Reserve Bank of San Francisco, 2018. 

责任编辑:赵思远

考虑到对上述的五个方面而言,部分具有长期影响,部分则偏向短期影响,且典型代表指标的频率也存在差异,本文试图通过嵌套的随机森林模型,分别从低频数据、高频数据两个维度做分类预测分析,并最终形成国债利率走势的综合判定结果。

◇ 作者:金圆统一证券风险管理部 宋铭睿

◇ 本文原载《债券》2026年2月刊

摘   要

近年来,我国国债市场快速发展,交易活跃度显著提升。与此同时,国债利率呈现阶梯式下行趋势,波动率持续加大,促使市场配置盘逐渐转向交易盘,对投资者的交易能力提出了更高要求。为应对这一挑战,本文尝试运用随机森林(Random Forest)算法,构建了涵盖低频与高频指标的综合性预测模型。从测试结果来看,该模型能够有效预测测试集及抽样样本的利率走势。基于相关研究成果,本文进一步提出了国债择时的应用建议,以期为市场参与者提供参考。

关键词

国债利率 预测模型 随机森林 机器学习

无风险利率是金融市场最重要的锚,作为金融资产定价的基础,它通过资金成本、风险偏好等渠道深刻影响各类金融工具的供需及走势。其中,10年期国债利率作为无风险利率的核心代表,目前已经成为衡量经济预期、政策导向和市场情绪的重要风向标。截至2023年末,我国国债余额已超过30万亿元。2024年在强化逆周期调节的背景下,国债发行规模大幅提升至12.40万亿元。与此同时,国债交易的活跃度也显著提高,尤其是长期及超长期国债的换手率明显上升。

然而,伴随宏观经济环境的变化,国债利率总体呈下行趋势,市场波动率显著上升:2024年以来,10年期国债收益率从2.5%快速下降至当前的1.8%左右。一方面,利率下行使得国债的传统配置价值减弱,机构难以通过持有至到期策略获取稳定收益,转而需要通过交易赚取资本利得来弥补收益缺口;另一方面,利率波动的加剧也增加了交易难度,对投资者的预测能力和交易策略提出了更高要求。传统的利率预测方法主要依赖宏观经济指标或动量指标,虽然能够反映部分市场趋势,但缺乏对环境动态变化的系统性跟踪能力,不易捕捉市场中的复杂关系和非线性特征,而这些局限性在高波动、高不确定性的市场环境下愈发凸显。为此,通过机器学习算法构建综合性的国债利率预测模型,整合低频宏观数据和高频市场数据,利用其非线性建模能力和抗过拟合特性,构建更为精准的模型,具有较高的研究及参考价值。

基于随机森林算法的国债利率走势预测建模逻辑

(一)概念及文献综述

国内外研究方面,主要采用因素分析的方法阐述国债利率与宏观因素之间的关系,并逐步探索机器学习模型在国债利率走势预测中的应用。Michael等(2018)综合论述了长期无风险利率的决定因素,包括经济增长、通胀预期、货币政策以及全球储蓄和投资趋势。洪钰、李燕婷等(2023)探索多模型的机器学习策略,利用不同模型在不同经济环境下的优势,提升模型的预测精度。阳光资管(2024)深入研究了未来影响国债利率的主要因素,并结合宏观趋势对长期国债利率走势作出了研判。张超和李鸿禧(2024)深度分析了影响10年期国债收益率的重要经济因素,基于物价类指标形成对利率走势的分析框架。

(二)随机森林算法优势

随机森林(Random Forest,RF)是一种基于集成学习(Ensemble Learning)的机器学习算法,最早由贝尔实验室提出构想,并由Leo Breiman和Adele Cutler等论证及开发出来,它通过构建多棵决策树(Decision Trees)并将它们的预测结果进行集成,从而提高模型的泛化能力和预测精度。随机森林的核心思想是“自助采样”(Bagging)和“随机特征选择”。

决策树(Decision Tree)是随机森林的核心组成部分,它是一种树形结构的机器学习模型,根据在每个节点上选择一个特征进行分裂,常用的特征选择方法包括信息增益(Information Gain)和Gini指数(Gini Index),对分裂的子集递归重复分裂过程直至满足停止条件,并将该节点中的多数类别(分类问题)或平均值(回归问题)作为预测结果,即:

随机森林则通过构建多棵决策树来提高模型的稳定性,在每棵决策树的构建过程中,随机森林引入了随机特征选择的机制。从原始训练集D= {(x1, y1),(x2, y2),…,(xn, yn)}中,通过自助采样(Bootstrap Sampling)生成T个训练子集D1D2,…, DT;对于每一个训练子集Dt,训练一棵决策树htx),并将各棵树的预测结果通过多数投票得到最终预测:

H(x)=mode[h1(x),h2(x),…,hT(x)]与传统分类算法(如逻辑回归)相比,随机森林具有更高的准确率和更强的适应能力,并能捕捉数据中潜在的非线性关系。在众多机器学习算法中,随机森林也在分类预测方面具备一定的优势:相较于决策树模型,随机森林能有效降低过拟合风险,提高模型的泛化能力和预测精度;支持向量机(SVM)在处理高维数据时依赖核函数选择及正则化参数调优,模型的复杂度及稳定度偏低。此外,相较于大多数单一模型,随机森林因其集成性质,对噪声数据和缺失数据具有较高的鲁棒性,从而提升了模型在实际应用中的稳定性和可靠性。

(三)国债利率预测模型框架及指标选取

目前,行业内的利率分析主要采用定性方法,从经济基本面、资金面、政策面、供需面和情绪面等维度进行判断。然而,当这些维度给出的信号相互矛盾时,难以确定主导因素,从而影响决策的准确性。考虑到对上述的五个方面而言,部分具有长期影响,部分则偏向短期影响,且典型代表指标的频率也存在差异,本文试图通过嵌套的随机森林模型,分别从低频数据、高频数据两个维度做分类预测分析,并最终形成国债利率走势的综合判定结果。

具体而言,鉴于基本面和政策面对利率的长期影响更为显著,且这些指标通常对应低频数据,模型首先从低频数据出发,捕捉大趋势。在此基础上,进一步引入高频训练数据,以反映市场的即时动量,从而提升预测的精确性。通过这种分层分析方法,模型能够在不同时间尺度上综合考量各类指标的影响,为国债利率预测提供更为全面和动态的视角。

1.低频指标模型

国债利率的基础决定因素主要是经济基本面和政策面的表现及变化:经济基本面通过经济增长、通胀水平、就业状况等宏观变量,直接影响市场对利率的预期;而政策面则通过央行的货币政策取向、财政政策调整等手段,间接引导利率的走向。这些因素通过资金供需关系、资金的使用价格以及风险偏好等变化,逐步传导给利率,形成利率的中长期趋势。

低频指标往往是经过一段时间的统计、计算及抽样分析得出的数据,包括反映经济基本面的国内生产总值(GDP)、居民消费价格指数(CPI)、失业率、工业生产者出厂价格指数(PPI)等,反映金融市场活跃度的狭义货币供应量(M1)、广义货币供应量(M2)、国债发行规模等,这些指标具有较高的信息密度和决策价值,也是政策制定者、市场交易者最为看重的信号。另外,除了低频指标的实际表现情况,与市场预期的偏离1也是重要的关注指标,当实际指标超出市场预期时,可能意味着基本面的反转或修复等。

2.高频指标模型

国债利率的短期走势,主要源于市场交易行为产生,极易受到资金宽裕度、市场情绪以及其他突发事件的影响。高频指标在利率分析中具有重要作用,也是国债投资择时的核心参考因素,业内主要通过逻辑回归、相关性分析等统计方法捕捉有效的高频指标,这些指标对市场变化表现出极强的敏感性。

例如,反映银行间市场资金充裕度的存款类金融机构质押式回购利率(7天期)(DR007)利率,作为短期资金价格和数量的晴雨表,对国债收益率产生直接冲击;股票市场的价格表现往往与债市呈现“跷跷板效应”,当股市表现强劲时,资金可能从债市流向股市,导致债券收益率上行,反之亦然。此外,国债利率本身相较于重要利率、政策利率的偏离也是高频关注的焦点,以中期借贷便利(MLF)利率为例,其本身为低频变量,反映央行中长期政策取向,但从高频监测来看:2017年12月至2024年3月11日,10年期国债到期收益率在83%的时间处于MLF±30个基点(BP)这一利率走廊范围内,同时一旦国债利率偏离MLF的上下限,3个月内出现反弹的概率为90.42%(超涨:12次继续上行/288次反弹;超跌:26次继续下行/71次反弹)(见图1)。

3.综合预测模型

为了更准确地实现国债利率走势的分类预测,本文在分别构建低频模型和高频模型的基础上,提出了一种混合建模思路。具体而言,首先利用低频模型对利率的中长期趋势进行预测,并将其预测成果作为一个重要特征,重新纳入高频指标训练集中,进一步通过随机森林算法对低频预测成果与高频指标进行整合,构建综合预测模型,从而在兼顾长期趋势与短期波动的基础上,提升利率预测的全面性和准确性。

在构建综合预测模型时,我们假设低频指标对利率走势具有显著的方向性引导作用。在这一过程中,低频模型的预测精度至关重要,它需要具备较强的中长期预测能力;同时,在综合模型中,低频模型的预测结果应被赋予较高的权重,以避免高频指标的短期波动对模型产生过度干扰,导致综合模型失去对中长期趋势的敏感性。

模型指标体系的构建

(一)低频及高频指标模型

1.指标的选取及处理

本文基于万得(Wind)、东财Choice等平台,充分获取了可能对国债利率产生影响的经济数据、金融数据、利率数据以及市场预测数据等。响应变量方面,采用10年期国债到期收益率在不同时间节点的一定时间后(1日、5日、30日)的涨跌走势。解释变量方面,则主要基于有关文献、专家研究获取的重要信号指标,为了防止随机森林训练中出现过度拟合、决策树深度过大的问题,在选取解释变量前通过logistic回归、朴素贝叶斯分类等方式筛选出相关性及区分度较高的特征指标,用于后续的建模。

根据指标数据的更新频率,区分低频变量组和高频变量组,并通过代码程序进行标准化处理,其中,低频变量统一以月为频率,季度类数据进行月度化插值或沿用,另外对于高波动性的指标进行移动平均处理;高频变量则以工作日为频率,原则上保留高波动性指标,以更好反映高频变量的敏感性特征。具体指标信息见表1。

2.随机森林模型搭建

本文选取了2009年11月30日至2025年2月28日的样本作为低频模型建模数据,2016年1月18日至2025年3月14日的样本作为高频模型建模数据,剔除数据不全的样本后,按照7∶3的比例分割为训练集D_train和测试集D_test。如图2所示,通过Python构建随机森林算法程序,并设定决策树的数目(n_estimators)为100和最大深度(max_depth)为5,输入相应变量形成预测模型。需要说明的是,为了有效体现出低频数据的趋势性影响解释水平,低频模型仅将10年期国债到期收益率30日(1个月)后的涨跌作为响应变量。

3. 实证检验及结果对比分析

为了更好地验证预测模型的效果,本文进一步采用测试集进行分类预测,通过量化指标与实际结果进行比对评价,相关评价指标如表2所示。从几个模型的测试集表现来看,无论是低频数据组还是高频数据组,均对30日后国债收益率的走势有较高的预测精准度;而对1日/ 5日后的国债涨跌预测精准度则明显不如前者,也说明极短时间周期内,国债利率走势呈现较高随机性,预测的难度明显加大。

(三)综合预测模型构建

1.指标选择及模型构建

从前文的检测分析情况来看,虽然高频指标对国债走势的预测精准度更高,但考虑到低频类指标普遍在行业内具有一定共识,更能反映长期利率趋势,仅依赖高频指标可能过度拟合短期噪声,导致长期经济解释力不足。另外,低频RF模型对30日后国债利率的预测也体现出较高的准确性,因此进一步建立涵盖高频及低频指标的综合模型具有很高的实践价值。

具体做法上,为体现模型的层次性,本文通过将低频模型预测结果及概率引入高频变量集2,重新通过随机森林算法训练分析模型,并对测试集的预测效果进行分析(见表3),绘制受试者操作特征曲线(ROC)(见图3),从综合模型的测试表现来看,预测能力明显强于子模型。

从模型解释变量的随机森林特征重要性分布(见表4)来看,低频预测结果(概率)及低频预测结果(判定)合计贡献了39.162%的重要性,其他部分由高频指标贡献。

其中,个别指标的特征重要性偏低(如“国债期货隐含升贴水-判定”仅为0.0056),但并不意味着这些变量对预测没有贡献:随机森林算法通过构建多棵决策树进行集体决策,每个决策树仅使用部分样本进行训练,部分指标的特征重要性较低但未产生负值,表明仍有一定的预测价值。因此,为确保综合RF模型能够充分利用所有数据特征,本文保留了这些训练变量指标。

2.抽样样本测试及债券择时应用

前文采用测试集D_test切分的方式对模型进行验证,在此基础上为了更好地评估分类器在整个数据集的预测性能,本文进一步通过系统程序对模型进行五折交叉验证,其ROC曲线下的面积(AUC)均值为0.8769,总体显示出较强的预测能力。在债券择时的实践运用中,可以综合随机森林的分类预测结果及预测概率进行分析。例如,基于本文综合预测模型对国债期货设定择时策略,仅选取模型对涨跌方向预测概率超过60%时点进行交易,通过对2016年2月以来择时性模拟交易的回测结果(见表5)来看,做空及做多交易均保持了较高的胜率(平均92.73%)。

结论及应用建议

本文通过有效整合低频市场指标和高频宏观经济指标,借助随机森林算法构建了国债利率走势的预测模型,利用机器学习捕捉相关指标的关键特征,以提升预测的精准度。模型通过构建多个决策树,充分发挥低频数据的方向性引导作用,集体投票产生国债走势预测结果及概率分布,并在有效性测试中表现良好。基于模型训练和应用实践,笔者提出以下建议。

一是随机森林算法虽具有较强的泛化能力和鲁棒性,但在噪声过大的分类预测方面仍存在过度拟合的问题,对于极短期的国债利率走势预测仍需要综合考虑动量类因素对模型进行优化,以更好反映观测序列中的自相关效应。

二是应强化模型及投资策略的更新管理。随着国内金融改革的不断深化,模型的重要特征也会随之变化。例如,2024年7月后贷款市场报价利率(LPR)报价的定价基础与MLF利率弱化关联,“换锚”至7天期逆回购操作利率,更加强调市场对各类利率的调节,预计后续模型将逐步反映这些特征重要性变化。

三是引入更多的跨市场指标或高频捕捉指标,以增强模型的预测能力和适应性。一方面拓宽模型的输入维度,考虑纳入国际市场的利率变化、汇率波动、大宗商品价格等全球宏观经济指标,以及国内政策变化、市场情绪指数等非传统数据源;另一方面,针对目前理财规模、债基份额、银行超储率等指标披露偏慢的问题,可通过引入高频数据来弥补,如每日债券市场成交量、各类机构多空头寸、回购利率、同业存单发行利率等,间接反映市场流动性及资金供需状况的变化。

注:

1.本文采用的市场预期数据来自Wind资讯、东财Choice统计。

2.以工作日为基础频率,采用当日所能获取的最新低频模型预测结果。

参考文献

[1]洪钰,李燕婷,万淑珊,等.债券投资新探索:基于机器学习的利率择时策略实践[J].人工智能,2023(2).

[2]阳光资产管理公司课题组.我国利率影响因素与长期变动趋势探讨[J]. 保险理论与实践,2024(4). 

[3]张超,李鸿禧.从物价因素看10年期国债收益率走势[J].债券,2024(9).DOI:10.3969/j.issn.2095-3585.2024.09.008.

[4] MICHAEL D.BAUER, GLENN D.RUDEBUSCH. The determinants of long-term interest rates: a survey of the empirical literature[R/OL]. San Francisco: Federal Reserve Bank of San Francisco, 2018. 

责任编辑:赵思远

展开
打开“财经头条”阅读更多精彩资讯
APP内打开