您现在的位置:外汇网 > 外汇随笔 >

程序化交易系统过拟合的原因

2019-11-05 08:17来源:kjc外汇网编辑:kjc人气:


在统计中,过度拟合(英语:过度拟合或过度拟合)是指在调整统计模型时使用过多的参数。与可用的数据总量相比,荒谬的模型模型可以完美地适应数据,只要它很复杂即可。过于笼统可被视为违反Occam剃刀原则。当可选参数的自由度跨越数据中包含的信息内容时,这将导致在最终(适应)模型中使用任意参数,与自适应数据相比,这将减少或破坏模型的泛化。适当与否,不仅取决于参数和数据的数量,还取决于模型结构和数据的一致性。另外,评估中预期的噪声或错误量与模型错误的数量有关。

在建立定量业务模型的过程中,许多人会遇到过度适应问题。过度拟合实际上是机械学习和统计领域的一个概念。通常用来表明模型在测试时非常好,但扎扎实实的业务流程却不如预期的好。

过度拟合对传统机械学习的影响并不明显,但是财务数据的时间序列特性和数据的高噪声特性决定了过度拟合的巨大影响。因此,在建模时我们必须严格避免过度拟合。

过拟合的原因

法国业务系统的设计过程由两个部门组成,这两个部门都存在或会导致过度拟合。

业务系统设计的第一部分是形成完整的业务规则系统。业务规则的形成通常有两种方法:自上而下和自下而上:自上而下的方法是基于对市场的长期检查,总结法律,然后在以下基础上形成定量的业务策略:法律。此过程需要长期的业务经验节省;

自下而上的方法是一种基于市场数据和统计分析以得出市场特征的业务策略。

当业务系统使用数据对业务系统进行回测时,通常有必要根据测试重新训练业务规则以形成新的业务规则。也许可以将这些规则进行组合,以使出现的业务系统易于拟合市场数据。

在定量实施业务系统的过程中,通常使用参数来描述系统。设计人员将通过增加参数数量和优化这些参数来找到最佳的业务系统。

如果参数数量过多或参数被过度优化,则经常会发生市场的过度拟合,并且未来的性能将大大降低。

如何避免过拟合

设计业务系统的目标是在实盘的未来市场中获利,而不是追求优美的测试曲线。过度拟合的业务系统是一个“美丽陷阱”。如何摆脱这个陷阱?我们认为,我们可以从形成业务规则和业务系统开始。

从现代数学到金融市场的数据分析表明,时间价格序列涵盖两个部门:

第一个部门是某个项目,可以找到某些规则;

第二部门是一个随机项目。没有确定性法律。显示某种现象只是概率。

当我们从市场上提取业务规则时,我们需要分析规则的逻辑和规律性。业务规则需要反映市场的规律性并具有一定的合理性。

当业务人员通过各种渠道形成业务规则时,在设计特定业务系统的过程中,您需要注意以下问题:

首先,增加测试数据的样本大小,以避免太少的业务交易。

回测的目的是提供证据,以及通过上述过程确定的策略的证据,无论该策略是否适用于数据(培训)测试数据(注5),都可以盈利。它可以反映未来该策略在“现实世界”中的预期迹象。由于多种原因,回测无法成功。这可能是量化业务最微妙的方面。因为它包含很多偏见,所以我们必须尽力仔细检查并消除它们。我们将讨论几种常见的偏差类型,包括首先查看偏差(注释6),幸存者偏差(注释7)和优化偏差(也称为“数据偷窥偏差”,注释8)。回测的其他几个重要方面包括数据的可用性和整洁度,实际业务成本以及对回测平台的依赖。我们将在后续的“交付系统”部分中深入讨论业务成本。

确定策略后,我们需要获取数据并将其用于测试(如果可能)或改进策略。今天有很多数据出售,所有资产类型都有数据。在工作日中,数据的质量,深度和时间不同,价格也不同。新收购的量化交易者(至少零售等级)最初使用来自Yahoo Finance(YahooFinance)的免费数据。对于数据提供商,这里不再有谣言。我想着重介绍处理数据时经常遇到的问题。

对于年轻人的数据,人们主要关注的是数据的准确性或整洁度,幸存者的偏见以及对公司行为的调整,例如股息分配和股票分割。

准确性与数据的整体质量有关,无论数据是否包含错误。有时错误很容易识别,就像使用窄带滤波器(注9)一样,您可以在时间序列数据中找到“窄带”并进行纠正。在其他时候,很难识别错误,并且经常有必要根据多个数据提供者提供的数据进行比较检查。幸存者偏差是免费数据集或廉价数据集的“特征”。对于具有幸存者偏见的数据集,它不包含不再经营的资产数据。

制造产品外汇的朋友知道,如果通过分类品种进行回溯测试,则无效品种或一年之内的业务就不多了,也就是说,对于几个年份。 100倍进行如此少量的业务是没有意义的,并且很容易造成过度拟合。套利策略头寸的策略很少会更长,并且每年的业务量是几次,这将使其更加可靠。

因此,当我们对策略进行回测时,我们必须增加业务策略的数量。一般来说,业务次数超过300次可以证明该策略是有效的。

第二,在测试期间,测试数据将为样本内和样本外。

该系统用于系统设计中,然后将该系统从样本数据中进行测试,如果效果大大降低,则说明该系统非常适合。

第三,核心参数不应过多。

参数过多的系统是多自由度系统。在优化了多个参数之后,总会得到一个漂亮的系统,但是该系统的可靠性令人怀疑。

第四,当优化业务系统的参数时,我们需要检查最佳参数附近的参数。

如果附近参数系统的性能远不如最佳参数的性能差,则该最佳参数具有或被过度仿真,在数学上称为奇点解,这不是混沌的。如果市场特征发生轻微变化,则最佳参数可能会成为最差的参数。

第五是保证一定的平均利润。

一些策略,经过验证,我们会发现业务交易的数量相对较高,并且表现还不错,但是平均利润太低。只要您获利,一些朋友可能会觉得平均利润很低。但是,除了提防利润外,还必须具有滑点的含义。如果平均利润太低,它将受到滑点的很大影响。不混淆利润的定量商业策略最终将导致不赔钱的策略。

(本文主要讲述:程序化交易系统过拟合的原因,希望你从中受益)

版权与免责声明

  • 凡本网注明"来源:外汇交流-kjc外汇网的所有作品,版权均属于kjc外汇网,转载请必须注明https://www.kjcwh.com/note/1983.html。违反者本网将追究相关法律责任。
  • 本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
  • 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。







外汇书籍

《以交易为生》大纲(以交易为生资金管理方式)

《以交易为生》大纲(以交易为生资金管理方式



返回首页