2022年MCM C题《黄金与比特币的价格预测》案例分析

摘要

数据驱动类问题是学生在参加MCM/ICM竞赛中经常会遇到的一类问题，也是选题占比较大的一类问题。而在美国大学生数学建模竞赛中，此类问题会以何种形式考察学生的数据思维与数据能力，在进行建模的过程中需要注意何种事项，也是备赛过程中的一项重点。 本文以2022年MCM的C题《黄金与比特币的价格预测》为案例，进一步展开对美国大学生数学建模竞赛中数据驱动问题核心要领的探讨。

问题背景

市场交易者频繁买卖波动性资产，目标是最大化他们的总回报。每次买卖通常都会有佣金。两种这样的资产是黄金和比特币。

您需要开发一种模型，该模型仅使用迄今为止的每日价格流来确定交易员每天是否应该购买、持有或出售其资产配置。

【华中科技大学学霸5000字原创】从2022MCM-C看数据驱动问题解法！

Figure1:Gold daily prices, U.S. dollars per troy ounce. Source: London Bullion Market Association, 9/11/2021

【华中科技大学学霸5000字原创】从2022MCM-C看数据驱动问题解法！

Figure2:Bitcoin daily prices, U.S. dollars per bitcoin. Source: NASDAQ, 9/11/2021

从2016年9月11日，您的本金为 1000 美元。

您将使用从 2016 年 9 月 11 日到 2021 年 9 月 10 日的五年交易期数据。
在每个交易日，交易者将拥有一个由现金、黄金和比特币 [C, G, B] 分别以美元、金衡盎司和比特币组成的投资组合。初始状态为 [1000, 0, 0]。每笔交易（购买或销售）的佣金成本为交易金额的 α%。

假设 αgold = 1% 和 αbitcoin = 2%。持有资产没有成本。

请注意，比特币可以每天交易，但黄金仅在开市日交易，定价数据文件 LBMA-GOLD.csv 和 BCHAIN-MKPRU.csv 反映了这一点。你的模型应该考虑到这个交易时间表。要开发您的模型，您只能使用提供的两个电子表格中的数据：LBMA-GOLD.csv 和 BCHAIN-MKPRU.csv。

您需要解决的问题包括：

• 开发一个模型，该模型仅根据截至当天的价格数据提供最佳每日交易策略。使用您的模型和策略，在 2021 年 9 月 10 日，最初的 1000 美元投资价值多少？

• 提供证据证明您的模型提供了最佳策略。

• 确定策略对交易成本的敏感程度。交易成本如何影响策略和结果？

• 在最多两页的备忘录中向交易者传达您的策略、模型和结果。

总页数不超过 25 页的 PDF 解决方案应包括：

• 一页摘要表。

• 目录。

• 您的完整解决方案。

• 一到两页的备忘录。

• 参考文献列表。

注意：MCM 有 25 页的限制。您提交的所有方面都计入 25 页的限制（摘要表、目录、参考列表和任何附录）。您必须引用您的想法、图像和报告中使用的任何其他材料的来源。提供的两个数据文件包含您应该用于此问题的唯一数据。数据附件见电子资源或美赛官网。

1. LBMA-GOLD.csv 2. BCHAIN-MKPRU.csv

数据说明

1. LBMA-GOLD.csv - 日期：mm-dd-yyyy（月-日-年）格式的日期。 - USD (PM)：一金衡盎司黄金在指定日期的美元收盘价。

2. BCHAIN-MKPRU.csv - 日期：mm-dd-yyyy（月-日-年）格式的日期。 - 价值：指定日期单个比特币的美元价格。

建模思路

这个问题我们从以下几个方面思考：

问题一共四问，抛开最后的建议信不谈那就是三个子问题。而问题二是验证问题一结论的正确性，问题三是对问题一结果的灵敏性检验，所以只需要破解问题一即可破解整个问题。问题一是需要我们求解在2021年9月10日的最大收益，这个最大收益怎么求？很显然，这是一个投资组合与时间序列的综合问题，需要基于整个数据进行分析与挖掘。

而幸运的是，问题所涉及的可选资产配置并不多，只有黄金和比特币两种产品。一般的如果碰上了多支股票进行配置那么还需要基于它们的统计特性进行一轮投资选股。对于这种时间序列+投资组合的问题，我们一般把它分解为“预测”+“优化”两步走。

这个地方如果使用动态规划则需要谨慎，因为在这种投资组合问题下使用动态规划是无法预判未来发生的情况的，只有在开启上帝视角的投资问题中才可以使用动态规划，所以就我了解的情况而言，使用动态规划的同学普遍做的比较差。就预测的部分来讲，这是个典型的数据驱动过程。数据驱动的背景之下，命题人想要考察的本质上还是学生对数据的敏感度和处理基本功。

那么对于时间序列数据而言，这种面板数据的重要性要高于常规数据，因为面板数据中每一条样本它是有序的，是分了历史和未来的。你永远不可能用未来信息推历史，因为你根本不会知道未来。而就时间序列的处理方法，仅仅是一个预测，也会有很多的一题多解的策略。那么就方法选择而言，不少同学可能会盲目的使用灰色系统这一新晋之秀，而忽略了这个问题是否满足灰色系统的条件和特征。

时间序列预测的方法需要取决于数据的条目和平稳性，小体量数据可以用回归做长而粗的趋势预测，中体量数据可以用灰色系统做中而稳的趋势预测，大体量数据可以用神经网络或者ARIMA做短而精的精确预测。

这个问题中有五年数据，以日作为频率再考虑休盘也就是将近1600余条数据，体量算中大型数据，可以使用ARIMA系列。而不少同学问这个问题用神经网络可不可以预测呢，其实是可以的，但是神经网络的预测其实实验以后就知道并没有那么好。

就优化的部分来讲，优化模型是基于之前的预测结果进行。比如，如果投资者可以每日调仓（也就是每天都可以改变我的资产配置），那么很显然，模型只需要对明天的价格做预估就可以知道把钱投在谁身上才会赚（或者赶紧套现出来就不会亏很多）。这是短期预测的目的，盈利也就只需要算明天预计价格减去今天的购买价格就可以算出升值了多少。

那么投资的第一个思路有了，就是用预测代替上帝视角；而第二个思路是用什么来预测呢？马科维茨理论给了我们很好的解释：投资无非是两个要点，第一要利润大，第二要风险小，所以在投资之前就要先选择好发展潜力好的产品，投资的时候不要把鸡蛋都放在一个篮子里，套现以后只要赚到了钱就不用过分追责认为自己是不是少赚了钱。

那么这个问题就被抽象为一个多目标优化问题，即：构造风险函数使其最小，同时构造收益函数使其最大，约束条件有三个：

第一，二者配置的权重不能超过100%也就是1000美元；

第二，比特币如果亏损不能亏光投在比特币里面的钱；

第三，黄金如果亏损不能亏光投在黄金里面的钱。条件二和条件三也就保证了即使亏损我不能亏损过本金。

可以这么构造模型：

【华中科技大学学霸5000字原创】从2022MCM-C看数据驱动问题解法！

(1)

D也就是风险，可以用组合投资的方差表示；E为收益，可以用组合投资的数学期望表示。但是注意一个问题，这里我的投资收益是扣除了手续费的，所以计算并不是简单的数学期望，而是：

【华中科技大学学霸5000字原创】从2022MCM-C看数据驱动问题解法！

(2)

D的表达式同样可以写：

【华中科技大学学霸5000字原创】从2022MCM-C看数据驱动问题解法！

(3)

这个问题是一个多目标优化问题，那么解决这种问题完全可以再引入权重系数综合E和D构造新的目标函数求极值。第二问需要验证问题一的策略是否正确可行，其实可以旁敲侧击，用其他的优化方案来证明“ARIMA+马科维兹”的配置是最优即可。关于预测的准确性问题在问题一中已经通过实验可以对比，而关于优化的方案笔者还可以提供两个好的方案：第一个是最大夏普比率，这一方法的思想其实与马科维兹有着异曲同工之妙，但是在对E函数和D函数的综合上使用夏普比率进行融合：

【华中科技大学学霸5000字原创】从2022MCM-C看数据驱动问题解法！

(4)

其中RF是无风险利率，按照美联储标准取0.04即可。第二种是风险平价模型，这一类模型则考察的对象是使得投资后黄金的风险和比特币的风险等价化，模型形如：

【华中科技大学学霸5000字原创】从2022MCM-C看数据驱动问题解法！ (5) （6）

通过对不同模型的比较可以完成灵敏性和正确性的分析。

核心要领

那么根据上面的思考，笔者指出一些问题的核心要领：

第一，就预测的选择上，不应使用没有指数增长特征的GM系列模型，而应该使用ARIMA系列模型或LSTM模型。但笔者对比过机器学习模型、灰色预测模型、自回归和ARIMA等模型的效果，发现在价格预测当中神经网络模型的表现是最差的，机器学习系列次之，ARIMA系列表现最好。反而是没有那么花里胡哨、广受吹捧的模型用到了点子上，这不可不称作一种模型架构的艺术。

第二，在预测的过程中，其实有一定经济学了解或者查过文献的同学可以发现一个现象：比特币与黄金市场二者相互关联，经常是你方唱罢我登场，所以可以用另一方价格作为自变量输入ARIMA系统中作为外部输入。

第三，在计算过程中究竟是每一天调仓还是一周调节一次，因为通常是一周。这个地方因为它确定的是每天的投资策略，所以也就暗含了每天调仓的意思在里面。

第四，在解答过程中一定要注意模型和结果的可视化，用清晰的图表展示出来，但不需要太花哨。

第五，有同学使用马尔可夫模型进行价格预测，是可以的，马尔可夫模型的表现也很不错。这一队来源于我在2022年指导的F奖论文。但就优化模型的情况来看，虽然也有用动态规划拿到M的队伍，但优化过程使用动态规划的同学普遍不太理想，因为它需要上帝视角而问题中不一定会存在这个条件（问题需要趋势外推）。

作答点评

就问题的作答情况来看，选择C题的人是比较多的，但真正说做的特别好很出色的队伍并不多。问题核心还是出现在对模型的偏差认知上，认为“一定要尽量多用机器学习和神经网络”，殊不知，这正触碰了命题人的雷区。广大的学生和教师朋友在准备美赛的过程中一定要纠正一个误区，就是盲目认为“只要蹭了所谓机器学习我的这篇论文无论如何差不到哪里去”，这是一种错误的想法。

在解题过程中一定不能出现“泛机器学习化”的思维.而在解题过程中，2022年的美赛阅卷组似乎并没有像以前一样把美赛搞成一场“美术大赛”，即使是一些质朴的科学作图，没有用PS等高端的广告学技巧，它也是容易成功的。所以美赛从22年的阅卷风格来看，有逐渐回归模型本质而削弱报告书美感权重的这样一个倾向上来。但这并不是说数据可视化不重要，素雅的可视化风格、严谨而务实的科研绘图作风同学们在备赛比赛过程中还是要注意重点体现的。

总结

数据驱动类问题的理论虽然并不一定是参赛者提出，很多情况也是使用前人的理论经验，但就2022美赛C的例子来看，问题逐渐回归了模型本质，考察学生对题目的理解与基本功。是否能够看出问题只有一个，而一个问题又分解为多步，多步可以用哪些方法作为对比，这些都是学生建模能力和底气的体现。该问题体现了“大道至简”的建模思想，是一道很值得探究的问题。

作者简介

马世拓，男，湖北武汉人，曾在华中科技大学数模基地进行数学建模竞赛的教学培训与竞赛指导工作，在2022美赛中指导多名学生获得F奖、M奖，录制有课程《数学建模导论》。

【竞赛报名/项目咨询+微信：mollywei007】