2023年数学建模美赛春季赛Y题
1、问题描述与要求
背景
和许多奢侈品一样,帆船的价值也会随着年龄和市场条件的变化而变化。所附的“2023_MCM_Problem_Y_Boats.xlsx”文件包括2020年12月在欧洲、加勒比地区和美国销售的大约3500艘36至56英尺长的帆船的数据。一位划船爱好者向COMAP提供了这些数据。像大多数真实世界的数据集一样,它可能有缺失的数据或其他问题,需要在分析之前进行一些数据清理。
Excel文件包括两个选项卡,一个用于单体帆船,另一个用于双体船。在每个选项卡中,列被标记为制造、变体、长度(英尺)、地理区域、国家/地区/州、标价(美元)和年份(制造)。
对于给定的制造商、变体和年份,除了提供的Excel文件之外,还有许多其他来源可以提供特定帆船特征的详细描述。您可以选择任何其他数据来补充所提供的数据集;但是,您必须在建模中包含“2023_MCM_Problem_Y_Boats.xlsx”中的数据。确保充分识别并记录所使用的任何补充数据的来源。
要求
帆船经常通过经纪人出售。为了更好地了解帆船市场,中国香港(特区)的一家帆船经纪人委托您的团队准备一份关于二手帆船定价的报告。经纪人希望您:
开发一个数学模型,解释所提供的电子表格中每艘帆船的标价。包括任何你认为有用的预测因素。您可以利用其他来源来了解给定帆船的其他特征(如横梁、吃水、排水量、索具、帆面积、船体材料、发动机小时数、睡眠容量、净空、电子设备等)以及按年份和地区划分的经济数据。识别并描述所使用的所有数据来源。包括对每艘帆船变种价格估计精度的讨论。
用你的模型来解释地区对上市价格的影响(如果有的话)。讨论是否所有帆船变体的区域效应是一致的。说明所注意到的任何区域影响的实际意义和统计意义。
讨论您对给定地理区域的建模如何在香港(SAR)市场中有用。从提供的电子表格中选择一个信息丰富的帆船子集,分为单船体和双体船。在香港(SAR)市场查找该子集的可比上市价格数据。建模香港(SAR)对您的子集中帆船的每艘帆船价格的区域影响(如果有的话)。双体帆船和单体帆船的效果是一样的吗?
确定并讨论您的团队从数据中得出的任何其他有趣且有信息的推论或结论。
为香港(SAR)帆船经纪人准备一至两页的报告。包括一些精心挑选的图表,以帮助经纪人理解你的结论。
不超过25页的PDF解决方案应包括:
一页总结表,清楚地描述你解决问题的方法,以及你在问题的背景下分析得出的最重要的结论。
目录。
你的完整解决方案。
给经纪人一到两页的报告。
参考清单。
注意:
MCM竞赛有25页的限制。您提交的所有内容均计入25页的限制(汇总表、目录、报告、一至两页的经纪人报告、参考清单和任何附录)。你必须为你的观点、数据、图像和在你的报告中使用的任何其他材料引用来源。
术语表
横梁:船最宽处的宽度。
经纪人:作为房产买卖代表为卖方和/或买方提供服务的专家。对于这个问题,房产就是一艘帆船。
双体船:一种多体船,有两个大小相等的平行船体。
排水量:船所排水量的重量。
吃水:使船在不触底的情况下浮起来所需要的最小水深。
发动机小时数:船舶发动机自新船以来运行的小时数。
净空高度:机舱内站立的高度。
船体:船或其他船只的主体或外壳,包括底部、侧面和甲板。
船体材料:制造船体的材料。所用材料包括玻璃纤维、钢铁、木材和复合材料。
Make:船舶制造商的名称。
变体:标识特定船型的名称。
长度(英尺):船的长度,以英尺为单位。
地理区域:船所在的地理区域(加勒比海、欧洲、美国)。
国家/地区/州:船只所在的具体国家/地区/州。
挂牌价格(美元):以美元购买该船的广告价格。
年份:船制造的年份。
2、解题思路和分析结果
针对问题1
思路:该问题主要是预测价格的回归模型预测问题。而且可以使用的预测算法有很多种,例如:多元回归分析、Lasso回归、决策树回归、随机森林回归、GBDT回归、支持习那里感激回归等模型。但是使用这些模型时和结合数据的特点进行分析,并且还需要对原始的数据进行很多的预处理与变换操作,提取更有用的特征,方可建立较准确的回归预测模型。如果能够收集到更多的相关数据集,可以增强预测精度。
所以该问题的解决路径应该为:数据清洗——>数据可视化探索性分析——>数据特征工程(筛选与变换)——>建立回归分析模型——>对结果进行分析。
经过对数据集的相关探索和分析,得出使用随机森林回归预测模型的预测效果较准确。相关数据集的预测效果如下图:
monohulled sailboats价格预测效果
catamarans价格预测效果
针对问题2
思路:该问题主要是要结合问题1的分析结果,进行进一步的分析。分析一些分类变量(例如区域、制造商、年份等)与价格之间的的关系。可以使用定量分析与可视化分析相结合的方式,主要可参考的方法有:方差分析、卡方检验等。经过我对数据的探索和分析,一些可参考的结果如下图:
地区和价格的多重检验结果
不同区域的价格分布情况
针对问题3
思路:该问题属于一个数据相似性对比,然后建立回归模型进行预测的问题。例如:根据收集的而外GDP数据,找到和香港GDP情况相似的地区,然后根据区域找到数据子集,然后对自己进行建模与分析从而作为香港的售价参考模型。如果数据样本较多,可使用聚类分析,将找到的子集划分为更细的子集,对数据进行详细分组和分析。因为最终还是需要建立价格预测模型,所以可以尝试一些回归模型的算法,对数据进行预测,然后作为香港的预测结果。经过我的一些数据真理与分析,一些可参考的结果示例如下所示:
经济数据变化趋势的相似性分析
定价模型的预测值和真实值的对比效果图
针对问题4
思路:讨论您的团队从数据中得出的任何其他有趣且信息丰富的推论或结论。该问题是一个开放性的问题,可以进行一些数据可视化分析等,便于发现数据的关系。并且可以结合前面的结果进行分析。下面真实一些发现的数据规律:
不同地区GDP和价格高低之间的相关性
不同地区下长度和价格之间的关系
查找资料和数据的网站
找数据:
众所周知,国赛需要的数据都会以Excel或其他的形式放入附件中,而美赛与国赛不同的是,这几年的比赛几乎都不给数据,就算是给了参考数据的ICM,其网站也会因为某种原因导致打不开,这里推荐一些数据的查询地址:
美国统计局:
http://www.census.gov/
美国农业部数据:
https://www.usda.gov/topics/data
世界卫生组织数据:
https://www.who.int/data/gho
美国政府网站:
https://www.usa.gov/
美国劳工部劳动统计局:
http://www.bls.gov/
美国商务部:
https://www.commerce.gov/
美国国际贸易协会:
http://www.usitc.gov/
美国交通统计局:
http://www.bts.gov/
美国国家统计局:
http://www.fedstats.gov/
缺数据:
部分情况下,真实数据不易找到,可以尝试以下两个解决办法:
第一,如果这道题并没有限定国家,可以考虑以中国作为研究对象,找自己国家的数据还是相对较为简单。
第二,利用数据挖掘的能力,需要一定的技术手段去收集数据,比如爬虫技术,自己去爬一些可能用得到的内容。或者可以去一些数据科学竞赛平台上去找一些现成可用的数据集,如:
天池大数据数据集:
https://tianchi.aliyun.com/dataset/?spm=5176.12281905.0.0.358b5699IjonJQ
UCI机器学习数据库:
https://archive.ics.uci.edu/ml/index.php