2023美国大学生数学建模竞赛C题——预测Wordle结果
背景
Wordle是由《纽约时报》每天推出的一种受欢迎的益智游戏。玩家们需要在六次或更少的猜测中猜出一个由五个字母组成的单词,并在每次猜测后得到反馈。在这个版本中,每个猜测必须是英语中的一个实际单词。比赛中不被认可为单词的猜测是不允许的。Wordle在人们中不断增长的流行度中,现在有60多种语言的游戏版本可供选择。
《纽约时报》网站上关于Wordle的说明指出,在提交单词后,瓷砖的颜色会发生变化。黄色的瓷砖表示该瓷砖中的字母在单词中,但位置不正确。绿色的瓷砖表示该瓷砖中的字母在单词中,位置正确。灰色的瓷砖表示该瓷砖中的字母根本不包含在单词中(见附件2)。图1是一个示例解决方案,其中在三次尝试中找到了正确答案。
玩家可以在常规模式或“困难模式”下玩。Wordle的困难模式通过要求一旦玩家在单词中找到正确的字母(瓷砖为黄色或绿色),就必须在随后的猜测中使用这些字母来使游戏更加困难。图1中的示例是在困难模式下玩的。
许多(但并非所有)用户会在Twitter上报告他们的得分。对于这个问题,MCM已经生成了一个文件,记录了2022年1月7日至2022年12月31日的每日结果(见附件1)。该文件包括日期、比赛编号、当天的单词、当天报告得分的人数、在困难模式下的玩家人数,以及猜出单词的百分比,包括一次、两次、三次、四次、五次、六次或无法解决的谜题(表示为X)。例如,图2中的单词是“TRITE”,日期是2022年7月20日,结果是通过在Twitter上收集得到的。尽管图2中的百分比总和为100%,但在某些情况下,由于四舍五入,这可能不是真实的。
要求
纽约时报要求您对该文件中的结果进行分析,以回答几个问题。
问题1:
报告的结果数量每天都有所不同。开发一个模型来解释这种变化,并使用您的模型创建一个关于2023年3月1日报告结果数量的预测区间。是否有单词的属性会影响报告的得分中在困难模式下玩的比例?如果有,是怎样的?如果没有,为什么?
问题2:
对于未来日期的给定解决方案单词,开发一个模型,使您可以预测报告结果的分布。换句话说,预测未来日期的相关百分比(1、2、3、4、5、6、X)的分布。您的模型和预测有哪些不确定性?请举一个关于2023年3月1日单词EERIE的预测的具体例子。您对您模型的预测有多自信?
问题3:
开发并总结一个模型,通过难度分类解决方案单词。确定与每个分类相关联的给定单词的属性。使用您的模型,单词EERIE有多难?讨论您的分类模型的准确性。
问题4:
列出并描述该数据集的其他有趣特征。
最后,用一页至两页的信函,对纽约时报的谜题编辑总结您的结果。
您的PDF解决方案总页数不超过25页,其中包括:
▲一页摘要。
▲目录表。
▲您的完整解决方案。
▲一页至两页的信函。
▲参考文献列表。
*注意:MCM竞赛有25页的限制。您的所有提交内容都计入25页限制(总结表、目录表、报告、参考文献列表以及任何附录)。您必须引用您报告中使用的想法、图片和其他材料的来源。
术语表
纽约时报:一份总部位于美国纽约市的日报,以印刷和在线出版为主。Twitter:一种社交网络网站,允许用户发布不超过 280 个字符的短消息(最初是 140 个字符)。解决(Wordle 拼图):按正确的顺序输入正确的字母以形成当天的 Wordle 单词。
参考资料
注:我们提供以下引文以支持问题陈述。我们从这些资源中提取了重要的想法。这些网站上没有解决MCM问题所需的其他信息。解决这个 MCM 问题不需要访问纽约时报或 Twitter 网站。
[1] Wordle logo from The New York Times website. Accessed on December 13, 2022 at https://nytco-assets.nytimes.com/2022/08/cropped-Screen-Shot-2022-08-24-at-8.49.39-AM.png.
[2] “Wordle-The New York Times.” The New York Times, 2022. Accessed December 13, 2022 at https://www.nytimes.com/games/wordle/index.html.
[3] “Wordle-The New York Times.” The New York Times, July 21, 2022.
[4] “Wordle Stats.” Twitter, July 20, 2022.
解题思路和分析
问题1
思路:
该问题主要是预测一个序列的变化趋势,而且该数据的变化趋势是统计的每天的数据,所以可认为是一个时间序列。
数据的波动如下:
待预测数据的波动情况
分析该数据的随时间的变化趋势,可以发现是先上升、然后在下降的趋势,比较符合一个热点产生后,迅速得到关注,然后在逐渐降低热度,最后关注度保持稳定的情况。
针对该数据中末尾的最低点如何处理:该点可能是正确的数据(也可能是错误的,比如:录入错误)。所以可以做处理,也可以不错处理。处理方法,最简单的方法是使用最低点前后N(n=1,2,...)个数值的均值进性改进。
针对序列的预测方法:
(1)时间序列累预测方法:建议忽略到前半段,对下降的趋势进行时间序列建模与分析(也可用群不数据),可能效果较好。模型可以是:ARIMA、prophet等预测算法,prophet效果会好于ARIMA。
prophet算法预测
(2)考虑非线性回归方程:可以使用全部的数据建立,也可以使用数据下降趋势的后半段。
非线性回归方程
对于分析词的任何属性是否会影响报告的在困难模式下播放的分数的百分比的情况。主要的检验方法就是单因素方差分析,而且也要对词语一行清洗与与处理的改正操作。
问题2
目的1:
预测未来日期 (1, 2, 3, 4, 5, 6, X) 的相关百分比。
目的2:
对2023年3月1日EERIE这个词进行预测。
该问题是一个典型的有监督的数据回归问题,可以使用的方法有很多,而且针对数据的情况,可以先对数据进行特征工程,可以使用的特征例如:时间信息、每个位置的字母信息、词的属性信息等。可使用的预测算法也很多,例如:决策树、随机森林、GBDT、SVM、神经网络等。经过我的验证,使用随机森林或者GBDT的预测效果较好。
在数据与处理操作阶段,可以剔除一个累计正确率较离谱的样本,入下面的图所示:
累计正确率
对2023年3月1日EERIE这个词,一个可以参考的预测结果为:
(1, 2, 3, 4, 5, 6, X) 的相关百分比预测值分别为 (1, 5, 17, 32, 27, 12, 3)
问题3
目的1:
按难度对解决方案单词进行分类,并且根据单词的相关特征,为分类结果进行定级。
目的2:
对2023年3月1日EERIE这个词进行预测。
该问题属于一个无监督的聚类问题。而且针对该问题进行聚类是,使用的特征很关键。可以使用(1, 2, 3, 4, 5, 6, X) 的相关百分比作为特征建立聚类模型,而且聚类的算法有很多,例如:K均值、K中值、模糊聚类、系统聚类等。而且聚类的数量也有讲究。经过我的详细研究,聚类为3类,可能效果跟好一些。
聚了i结果可视化
聚类模型确定好后,对EERIE这个词进行预测即可。
问题4
该问题是一个开放性的问题,可以进行一些数据可视化分析等,便于发现数据的关系。并且可以结合前面三问的到的结果进行分析。例如:使用关联规则,可以发现单词中有哪些字母的情况下,属于哪个难度类别等。
发现的一些规则
查找资料和数据的网站推荐
美国统计局:
http://www.census.gov/
美国农业部数据:
https://www.usda.gov/topics/data
世界卫生组织数据:
https://www.who.int/data/gho
美国政府网站:
https://www.usa.gov/
美国劳工部劳动统计局:
http://www.bls.gov/
美国商务部:
https://www.commerce.gov/
美国国际贸易协会:
http://www.usitc.gov/
美国交通统计局:
http://www.bts.gov/
美国国家统计局:
http://www.fedstats.gov/
查找资料和数据的网站推荐
美国统计局:
http://www.census.gov/
美国农业部数据:
https://www.usda.gov/topics/data
世界卫生组织数据:
https://www.who.int/data/gho
美国政府网站:
https://www.usa.gov/
美国劳工部劳动统计局:
http://www.bls.gov/
美国商务部:
https://www.commerce.gov/
美国国际贸易协会:
http://www.usitc.gov/
美国交通统计局:
http://www.bts.gov/
美国国家统计局:
http://www.fedstats.gov/
部分情况下,真实数据不易找到,可以尝试以下两个解决办法:
第一,如果这道题并没有限定国家,可以考虑以中国作为研究对象,找自己国家的数据还是相对较为简单。
第二,利用数据挖掘的能力,需要一定的技术手段去收集数据,比如爬虫技术,自己去爬一些可能用得到的内容。或者可以去一些数据科学竞赛平台上去找一些现成可用的数据集,如:
天池大数据数据集:
https://tianchi.aliyun.com/dataset/?spm=5176.12281905.0.0.358b5699IjonJQ
UCI机器学习数据库:
https://archive.ics.uci.edu/ml/index.php