赛题名称:ICR - Identifying Age-Related Conditions
使用机器学习通过测量匿名特征来检测疾病
https://www.kaggle.com/competitions/icr-identify-age-related-conditions
赛题任务:数据挖掘
赛题背景
年龄只是一个数字,但随着年龄的增长会带来一大堆健康问题。从心脏病和痴呆到听力损失和关节炎,衰老是许多疾病和并发症的危险因素。不断发展的生物信息学领域包括对有助于减缓和逆转生物衰老以及预防与年龄相关的主要疾病的干预措施的研究。数据科学可以在开发新方法来解决各种数据问题方面发挥作用,即使样本数量很少。
目前,XGBoost 和随机森林等模型用于预测医疗状况,但模型的性能还不够好。在处理生命垂危的关键问题时,模型需要在不同案例之间做出可靠且一致的正确预测。
赛题任务
在本次比赛中,您将使用健康特征数据的测量来解决生物信息学中的关键问题。基于较少的训练集,您将创建一个模型来预测一个人是否患有三种疾病中的任何一种,目的是改进现有方法。
赛题数据
比赛数据包含与三种与年龄相关的状况相关联的五十多个匿名健康特征。您的目标是预测受试者是否被诊断出患有这些病症之一——二元分类问题。
请注意,这是一个代码竞赛,其中隐藏了实际的测试集。在此版本中,我们以正确的格式提供了一些示例数据,以帮助您编写解决方案。当您提交的内容被评分时,此示例测试数据将被替换为完整的测试集。完整测试集中大约有 400 行。
- train.csv训练集
- test.csv - 测试集。您的目标是预测该集合中的受试者属于两个类别中的每个类别的概率。
- greeks.csv:补充元数据,仅适用于训练集。
- sample_submission.csv - 格式正确的示例提交文件。
评价指标
使用对数损失评估提交。总体效果是每个班级对最终分数的重要性大致相同。
每个观察值要么是类的0,要么是类的1。对于每次观察,您必须提交每个类别的概率。
赛题赛程
2023 年 8 月 3 日- 报名截止日期。您必须在此日期之前接受比赛规则才能参加比赛。
2023 年 8 月 3 日- 团队合并截止日期。这是参与者可以加入或合并团队的最后一天。
2023 年 8 月 10 日- 最终提交截止日期。
赛题解析
赛题是一个典型的数据挖掘的比赛,但难点在于数据量比较少,且数据是匿名。
比赛的关键点是能挖掘稳定的特征,并对特征进行解释和筛选,然后构建稳定的模型。
https://www.kaggle.com/code/keitashimizu21/en-ja-first-firsteda-baseline-icr
https://www.kaggle.com/code/samuelabatnehendalie/icr-identifying-age-related-conditions