比赛名称:BirdCLEF 2023
识别音景中的鸟叫声
比赛链接:https://www.kaggle.com/competitions/birdclef-2023
比赛类型:语音识别
比赛背景
鸟类是生物多样性变化的极好指标,因为它们具有高度流动性并且具有多样化的栖息地要求。因此物种组合和鸟类数量的变化可以表明恢复项目的成功或失败。然而经常对大面积进行传统的基于观察者的鸟类生物多样性调查是昂贵的,而且在后勤方面具有挑战性。
相比之下,被动声学监测 (PAM) 与基于机器学习的新分析工具相结合,使保护主义者能够以更高的时间分辨率对更大的空间尺度进行采样,并深入探索恢复干预与生物多样性之间的关系。
比赛任务
对于本次比赛,您将使用您的机器学习技能通过声音识别东非鸟类。具体来说,您将开发计算解决方案来处理连续的音频数据并通过它们的叫声识别物种。
评价指标
本次比赛的评估指标是 padded cmAP,它是 scikit-learn 实现的宏观平均平均精度分数的衍生物。
对于每个 row_id,您应该预测给定鸟类存在的概率。每种鸟类都有一列,因此您需要每行提供 264 个预测。
数据描述
-
train_audio/训练数据,由 xenocanto.org 用户上传的个别鸟类叫声的简短录音组成。
-
test_soundscapes/当您提交笔记本时test_soundscapes 目录将填充大约 200 条用于评分的录音。它们时长 10 分钟,采用 ogg 音频格式。
-
train_metadata.csv训练数据的元数据
-
sample_submission.csv提交样例
比赛赛程
- 2023年5月17日:组队截止日期。
- 2023年5月24日:最终提交截止日期。
赛题奖金
- 第一名:15,000 美元
- 第二名:10,000 美元
- 第三名:8,000 美元
- 第四名:7,000 美元
- 第五名:5,000 美元
解题思路
赛题是一个典型的语音识别的多标签多分类任务,在Kaggle上也可以找到往年题目。
常见的解题思路是提取音频的MFCC特征 + CNN或VIT进行分类,上分点主要是网络结构和数据增强方法。需要注意提交要求是通过Notebook提交,且必须要在120分钟中完成预测。