比赛名称:Google - Isolated Sign Language Recognition
帮助用户从PopSign游戏学习美国手语
比赛链接:https://www.kaggle.com/competitions/asl-signs/
比赛类型:时序视频分类、手语识别
比赛背景
在美国,每天有 33 名婴儿出生时患有永久性听力损失。其中大约 90% 的父母是听力正常的人,其中许多人可能不懂美国手语。
如果没有手语,聋哑婴儿有患上语言剥夺综合症的风险。这种综合症的特点是在语言学习的关键时期无法获得自然发生的语言习得。它会对他们生活的不同方面造成严重影响,例如人际关系、教育和就业。
学习美国手语对说英语的人来说和学习日语一样困难。这需要很多父母没有的时间和资源。他们想学习手语,但是当他们为了维持生计而长时间工作时,这很难。即使他们找到了上课的时间和金钱,上课的地方也往往很远。
PopSign 是一款智能手机游戏应用程序,它使学习美国手语变得有趣、互动且易于访问。玩家将 ASL 标志的视频与包含书面英语单词的泡泡相匹配以弹出它们。
PopSign 旨在帮助有失聪儿童的父母学习美国手语,但它对任何想学习手语词汇的人开放。通过添加本次比赛的手语识别器,PopSign 玩家将能够在他们想要射出的泡泡类型上签名,让玩家有机会自己练习手语,而不仅仅是观看其他人手语的视频。
比赛任务
本次比赛的目标是对美国手语 (ASL) 标志进行分类。选手需要创建一个 TensorFlow Lite 模型,使用 MediaPipe 搭建解决方案进行训练。
评价指标
本次比赛的评估指标是简单的分类准确率。选手需要提交一个 TensorFlow Lite 模型文件。该模型必须将一个或多个地标帧作为输入,并返回一个浮点向量(每个标志类别的预测概率)作为输出。
您的模型必须打包到 submission.zip 文件中并与 TensorFlow Lite Runtime v2.9.1 兼容。
欢迎您使用您选择的框架训练您的模型,只要您在提交之前将模型检查点转换为 tflite 格式即可。
您的模型还必须需要少于 40 MB 的内存,并且每个视频执行推理的延迟要少于 100 毫秒。
数据描述
-
train_landmark_files/[participant_id]/[sequence_id].parquet:使用 MediaPipe 整体模型从原始视频中提取地标。并非所有的框架都必须有可见的手或模型可以检测到的手。
- frame - 原始视频中的帧数。
- row_id - 行的唯一标识符。
- type - 地标的类型。['face', 'left_hand', 'pose', 'right_hand'] 之一。
- landmark_index - 地标索引号。可以在此处找到手部地标位置的详细信息。
- [x/y/z] - 地标的归一化空间坐标。这些是将提供给您提交的模型进行推理的唯一列。MediaPipe 模型没有经过充分训练来预测深度,因此您可能希望忽略 z 值。
-
train.csv
- path - 地标文件的路径。
- participant_id - 数据贡献者的唯一标识符。
- sequence_id - 界标序列的唯一标识符。
- sign - 地标序列的标签。
比赛赛程
- 2023年4月25日:组队截止日期。
- 2023年5月2日:最终提交截止日期。
赛题奖金
- 第一名:50,000 美元
- 第二名:20,000 美元
- 第三名:10,000 美元
- 第四名:10,000 美元
- 第五名:10,000 美元
解题思路
赛题是一个比较典型的时序分类任务,但需要考虑模型的速度和精度。从数据类型来看,CNN模型可能是更容易训练的模型。
- 训练一个深度学习模型
- 调整模型精度
- 蒸馏、量化增加模型速度
- 转换为tflite格式