Kaggle赛题解析：Google手语识别

文章目录[隐藏]

比赛名称：Google - Isolated Sign Language Recognition

帮助用户从PopSign游戏学习美国手语

比赛链接：https://www.kaggle.com/competitions/asl-signs/

比赛类型：时序视频分类、手语识别

比赛背景

在美国，每天有 33 名婴儿出生时患有永久性听力损失。其中大约 90% 的父母是听力正常的人，其中许多人可能不懂美国手语。

如果没有手语，聋哑婴儿有患上语言剥夺综合症的风险。这种综合症的特点是在语言学习的关键时期无法获得自然发生的语言习得。它会对他们生活的不同方面造成严重影响，例如人际关系、教育和就业。

学习美国手语对说英语的人来说和学习日语一样困难。这需要很多父母没有的时间和资源。他们想学习手语，但是当他们为了维持生计而长时间工作时，这很难。即使他们找到了上课的时间和金钱，上课的地方也往往很远。

PopSign 是一款智能手机游戏应用程序，它使学习美国手语变得有趣、互动且易于访问。玩家将 ASL 标志的视频与包含书面英语单词的泡泡相匹配以弹出它们。

PopSign 旨在帮助有失聪儿童的父母学习美国手语，但它对任何想学习手语词汇的人开放。通过添加本次比赛的手语识别器，PopSign 玩家将能够在他们想要射出的泡泡类型上签名，让玩家有机会自己练习手语，而不仅仅是观看其他人手语的视频。

本次比赛的目标是对美国手语 (ASL) 标志进行分类。选手需要创建一个 TensorFlow Lite 模型，使用 MediaPipe 搭建解决方案进行训练。

本次比赛的评估指标是简单的分类准确率。选手需要提交一个 TensorFlow Lite 模型文件。该模型必须将一个或多个地标帧作为输入，并返回一个浮点向量（每个标志类别的预测概率）作为输出。

您的模型必须打包到 submission.zip 文件中并与 TensorFlow Lite Runtime v2.9.1 兼容。

欢迎您使用您选择的框架训练您的模型，只要您在提交之前将模型检查点转换为 tflite 格式即可。

您的模型还必须需要少于 40 MB 的内存，并且每个视频执行推理的延迟要少于 100 毫秒。

train_landmark_files/[participant_id]/[sequence_id].parquet：使用 MediaPipe 整体模型从原始视频中提取地标。并非所有的框架都必须有可见的手或模型可以检测到的手。
- frame - 原始视频中的帧数。
- row_id - 行的唯一标识符。
- type - 地标的类型。['face', 'left_hand', 'pose', 'right_hand'] 之一。
- landmark_index - 地标索引号。可以在此处找到手部地标位置的详细信息。
- [x/y/z] - 地标的归一化空间坐标。这些是将提供给您提交的模型进行推理的唯一列。MediaPipe 模型没有经过充分训练来预测深度，因此您可能希望忽略 z 值。
train.csv
- path - 地标文件的路径。
- participant_id - 数据贡献者的唯一标识符。
- sequence_id - 界标序列的唯一标识符。
- sign - 地标序列的标签。