KAGGLE NLP | 学习机构实验室PII数据检测竞赛解析

学习机构实验室 PII数据检测竞赛解析

KAGGLE NLP | 学习机构实验室PII数据检测竞赛解析

竞赛题目:

学习机构实验室 - PII数据检测竞赛解析

The Learning Agency Lab - PII Data Detection

开发自动化技术,检测并移除教育数据中的个人身份信息(PII)

竞赛类型:

自然语言处理、文本分类

赛题链接:

https://www.kaggle.com/competitions/pii-detection-removal-from-educational-data/overview

EDU&AI

赛题任务

该竞赛的目标是开发一个模型,能够在学生写作中检测到个人身份信息(PII)。您努力实现对教育数据中PII的自动检测和删除将降低发布教育数据的成本。这将支持学习科学研究和教育工具的开发。

可靠的自动化技术可以让研究人员和行业充分利用大型公共教育数据提供的潜力,以支持开发有效的工具和干预措施,以支持教师和学生。

EDU&AI

赛题背景

在当今充斥着来自教育技术、在线学习和研究等来源的丰富教育数据的时代,广泛存在的PII是一个关键挑战。PII的存在阻碍了分析和创建能够推动教育的开放数据集,因为公开发布数据会使学生面临风险。为了降低这些风险,关键的是在公开发布之前对教育数据进行PII的筛查和清理,而这是数据科学可以简化的。

目前手动审查整个数据集以寻找PII是目前最可靠的筛查方法,但这导致了巨大的成本,并限制了教育数据集的可伸缩性。虽然依赖命名实体识别(NER)的自动PII检测技术存在,但这些技术最适用于具有共同格式(如电子邮件和电话号码)的PII。PII检测系统难以正确标记名称并区分那些敏感的名称(例如学生的姓名)和那些不敏感的名称(例如被引用的作者)。

EDU&AI

竞赛主办方

竞赛主办方范德堡大学是田纳西州纳什维尔市的一所私立研究型大学。它提供70个本科专业和跨足10个学院的全方位研究生和专业学位,全部位于一个拥有先进实验室的美丽校园。范德堡致力于激发和培养跨学科研究,促进开创性的发现。

在这次竞赛中,范德堡大学与The Learning Agency Lab合作,后者是一家总部位于亚利桑那州的独立非营利组织,专注于为社会福祉开发基于学习科学的工具和项目。

您在创建可靠的自动化技术以检测PII方面的工作将带来更多高质量的公共教育数据。研究人员随后可以利用此前不可用的数据的潜力,开发有益于教师和学生的有效工具和干预措施。

EDU&AI

数据集描述

竞赛数据集包含约22,000篇由参与大规模开放在线课程的学生撰写的论文。所有论文都是以单一作业提示的形式撰写的,该提示要求学生将课程材料应用于一个实际世界的问题。竞赛的目标是注释在这些论文中找到的个人身份信息(PII)。

为了保护学生隐私,数据集中的原始PII已经被相同类型的替代标识符替换,使用了部分自动化的过程。大多数论文都保留给测试集(70%),因此鼓励竞争者使用公开可用的外部数据集来增强训练数据。

PII类型

竞赛要求竞争者为以下七种类型的PII分配标签:

  • NAME_STUDENT - 学生的全名或部分名字,不一定是论文的作者。不包括教师、作者和其他人名。
  • EMAIL - 学生的电子邮件地址。
  • USERNAME - 学生在任何平台上的用户名。
  • ID_NUM - 可用于识别学生的数字或字符序列,如学生ID或社会保障号码。
  • PHONE_NUM - 与学生相关联的电话号码。
  • URL_PERSONAL - 可用于识别学生的URL。
  • STREET_ADDRESS - 与学生相关联的全名或部分街道地址,如家庭地址。

文件和字段信息

数据以JSON格式呈现,其中包括文档标识符、论文的全文、标记列表、有关空格的信息和标记注释。文档使用SpaCy英文分词器进行标记化。

标记以BIO(Beginning,Inner,Outer)格式呈现。当实体的开始时,PII类型前缀为“B-”。如果标记是实体的延续,则前缀为“I-”。不是PII的标记为“O”。

{test|train}.json - 测试和训练数据;此页面上提供的测试数据仅供说明目的,并将在代码重新运行期间用隐藏的测试集替换。

  • (int):论文的索引
  • 文档(int):论文的整数ID
  • full_text(string):论文的UTF-8表示
  • 标记(列表)
  • (string):每个标记的字符串表示
  • trailing_whitespace(列表)
  • (bool):一个布尔值,指示每个标记后面是否有空格。
  • 标签(列表)[仅适用于训练数据]
  • (string):BIO格式中的标记标签

sample_submission.csv - 正确提交格式的示例。有关详细信息,请参阅概述页面的提交文件部分。

EDU&AI

竞赛时间线

2024年1月17日 - 起始日期。

2024年4月16日 - 参赛截止日期。

2024年4月16日 - 团队合并截止日期。

2024年4月23日 - 最终提交截止日期。

EDU&AI

竞赛奖金

排行榜奖品

第一名 - $13,000

第二名 - $10,000

第三名 - $5,000

效率奖品

第一名 - $15,000

第二名 - $12,000

第三名 - $5,000

【竞赛报名/项目咨询请加微信:mollywei007】

上一篇

高中学习和初中学习最大的差别在哪?

你也可能喜欢

  • 暂无相关文章!

评论已经被关闭。

插入图片
返回顶部