麻省理工开发的系统 使用大型语言将AI解释转换为用户更容易理解的叙事文本

使人工智能能够用通俗易懂的语言解释其预测

机器学习模型可能会出错且难以使用,因此科学家们开发了解释方法,帮助用户了解何时以及如何信任模型的预测。

然而,这些解释往往很复杂,可能包含数百个模型特征的信息。它们有时被呈现为多方面的可视化,对于缺乏机器学习专业知识的用户来说很难完全理解。

为了帮助人们理解人工智能的解释,麻省理工学院的研究人员使用大型语言模型(LLM)将基于情节的解释转化为通俗易懂的语言。

他们开发了一个由两部分组成的系统,将机器学习解释转换为人类可读的文本段落,然后自动评估叙述的质量,以便最终用户知道是否信任它。

通过向系统提示一些示例解释,研究人员可以定制其叙事描述,以满足用户的偏好或特定应用程序的要求。

从长远来看,研究人员希望通过使用户能够询问模型后续问题来建立这项技术,了解它是如何在现实世界中做出预测的。

“我们这项研究的目标是迈出第一步,让用户与机器学习模型进行全面的对话,了解他们做出某些预测的原因,这样他们就可以更好地决定是否听取模型,”电气工程和计算机科学(EECS)研究生、一篇关于这项技术的论文的主要作者Alexandra Zytek说。

麻省理工学院博士后Sara Pido也参与了这篇论文;Sarah Alnegheimish,EECS研究生;Laure Berti-Équille,法国国家可持续发展研究所研究主任;资深作者Kalyan Veeramachaneni是信息与决策系统实验室的首席研究科学家。该研究将在IEEE大数据会议上发表。

极昼资讯 | 麻省理工开发的系统,使用大型语言将AI解释转换为用户更容易理解的叙事文本

阐明解释

研究人员专注于一种流行的机器学习解释,称为SHAP。在SHAP解释中,为模型用于进行预测的每个特征分配一个值。例如,如果一个模型预测房价,一个特征可能是房子的位置。位置将被分配一个正值或负值,表示该特征对模型整体预测的修改程度。

通常,SHAP解释以条形图的形式呈现,显示哪些特征最重要或最不重要。但对于具有100多个特征的模型,条形图很快就会变得难以处理。

Veeramachaneni说:“作为研究人员,我们必须对视觉呈现的内容做出很多选择。如果我们选择只显示前10名,人们可能会想知道情节中没有的另一个特征发生了什么。使用自然语言使我们不必做出这些选择。”。

然而,研究人员没有使用大型语言模型来生成自然语言的解释,而是使用LLM将现有的SHAP解释转化为可读的叙述。

Zytek解释说,通过让法学硕士只处理流程的自然语言部分,它限制了在解释中引入不准确之处的机会。

他们的系统名为EXPLINGO,分为两部分协同工作。

第一个组件称为NARRATOR,它使用LLM创建符合用户偏好的SHAP解释的叙述性描述。通过最初向旁白提供三到五个叙事解释的书面例子,LLM将在生成文本时模仿这种风格。

Zytek说:“与其让用户尝试定义他们想要什么类型的解释,不如让他们写下他们想看到的内容。”。

这允许通过向NARRATOR显示一组不同的手动编写的示例,轻松地为新用例定制NARRATOR。

在NARRATOR创建了一个简单的语言解释后,第二个组件GRADER使用LLM根据四个指标对叙述进行评分:简洁性、准确性、完整性和流畅性。GRADER会自动向LLM提示旁白中的文本及其描述的SHAP解释。

她说:“我们发现,即使法学硕士在执行任务时犯了错误,在检查或验证该任务时也通常不会犯错误。”。

用户还可以自定义GRADER,为每个指标赋予不同的权重。

她补充道:“你可以想象,在一个高风险的情况下,对准确性和完整性的权重远高于流利性。”。

分析叙事

对于Zytek和她的同事来说,最大的挑战之一是调整LLM,使其产生听起来自然的叙事。他们为控制风格添加的指导方针越多,LLM就越有可能在解释中引入错误。

她说:“每次发现并修复每个错误都需要进行大量的快速调整。”。

为了测试他们的系统,研究人员使用了9个带有解释的机器学习数据集,并让不同的用户为每个数据集编写叙述。这使他们能够评估旁白模仿独特风格的能力。他们使用GRADER对所有四个指标的每个叙述性解释进行评分。

最后,研究人员发现,他们的系统可以生成高质量的叙事解释,并有效地模仿不同的写作风格。

他们的研究结果表明,提供一些手动编写的示例解释可以大大改善叙事风格。然而,这些例子必须仔细书写——包括比较词,如“更大”,可能会导致GRADER将准确的解释标记为不正确。

基于这些结果,研究人员希望探索可以帮助他们的系统更好地处理比较词的技术。他们还希望通过为解释添加合理化来扩展EXPLINGO。

从长远来看,他们希望将这项工作作为迈向交互式系统的垫脚石,在该系统中,用户可以向模型提出有关解释的后续问题。

Zytek说:“这将在很多方面有助于决策。如果人们不同意模型的预测,我们希望他们能够快速弄清楚他们的直觉是否正确,或者模型的直觉是否准确,以及这种差异来自哪里。”。

【竞赛报名/项目咨询+微信:mollywei007】

上一篇

A-Level课程热门科目选课指南!有A-Level课程培训辅导吗?

下一篇

留学生扎堆做网红 这个新兴职业真有这么香?

你也可能喜欢

  • 暂无相关文章!

评论已经被关闭。

插入图片
返回顶部