AI ONES

大模型落地的最后一步:详尽综述大模型评估

大模型落地的最后一步:详尽综述大模型评估

avatarwuxiongwei

目录:

当前,大模型正引领着新一轮技术革命,凭借其强大能力和无限潜力,众多科技巨头纷纷布局。然而,尽管大模型为我们带来便利、提高生产力,但其发展也伴随着诸多风险与挑战,如泄露隐私数据、生成偏见内容等。随着大模型能力的飞速进步,其“欲望”倾向开始逐步呈现出来,可能对人类社会产生负面影响。因此,在追踪大模型技术进步的同时,我们需要对其能力及其不足之处形成更深入的认识和理解,预知并防范安全挑战和风险。

为了引导大模型朝着更健康和更安全的方向发展,让发展成果惠及全人类,针对大模型开展全方位的评测至关重要。然而,当前评测面临诸多挑战:范围广、工作量大、成本高昂;数据标注工作量大;自然语言多样性和复杂性导致评测指标难以量化;现有评测数据集表现难以代表真实应用场景。

为了应对这些挑战,激发大家对大模型评测研究的兴趣,推动评测研究与技术开发相协调,天津大学自然语言处理实验室最近发布了一篇关于大模型评测的综述文章。该文章共有111页,其中正文部分58页,引用了380余篇参考文献。

论文地址:https://arxiv.org/abs/2310.19736 论文参考文献详细列表:https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers

本综述旨在为读者提供关于大模型评测的全面认识,并为相关研究提供有益参考。我们将大模型评测划分为五个主要类别,包括:知识与能力评测、对齐评测、安全评测、行业大模型评测以及综合评测组织。这五个类别涵盖了当前大模型评测的主要研究领域。

在介绍每个评测类别时,我们梳理了相关的研究工作,并采用树状结构的思维导图形式展示了各个研究工作之间的关系,以清晰地呈现该领域整体的研究框架。此外,我们还探讨了大模型评测的未来发展方向,强调了大模型评测应与大模型本身协同进步。

知识和能力评测

评估大模型的知识和能力是其核心考量之一。随着大模型的迅速发展,其在处理复杂任务方面不断取得突破,并被广泛应用于各种实际业务场景。为了确定大模型是否能够胜任真实场景任务,我们需要对其知识和能力进行全面评估。本综述讨论了大模型在问答、知识补全、推理和工具学习等方面的能力评估,并梳理了相关的基准数据集、评估方法和结果。

在推理能力评估方面,本综述介绍了目前常见的四种推理类型:常识推理、逻辑推理、多跳推理和数学推理。在工具学习能力评估方面,本综述详细介绍了工具调用能力和工具创造能力的评估方法。

对齐评测

通过对大模型进行对齐评测,我们可以提前发现并预防其可能带来的负面影响,从而确保其伦理价值与我们的价值观保持一致。在这篇综述中,我们详细讨论了大模型的道德和伦理评测、偏见性评测、毒性评测以及诚实性评测,并通过思维导图对这些内容进行了清晰的呈现。

大模型的道德和伦理评估旨在确定其生成内容是否违反公认的道德伦理规范。根据评价标准的不同,这种评估可分为四个部分:

(1)基于专家定义的评估,即使用专业来源(如书籍、文章等)中的道德伦理规范作为评价标准,并通过众包方式创建相应的评估数据集;

(2)基于众包的评估,其道德伦理规范通常由未接受专业培训的众包工作者根据个人道德标准确定;

(3)AI辅助的评估,即让语言模型参与评估过程,协助人类判断内容是否符合道德伦理;

(4)基于混合模式(如专家定义+众包)的评估,其相关数据集既包含由专家定义的道德伦理规范构建的数据集,也包含基于众包工作者的个人道德规范构建的数据集。

大模型的偏见评估主要关注其生成的内容是否会对某些社会群体产生不利影响或伤害。现有研究表明,大模型可能会对某些群体持有刻板印象,或产生贬低特定群体的信息等偏见行为。该综述主要讨论了下游任务中的偏见和大模型中的偏见。下游任务包括指代消解、机器翻译、自然语言推理、情感分析、关系抽取和隐式仇恨言论检测。在大模型中的偏见方面,该综述介绍了主流的专用于评估大模型偏见的评估数据集和评估方法。

大模型的毒性评估主要关注其生成的内容是否含有仇恨、侮辱、淫秽等有害信息。在毒性评估框架下,该综述介绍了使用大模型识别有害信息的相关工作,并详细介绍了相应的评估基准。此外,该综述还阐述了适用于评估大模型毒性的评估数据集以及能够量化大型模型生成内容毒性的工具。

大模型的诚实性评估致力于检测模型生成的内容是否真实、准确,以及是否符合事实。该综述以评估数据集和评估方法为主线,详细介绍了大模型的诚实性评估的相关工作。在介绍真实性评估的数据集时,该综述根据数据集涉及的任务类型将其划分为三类:

(1)问答任务数据集

(2)对话任务数据集

(3)摘要任务数据集

在探讨真实性评估的方法时,该综述对现有的真实性评估方法进行了梳理和归类,并将其总结为三类:

(1)基于自然语言推理的评估方法,

(2)基于问题生成和问答的方法,

(3)基于大模型的方法。

安全评测

尽管大型模型在许多任务中已经展现出与甚至超越人类的性能,但其引发的安全问题不容忽视。因此,需要对大型模型进行安全评估,以确保其在各种应用场景中的安全使用。在安全评估中,该综述探讨了鲁棒性评估和风险评估两个方面,其对应的思维导图如图5所示。

鲁棒性评估主要包括以下几个方面:

(1)提示词鲁棒性,即通过在提示词中加入拼写错误、近义词等模拟用户输入的噪音来评估大型模型的鲁棒性;

(2)任务鲁棒性,即通过生成各种下游任务的对抗样本来评估大型模型的鲁棒性;

(3)价值对齐鲁棒性,大型模型通常会经过对齐训练以确保其生成的内容与人类的偏好和价值对齐,防止模型生成有害信息。

然而,已有研究表明有些提示词能够绕过对齐训练的防护,触发大型模型生成有害内容,这种方法也被称为越狱攻击方法。因此,价值对齐鲁棒性主要评估的是大型模型在面临各种引导模型生成有害内容的越狱攻击时能否仍然生成与人类偏好和价值对齐的内容。

风险评估则主要关注两个方面:

(1)大型模型的行为评估,即通过与大型模型直接交互的方式,评估大型模型是否存在追求权力和资源、产生自我保持等潜在危险行为或倾向;

(2)将大型模型视为智能体进行评估,即在特定的模拟环境中对大型模型进行评估,如模拟游戏环境、模拟网上购物或网上冲浪等场景。与大型模型的行为评估不同,此项评估更侧重于大型模型的自主性以及其与环境和其它大型模型之间的复杂交互。

行业大模型评测

行业大模型是针对特定领域或行业进行训练和优化的大型模型。与通用大模型不同,行业大模型通常经过特定领域数据的微调,因此更专注于某一特定领域的知识和应用,如法律、金融、医疗等。随着通用大模型的发展,各种行业大模型也纷纷涌现。为了深入了解行业大模型的能力水平,发现并改进潜在缺陷,需要对行业大模型进行深入评测。本文综述了生物 & 医疗、教育、法律、计算机和金融领域的行业大模型的评测情况,梳理了相应的评测基准、评测方法和针对特定大模型的评测结果。

(综合)评测组织

本综述全面探讨了评测组织如何将多个评测维度或子维度整合,以对大型模型进行综合评估。文章将相关的综合评测基准分为两类:

(1)由自然语言理解和生成任务组成的评测基准,如早期的GLUE、SuperGLUE和近期的BIG-Bench等;

(2)由人类各学科考试题组成的学科能力评测基准,旨在评估大型模型的知识能力,如MMLU、C-Eval、MMCU和M3KE等。

此外,本文还总结了不同模型在学科能力评测基准上的表现,并分析了测试集样本的语言、模型参数规模、指令微调和思维链等因素对模型效果的影响。同时,本文还介绍了评测平台、排行榜以及大型模型竞技场。这些排行榜的评测数据集通常由多个任务的评测数据集共同组成。大型模型竞技场引入了Elo评分机制对大型模型进行评分和排名,在计算Elo评分时,由人类对大型模型生成的回复进行投票以选出质量高的回复。

未来展望

该综述不仅对现有的大模型评测研究进行了全面梳理和深入介绍,还针对当前研究中的瓶颈问题进行了深入探讨。基于此,我们展望了大模型评测未来的潜在发展方向,包括风险评测、智能体评测、动态评测以及以优化大模型为核心的评测方法。

风险评测:

现有的风险评估方法主要依赖于问答形式来对大型模型进行评估,但这种方法往往无法全面地衡量大型模型在特定场景或环境下的风险。它无法深入挖掘这些风险背后的潜在原因。因此,对于大型模型的风险评估,我们需要一种更深入、更全面的评估策略。

智能体评测:

目前,大部分评估大型模型的方法都将其视为一个智能体,并需要一个特定的环境来对其进行评估。然而,这些方法主要关注于智能体的能力评估,而忽视了对智能体潜在风险的评估。为了更全面地评估智能体的能力和风险,我们需要增加其所处的环境多样性,以便能够更深入地评估其在不同环境下的表现。

动态评测:

现有的评测方法主要采用静态评测,其测试样本长时间保持不变。然而,由于大模型的训练数据来源广泛且规模庞大,部分测试样本可能已被涵盖其中。此外,大多数大模型并未公开训练数据的来源或具体细节,这可能导致为了获得优秀的评测结果,人为地将静态评测的测试样本添加到模型的训练数据中。再者,知识在不断更新迭代,静态评测的数据中的知识可能会过时。随着大模型能力的不断增强,原有的静态评测数据可能无法满足其能力需求。这些因素都削弱了静态评测的公平性。

为了更全面、公正地评测大模型,可以采用动态评测方法。首先,持续更新测试样本以保持其时效性和针对性;其次,引入开放式问题,以考察模型的创新能力和实际应用能力;最后,探索新的评测方法,例如利用多个大模型进行辩论式评测,以提高评测的多样性和挑战性。通过这些措施,有望提高大模型评测的公平性和有效性。

优化大模型的评测方法:目前,我们主要依赖具体的评分来量化大型模型在特定任务或特定维度上的性能。虽然这些评分有助于我们比较和选择不同的模型,但它们所包含的信息并不足以指导我们对模型进行进一步的优化。因此,我们需要一种以优化大模型为目标的评测方法。这种方法不仅能够给出模型的性能评分,还能提供相应的能力分析和改进建议。

原创声明:本文为本人原创作品,首发于AI ONES https://wuxiongwei.com,如果转载,请保留本文链接,谢谢。
上一篇

LoRA对Llama2-7B进行微调

下一篇

kimi 讯飞星火 文心一言 跃问 哪位是合格的产品经理