观天下!大模型安全评估框架 让AI更可控、更可信
时间:2023-04-03 09:02:02来源:科技日报


(相关资料图)

近年来,随着技术的不断突破,大模型获得了快速发展并开始在各个场景广泛应用,但仍存在着事实性错误、知识盲区和常识偏差等诸多问题,还面临训练数据来源合规性、数据使用的偏见性、生成内容的安全性等风险。如何提高模型的准确度和可靠性,使AI生成的内容安全、可信、可靠已经成为了当前大模型在应用方向亟待解决的问题。

“要规避安全风险,降低人工智能对人类的负面影响,关键在于大模型底座。”清华大学计算机系长聘副教授、北京聆心智能科技有限公司创始人黄民烈说,大规模语言模型(LLM)发展到现在,模型结构和规模已经有了很大的进展,但实用性还有待加强,我们应该通过技术让模型更加安全、可控,使其快速适配更多的应用场景。

据介绍,针对大模型的安全伦理问题,由黄民烈带领的研究团队建立了大模型安全分类体系,并从系统层面和模型层面出发,打造更可控、可信的大模型安全框架。安全框架的建立,定义了大模型的应用边界,促进大模型生态的健康发展,引领国内学术界和工业界迈向更有用(helpful)、更可信(truthful)、更安全(harmless)的AI研究和应用。

此前,其研究团队已经在安全伦理方面开展了相关研究,并依此建立了大模型安全分类体系,其中不安全的对话场景包括:政治敏感、犯罪违法、身体健康、心理健康、财产隐私、歧视/偏见、辱骂/仇恨言论、伦理道德八大方面。这些问题与人们的价值观和伦理道德息息相关,可能会导致用户接收不当信息、甚至影响用户产生有害的行为,限制大模型的发展和应用。

与此同时,研究团队也针对以上八大安全场景对大模型进行针对性升级。通过收集多轮安全数据训练模型,使模型具备基本的安全性,能够在遇到安全问题时给予正确的回复策略,不去做判断和误导。进一步对模型进行自动测试,针对安全缺陷通过微调的方式进行快速迭代,促使模型越来越符合人类的认知理解模式,生成更加安全可信的内容。

值得一提的是,着眼于容易触发安全问题的类型,研究团队收集和构造了相应的hard case(更难识别和处理的安全测试用例),总结和设计了六种一般模型难以处理的安全攻击方式,称为指令攻击。使安全体系更加完善,进一步改进和优化模型表现。

黄民烈表示,不论国内国外,当前大模型的安全问题仍面临着严峻的困难和挑战,人工智能作为一门前沿科技,可以给人类带来巨大福祉,也会给人类造成未知的隐患。确保强大的人工智能系统能够被负责任地建构和部署,打造安全、可信、可靠的 AGI Companion(类人智能的贴心伙伴),是团队的最终愿景。

未来,研究团队将打造中文大模型的安全风险评估的积分榜,为国内对话大模型的安全评估提供公平公开的测试平台,并提供:针对中文对话的8个安全场景,40个安全类别做全面精细的测试,包括人工评估和自动评估;额外设置6种安全攻击(如目标劫持等)的超难指令攻击测试样例,探索模型的安全上限;设置公开和隐藏测试集,众人皆可参与评测等。

“依托自身的核心技术,在可控可信的超拟人大模型基础之上,通过建立安全、可控的模型边界,让AI提供可信、可靠的输出,引领人工智能走向 AGI 时代。相信在不远的未来,AGI Companion 不仅满足人类信息需求,更可以满足社交和情感的需求,以打造更加和谐的人机共融社会。”黄民烈说。

标签:

生活指南
  • 新消息丨《消逝的光芒2:人与仁之战》DLC“猩红纽带”宣传片公开

    (资料图)《消逝的光芒2》首个剧情DLC「猩红纽带」将于11月10日正式上线。在「猩红纽带」DLC中,艾登(玩家)将踏上新的故事冒险,抵达死亡

  • 极狐总裁王秋凤因个人原因辞职 品牌已连续亏损两年

    (资料图片仅供参考)日前,据智车派了解,北汽新能源旗下的极狐汽车,总裁王秋凤因个人原因已辞职,该消息已由北汽蓝谷相关部门确认。极狐汽

  • 北京汽车首台氢内燃机点火成功 将用于增程式混动乘用车

    【资料图】为了减少汽车尾气对空气造成的污染,汽车厂商转型新能源汽车方向已成时代大势。各种造车新势力的崛起,以及传统汽车品牌的转型,

  • 又一起储能事故!江苏南通发文加强储能电站安全管理

    【资料图】北极星储能网获悉,11月2日,江苏省南通市通州区安全生产委员会办公室发布关于进一步加强电化学储能电站安全管理的通知。通知显

  • 14项合作协议!国家电投进博会签约4.58亿美元

    (相关资料图)在第五届中国国际进口博览会(简称“进博会”)期间,国家电投共签约4 58亿美元。11月6日,国家电投举办交易分团进口采购专场

  • 阿里云盘怎么清理空间?阿里云盘到期了怎么办?

    阿里云盘怎么清理空间?1、打开《阿里云盘》APP后,在首页中点击左上角的头像打开菜单。2、在菜单界面中点击容量管理选项。3、在容量管理界

  • 天天热讯:有意为之?宝马董事长称争议设计能够带来更高关注度

    (资料图片仅供参考)作为知名的豪华汽车品牌,宝马在全球范围内的知名度毋庸置疑。不过近年来,宝马在外观设计上遭受了不少的批评声。特别是

  • 国轩高科半固态电池明年交付 电池包续航可达1000km

    (资料图片)随着近年来新能源汽车普及率的不断提升,电动汽车电池技术也获得了快速的发展,固态电池成为了提升电池能量密度和安全性的一个热

  • 上海正式开放自动驾驶高速公路 开放道路里程超500公里

    (资料图片)11月7日消息,上海市首批自动驾驶高速公路现已正式开放,嘉定区开放道路里程达500 6公里,实现了嘉定自动驾驶测试道路全域开放。

  • 民生
    • word水印被图片挡住了怎么办?word水印怎么取消?

    • 电脑网页截图怎么往下滚截长图?网页截图快捷键是什么?

    • appleid被锁定怎么解除?苹果id锁定会自动解除吗?

    • 苹果手机可以刷机吗?苹果手机怎么刷机?