5 分钟了解什么是大模型的涌现能力? 大家好,我是雨飞,AI 大模型应用开发航线教练,最近有很多新

5 分钟了解什么是大模型的涌现能力?

大家好,我是雨飞,AI 大模型应用开发航线教练,最近有很多新加入破局的圈友,很高兴认识你们。

有很多人也是第一次接触 AI,对很多原理或者概念上的名词,都不是很熟悉,今天和大家一起探讨关于大模型涌现能力的知识,去除了特别复杂的算法原理,对细节内容感兴趣的可以去看最后部分的学术论文。

一、涌现的基本概念

涌现能力,全称(emergent abilities),关于复杂系统的突现特性长期以来一直在物理学、生物学和数学等学科中被研究。

诺贝尔奖得主P.W. Anderson在其著名的论文《链接》("More Is Different")中普及了涌现的概念,该论文认为,随着系统复杂性的增加,可能会出现即使从系统微观细节的精确定量理解也无法预测的新特性。

而在 LLM 的研究过程中,涌现能力被定义成,在小规模模型中不存在但在大规模模型中存在的能力;因此,它们不能通过简单地外推小规模模型上的性能改进来预测。

二、涌现能力有哪些特性?

1、尖锐性,即从不存在到存在的转变似乎是瞬时的。
2、不可预测性,即在似乎无法预见的模型规模上转变。

如何通过一个实际的例子来说明,涌现现象的诞生?

我们可以利用雪花的形成,来解释这个现象。

雪花是由许多微小的冰晶构成的。这些冰晶本身很简单,但当它们在冷空中相遇时,会互相结合,逐渐拼凑出更大、更精致的图案。一旦这些小冰晶足够多,它们就会组成一个完整的雪花。虽然单独的冰晶不起眼,但当它们集结成雪花时,就会展现出美丽和对称的形态。

就像雪花的形成需要正确的温度和湿度条件,大型模型展现涌现能力也需要大量的数据和复杂的算法。当这些条件都满足时,模型就能够“突现”出新的能力,就像雪花在特定的条件下突然形成一样。

三、哪些任务具有涌现能力?

目前,有两类任务是具备涌现能力的。

第一类是 In Context Learning(“Few-Shot Prompt”)也就是少样本的提示词学习。通过给出少量的示例,大模型就能很好的学习这些示例中的语义关系,并完成相应的任务。

第二类是思维链(Chain of thought),也就是在少样本学习中,增加推理的过程,引导大模型一步步将推理的过程书写出来并完成任务。

四、涌现能力是如何诞生的?

目前有三种对涌现能力的谈论,总结如下:
1、任务的评价指标不够平滑,导致了涌现现象的出现
2、复杂任务和子任务的展示方式并不一致,在子任务上的学习过程其实是平滑的
3、Grokking现象,也就是说在描述训练数据量较少的 ML 任务的,但是任务最小训练数据量必须达到一定的量,才会出现 Grokking 现象

总结来说,就是其实大模型并不是突然就变得很厉害,而是在逐渐缓慢的变得厉害,就好比一个人在做数学试题一样。一开始,他学了很多东西,但是并不懂一些技巧和思路,试卷的卷面成绩就很差,但只要理解了一些技巧,卷面成绩就会突飞猛进。但实际上,这个人是在一步步逐渐变得厉害的,而不是突然间就变得很厉害。

参考资料:
关于涌现能力的信息,可以查看下面这两篇论文。

链接
链接

给TA打赏
共{{data.count}}人
人已打赏
Ai破局

AI漫画:midjourney角色参考新功能应用 角色参考(--cref)可以理解成垫图的进阶,专

2024-4-9 22:49:55

Ai破局

在「短文价值写作复利商业化」这块,星球的帖子太少,可能很多破局圈友完全没接触 , 刚好在写今晚快闪

2024-4-9 22:50:03

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索