ChatGPT 的用户数 2 天达到 100 万, 2 个月达到 1 亿, 打破了 TikTok 之前的记录.
GPT 技术路线的一大核心理念, 是用最简单的自回归生成架构来解决无监督学习问题, 也就是利用无须人特意标注的原始数据, 学习其中对世界的映射.
对于类人任务, 最好的方法通常是尝试训练神经网络来解决端到端的问题, 让让它自己发现中间的特征/编码等.
语言是严肃思考/决策和沟通的工具.
根据”计算等价原理”, ChatGPT 这种通用人工智能的出现证明了人类本质上没有任何特别的东西 – 在计算方面, 我们与自然中许多系统甚至是简单的程序基本上是等价的.
ChatGPT 从根本上始终要做的是, 针对它得到的任何文本产生合理的延续.
如果能够使用足够长的 n 元词, 我们基本上会得到一个 ChatGPT, 也就是说, 我们得到的东西能够生成符合正确的整体文章概率, 且像文章一样长的词序列. 即使只有 4 万个常用词, 可能的二元词的数量也达到了 16 亿, 可能的三元词的数量则达到了 60 万亿, 我们无法根据已有的文本估计所有这些三元词的概率. 最佳的思路是建立一个模型, 让我们能估计序列出现的概率.
神经网络可以捕捉相当普遍的类人过程. 神经网络的基本思想是利用大量简单相同的组件来创建一个灵活的计算结构, 并使其能逐步通过学习样例得到改进.
神经网络(或许有点像大脑)被设置为具有一个基本固定的神经元网络, 能改进的是他们之间连接的强度(权重).
关键限制: 神经网络的训练目前基本是顺序进行的, 每批样例的影响都会被反向传播以更新权重. 神经网络的大部分在训练期间的大部分时间里是空闲的.
能力和可训练之间存在一个终极的权衡: 越想让一个系统真正利用其计算能力, 它就越会表现出计算不可约性, 从而越不容易被训练; 而它在本质上越容易训练, 就不能进行复杂的计算.
可学习性和计算不可约之间存在根本的矛盾. 学习实际上涉及通过利用规律来压缩数据, 但计算不可约意味着最终对可能存在的规律有一个限制.
神经网络能够在写文章的任务中获得成功的原因是, 写文章实际上是一个计算深度比较浅的问题, 比我们想象的简单.
将 Embedding 视为一种尝试通过数的数组来表示某些东西本质的方法, 其特征是相近的事物由相近的数表示.
神经网络任何给定层的每个神经元基本上都与上一层的每个神经元相连, 但如果处理的数据具有特定的已知结构, 则这种全连接网络就大材小用了. Transformer 不是仅仅定义了序列中可以连接的固定区域, 而是引入了注意力的概念, 即更多地关注序列的某些部分.
ChatGPT 的原始输入是一个由数组成的数组(Embedding), 当 ChatGPT 运行以产生新的标记时, 这些数就会依次通过神经网络的各层, 而每个神经元都会做好本职工作并将结果传递给下一层的神经元. 没用循环和回顾, 一切工作都是在网络中向前馈送的.
当我们运行 ChatGPT 来生成文本时, 基本上每个权重都需要使用一次. 如果有 n 个权重, 就需要执行约 n 个计算步骤. 如果需要约 n 个词的训练数据来设置这些权重, 需要 n^2 个计算步骤来进行网络的训练.
如果有一个足够大的神经网络, 那么你可能能够做到人类可以轻易做到的任何事情. 但你无法捕捉自然界一般而言可以做到的事情, 或者我们用自然界塑造的工具可以做到的事情. 而正是这些工具的使用, 无论是实用性的还是概念性的, 近几个世纪以来使我们超越了纯粹的无辅助的人类思维的界限, 为人类获取了物理宇宙和计算宇宙之外的很多东西.