在《注意力即一切》与 chatGPT 发布之间有五年半的时间。自那以后又过去了三年。 我今天大部分时间都在努力拼凑出一些能让这些年有意义的词。当《注意力》发布时,我19岁,在一个工业机器学习实验室工作,专注于文档解析。 那时,语言建模无疑是一个文化的边缘领域,尤其是在医疗保健方面。IBM Watson 刚刚在第一次伟大的自然语言处理狂热中烧掉了几十亿美元,甚至几百万美元重返这个领域的想法都显得荒谬。 下一个夏天,生成预训练论文发布了。我记得是我一个大学室友的前男友转发给我的,他在波士顿的一栋工业低层建筑里经营一家文档处理公司。 如果你眯起眼睛看,它们共同构成了一个研究议程的足够图景,以实现真正优秀的工业自然语言处理。你可以想象策划数据集,甚至可能找到足够的钱将几张 GPU 连接在一起,你可能会得到一些有用的东西。 那个秋天我辞去了工作,开始专注于模型。 此时,“人工智能有点真实”社区的精神中心是一组伯克利的合租房,他们坚信自己解决了人类心理学。再过几年,他们才会因召唤恶魔的丑闻而崩溃。 而从那时起,再过两年,规模法则才变得清晰。 而距离 chatGPT 还要更久更久。 这个差距让我感到困扰。五年半是一个永恒,但我们现在谈论它时却像是一条直线。 其实不是。这是一条漫长的道路,烧掉了大量资本,摧毁了公司,留下了无数死胡同。 现在每个人都假设部署阶段会是瞬间的。因为我们拥有智能,经济将会流畅地围绕它重塑。 但我看着我们试图将这些东西注入的系统——人类的血肉过程——感觉不可能不感受到同样的时间膨胀感。 让模型工作是一个技术问题。让世界与之合作则完全不是。 实际经济扩散的道路将比资本市场所允许的要长得多。只不过这次不是 IBM 烧掉几亿,而是每一个人。每一个巨头。每一个初创公司。数万亿的市值押注于假设人类组织像技术产品一样运作的部署时间表。 ...