第一个用物理做计算原语的大规模生成模型Un-0来了,或将AI能耗降低1000倍?
在过去十年中,以 GPU 为代表的数字计算一直是人工智能领域的主导力量,通过增大集群规模、提升带宽、升级 GPU 以及优化数据中心,行业普遍认为这是通往下一代 AI 的主要途径。
然而,随着模型参数量逼近万亿级别,人工智能的“能耗”问题日益受到关注,并引发了一个更深层次的疑问:如果 AI 继续按照现有模式扩张,其所需的电力从何而来?
毫无疑问,“电费账单”和能源消耗已从运营成本上升为制约整个行业发展的“结构性瓶颈”。
面对日益严峻的能源挑战,前 Databricks AI 负责人、硅谷知名创业家 Naveen Rao 携其新成立的硬科技初创公司 Unconventional AI 走上前台。
近日,Unconventional AI 正式发布了其首个模型 Un-0,这是一个由“模拟耦合振子系统”驱动的图像生成模型,可被视为一种新型物理计算基础的示例。在 ImageNet 64×64 数据集上,Un-0 达到了 6.74 的 FID 分数,其生成图像的质量已接近一些主流传统图像生成方法发布初期的水平。
Naveen Rao 将其描述为“第一个以物理学作为计算原语构建的大规模生成模型”。
他表示:“这标志着基于物理的模型迎来了‘Hello World’的时刻。我们利用物理系统固有的随时间演变的行为来完成计算。最终结果是一种全新的计算构建方式,并有望在能效方面实现显著提升。”
在接受媒体采访时,Naveen Rao 提出了一个更为宏大的目标:未来有望将 AI 推理的能耗降低至现有系统的千分之一。
Un-0 生成过程的轨迹样本展示,每条线代表一个颜色相近的方框,方框内标注了类别,并逐步展示了该类别图像的生成过程。
官方发布了一篇博客文章详细介绍了 Un-0,以下将对其进行深入探讨。
Un-0 的出发点:利用物理系统重构 AI 计算
Unconventional AI 的目标是构建一种新型计算机,该计算机将利用物理定律来执行计算,并期望未来现代 AI 能够在远低于当前机器的能耗下运行,目标是将能耗降低约 1000 倍。
为此,他们提出了一个核心问题:能否训练一个物理动力系统来生成规模化的图像?
当前最强大的 AI 模型主要基于传统深度网络,特别是以 Transformer 为核心的模型。然而,在主流路线之外,长期以来一直有研究试图利用物理系统的动态行为来提高能效,例如模拟电路中的噪声、时间变化、电压和电流等。这类方法不依赖传统的数字数值计算,而是利用物理系统自身的演化过程。
其中涉及的研究方向包括神经形态计算、Hopfield 网络、Reservoir Computing,以及近年发展的 Hamiltonian Networks、Liquid Networks、Neural Wave Machines、Thermodynamic Computing 和 Kuramoto Oscillators 等。
Un-0 正是基于这些非传统计算路径的一次新尝试。其核心挑战在于,如何有效地将 AI 任务映射到物理系统的动态过程中。Un-0 的目标是验证现代 AI 工作负载是否可以在物理基础上运行,并最终实现比现有硬件更高的效率。
Un-0 的工作原理
官方将 Un-0 的工作原理比作两个并排滴答作响的节拍器。
每个节拍器在任意时刻都有一个“相位”,即摆臂在摆动周期中所处的位置。如果两个节拍器放置在同一张桌子上,它们会通过桌面相互影响。根据相互作用的强度(耦合强度),它们可能会逐渐同步,也可能进入反相同步状态。
这就是振子的基本概念:每个振子都有自己的相位,并倾向于以自身频率旋转,同时会受到邻近振子的影响。
当振子数量扩展到数千个时,整个系统会变得更加有趣。大量振子之间存在不同强度的耦合关系,它们通过相互作用自组织成某种模式。
Un-0 的计算引擎就是一个大规模振子集群,振子之间的耦合强度是模型中主要的学习参数。
这些耦合振子通常被建模为“Kuramoto 振子”。
具体而言,每个振子的运动遵循一个简单的规则,并且该规则会随时间连续生效:一方面它按照自身的自然频率旋转,另一方面它会受到其他所有振子的牵引而发生偏移。
以下常微分方程(ODE)描述了这些振子随时间演化的过程:
每个振子 i 都带有一个相位 θ_i ∈ [0, 2π),其中 ω_i 表示它的自然频率。矩阵 K 则指定了耦合强度,用于决定振子 j 会以多大的力度将振子 i 拉向同步状态,或推离同步状态。
Un-0 需要学习的正是耦合矩阵 K 和自然频率 ω,这些参数共同定义了物理系统本身。
Unconventional AI 给出选择振子的两个理由:
- **第一,源于大脑的启发:**大脑中广泛存在节律活动和同步现象,长期以来,人们认为这些现象可能参与了计算过程,例如将分散的特征整合为连贯的感知结果、调控脑区间的信息交流、组织神经脉冲的时间结构等。耦合振子是描述这类行为最简单的数学模型之一,因此自然适合作为神经启发式计算模型的基础单元。
- **第二,更偏向工程化:**振子可以被实现为一种物理电路原语。Unconventional AI 认为,可以在 CMOS 或其他物理基底上直接实现耦合振子系统,让系统的物理行为本身完成动力学演化。
Un-0 背后的核心赌注是:如果物理规律可以直接计算 AI 工作负载,那么未来的执行基底可能与今天的 GPU 有很大不同。
Un-0 的模型架构
Un-0 生成图像的过程大致分为五个步骤:
- **随机初始化:**将所有振荡器的相位设置为随机角度(类似于扩散模型中的随机噪声);
- **输入类别引导:**使用一组较小的“条件振荡器”输入类别标签(如“火山”、“雏菊”),引导主体振荡器集群向特定方向演化;
- **让物理自然运行:**释放系统,让振荡器在物理动力学的作用下相互作用、演化,并最终达到稳定状态;
- **捕捉快照:**在特定时间 T 记录所有振荡器的相位,形成一个隐空间(Latent)数字网格;
- **渲染像素:**通过一个参数量仅占模型不到 13% 的传统解码器,将相位网格转换为最终的图像像素。
耦合振子在训练得到的耦合关系作用下随时间演化。其中,条件振子到主振子池之间存在一个单向的低秩类别条件矩阵,用于注入类别信息。在时间点 T,系统通过一个解码器读取振子状态并生成图像。通过多次采样不同的初始条件,可以生成对应的图像分布。
在训练过程中,模型主要学习三类参数:振子之间的耦合方式,即矩阵 K;每个振子的自然频率 ω;以及解码器的权重。整体而言,振子系统承担了原本可能由传统神经网络层完成的计算。
Unconventional AI 解释,选择这种架构是为了让动力系统本身拥有最大的自由度来完成计算。
在训练的前向传播中,模型只需设置耦合矩阵、振子频率和初始相位,然后让动力系统演化,最后读取图像的潜在变量。
这与扩散模型、Flow Matching 等动态生成方法有所不同,扩散模型和 Flow Matching 通常在训练过程中显式指导动力系统的演化,而 Un-0 的方法更像是仅关注最终生成样本,然后通过损失函数反向优化整个动力系统。
其代价是,它需要一种更复杂的损失函数,因为训练信号主要来自生成样本本身。
如何训练 Un-0?
Unconventional AI 在 CIFAR-10 和 ImageNet 64×64 数据集上分别训练了三种规模的模型,结果如下:
从结果来看,随着振子数量的增加,模型的 FID 分数持续改善。最大的 ImageNet 64×64 模型使用了 16384 个振子,总参数量约为 3.22 亿,FID 达到了 6.74。
在训练方法上,采用了一种新提出的“漂移损失”(Drifting Loss)函数,配合 DINOv2 特征提取器和 AdamW 优化器进行端到端训练。
在评估方面,CIFAR-10 使用 5 万张生成样本,并与 CIFAR-10 参考统计数据进行比较;ImageNet 64×64 也使用了 5 万张生成样本,并通过 ADM evaluation suite 计算 FID。
算力方面,所有 CIFAR-10 模型均在 1 张 B200 GPU 上训练,而所有 ImageNet 64×64 模型则在 8 张 B200 GPU 上训练。最大的 CIFAR-10 模型训练耗时 20 个 B200 小时,最大的 ImageNet 64×64 模型训练耗时 640 个 B200 小时。
官方表示,训练瓶颈主要来自“漂移损失”函数的计算,因为它需要使用传统的图像特征提取器,并在多个特征视图上进行计算。
Un-0 在图像生成领域处于什么位置?
为了更清晰地展示 Un-0 的性能表现,Unconventional AI 将其置于“生成质量 vs 参数数量”的曲线上,并与传统模型和非传统模型进行了比较。
结论是:Un-0 的生成质量已能与一些早期传统生成器相媲美,甚至在某些对比中表现更优,例如 NCSN、DCGAN-TTUR、WGAN-GP、BigGAN、iDDPM、Consistency Models、TRACT 等。然而,它在性能上仍落后于后来的高性能传统模型,如 EDM 和 GDD。
换句话说,Un-0 并非当前最强的图像生成模型,它更像是一个新路线的起点:其表现已接近多个经典生成模型刚提出时的水平,但要追赶传统路线的最新前沿,仍需在算法、架构和物理原语层面持续优化。
从整体上看,Un-0 证明了利用物理动力学系统进行大规模现代 AI 图像生成的可能性。尽管目前在软件模拟下的性能尚未达到常规 AI 的顶峰,但它为未来实现千倍能效比的“非传统 AI 硬件”开辟了一条充满希望的道路。
Naveen Rao 强调,Un-0 的出现表明,“计算并非人类独有的发明。”它存在于自然和物理世界的各个角落。所有物理实体的物理过程都包含时间维度,但当今的计算系统并未真正利用这一点。
“我们正在开发的就是这个时间维度。”
这与能效的关系在于,在现有的冯·诺依曼架构机器中,大部分能量消耗在内存与计算单元之间的信息传输上,而动力系统则将计算和记忆整合到同一个实体中。更重要的是,动力系统能够容忍噪声,这进一步为节省通信能耗提供了新的机会。
Un-0 代表着计算范式向动力系统转变迈出的重要第一步。“通过这次模型发布,我们正在将智能与动力学连接起来。”对于 AI 计算而言,动力学是一种天然的表达框架,神经网络本质上也可以看作动力系统,因此两者之间的映射会更加直接。
“大脑中并没有线性代数这种抽象,所以某种意义上,我们是在绕过中间环节。”
在相关帖文下方,许多网友表达了期待。
“实际上,这种性能效率的提升非常巨大。如果这种技术能够得到广泛应用,那么很多在本地运行的应用程序都可能变得可行起来。”
“如果这种技术能够上市的话,那真是一项极其先进的脑科技啊。”
「如果故事節奏慢下來,別怕大刀闊斧地修改。」
这是我们系列文章的第一篇,聚焦于背景故事的撰写与发展。后续还会有更多精彩内容,敬请期待!别忘了在评论区告诉我,你还想看哪些主题的文章!



老球迷
很高兴您与年轻有抱负的作家们分享这些技巧。即使他们不写小说,我相信他们能从像您这样技艺精湛的作家那里学到新东西,这将非常有益。我很乐意听取一些关于作家如何在不删减章节的情况下发展情节的建议(我经常在年轻作家的书中看到这种情况)。总之,感谢您的这篇博文,它信息量很大!
新晋球迷
我非常赞同你最后一点,同时我也觉得,找到正确的方式来塑造主要角色之间的关系,会为故事增色不少。这绝对会很有趣!