开发者大会在即,全世界都等着苹果能拿出什么新花样。外媒记者刚刚泄露了新产品,还顺便扒出苹果一直在 OpenAI 和谷歌之间来回横跳;更有趣的是,苹果打死不用英伟达芯片,竟还是源于曾经的一段「旧仇」。
最近一轮 AI 之战,OpenAI、谷歌、微软都交卷了,现在,全世界的目光齐刷刷看向苹果。
全球开发者大会,就在 6 月上旬。选择这个时机发布新产品,苹果勇气可嘉。被一众竞品抢尽风头后,苹果得拿出什么重大突破来,才能证明自己在 AI 领域还能让人兴奋?
看起来,苹果可走的路数不多了,所以外媒记者才意味深长地暗示:这次 WWDC 的主题应该是「迎头赶上」,而非「超越」。
毕竟,在 LLM 上,继 ChatGPT 和 Gemini 之后,苹果早已失去了先发优势;微软面向开发者的 CoPilot 生态,也是 XCode 短时间内无法企及的。
和英伟达的旧仇,也让苹果孤注一掷发展自研芯片,然而比起英伟达 GPU,M2 系列在成本和实际应用性能上都有些差强人意。
硬气的苹果,无疑在进行一场豪赌。
苹果,拼命追赶
彭博社记者 Mark Gurman 发出了一篇爆料文,预测了苹果即将在开发者大会上祭出的杀手锏。比较引人瞩目的消息,就是苹果和 OpenAI CEO Sam Altman 的合作了。
在 WWDC 上,双方的合作伙伴关系很可能会昭告天下。
这就有点微妙了。一方面,这一举动,相当于让苹果向公众承认了,自己无法在 AI 最热门的领域竞争,通过「曲线救国」,它倒是可以拥有最先进的聊天机器人,从而硬刚一波使用 Gemini 的三星。
另一方面,最近 Altman 的名声不大好,OpenAI 的公司结构看起来也不太稳定。
因此,苹果根本无法对 OpenAI 作为 iOS 新功能的单一供应商感到放心。(这就是为什么它还在和谷歌达成协议,把 Gemini 也作为备选)
根据预测,苹果很有可能着重发力软件方面,比如推出 iOS 18、iPadOS 18、macOS 15 等操作系统的更新。
iPad 已经用上了最新的 M4 芯片,也许它会继续被集成到 Mac Pro 和 MacBook Pro 中?
对于外界最关注的 AI 功能,苹果将「另辟蹊径」,推出「Project Greymatter」,重点关注普通人在日常生活中可以使用的工具,满足用户对于「实用」的需求。
一系列新功能将分布在手机、平板和 PC 端,包括 ——
-
更灵活的主屏幕布局、自定义 App 图标颜色
-
语音备忘录转文字
-
AI 照片编辑
-
随短信内容变化的自定义表情符号
-
Spotlight 搜索更快速、准确
-
Safari 搜索改进
-
邮件和短信的自动回复建议
如果仅是这些功能,那就不免令人有些失望,毕竟,这些功能并不是革命性的,也很难吸引眼球,绝大部分都已经在谷歌或 Meta 的相关应用中存在。
OpenAI 的 GPT-4o 语音最近虽然饱受争议,但让我们看到了语音助手可以拟人化、智能化到什么程度。
于是,全网期待的目光落在了被传和 OpenAI 合作的苹果上。作为最流行的语音助手之一,Siri 有望在功能和声音上升级吗?
也有预测称,ChatGPT 可能被植入到 iOS18 中作为聊天机器人插件;同时苹果也在「两手准备」,和谷歌洽谈 Gemini 的交易。
苹果的 AI 战略:数据中心、设备、云计算
与此同时,SemiAnalysis 的著名爆料研究员 Dylan Patel 和 Myron Xie 一起,刚刚发了一篇文章,全面分析了苹果的 AI 战略。
在这篇文章中,两位记者提出了一个困扰着许多人的问题:苹果在 AI 领域到底在做什么?
要知道,现在全球都在疯狂抢购英伟达的 GPU,然而苹果却没有参与这一「囤货」大潮。调查显示,苹果对 GPU 的采购微乎其微,连英伟达的十大客户都不是。
在 WWDC 大会前夕,各种传言满天飞。两位记者对目前的各路消息来了个汇总。
加大 M 系列处理器产量,还要做自己的 AI 服务器
首先,有多个消息来源称,苹果今年将加大 M 系列处理器的产量,甚至达到创纪录的水平。
所谓 M 系列处理器,主要指的是 M2 Ultra,它由 2 个片上 M2 Max 拼接而成,被苹果称之为「UltraFusion」。(有趣的是,据悉苹果的 M3 Ultra 被取消了)
Ultrafusion 指的是使用本地硅互连技术将两个 M2 Max 芯片连接在一起。在软件层面上,这两个芯片被看作一个单一的芯片。M2 Ultra 利用了台积电的 InFO-LSI 封装技术。这与台积电的 CoWoS-L 概念相似,英伟达的 Blackwell 和未来的加速器也将采用这种技术。要说苹果和英伟达两种方法之间的唯一区别,就是苹果的 InFO 是芯片先行工艺流程,而英伟达的 CoWoS-L 是芯片后行工艺流程,另外它们使用的是不同类型的内存。
但是稍微仔细一想,就会发现:M2 Ultra 的增产实在是很奇怪。
在需求上就完全找不到理由。M2 Ultra 仅用于高端 Mac Studio 和 Mac Pro,这些产品一年了都没什么有意义的更新,也没听说有哪个新产品要用到 M2 Ultra。
总之,高端的台式 PC 和 MacBook 的需求都相当低迷,没有任何迹象表明,有什么消费需求能消耗掉这些设备。
所以,苹果究竟在下一盘什么棋?
跟 M2 Ultra 的增产消息呼应的,就是华尔街日报和彭博社最近的报道 —— 苹果正在自己的数据中心,使用自己的芯片,为苹果用户提供 AI 服务。
另外,苹果在扩建数据中心基础设施上,也有着野心勃勃的计划。
两位记者发现,苹果目前至少有 7 个数据中心,涉及到 30 多座建筑,这还不包括计划中的项目。结果就是,这些数据中心的总容量在短时间内,就会翻一番。
挖来基础设施大牛
另外,苹果还在几个月内进行了一系列重大招聘,招兵买马扩张基础设施团队。
比如,他们挖来了云基础设施领域的大牛 Sumit Gupta,来操刀苹果的基础设施。
Gupta 在 2007 年到 2015 年效力于英伟达,参与了英伟达进军加速计算的初级阶段。随后他又入职 IBM,再于 2021 年加入谷歌的 AI 基础设施团队,成为谷歌基础设施产品经理,包括 TPU 和基于 Arm 的数据中心 CPU。
谷歌和英伟达算是目前唯二大规模部署 AI 基础设施的公司,能挖来这样的大牛,苹果要做的事恐怕不小。
苹果自研 AI 芯片
然而尴尬的是,M2 Ultra 对于 AI 服务器来说,恐怕并不是个好主意。
虽然业界普遍认为,苹果的 M 系列芯片在 AI 性能上表现出色,但这仅限于设备端的 AI 应用,服务器上就不一定了。
现实的情况是,苹果的竞争对手们在笔记本和台式电脑上使用的内存架构要差得多:现有的英特尔、AMD 和高通笔记本,都只有 128 位的内存总线,而苹果的内存总线宽度要远远吊打他们的 CPU。
这就会导致这样一种后果:虽然其他笔记本电脑可以配备与苹果内存带宽相当的英伟达 GPU,但是英伟达采用的是成本较低的 GDDR6 内存架构,而苹果采用的是高成本的 LPDDR 架构,这就需要更宽的总线、更大的芯片边缘面积。
这就让英伟达 GPU 受到了限制,它无法在内存中放下苹果 CPU 能够容纳的高级模型,比如 Llama 3-70B。虽然苹果的每 GB 成本实际上更低,但 LPDDR 的内存容量太高。
这种优势并不能延伸到云端的 AI 性能。设备端主要关注模型是否能够运行,而云端则更关心经济性。
在云端,虽然原始带宽和容量很重要,但 FLOPS 的数量更关键,因为许多用户通过批处理同时服务。高批处理大小,可以将推理成本(tokenomics)降低到 10 倍以上。
这样的结果就是,M2 Ultra 就像是一个糟糕社区中最好的一栋房子,它无法与数据中心其他 GPU 很好地协同。
不仅内存带宽方面落后于竞争对手,但更重要的差距,在于其 FLOPS 较少,导致并发用户数也大大减少。
Apple GPU 中拥有的 FLOPS 数虽然极少,但幸运的是,好在他们还有神经引擎。
在苹果设备上运行 LLM 的一种策略,是将多层感知器(multi-layer perceptron)运行在神经引擎上,同时将注意力机制(attention mechanism)运行在 GPU 上。
不过需要注意的是,这里还是存在一个带宽问题,所以在总 FLOPS 方面,结果并不理想。
而且,就算我们能神奇地将 GPU 和神经引擎的 FLOPS 相加,性能仍然比数据中心 GPU 差了 35 倍到 85 倍。这意味着实现高批处理大小的能力有限,每个芯片服务的用户数量也会大幅减少。
对于 Llama 3-70B,M2 Ultra 的每个芯片能服务 4-6 个用户就算走运了,然而 GPU 却常能实现 64 或更多的批处理大小。
靠成本能弥补吗?
而且,目前我们还没有分析最重要的变量之一 —— 成本。
采用自研 M2 Ultra,苹果就无需支付商用硅或者定制设计合作者的高额利润了。
计算下来,两个 M2 Max 芯片、InFO-L 封装和 192GB 的 LPDDR,成本大约在 2000 美元左右。相比之下,H100 的成本达到了 10 倍之多。
但同时也要考虑到超过 10 倍的性能差异。即使对于 Llama 3-70B 这类模型,苹果也很难让 M2 Ultra 具备很高的成本效益。
此外,当模型规模超出单个芯片时,这种情况并不适用。
计算并不是简单地线性扩展,尤其是 M 系列的 SoC 并不是为这种扩展设计的。
芯片间唯一的互连是 UltraFusion 桥,将两个 M2 Max 结合成一个 M2 Ultra。但这与英伟达的 NVLink 的高速 Serdes 芯片间扩展完全不同。
虽然苹果芯片在单位美元下能提供相当可观的总计算量,但是和直接购买英伟达 GPU 相比,也没差太多。
因为所有的浮点计算无法被集成到单一集群中,模型推理会被降级到以人类语速运行,规模上限是 Llama 3 同等大小,无法运行千亿参数模型。
为什么要自研芯片?
理性原因
如果苹果只是为了提供更好的 Siri,自研芯片有点夸张。但实际上,苹果的目标远不止于此。
他们的目标是将所有数据、服务与 AI 集成在一起,这意味着从设备端到云端,从底层计算、操作系统到应用程序和数据,用户都会有无缝衔接的流畅操作。
这种愿景符合苹果一直以来对于用户体验的追求。但这不仅需要强大的 AI 计算性能,还需要从芯片到软件的高度垂直的完整技术链。
比如 Siri 可能需要在云中运行,在手机或者 Apple Watch 上应答,同时保证强大功能、高速通信和流畅交互。
其中的另一个卖点在于,苹果会在自己的数据中心处理用户数据,而不是发送到第三方云服务,保护数据的隐私和安全。
非理性原因
但搭建自己的数据中心需要大量芯片和服务器,英伟达作为全球首屈一指的公司,完全可以提供所有高性能计算的基础设施,自己从头开始显然不是最优解。
这看起来不太理性的商业决策,确实蕴含着一些情感因素,这里就牵扯到苹果和英伟达的一桩旧怨了。
虽然如今英伟达已凭「毫无瑕疵的工程执行力」封神,但过去的英伟达,也曾犯下不少重大的工程错误。
最大的一个,就是 2006 至 2009 年间的「bumpgate」丑闻。
在那段时间里,英伟达的整个 55nm 和 65nmGPU 系列由于高热量和糟糕的封装设计,早期故障率极高,超过 40%。芯片和封装基板之间的凸点由于应力容易破裂,导致故障率完全不可接受。这是因为,英伟达选择了一种 Tg 过低的劣质填充物,因此在操作循环期间的高温下无法正确支撑凸点,导致了它们的疲劳。
这就影响了 GeForce 6000、7000、8000 和 9000 系列,以及各种移动芯片组。
苹果、Dell 和 HP 出售的含有英伟达芯片组的笔记本,全部受到影响。而糟糕的,就是英伟达的处理方式。起初,它拒绝承担责任,苹果、Dell 和 HP 怒而对英伟达提起集体诉讼,迫使英伟达同意更换已售出的有缺陷 GPU。
从此,苹果和英伟达的关系可以说是彻底破裂,英伟达再也没有被设计进任何一份苹果产品中。
甚至,苹果不惜选择性能和功耗更差的 AMD GPU,甚至和 AMD 合作开发了一款在笔记本中使用 HBM 的定制 GPU。
所有这些历史包袱,都会让苹果对再次依赖英伟达,感到心里打鼓。
苹果「芯」的未来
M2 Ultra 推出只是苹果给出的一个临时的解决方案,并在逐步开发更强大的芯片。
不过,目前 M3 Ultra 已在内部取消。
M4 Ultra 还未投入生产阶段,甚至可能会被搁置,成为下一个夭折的产品。
而目前,这些芯片还没有针对大模型所需的计算完成优化,其神经引擎结构带宽严重不足,需要加以改造,才能适配。
不过,苹果并不会去依赖其他芯片供应商,去帮助自己开发 AI 芯片。
我们可能看到,苹果授权使用高速串行通信(SerDes)技术,去设计开发数据中心的专用芯片。
但,这一过程还需要数年的时间,目前还处于构想阶段。
因此,在今年和明年,我们仍将看到苹果 Macbook 和 Mac mini 上,使用增强版的苹果芯片。
在 AI PC 时代「迎头赶上」
在大模型方面,毋庸置疑,苹果目前的成果无法和 GPT、Gemini 或者 Claude 等系列相提并论。
然而,继微软提出 AI PC 之后,可以预料到,AI 与硬件和操作系统进行更深度的集成是大势所趋。
苹果想要继续走在智能硬件的前沿,就必须拿出有竞争力的 AI 模型,提供符合「苹果风格和价值观」的 AI 服务。
然而,他们似乎并没有储备足够的算力和 AI 人才来训练自己的 AI 大模型。
虽然 App Store 已经提供了 ChatGPT 应用的下载,但作为一个倾向于高度垂直整合的公司,做到这一步远远不够。
彭博社披露称,苹果已经与 OpenAI 达成协议,并正在和谷歌、Anthropic 讨论,也许这类成熟的模型会直接被集成、封装在在苹果设备上,并使用与苹果品牌形象一致的系统 prompt。
另一个值得关注的方面是搜索功能。
谷歌每年向苹果支付 200 亿美元,换取 Chrome 作为苹果的默认搜索引擎。但这其实是一个双赢的交易,从庞大且有钱的苹果用户身上,谷歌用搜索中的广告收入赚回这笔钱绰绰有余。
但随着 ChatGPT、Llama 与 Claude 相继发力向搜索工具转型,蚕食谷歌在搜索引擎方面的巨大市场份额,这种稳定的商业模式或许会发生改变。
归根结底,苹果不能只满足于硬件供应商的地位,无论其他公司的 AI 模型有怎样的进展,它至少要保持「迎头赶上」的节奏。
仅仅在 App Store 上线各种 AI 模型和应用会让它失去控制权,失去在数据和隐私方面的品牌原则,也错过生成式 AI 可能带来的用户增长和广告收入。
此外,和微软的 AI PC 全部在本地运行 AI 推理不同,苹果的「Project Greymatter」采用混合的工作方式 ——
大部分计算强度较低的 AI 功能在设备上完成,但如果需要更多算力,则将被推送到云端。
这项服务一经推出,很有可能在短时间内迎来大规模流量涌入,这对苹果的 AI 基础设施会是一个考验。
虽然在 AI 之战中短暂落后,但苹果有一个不能忽视的独特优势 —— 庞大的忠实用户群。
一旦发布 AI 功能,全球的数亿台苹果设备,都可以在短时间内更新,并提供给用户试用。
在未来某个时间节点,苹果可能一夜之间成为全球 AI 竞技场上最大的玩家。
参考资料:
-
https://the-decoder.com/apples-project-greymatter-aims-to-bring-ai-powered-convenience-to-everyday-life/
-
https://www.semianalysis.com/p/apples-ai-strategy-apple-datacenters
-
https://www.bloomberg.com/news/newsletters/2024-05-26/apple-ios-18-macos-15-ai-features-project-greymatter-privacy-openai-deal-lwni63s3