
一旦AI治理到位,下一个难题就来了:哪些工作负载该放在云端,哪些该留在本地,哪些需要一种你能真正自圆其说的混合方案。
我不断被拉入的首批AI基础设施讨论,听起来就像云计算辩论。该不该跑在超大规模云上?我们需要私有算力吗?主权云够用吗?模型能不能放一个地方、检索层放另一个地方?这些都是合理的开场问题,但根据我的经验,它们很少能决定一个AI工作负载在运营上是否稳健、经济上是否合理、规模上是否可治理,它们只是入口。
不止一次,我目睹一场会议以宽泛的姿态语言开场——云优先、混合为例外、按需私有——然后在有人描述实际工作负载的那一刻话锋突变,它必须从不能自由流动的内部内容中抽取数据,它嵌在一个对响应时间有要求的工作流中,它可能需要调用记录系统,它可能必须留在某个管辖边界内,它在试点阶段看起来便宜,但一旦推理、存储、网络传输和监控变成持续性开销,成本就会飙升。一旦工作负载变得具体,那些老套的姿态语言就开始站不住脚了。
我上一篇文章的观点是:严肃的企业AI治理始于工具之上,始于控制平面——它决定了AI能看什么、碰什么、做什么,紧接着就是这个问题,一旦企业能治理AI,它仍然必须决定每个工作负载该在哪里运行,这正在成为更具决定性的基础设施决策,因为AI正在暴露宽泛云策略的局限,并推动一场关于适配性的更务实的讨论。
AI正在打破旧的云计算简写
多年来,许多企业可以用相对简单的术语来构建云策略。云优先往往就足以作为指导方针,即便底下的现实一直更复杂,AI改变了这一点。麦肯锡最近指出,AI算力现在主要分为训练和推理两类,而这两类工作负载已经在重塑超大规模云服务商组合中的选址、电力策略和架构设计,与此同时,uptime研究所2025年的调查描述了一个行业正在应对成本上升、电力约束加剧以及满足AI驱动的密度需求的挑战,这个组合应该告诉领导者一件重要的事:AI不只是在现有的云计算讨论中增加更多需求,它正在改变其中的变量。
部分原因在于AI不是单一的工作负载类别,检索密集型用例产生的压力不同于大规模推理,微调的经济和基础设施特征不同于连接企业系统的智能体工作流,批量AI处理的表现不同于依赖速度和本地性的面向用户的工作负载。有些工作负载是突发性和实验性的,而另一些很快就会稳定为持续的运营需求。一旦这些差异变得可见,真正的问题就不再是私有云是否回归,也不再是超大规模云是否仍然主导。问题在于企业是否有一种站得住脚的方式来决定什么放在哪里、为什么。
更清晰的表述方式是:AI正在把云策略变回一种工作负载放置学科。问题不再是哪种云姿态在抽象层面听起来正确,而是一旦工作负载变为现实,哪种环境最适合该工作负载的经济性、数据传输、延迟、风险和运营约束。
这不是对私有云的怀旧
这个区分很重要,因为关于AI基础设施的一些更响亮的叙事仍然归结为一个熟悉的标题:"私有云回归了。"在某些情况下,确实如此,AI技术栈的部分组件正在向企业边界靠近,但这并不自动意味着市场在倒退。uptime最近关于云回流的分析清楚地说明了平衡:成本正在把部分工作负载推回企业数据中心,但大多数企业仍然在本地环境旁边运行多个公有云,采用混合模式,整体云使用量并没有崩溃,正在发生的是更具选择性的变化,企业变得不那么意识形态化了。
实际上,原因更多在于纪律而非怀旧。有些AI工作负载在超大规模云上表现更好,因为获取前沿模型、弹性算力和更快的实验速度仍然比任何事情都重要,另一些工作负载一旦推理变得稳定、数据传输变得昂贵、检索必须靠近敏感的企业内容或运营环境无法容忍长网络路径,就开始向另一个方向倾斜,可预测的需求改变了经济性,本地性也是,控制权也是,这不是倒退,而是架构再次成熟。
你可以看到市场对此的直接反应,微软最近的主权云扩展被定位为横跨公有和私有环境的连续体,包括完全断开的运营和本地AI推理。亚马逊云科技现在围绕数据驻留、运营自主权和弹性要求来定位其欧洲主权云。谷歌的vertexAI文档区分了数据静态存储的位置和机器学习处理发生的位置。厂商公告不会解决问题,但它们展示了市场的走向以及企业为什么更认真地重新思考放置策略。
主权不是一个标签
这就是主权讨论要么变得严肃、要么沦为品牌营销的分水岭。在大多数领导层对话中,主权被用作"留在本地"的简写,这太笼统了,没有实际用处。欧盟委员会的云主权框架将主权视为一组具有明确保障等级的目标,而非营销形容词。eu-lisa的主权云简报从公共部门角度提出了类似观点,将这一问题与数据本地化、治理、合规、管辖、透明和运营控制挂钩。这更接近真实的决策空间。
对于AI工作负载,主权通常同时引发多个问题。数据静态存储在哪里?处理在哪里发生?如果出现争议或强制要求,适用谁的法律?谁能管理环境?与提供商之间还有哪些依赖关系?在审计、事件审查或监管挑战中,什么证据能留存下来?这些问题对AI来说比对通用应用迁移更重要,因为AI系统往往在单一运营模式中融合了模型访问、检索、数据传输、工具调用和行动路径。一个工作负载在纸面上可能满足驻留要求,但在实践中仍然通不过更广泛的控制测试。
这也是为什么私有或主权环境只有在控制层保持现代化时才有帮助,如果身份不一致、策略执行碎片化、审计证据薄弱,或者随着工作负载向企业靠近而可观测性消失,那么企业并没有解决问题,只是把问题搬了个地方。主权标签不能替代强有力的策略、可追溯性和运营纪律。
更优秀的企业做了什么不同的事
我看到的更强的企业并不试图用单一平台原则来终结整场争论,它们在构建可复用的放置逻辑。通常,这始于一小组问题,而非一个庞大的框架。当使用量从实验性变为稳定时,工作负载的成本是多少?有多少数据必须传输,频率如何?哪些响应时间对业务流程真正重要?涉及哪些数据类别和管辖区域?如果这个工作负载变得重要,需要什么可观测性和审计证据?如果经济或监管条件变化,以后迁移或重新设计的难度有多大?
这些问题迅速提升了讨论的质量,它们将讨论从产品偏好转移到运营模式领域,它们也把对的人拉进了房间,放置不仅仅是云团队的决定,它需要架构、安全、数据、平台、基础设施和运营领导层的参与,因为答案很少只是关于算力碰巧放在哪里,它关乎信任边界、故障模式、单位经济以及AI工作负载在什么条件下成为实际工作的一部分。
更优秀的企业还比大多数企业更早地分离工作负载类别,它们不会让一个基于内部知识的检索密集型助手使用与大规模模型训练相同的放置逻辑,它们不会把一个能在企业系统中采取行动的智能体与被动助手同等对待,它们不会对批量处理管道和具有严格延迟预期的面向用户的运营工作负载使用相同的假设,这听起来显而易见,但在实践中,许多企业仍然忽略了这一点,而一个薄弱的AI策略往往就从这里开始。
下一个领导层问题
这个阶段的错误问题是"我们站在云辩论的哪一边?"甚至不是"私有云回来了吗?"那些仍然是姿态问题。更好的问题更窄、更难:什么该在哪里运行,依据是什么?


