近年来,人工智能 (AI) 已经成为了企业现代化数字转型的关键驱动力。它可以为企业带来更快的处理速度、大规模机器学习能力、以及实时处理数据的效率。同时,随着AI任务变得更加复杂,工作中有待其处理的数据量也在持续增长。因此,企业需要采用强大且可扩展的解决方案。显然,云架构可以成为理想的方案之一,毕竟它能够按需提供算力资源、安全的AI计算环境、以及无需物理开销即可扩展的基础架构。而且,AI的任务恰好是随着你的业务规模、你选择的用例、以及数据规模与质量而变化的。
不过,企业正面临着一个新的问题:哪种云架构最适合其AI的计算需求呢?是多云、混合云、还是IaaS/PaaS/SaaS之类的服务模型?下面,我们将详细探究面对每一种云架构,企业该如何做出决策,以实现治理与优化云基础设施,并最大限度地发挥其AI的计算潜力。
为何传统云架构在AI计算方面存在不足?
传统的云架构,特别是依赖于单个供应商的云服务,在处理AI计算的动态需求时,往往会出现短板,其主要原因包括:
缺乏灵活性:诸如AWS、谷歌云 (GCP) 或Azure之类的单一云架构,可能会导致企业被供应商锁定,可扩展性受限,进而限制了其选择最适合AI任务的服务能力。
数据局部性和延迟:AI需要实时处理并统一数据访问,以实现高效的性能。而单云模型通常会因资源配给而发生延迟,进而无法满足AI编排和边缘计算的需求。
成本效率:随着AI任务的增多,数据传输成本和供应商锁定的增加(有时甚至会超过迁移到其他云服务的成本),投资回报率会持续走低,而且会阻碍AI的云成本优化。
安全性和合规性问题:传统的云架构可能难以满足不同地区的特定数据主权的法规要求。
有限的服务品种:对于单个云平台的依靠,有时会限制某些服务的可访问性。而这些服务很可能对于AI驱动的云任务管理来说是至关重要的。
新的AI计算云架构
目前,有三种主流云架构适用于复杂且不断增长的AI任务:
多云架构
混合云架构
服务模式:基础架构即服务 (IaaS) 、平台即服务 (PaaS) 和软件即服务 (SaaS)
下面,让我们深入研究每种架构,看看哪种将有可能成为2026年AI任务的主流云架构。
AI的多云策略
在多云架构中,企业可以既使用某个云平台上的一些服务,又使用另一个云平台上的另一组服务。这种在诸如AWS、Azure和谷歌云等多个云平台上的分布式使用模式,可以改善各种AI任务和应用的管理效率。同时,通过这种云服务选择策略,企业也可以灵活地选取每一个供应商的优势服务产品 (例如:某些云平台能够提供专门的机器学习服务或计算能力)。
为何多云策略适合AI任务?
多云策略比较适合需要结合高性能计算和实时数据处理的AI任务在功能和性能上的需求。例如,训练大型AI模型时,可能需要来自一个云供应商提供的高GPU资源,同时也需要来自另一个供应商提供的边缘计算服务,才能更好地提供AI实时推理服务。
多云架构的优势
更大的灵活性
无供应商锁定
服务的专业化
多云架构的成本影响
在多个云平台上运行AI任务的成本,虽然主要取决于你的数据和用例等因素,但这些通常是由各个云平台以按需付费的定价模型计算出的。因此,若不仔细优化,很可能会出现总体成本的迅速增加。
多云策略的典型用例
使用一个云平台进行高性能计算,同时使用另一个云平台进行数据存储或处理。
实施AI多云架构的挑战
复杂性增加:当你管理多个云环境、数据管道和AI任务时,运维的复杂性自然会增加。
数据治理难度增加:当你必须遵守不同区域的合规性要求与治理策略时,需要克服更多的困难、花费更多的力气,在多个云环境中需要密切关注所有的数据和AI任务。
AI的混合云架构
在使用AI的混合云策略时,企业通常会将特定的任务保留在本地或私有云中,而将其他的任务放置到公共云平台上。
为何混合云策略适合AI任务?
对于需要使用诸如客户PII(个人已识别信息)或财务信息等敏感用户数据去培训AI的任务,混合云策略是理想的选择。它使得企业能够既保持对关键应用和敏感数据的控制,同时又可以利用公共云的灵活性来提供计算能力。
混合云架构的优势
更好的数据控制
无需调整IT基础架构即可具备扩展能力
更严格的合规性和安全性
遵守数据隐私和安全法规 (如GPDR、CCPA、SOC 1和2等) 变得更加容易
混合云架构的成本影响
由于除了云环境之外,你还需要维护自己的基础架构 (包括硬件),因此使用混合云策略的成本可能会略高。不过,业界已有一些有效的方法,可以优化云架构的成本。
混合云架构的常见用例
敏感数据管理,特别是在金融和医疗保健等受监管的行业,都是混合云架构最常见的用例。
实施AI混合云架构的挑战
“内部部署数据与基于云的应用集成”的复杂性:为了设置从私有基础架构到云架构的ETL/ELT数据管道,需要多个自定义的解决方案和工具的相互集成。其复杂性不言而喻。
云成本管理变得困难:由于涉及到内部部署和云基础架构的成本管理,因此企业需要监控所有内容,以避免云资源的空置或配置不足。
AI的托管服务模型
以IaaS、PaaS或SaaS为交付形式的云服务模型,是能够让企业从灵活扩展和易于计算中受益的另一种方式。其中:
IaaS (基础设施即服务):主要为企业提供虚拟的计算资源,包括:计算能力,存储方法,网络组件等。它们可以按需进行轻松的扩/缩容,企业只需支付已使用部分的费用。
A.理想使用场景:企业可用来自定义AI培训和开发任务。
PaaS (平台即服务):主要为企业提供专用平台,以构建、运行和管理AI任务和应用。它们可以让企业快速部署AI模型,使之能够专注于开发模型、而不是管理基础设施。
A.理想使用场景:非常适合在动态环境中或需要快速扩展时,部署AI模型。
SaaS (软件即服务):主要为企业提供由其选择的、云供应商管理的、全托管的软件应用。企业可以向其订阅AI平台、AI工具等。
A.理想使用场景:最适合那些需要预先训练AI模型的企业。
为何服务模型适合AI任务?
服务模型为企业提供了按使用、调整云资源的灵活性,且无需担心基础架构。
服务模式的优势
IaaS为训练模型提供了基础设施。
PaaS简化了模型的开发和部署。
SaaS提供现成的AI应用和服务,免除了开发需求。
服务模式的成本影响
IaaS和PaaS主要提供按需付费的成本模式,而SaaS通常提供基于订阅的定价模式。
服务模式的常见用例
当你必须使用强大的GPU/TPU(Tensor Processing Unit)来训练AI模型,并且不想投资物理硬件时,IaaS是完美的选项。
当你需要对机器学习和分析提供内置的支持时,可以通常使用PaaS,它们可以通过CI/CD管道和API来实现。
SaaS模型最适合在你需要现成的解决方案时被用到,例如聊天机器人和情感分析引擎。
实施AI服务模型的挑战
虽然通过服务模型管理AI任务有着诸多优势,但它们带来了许多挑战。
由于使用的是第三方服务,因此数据治理和合规性可能存在风险。
出于同样的原因,如果对特定云平台的依赖过大的话,企业最终也可能会陷入供应商锁定的境地。
如果最初成本预估不足,服务模型的成本效益很可能会快速消失。
由于服务模型具有通用可访问性,因此针对某些特定AI需求的定制化,可能会受限或成本高昂。
如何为你的AI任务选择正确的云策略?
为AI任务选择最佳的云策略是一项至关重要的决定,它决定了你是否会成功落地,你将花费多少资金,以及你是否可以快速地部署AI。如下要点可作为你在选择策略和优化AI的云成本时的参考。
1.为AI任务“画像(Profile)”
你需要哪种类型的AI工作流?
你会使用大型数据集吗?
这些数据需要什么档次的计算能力?
你是需要实时处理,还是可以接受适度的延迟?
2.评估数据的敏感度
l你的AI任务是否需要处理敏感数据?
3.考虑财务影响
你有预算吗?如果没有,请确定云成本优化的方法,并估算相关的财务影响。
4.合规性和安全性
请考虑你必须遵守的数据隐私和合规性法规。
找到上述问题和考虑要点的答案,将有助于你为AI任务选择理想的云策略。如果你无法独立进行此类评估,请考虑寻求云服务供应商的帮助。他们的云顾问可以对你的任务进行全面评估,并推荐合适的云策略。此外,如果你是刚刚开始将AI任务迁移到云架构,建议你与云迁移服务合作伙伴密切合作,以确保平稳过渡。
小结
随着AI任务的日益复杂和数据量的不断增长,企业需要全面考虑为自己的AI采用哪种云架构,毕竟这将决定如何构建、管理和部署AI,以获得最大的投资回报率。所以,希望上述讨论能够给你提供帮助。
无论你选择多云、混合、还是服务驱动的方法,也无论会涉及高计算量、还是更强大的治理,成功的关键在于尽量使你的云模型与你的特定AI需求保持一致。
原文标题:Optimizing AI with the Right Cloud Strategy: Multi-Cloud, Hybrid, and More,作者:Nathan Smith


