Meta的定制芯片项目反映了从通用CPU到针对AI等特定工作负载优化的领域特定芯片的持续转变。下面我们来仔细看看Meta新MTIA和MSVP加速器芯片。
Meta 训练和推理加速器(MTIA)是一种针对Al推理进行优化的新型定制芯片。
Meta对其最新数据中心技术的预演突出展示了人工智能如何改变数字基础设施。在其上周四的AI Infra@Scale活动上,Meta展示了其定制芯片,这些芯片将提高其处理生成人工智能工作负载的能力,这些工作负载在最近几个月变得非常热门。
Meta的定制芯片项目反映了从通用CPU到针对特定工作负载优化的特定领域芯片的持续转变。这一趋势已经持续了一段时间,因为Meta加入了谷歌、微软和亚马逊网络服务的超大规模团队,使用内部硬件构建更强大、更高效的云基础设施。
人工智能的计算密集性将加剧任何寻求大规模竞争的人对特定领域芯片的需求。周四,Meta推出了两款新的内部芯片,针对人工智能激增的核心工作负载。
- Meta训练和推理加速器(MTIA)是一种推理加速器,可以更快地处理Meta为用户构建的人工智能服务中的计算密集型功能。
- Meta可扩展视频处理器(MSVP)将加速用户创建的直播和视频点播(VOD)内容,包括通过生成人工智能生成的新型内容。
Meta表示,将来在2025年部署时,构建自己的芯片将在性能、电源效率和成本方面提供细致的改进。
Meta Infra Silicon技术负责人Olivia Wu表示:“通过在内部进行研发,我们能够优化芯片的每一个纳米。”。“因此,我们的架构中没有任何部分被浪费,这有助于降低芯片的功耗。这有效地降低了ASIC的成本。”
Meta Infra Silicon的Asic工程师Linda Cheng表示:“构建我们自己的内部Asic的好处是,我们可以访问我们的广告团队和其他团队使用的实际工作负载,这样我们就可以对我们的设计进行性能分析。”。“通过这个流程,我们可以分析、细致地调整高性能解决方案的所有参数。”
专用领域芯片的情况
在人工智能(AI)中,计算机被组装成神经网络,模拟人脑的学习过程,以解决新的挑战。这是一个需要大量计算能力的过程,这就是为什么该领域的领先厂商已经超越了传统的CPU驱动服务器,主要转向GPU(图形处理单元)。CPU由几个针对顺序串行处理进行优化的内核组成,而GPU具有由数百甚至数千个较小内核组成的并行架构,这些内核设计用于同时处理多个任务,这种方法已被证明对人工智能工作负载有效。
MTIA加速器由台积电(Taiwan Semiconductor)使用7nm工艺制造,运行频率为800MHz,热设计功率(TDP)为25W。它使用RISC-V指令集架构(ISA),这是x86和ARM架构的开源替代方案,
为了研究Meta将如何使用MTIA,了解以下两种主要类型的人工智能计算任务是有帮助的:
- 在训练中,网络从现有数据中学习新的能力。训练是计算密集型的,需要能够处理大量数据的硬件。
- 在推理中,网络将其能力应用于新数据,利用其训练来识别模式并比人类更快地执行任务。
最新版本的MTIA是为了加速脸书新闻推送的推荐引擎而推出的,旨在为生成性人工智能工作负载进行推理。
Meta工程基础设施副总裁Alexis Bjorlin表示:“我们的推荐模型传统上是内存或网络绑定的。”。“生成型人工智能的计算密集度令人难以置信,因此计算密度需要增加。”
运行一个计算量大的体系结构是非常昂贵的,这也意味着小的改进可以带来节约和效率。
Bjorlin表示:“这些也是令人难以置信的资本密集型系统。”。“这是我们有机会进行端到端创新的主要原因之一,也是我们启动内部定制芯片开发的原因之一,这样我们就可以优化我们的特定集群和特定基础设施,以满足人工智能工作负载演变所需的效率、性能、电力和资本效率。”
新生代人工智能将带来更多视频
MSVP芯片将专门在制作和交付中对视频内容进行编码。这对脸书来说已经是一个巨大的挑战,脸书每天的视频浏览量超过40亿。
Meta工程师Harikrishna Reddy、Yungqing Chen在一篇介绍MSVP芯片的博客文章中写道:“视频点播(VOD)和直播的视频处理已经是计算密集型的。”。“它包括将大型视频文件编码成更易于管理的格式,并对其进行转码以交付给观众。如今,对视频内容的需求比以往任何时候都大。而新兴的用例,如生成人工智能内容,意味着对视频基础设施的需求只会加剧。
Meta自2016年以来一直在使用GPU构建自定义硬件。但在2020年,该公司开始研发自己的定制芯片。
Meta工程团队在一篇博客文章中写道:“我们发现,GPU并不总是最适合以我们规模所需的效率水平运行Meta的特定推荐工作负载。”。“我们应对这一挑战的解决方案是设计一系列特定于推荐的Meta训练和推理加速器(MTIA)ASIC。我们在考虑下一代推荐模型要求的情况下共同设计了第一代ASIC,并将其集成到PyTorch(Meta的开源机器学习框架)中,以创建一个完全优化的排名系统。”
“GPU甚至通用CPU都能够进行视频处理,”他们补充道。“但以Meta的运营规模(为全球数十亿人提供服务),并着眼于未来与人工智能相关的应用,我们认为专用硬件是计算能力和效率方面的最佳解决方案。”
MSVP也是一种内部开发的ASIC解决方案,可以配置为有效支持VOD所需的高质量转码,以及直播所需的低延迟和更快的处理时间。
(完)