在今天早上的一场虚拟活动中,Meta揭示了其自主开发AI工作负载基础设施的努力,包括像其最近推出的广告设计和创作工具所依赖的生成型AI。

这是Meta试图展示其实力的尝试,历史上,Meta在采用适合AI的硬件系统方面一直步履维艰,这限制了其与Google和Microsoft等竞争对手保持步伐的能力。

“建立我们自己的[硬件]能力使我们在从数据中心设计到训练框架的每一层都有控制权,”Meta的基础设施副总裁Alexis Bjorlin告诉TechCrunch。“这种垂直整合的级别是推动大规模AI研究的边界所必需的。”

在过去的十年左右的时间里,Meta已经花费了数十亿美元招募顶级数据科学家并构建新型AI,包括现在为其应用程序和服务中的发现引擎、审查过滤器和广告推荐器提供动力的AI。但是,该公司在将其更多雄心勃勃的AI研究创新转化为产品方面,特别是在生成型AI方面,一直面临困难。

直到2022年,Meta主要是使用一种CPU和一种为加速AI算法设计的自定义芯片的组合来运行其AI工作负载,这种CPU对于这些任务来说往往比GPU效率低。Meta取消了原计划在2022年进行的自定义芯片的大规模推出,并改为下单购买价值数十亿美元的Nvidia GPU,这需要对其几个数据中心进行重大改造。

为了扭转局面,Meta计划开始开发一种更具雄心的自家芯片,预计将在2025年推出,能够既训练AI模型又运行它们。这就是今天演讲的主题。

Meta将这款新芯片称为Meta训练和推理加速器,或简称MTIA,将其描述为用于加速AI训练和推理工作负载的“芯片家族”的一部分。(“推理”指的是运行训练过的模型。)MTIA是一种ASIC,这种芯片将不同的电路集成在一个板上,允许它被编程来并行执行一个或多个任务。

“为了在我们的重要工作负载中获得更高的效率和性能,我们需要一个与模型、软件堆栈和系统硬件共同设计的定制解决方案,”Bjorlin继续说。“这为我们的用户提供了更好的体验,涵盖了各种服务。”

在大型科技公司中,自定义AI芯片越来越成为游戏的名字。Google创建了一个处理器,即TPU(“张量处理单元”的缩写),用于训练大型生成型AI系统,如PaLM-2和Imagen。亚马逊为AWS客户提供专有芯片,用于训练(Trainium)和推理(Inferentia)。据报道,微软正在与AMD合作开发一款名为Athena的自家AI芯片。

Meta表示,它在2020年创建了MTIA的第一代——MTIA v1,基于7纳米工艺制造。它可以超越其内部的128 MB内存,扩展到128 GB,并在Meta设计的基准测试中——当然,这必须持保留态度看待——Meta声称MTIA比GPU更有效地处理了“低复杂度”和“中等复杂度”的AI模型。

Meta表示,芯片的内存和网络领域还有工作要做,因为随着AI模型的增大,这些领域会出现瓶颈,需要将工作负载分割到几个芯片上。(并非巧合的是,Meta最近收购了一家位于奥斯陆的团队,该团队正在英国芯片独角兽Graphcore开发AI网络技术。)而目前,MTIA的重点严格限制在推理上——而不是训练——针对Meta的应用程序家族的“推荐工作负载”。

但是Meta强调,MTIA在运行推荐工作负载时,以每瓦特的性能计算,大大提高了公司的效率,从而使Meta能够运行“更强大”和“前沿”的(可能的)AI工作负载。

AI超级计算机

也许有一天,Meta会将其AI工作负载的大部分委托给MTIA银行。但是现在,这个社交网络依赖其研究重点的超级计算机中的GPU,这个超级计算机就是研究超级集群(RSC)。

RSC首次在2022年1月揭示,与Penguin Computing、Nvidia和Pure Storage合作组装,现已完成第二阶段的建设。Meta表示,它现在包含了总共2000个Nvidia DGX A100系统,拥有16000个Nvidia A100 GPU。

那么,为什么要建立一个内部超级计算机呢?首先,有同行压力。几年前,微软大肆宣扬其与OpenAI合作建立的AI超级计算机,并最近表示将与Nvidia合作在Azure云中建立一个新的AI超级计算机。在其他地方,Google一直在吹嘘其自己的AI专用超级计算机,它拥有26000个Nvidia H100 GPU,这使其领先于Meta。

但是,除了与Joneses保持同步,Meta表示,RSC带来的好处是允许其研究人员使用来自Meta生产系统的真实世界示例来训练模型。这与该公司以前的AI基础设施不同,后者只利用开源和公开可用的数据集。

“RSC AI超级计算机用于推动AI研究的几个领域的边界,包括生成型AI,”一位Meta发言人说。“这真的是关于AI研究的生产力。我们希望为AI研究人员提供最先进的基础设施,使他们能够开发模型,并为他们提供一个训练平台,以推进AI。”

在其高峰时期,RSC可以达到近5 exaflops的计算能力,该公司声称这使其成为世界上最快的计算机之一。(尽管这可能令人印象深刻,但值得注意的是,一些专家对exaflops性能指标持保留态度,而且RSC远不及世界上许多最快的超级计算机。)

Meta表示,它使用RSC训练了LLaMA,这是一个折磨人的缩写,代表“Large Language Model Meta AI”——一种大型语言模型,该公司在今年早些时候向研究人员分享了一个“门控发布”(并在各种互联网社区中泄露)。最大的LLaMA模型在2048个A100 GPU上进行了训练,Meta表示,这花了21天。

“建立我们自己的超级计算能力使我们在从数据中心设计到训练框架的每一层都有控制权;”发言人补充说。“RSC将帮助Meta的AI研究人员构建新的、更好的AI模型,这些模型可以从数万亿个示例中学习;跨越数百种不同的语言;无缝分析文本、图像和视频;开发新的增强现实工具;等等。”

视频转码器

除了MTIA,Meta还在开发另一款芯片来处理特定类型的计算工作负载,该公司在今天的活动中透露。这款芯片被称为Meta可扩展视频处理器,或简称MSVP,是Meta首款自主开发的ASIC解决方案,专为视频点播和直播的处理需求设计。

Meta开始构思定制的服务器端视频芯片已经有几年了,读者可能会记得,它在2019年宣布了一个用于视频转码和推理工作的ASIC。这是那些努力的成果,以及在特别是在直播视频领域寻求竞争优势的新的推动力。

“仅在Facebook上,人们在应用程序上花费的时间有50%是在观看视频,”Meta技术领导经理Harikrishna Reddy和Yunqing Chen在今天早上发布的一篇联合博客文章中写道。“为了服务全球各种设备(移动设备、笔记本电脑、电视等),例如上传到Facebook或Instagram的视频被转码成多个比特流,具有不同的编码格式、分辨率和质量……MSVP是可编程和可扩展的,可以配置为有效支持VOD所需的高质量转码以及直播所需的低延迟和更快的处理时间。”

Meta表示,其计划最终将其“稳定和成熟”的视频处理工作负载的大部分转移到MSVP,并仅对需要特定定制和“显著”更高质量的工作负载使用软件视频编码。Meta表示,正在继续使用像智能去噪和图像增强这样的预处理方法来改进MSVP的视频质量,以及像去除伪影和超分辨率这样的后处理方法。

“在未来,MSVP将使我们能够支持更多的Meta的最重要的用例和需求,包括短片视频——使得生成AI、AR/VR和其他元宇宙内容的高效传递成为可能,”Reddy和Chen说。

AI关注点

如果说今天的硬件公告有一个共同的主题,那就是Meta正在拼命加快其在AI方面,特别是在生成型AI方面的步伐。

这在之前已经有所预示。在2月份,CEO马克·扎克伯格——据报道,他已经将提高Meta的AI计算能力作为头等大事——宣布了一个新的顶级生成型AI团队,用他的话说,是为了“加速”公司的研发。首席技术官Andrew Bosworth最近也表示,生成型AI是他和扎克伯格花费最多时间的领域。首席科学家Yann LeCun表示,Meta计划部署生成型AI工具来在虚拟现实中创建物品。

“我们正在探索WhatsApp和Messenger的聊天体验,Facebook和Instagram以及广告的视觉创作工具,随着时间的推移,还有视频和多模态体验,”扎克伯格在4月份的Meta Q1财报电话会议上说。“我预计这些工具对于普通人、创作者和企业都将非常有价值。例如,我预计一旦我们实现了那种体验,对于商业消息和客户支持的AI代理的兴趣将会增加。随着时间的推移,这也将延伸到我们对元宇宙的工作,人们将更容易地创建头像、物体、世界和将所有这些联系在一起的代码。”

部分原因是,Meta正在感受到投资者的压力,他们担心该公司在捕捉生成型AI(可能的大)市场方面行动不够迅速。它还没有对像Bard、Bing Chat或ChatGPT这样的聊天机器人的答案。也没有在图像生成方面取得多少进展,这是另一个关键领域,已经见证了爆炸性的增长。

如果预测正确,生成型AI软件的总可用市场可能达到1500亿美元。高盛预计,它将使GDP增长7%。

即使是其中的一小部分,也可以抹去Meta在“元宇宙”技术(如增强现实头盔、会议软件和VR游乐场如Horizon Worlds)上的投资损失。Reality Labs,Meta负责增强现实技术的部门,上个季度报告了40亿美元的净损失,公司在其Q1电话会议上表示,预计“2023年的运营损失将同比增加”。

 

原文链接:

隐藏内容

此处内容需要权限查看

  • 普通0.1金币
  • 会员0.1金币
  • 永久会员0.1金币

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注