人工智能和数据中心：为什么人工智能如此需要资源

2024年02月26日 21:23:06 来源：千家网

　　到2023年底，对生成式人工智能将需要多少能源的任何预测都是不准确的。例如，头条新闻倾向于猜测“人工智能需要5倍、10倍、30倍的电力”和“足够运行10万户家庭的电力”等。与此同时，数据中心新闻等专业出版物的报道称，每机架的功率密度将上升到50kW或100kW。

　　为什么生成式人工智能如此需要资源?正在采取哪些措施来计算其潜在的能源成本和碳足迹?分析师们已经对特定工作负载场景进行了自己的预测，但由于处于模型构建前沿的云超大规模厂商几乎没有公开的数据，因此目前几乎没有确凿的数据可供参考。

　　经过分析，人工智能模型从训练到推理的碳成本已经产生了一些发人深省的数字。根据《哈佛商业评论》的一份报告，研究人员认为，训练“单一大语言深度学习模型”，如OpenAI的GPT-4或谷歌的PaLM，估计会消耗约300吨二氧化碳。

　　其他研究人员计算出，使用一种名为“神经架构搜索”的技术，训练一个中型生成人工智能模型所消耗的电力和能源相当于626,000吨二氧化碳排放量。

　　那么，到底是什么让人工智能如此耗电呢?

　　是数据集，也就是数据量吗?使用了多少个参数?变压器模型?编码、解码和微调?处理时间?答案当然是上述所有因素的结合。

　　人们常说Gen AI大型语言模型(LLM)和自然语言处理(NLP)需要大量的训练数据。然而，从传统数据存储的角度来看，实际情况并非如此。

　　ChatGPT-3是在45TB的Commoncrawl(爬虫网站)明文上进行训练的，然后过滤到570GB的文本数据。作为对开源AI数据的贡献，它免费托管在AWS上。

　　但存储量、从网络、维基百科和其他地方抓取的数十亿网页或数据令牌，然后进行编码、解码和微调以训练ChatGPT和其他模型，应该不会对数据中心产生重大影响。

　　同样，训练文本到语音、文本到图像或文本到视频模型所需的TB或PB数据，应该不会给数据中心的电源和冷却系统带来特别的压力，这些数据中心是为托管存储和处理数百或数千pb级数据的IT设备而构建的。

　　文本到图像模型的一个例子是LAION(大规模人工智能开放网络)，一个拥有数十亿图像的德国人工智能模型。其中一款名为LAION 400m的模型拥有10TB的网络数据集。另一个是LAION 5B，它有58.5亿个经过剪辑过滤的文本图像对。

　　训练数据量保持可控规模的一个原因是，大多数人工智能模型构建者使用预训练模型(ptm)，而不是从头开始训练的搜索模型。我们所熟悉的两个ptm示例是来自变压器(BERT)的双向编码器表示和生成预训练变压器(GPT)系列，如ChatGPT。

　　人工智能参数和变压器

　　数据中心运营商感兴趣的人工智能训练的另一个衡量标准是参数。

　　生成式AI模型在训练期间使用AI参数。参数数量越多，对预期结果的预测就越准确。ChatGPT-3是基于1750亿个参数构建的。

　　但对于AI来说，参数的数量已经在快速上升。中国LLM第一个版本WUDao使用了1.75万亿个参数。WUDao作为一个大型语言模型，还提供文本到图像和文本到视频的服务。预计数字将继续增长。

　　由于没有可用的硬数据，可以合理地推测运行具有1.7万亿个参数的模型所需的计算能力将非常大。随着我们进入更多的人工智能视频生成领域，模型中使用的数据量和参数数量将会激增。

　　Transformer是一种神经网络架构，旨在解决序列转导或神经机器翻译问题。这意味着将输入序列转换为输出序列的任何任务。

　　Transformer层依赖于循环，因此当输入数据移入一个Transformer层时，数据将循环回到其上一层并传出到下一层。这些层改进了接下来发生的事情的预测输出。它有助于提高语音识别、文本到语音转换等。

　　多少电量才足够?

　　标准普尔全球发布的一份题为《人工智能的力量:人工智能对电力需求的疯狂预测让行业处于紧张状态》的报告引用了几个消息来源:“关于美国的电力需求，很难量化像ChatGPT这样的东西需要多少需求，就宏观数据而言，到2030年，人工智能将占全球电力需求的3-4%。谷歌表示，目前人工智能占其电力使用量的10-15%，即每年2.3TWh。”

　　据估计，在每次网络搜索中使用ChatGPT等生成式人工智能，将需要超过50万台Nvidia A100 HGX服务器，总计410万个图形处理单元或GPU。如果每台服务器的电力需求为6.5kW，则日耗电量为80GWh，年耗电量为29.2TWh。

　　瑞典研究所RI.SE提供了用于训练AI模型的实际功率的计算结果。它说：“训练像GPT-4这样的超大型语言模型，有1.7万亿个参数，使用13万亿个标记(单词片段)，是一项艰巨的任务。OpenAI透露，他们花费了1亿美元，耗时100天，使用了25,000个Nvidia A100 GPU。每个配备这些GPU的服务器大约使用6.5kW，因此训练期间估计消耗50GWh的能源。”

　　这一点很重要，因为人工智能使用的能源正迅速成为公众讨论的话题。目前还没有公布关于人工智能行业总足迹的估计，人工智能领域的爆炸式增长如此之快，几乎不可能获得准确的数字。

　　当我们等待机器学习和人工智能过去和现有的电力使用数据出现时，很明显，一旦模型投入生产和使用，我们将处于exabyte(艾字节)和exaflops(计算机每秒可以至少进行10^18或百亿亿次浮点运算。)的计算规模。对于数据中心的电源和冷却来说，这才是真正有趣和更具挑战性的事情。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

海报生成中...