Não, o ChatGPT não causará outra escassez de GPU

Bate-papoGPT está explodindo, e a espinha dorsal de seu modelo de IA depende de placas gráficas Nvidia. Um analista disse cerca de 10.000 GPUs Nvidia foram usadas para treinar o ChatGPT e, à medida que o serviço continua a se expandir, aumenta também a necessidade de GPUs. Qualquer pessoa que viveu a ascensão da criptografia em 2021 pode sentir o cheiro de um Escassez de GPU no horizonte.

Conteúdo

  • Por que as GPUs Nvidia são construídas para IA
  • Tudo se resume à memória
  • Necessidades diferentes, matrizes diferentes

Já vi alguns repórteres construírem exatamente essa conexão, mas é equivocado. Os dias de escassez de GPUs baseadas em criptografia ficaram para trás. Embora provavelmente veremos um aumento na demanda por placas gráficas à medida que a IA continua a crescer, essa demanda não é direcionada para o melhores placas gráficas instalado em plataformas de jogos.

Vídeos recomendados

Por que as GPUs Nvidia são construídas para IA

Uma renderização da GPU RTX A6000 da Nvidia.

Primeiro, abordaremos por que a Nvidia placas gráficas são ótimos para IA. A Nvidia apostou na IA nos últimos anos e valeu a pena com o aumento do preço das ações da empresa após a ascensão do ChatGPT. Há duas razões pelas quais você vê a Nvidia no centro do treinamento de IA: núcleos tensores e CUDA.

Relacionado

  • Wix usa ChatGPT para ajudá-lo a construir rapidamente um site inteiro
  • OpenAI, fabricante do ChatGPT, enfrenta investigação da FTC sobre leis de proteção ao consumidor
  • Recurso de navegação Bing do ChatGPT desativado devido a falha de acesso pago

CUDA é a interface de programação de aplicativos (API) da Nvidia usada em tudo, desde as GPUs de data center mais caras até seus GPUs para jogos mais baratas. A aceleração CUDA é suportada em bibliotecas de aprendizado de máquina como TensorFlow, acelerando enormemente o treinamento e inferência. CUDA é a força motriz por trás AMD está tão atrasada em IA em comparação com a Nvidia.

No entanto, não confunda CUDA com os núcleos CUDA da Nvidia. CUDA é a plataforma em que muitos aplicativos de IA são executados, enquanto os núcleos CUDA são apenas os núcleos dentro das GPUs Nvidia. Eles compartilham um nome e os núcleos CUDA são melhor otimizados para executar aplicativos CUDA. As GPUs para jogos da Nvidia possuem núcleos CUDA e suportam aplicativos CUDA.

Os núcleos tensores são basicamente núcleos de IA dedicados. Eles lidam com a multiplicação de matrizes, que é o molho secreto que acelera o treinamento de IA. A ideia aqui é simples. Multiplique vários conjuntos de dados de uma só vez e treine modelos de IA de forma exponencialmente mais rápida, gerando resultados possíveis. A maioria dos processadores lida com tarefas de forma linear, enquanto os núcleos Tensor podem gerar cenários rapidamente em um único ciclo de clock.

Novamente, as GPUs para jogos da Nvidia, como o RTX4080 têm núcleos Tensor (e às vezes até mais do que GPUs caras de data center). No entanto, apesar de todas as especificações que as placas Nvidia têm para acelerar os modelos de IA, nenhuma delas é tão importante quanto a memória. E as GPUs para jogos da Nvidia não têm muita memória.

Tudo se resume à memória

Uma pilha de memória HBM.
Wikimedia

“O tamanho da memória é o mais importante”, segundo Jeffrey Heaton, autor de vários livros sobre inteligência artificial e professor da Universidade de Washington em St. “Se você não tiver GPU suficiente BATER, seu ajuste/inferência de modelo simplesmente para.”

Heaton, que tem um canal no YouTube dedicado a quão bem os modelos de IA funcionam em certas GPUs, observou que os núcleos CUDA também são importantes, mas a capacidade de memória é o fator dominante quando se trata de como uma GPU funciona para IA. O RTX4090 tem muita memória para os padrões de jogos – 24 GB de GDDR6X – mas muito pouca em comparação com uma GPU de classe de data center. Por exemplo, a mais recente GPU H100 da Nvidia tem 80 GB de memória HBM3, bem como um enorme barramento de memória de 5.120 bits.

Você pode sobreviver com menos, mas ainda precisa de muita memória. Heaton recomenda que os iniciantes tenham pelo menos 12 GB, enquanto um engenheiro de aprendizado de máquina típico terá um ou dois profissionais de 48 GB. GPUs Nvidia. De acordo com Heaton, “a maioria das cargas de trabalho cairá mais na faixa de um único A100 a oito A100”. A GPU A100 da Nvidia tem 40 GB de memória.

Você também pode ver essa escala em ação. Puget Sistemas mostra um único A100 com 40 GB de memória com desempenho cerca de duas vezes mais rápido que um único RTX 3090 com 24 GB de memória. E isso apesar do fato de o RTX 3090 ter quase o dobro de núcleos CUDA e quase o mesmo número de núcleos Tensor.

A memória é o gargalo, não o poder de processamento bruto. Isso ocorre porque o treinamento de modelos de IA depende de grandes conjuntos de dados, e quanto mais dados você puder armazenar na memória, mais rápido (e com mais precisão) você poderá treinar um modelo.

Necessidades diferentes, matrizes diferentes

Placa gráfica Hopper H100.

As GPUs de jogos da Nvidia geralmente não são adequadas para IA devido à pouca memória de vídeo que possuem em comparação com o hardware de nível empresarial, mas há um problema separado aqui também. As GPUs de estação de trabalho da Nvidia geralmente não compartilham um chip de GPU com suas placas de jogos.

Por exemplo, o A100 mencionado por Heaton usa a GPU GA100, que é uma matriz da linha Ampere da Nvidia que nunca foi usada em placas voltadas para jogos (incluindo placas de última geração). RTX 3090Ti). Da mesma forma, o H100 mais recente da Nvidia usa uma arquitetura completamente diferente da série RTX 40, o que significa que também usa uma matriz diferente.

Existem exceções. GPU AD102 da Nvidia, que está dentro do RTX4090 e RTX 4080, também é usado em uma pequena variedade de GPUs empresariais Ada Lovelace (L40 e RTX 6000). Na maioria dos casos, porém, a Nvidia não pode simplesmente adaptar uma GPU de jogos para uma placa de data center. Eles são mundos separados.

Existem algumas diferenças fundamentais entre a escassez de GPU que vimos devido à mineração de criptografia e o aumento da popularidade dos modelos de IA. De acordo com Heaton, o modelo GPT-3 exigia mais de 1.000 GPUs Nvidia A100 para treinar e cerca de oito para funcionar. Essas GPUs também têm acesso à interconexão NVLink de alta largura de banda, enquanto as GPUs da série RTX 40 da Nvidia não. Ele está comparando um máximo de 24 GB de memória nas placas de jogos da Nvidia com várias centenas em GPUs como a A100 com NVLink.

Existem algumas outras preocupações, como a alocação de matrizes de memória para GPUs profissionais em vez de para jogos, mas os dias de correr para o Micro Center local ou Best Buy pela chance de encontrar uma GPU em estoque são perdido. Heaton resumiu bem esse ponto: “Estima-se que modelos de linguagem grande, como ChatGPT, exijam pelo menos oito GPUs para funcionar. Essas estimativas assumem GPUs A100 de última geração. Minha especulação é que isso poderia causar uma escassez de GPUs de última geração, mas pode não afetar as GPUs de classe gamer, com menos BATER.”

Recomendações dos Editores

  • Os principais autores exigem pagamento de empresas de IA pelo uso de seu trabalho
  • O Google Bard agora pode falar, mas será que pode abafar o ChatGPT?
  • O tráfego do site ChatGPT caiu pela primeira vez
  • 81% acham que o ChatGPT é um risco à segurança, segundo pesquisa
  • O rival ChatGPT da Apple pode escrever código automaticamente para você

Atualize seu estilo de vidaDigital Trends ajuda os leitores a manter o controle sobre o mundo acelerado da tecnologia com as últimas notícias, análises divertidas de produtos, editoriais criteriosos e prévias únicas.