This site uses cookies. By continuing to browse the site you are agreeing to our use of cookies. Read our privacy policy>

Pesquisar

Acelerando o processo de serviço de IA com soluções Huawei Data Lake

[São Paulo, Brasil, 18 de julho, 2024] Produtos únicos para as necessidades únicas de um mercado em crescimento

No Mobile World Congress (MWC) deste ano em Barcelona, Espanha, o gigante chinês de TIC Huawei anunciou sua solução AI Data Lake, que descreve como uma de suas "soluções voltadas para ajudar empresas em todo o mundo a construir infraestrutura de dados de ponta na era da IA". Existem vários desafios que devem ser superados ao melhorar a qualidade dos modelos de IA.

Em primeiro lugar, a preparação de dados é um gargalo que normalmente representa 60% do tempo de treinamento do modelo de ponta a ponta. Duas razões que dificultam a preparação de dados de alta qualidade incluem o acesso diversificado aos dados e a escala EB dos dados brutos dos conjuntos de amostras. Estes são desafios difíceis de superar no treinamento de modelos.

GPUs são o componente mais crítico para este tipo de treinamento, pois melhorar a utilização da GPU geralmente se correlaciona com reduções significativas de custos. No treinamento de modelos, a latência de armazenamento frequentemente causa tempo ocioso da GPU, representando até 10% do tempo total de execução da GPU.

Este é um processo complexo que pode se estender por vários meses em certos casos, agravado por interrupções causadas pela baixa eficiência da computação em cluster, falhas frequentes e solução de problemas lenta. Esses problemas fazem com que o treinamento do modelo não consiga ser retomado rapidamente, reduzem as taxas de sucesso e aumentam os custos de treinamento. Para evitar o impacto de falhas ou interrupções, são usados pontos de verificação periodicamente para registrar e carregar os resultados do treinamento posteriormente. Mesmo com essa salvaguarda, o carregamento pode levar mais de dez minutos, o que é inadequado para o treinamento de modelos de linguagem de grande escala (LLM).

A DCD conversou com Michael Qiu, presidente do departamento de marketing global de armazenamento de dados e vendas de soluções da Huawei, para saber mais sobre a oferta. Começamos perguntando a Qiu sobre a escolha de se referir a uma solução de "AI Data Lake" quando a oferta se estende à funcionalidade de Data Warehouse e Data Lakehouse.

Ele nos disse: "DataLake/LakeHouse são conceitos da era do Big Data. A maioria dessas soluções são parte de uma construção com software de prateleira e hardware de propósito geral, mas à medida que entramos na era da IA/LLM, precisamos de uma infraestrutura de dados pronta para IA para suportar cargas de trabalho mistas de Big Data e IA, onde a infraestrutura de dados desempenha um papel importante. É por isso que planejamos a solução e a nomeamos como 'AI Data Lake', incluindo inovações na camada de software e hardware."

À medida que entramos na era AI / LLM, precisamos de uma infraestrutura de dados pronta para AI para suportar cargas de trabalho mistas de Big Data e AI, onde a infraestrutura de dados desempenha um papel importante Michael Qiu, da Huawei.

Visível, gerenciável, disponível

A solução "AI Data Lake" da Huawei visa garantir dados visíveis, gerenciáveis e disponíveis, transformando grandes volumes de dados em ativos valiosos e acelerando todo o processo de serviço de IA. Veja como funciona:

Um pool de recursos de armazenamento de dados unificado é equipado com um nível de alto desempenho e um nível de alta capacidade, que pode ser expandido de forma flexível para armazenar grandes volumes de dados. A camada de alto desempenho fornece 100M IOPS e 10 terabytes por segundo de largura de banda, melhorando a eficiência do treinamento de LLM.

Um recurso inteligente de hierarquização de dados é usado para armazenar os dados quentes, mornos e frios em camadas de armazenamento apropriadas e garantir o custo total de propriedade (TCO) ideal.

A estrutura de dados é usada para coletar de forma eficiente grandes volumes de dados de diversos fornecedores, regiões e sistemas, alcançando mobilidade de dados segura e sob demanda. Uma cadeia de ferramentas de dados é fornecida para implementar uma conversão automática de dados em conhecimento. Esse processo envolve a limpeza e o aprimoramento dos dados, como a geração automática de pares de perguntas e respostas de alta qualidade e a conversão automática de dados em uma base de conhecimento vetorial.

Tudo isso se reúne com uma plataforma de gerenciamento de dados para implementar o gerenciamento e controle global de ativos de dados, incluindo listas de ativos de dados globais, coleta e análise de dados e gerenciamento de compartilhamento de dados.

A vantagem da IA

Qiu explica algumas das inovações que a inteligência artificial "integrada" pode trazer para a eficiência das cargas de trabalho de IA:

"Os produtos da série OceanStor A são um design dedicado às cargas de trabalho de IA por várias razões. Eles oferecem desempenho extremamente alto para modelos de I/O mistos, porque durante os processos de IA, como coleta de dados, limpeza, treinamento e interferência, o armazenamento deve fornecer alta largura de banda para arquivos grandes (pontos de verificação, vídeos, grandes imagens) e altos IOPS para arquivos pequenos (textos, fotos, áudio). Isso também requer comportamento de I/O diferente, incluindo leitura/gravação sequencial e leitura/gravação aleatória, que é bastante diferente dos requisitos para o processamento de Big Data."

Ele enfatiza: "Capacidades de expansão em nível EB com acesso a namespace único e clusters de treinamento de LLM têm entrado em trilhões de parâmetros e requerem nível EB dos dados originais coletados. Se construirmos infraestrutura de dados de IA em várias regiões, mover dados entre diferentes clusters de armazenamento custará mais de 60% de todo o processo de treinamento de IA. Além disso, o acesso a namespace único pode facilitar o fluxo de trabalho de IA sem a necessidade de gerenciar a distribuição de dados no armazenamento."

Além desses dois pontos, a solução integra a base de conhecimento vetorial e suporta vários sistemas de arquivos, incluindo NFS, S3 e Parallel ao mesmo tempo.

OceanStor no núcleo de armazenamento

No coração da oferta da Huawei está o OceanStor A800, um novo tipo de armazenamento que oferece velocidades extremamente rápidas. Com uma arquitetura inovadora de separação de plano de dados e controle, o OceanStor A800 permite que os dados sejam transferidos diretamente dos módulos de interface para os discos, evitando gargalos criados por CPUs e memória.

Isso significa que o OceanStor A800 pode oferecer 10 vezes mais desempenho do que o armazenamento tradicional e 24 milhões de IOPS por gabinete de controlador. Além disso, seu carregamento de conjunto de treinamento é quatro vezes mais rápido do que seus concorrentes mais próximos.

O inovador sistema de arquivos paralelo de alto desempenho OceanFS permite que o OceanStor A800 alcance uma largura de banda de 500 GB/s por gabinete de controlador. Isso significa que, ao treinar um modelo de trilhões de parâmetros, uma leitura de ponto de verificação de nível de 5 TB pode ser concluída em apenas 10 segundos, e o treinamento pode ser retomado a partir dos pontos de verificação neste caso três vezes mais rápido do que o concorrente mais próximo.

"Adotamos maior desempenho e densidade de capacidade em nossas soluções de AI Data Lake, como 1TB/Watt (a energia usada para ler/gravar 1TB de dados em 1s custa apenas 1 joule), 500GB/s e 24 milhões de IOPS por espaço de 8U para nossa camada de desempenho, 64 discos em nosso espaço de 8U para nossa camada de capacidade. Isso é reforçado pelo fato de que usar nossa solução pode reduzir a pegada, ajudando os clientes a reduzir significativamente o espaço em rack e os requisitos de resfriamento relacionados", disse Michael Qiu.

O OceanStor A800 suporta expansão flexível para formar um hipercluster. Ele pode ser expandido para 512 controladores e suporta capacidade em nível EB para clusters de LLM com trilhões - até mesmo superando dez trilhões - de parâmetros. Também pode suportar capacidades como fabric de dados embutido, motor vetorial e resiliência de dados. Essas capacidades podem ser carregadas com base nos requisitos do cliente.

A sustentabilidade importa

Finalmente, com a sustentabilidade na mente de todos, queríamos explorar as credenciais de consumo de energia da solução AI Data Center da Huawei. Qiu explica: "A eficiência energética é um fator importante para a infraestrutura de IA, e nosso produto atende bem a esse requisito."

"Adotamos maior desempenho e densidade de capacidade em nossas soluções de AI Data Lake, como 1TB/Watt (a energia usada para ler/gravar 1TB de dados em 1s custa apenas 1 joule), 500GB/s e 24 milhões de IOPS por espaço de 8U para nossa camada de desempenho, 64 discos em nosso espaço de 8U para nossa camada de capacidade. Isso é reforçado pelo fato de que usar nossa solução pode reduzir a pegada, ajudando os clientes a reduzir significativamente o espaço em rack e os requisitos de resfriamento relacionados."

A solução AI Data Lake da Huawei realiza a coleta eficiente de grandes volumes de dados diversificados de vários fornecedores, regiões e sistemas usando fabric de dados. A mobilidade de dados segura e sob demanda é complementada por dados visíveis e gerenciáveis globalmente para alcançar uma eficiência de agendamento de dados entre domínios três vezes maior.

A solução também fornece até 500GB/s e 24 milhões de IOPS para treinamento de LLM, que potencializa a recuperação de gravação de ponto de verificação e o carregamento inicial. Reduz o tempo ocioso da GPU enquanto melhora a utilização da GPU, combinando para melhorar a eficiência do treinamento em 20% em média.

Fonte

TOP