Ir para o conteúdo

Luiz Muller Blog

Voltar a Blog
Tela cheia Sugerir um artigo

DeepSeek e o Avanço da Inteligência Artificial com Código aberto e a Baixo Custo

29 de Janeiro de 2025, 17:42 , por Luíz Müller Blog - | No one following this article yet.
Visualizado 4 vezes

Com informações da Agência XINHUA

Um robô humanoide tira selfies com um visitante na 7ª World Voice Expo em Hefei, província de Anhui, leste da China, em 24 de outubro de 2024. (Xinhua/Fu Tian)

Enquanto a versão americana da DeepSeek, a OpenAI, começou inicialmente como uma organização de código aberto, mas depois mudou para um modelo de código fechado e pago, a DeepSeek tomou um caminho diferente.

Destacando a importância de promover a colaboração e a inovação por meio de princípios de código aberto, Liang Wenfeng, fundador da DeepSeek, disse que construir um ecossistema tecnológico robusto é a prioridade.

O custo de US$ 6 milhões é “um forte contraste com as centenas de milhões, se não bilhões, que as empresas americanas normalmente investem em tecnologias semelhantes”, disse Marc Andreessen, um importante investidor em tecnologia, descrevendo o R1 da DeepSeek como “um dos avanços mais surpreendentes” que ele já viu.

Lançado em 20 de janeiro, DeepSeek rapidamente subiu ao topo das paradas gratuitas da loja de aplicativos da Apple na segunda-feira, ultrapassando o ChatGPT da OpenAI.

De acordo com a DeepSeek, em tarefas como matemática, codificação e raciocínio em linguagem natural, o desempenho deste modelo é comparável aos modelos líderes de pesos pesados ​​como a OpenAI, mas apenas com uma fração do dinheiro e do poder de computação de seus concorrentes.

Veja o que a DeepSeek fez e por que isso está causando impacto no setor de IA.

O QUE É DEEPSEEK?

Oficialmente conhecida como DeepSeek Artificial Intelligence Fundamental Technology Research Co., Ltd., a empresa foi fundada em julho de 2023. Como uma startup de tecnologia inovadora, a DeepSeek se dedica a desenvolver modelos de grandes linguagens (LLMs) de ponta e tecnologias relacionadas.

Desde seu primeiro modelo “DeepSeek LLM” lançado em janeiro do ano passado, a empresa passou por várias rodadas de construção e interação. Em dezembro, a startup lançou seu LLM de código aberto “V3”, que ultrapassou todos os LLMs de código aberto da Meta e rivalizou com o GPT4-o de código fechado da OpenAI, de acordo com relatos da mídia dos EUA.

O recém-lançado modelo R1 alcançou um importante avanço tecnológico: usou métodos puros de aprendizado profundo para permitir que a IA surgisse espontaneamente com capacidades de raciocínio.

Diferentemente de abordagens tradicionais como Cadeia de Pensamento (CoT) e Ajuste Fino Supervisionado (SFT), a DeepSeek se destacou no setor de IA ao adotar Aprendizado por Reforço (RL) como método de treinamento principal.

Enquanto CoT e SFT dependem de raciocínio passo a passo e grandes quantidades de dados rotulados, respectivamente, RL permite que os modelos aprendam por meio de mecanismos de interação e recompensa, tornando-os mais adequados para tarefas complexas e dinâmicas.

A adoção do RL permitiu que a startup aprimorasse o raciocínio, a adaptabilidade e a eficiência de seus modelos, destacando-a como pioneira no campo.

Quando questionado sobre o significado de “DeepSeek”, seu mais recente chatbot R1 respondeu: “O nome reflete a missão da empresa de explorar profundamente e avançar as tecnologias fundamentais da IA, com o objetivo de expandir os limites da inovação e aplicação da IA”.

“MAIOR NÃO É NESCESSARIAMENTE O MAIS INTELIGENTE”

De acordo com o relatório técnico do modelo V3, o custo de fabricação do DeepSeek é de aproximadamente 5,57 milhões de dólares americanos, tornando-o o menos caro entre os LLMs.

O renomado economista americano Jeffrey Sachs, professor e diretor do Centro de Desenvolvimento Sustentável da Universidade de Columbia, disse à Xinhua que o avanço feito pelo DeepSeek “mostra a possibilidade de IA avançada a custos muito mais baixos do que se acreditava amplamente nos Estados Unidos até ontem”.

O DeepSeek-V3 faz com que “pareça fácil hoje com um lançamento de pesos abertos de um LLM de nível de fronteira treinado com um orçamento ridículo (2.048 GPUs por 2 meses, US$ 6 milhões)”, postou Andrej Karpathy, um membro fundador da OpenAI, no X.

Comparado a outros modelos conhecidos, o DeepSeek alcançou uma redução de ordem de magnitude.

O custo é “um forte contraste com as centenas de milhões, se não bilhões, que as empresas americanas normalmente investem em tecnologias semelhantes”, disse Marc Andreessen, um importante investidor em tecnologia, descrevendo o R1 da DeepSeek como “um dos avanços mais surpreendentes” que ele já viu.

O desenvolvimento da indústria de IA há muito tempo depende do acúmulo de poder computacional. O modelo DeepSeek de baixo custo pode virar o cenário de IA de cabeça para baixo.

Elogiando o Relatório Técnico DeepSeek-V3 como “muito bom e detalhado”, Karpathy disse que vale a pena ler o relatório.

O banco de investimento e provedor de serviços financeiros dos EUA Morgan Stanley acredita que o DeepSeek demonstra um caminho alternativo para o treinamento eficiente de modelos do que a atual corrida armamentista entre os hiperescaladores, aumentando significativamente a qualidade dos dados e melhorando a arquitetura do modelo.

“Maior e mais caro, não significa mais… sempre mais inteligente”, disse.

Pessoas visitam a área de exposição da empresa chinesa Shokz durante a Consumer Electronics Show (CES) 2025 em Las Vegas, Estados Unidos, em 7 de janeiro de 2025. (Foto de Zeng Hui/Xinhua)

MODELO DE CÓDIGO ABERTO

“É superimpressionante ver o novo modelo do DeepSeek em termos de como eles realmente criaram um modelo de código aberto que faz esse cálculo de tempo de inferência e é supereficiente em termos de cálculo”, disse o CEO da Microsoft, Satya Nadella.

O código aberto permite que pesquisadores, desenvolvedores e usuários acessem o código subjacente do modelo e seus “pesos” — os parâmetros que determinam como o modelo processa as informações — permitindo que eles usem, modifiquem ou aprimorem o modelo para atender às suas necessidades.

O DeepSeek se beneficiou muito dos princípios de código aberto e, por sua vez, demonstra um forte comprometimento em compartilhar conhecimento e contribuir para o avanço coletivo da tecnologia.

O cientista chefe de IA da Meta, Yann LeCun, disse: “Eles tiveram novas ideias e as construíram com base no trabalho de outras pessoas. Como o trabalho deles é publicado e de código aberto, todos podem lucrar com ele.”

“Esse é o poder da pesquisa aberta e do código aberto”, acrescentou LeCun.

Ecoando LeCun, Sachs, o economista americano, disse: “O modelo de negócios e desenvolvimento da DeepSeek é de código aberto, o que é um modelo atraente e bem-sucedido para ciência, tecnologia e negócios”.

Enquanto a versão americana da DeepSeek, a OpenAI, começou inicialmente como uma organização de código aberto, mas depois mudou para um modelo de código fechado, a DeepSeek tomou um caminho diferente.

Destacando a importância de promover a colaboração e a inovação por meio de princípios de código aberto, Liang Wenfeng, fundador da DeepSeek, disse que construir um ecossistema tecnológico robusto é a prioridade.

“Não escolheremos código fechado”, Liang deixou clara a posição da empresa.


Fonte: https://luizmuller.com/2025/01/29/deepseek-e-o-avanco-da-inteligencia-artificial-com-codigo-aberto-e-a-baixo-custo/

Novidades