DeepSeek: o que é e como usar: tudo o que você precisa saber sobre a IA chinesa do momento

DeepSeek é uma empresa chinesa que está ganhando destaque no cenário global de inteligência artificial (IA) com seu modelo de linguagem de grande escala (LLM, na sigla em inglês). Assim como o ChatGPT, a DeepSeek é capaz de gerar conteúdo em texto, como artigos, revisão de textos, tradução, e muito mais.

No entanto, o que realmente diferencia essa IA é sua filosofia open-source (código aberto), que permite uso gratuito e colaborativo, além de uma abordagem tecnológica bem interessante.

“A mistura de especialistas”

Um dos principais diferenciais da DeepSeek é seu modelo MoE (Mixture-of-Experts), que utiliza vários modelos especializados em tarefas específicas. Cada solicitação do usuário é direcionada para o “especialista” mais adequado, garantindo respostas mais precisas e eficientes. Essa abordagem não só melhora a qualidade das respostas, mas também otimiza o custo computacional.

Além disso, a DeepSeek é open-source, o que significa que qualquer pessoa pode contribuir para o desenvolvimento da ferramenta. Basta acessar o GitHub, baixar o código e começar a colaborar. Segundo a empresa, sua missão é “estreitar a lacuna entre modelos abertos e fechados”, promovendo uma IA mais acessível e colaborativa.

DeepSeek V3 e R1: os modelos disponíveis

Atualmente, a DeepSeek opera com dois modelos principais: o V3 e o R1. O mais recente é o R1, lançado em 20 de janeiro, especializado em raciocínio lógico, superou o modelo GPT-4 da OpenAI em testes matemáticos (MATH-500), com uma taxa de acerto de 97,3% contra 96,4% do concorrente.

Em termos da quantidade de parâmetros temos o seguinte:

  • DeepSeek V3: 671 bilhões de parâmetros totais, com 37 bilhões de parâmetros ativos durante a inferência.
  • DeepSeek R1: Entre 32 e 70 bilhões de parâmetros, dependendo da versão.

Lembrando que a contagem de parâmetros é uma métrica importante quando tratamos da avaliação de modelos de inteligência artificial no estilo do DeepSeek. Números mais elevados de parâmetros tem relação direta com a capacidade que aquela IA consegue atingir.

Repare abaixo na página de Download do DeepSeek V3 no Github a contagem de parâmetros do modelo V3. Temos uma número para o total de parâmetros (Total Params) e outro diferente que seriam os parâmetros ativos (Activated Params)

Essa diferença tem relação total com aquela característica mencionada no início, o fato da DeepSeek apostar em MoE. Os 671 bilhões de parâmetros totais representa o número absoluto utilizado durante o treinamento desse modelo, já os parâmetros ativos, que nesse caso são 37 bilhões, indica quantos desses parâmetros são utilizados em determinado momento durante cada requisição do usuário, o que melhora a eficiência e reduz custos.

Eficiência que impressiona

A DeepSeek destaca muito a questão da eficiência, em relação ao custo, perante seus concorrentes. Por exemplo, o modelo V3 teria exigido um custo de US$ 5,5 milhões e 2048 GPUS NVIDIA H800 e 2,788 milhões de horas para o treinamento. Já o GPT-4, da OpenAI, teria demandado US$ 80 milhões.

Como usar a DeepSeek?

A interação com a DeepSeek é simples e intuitiva, semelhante ao ChatGPT. Você pode:

  1. Acessar o site oficial, realizar o login, e fazer solicitações via prompt.
  2. Baixar o aplicativo para Android ou iOS.
  3. Rodar localmente usando softwares como o LM Studio, que permite baixar e utilizar os modelos da DeepSeek diretamente no seu computador.

Ao clicar na lupa do LM Studio você consegue visualizar as opções de modelos treinados para download. Repare que o DeepSeek R1 está na lista. Lembrando que essa versão do R1 é a “distiled” que representa um modelo mais simples e compacto de um modelo maior, o número de parâmetros pode ser menor que o modelo original. No entanto, a grosso modo a diferença fica mais por conta da otimização.

Resultados de benchmarks mostram que, para aqueles que buscam rodar localmente, as opções mais recomendada disponíveis no LM Studio são as seguintes:

  • DeepSeek R1-Distill Qwen-32B (19.85 GB)
  • DeepSeek R1-Distill Qwen-14B (8.99 GB)
  • DeepSeek R1-Distill Qwen-7B (4.68 GB)

Lembrando que modelos com um maior número de parâmetros exigirão mais do hardware para serem rodados localmente.

O que da pra fazer com o DeepSeek?

Confira abaixo algumas das tarefas que é possível realizar com o DeepSeek:

  • Redigir artigos, ensaios, relatórios, resumos e dissertações;
  • Escrever textos criativos, como poesias, contos e roteiros.
  • Revisar e corrigir textos para melhorar clareza, gramática e estilo.
  • Traduzir textos entre vários idiomas
  • Fornecer resumos de livros, artigos ou tópicos específicos.
  • Auxiliar na solução de problemas técnicos ou de software.
  • Simular conversas
  • Ajudar a criar listas de tarefas, cronogramas e metas.
Ver Mais

William R. Plaza: Editor-chefe no Hardware.com.br, aficionado por tecnologias que realmente funcionam. Segue lá no Insta: @plazawilliam Elogios, críticas e sugestões de pauta: william@hardware.com.br
Postagem relacionada