Google AI lança modelo Gemini 2.0 Flash Thinking (gemini-2.0-flash-thinking-exp-01-21): Pontuações de 73,3% em AIME (Matemática) e 74,2% em GPQA Diamond (Ciências) Benchmarks

A Inteligência Artificial fez progressos significativos, mas persistem alguns desafios no desenvolvimento do pensamento multidimensional e das competências de planeamento. Tarefas que exigem pensamento abstrato, compreensão científica e cálculos matemáticos precisos expõem frequentemente as limitações dos sistemas atuais. Mesmo os melhores modelos de IA enfrentam a dificuldade de integrar eficazmente diferentes tipos de dados e de manter a consistência lógica nas suas respostas. Além disso, à medida que o uso da IA aumenta, há uma necessidade crescente de sistemas capazes de processar cenários de grande escala, como a análise de documentos com milhões de tokens. Enfrentar estes desafios é fundamental para desbloquear todo o potencial da IA na educação, na investigação e na indústria.

Para lidar com esses problemas, O Google apresentou o modelo Gemini 2.0 Flash Thinkinguma versão atualizada de sua série Gemini AI com recursos avançados de raciocínio. Esta versão mais recente baseia-se na experiência do Google em pesquisa de IA e incorpora lições de inovações anteriores, como AlphaGo, nos principais modelos de linguagem atuais. Disponível através da API Gemini, o Gemini 2.0 apresenta recursos como execução de código, uma janela de conteúdo de 1 milhão de tokens e melhor alinhamento entre entrada e saída.

Detalhes técnicos e benefícios

No centro do modo Gemini 2.0 Flash Thinking estão seus recursos aprimorados de Flash Thinking, permitindo que o modelo use vários modos, como texto, imagens e código. Esta capacidade de manter a consistência e a precisão ao mesmo tempo que integra diversas fontes de dados marca um importante passo em frente. A janela de conteúdo de 1 milhão de tokens permite que o modelo processe e analise grandes conjuntos de dados simultaneamente, tornando-o particularmente útil para tarefas como análise jurídica, pesquisa científica e criação de conteúdo.

Outra característica importante é a capacidade do modelo de decodificar diretamente. Esta funcionalidade preenche a lacuna entre o pensamento abstrato e a implementação prática, permitindo aos usuários realizar cálculos dentro da estrutura do modelo. Além disso, a arquitetura aborda um problema comum aos modelos anteriores, reduzindo o conflito entre o raciocínio e as respostas do modelo. Essas melhorias resultam em desempenho e flexibilidade mais confiáveis em diversos casos de uso.

Para os usuários, essas melhorias se traduzem em resultados mais rápidos e precisos para consultas complexas. A capacidade do Gemini 2.0 de integrar dados multimodais e gerenciar conteúdo extenso o torna uma ferramenta inestimável em áreas que vão desde análises avançadas até produção de conteúdo de formato longo.

Nossa última atualização para nosso modelo Gemini 2.0 Flash Thinking (disponível aqui: pontuação de 73,3% em AIME (matemática) e 74,2% em benchmarks GPQA Diamond (ciência). Obrigado por todos os seus comentários, isso representa um progresso rápido desde nosso primeiro lançamento anterior. .. pic.twitter.com/cM1gNwBoTO

-Demis Hassabis (@demishassabis) 21 de janeiro de 2025

Detalhes de desempenho e conquistas de medição

A evolução do modelo Gemini 2.0 Flash Thinking se reflete em seu desempenho de benchmark. O modelo obteve pontuação de 73,3% no AIME (matemática), 74,2% no GPQA Diamond (ciências) e 75,4% no teste Multimodal Model Understanding (MMMU). Esses resultados mostram sua capacidade de raciocínio e planejamento, principalmente em tarefas que exigem precisão e complexidade.

O feedback dos primeiros utilizadores tem sido encorajador, destacando a velocidade e fiabilidade do modelo em comparação com o seu antecessor. Sua capacidade de lidar com grandes conjuntos de dados enquanto mantém a consistência lógica o torna um ativo valioso em setores como educação, pesquisa e análise de negócios. O rápido progresso observado nesta versão — adquirida apenas um mês após a versão anterior — mostra o compromisso do Google com a melhoria contínua e a inovação centrada no usuário.

A conclusão

O modelo Gemini 2.0 Flash Thinking representa um avanço medido e lógico em inteligência artificial. Ao abordar desafios de longa data no pensamento e planejamento multidisciplinares, fornece soluções eficazes para uma ampla gama de aplicações. Recursos como uma janela de conteúdo de 1 milhão de tokens e codificação integrada aprimoram seus recursos de resolução de problemas, tornando-o uma ferramenta versátil para uma variedade de domínios.

Com fortes resultados de posicionamento e melhorias na confiabilidade e adaptabilidade, o modelo Gemini 2.0 Flash Thinking ressalta a liderança do Google no desenvolvimento de IA. À medida que o modelo continua a evoluir, é provável que o seu impacto na indústria e na investigação cresça, abrindo caminho a novas oportunidades para inovações baseadas na IA.

Estamos muito satisfeitos com a recepção positiva do Gemini 2.0 Flash Thinking que discutimos em dezembro.

Hoje estamos compartilhando a atualização do teste (gemini-2.0-flash-thinking-exp-01-21) com melhor desempenho em matemática, ciências e escalas de pensamento multimodal 📈:
• AIME:… pic.twitter.com/ZvZwaTC7te

-Jeff Dean (@JeffDean) 21 de janeiro de 2025

Confira Detalhes e experimente o modelo Flash Thinking mais recente no Google AI Studio. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.

🚨 [Recommended Read] Nebius AI Studio se estende com modelos de visão, novos modelos de linguagem, embeddings e LoRA ^(Promovido)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

📄 Conheça 'Height': ferramenta independente de gerenciamento de projetos (patrocinado)

Source link

Detalhes técnicos e benefícios

Detalhes de desempenho e conquistas de medição

A conclusão

Você também pode gostar...

Pesquisadores do MIT e da Universidade de Pequim apresentam um método autorregulatório para melhorar a segurança e a confiabilidade de modelos de linguagem em larga escala

Ataques seletivos de frequência contra divisores de sinal sem fio com base em aprendizado profundo

OpenAI lança aplicativo ChatGPT para Windows

Deixe um comentário Cancelar resposta