No campo em desenvolvimento da inteligência artificial, um grande desafio tem sido construir modelos que sejam altamente eficazes em tarefas específicas e, ao mesmo tempo, sejam capazes de compreender e raciocinar com vários tipos de dados, como texto, imagens e áudio. Os modelos linguísticos tradicionais de grande escala têm sido bem-sucedidos em tarefas de processamento de linguagem natural (PNL), mas muitas vezes têm dificuldade para lidar com vários métodos simultaneamente. As tarefas multimodais requerem um modelo que possa efetivamente integrar e considerar diferentes tipos de dados, o que requer recursos computacionais significativos, grandes conjuntos de dados e arquiteturas bem projetadas. Além disso, o elevado custo e a natureza proprietária de muitos modelos topo de gama criam barreiras para instituições e promotores mais pequenos, limitando a inovação mais ampla.
Conheça a grande Pixtral: um passo em direção à IA multimodal
A Mistral AI deu um passo lógico com o lançamento do Pixtral Large: um modelo multimodal de 124 bilhões de parâmetros construído sobre o Mistral Large 2. Este modelo, lançado em pesos abertos, visa tornar a IA avançada mais acessível. O Mistral Large 2 já se estabeleceu como um modelo de conversor grande e de alto desempenho, e a Pixtral se baseia nessa base, expandindo suas capacidades para compreender e responder a todos os textos, imagens e outros tipos de dados. Ao abrir a fonte do Pixtral Large, a Mistral AI atende à necessidade de modelos multimodais acessíveis, contribuindo para o desenvolvimento da sociedade e promovendo a colaboração em pesquisa.
Detalhes técnicos
Tecnicamente, o Pixtral Large suporta o núcleo transformador do Mistral Large 2, adaptando-o para integração multimodal através da introdução de camadas de atenção cruzada projetadas para integrar informações de todas as diferentes modalidades. Com 124 bilhões de parâmetros, o modelo é ajustado para uma variedade de conjuntos de dados, incluindo texto, imagens e anotações multimídia. Um dos principais pontos fortes do Pixtral Large é seu design geral, que permite especializar-se em uma variedade de gêneros, mantendo ao mesmo tempo um entendimento geral. Essa flexibilidade permite resultados multimodais de alta qualidade, seja respondendo a perguntas sobre imagens, gerando descrições ou fornecendo insights a partir de dados textuais e visuais. Além disso, o modelo de pesos abertos permite aos pesquisadores ajustar o Pixtral para tarefas específicas, proporcionando oportunidades de integração do modelo para necessidades especiais.
Para o uso bem-sucedido do Pixtral Large, a Mistral AI recomenda o emprego da biblioteca vLLM em pipelines prontos para produção. Certifique-se de que o vLLM versão 1.6.2 ou superior esteja instalado:
pip install --upgrade vllm
Além disso, insira mistral_common
versão 1.4.4 ou superior:
pip install --upgrade mistral_common
Para uma aplicação mais específica, considere o seguinte exemplo:
from vllm import LLM
from vllm.sampling_params import SamplingParams
model_name = "mistralai/Pixtral-12B-2409"
sampling_params = SamplingParams(max_tokens=8192)
llm = LLM(model=model_name, tokenizer_mode="mistral")
prompt = "Describe this image in one sentence."
image_url = "
messages = [
{
"role": "user",
"content": [
{"type": "text", "text": prompt},
{"type": "image_url", "image_url": {"url": image_url}}
]
},
]
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
Este script inicializa o modelo Pixtral e processa uma mensagem do usuário contendo texto e uma URL de imagem, gerando uma resposta descritiva.
Significância e impacto potencial
O lançamento do Pixtral Large é importante por vários motivos. Em primeiro lugar, a inclusão de pesos abertos proporciona uma oportunidade para a comunidade global de investigação e as startups experimentarem, personalizarem e inovarem sem incorrer nos elevados custos frequentemente associados aos modelos multimodais de IA. Isso possibilita que pequenas empresas e instituições educacionais desenvolvam aplicações impactantes e específicas de domínio. Os testes iniciais conduzidos pela Mistral AI mostram que a Pixtral supera seus antecessores em tarefas multimodais, mostrando maior precisão na resposta a consultas visuais (VQA), melhor geração de texto para interpretação de imagens e forte desempenho em benchmarks como COCO e VQAv2. Os resultados dos testes mostram que o Pixtral Large alcança uma melhoria de até 7% na precisão em comparação com modelos semelhantes em conjuntos de dados de referência, destacando o seu desempenho na compreensão e ligação de diferentes tipos de conteúdo. Este desenvolvimento pode apoiar o desenvolvimento de aplicações desde edição automática de mídia até assistentes interativos.
A conclusão
O lançamento do Mistral AI para Pixtral Large marca um desenvolvimento significativo no campo da IA multimodal. Com base na base sólida fornecida pelo Mistral Large 2, o Pixtral Large amplia os recursos para vários formatos de dados, mantendo um desempenho robusto. A natureza de código aberto do modelo torna-o acessível a desenvolvedores, startups e investigadores, promovendo a inclusão e a inovação num campo onde tais oportunidades são muitas vezes limitadas. Este programa Mistral AI não só expande as possibilidades técnicas dos modelos de IA, mas também visa disponibilizar amplamente recursos avançados de IA, fornecendo uma plataforma para futuras conquistas. Será interessante ver como este modelo é utilizado em todas as indústrias, incentivando a criatividade e lidando com problemas complexos que se beneficiam da compreensão integrada dos dados multimodais.
Veja detalhes e modelo no rosto abraçado. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
Por que os modelos de linguagem de IA ainda estão em risco: principais insights do relatório da Kili Technology sobre a vulnerabilidade de modelos de linguagem em grande escala [Read the full technical report here]
Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.
🐝🐝 Evento do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar o modelo de suas equipes – a IA está mudando o jogo, rápido.