Ruliad AI lança DeepThought-8B: um novo modelo de microlinguagem construído em LLaMA-3.1 com escalonamento de computação em tempo de teste e entrega de pensamento transparente

Ruliad IA lançado Deepthought-8B-LLaMA-v0.01-alphaque se concentra na transparência e no controle do pensamento. Este modelo, construído no LLaMA-3.1 com 8 bilhões de parâmetros, foi projetado para fornecer capacidades complexas de resolução de problemas semelhantes a modelos maiores, mantendo a eficiência.

Deepthought-8B se distingue por recursos exclusivos que visam tornar o pensamento de IA acessível e fácil de entender. Uma característica marcante é a sua forma de pensar transparente, onde todas as etapas do processo de tomada de decisão são documentadas. Esse recurso garante que os usuários possam seguir o processo de pensamento do modelo, que é gerado em um formato JSON estruturado. Este pensamento passo a passo cria confiança nos seus resultados e facilita a integração perfeita em aplicações que requerem uma compreensão clara e explicável da IA. Outra característica do Deepthought-8B são seus padrões de pensamento programáveis. Ao contrário de muitos modelos que requerem reciclagem para diferentes tarefas, este modelo permite a personalização de métodos de pensamento sem exigir reciclagem. Essa adaptabilidade o torna adequado para uma variedade de aplicações, desde tarefas de codificação até situações complexas de resolução de problemas. Além disso, sua robustez em tempo de computação garante que ele possa ajustar a profundidade do pensamento com base na complexidade das tarefas, proporcionando aos usuários uma ferramenta versátil para diversos desafios.

Deepthought-8B funciona bem em sistemas com 16 GB de VRAM ou mais e oferece suporte a recursos avançados como Flash Attention 2 para melhor desempenho. Seu ecossistema tecnológico é construído em estruturas amplamente utilizadas, como Python, PyTorch e a biblioteca Transformers, permitindo compatibilidade do desenvolvedor e facilidade de uso. Cada cadeia de raciocínio no modelo inclui etapas como compreensão do problema, coleta de dados, análise, cálculo, validação, conclusão e implementação. Essas etapas claramente definidas melhoram a usabilidade do modelo e o posicionam como uma ferramenta valiosa para domínios que exigem fluxos de trabalho lógicos robustos.

O Deepthought-8B também mostra forte desempenho em vários benchmarks, como codificação e tarefas matemáticas de forma eficiente. No entanto, tem limitações. Raciocínio matemático complexo, processamento de conteúdo de longo alcance e manipulação de caracteres extremos são áreas onde o modelo pode ser melhorado. Aceitar essas limitações reflete a visibilidade da Ruliad na introdução dos recursos do modelo, incentivando a confiança do usuário e incentivando feedback positivo para futuras iterações. A Ruliad posicionou o Deepthought-8B como uma solução empresarial comercial, com termos de licença que apoiam esta abordagem. O modelo vem com opções de suporte abrangentes, incluindo mídia social e comunicação por e-mail, para garantir que os usuários possam obter ajuda facilmente. A documentação do Deepthought-8B inclui guias detalhados de instalação e uso.

Instalação

pip install torch transformers
# Optional: Install Flash Attention 2 for better performance
pip install flash-attn

Uso

1.Primeiro, defina seu token HuggingFace como uma variável de ambiente:

export HF_TOKEN=your_token_here
export HF_HUB_ENABLE_HF_TRANSFER=1

2.Use o modelo em seu código Python:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Initialize the model
model_name = "ruliad/deepthought-8b-llama-v0.01-alpha"
tokenizer = AutoTokenizer.from_pretrained(
    model_name,
    add_bos_token=False,
    trust_remote_code=True,
    padding="left",
    torch_dtype=torch.bfloat16,
)

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    attn_implementation="flash_attention_2",  # Use "eager" (or omit) if flash_attn is not installed
    use_cache=True,
    trust_remote_code=True,
)

3.Use o script de exemplo fornecido:

python deepthought_inference.py

Concluindo, Deepthought-8B, com 8,03 bilhões de parâmetros, é o maior concorrente da escala 70B em tarefas de consultoria, utilizando recursos avançados como resultados formatados em JSON e métodos de navegação personalizáveis. Sua capacidade de executar sistemas com apenas 16 GB de VRAM garante acessibilidade, enquanto o dimensionamento do tempo de teste do computador permite que os usuários ajustem o desempenho à complexidade da tarefa. Com mais de 10 mil downloads no último mês, a aceitação do modelo enfatiza sua funcionalidade e adequação.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 [Partner with us]: 'Próxima revista/relatório – IA de código aberto na manufatura'

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)

Source link

Você também pode gostar...

A ferramenta de citação oferece uma nova abordagem para conteúdo confiável gerado por IA | Notícias do MIT

Este artigo sobre IA apresenta um método de aprendizagem por reforço inverso de alta entropia (IRL) para melhorar a qualidade da amostragem de modelos de distribuição produtiva

Meta AI apresenta AdaCache: um método de treinamento gratuito para acelerar transformadores de difusão de vídeo (DiTs)

Deixe um comentário Cancelar resposta