Guia de etapa para a configuração do zokhozer de zona única com Tiktoken do NLP Advanced NLP Apps Epython

Nesta lição, aprenderemos a construir um toxenizer personalizado usando Tiktoken a biblioteca. Esse processo inclui o modelo de carregamento do tokenzer anteriormente treinado, descrevendo bases especiais e tokens, iniciando token com uma declaração típica específica de quebrar tokens e verificar um texto específico. Essa configuração é importante para as funções PNL que exigem controle direto do texto.

from pathlib import Path
import tiktoken
from tiktoken.load import load_tiktoken_bpe
import json

Aqui, importamos várias bibliotecas chave para a operação do texto e o aprendizado da máquina. Ele usa o método do PathLib para o Easy File Path Management, enquanto o Tiktoken e o SAD_TIKTOKEN_BPE fazem o upload e o trabalho com o par de pares de par de pares de bytes oCodizer.

tokenizer_path = "./content/tokenizer.model"
num_reserved_special_tokens = 256


mergeable_ranks = load_tiktoken_bpe(tokenizer_path)


num_base_tokens = len(mergeable_ranks)
special_tokens = [
    "",
    "",
    "",
    "",
    "",
    "",
    "",
    "",
    "",
    "",
    "",
]

Aqui, colocamos o caminho para o modelo Tokenzer, explicando 256 tokens especiais armazenados. Em seguida, adquira níveis regulares, que forma os padrões básicos, que é a quantidade de tokens básicos, e descreve uma lista de tipos especiais de texto e outros fins baseados no banco de dados.

reserved_tokens = [
    f""
    for i in range(num_reserved_special_tokens - len(special_tokens))
]
special_tokens = special_tokens + reserved_tokens


tokenizer = tiktoken.Encoding(
    name=Path(tokenizer_path).name,
    pat_str=r"(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^rnp{L}p{N}]?p{L}+|p{N}{1,3}| ?[^sp{L}p{N}]+[rn]*|s*[rn]+|s+(?!S)|s+",
    mergeable_ranks=mergeable_ranks,
    special_tokens={token: len(mergeable_ranks) + i for i, token in enumerate(special_tokens)},
)

Agora, estamos desenvolvendo ativamente os tokens instalados armazenados até 256 e informa a lista de tokens definidos anteriormente. Inicia o tokenzer usando Tiktoken. Incluindo um código com a especificação ordinária do texto, os níveis integrados são usados como figura base e tokens de mapa especiais em diferentes IDs de token.

#-------------------------------------------------------------------------
# Test the tokenizer with a sample text
#-------------------------------------------------------------------------
sample_text = "Hello, this is a test of the updated tokenizer!"
encoded = tokenizer.encode(sample_text)
decoded = tokenizer.decode(encoded)


print("Sample Text:", sample_text)
print("Encoded Tokens:", encoded)
print("Decoded Text:", decoded)

Examinamos o tokenzer inserindo o código ID do token e converte esses IDs no texto. Imprima o primeiro texto, os tokens listados e um texto fixo para garantir que o token seja eficaz.

Aqui, incluindo o thread “Hey” em seus IDs de token correspondentes usando um método para inserir o código do tokenzer.

Em conclusão, após esta lição ensinará como definir a biblioteca BPE BPenizer Tiktoken Toktoken. Você viu como pode baixar o modelo de treinado anteriormente, explicar tokens e tokens básicos e iniciar o token com uma palestra de token específica. Finalmente, você confirmou o desempenho do Tokelzer inserindo código e decorações da amostra. Essa configuração é uma etapa básica para qualquer projeto de PNL que requer processamento personalizado e de desempenho personalizado.

Aqui está o Caderno de Colab do projeto acima. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 Recomendado para um código aberto de IA' _(Atualizado)

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.

🚨 Plataforma de IA de código aberto recomendado: 'Interestagente Sistema de código aberto com várias fontes para testar o sistema de IA difícil (promovido)

Source link

Você também pode gostar...

Pesquisadores da CMU propõem agentes da Web baseados em API: uma nova abordagem de IA para agentes da Web, permitindo-lhes usar APIs além das técnicas tradicionais de navegação na Web

Uma visão das conquistas científicas dos EUA | Notícias do MIT

Big Data x Data Warehouse

Deixe um comentário Cancelar resposta