Nesta lição, aprenderemos a construir um toxenizer personalizado usando Tiktoken a biblioteca. Esse processo inclui o modelo de carregamento do tokenzer anteriormente treinado, descrevendo bases especiais e tokens, iniciando token com uma declaração típica específica de quebrar tokens e verificar um texto específico. Essa configuração é importante para as funções PNL que exigem controle direto do texto.
from pathlib import Path
import tiktoken
from tiktoken.load import load_tiktoken_bpe
import json
Aqui, importamos várias bibliotecas chave para a operação do texto e o aprendizado da máquina. Ele usa o método do PathLib para o Easy File Path Management, enquanto o Tiktoken e o SAD_TIKTOKEN_BPE fazem o upload e o trabalho com o par de pares de par de pares de bytes oCodizer.
tokenizer_path = "./content/tokenizer.model"
num_reserved_special_tokens = 256
mergeable_ranks = load_tiktoken_bpe(tokenizer_path)
num_base_tokens = len(mergeable_ranks)
special_tokens = [
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
]
Aqui, colocamos o caminho para o modelo Tokenzer, explicando 256 tokens especiais armazenados. Em seguida, adquira níveis regulares, que forma os padrões básicos, que é a quantidade de tokens básicos, e descreve uma lista de tipos especiais de texto e outros fins baseados no banco de dados.
reserved_tokens = [
f""
for i in range(num_reserved_special_tokens - len(special_tokens))
]
special_tokens = special_tokens + reserved_tokens
tokenizer = tiktoken.Encoding(
name=Path(tokenizer_path).name,
pat_str=r"(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^rnp{L}p{N}]?p{L}+|p{N}{1,3}| ?[^sp{L}p{N}]+[rn]*|s*[rn]+|s+(?!S)|s+",
mergeable_ranks=mergeable_ranks,
special_tokens={token: len(mergeable_ranks) + i for i, token in enumerate(special_tokens)},
)
Agora, estamos desenvolvendo ativamente os tokens instalados armazenados até 256 e informa a lista de tokens definidos anteriormente. Inicia o tokenzer usando Tiktoken. Incluindo um código com a especificação ordinária do texto, os níveis integrados são usados como figura base e tokens de mapa especiais em diferentes IDs de token.
#-------------------------------------------------------------------------
# Test the tokenizer with a sample text
#-------------------------------------------------------------------------
sample_text = "Hello, this is a test of the updated tokenizer!"
encoded = tokenizer.encode(sample_text)
decoded = tokenizer.decode(encoded)
print("Sample Text:", sample_text)
print("Encoded Tokens:", encoded)
print("Decoded Text:", decoded)
Examinamos o tokenzer inserindo o código ID do token e converte esses IDs no texto. Imprima o primeiro texto, os tokens listados e um texto fixo para garantir que o token seja eficaz.
Aqui, incluindo o thread “Hey” em seus IDs de token correspondentes usando um método para inserir o código do tokenzer.
Em conclusão, após esta lição ensinará como definir a biblioteca BPE BPenizer Tiktoken Toktoken. Você viu como pode baixar o modelo de treinado anteriormente, explicar tokens e tokens básicos e iniciar o token com uma palestra de token específica. Finalmente, você confirmou o desempenho do Tokelzer inserindo código e decorações da amostra. Essa configuração é uma etapa básica para qualquer projeto de PNL que requer processamento personalizado e de desempenho personalizado.
Aqui está o Caderno de Colab do projeto acima. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 75k + ml subreddit.
🚨 Recomendado para um código aberto de IA' (Atualizado)
O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.
🚨 Plataforma de IA de código aberto recomendado: 'Interestagente Sistema de código aberto com várias fontes para testar o sistema de IA difícil (promovido)