A equipe da Internet Integrity Initiative deu um passo significativo em direção à privacidade de dados ao liberá-los Piranha-v1um modelo projetado especificamente para proteger e proteger informações pessoais. Esta ferramenta foi projetada para identificar informações de identificação pessoal (PII) em uma variedade de dados de texto, fornecendo um serviço valioso em um momento em que as preocupações com a privacidade digital são fundamentais.
Piiranha-v1, um modelo de codificador leve de 280M para detecção de PII, lançado sob a licença do MIT, oferece recursos avançados na detecção de informações de identificação pessoal. Suportando seis idiomas, inglês, espanhol, francês, alemão, italiano e holandês, o Piiranha-v1 alcança detecção quase idêntica, com uma taxa de detecção de token de 98,27% PII e uma precisão de classificação geral de 99,44%. É muito eficaz na identificação de 17 tipos de PII, com 100% de precisão para e-mails e quase precisão para senhas. Piiranha-v1 é baseado na poderosa arquitetura DeBERTa-v3. Isso o torna uma ferramenta versátil, adequada para esforços globais de proteção de dados.
O desempenho do modelo na detecção de vários tipos de PII é particularmente digno de nota. Por exemplo, tem uma precisão quase perfeita na identificação de endereços de e-mail e números de telefone, com uma pontuação F1 de 1,0 e 0,99, respectivamente. O Piiranha-v1 é muito eficaz na detecção de senhas e nomes de usuário, com quase 100% de precisão nessas áreas. Essas métricas demonstram sua utilidade na proteção de informações confidenciais em comunicações digitais e ambientes transacionais.
Um dos principais benefícios do Piiranha-v1 é a capacidade de sinalizar PII ou certas categorias de dados que podem estar perdidos. Por exemplo, o modelo às vezes pode confundir nomes e sobrenomes, mas ainda assim identificar corretamente as informações como PII. Essa flexibilidade torna o Piiranha-v1 uma ferramenta robusta para aplicações do mundo real onde conflitos de dados são comuns. Tal classificação incorreta, embora tecnicamente deficiente, não compromete o objetivo principal do modelo de identificar e proteger dados confidenciais.
Em colaboração com parceiros como Hugging Face e Akash Network, a equipe da Internet Integrity Initiative treinou o Piiranha-v1 usando um extenso conjunto de dados que inclui mais de 400.000 registros de PII criptografados. Este extenso treinamento resultou em um modelo que possui alta precisão e apresenta robustez em uma variedade de situações e contextos linguísticos. A utilização de GPUs H100 durante o treinamento permitiu que o modelo atingisse altos níveis de eficiência, garantindo rápida identificação de PII em aplicações em tempo real.
Apesar de sua alta precisão, os desenvolvedores do Piiranha-v1 insistem que ele deve ser usado com cautela. Embora o modelo seja muito confiável, a equipe não é responsável por quaisquer previsões incorretas que possa produzir. Este conselho serve como um lembrete das limitações inerentes a qualquer modelo de aprendizado de máquina, especialmente aquele encarregado da complexa tarefa de descoberta de PII em vários idiomas e formatos de dados.
O processo de treinamento do Piiranha-v1 foi cuidadosamente planejado para melhorar seu desempenho. O modelo foi treinado por cinco períodos usando um tamanho de cluster de 128. Utilizou treinamento de precisão misto com Native AMP para garantir velocidade e precisão durante o processo de aprendizagem. O resultado é um modelo altamente refinado que pode detectar variações sutis em tokens PII, o que é fundamental para identificar informações que podem estar ocultas ou apresentadas em formatos incomuns.
Os resultados dos testes do modelo continuam a destacar as suas impressionantes capacidades. O Piiranha-v1 atinge uma pontuação F1 de 93,12% quando testado em um conjunto de dados contendo aproximadamente 73.000 sentenças. Suas métricas de precisão e recall também são fortes, 93,16% e 93,08%, respectivamente. Esses números, embora ligeiramente inferiores à precisão geral devido à função do modelo multiclassificação, ainda representam um alto nível de adequação para detecção de PII.
Fisicamente, o Piiranha-v1 pode ser usado em diversas aplicações. É mais adequado para organizações que lidam com muitos dados pessoais, como instituições financeiras, prestadores de cuidados de saúde e empresas de tecnologia. Ao integrar o Piiranha-v1 em seus pipelines de processamento de dados, essas empresas e organizações podem garantir que informações confidenciais sejam automaticamente sinalizadas e editadas, reduzindo o risco de violações de dados e garantindo a conformidade com leis de privacidade, como GDPR e CCPA.
O modelo Piiranha-v1 também está disponível para uso com a plataforma Hugging Face, onde pode ser facilmente integrado aos fluxos de trabalho existentes. O modelo está sujeito ao Creative Commons BY-NC-ND 4.0, que permite uso extensivo dentro dos limites de aplicações não comerciais. Esta abordagem de acesso aberto reforça ainda mais o compromisso da Equipe da Iniciativa de Integridade da Internet em melhorar a privacidade dos dados em todo o mundo.
Concluindo, o Piiranha-v1 representa um avanço significativo na detecção de PII. Sua alta precisão, suporte multilíngue e possibilidades flexíveis de aplicação fazem dele uma ferramenta essencial para qualquer organização que busca melhorar seus esforços de privacidade de dados. A equipe da Internet Integrity Initiative apresentou um modelo que atende aos desafios técnicos da recuperação de PII e reflete a crescente importância da proteção de informações pessoais no mundo digital de hoje. À medida que as preocupações com a privacidade dos dados continuam a aumentar, ferramentas como o Piiranha-v1 desempenharão, sem dúvida, um papel importante na proteção das informações sensíveis das pessoas contra a exposição e a utilização indevida.
Confira Cartão Modelo e Caderno Colab. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima.
📨 Se você gosta do nosso trabalho, vai gostar do nosso Boletim informativo..
Não se esqueça de participar do nosso Mais de 50k ML SubReddit
⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
👨💻 HyperAgent: agentes genéricos de engenharia de software para resolver tarefas de codificação em escala.