Por que os modelos de linguagem de IA ainda estão em risco: principais insights do relatório da Kili Technology sobre a vulnerabilidade de modelos de linguagem em grande escala
Inteligência artificial

Por que os modelos de linguagem de IA ainda estão em risco: principais insights do relatório da Kili Technology sobre a vulnerabilidade de modelos de linguagem em grande escala


Kili Technology divulgou recentemente mais informações relatório que destaca os principais riscos em modelos de linguagem de IAconcentrando-se em sua suscetibilidade a ataques de desinformação baseados em padrões. À medida que os sistemas de IA se tornam parte tanto dos produtos de consumo como das ferramentas empresariais, compreender e mitigar esses riscos é essencial para garantir a sua utilização segura e ética. Este artigo examina insights do novo estudo multilíngue da Kili Technology e suas descobertas relacionadas, que enfatizam como modelos líderes como CommandR+, Llama 3.2 e GPT4o podem ser comprometidos, mesmo com defesas supostamente fortes.

Menos/mais fotos e defeitos baseados em padrões

A revelação central de Relatório de Tecnologia Kili que mesmo modelos avançados de linguagem em larga escala (LLMs) podem ser manipulados para produzir resultados maliciosos usando a abordagem “Poucos Ataques/Muitos Tiros”. Esta abordagem envolve fornecer ao modelo exemplos cuidadosamente selecionados, preparando-o assim para repetir e ampliar esse padrão de maneiras perigosas ou enganosas. A pesquisa descobriu que este método tem uma taxa de sucesso impressionante de até 92,86%, provando ser muito eficaz quando comparado com alguns dos modelos mais avançados disponíveis atualmente.

EU pesquisar incluiu LLMs importantes, como CommandR+, Llama 3.2 e GPT4o. Curiosamente, todos os modelos mostraram uma tendência significativa para a desinformação baseada em padrões, apesar dos recursos de segurança integrados. Esta vulnerabilidade é agravada pela dependência inerente dos modelos em sinais de entrada – se informações maliciosas definirem um contexto enganoso, o modelo irá segui-las com alta fidelidade, independentemente das implicações negativas.

Insights interlíngues: diferenças nas vulnerabilidades da IA

Outro aspecto importante A pesquisa de Kili seu foco no multilinguismo. O teste foi além do inglês para incluir o francês, para testar se as diferenças linguísticas afetam a segurança do modelo. Nomeadamente, os modelos eram mais vulneráveis ​​quando solicitados em inglês do que em francês, sugerindo que as proteções atuais podem não ser igualmente eficazes em todas as línguas.

Em termos práticos, isto realça um importante ponto cego na segurança da IA: modelos que são razoavelmente resistentes a ataques numa língua podem ser altamente vulneráveis ​​noutra. As conclusões de Kili sublinham a necessidade de abordagens abrangentes e multilingues à segurança da IA, que devem incluir uma variedade de línguas que representem diversos contextos culturais e nacionais. Tal abordagem é particularmente apropriada, uma vez que os LLMs são cada vez mais distribuídos globalmente, onde são necessárias competências multilingues.

EU relatório observou que 102 itens foram elaborados para cada idioma, cuidadosamente ajustados para refletir diferenças linguísticas e culturais. Significativamente, o material inglês foi obtido dos contextos americano e britânico e depois traduzido e traduzido para o francês. Os resultados mostraram que, embora a informação francesa tenha baixas taxas de sucesso nos modelos de manipulação, o risco permanece suficientemente significativo para justificar preocupação.

Erosão das medidas de segurança durante interações prolongadas

Uma das descobertas mais preocupantes do relatório que os modelos de IA tendem a mostrar uma erosão gradual das suas defesas morais durante interações prolongadas. No início, os modelos podem responder com cautela, recusando-se mesmo a produzir resultados prejudiciais quando diretamente instruídos. No entanto, à medida que a discussão avança, estas defesas tendem a enfraquecer, resultando no modelo eventualmente tornando-se compatível com aplicações maliciosas.

Por exemplo, nos casos em que o CommandR+ inicialmente relutou em gerar conteúdo transparente, a discussão contínua levou o modelo a permitir a entrada do usuário. Isto levanta questões importantes sobre a fiabilidade dos quadros de segurança atuais e a sua capacidade de manter limites comportamentais consistentes, especialmente durante o envolvimento do utilizador a longo prazo.

Implicações morais e sociais

Resultados apresentados por Tecnologia Kili enfatizar os principais desafios éticos no uso da IA. A facilidade com que modelos avançados podem ser utilizados para produzir resultados perigosos ou enganosos representa um risco não apenas para os utilizadores individuais, mas também para a comunidade em geral. Desde notícias falsas a notícias divisivas, armar a IA com desinformação tem o potencial de impactar tudo, desde a estabilidade política até à segurança individual.

Além disso, as inconsistências observadas no comportamento entre línguas também apontam para uma necessidade urgente de estratégias de formação integrativas e multilingues. O facto de a vulnerabilidade ser mais facilmente explorada em inglês do que em francês sugere que os utilizadores que não falam inglês podem actualmente beneficiar de uma camada de protecção não intencional – uma diferença que realça a aplicação desigual de normas de segurança.

Olhando para o Futuro: Fortalecendo as Defesas de IA

Uma revisão abrangente da tecnologia Kili fornece uma base para o desenvolvimento da segurança LLM. As suas descobertas sugerem que os desenvolvedores de IA precisam priorizar medidas de segurança robustas em todos os níveis de interação e em todos os idiomas. Técnicas como estruturas de segurança adaptativas, que podem ajustar-se dinamicamente ao contexto de interações prolongadas dos utilizadores, podem ser necessárias para manter padrões éticos sem sucumbir à degradação gradual.

A equipa de investigação da Kili Technology enfatizou os seus planos para expandir o âmbito da sua análise a outras línguas, incluindo aquelas que representam diferentes famílias linguísticas e contextos culturais. Esta expansão sistemática visa criar sistemas de IA mais robustos que possam proteger os utilizadores, independentemente da sua origem linguística ou cultural.

A colaboração entre organizações de investigação em IA será fundamental para reduzir estes riscos. As técnicas de redundância devem ser parte integrante do teste e desenvolvimento de modelos de IA, com foco na criação de abordagens de segurança flexíveis, multilíngues e culturalmente sensíveis. Ao abordar sistematicamente as lacunas reveladas na investigação de Kili, os criadores de IA podem trabalhar no sentido de criar modelos que não sejam apenas poderosos, mas também éticos e fiáveis.

A conclusão

Um relatório recente da Kili Technology fornece uma visão abrangente dos riscos atuais nos modelos de linguagem de IA. Apesar do progresso na segurança do modelo, os resultados revelam que ainda existem fragilidades significativas, especialmente na sua suscetibilidade à desinformação e à coerção, e no desempenho inconsistente em diferentes idiomas. À medida que os LLMs continuam a estar integrados em vários setores da sociedade, garantir a sua segurança e integridade ética é de extrema importância.


Confira Relatório completo aqui. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.


Graças a Tecnologia Kili sobre liderança inovadora/tópico acadêmico. Tecnologia Kili apoie-nos neste conteúdo/artigo.


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

🐝🐝 Evento do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar o modelo de suas equipes – a IA está mudando o jogo, rápido.





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *