O advento dos LLMs impulsionou avanços na IA durante décadas. Um desses desenvolvimentos de LLMs são os Agentes, que replicam significativamente o pensamento humano. Um agente é um sistema que pode executar tarefas complexas seguindo um processo de pensamento semelhante ao humano: pensar (solução de problemas), reunir (contexto de conhecimento passado), analisar (situações e dados) e adaptar (com base no estilo). e comentários). Os agentes motivam o sistema com tarefas flexíveis e inteligentes, incluindo planejamento, análise de dados, recuperação de dados e uso de experiência anterior para modelar.
Um agente típico tem quatro partes:
- Mente: LLM com recursos avançados de processamento, como notificações.
- Memória: Por último, mas não menos importante, lembre-se das informações.
- Edição: Dividir as tarefas em subsequências e criar estratégias para cada uma.
- Ferramentas: Conectores que conectam LLMs ao mundo exterior, semelhante à conexão de duas peças de LEGO. As ferramentas permitem que os agentes executem diferentes tarefas integrando LLMs com bancos de dados, calculadoras ou APIs.
Agora que estabelecemos as maravilhas dos agentes na transformação do LLM comum em uma ferramenta especial e inteligente, é necessário avaliar a eficácia e a confiabilidade do agente. Teste de agente não só garante a qualidade do quadro em questão, mas também identifica as melhores práticas e minimiza ineficiências e estrangulamentos. Este artigo discute quatro métodos de medição do desempenho do agente.
- Agente como Juiz: Testando IA por IA e IA. Os LLMs assumem o papel de juiz, vigilante e examinador do programa. Um juiz analisa a resposta do teste e toma uma decisão com base na precisão, integridade, relevância, oportunidade e custo-benefício. O examinador faz a ligação entre o juiz e o examinado, atribuindo tarefas alvo e recebendo feedback dos juízes. O examinador também fornece explicações e explicações ao examinando do LLM. A estrutura “agente como juiz” consiste em oito módulos interativos. Os agentes desempenham o papel de juiz muito melhor do que os LLMs, e este método possui um alto nível de alinhamento com a avaliação humana. Um exemplo é o teste OpenHands, onde o teste do agente teve um desempenho 30% melhor do que o julgamento do LLM.
- Estrutura de Avaliação de Aplicativos Agentes (AAEF) avalia o desempenho dos agentes em tarefas específicas. Resultados qualitativos como eficiência, eficácia e flexibilidade são medidos em agentes com quatro componentes: Eficácia no Uso de Ferramentas (TUE), Compatibilidade e Recuperação de Memória (MCR), Índice de Planejamento Estratégico (SPI) e Componente de Interação de Conteúdo (CSS). Cada um desses especialistas em diferentes critérios de teste, desde a seleção de ferramentas adequadas até a medição da memória, a capacidade de planejar e executar e a capacidade de trabalhar em paralelo.
- MOSAC IA: O experimental Mosaic AI Agent Framework, anunciado pela Databricks, resolve vários desafios simultaneamente. Ele fornece um conjunto integrado de métricas, incluindo, entre outros, precisão, exatidão, recall e pontuação F1, para simplificar o processo de seleção das métricas corretas para teste. Também inclui análises humanas e feedback para definir respostas de alta qualidade. Além de fornecer um pipeline robusto para testes, o Mosaic AI também possui integração MLFlow para levar um modelo do desenvolvimento à produção e, ao mesmo tempo, otimizá-lo. Mosaic AI também fornece um SDK simplificado para gerenciamento do ciclo de vida de aplicativos.
- WORFEVAL: é um protocolo estruturado que ajuda a avaliar as capacidades de desempenho do agente LLM com algoritmos quantitativos baseados em sequenciamento avançado e correspondência de subtexto. Este processo de teste compara as cadeias de nós previstas e os gráficos de fluxo de trabalho com o fluxo correto. WORFEVAL vem na extremidade avançada do espectro, onde a aplicação do agente é realizada em estruturas complexas, como gráficos acíclicos direcionados, em um contexto multifacetado.
Cada um dos métodos acima ajuda os desenvolvedores a verificar se seu agente está funcionando satisfatoriamente e a encontrar a configuração perfeita, mas eles têm suas desvantagens. Discutir O julgamento do agente pode ser questionado primeiro em tarefas complexas que exigem conhecimento profundo. Sempre se pode perguntar sobre a habilidade do professor! Mesmo agentes treinados em dados específicos podem ter preconceitos que impedem a generalização. A AAEF enfrenta um destino semelhante em operações complexas e dinâmicas. MOSAIC AI é bom, mas sua confiabilidade diminui à medida que a escala e a diversidade dos dados aumentam. Na extremidade superior do espectro, o WORFEVAL tem um bom desempenho mesmo em dados complexos, mas seu desempenho depende do fluxo de trabalho correto, que é uma variável aleatória – a definição de uma variável de fluxo de trabalho correta de computador para computador.
A conclusão: Agentes é uma tentativa de tornar os LLMs mais humanos em suas habilidades de pensamento e tomada de decisão. Portanto a avaliação dos agentes é importante para verificar suas reivindicações e qualidade. Agentes como Judge, Agentic Application Testing Framework, Mosaic AI e WORFEVAL são os principais métodos de teste atuais. Enquanto agentes como Judge começam com a ideia intuitiva básica de revisão por pares, WORFEVAL lida com dados complexos. Embora estes métodos de teste funcionem bem nos seus diferentes contextos, eles enfrentam dificuldades à medida que as tarefas se tornam mais complexas e as estruturas se tornam mais complexas.
Adeeba Alam Ansari está atualmente cursando um diploma duplo no Instituto Indiano de Tecnologia (IIT) Kharagpur, cursando B.Tech em Engenharia Industrial e M.Tech em Engenharia Financeira. Com profundo interesse em aprendizado de máquina e inteligência artificial, ele é um leitor ávido e uma pessoa curiosa. Adeeba acredita firmemente no poder da tecnologia para capacitar a sociedade e promover o bem-estar através de soluções inovadoras impulsionadas pela empatia e uma compreensão profunda dos desafios do mundo real.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)