O seu agente LLM está pronto para uso empresarial? Salesforce AI Research lança CRMarena: um novo benchmark de IA projetado para testar agentes de IA em tarefas realistas baseadas em ambientes de trabalho profissionais

O Customer Relationship Management (CRM) tornou-se parte integrante das operações de negócios como um centro para gerenciar interações, dados e processos do cliente. A integração de IA avançada ao CRM pode transformar esses sistemas, automatizando processos de rotina, proporcionando experiências personalizadas e simplificando os esforços de atendimento ao cliente. À medida que as organizações adotam cada vez mais abordagens baseadas em IA, aumenta a necessidade de agentes inteligentes capazes de executar tarefas complexas de CRM. Os modelos linguísticos de grande escala (LLMs) estão na vanguarda deste movimento, melhorando potencialmente os sistemas de CRM para tarefas complexas de tomada de decisão e gestão de dados. No entanto, a implantação destes agentes requer benchmarks rigorosos e realistas para garantir que eles possam lidar com as complexidades típicas dos ambientes de CRM, incluindo o gerenciamento de objetos de dados multifacetados e o cumprimento de protocolos de colaboração específicos.

Ferramentas existentes como WorkArena, WorkBench e Tau-Bench fornecem testes básicos de desempenho de um agente de CRM. No entanto, esses benchmarks testam principalmente funcionalidades simples, como navegação e filtragem de dados, e não capturam as dependências complexas e interações dinâmicas comuns aos dados de CRM. Por exemplo, estas ferramentas devem melhorar as relações de modelagem entre objetos, como pedidos vinculados a contas de clientes ou casos que envolvem vários pontos de contato. Esta falta de complexidade limita a compreensão das capacidades completas dos agentes LLM pelas organizações, criando uma necessidade contínua de um quadro de avaliação abrangente. Um dos principais desafios neste campo é a falta de benchmarks que reflitam com precisão as funções complexas e interligadas exigidas em sistemas reais de CRM.

A equipe de pesquisa de IA da Salesforce abordou essa lacuna com uma introdução CRMArenaum benchmark sofisticado desenvolvido especificamente para testar as capacidades dos agentes de IA em ambientes de CRM. Ao contrário das ferramentas anteriores, o CRMArena simula um sistema CRM do mundo real completo com conexões de dados complexas, permitindo testes rigorosos de agentes de IA em tarefas profissionais de CRM. O processo de desenvolvimento envolveu a colaboração com especialistas na área de CRM que participaram da criação de nove tarefas realistas baseadas em três pessoas diferentes: agentes de serviço, analistas e gerentes. Essas funções incluem funções importantes de CRM, como monitoramento do desempenho do agente, tratamento de consultas complexas de clientes e análise de tendências de dados para melhorar o serviço. O CRMArena inclui 1.170 perguntas exclusivas nessas nove funções, fornecendo uma plataforma abrangente para explorar cenários específicos de CRM.

A arquitetura do CRMArena é baseada em um esquema de CRM modelado no Service Cloud da Salesforce. O pipeline de geração de dados gera um conjunto de dados vinculados de 16 objetos, como contas, pedidos e casos, com dependências complexas semelhantes a ambientes de CRM do mundo real. Para aumentar o realismo, o CRMArena inclui variáveis sutis que reproduzem condições de negócios em constante mudança, como tendências sazonais de compras e variações nas habilidades dos agentes. Este alto nível de comunicação, envolvendo uma média de 1,31 dependências por item, garante que o CRMArena represente com precisão os ambientes de CRM, apresentando aos agentes desafios semelhantes aos que enfrentarão em ambientes profissionais. Além disso, a configuração do CRMArena suporta acesso UI e API a sistemas CRM, permitindo interação direta por meio de chamadas de API e capturando respostas em tempo real.

Os testes de desempenho com CRMArena revelaram que os atuais agentes LLM estão enfrentando dificuldades com tarefas de CRM. Usando a estrutura de feedback do ReAct, o agente mais eficaz alcançou 38,2% de conclusão de tarefas. Quando complementado com ferramentas de condução especiais, o desempenho melhorou para uma taxa de conclusão de 54,4%, destacando uma grande lacuna de desempenho. As tarefas testadas incluem tarefas desafiadoras, como Desambiguação de Entidade Nomeada (NED), Identificação de Violação de Política (PVI) e Análise de Tendência Mensal (MTA), todas as quais exigem que os agentes analisem e interpretem dados complexos. Por exemplo, apenas 90% dos especialistas do domínio confirmaram que a natureza do processamento de dados parecia verdadeira, com mais de 77% classificando elementos individuais dentro de um sistema CRM como “reais” ou “muito reais”. Esses insights revelam lacunas importantes na capacidade dos agentes LLM de compreender dependências dinâmicas em dados de CRM. Esta área deve ser direcionada para aproveitar ao máximo o CRM baseado em IA.

A capacidade da CRMArena de fornecer testes de alta fidelidade vem de seu processo de garantia de qualidade em duas etapas. O pipeline de geração de dados foi otimizado para manter a diversidade nos vários elementos de dados, usando uma abordagem de pequenos lotes que limita a duplicação de conteúdo. Além disso, os processos de garantia de qualidade do CRMArena incluem validação de formato e conteúdo para garantir a consistência e precisão dos dados gerados. Em termos de desenho de perguntas, o CRMArena contém uma mistura de perguntas respondíveis e abertas, com perguntas abertas representando 30% do total. O objetivo é testar a capacidade do agente de identificar e lidar com consultas que não têm solução, refletindo assim áreas reais do CRM onde as informações podem nem sempre estar disponíveis.

As principais conclusões da pesquisa da CRMArena incluem:

Cobertura de tarefas de CRM: CRMArena cobre nove tarefas de CRM diferentes, representando agentes de serviço, analistas e gerentes, cobrindo mais de 1.170 questões exclusivas.
Complexidade de dados: CRMArena inclui 16 objetos interconectados, uma média de 1,31 dependências por objeto, para alcançar realismo na modelagem de CRM.
Verificação da realidade: Mais de 90% dos especialistas do domínio classificaram o site de teste do CRMArena como real ou muito real, indicando a alta validade de seus dados sintéticos.
Desempenho do agente: os principais agentes do LLM concluíram apenas 38,2% das tarefas usando informações padrão e 54,4% com ferramentas de pontuação de tarefas, ressaltando os desafios nas capacidades atuais de IA.
Perguntas não respondidas: Cerca de 30% das perguntas do CRMArena ficam sem resposta, obrigando os agentes a identificar e lidar adequadamente com informações incompletas.

Concluindo, o lançamento do CRMArena destaca desenvolvimentos importantes e insights importantes na avaliação de agentes de IA para tarefas de CRM. A CRMArena é uma empresa líder no setor de CRM, fornecendo uma referência equilibrada, precisa e robusta para avaliar o desempenho dos agentes nas áreas de CRM. Como mostram as pesquisas, existe uma enorme lacuna entre as capacidades atuais dos agentes de IA e os altos níveis de desempenho exigidos para os sistemas de CRM. A extensa estrutura de testes do CRMArena fornece a ferramenta necessária para desenvolver e refinar agentes de IA para atender a essas necessidades.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[AI Magazine/Report] Leia nosso último relatório sobre 'MODELOS DE TERRENO PEQUENOS'

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Apesar do seu efeito positivo, a IA generativa não tem uma compreensão unificada do mundo | Notícias do MIT

DSBench: um benchmark abrangente que destaca as limitações dos atuais agentes de ciência de dados no tratamento de tarefas complexas de análise e modelagem de dados do mundo real

Meta AI lança conjunto de dados e modelos de materiais inorgânicos Open Materials 2024 (OMat24) da Meta

Deixe um comentário Cancelar resposta