A crescente complexidade da computação em nuvem trouxe oportunidades e desafios. As empresas agora dependem fortemente de infraestruturas de nuvem complexas para garantir que suas operações funcionem sem problemas. Os engenheiros de confiabilidade de sites (SREs) e as equipes de DevOps têm a tarefa de gerenciar a detecção, o diagnóstico e a mitigação de erros – tarefas que se tornaram cada vez mais necessárias devido à proliferação de microsserviços e arquiteturas sem servidor. Embora esses modelos melhorem a escalabilidade, eles também introduzem vários pontos potenciais de falha. Por exemplo, uma hora de inatividade em plataformas como Amazon AWS pode levar a enormes perdas financeiras. Embora os esforços para automatizar as operações de TI com agentes AIOps tenham avançado, eles muitas vezes falham devido à falta de padronização, reprodutibilidade e ferramentas práticas de teste. As abordagens existentes muitas vezes abordam aspectos operacionais específicos, deixando uma lacuna em planos abrangentes para testar e desenvolver agentes AIOps em condições reais.
Para enfrentar esses desafios, os pesquisadores da Microsoft, juntamente com uma equipe de pesquisadores da Universidade da Califórnia, Berkeley, da Universidade de Illinois Urbana-Champaign, do Instituto Indiano de Ciência e do Agnes Scott College, criaram o AIOpsLab, uma estrutura experimental projetada para permitir o projeto sistemático, desenvolvimento e desenvolvimento de agentes AIOps. O AIOpsLab visa atender à necessidade de benchmarks reproduzíveis, consistentes e escaláveis. Basicamente, o AIOpsLab integra cargas de trabalho do mundo real, recursos de injeção de falhas e comunicação entre agentes e um ambiente de nuvem para simular cenários semelhantes aos de produção. Esta estrutura de código aberto cobre todo o ciclo de vida das operações em nuvem, desde a detecção de erros até a resolução. Ao fornecer uma plataforma flexível, o AIOpsLab apoia pesquisadores e profissionais na melhoria da confiabilidade dos sistemas em nuvem e na redução da dependência de intervenção manual.
Detalhes técnicos e benefícios
A estrutura AIOpsLab inclui vários componentes principais. O orquestrador, um módulo central, medeia a interação entre agentes e ambientes de nuvem, fornecendo definições de tarefas, APIs de ação e feedback. Os geradores de erros e tarefas replicam situações do mundo real para desafiar os agentes de teste. A conscientização, outro pilar da estrutura, fornece dados de telemetria abrangentes, como logs, métricas e rastreamentos, para auxiliar no diagnóstico de falhas. Esse design flexível permite integração com diversas arquiteturas, incluindo Kubernetes e microsserviços. Ao padronizar os testes de ferramentas AIOps, o AIOpsLab garante ambientes de teste consistentes e repetíveis. Ele também fornece aos pesquisadores informações valiosas sobre o desempenho do agente, permitindo um maior desenvolvimento de capacidades de localização e resolução de falhas.
Resultados e detalhes
Em um estudo, os recursos do AIOpsLab foram testados usando o programa SocialNetwork do DeathStarBench. Os pesquisadores introduziram um bug prático – configuração incorreta de microsserviços – e testaram um agente baseado em LLM usando a estrutura ReAct desenvolvida por GPT-4. O agente identificou e resolveu o problema em 36 segundos, demonstrando a eficácia do framework na simulação de cenários do mundo real. Dados detalhados de telemetria provaram ser essenciais para o diagnóstico da causa raiz, enquanto o design da API do orquestrador facilitou o equilíbrio do agente entre ações de teste e alvos. Essas descobertas ressaltam o potencial do AIOpsLab como uma referência robusta para testar e melhorar o AIOps dos agentes.
A conclusão
AIOpsLab oferece uma abordagem cuidadosa para melhorar as operações autônomas em nuvem. Ao abordar lacunas nas ferramentas existentes e fornecer uma estrutura de testes reprodutível e prática, apoia o desenvolvimento contínuo de agentes AIOps confiáveis e eficientes. Com a sua natureza de código aberto, o AIOpsLab incentiva a colaboração e a inovação entre investigadores e profissionais. À medida que os sistemas em nuvem crescem em escala e complexidade, estruturas como o AIOpsLab serão essenciais para garantir a confiabilidade operacional e promover o papel da IA nas operações de TI.
Confira eu Papel, Página GitHubde novo Detalhes da Microsoft. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)