Subgroup Discovery (SD) é uma técnica de aprendizado de máquina supervisionada usada para analisar dados experimentais para identificar relacionamentos (subgrupos) dentro de um conjunto de dados relacionados a uma variável alvo. Os principais componentes dos algoritmos SD incluem a estratégia de busca, que avalia o espaço de busca do problema, e a medida de qualidade, que avalia os subconjuntos identificados. Além da funcionalidade SD e da variedade de algoritmos disponíveis, apenas algumas bibliotecas Python oferecem ferramentas SD avançadas. Bibliotecas existentes, como Vikamine e grupos menores, carecem de suporte total, destacando a necessidade de uma biblioteca confiável e bem documentada que inclua algoritmos SD populares.
Pesquisadores do Med AI Lab da Universidade de Múrcia e do Murcian Bio-Health Institute apresentaram Subgroups, uma biblioteca Python aberta projetada para simplificar algoritmos SD. Construída para eficiência em Python nativo, a biblioteca fornece uma interface fácil de usar modelada após o scikit-learn, tornando-a acessível tanto para especialistas quanto para não especialistas. A biblioteca garante implementação confiável de algoritmos com base em pesquisas científicas estabelecidas, e sua estrutura modular permite personalização e extensão. Os subgrupos já são empregados em muitos artigos e projetos de pesquisa e estão disponíveis no GitHub, PyPI e Anaconda.org.
A Biblioteca de Subgrupos é uma ferramenta modular Python projetada para algoritmos SD, seguindo uma estrutura com recursos principais, medidas de qualidade, estruturas de dados e algoritmos. Inclui classes para componentes SD importantes, como seletores, padrões e subgrupos. A biblioteca utiliza vários algoritmos SD, como VLSD e SDMap, bem como diversas medidas de qualidade, incluindo WRAcc e testes binomiais. Ele oferece suporte aos modos silencioso e de registro para saída variável e fornece testes de unidade abrangentes para garantir a operação correta. Construída com Python 3 e pandas funcionais, a biblioteca foi projetada para fácil extensão e desempenho confiável de algoritmo.
A Biblioteca de Subgrupos fornece um ecossistema abrangente com manuais e exemplos, permitindo que usuários e desenvolvedores se familiarizem com técnicas de SD e implementações de bibliotecas. Ele fornece exemplos práticos, como o algoritmo VLSD, e é de código aberto, permitindo que os pesquisadores apliquem algoritmos SD importantes em uma variedade de domínios. Essa flexibilidade permite que a biblioteca seja utilizada em pesquisas anteriores e em andamento, onde as ferramentas de SD não estavam disponíveis antes e ajuda a gerar novos conhecimentos científicos.
Além de ser um importante recurso de pesquisa, a biblioteca também é utilizada em projetos do mundo real, tendo sido baixada mais de 7.100 vezes e apresentada em diversos artigos científicos. Permite comparação e avaliação adequadas de algoritmos SD dentro de uma estrutura unificada, evitando a necessidade de integrar múltiplas bibliotecas de aprendizado de máquina. A Biblioteca de Subgrupos está em constante evolução, oferecendo possibilidades para maior expansão e integração de novos algoritmos. Já foi utilizado em muitos projetos de investigação e colaborações notáveis, demonstrando o seu impacto crescente em contextos académicos e profissionais.
A Biblioteca de Subgrupos é uma ferramenta Python de código aberto que facilita o uso de algoritmos SD em aprendizado de máquina e ciência de dados. Os principais recursos incluem maior eficiência devido ao uso nativo de Python, uma interface fácil de usar modelada após scikit-learn e uma implementação confiável do algoritmo baseada em publicações científicas. O design modular da biblioteca permite fácil personalização, permitindo aos usuários adicionar novos algoritmos, métricas de qualidade e estruturas de dados. Já é utilizado em diversos trabalhos e projetos de investigação, destacando-se a sua eficácia e flexibilidade em vários domínios. Atualizações futuras incluirão algoritmos SD e técnicas de pesquisa adicionais.
Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso Mais de 50k ML SubReddit
⏩ ⏩ WEBINAR GRATUITO DE IA: 'Vídeo SAM 2: Como sintonizar seus dados' (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.
⏩ ⏩ WEBINAR GRATUITO DE IA: 'Vídeo SAM 2: Como sintonizar seus dados' (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)