Polymathic AI lança 'The Source': 15 TB de conjunto de dados de aprendizado de máquina contendo simulações numéricas de uma ampla variedade de sistemas físicos espaço-temporais

O desenvolvimento de modelos de aprendizagem automática (ML) para aplicações científicas tem sido dificultado há muito tempo pela falta de conjuntos de dados adequados que captem a complexidade e a diversidade dos sistemas físicos. A maioria dos conjuntos de dados existentes são limitados, muitas vezes abrangendo apenas pequenas categorias de comportamento físico. Esta falta de dados abrangentes torna difícil o desenvolvimento de modelos eficazes para representar fenómenos científicos do mundo real. Além disso, os métodos numéricos para resolver equações diferenciais parciais (EDPs) podem ser computacionalmente caros, especialmente quando é necessária alta precisão, tornando os modelos de deslocamento uma alternativa mais prática. Apesar dos avanços na aprendizagem automática, continua a existir uma lacuna significativa entre os conjuntos de dados utilizados atualmente e os problemas complexos de interesse prático. PolymaticAI “The Well” visa resolver este problema.

PolymathicAI lança 'The Well': 15 TB de conjuntos de dados para sistemas físicos espaçotemporais

A PolymathicAI lançou “The Well”, um grande conjunto de dados de aprendizado de máquina contendo simulações numéricas de vários sistemas físicos espaço-temporais. Com 15 terabytes de dados compreendendo 16 conjuntos de dados exclusivos, “The Well” inclui simulações de campos como sistemas biológicos, dinâmica de fluidos, espalhamento acústico e simulações magneto-hidrodinâmicas (MHD), incluindo explosões de supernovas. Cada conjunto de dados foi selecionado para apresentar tarefas de aprendizagem desafiadoras adequadas para o desenvolvimento de modelos espaciais, uma área importante em física computacional e engenharia. Para facilidade de uso, a interface PyTorch é fornecida para modelos de treinamento e teste, bem como exemplos básicos para orientar os pesquisadores.

Detalhes técnicos

“The Well” inclui uma variedade de conjuntos de dados organizados em 15 TB de dados, cobrindo 16 cenários diferentes, desde a dinâmica dos sistemas biológicos até o comportamento caótico da matéria interestelar. Cada conjunto de dados contém resumos temporais aproximados de medições variadas de condições iniciais ou parâmetros físicos. Esses conjuntos de dados são fornecidos em formatos de grade uniformes e utilizam arquivos HDF5, garantindo alta integridade dos dados e fácil acesso para análise computacional. Os dados estão disponíveis por meio da interface PyTorch, permitindo integração perfeita em pipelines de ML existentes. Os princípios básicos fornecidos incluem modelos como Operador Neural de Fourier (FNO), FNO Fatorizado por Tucker (TFNO) e várias arquiteturas U-net. Estes métodos básicos ilustram os desafios envolvidos na modelagem de sistemas espaço-temporais complexos, fornecendo referências contra as quais novos modelos substitutos podem ser testados.

A diversidade e escalabilidade dos conjuntos de dados “The Well” estão entre as suas principais vantagens. Os pesquisadores podem examinar uma ampla variedade de fenômenos usando um conjunto de dados combinado. Cada conjunto de dados inclui metadados e classificação de treinamento/teste, permitindo fácil comparação de diferentes modelos de aprendizado de máquina. A variedade e granularidade dos conjuntos de dados incentivam o desenvolvimento de modelos generalizáveis capazes de resolver muitos problemas em física, química e engenharia. Com seu formato de dados padronizado e acessibilidade, “The Well” reduz a barreira de entrada para o uso de ML nas ciências naturais, permitindo assim a participação de uma gama mais ampla de pesquisadores.

A importância do “Poço” vai além do seu tamanho e abrangência. Ele fornece uma referência para uma classe emergente de modelos de substituição baseados na física e estabelece um padrão para avaliar modelos em tarefas complexas e complexas. A diversidade de conjuntos de dados incluídos permite aos pesquisadores testar a robustez de seus modelos de ML em relação a sistemas do mundo real com vários níveis de complexidade. Ao fornecer uma plataforma unificada para esses conjuntos de dados, a PolymaticAI preenche a lacuna entre especialistas no domínio e pesquisadores de aprendizado de máquina, permitindo a colaboração em problemas físicos desafiadores. Os primeiros benchmarks mostram que modelos como o CNextU-net funcionam bem em alguns conjuntos de dados, enquanto outros favorecem propriedades especiais como o Operador Neural de Fourier. Isto enfatiza a natureza flexível do modelo de descoberta e a necessidade de métodos adaptados à natureza das condições físicas.

A conclusão

“The Well” do PolymathicAI é um recurso inestimável para a comunidade de ML, especialmente para pesquisadores que trabalham em modelagem de simulação nas ciências naturais. Ao tornar esses diversos conjuntos de dados acessíveis ao público, a PolymathicAI facilita o desenvolvimento de novos modelos e ajuda a melhorar os existentes por meio de benchmarking e testes rigorosos. “Fonte” representa um passo importante na disponibilidade de conjuntos de dados padronizados, diversos e de alta qualidade para simulações realistas, tornando-se um recurso fundamental para desenvolvimentos futuros em ML e física.

Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

🎙️ 🚨 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de técnicas de clustering vermelho' Leia o relatório completo _(Promovido)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)

Source link

PolymathicAI lança 'The Well': 15 TB de conjuntos de dados para sistemas físicos espaçotemporais

Detalhes técnicos

A conclusão

Você também pode gostar...

Revisitando a perda de peso: além da norma na aprendizagem profunda contemporânea

Principais cursos de IA para Inteligência Artificial Gerativa em 2024

A Microsoft AI Research gerou 1 milhão de instruções de execução de comandos, incluindo várias habilidades

Deixe um comentário Cancelar resposta