O conjunto de dados do universo multimodal: um repositório multimodal de 100 TB de dados astronômicos que capacita o aprendizado de máquina e a pesquisa astrofísica em escala global

A astronomia evoluiu dramaticamente, desde um poder de observação limitado até sistemas sofisticados de recolha de dados que captam fenómenos cósmicos com uma precisão sem precedentes. Os telescópios modernos geram agora grandes conjuntos de dados que cobrem muitos comprimentos de onda, revelando detalhes complexos de objetos celestes. O campo atual da astronomia produz uma quantidade incrível de dados científicos, com tecnologias observacionais que captam desde os mínimos detalhes das estrelas até as estruturas galácticas em expansão.

As aplicações de aprendizado de máquina em astrofísica abordam desafios computacionais complexos que excedem os métodos tradicionais de processamento de dados. O principal problema reside na integração das várias observações astronômicas através de múltiplos métodos. Os pesquisadores devem navegar por uma variedade de tipos de dados, incluindo imagens multibanda, espectroscopia, medições de séries temporais e imagens hiperespectrais.

Cada tipo de visão apresenta desafios únicos:

Pequena amostragem
A incerteza da medida crítica
diferenças nas respostas dos instrumentos que dificultam a análise completa dos dados

Os métodos anteriores de gestão de dados astronómicos devem ser integrados e eficientes. Vários conjuntos de dados foram especificados para teste, com configurações heterogêneas de armazenamento e aprendizado de máquina. Coleções existentes, como o projeto Galaxy Zoo e o desafio da curva de luz PLAsTiCC, forneceram informações limitadas, contendo apenas 3,5 milhões de curvas de luz simuladas ou conjuntos de dados de separação de foco. Essas abordagens fragmentadas impediram os pesquisadores de desenvolver modelos abrangentes de aprendizado de máquina que pudessem integrar diferentes tipos de astronomia.

Uma equipe de pesquisadores do Instituto de Astrofísica de Canarias, Universidade de La Laguna, Instituto de Tecnologia de Massachusetts, Universidade de Oxford, Universidade de Cambridge, Instituto de Ciências do Telescópio Espacial, Universidade Nacional Australiana, Universidade de Stanford, UniverseTBD, Polymathic AI, Flatiron Institute, Universidade da Califórnia Berkeley, Universidade de Nova York, Universidade de Princeton, Universidade de Columbia, Université Paris-Saclay, Université Paris I-Cité, CEA, CNRS, AIM, Universidade de Toronto, Centro de Astrofísica, Harvard & Smithsonian, AstroAI, Universidade da Pensilvânia, Aspia Space, Université de Montréal, Ciela Institute, Mila e Johns Hopkins University apresentaram O Universo Multimodal – Conjunto de dados astronômicos de 100 TB. Esta coleção sem precedentes inclui 220 milhões de observações de estrelas, 124 milhões de imagens de galáxias e extensos dados espectroscópicos de múltiplas pesquisas, incluindo Legacy Surveys, DESI e JWST. Este projeto visa criar uma plataforma padronizada e acessível que revolucione as capacidades de aprendizado de máquina em astrofísica.

O conjunto de dados do Universo Multimodal representa uma compilação incomum de dados astronômicos dos seis modos principais. Inclui 4 milhões de observações de galáxias SDSS-II, 1 milhão de espectros de galáxias DESI, 716.000 espectros APOGEE de estrelas, 12.000 imagens de galáxias hiperespectrais de MaNGA. O conjunto de dados inclui observações de uma variedade de fontes, como Gaia, Chandra e telescópios espaciais, fornecendo um recurso incomparável para pesquisas astronômicas de aprendizado de máquina.

O desempenho do aprendizado de máquina neste conjunto de dados alcançou um impressionante desempenho de previsão de disparo zero: a previsão do redshift atingiu 0,986 R² usando incorporação de imagem e incorporação de espectro, enquanto a previsão de massa estelar alcançou desempenho de 0,879 R². As tarefas de classificação morfológica apresentaram alta precisão de 1 de 73,5% a 89,3%, dependendo da arquitetura da rede neural e das técnicas de pré-treinamento. O método ContrastiveCLIP superou até mesmo os métodos convencionais de aprendizagem supervisionada em todas as previsões de propriedades astronômicas.

As principais conclusões do estudo destacam o potencial do Universo Multimodal:

100 TB combinados de dados astronômicos em todos os seis modos de visualização
Observações combinadas de 220 milhões de estrelas e 124 milhões de imagens de galáxias
Recursos semelhantes foram criados para vários conjuntos de dados astronômicos
Desenvolvi modelos de aprendizado de máquina com precisão de previsão de até 0,986 R²
Uma plataforma extensível de gerenciamento de dados voltada para a comunidade foi desenvolvida
Forneceu acesso geral à astronomia com conjuntos de dados Hugging Face
Capacidades avançadas de aprendizado de máquina foram demonstradas em muitas funções astronômicas

Concluindo, o conjunto de dados do Universo Multimodal é um recurso inédito, fornecendo mais de 100 terabytes de dados astronômicos multimodais para avançar na pesquisa de aprendizado de máquina. Ele suporta muitas aplicações astrofísicas, incluindo imagens multicanais, observatórios, dados de séries temporais e imagens hiperespectrais. Este conjunto de dados aborda barreiras ao desenvolvimento científico de ML, padronizando formatos de dados e facilitando o acesso fácil por meio de plataformas como Hugging Face e GitHub.

Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 [Must Attend Webinar]: 'Transforme provas de conceito em aplicativos e agentes de IA prontos para produção' _(Promovido)

Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.

🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)

Source link

Você também pode gostar...

Quatro métodos de ponta para testar agentes de IA e melhorar o desempenho do LLM

Windows Agent Arena (WAA): plataforma escalonável de agente de IA do Windows de código aberto para testes e benchmarking Agente de IA de desktop multimodal

Avaliando o desempenho do aprendizado de máquina na resolução de equações diferenciais: abordando bases fracas e preconceitos de relatórios

Deixe um comentário Cancelar resposta