Classificação adaptativa de imagens: treinando grandes redes neurais convolucionais no conjunto de dados ImageNet
Inteligência artificial

Classificação adaptativa de imagens: treinando grandes redes neurais convolucionais no conjunto de dados ImageNet


Treinando uma grande CNN para classificação de imagens:
Os pesquisadores desenvolveram uma CNN em grande escala para classificar 1,2 milhão de imagens de alta resolução da competição ImageNet LSVRC-2010, que inclui 1.000 categorias. O modelo, que contém 60 milhões de parâmetros e 650.000 neurônios, alcançou resultados surpreendentes, com erros top-1 e top-5 erros de 37,5% e 17,0%, respectivamente, superando significativamente os métodos anteriores. A estrutura inclui cinco camadas flexíveis e três camadas totalmente conectadas, terminando com um softmax de 1.000 vias. Inovações importantes, como o uso de neurônios sem atraso e o uso de stop para evitar sobrecarga, permitiram um treinamento eficiente em GPUs. O desempenho da CNN melhorou na competição ILSVRC-2012, alcançando uma taxa de erro entre os 5 primeiros de 15,3%, em comparação com 26,2% para o próximo melhor modelo.

O sucesso deste modelo reflete uma mudança mais ampla na teoria da computação em direção a métodos de aprendizado de máquina que aproveitam grandes conjuntos de dados e capacidades de integração. Anteriormente, os pesquisadores duvidavam que as redes neurais pudessem resolver tarefas físicas complexas sem programas projetados manualmente. No entanto, este trabalho mostrou que, com dados e recursos computacionais suficientes, os modelos de aprendizagem profunda podem aprender recursos complexos usando um algoritmo de uso geral, como a retropropagação. A eficiência e escalabilidade da CNN foram possíveis graças ao desenvolvimento da tecnologia GPU e de grandes conjuntos de dados como o ImageNet, que permitem o treinamento de redes profundas sem problemas significativos de saturação. Este avanço representa uma mudança de paradigma no reconhecimento de objetos, abrindo caminho para modelos mais poderosos e baseados em dados em visão computacional.

Conjunto de dados e arquitetura de rede:
Os pesquisadores usaram o ImageNet, um conjunto abrangente de dados que inclui mais de 15 milhões de imagens de alta resolução em cerca de 22 mil categorias, todas retiradas da web e rotuladas através do Mechanical Turk da Amazon. No ImageNet Large-Scale Visual Recognition Challenge (ILSVRC), que começou em 2010 como parte do Pascal Visual Object Challenge, eles se concentraram em um subconjunto do ImageNet contendo aproximadamente 1,2 milhão de imagens de treinamento, 50.000 imagens de validação e 50.000 imagens de teste. 150.000 distribuídos igualmente. em todas as 1.000 categorias. Para garantir o mesmo tamanho de entrada para sua CNN, todas as imagens foram redimensionadas para 256 × 256 pixels, dimensionando o lado curto para 256 e cortando a imagem no meio. A única etapa adicional de pré-processamento envolveu a remoção da função de pixel central de cada imagem, permitindo que a rede treinasse em valores RGB brutos com mais eficiência.

A estrutura CNN desenvolvida pelos pesquisadores consistia em oito camadas, incluindo cinco camadas adaptativas e três camadas totalmente conectadas, culminando em uma saída softmax de 1.000 vias. Esta rede profunda, contendo 60 milhões de parâmetros e 650.000 neurônios, foi otimizada para alto desempenho com vários recursos novos. Eles usaram unidades de linha ajustadas (ReLUs) em vez da ativação tradicional do tanh para acelerar o treinamento, mostrando a convergência mais rápida no conjunto de dados CIFAR-10. A rede foi distribuída por todas as GPUs GTX 580 para lidar com as extensas demandas de computação usando uma estratégia especial de paralelização que minimizou a comunicação entre as GPUs. Além disso, a correção da resposta local e a integração sobreposta foram utilizadas para melhorar a generalização e reduzir as taxas de erro. O treinamento da rede levou de cinco a seis dias, usando processamento de convolução avançado por GPU para alcançar desempenho de última geração em tarefas de reconhecimento de objetos.

Reduzindo o overfitting em uma rede neural:
A rede, que contém 60 milhões de parâmetros, sofre sobrecarga devido às limitações de dados de treinamento insuficientes. Para resolver isso, os pesquisadores usaram dois métodos principais. Primeiro, o aumento de dados aumenta automaticamente o conjunto de dados por meio de tradução de imagens, visualização e transformação de intensidade RGB por meio de PCA. Este método ajuda a reduzir as taxas de erro high-1 para mais de 1%. Em segundo lugar, usando stop-learning em camadas totalmente conectadas, desabilitamos aleatoriamente os neurônios durante o treinamento para evitar a adaptação e melhorar a robustez dos recursos. As desistências aumentam o tempo de treinamento, mas são importantes para reduzir a sobrecarga sem aumentar os custos computacionais.

Resultados em competições ILSVRC:
O modelo CNN alcançou taxas de erro top 1 e top 5 de 37,5% e 17,0% no conjunto de dados ILSVRC-2010, que supera métodos anteriores, como codificação mínima (47,1% e 28,2%). Na competição ILSVRC-2012, o modelo alcançou uma taxa de erro de validação dos 5 primeiros de 18,2%, que melhorou para 16,4% quando foi calculada a média das previsões de cinco CNNs. Além disso, o pré-treinamento no conjunto de dados ImageNet Fall 2011, seguido de ajuste fino, reduziu o erro para 15,3%. Esses resultados superam significativamente os métodos anteriores usando recursos densos, que relataram um erro de teste máximo de 5 de 26,2%.

Discussão:
Uma CNN grande e profunda alcançou desempenho recorde no desafiador conjunto de dados ImageNet, com taxas de erro top 1 e top 5 de 37,5% e 17,0%, respectivamente. A remoção de qualquer camada de convolução diminui a precisão em cerca de 2%, o que mostra a importância da profundidade da rede. Embora o pré-treinamento não supervisionado não tenha sido utilizado, ele pode melhorar os resultados. Com o tempo, à medida que o hardware e as técnicas melhoraram, as taxas de erro caíram em um terço, aproximando as CNNs do desempenho de nível humano. O sucesso do nosso modelo inspirou a adoção generalizada da aprendizagem profunda em empresas como Google, Facebook e Microsoft, e mudou a percepção da computação.


Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit

⏩ ⏩ WEBINAR GRATUITO DE IA: 'Vídeo SAM 2: Como sintonizar seus dados' (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)


Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.

⏩ ⏩ WEBINAR GRATUITO DE IA: 'Vídeo SAM 2: Como sintonizar seus dados' (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *