33 principais conjuntos de dados de PNL para melhorar seus projetos de aprendizado de máquina

Corpus de controle de qualidade da Wiki (Link)

Criado para facilitar a pesquisa de perguntas e respostas em domínio aberto, o WiKi QA Corpus é um dos conjuntos de dados mais disponíveis publicamente. Compilado a partir do log de consultas do mecanismo de busca Bing, ele vem com pares de perguntas e respostas. Possui mais de 3.000 perguntas e 1.500 sentenças de resposta.

Conjunto de dados oficiais de relatórios de casos (link)

O conjunto de dados Legal Case Reports contém uma coleção de 4.000 casos jurídicos e pode ser usado para treinar resumo automático de texto e análise de citações. Usando cada documento, frases de efeito, parágrafos de citação, frases de citação e muito mais.

Perigo (Link)

O conjunto de dados Jeopardy é uma coleção de mais de 200.000 perguntas postadas no popular jogo de perguntas e respostas do Reddit, montado por usuários. Cada ponto de dados é separado por data de transmissão, número do episódio, preço, ciclo e pergunta/resposta.

20 grupos de notícias (Link)

O acervo de 20 mil documentos abrange 20 notícias e grupos temáticos, abrangendo temas que vão desde religião até esportes populares.

Conjunto de dados de notícias da Reuters (link)

Aparecendo pela primeira vez em 1987, este conjunto de dados foi rotulado, indexado e agrupado para fins de aprendizado de máquina.

ArXiv (Link)

Este enorme conjunto de dados de 270 GB inclui o texto completo de todos os artigos de pesquisa do arXiv.

Corpus Paralelo dos Procedimentos do Parlamento Europeu (Link)

Os pares de frases dos procedimentos parlamentares incluem entradas de 21 línguas europeias, incluindo as línguas menos comuns do movimento de aprendizagem automática.

Referência de bilhões de palavras (link)

Com base no News Crawl do WMT 2011, este conjunto de dados de modelo de linguagem contém aproximadamente um bilhão de palavras para testar novas abordagens de modelagem de linguagem.

Corpora Falado da Wikipédia (Link)

Discurso de áudio

Este conjunto de dados é perfeito para quem deseja ir além do idioma inglês. Este conjunto de dados contém uma coleção de artigos em holandês e alemão, bem como em inglês. Possui uma variedade de tópicos e conjuntos de palestrantes que duram centenas de horas.

2000 HUB5 Inglês (Link)

O conjunto de dados HUB5 em inglês de 2000 consiste em 40 transcrições de conversas telefônicas no idioma inglês. Os dados são fornecidos pelo Instituto Nacional de Padrões e Tecnologia e seu foco principal é o reconhecimento da fala coloquial e a conversão da fala em texto.

LibriSpeech (link)

O conjunto de dados LibriSpeech é uma coleção de quase 1.000 horas de fala em inglês capturadas e categorizadas em capítulos de audiolivros, tornando-o a ferramenta perfeita para processamento de linguagem natural.

Conjunto de dados de dígitos falados grátis (link)

Este conjunto de dados de PNL inclui gravações de mais de 1.500 dígitos falados em inglês.

Conjunto de dados de fala do AI Labs (link)

O conjunto de dados fornece quase 1.000 horas de áudio e transcrição, abrangendo vários idiomas e divididos em vozes masculinas, femininas e mistas.

Banco de dados de fala de áudio (link)

Este conjunto de dados inclui gravações de fala com ruído e limpa, destinadas ao desenvolvimento de software de aprimoramento de fala, mas também úteis para treinar a fala em situações desafiadoras.

Críticas do Yelp (Link)

O conjunto de dados do Yelp contém uma grande coleção de aproximadamente 8,5 milhões de avaliações de 160.000 empresas, bem como dados de negócios, avaliações e usuários. As revisões podem ser usadas para treinar seus modelos em análise de sentimento. Além disso, este conjunto de dados também possui mais de 200.000 imagens cobrindo as áreas de oito grandes cidades.

Revisão IMDB (Link)

As análises do IMDB estão entre os conjuntos de dados mais populares que contêm informações sobre elenco, classificação, descrição e gênero de mais de 50.000 filmes. Este conjunto de dados pode ser usado para testar e treinar seus modelos de aprendizado de máquina.

Conjunto de dados de avaliações e classificações da Amazon (link)

O conjunto de dados Amazon Reviews and Ratings contém uma coleção significativa de metadados e análises de diferentes produtos da Amazon coletados de 1996 a 2014 – cerca de 142,8 milhões de registros. Os metadados incluem preço, descrição do produto, tipo, categoria e muito mais, enquanto as avaliações apresentam qualidade do texto, importância do texto, classificações e muito mais.

À medida que avançamos, deixaremos você com dica profissional.

Certifique-se de ler o arquivo README cuidadosamente antes de escolher um conjunto de dados de PNL para suas necessidades. O conjunto de dados conterá todas as informações necessárias, como o conteúdo do conjunto de dados, os vários parâmetros nos quais os dados são categorizados e os possíveis casos de uso do conjunto de dados.

Além dos modelos que você constrói, existe a perspectiva emocionante de integrar nossas máquinas mais perto e dentro de nossas vidas. Com a PNL, as possibilidades de negócios, filmes, reconhecimento de fala, finanças e muito mais aumentam bastante.

Source link