.. _sec_kaggle_cifar10: Classificação de Imagens (CIFAR-10) no Kaggle ============================================= Até agora, temos usado o pacote ``data`` do Gluon para obter diretamente conjuntos de dados de imagem no formato tensor. Na prática, entretanto, os conjuntos de dados de imagem geralmente existem no formato de arquivos de imagem. Nesta seção, começaremos com os arquivos de imagem originais e organizaremos, leremos e converteremos os arquivos para o formato tensor passo a passo. Realizamos um experimento no conjunto de dados CIFAR-10 em :numref:`sec_image_augmentation`. Este é um dado importante definido no campo de visão do computador. Agora, vamos aplicar o conhecimento que aprendemos em as seções anteriores para participar da competição Kaggle, que aborda problemas de classificação de imagens CIFAR-10. O endereço da competição na web é https://www.kaggle.com/c/cifar-10 :numref:`fig_kaggle_cifar10` mostra as informações na página da competição. Para enviar os resultados, primeiro registre uma conta no site do Kaggle. .. _fig_kaggle_cifar10: .. figure:: ../img/kaggle-cifar10.png :width: 600px Informações da página da web do concurso de classificação de imagens CIFAR-10. O conjunto de dados da competição pode ser acessado clicando na guia “Dados”. Primeiro, importe os pacotes ou módulos necessários para a competição. .. raw:: html

.. raw:: html

.. code:: python import collections import math import os import shutil import pandas as pd from mxnet import gluon, init, npx from mxnet.gluon import nn from d2l import mxnet as d2l npx.set_np() .. raw:: html

.. raw:: html

.. code:: python import collections import math import os import shutil import pandas as pd import torch import torchvision from torch import nn from d2l import torch as d2l .. raw:: html

.. raw:: html

Obtendo e Organizando o *Dataset* --------------------------------- Os dados da competição são divididos em um conjunto de treinamento e um conjunto de teste. O conjunto de treinamento contém :math:`50.000` imagens. O conjunto de teste contém :math:`300.000` imagens, das quais :math:`10.000` imagens são usadas para pontuação, enquanto as outras :math:`290.000` imagens sem pontuação são incluídas para evitar a rotulagem manual do conjunto de teste e o envio dos resultados da rotulagem. Os formatos de imagem em ambos os conjuntos de dados são PNG, com alturas e larguras de 32 pixels e três canais de cores (RGB). As imagens cobrem categorias de :math:`10`: aviões, carros, pássaros, gatos, veados, cães, sapos, cavalos, barcos e caminhões. O canto superior esquerdo de :numref:`fig_kaggle_cifar10` mostra algumas imagens de aviões, carros e pássaros no conjunto de dados. Baixando o Dataset ~~~~~~~~~~~~~~~~~~ Após fazer o login no Kaggle, podemos clicar na guia “Dados” na página da competição de classificação de imagens CIFAR-10 mostrada em :numref:`fig_kaggle_cifar10` e baixar o conjunto de dados clicando no botão “*Download All*”. Após descompactar o arquivo baixado em ``../data`` e descompactar ``train.7z`` e ``test.7z`` dentro dele, você encontrará o conjunto de dados inteiro nos seguintes caminhos: - ../data/cifar-10/train/[1-50000].png - ../data/cifar-10/test/[1-300000].png - ../data/cifar-10/trainLabels.csv - ../data/cifar-10/sampleSubmission.csv Aqui, as pastas ``train`` e\ ``test`` contêm as imagens de treinamento e teste, respectivamente, ``trainLabels.csv`` tem rótulos para as imagens de treinamento e ``sample_submission.csv`` é um exemplo de envio. Para facilitar o início, fornecemos uma amostra em pequena escala do conjunto de dados: ele contém as primeiras :math:`1000` de imagens de treinamento e :math:`5` de imagens de teste aleatórias. Para usar o conjunto de dados completo da competição Kaggle, você precisa definir a seguinte variável ``demo`` como ``False``. .. raw:: html