13.7. Detecção Single Shot Multibox (SSD)¶

Open the notebook in Colab

Open the notebook in Colab

Open the notebook in Colab

Open the notebook in SageMaker Studio Lab

Nas poucas seções anteriores, apresentamos caixas delimitadoras, caixas de âncora, detecção de objetos multiescala e conjuntos de dados. Agora, usaremos esse conhecimento prévio para construir um modelo de detecção de objetos: detecção multibox de disparo único [Single Shot Multibox Detection] (SSD) [Liu et al., 2016]. Este modelo rápido e fácil já é amplamente utilizado. Alguns dos conceitos de design e detalhes de implementação deste modelo também são aplicáveis a outros modelos de detecção de objetos.

13.7.1. Modelo¶

Fig. 13.7.1 mostra o design de um modelo SSD. Os principais componentes do modelo são um bloco de rede básico e vários blocos de recursos multiescala conectados em série. Aqui, o bloco de rede de base é usado para as características extras de imagens originais e geralmente assumem a forma de uma rede neural convolucional profunda. O artigo sobre SSDs opta por colocar um VGG truncado antes do camada de classificação [Liu et al., 2016], mas agora é comumente substituído pelo ResNet. Podemos projetar uma rede de base para que ela produza alturas e larguras maiores. Desta forma, mais caixas de âncora são geradas com base neste mapa de características, permitindo-nos detectar objetos menores. Em seguida, cada bloco de feições multiescala reduz a altura e largura do mapa de feições fornecidas pela camada anterior (por exemplo, pode reduzir os tamanhos pela metade). Os blocos então usam cada elemento no mapa de recursos para expandir o campo receptivo na imagem de entrada. Desta forma, quanto mais próximo um bloco de feições multiescala estiver do topo de Fig. 13.7.1 menor será o mapa de feições de saída e menos caixas de âncora são geradas com base no mapa de feições. Além disso, quanto mais próximo um bloco de recursos estiver do topo, maior será o campo receptivo de cada elemento no mapa de recursos e mais adequado será para detectar objetos maiores. Como o SSD gera diferentes números de caixas de âncora de tamanhos diferentes com base no bloco de rede de base e cada bloco de recursos multiescala e, em seguida, prevê como categorias e deslocamentos (ou seja, caixas delimitadoras previsão) das caixas de âncora para detectar objetos de tamanhos diferentes, SSD é um modelo de detecção de objetos multiescala.

Fig. 13.7.1 O SSD é composto de um bloco de rede base e vários blocos de recursos multiescala conectados em série.¶

A seguir, descreveremos a implementação dos módulos em Fig. 13.7.1. Primeiro, precisamos discutir a implementação da previsão da categoria e da previsão da caixa delimitadora.

13.7.1.1. Camada de Previsão da Categoria¶

Defina o número de categorias de objeto como \(q\). Nesse caso, o número de categorias de caixa de âncora é \(q+1\), com 0 indicando uma caixa de âncora que contém apenas o fundo. Para uma determinada escala, defina a altura e a largura do mapa de feições para \(h\) e \(w\), respectivamente. Se usarmos cada elemento como o centro para gerar \(a\) caixas de âncora, precisamos classificar um total de \(hwa\) caixas de âncora. Se usarmos uma camada totalmente conectada (FCN) para a saída, isso provavelmente resultará em um número excessivo de parâmetros do modelo. Lembre-se de como usamos canais de camada convolucional para gerar previsões de categoria em Section 7.3. O SSD usa o mesmo método para reduzir a complexidade do modelo.

Especificamente, a camada de predição de categoria usa uma camada convolucional que mantém a altura e largura de entrada. Assim, a saída e a entrada têm uma correspondência de um para um com as coordenadas espaciais ao longo da largura e altura do mapa de características. Supondo que a saída e a entrada tenham as mesmas coordenadas \((x, y)\), o canal para as coordenadas \((x, y)\) no mapa de feição de saída contém as previsões de categoria para todas as caixas âncora geradas usando as coordenadas do mapa de feição de entrada \((x, y)\) como o Centro. Portanto, existem \(a(q+1)\) canais de saída, com os canais de saída indexados como \(i(q+1)+j\) (\(0 \leq j \leq q\)) representando as previsões do índice de categoria \(j\) para o índice de caixa de âncora \(i\).

Agora, vamos definir uma camada de predição de categoria deste tipo. Depois de especificar os parâmetros \(a\) e \(q\), ele usa uma camada convolucional \(3\times3\) com um preenchimento de 1. As alturas e larguras de entrada e saída dessa camada convolucional permanecem inalteradas.

13.7. Detecção Single Shot Multibox (SSD)¶ Colab [mxnet] Open the notebook in Colab Colab [pytorch] Open the notebook in Colab Colab [tensorflow] Open the notebook in Colab SageMaker Studio Lab Open the notebook in SageMaker Studio Lab

13.7.1. Modelo¶

13.7.1.1. Camada de Previsão da Categoria¶

13.7.1.2. Camada de Previsão de Caixa Delimitadora¶

13.7.1.3. Concatenando Previsões para Múltiplas Escalas¶

13.7.1.4. Bloco de Redução de Amostragem de Altura e Largura¶

13.7.1.5. Bloco de Rede Base¶

13.7.1.6. O Modelo Completo¶

13.7.2. Treinamento¶

13.7.2.1. Leitura e Inicialização de Dados¶

13.7.2.2. Definindo Funções de Perda e Avaliação¶

13.7.2.3. Treinando o Modelo¶

13.7.3. Predição¶

13.7.4. Resumo¶

13.7.5. Exercícios¶

13.7.5.1. Função de Perda¶

13.7.5.2. Treinamento e Previsão¶

13.7. Detecção Single Shot Multibox (SSD)¶

Open the notebook in Colab

Open the notebook in Colab

Open the notebook in Colab

Open the notebook in SageMaker Studio Lab