.. _sec_anchor: Caixas de Âncora ================ Os algoritmos de detecção de objetos geralmente amostram um grande número de regiões na imagem de entrada, determinam se essas regiões contêm objetos de interesse e ajustam as bordas das regiões de modo a prever a caixa delimitadora da verdade terrestre do alvo com mais precisão. Diferentes modelos podem usar diferentes métodos de amostragem de região. Aqui, apresentamos um desses métodos: ele gera várias caixas delimitadoras com diferentes tamanhos e proporções de aspecto, enquanto é centralizado em cada pixel. Essas caixas delimitadoras são chamadas de caixas de âncora. Praticaremos a detecção de objetos com base em caixas de âncora nas seções a seguir. .. raw:: html

.. raw:: html

Primeiro, importe os pacotes ou módulos necessários para esta seção. Aqui, modificamos a precisão de impressão do NumPy. Como os tensores de impressão, na verdade, chamam a função de impressão de NumPy, os números de ponto flutuante nos tensores impressos nesta seção são mais concisos. .. code:: python %matplotlib inline from mxnet import gluon, image, np, npx from d2l import mxnet as d2l np.set_printoptions(2) npx.set_np() .. raw:: html

.. raw:: html

Primeiro, importe os pacotes ou módulos necessários para esta seção. Aqui, modificamos a precisão de impressão do PyTorch. Como os tensores de impressão, na verdade, chamam a função de impressão de PyTorch, os números de ponto flutuante nos tensores impressos nesta seção são mais concisos. .. code:: python %matplotlib inline import torch from d2l import torch as d2l torch.set_printoptions(2) .. raw:: html

.. raw:: html

Gerando Várias Caixas de Âncora ------------------------------- Suponha que a imagem de entrada tenha uma altura de :math:`h` e uma largura de :math:`w`. Geramos caixas de âncora com diferentes formas centralizadas em cada pixel da imagem. Suponha que o tamanho seja :math:`s\in (0, 1]`, a proporção da imagem é :math:`r > 0` e a largura e a altura da caixa de âncora são :math:`ws\sqrt{r}` e :math:`hs/\sqrt{r}`, respectivamente. Quando a posição central é fornecida, uma caixa de âncora com largura e altura conhecidas é determinada. Abaixo, definimos um conjunto de tamanhos :math:`s_1,\ldots, s_n` e um conjunto de relações de aspecto :math:`r_1,\ldots, r_m`. Se usarmos uma combinação de todos os tamanhos e proporções com cada pixel como o centro, a imagem de entrada terá um total de :math:`whnm` caixas de âncora. Embora essas caixas de âncora possam abranger todas as caixas delimitadoras da verdade, a complexidade computacional costuma ser excessiva. Portanto, normalmente estamos interessados apenas em uma combinação contendo :math:`s_1` ou :math:`r_1` tamanhos e proporções, isto é: .. math:: (s_1, r_1), (s_1, r_2), \ldots, (s_1, r_m), (s_2, r_1), (s_3, r_1), \ldots, (s_n, r_1). Ou seja, o número de caixas de âncora centradas no mesmo pixel é :math:`n+m-1`. Para toda a imagem de entrada, geraremos um total de :math:`wh(n+m-1)` caixas de âncora. O método acima para gerar caixas de âncora foi implementado na função ``multibox_prior``. Especificamos a entrada, um conjunto de tamanhos e um conjunto de proporções, e esta função retornará todas as caixas de âncora inseridas. .. raw:: html