Redes Densamente Conectadas (DenseNet)
======================================
A ResNet mudou significativamente a visão de como parametrizar as
funções em redes profundas. *DenseNet* (rede convolucional densa) é, até
certo ponto, a extensão lógica disso
:cite:`Huang.Liu.Van-Der-Maaten.ea.2017`. Para entender como chegar a
isso, façamos um pequeno desvio para a matemática.
De ResNet para DenseNet
-----------------------
Lembre-se da expansão de Taylor para funções. Para o ponto
:math:`x = 0`, pode ser escrito como
.. math:: f(x) = f(0) + f'(0) x + \frac{f''(0)}{2!} x^2 + \frac{f'''(0)}{3!} x^3 + \ldots.
O ponto principal é que ele decompõe uma função em termos de ordem cada
vez mais elevados. De maneira semelhante, o ResNet decompõe funções em
.. math:: f(\mathbf{x}) = \mathbf{x} + g(\mathbf{x}).
Ou seja, o ResNet decompõe :math:`f` em um termo linear simples e um
termo mais complexo não linear. E se quisermos capturar (não
necessariamente adicionar) informações além de dois termos? Uma solução
foi DenseNet :cite:`Huang.Liu.Van-Der-Maaten.ea.2017`.
.. _fig_densenet_block:
.. figure:: ../img/densenet-block.svg
A principal diferença entre ResNet (esquerda) e DenseNet (direita) em
conexões de camada cruzada: uso de adição e uso de concatenação.
Conforme mostrado em :numref:`fig_densenet_block`, a principal
diferença entre ResNet e DenseNet é que, no último caso, as saídas são
*concatenadas* (denotadas por :math:`[,]`) em vez de adicionadas. Como
resultado, realizamos um mapeamento de :math:`\mathbf {x}` para seus
valores após aplicar uma sequência cada vez mais complexa de funções:
.. math::
\mathbf{x} \to \left[
\mathbf{x},
f_1(\mathbf{x}),
f_2([\mathbf{x}, f_1(\mathbf{x})]), f_3([\mathbf{x}, f_1(\mathbf{x}), f_2([\mathbf{x}, f_1(\mathbf{x})])]), \ldots\right].
No final, todas essas funções são combinadas no MLP para reduzir o
número de recursos novamente. Em termos de implementação, isso é
bastante simples: em vez de adicionar termos, nós os concatenamos. O
nome DenseNet surge do fato de o gráfico de dependência entre as
variáveis se tornar bastante denso. A última camada de tal cadeia está
densamente conectada a todas as camadas anteriores. As conexões densas
são mostradas em :numref:`fig_densenet`.
.. _fig_densenet:
.. figure:: ../img/densenet.svg
Conexões densas na DenseNet.
Os principais componentes que compõem uma DenseNet são *blocos densos* e
*camadas de transição*. O primeiro define como as entradas e saídas são
concatenadas, enquanto o último controla o número de canais para que não
seja muito grande.
Blocos Densos
-------------
A DenseNet usa a “normalização, ativação e convolução em lote”
modificada estrutura do ResNet (veja o exercício em
:numref:`sec_resnet`). Primeiro, implementamos essa estrutura de bloco
de convolução.
.. raw:: html
.. raw:: html
.. code:: python
from mxnet import np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l
npx.set_np()
def conv_block(num_channels):
blk = nn.Sequential()
blk.add(nn.BatchNorm(),
nn.Activation('relu'),
nn.Conv2D(num_channels, kernel_size=3, padding=1))
return blk
.. raw:: html
.. raw:: html
.. code:: python
import torch
from torch import nn
from d2l import torch as d2l
def conv_block(input_channels, num_channels):
return nn.Sequential(
nn.BatchNorm2d(input_channels), nn.ReLU(),
nn.Conv2d(input_channels, num_channels, kernel_size=3, padding=1))
.. raw:: html
.. raw:: html
.. code:: python
import tensorflow as tf
from d2l import tensorflow as d2l
class ConvBlock(tf.keras.layers.Layer):
def __init__(self, num_channels):
super(ConvBlock, self).__init__()
self.bn = tf.keras.layers.BatchNormalization()
self.relu = tf.keras.layers.ReLU()
self.conv = tf.keras.layers.Conv2D(
filters=num_channels, kernel_size=(3, 3), padding='same')
self.listLayers = [self.bn, self.relu, self.conv]
def call(self, x):
y = x
for layer in self.listLayers.layers:
y = layer(y)
y = tf.keras.layers.concatenate([x,y], axis=-1)
return y
.. raw:: html
.. raw:: html
Um *bloco denso* consiste em vários blocos de convolução, cada um usando
o mesmo número de canais de saída. Na propagação direta, entretanto,
concatenamos a entrada e a saída de cada bloco de convolução na dimensão
do canal.
.. raw:: html
.. raw:: html
.. code:: python
class DenseBlock(nn.Block):
def __init__(self, num_convs, num_channels, **kwargs):
super().__init__(**kwargs)
self.net = nn.Sequential()
for _ in range(num_convs):
self.net.add(conv_block(num_channels))
def forward(self, X):
for blk in self.net:
Y = blk(X)
# Concatenate the input and output of each block on the channel
# dimension
X = np.concatenate((X, Y), axis=1)
return X
.. raw:: html
.. raw:: html
.. code:: python
class DenseBlock(nn.Module):
def __init__(self, num_convs, input_channels, num_channels):
super(DenseBlock, self).__init__()
layer = []
for i in range(num_convs):
layer.append(conv_block(
num_channels * i + input_channels, num_channels))
self.net = nn.Sequential(*layer)
def forward(self, X):
for blk in self.net:
Y = blk(X)
# Concatenate the input and output of each block on the channel
# dimension
X = torch.cat((X, Y), dim=1)
return X
.. raw:: html
.. raw:: html
.. code:: python
class DenseBlock(tf.keras.layers.Layer):
def __init__(self, num_convs, num_channels):
super(DenseBlock, self).__init__()
self.listLayers = []
for _ in range(num_convs):
self.listLayers.append(ConvBlock(num_channels))
def call(self, x):
for layer in self.listLayers.layers:
x = layer(x)
return x
.. raw:: html
.. raw:: html
No exemplo a seguir, definimos uma instância ``DenseBlock`` com 2 blocos
de convolução de 10 canais de saída. Ao usar uma entrada com 3 canais,
obteremos uma saída com :math:`3+2\times 10=23` canais. O número de
canais de bloco de convolução controla o crescimento do número de canais
de saída em relação ao número de canais de entrada. Isso também é
conhecido como *taxa de crescimento*.
.. raw:: html
.. raw:: html
.. code:: python
blk = DenseBlock(2, 10)
blk.initialize()
X = np.random.uniform(size=(4, 3, 8, 8))
Y = blk(X)
Y.shape
.. parsed-literal::
:class: output
(4, 23, 8, 8)
.. raw:: html
.. raw:: html
.. code:: python
blk = DenseBlock(2, 3, 10)
X = torch.randn(4, 3, 8, 8)
Y = blk(X)
Y.shape
.. parsed-literal::
:class: output
torch.Size([4, 23, 8, 8])
.. raw:: html
.. raw:: html
.. code:: python
blk = DenseBlock(2, 10)
X = tf.random.uniform((4, 8, 8, 3))
Y = blk(X)
Y.shape
.. parsed-literal::
:class: output
TensorShape([4, 8, 8, 23])
.. raw:: html
.. raw:: html
Camadas de Transição
--------------------
Uma vez que cada bloco denso aumentará o número de canais, adicionar
muitos deles levará a um modelo excessivamente complexo. Uma *camada de
transição* é usada para controlar a complexidade do modelo. Ele reduz o
número de canais usando a camada convolucional :math:`1\times 1` e
divide pela metade a altura e a largura da camada de pooling média com
uma distância de 2, reduzindo ainda mais a complexidade do modelo.
.. raw:: html
.. raw:: html
.. code:: python
def transition_block(num_channels):
blk = nn.Sequential()
blk.add(nn.BatchNorm(), nn.Activation('relu'),
nn.Conv2D(num_channels, kernel_size=1),
nn.AvgPool2D(pool_size=2, strides=2))
return blk
.. raw:: html
.. raw:: html
.. code:: python
def transition_block(input_channels, num_channels):
return nn.Sequential(
nn.BatchNorm2d(input_channels), nn.ReLU(),
nn.Conv2d(input_channels, num_channels, kernel_size=1),
nn.AvgPool2d(kernel_size=2, stride=2))
.. raw:: html
.. raw:: html
.. code:: python
class TransitionBlock(tf.keras.layers.Layer):
def __init__(self, num_channels, **kwargs):
super(TransitionBlock, self).__init__(**kwargs)
self.batch_norm = tf.keras.layers.BatchNormalization()
self.relu = tf.keras.layers.ReLU()
self.conv = tf.keras.layers.Conv2D(num_channels, kernel_size=1)
self.avg_pool = tf.keras.layers.AvgPool2D(pool_size=2, strides=2)
def call(self, x):
x = self.batch_norm(x)
x = self.relu(x)
x = self.conv(x)
return self.avg_pool(x)
.. raw:: html
.. raw:: html
Aplique uma camada de transição com 10 canais à saída do bloco denso no
exemplo anterior. Isso reduz o número de canais de saída para 10 e
divide a altura e a largura pela metade.
.. raw:: html
.. raw:: html
.. code:: python
blk = transition_block(10)
blk.initialize()
blk(Y).shape
.. parsed-literal::
:class: output
(4, 10, 4, 4)
.. raw:: html
.. raw:: html
.. code:: python
blk = transition_block(23, 10)
blk(Y).shape
.. parsed-literal::
:class: output
torch.Size([4, 10, 4, 4])
.. raw:: html
.. raw:: html
.. code:: python
blk = TransitionBlock(10)
blk(Y).shape
.. parsed-literal::
:class: output
TensorShape([4, 4, 4, 10])
.. raw:: html
.. raw:: html
Modelo DenseNet
---------------
A seguir, construiremos um modelo DenseNet. A DenseNet usa primeiro a
mesma camada convolucional única e camada máxima de pooling que no
ResNet.
.. raw:: html
.. raw:: html
.. code:: python
net = nn.Sequential()
net.add(nn.Conv2D(64, kernel_size=7, strides=2, padding=3),
nn.BatchNorm(), nn.Activation('relu'),
nn.MaxPool2D(pool_size=3, strides=2, padding=1))
.. raw:: html
.. raw:: html
.. code:: python
b1 = nn.Sequential(
nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),
nn.BatchNorm2d(64), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))
.. raw:: html
.. raw:: html
.. code:: python
def block_1():
return tf.keras.Sequential([
tf.keras.layers.Conv2D(64, kernel_size=7, strides=2, padding='same'),
tf.keras.layers.BatchNormalization(),
tf.keras.layers.ReLU(),
tf.keras.layers.MaxPool2D(pool_size=3, strides=2, padding='same')])
.. raw:: html
.. raw:: html
Então, semelhante aos quatro módulos compostos de blocos residuais que o
ResNet usa, A DenseNet usa quatro blocos densos. Semelhante ao ResNet,
podemos definir o número de camadas convolucionais usadas em cada bloco
denso. Aqui, nós o definimos como 4, consistente com o modelo ResNet-18
em :numref:`sec_resnet`. Além disso, definimos o número de canais (ou
seja, taxa de crescimento) para as camadas convolucionais no bloco denso
para 32, de modo que 128 canais serão adicionados a cada bloco denso.
No ResNet, a altura e a largura são reduzidas entre cada módulo por um
bloco residual com uma distância de 2. Aqui, usamos a camada de
transição para reduzir pela metade a altura e a largura e pela metade o
número de canais.
.. raw:: html
.. raw:: html
.. code:: python
# `num_channels`: the current number of channels
num_channels, growth_rate = 64, 32
num_convs_in_dense_blocks = [4, 4, 4, 4]
for i, num_convs in enumerate(num_convs_in_dense_blocks):
net.add(DenseBlock(num_convs, growth_rate))
# This is the number of output channels in the previous dense block
num_channels += num_convs * growth_rate
# A transition layer that halves the number of channels is added between
# the dense blocks
if i != len(num_convs_in_dense_blocks) - 1:
num_channels //= 2
net.add(transition_block(num_channels))
.. raw:: html
.. raw:: html
.. code:: python
# `num_channels`: the current number of channels
num_channels, growth_rate = 64, 32
num_convs_in_dense_blocks = [4, 4, 4, 4]
blks = []
for i, num_convs in enumerate(num_convs_in_dense_blocks):
blks.append(DenseBlock(num_convs, num_channels, growth_rate))
# This is the number of output channels in the previous dense block
num_channels += num_convs * growth_rate
# A transition layer that halves the number of channels is added between
# the dense blocks
if i != len(num_convs_in_dense_blocks) - 1:
blks.append(transition_block(num_channels, num_channels // 2))
num_channels = num_channels // 2
.. raw:: html
.. raw:: html
.. code:: python
def block_2():
net = block_1()
# `num_channels`: the current number of channels
num_channels, growth_rate = 64, 32
num_convs_in_dense_blocks = [4, 4, 4, 4]
for i, num_convs in enumerate(num_convs_in_dense_blocks):
net.add(DenseBlock(num_convs, growth_rate))
# This is the number of output channels in the previous dense block
num_channels += num_convs * growth_rate
# A transition layer that halves the number of channels is added
# between the dense blocks
if i != len(num_convs_in_dense_blocks) - 1:
num_channels //= 2
net.add(TransitionBlock(num_channels))
return net
.. raw:: html
.. raw:: html
Semelhante ao ResNet, uma camada de pooling global e uma camada
totalmente conectada são conectadas na extremidade para produzir a
saída.
.. raw:: html
.. raw:: html
.. code:: python
net.add(nn.BatchNorm(),
nn.Activation('relu'),
nn.GlobalAvgPool2D(),
nn.Dense(10))
.. raw:: html
.. raw:: html
.. code:: python
net = nn.Sequential(
b1, *blks,
nn.BatchNorm2d(num_channels), nn.ReLU(),
nn.AdaptiveMaxPool2d((1, 1)),
nn.Flatten(),
nn.Linear(num_channels, 10))
.. raw:: html
.. raw:: html
.. code:: python
def net():
net = block_2()
net.add(tf.keras.layers.BatchNormalization())
net.add(tf.keras.layers.ReLU())
net.add(tf.keras.layers.GlobalAvgPool2D())
net.add(tf.keras.layers.Flatten())
net.add(tf.keras.layers.Dense(10))
return net
.. raw:: html
.. raw:: html
Treinamento
-----------
Como estamos usando uma rede mais profunda aqui, nesta seção,
reduziremos a altura e largura de entrada de 224 para 96 para
simplificar o cálculo.
.. raw:: html
.. raw:: html
.. code:: python
lr, num_epochs, batch_size = 0.1, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=96)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
.. parsed-literal::
:class: output
loss 0.142, train acc 0.948, test acc 0.870
5061.2 examples/sec on gpu(0)
.. figure:: output_densenet_e82156_99_1.svg
.. raw:: html
.. raw:: html
.. code:: python
lr, num_epochs, batch_size = 0.1, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=96)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
.. parsed-literal::
:class: output
loss 0.151, train acc 0.944, test acc 0.899
5490.7 examples/sec on cuda:0
.. figure:: output_densenet_e82156_102_1.svg
.. raw:: html
.. raw:: html
.. code:: python
lr, num_epochs, batch_size = 0.1, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=96)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
.. parsed-literal::
:class: output
loss 0.134, train acc 0.951, test acc 0.898
6349.2 examples/sec on /GPU:0
.. parsed-literal::
:class: output
.. figure:: output_densenet_e82156_105_2.svg
.. raw:: html
.. raw:: html
Sumário
-------
- Em termos de conexões entre camadas, ao contrário do ResNet, onde
entradas e saídas são adicionadas, o DenseNet concatena entradas e
saídas na dimensão do canal.
- Os principais componentes que compõem o DenseNet são blocos densos e
camadas de transição.
- Precisamos manter a dimensionalidade sob controle ao compor a rede,
adicionando camadas de transição que reduzem o número de canais
novamente.
Exercícios
----------
1. Por que usamos pooling médio em vez de pooling máximo na camada de
transição?
2. Uma das vantagens mencionadas no artigo da DenseNet é que seus
parâmetros de modelo são menores que os do ResNet. Por que isso
acontece?
3. Um problema pelo qual a DenseNet foi criticada é o alto consumo de
memória.
1. Este é realmente o caso? Tente alterar a forma de entrada para
:math:`224\times 224` para ver o consumo real de memória da GPU.
2. Você consegue pensar em um meio alternativo de reduzir o consumo
de memória? Como você precisa mudar a estrutura?
4. Implemente as várias versões da DenseNet apresentadas na Tabela 1 do
artigo da DenseNet :cite:`Huang.Liu.Van-Der-Maaten.ea.2017`.
5. Projete um modelo baseado em MLP aplicando a ideia DenseNet.
Aplique-o à tarefa de previsão do preço da habitação em
:numref:`sec_kaggle_house`.
.. raw:: html
.. raw:: html
`Discussão `__
.. raw:: html
.. raw:: html
`Discussão `__
.. raw:: html
.. raw:: html
`Discussão `__
.. raw:: html
.. raw:: html
.. raw:: html