10.7. Transformador¶

Open the notebook in Colab

Open the notebook in Colab

Open the notebook in Colab

Open the notebook in SageMaker Studio Lab

Comparamos CNNs, RNNs e autoatenção em Section 10.6.2. Notavelmente, a auto-atenção desfruta de computação paralela e do comprimento máximo de caminho mais curto. Portanto, naturalmente, é atraente projetar profundamente arquiteturas usando auto-atenção. Ao contrário dos modelos anteriores de autoatenção que ainda contam com RNNs para representações de entrada cite:Cheng.Dong.Lapata.2016,Lin.Feng.Santos.ea.2017,Paulus.Xiong.Socher.2017, o modelo do transformador é exclusivamente baseado em mecanismos de atenção sem qualquer camada convolucional ou recorrente [Vaswani et al., 2017]. Embora originalmente propostos para aprendizagem de sequência para sequência em dados de texto, os transformadores têm sido difundidos em uma ampla gama de aplicações modernas de aprendizagem profunda, como nas áreas de linguagem, visão, fala e aprendizagem por reforço.

10.7.1. Modelo¶

Como uma instância da arquitetura codificador-decodificador, a arquitetura geral do transformador é apresentada em Fig. 10.7.1. Como podemos ver, o transformador é composto por um codificador e um decodificador. Diferente de Atenção Bahdanau para o aprendizado de sequência para sequência em Fig. 10.4.1, os embeddings de sequência de entrada (origem) e saída (destino) são adicionados com codificação posicional antes de serem alimentados no codificador e no decodificador que empilham módulos baseados em autoatenção.

Fig. 10.7.1 A arquitetura do transformador.¶

Agora fornecemos uma visão geral da arquitetura do transformador em Fig. 10.7.1. Em um alto nível, o codificador do transformador é uma pilha de várias camadas idênticas, onde cada camada tem duas subcamadas (qualquer uma é denotada como \(\mathrm{sublayer}\)). O primeiro é um pooling de autoatenção com várias heads e o segundo é uma rede feed-forward posicional. Especificamente, na autoatenção do codificador, as consultas, as chaves e os valores são todos provenientes das saídas da camada do codificador anterior. Inspirado no design ResNet em Section 7.6, uma conexão residual é empregada em torno de ambas as subcamadas. No transformador, para qualquer entrada \(\mathbf{x} \in \mathbb{R}^d\) em qualquer posição da sequência, exigimos que \(\mathrm{sublayer}(\mathbf{x}) \in \mathbb{R}^d\) para que a conexão residual \(\mathbf{x} + \mathrm{sublayer}(\mathbf{x}) \in \mathbb{R}^d\) seja viável. Esta adição da conexão residual é imediatamente seguida pela normalização da camada [Ba et al., 2016]. Como resultado, o codificador do transformador produz uma representação vetorial \(d\)-dimensional para cada posição da sequência de entrada.

O decodificador do transformador também é uma pilha de várias camadas idênticas com conexões residuais e normalizações de camada. Além das duas subcamadas descritas no codificador, o decodificador insere uma terceira subcamada, conhecida como atenção do codificador-decodificador, entre esses dois. Na atenção do codificador-decodificador, as consultas são das saídas da camada do decodificador anterior e as chaves e valores são das saídas do codificador do transformador. Na autoatenção do decodificador, consultas, chaves e valores são todos provenientes das saídas da camada do decodificador anterior. No entanto, cada posição no decodificador só pode atender a todas as posições no decodificador até aquela posição. Essa atenção mascarada preserva a propriedade auto-regressiva, garantindo que a previsão dependa apenas dos tokens de saída que foram gerados.

Já descrevemos e implementamos a atenção multi-head com base em produtos escalonados em Section 10.5 e codificação posicional em Section 10.6.3. A seguir, implementaremos o restante do modelo do transformador.

10.7. Transformador¶ Colab [mxnet] Open the notebook in Colab Colab [pytorch] Open the notebook in Colab Colab [tensorflow] Open the notebook in Colab SageMaker Studio Lab Open the notebook in SageMaker Studio Lab

10.7.1. Modelo¶

10.7.2. Redes Positionwise Feed-Forward¶

10.7.3. Conexão residual e normalização de camada¶

10.7.4. Encoder¶

10.7.5. Decoder¶

10.7.6. Treinamento¶

10.7.7. Resumo¶

10.7.8. Exercícios¶

10.7. Transformador¶

Open the notebook in Colab

Open the notebook in Colab

Open the notebook in Colab

Open the notebook in SageMaker Studio Lab