”. Na sequência, vamos explicar o design de :numref:`fig_seq2seq` em maiores detalhes. Vamos treinar este modelo para tradução automática no conjunto de dados inglês-francês, conforme apresentado em :numref:`sec_machine_translation`. .. raw:: html

.. raw:: html

.. code:: python import collections import math from mxnet import autograd, gluon, init, np, npx from mxnet.gluon import nn, rnn from d2l import mxnet as d2l npx.set_np() .. raw:: html

.. raw:: html

.. code:: python import collections import math import torch from torch import nn from d2l import torch as d2l .. raw:: html

.. raw:: html

Encoder ------- Tecnicamente falando, o codificador transforma uma sequência de entrada de comprimento variável em um formato fixo *variável de contexto* :math:`\ mathbf{c}` e codifica as informações da sequência de entrada nesta variável de contexto. Conforme descrito em :numref:`fig_seq2seq`, podemos usar um RNN para projetar o codificador. Vamos considerar um exemplo de sequência (tamanho do lote: 1). Suponha que a sequência de entrada é :math:`x_1, \ldots, x_T`, de modo que :math:`x_t` é o token :math:`t^{\mathrm{th}}` na sequência de texto de entrada. No passo de tempo :math:`t`, o RNN transforma o vetor de característica de entrada :math:`\mathbf{x}_t` para :math:`x_t` e o estado oculto :math:`\mathbf{h} _{t-1}` da etapa de tempo anterior no estado oculto atual :math:`\mathbf{h}_t`. Podemos usar a função :math:`f` para expressar a transformação da camada recorrente do RNN: .. math:: \mathbf{h}_t = f(\mathbf{x}_t, \mathbf{h}_{t-1}). Em geral, o codificador transforma os estados ocultos em todos os passos do tempo na variável de contexto por meio de uma função personalizada :math:`q`: .. math:: \mathbf{c} = q(\mathbf{h}_1, \ldots, \mathbf{h}_T). Por exemplo, ao escolher :math:`q(\mathbf{h}_1, \ldots, \mathbf{h}_T) = \mathbf{h}_T` como em :numref:`fig_seq2seq`, a variável de contexto é apenas o estado oculto :math:`\mathbf{h}_T` da sequência de entrada na etapa de tempo final. Até agora, usamos um RNN unidirecional para projetar o codificador, Onde um estado oculto depende apenas de a subsequência de entrada na e antes da etapa de tempo do estado oculto. Também podemos construir codificadores usando RNNs bidirecionais. Neste caso, um estado oculto depende de a subsequência antes e depois da etapa de tempo (incluindo a entrada na etapa de tempo atual), que codifica as informações de toda a sequência. Agora, vamos implementar o codificador RNN. Observe que usamos uma *camada de incorporação* para obter o vetor de recurso para cada token na sequência de entrada. O peso de uma camada de incorporação é uma matriz cujo número de linhas é igual ao tamanho do vocabulário de entrada (``vocab_size``) e o número de colunas é igual à dimensão do vetor de recursos (``embed_size``). Para qualquer índice de token de entrada :math:`i`, a camada de incorporação busca a :math:`i^{\mathrm{th}}` linha (começando em 0) da matriz de peso para retornar seu vetor de recurso. Além do mais, aqui, escolhemos um GRU multicamadas para implementar o codificador. .. raw:: html