Confronto tra RNN e Transformer - Domenico Simone Marsella

1. Introduzione

L'elaborazione di sequenze è un problema centrale nell'ambito del Natural Language Processing (NLP) e in molte altre aree dell'apprendimento automatico. Tradizionalmente, le Reti Neurali Ricorrenti (RNN) sono state la scelta di riferimento (Elman, 1990; Hochreiter & Schmidhuber, 1997; Cho et al., 2014). Tuttavia, con l'introduzione dei Transformer (Vaswani et al., 2017), si è assistito a un cambio di paradigma, in cui il meccanismo di attenzione (attention mechanism) ha progressivamente sostituito la ricorrenza come principale strumento per catturare le dipendenze tra gli elementi di una sequenza.

Obiettivo di questo lavoro è fornire una sintesi formale delle due architetture, illustrandone i fondamenti matematici, i limiti e le potenziali aree di applicazione.

2. Reti Neurali Ricorrenti (RNN)

2.1 Formulazione di base

Una RNN elabora una sequenza di input \(\{x_t\}_{t=1}^T\), dove ciascun \(x_t \in \mathbb{R}^{d_x}\). A ogni passo temporale \(t\), la rete produce un hidden state \(h_t\) e un'uscita opzionale \(y_t\). Il modello ricorrente di base può essere espresso come:

\[h_t = f(W_{hh} \, h_{t-1} + W_{xh} \, x_t + b_h)\] \[y_t = W_{hy} \, h_t + b_y\]

Dove:

\(h_t \in \mathbb{R}^{d_h}\) rappresenta lo stato nascosto al tempo \(t\)
\(W_{hh}, W_{xh}, W_{hy}\) sono le matrici dei pesi
\(b_h, b_y\) sono i termini di bias
\(f(\cdot)\) è una funzione non lineare (ad es. \(\tanh\) o ReLU)

2.1.1 Limiti delle RNN standard

Vanishing/Exploding Gradients: Durante il backpropagation through time (BPTT), gradienti molto piccoli (o molto grandi) possono impedirne un addestramento efficace su sequenze lunghe.
Dipendenze a lungo termine: Poiché l'informazione viene trasportata nei vettori di stato, se la distanza tra due token correlati aumenta, il modello tende a perdere capacità di correlazione.

2.2 LSTM e GRU: gating mechanisms

Per mitigare i limiti delle RNN standard, sono stati introdotti meccanismi di gating, in particolare LSTM (Hochreiter & Schmidhuber, 1997) e GRU (Cho et al., 2014).

Long Short-Term Memory (LSTM)

L'LSTM introduce uno stato di cella \(c_t\), oltre allo stato nascosto \(h_t\). I principali aggiornamenti sono governati da tre porte di gating:

\[\mathbf{f}_t = \sigma\bigl(W_f [h_{t-1}, x_t] + b_f\bigr)\] \[\mathbf{i}_t = \sigma\bigl(W_i [h_{t-1}, x_t] + b_i\bigr)\] \[\tilde{c}_t = \tanh\bigl(W_c [h_{t-1}, x_t] + b_c\bigr)\] \[c_t = \mathbf{f}_t \odot c_{t-1} + \mathbf{i}_t \odot \tilde{c}_t\] \[\mathbf{o}_t = \sigma\bigl(W_o [h_{t-1}, x_t] + b_o\bigr)\] \[h_t = \mathbf{o}_t \odot \tanh(c_t)\]

3. Architettura Transformer

3.1 Principio di base: Self-Attention

Il Transformer (Vaswani et al., 2017) abbandona la ricorrenza e utilizza meccanismi di attenzione per modellare le relazioni tra i token di una sequenza. L'elemento centrale è la self-attention.

Computazione dell'attenzione

Dato un embedding \(\mathbf{x}_i \in \mathbb{R}^{d_{\text{model}}}\) per ciascun token \(i\), si definiscono:

\[\mathbf{Q} = X W^Q, \quad \mathbf{K} = X W^K, \quad \mathbf{V} = X W^V\]

Il meccanismo di attenzione è:

\[\text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}\!\Bigl(\frac{\mathbf{Q} \mathbf{K}^\top}{\sqrt{d_k}}\Bigr) \mathbf{V}\]

3.2 Multi-Head Attention

Per arricchire la capacità di rappresentazione, si utilizza la multi-head attention:

\[\text{MultiHead}(X) = \Bigl[\text{head}_1, \dots, \text{head}_H\Bigr] W^O\] \[\text{head}_h = \text{Attention}(\mathbf{Q}_h,\mathbf{K}_h,\mathbf{V}_h)\]

3.3 Positional Encoding

Poiché l'architettura non sfrutta la ricorrenza, è necessario incorporare l'informazione di posizione:

\[\text{PE}(pos, 2i) = \sin\bigl(pos / 10000^{2i/d_{\text{model}}}\bigr)\] \[\text{PE}(pos, 2i+1) = \cos\bigl(pos / 10000^{2i/d_{\text{model}}}\bigr)\]

4. Confronto e analisi formale

4.1 Capacità di catturare dipendenze a lungo raggio

RNN/LSTM/GRU: La dipendenza tra token distanti viene mediata dallo stato nascosto \(h_t\). Il flusso dei gradienti su sequenze molto lunghe resta complesso da gestire.
Transformer: La self-attention permette a ogni token di costruire direttamente un contesto rispetto a tutti gli altri token in un singolo passaggio.

4.2 Complessità computazionale

RNN: Costo \(O(T)\) in fase di forward pass, ma non facilmente parallelizzabile.
Transformer: Complessità \(O(T^2 \cdot d_k)\), ma parallelizzabile a livello GPU/TPU.

5. Conclusioni

Le RNN rappresentano un paradigma fondamentale per la modellazione di sequenze. L'architettura Transformer ha introdotto un approccio basato sul self-attention che permette di:

Catturare dipendenze a lungo raggio in modo esplicito e diretto.
Parallelizzare i calcoli per tutti i token della sequenza.
Integrare facilmente meccanismi di context-sharing e positional encoding.

I Transformer dominano la maggior parte degli scenari di NLP e, sempre più spesso, anche la Computer Vision. RNN e LSTM restano valide in contesti con risorse limitate o per streaming real-time.

Riferimenti Bibliografici

Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS.
Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation.
Cho, K., et al. (2014). Learning Phrase Representations using RNN Encoder–Decoder. EMNLP.
Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers. NAACL-HLT.
Brown, T., et al. (2020). Language Models are Few-Shot Learners. NeurIPS.

Confronto tra RNN e Transformer: Un'Analisi Formale

Autore