log-sum-exp trick

Goal: compute $lo g (\sum_{i = 1}^{n} e^{x_{i}})$
Problem: numerical stability for large positive or negative $x$
Solution:

lo g (i = 1 \sum n e^{x_{i}}) = lo g (e^{c} \cdot e^{- c} i = 1 \sum n e^{x_{i}}) = lo g (e^{c} i = 1 \sum n e^{x_{i} - c}) = c + lo g (i = 1 \sum n e^{x_{i} - c})

where $c = max_{i} (x_{i})$

This way:

normalized_logits = logits - logits.logsumexp(dim=1, keepdim=True)
softmax = normalized_logits.exp() # exp(logits)/sum(exp(logits))

Max Wolf's Second Brain