LeCun Initialization

LecCun Initialization (LeCun et al. 2002)

$W \sim U [- \frac{1}{n}, \frac{1}{n}]$
where $n$ is the number of inputs to a neuron (“fan-in”).

LeCun Initialization

Consider a neuron receiving $n$ inputs (“fan-in”). Each input has variance 1, and each weight $w$ is sampled uniformly from $[- \frac{1}{n}, \frac{1}{n}]$ . The neuron computes:
$output = w_{1} x_{1} + w_{2} x_{2} + ... + w_{n} x_{n}$
For each term $w_{i} x_{i}$ :
$Var (w_{i} x_{i}) = w_{i}^{2} Var (x_{i}) \approx (\frac{1}{n})^{2} \cdot 1 = \frac{1}{n}$
Summing $n$ such terms:
$Var (output) = n \cdot \frac{1}{n} = 1$
This maintains unit variance through the network, preventing vanishing or exploding gradients.

Link to original

References

Yann Lecun

Max Wolf's Second Brain

Explorer

LeCun Initialization

References

Graph View

Backlinks