Una derivada parcial mide cómo cambia una función cuando varías una de sus variables y dejas las demás fijas. Si tienes , la derivada parcial respecto a es (tratando a como constante), y respecto a es (tratando a como constante). Se escriben con la en lugar de la normal: y .

En redes neuronales aparecen en todas partes. Cuando queremos saber cómo afecta un peso concreto al coste, la pregunta exacta es “si muevo este peso un poquito y dejo todos los demás iguales, ¿cuánto cambia el coste?“. Eso es exactamente . Una red tiene cientos de miles de pesos, y cada uno tiene su propia derivada parcial respecto al coste. El conjunto de todas esas derivadas parciales se llama gradiente, y es lo que gradient descent usa para actualizar la red.

Ver NN-07 Backpropagation para cómo se calculan en cadena a través de las capas.