Se componen de un input, pesos, suma de los input*pesos (suma ponderada), una función de activación y un output. Funcionan para regresión y clasificación.

Matemáticamente son productos de matrices.
<aside> 📢 Las redes neuronales son sensibles a cambios de escala → ESCALAR los datos antes
</aside>

Perceptrón simple

Función escalón
Puedo representar una compuerta AND (también OR/NAND/NOR) con un perceptrón simple:

La tabla de verdad es mi conjunto de entrenamiento
¿Cómo obtenemos $w_i$? (o sea entrenamiento)
Elijo al azar:

Función del error: Escalón(w1 + w2 -1) - 1 = error

Los ejes son w1 y w2
Buscamos reducir el error yendo en la dirección de decrecimiento.
Actualización de los pesos: Elegimos un $\alpha$ llamado learning rate o tasa de crecimiento con un valor dentro del rango 0 a 1. Iteramos…

b también puede ser actualizado.
Resultado final:

W1=0.7, W2=0.6, b=-1
Lo que termina encontrando el perceptrón es una línea que corta el plano en 2.

**Los perceptrones simples no sirven para problemas no separables linealmente**
(como por ejemplo XOR).
Multicapa
Pueden resolver problemas no separables linealmente.

Se entrenan con backpropagation.
Partiremos del siguiente ejemplo:

Perceptrón multicapa fully connected (puede no estarlo)
Inicializamos con pesos aleatorios

La función de activación que elegimos es la sigmoidea.
Calculamos las entradas y salidas

(La columna de entrada es dato)
Calculamos el error cuadrático medio de cada neurona de salida.
El error total es la suma de todos los errores.

Aplicamos backpropagation para encontrar los parámetros que minimicen el error. Para eso necesitamos el gradiente del error respecto de los pesos e iremos en la dirección en la que el error decrezca, o sea en la dirección contraria al gradiente.


net es lo que le entra a la neurona

Signo negativo porque vamos en la dirección contraria al crecimiento
Notar que el nombre del método es justamente porque empieza de atrás hacia adelante.
Mapeo de un espacio de entrada en un espacio de salida → transformación de espacios.

Están formadas por 2 capas: entrada visible y salida visible. Cada conexión tiene un peso que inicialmente es aleatorio.

Se calculan las distancias euclideanas entre los nodos de entrada y uno de salida, teniendo en cuenta los pesos.
