
53
Epicentro. Ciencia - Tecnología - Innovación 2 (2), 2024.
Modelo de red propuesto
Primero comenzaremos tomando la red de Palakodati et al. (2020), que tenía como objetivo clasificar
frutas frescas y podridas, donde el modelo alcanzó una precisión de 97.82%, el cual superó los otros
métodos de aprendizaje por transferencia y técnicas convencionales. La red se inicia con una estructura
secuencial, lo que significa que las capas se apilan una tras otra en un flujo lineal.
La primera capa es una capa convolucional que utiliza 32 filtros de tamaño 3x3. Estos filtros K (·,·) se
aplican a la imagen de entrada I (·,·), que se espera que tenga un tamaño de 128x128 píxeles y tres
canales de color (RGB).
Donde es el tensor de salida. La capa utiliza un relleno ('padding') del tipo 'same', lo que significa que
la salida de la capa tendrá las mismas dimensiones que la entrada. A continuación, se aplica una capa
de normalización por lotes, que ayuda a mejorar la estabilidad y el rendimiento de la red. La activación
ReLU (Rectified Linear Unit) se utiliza después de la normalización, proporcionando no linealidad a la
red. Finalmente, se aplica una capa de pooling máximo con un tamaño de 2x2, que reduce las
dimensiones espaciales de la salida a la mitad.
La segunda y tercera capas convolucionales siguen un patrón similar. La segunda capa utiliza 64 filtros
de tamaño 3x3, mientras que la tercera utiliza 128 filtros del mismo tamaño. Ambas capas también
emplean normalización por lotes, activación ReLU y pooling máximo.
Después de las capas convolucionales, la red aplana la salida en un vector unidimensional, lo que
facilita su conexión a las capas densas o completamente conectadas. La siguiente, es una capa densa
con 512 neuronas, seguida de una activación ReLU. Para prevenir el sobreajuste y mejorar la
generalización del modelo, se introduce un dropout del 50%. Esto significa que, durante el
entrenamiento, el 50% de las neuronas en esta capa se "apagarán" aleatoriamente en cada paso.
Finalmente, la red culmina en una capa densa con dos neuronas, que corresponde a las dos clases
de clasificación: banana fresca y banana dañada. La activación softmax se utiliza en esta capa para
convertir las salidas en probabilidades, asegurando que sumen 1. Esta capa proporciona la
probabilidad de que una imagen dada pertenezca a una de las dos clases. Cabe recalcar que se
realizaron unas modificaciones en la red.
La segunda red que consideramos fue una con conexión residual que se describirán a
continuación:
El modelo presentado es una Red Neuronal Convolucional (CNN) diseñada para procesar imágenes
de tamaño 128x128 con tres canales de color (RGB) comienza con una capa convolucional que utiliza
32 filtros de 3x3, seguida de una normalización por lotes y una activación ReLU. Luego, se aplica un
pooling máximo para reducir las dimensiones espaciales.