Tarea 7: Lectura de un artículo de investigación

Información de la Tarea

Estudiante: Andrés Cruz Chipol

Curso: Aprendizaje Automático

Fecha de entrega: 19 de Marzo, 2026

Descripción de la Tarea

Lectura y análisis del artículo de investigación: “A Performance Evaluation of Machine Learning Techniques for Breast Ultrasound Classification” por Francisco A. González-Luna, Juanita Hernández-López y Wilfrido Gomez-Flores. DOI: 10.1109/ICEEE.2019.8884547.

1. ¿Qué características se usaron? ¿Cuántas?

Se extrajeron un total de 137 características morfológicas y de textura de la región de interés de los tumores. Estas características se seleccionaron para describir los parámetros del BI-RADS específico para masas. Se dividieron en cinco categorías:

Forma: 26 características morfológicas (como solidez, convexidad, circularidad, entre otras).
Orientación: 2 características morfológicas (proporción largo-ancho y orientación).
Margen: 15 características tanto morfológicas como de textura (como espiculación, número de depresiones, aspereza, etc.).
Patrón de eco: 90 características de textura (derivadas principalmente de la Matriz de Co-ocurrencia de Niveles de Gris o GLCM).
Características posteriores: 4 características de textura (como la desviación estándar de la acústica posterior).

2. ¿Cómo se realizaron las pruebas?

Los autores implementaron la siguiente metodología:

Normalización: Antes del entrenamiento, todas las características extraídas se reescalaron a un rango de [-1, 1] utilizando la normalización softmax; esto se hizo para reducir la influencia que pudieran tener los valores extremos en los modelos.
Validación cruzada: Evaluaron el rendimiento utilizando el método de validación cruzada de k pliegues (k-fold cross-validation). Particionaron los datos en 10 subconjuntos de igual tamaño ($k=10$) y realizaron iteraciones de entrenamiento y prueba. Para reducir el impacto de la aleatoriedad generada al dividir los datos, repitieron este proceso 10 veces ($t=10$).
Ajuste de hiperparámetros: Para los algoritmos que lo requerían (SVM, kNN y RBFN), encontraron los parámetros óptimos realizando una búsqueda en cuadrícula combinada con otra validación cruzada de 5 pliegues.
Métricas: Midieron el éxito de las pruebas utilizando cuatro métricas: sensibilidad, especificidad, precisión y área bajo la curva (AUC).

3. ¿Cómo se realizó la Figura 3?

Se elaboró graficando las curvas ROC resultantes de cada uno de los enfoques de aprendizaje automático. Para construirla, se trazó la Sensibilidad en el eje vertical (eje Y) contra la métrica matemática de 1 - Especificidad en el eje horizontal (eje X). Cada línea en la gráfica ilustra el comportamiento de un clasificador diferente (Ada, KNN, LDA, MLR, RBFN, RF y SVM) al evaluar todas las compensaciones posibles entre la sensibilidad y la especificidad .

4. ¿Para qué sirve la prueba Kruskal-Wallis?

En este estudio, la prueba de Kruskal-Wallis (utilizando un nivel de significancia de $\alpha=0.05$) se utilizó para realizar una comparación estadística del rendimiento de clasificación entre los distintos enfoques de aprendizaje automático. El propósito de aplicar esta prueba fue determinar matemáticamente si las diferencias observadas en el rendimiento de los modelos eran estadísticamente significativas, o si los modelos tuvieron un desempeño similar. Los autores pudieron concluir que el modelo LDA y el SVM tuvieron un rendimiento estadísticamente similar.

5. ¿Qué software se utilizó para realizar los clasificadores?

Para el desarrollo, entrenamiento y evaluación de los modelos, los autores utilizaron un ecosistema basado en MATLAB. La arquitectura del software se centró en el uso de BUSAT (Breast Ultrasound Analysis Toolbox), una herramienta propia diseñada específicamente para el análisis de imágenes de ultrasonido de mama y el desarrollo de sistemas de diagnóstico asistido por computadora (CAD).

Dentro de los 62 algoritmos que conforman BUSAT, se empleó el módulo de clasificación, que cuenta con 16 funciones dedicadas a catalogar tumores utilizando enfoques lineales y no lineales. Específicamente:

LDA y RBFN: Se utilizaron las rutinas internas de BUSAT, ejecutando comandos especializados como trainLDA, classifyLDA, trainRBFN y classifyRBFN.
SVM: Para garantizar la optimización y calidad del modelo, BUSAT integró LIBSVM, una biblioteca externa de alto rendimiento reconocida internacionalmente para la implementación de Máquinas de Vectores de Soporte.

6. ¿Tienen ustedes el software para poder replicar los resultados si tuvieses acceso a los datos de los autores?

Sí, utilizando la biblioteca scikit-learn, sería posible replicar la fase de clasificación y evaluación estadística de los resultados. Los equivalentes directos de los clasificadores son:

LDA: LinearDiscriminantAnalysis
SVM: SVC
kNN: KNeighborsClassifier
MLR: LogisticRegression
Random Forest: RandomForestClassifier
AdaBoost: AdaBoostClassifier

Solo la RBFN carece de implementación nativa en scikit-learn; puede emularse con RBFSampler o aproximarse mediante SVM (kernel RBF).