Este trabajo, desarrollado en el Departamento de Ciencias de la Computación, constituye el primer estudio comparativo de ocho grandes modelos de lenguaje comerciales aplicados a la clasificación automática de textos procedentes de redes ocultas.
La investigación encabezada por Víctor Pablo Prado Sánchez, investigador de la Universidad de Alcalá, en el marco de su tesis doctoral titulada ‘Propuesta metodológica para el análisis y clasificación automática de contenidos de cibermercados negros en redes de anonimización’, desarrollada en el Departamento de Ciencias de la Computación de la UAH.
El artículo principal, publicado en la revista internacional Electronics (MDPI), lleva por título “Zero-Shot Classification of Illicit Dark Web Content with Commercial LLMs: A Comparative Study on Accuracy, Human Consistency, and Inter-Model Agreement”, y analiza modelos como GPT-4o, Gemini 2.0 Flash, Claude 3.5 Haiku, DeepSeek o Grok, empleando el dataset CoDA con 10.000 documentos reales de la Dark Web.
Los resultados muestran precisiones muy altas —DeepSeek Chat (0,87 F1), Grok (0,868), Gemini Flash (0,861)— además de una fuerte consistencia intermodelo y un excelente acuerdo con anotadores humanos. El estudio confirma que los LLMs comerciales representan una herramienta eficaz para el análisis forense de contenido ilícito en entornos anónimos, multilingües y altamente volátiles (ver enlace: https://www.mdpi.com/2079-9292/14/20/4101).
Recientemente se ha publicado un segundo artículo internacional, “Classifying illicit dark web content through zero-shot prompting: An empirical study with GPT models”, en la revista Information Processing & Management, donde se evalúan cuatro modelos GPT (GPT-4.1, GPT-4.1-mini, GPT-4.1-nano y o4-mini).
Este estudio establece un nuevo rendimiento de referencia en clasificación zero-shot de contenido de la Dark Web, alcanzando un F1 ponderado de 0,885 y mostrando una estabilidad de salida muy elevada (TARa@10 superior a 0,96). También se confirma un comportamiento robusto en escenarios multilingües y se analizan las categorías más complejas desde el punto de vista semántico (ver enlace: https://www.sciencedirect.com/science/article/pii/S0306457325004170)
En detalle
Este estudio evalúa el rendimiento de cuatro modelos GPT en condiciones zero-shot sobre el dataset completo y multilingüe CoDA, compuesto por diez categorías ilícitas. GPT-4.1, GPT-4.1-mini y o4-mini alcanzan un F1 ponderado de 0,885, superando resultados previos. El análisis de estabilidad muestra alta consistencia (TARa@10 de 0,964 y 0,970). La evaluación multilingüe revela brechas muy reducidas entre inglés y otros idiomas. Las mejores puntuaciones aparecen en Drogas, Gambling y Porn (>0,9 F1), mientras que categorías ambiguas como Violencia o Crypto presentan menor rendimiento.
El análisis cualitativo indica que algunas clasificaciones “erróneas” podrían estar justificadas semánticamente, señalando posibles inconsistencias en las anotaciones. El estudio establece un nuevo punto de referencia en clasificación zero-shot de contenido ilícito y destaca la importancia de definir claramente las categorías para su despliegue operativo.
Más noticias de la Universidad de Alcalá
Sigue disfrutando de Dream Alcalá:
- Telegram: Recibe nuestras noticias y contenido exclusivo (clic aquí).
- Newsletter: Recibe cada tarde un correo con nuestras últimas noticias (clic aquí).
- YouTube: Suscríbete para ver nuestros mejores vídeos (clic aquí).
Sé tú el periodista: envíanos tus fotos o noticias a través de Telegram.