Descripción
Este artículo, escrito por Sarker, I. H., Kayes, A. S. M., Badsha, S. y otros, y publicado en abierto en la revista Journal of Big Data, describe la intersección de dos mundos, la ciberseguridad y la ciencia de datos aplicando las técnicas de la última para mejorar la primera. Los autores describen cómo se pueden usar los diferentes algoritmos de aprendizaje automático para mejorar los resultados actuales en los problemas típicos de la ciberseguridad, como por ejemplo la detección de intrusiones en las redes o el uso fraudulento de tarjetas de crédito y otras operaciones bancarias, entre otros.
Los autores describen varios conjuntos de datos que se han usado previamente en el ámbito y su aplicación en problemas reales con la ciberseguridad. También describen los conceptos clave de este nuevo ámbito emergente de la intersección, como por ejemplo el denominado data breach, desgraciadamente muy frecuente debido a la baja seguridad de muchos sistemas y aplicaciones, o las ciberanomalías, que pueden ser monitorizadas para detectar posibles intrusiones. Después, los autores describen trabajos que se consideran relevantes en el ámbito en función de la naturaleza de los algoritmos empleados, ya sea aprendizaje supervisado o no supervisado, o más recientemente deep learning, u otras técnicas no tan conocidas.
La principal aportación de los autores es un modelo para la captura, el análisis y la explotación de datos relacionados con la seguridad siguiendo el ciclo de vida tradicional de dichos datos, pero con las particularidades específicas del ámbito de la ciberseguridad y haciendo un repaso extensivo de los distintos trabajos anteriores, identificando los problemas que hay y proponiendo líneas de investigación que, según los autores, se desarrollarán próximamente a medida que haya una intersección más grande entre los dos ámbitos: la ciberseguridad y la ciencia de datos.
Enlace al recurso
https://journalofbigdata.springeropen.com/articles/10.1186/s40537-020-00318-5
Ejemplo de uso
Uno de los ataques más típicos que sufre toda institución en línea es el ataque de denegación de servicio (DoS, del inglés Denial-of-service, o también DDoS, en el que la primera D es de Distributed, por ataques masivos). Normalmente, un servicio web va recibiendo y atendiendo peticiones con un ritmo conocido, con picos y valles en función de la hora y del día de la semana, por ejemplo. Un ataque de denegación de servicio se basa en saturar el servidor web que atiende estas peticiones lanzando miles o incluso millones de peticiones que no pueden ser atendidas y que provocan que el servidor colapse y no pueda dar el servicio previsto; de aquí el nombre del ataque. Las tipologías de ataques DoS o DDoS son muchas y van en función de los mecanismos que usen los atacantes.
Para corregir el problema, unos investigadores han creado una nueva taxonomía de ataques DoS/DDoS y han preparado un conjunto de datos que puede utilizarse para entrenar sistemas capaces de detectar ataques de este estilo a partir de los datos recogidos gracias a herramientas que monitorizan el tráfico en la red. Estas herramientas separan peticiones normales de las que seguramente forman parte de un ataque y que deben ser descartadas, y así se reduce la capacidad del ataque. Los resultados muestran que los árboles de decisión son una buena herramienta para entender la naturaleza de los ciberataques y detectarlos, aunque este trabajo es solo un punto de partida para establecer una metodología y llevar a cabo análisis de este tipo.
En la asignatura Privacidad y seguridad de los datos del grado de Ciencia de Datos Aplicada de la UOC se tratan algunos de los temas descritos en el artículo.
Enlaces relacionados
Ataque de denegación de servicio: https://es.wikipedia.org/wiki/Ataque_de_denegaci%C3%B3n_de_servicio
Datasets relacionados con ciberseguridad: https://www.unb.ca/cic/datasets/index.html