NeverHack
Ingeniería de Datos · Ciberseguridad · Tiempo Real · Consultoría
Mi primer trabajo después de la universidad. Entré en Open3s como ingeniero de datos construyendo pipelines de seguridad para clientes enterprise. El trabajo era sobre todo sistemas de detección con ELK, orquestación con Airflow, dashboards en Splunk y respuesta automatizada a incidentes. Pasé la mayor parte del tiempo con el equipo de datos, pero también ayudé en proyectos de ML e infraestructura cuando otros equipos necesitaban una mano. Open3s fue adquirida por NeverHack.
La empresa
Open3s (ahora NeverHack) es una empresa europea de ciberseguridad. Ofrecen consultoría de seguridad, servicios SOC gestionados y desarrollan herramientas internas para detección de amenazas. La mayoría de clientes son grandes empresas españolas, incluyendo varias del IBEX35.
Mi rol
Empecé como junior y en menos de un año me ascendieron a liderar proyectos. Acabé siendo responsable de dos productos: una plataforma de detección de amenazas en tiempo real y un sistema de monitorización de aplicaciones para bancos y entidades públicas. También eché una mano a otros equipos con modelos de ML, consultoría e infraestructura cuando se atascaban.
Proyectos
Fui el líder técnico de dos productos principales clientes enterprise:
- Plataforma vSOC: Detección de amenazas en tiempo real procesando más de 150M de eventos diarios. Construida con ELK, Airflow y Siemplify con alertas en menos de un minuto.
- Monitorización de Apps: Plataformas de monitorización para bancos y entidades públicas. Detección de crashes, analítica de comportamiento y predicción de uso con Splunk y Python.
Enfoque técnico
Los datos de seguridad tienen una propiedad particular: los fallos son peligrosos, no solo inconvenientes. Una hora de logs perdidos puede contener las primeras señales de una brecha. Así que todo lo que construimos priorizaba fiabilidad primero, velocidad después.
Diseñamos para un 99.99% de uptime con pipelines redundantes y degradación gradual. Cuando algo se rompía, el sistema seguía ingestando datos mientras lo arreglábamos. Sin puntos ciegos.
La latencia importaba casi igual. Una amenaza detectada en tiempo real se puede contener. La misma amenaza una hora después puede que ya esté filtrando datos. Buscábamos detección en menos de un minuto para eventos críticos.
El otro foco era la automatización. Los analistas SOC se enfrentan a miles de eventos por turno, la mayoría ruido. Construimos playbooks que gestionaban los casos rutinarios automáticamente para que los analistas pudieran centrarse en amenazas reales.
Resultados
Después de un año de trabajo, estos son los resultados que conseguimos:
- Más de 150M de eventos diarios procesados en tiempo real
- 99.99% de uptime anual en todos los entornos
- 50% de reducción en carga de trabajo manual de analistas
- Escalamos a 10 clientes enterprise
- Detección de crashes reducida de horas a segundos
- Detección de amenazas en menos de un minuto
- Más de 50 DAGs de Airflow coordinando el flujo de seguridad
- Más de 50 playbooks automatizando respuesta a incidentes
- Más de 10 modelos ML/DL sirviendo diferentes casos de uso
Lo que aprendí
El aprendizaje clave es que el volumen sin contexto es ruido. Procesar 150M de eventos no es lo difícil. Encontrar los 10 que importan sí lo es. Esta tensión entre capturarlo todo y no ahogarse en falsos positivos moldeó cómo pienso sobre sistemas de datos.
En paralelo, la automatización en seguridad no va de reemplazar analistas. Va de respetar su tiempo. Cada playbook que automatizamos, cada falso positivo que filtramos, le devolvía horas a alguien para hacer trabajo de seguridad de verdad. En algunos casos, el analista revisaba el servicio afectado manualmente pero sin el mismo nivel de urgencia.
A nivel personal, me obligó a madurar rápido. Pasé de escribir mi primer DAG en producción a liderar proyectos para empresas del IBEX35 en menos de un año. El equipo recompensaba la iniciativa sobre la perfección, lo que significaba que cogía proyectos para los que no tenía todo el conocimiento y los resolvía sobre la marcha con el soporte técnico necesario. Me acostumbré a hacer preguntas, a entregar soluciones imperfectas y a asumir errores públicamente.
También desarrollé una apreciación real por la disciplina operacional. Cuando el downtime significa brechas sin detectar, aprendes a construir sistemas que fallen sin repercusiones. Aprendes a monitorizar todo. Aprendes a diseñar para el escenario de las 3 de la mañana.