NeverHack
Ingeniería de Datos · Ciberseguridad · Tiempo Real · Consultoría
Mi primer trabajo al salir de la universidad. Entré en Open3s como ingeniero de datos montando pipelines de seguridad para clientes enterprise. El día a día era sobre todo sistemas de detección con ELK, orquestación con Airflow, dashboards en Splunk y respuesta automatizada a incidentes. Pasé la mayor parte del tiempo con el equipo de datos, pero también eché mano en proyectos de ML e infraestructura cuando otros equipos lo necesitaban. Open3s fue adquirida después por NeverHack.
La empresa
Open3s (ahora NeverHack) es una empresa europea de ciberseguridad. Ofrecen consultoría de seguridad, servicios SOC gestionados y desarrollan herramientas internas para detección de amenazas. La mayoría de clientes son grandes empresas españolas, incluyendo varias del IBEX35.
Mi rol
Empecé como junior y en menos de un año me ascendieron a liderar proyectos. Acabé como responsable de dos productos: una plataforma de detección de amenazas en tiempo real y un sistema de monitorización de aplicaciones para bancos y entidades públicas. También ayudé a otros equipos con modelos de ML, consultoría e infraestructura cuando se quedaban atascados.
Proyectos
Fui líder técnico de dos productos principales, ambos para clientes enterprise con necesidades de seguridad distintas:
- Plataforma vSOC: Detección de amenazas en tiempo real procesando más de 150M de eventos diarios. Montada con ELK, Airflow y Siemplify, con alertas en menos de un minuto.
- Monitorización de Apps: Plataformas de monitorización para bancos y entidades públicas. Detección de crashes, analítica de comportamiento y predicción de uso con Splunk y Python.
Enfoque técnico
Los datos de seguridad tienen una propiedad particular: los fallos son peligrosos, no solo molestos. Una hora de logs perdidos puede contener los primeros indicios de una brecha. Por eso todo lo que construimos priorizaba fiabilidad primero y velocidad después.
Diseñamos para un 99,99% de uptime con pipelines redundantes y degradación gradual. Cuando algo se rompía, el sistema seguía ingiriendo datos mientras lo arreglábamos. Sin puntos ciegos.
La latencia importaba casi igual. Una amenaza detectada en tiempo real se puede contener. La misma amenaza una hora después puede que ya esté exfiltrando datos. Buscábamos detección en menos de un minuto para eventos críticos.
El otro foco era la automatización. Los analistas SOC se enfrentan a miles de eventos por turno, la mayoría ruido. Montamos playbooks que resolvían los casos rutinarios de forma automática para que los analistas se centraran en amenazas reales.
Resultados
Después de un año de trabajo, estos son los resultados que conseguimos:
- Más de 150M de eventos diarios procesados en tiempo real
- 99.99% de uptime anual en todos los entornos
- 50% de reducción en carga de trabajo manual de analistas
- Escalamos a 10 clientes enterprise
- Detección de crashes reducida de horas a segundos
- Detección de amenazas en menos de un minuto
- Más de 50 DAGs de Airflow coordinando el flujo de seguridad
- Más de 50 playbooks automatizando respuesta a incidentes
- Más de 10 modelos ML/DL sirviendo diferentes casos de uso
Lo que aprendí
La lección clave: el volumen sin contexto es ruido. Procesar 150M de eventos no es lo difícil. Lo difícil es encontrar los 10 que importan. Esa tensión entre capturarlo todo y no ahogarse en falsos positivos marcó cómo pienso sobre sistemas de datos.
La automatización en seguridad no va de sustituir analistas. Va de respetar su tiempo. Cada playbook que automatizamos, cada falso positivo que filtramos, devolvía horas a alguien para hacer trabajo de seguridad de verdad. En algunos casos, el analista revisaba el servicio afectado a mano, pero sin la misma urgencia.
A nivel personal, aquí maduré rápido. Pasé de escribir mi primer DAG en producción a liderar proyectos para empresas del IBEX35 en menos de un año. El equipo premiaba la iniciativa por encima de la perfección, así que cogía proyectos para los que no tenía todo el conocimiento y los sacaba adelante sobre la marcha con el soporte técnico necesario. Me acostumbré a preguntar, a entregar soluciones imperfectas y a asumir errores en público.
También aprendí a valorar de verdad la disciplina operacional. Cuando el downtime implica brechas sin detectar, aprendes a construir sistemas que fallen de forma controlada. Aprendes a monitorizar todo. Aprendes a diseñar pensando en el escenario de las 3 de la mañana.