I+D

VISCA: Un enfoque basado en datos para perfilar víctimas y modelar el atractivo (ES)

El sistema de información de víctimas de ciberataques (Victim Insight System for Cyber Attacks, VISCA) es nuestro sistema multiagente que convierte reportes de incidentes en perfiles estructurados de las víctimas: quién fue atacado y cómo es esa organización. Ha sido creado para enriquecer una base de datos de ciberincidentes a entidades OT e infraestructuras críticas identificando automáticamente a la víctima y añadiendo datos firmográficos (industria, país, tamaño, ingresos, NAICS, si cotiza en bolsa, etc.).

Este desarrollo se enmarca en nuestro trabajo previo sobre el Atractivo de una entidad. Definimos el Atractivo como el nivel de interés que una organización despierta en potenciales atacantes, en función de factores como el tipo de negocio, la naturaleza y cantidad de datos que maneja, o su huella operativa. Dentro de este marco, el Atractivo Basal se refiere a las características inherentes que hacen que una empresa sea un objetivo valioso incluso sin que los atacantes tengan un conocimiento o intención específica hacia ella.

Para estudiar y modelar el Atractivo en la práctica, hacen falta perfiles de víctimas completos y confiables. Esa es precisamente la base que aporta VISCA.

 

Multi-agent architecture proposed for extracting victim information and completing missing firmographic data

 

Así funciona el pipeline multiagente

El corazón es un workflow en LangGraph donde los agentes encadenan resultados, cada uno aumentando la certeza:

  1. Entity Extractor: lee la descripción del incidente y propone nombre(s) de la víctima, alias/filiales, país e industria. Esta es la semilla.

  2. URL Extractor: usa búsquedas para elegir la web oficial que mejor coincide con el nombre (evita confusiones y variantes de marca).

  3. Entity Profiler: consulta varias fuentes para completar los firmográficos. Emplea dos tipos de herramientas:

    • Fuentes estructuradas (sin parseo con LLM): RocketReach, DBpedia y BigPicture.

    • Web no estructurada (el LLM extrae de los resultados): herramienta de Google y otra para las URLs.

Fusión de datos con confianza

Cada resultado lleva una puntuación de confianza basada en tres aspectos:

  • Completitud: cuántos campos encontró.

  • Precisión/volumen: menos resultados y más relevantes es mejor.

  • Reintentos: cuántas variantes de nombres probó antes de obtener una respuesta válida.

VISCA elige como primaria la fuente con mayor confianza y rellena huecos con otras fuentes si superan un umbral de confianza. El resultado es un perfil único y coherente con una confianza de integración para saber cuánto fiarse del registro final.

 

Por qué es relevante (especialmente en OT/IC)

  • Base empírica para el modelado de Atractivo: con datos firmográficos homogéneos y consistentes a gran escala se puede analizar qué hace a una organización atractiva para los atacantes.

  • Mejor análisis de incidentes: agregaciones por sector, geografía o tamaño con datos sólidos.

  • CTI enriquecida: los IOCs ganan contexto de negocio.

  • Menos fricción: el diseño multiagente automatiza la parte tedioso (escoger nombres de las entidades, obtener su web, cruzar fuentes) y deja al analista centrarse en interpretar el atractivo y el riesgo.