Arquitectura y Flujo de Datos

La arquitectura de datos de Nodo está diseñada para capturar, estructurar y transformar señales reales de búsqueda en información accionable.

El sistema no solo almacena listados, sino que registra eventos de intención y los convierte en métricas agregadas.


1️⃣ Tipos de Datos Gestionados

Datos Transaccionales

  • Usuarios

  • Comercios

  • Equipos

  • Listados

  • Suscripciones

  • Créditos promocionales

  • Promociones activas

Estos datos permiten la operación comercial de la plataforma.


Datos Semánticos

  • Embeddings de listados

  • Embeddings de consultas de búsqueda

Dimensiones actuales: 1536 Modelo utilizado: embeddings semánticos generados vía API externa.

Estos vectores permiten similitud semántica mediante PGVector.


Datos de Eventos

  • Término de búsqueda

  • Categoría inferida

  • Filtros aplicados

  • Ubicación

  • Timestamp

  • Interacciones con listados

Estos eventos constituyen la base de la analítica.


2️⃣ Flujo de Datos de Búsqueda

Cuando un usuario realiza una búsqueda:

Paso 1 — Normalización

La consulta se limpia y normaliza para consistencia.

Paso 2 — Generación de Embedding

Se genera un embedding semántico de 1536 dimensiones. Si existe en cache, se reutiliza.

Paso 3 — Búsqueda Vectorial

Se ejecuta similitud coseno en PostgreSQL (PGVector) contra:

  • Listados propios

  • Tablas externas indexadas

Paso 4 — Aplicación de Filtros

Se aplican filtros estructurados:

  • Categoría

  • Precio

  • Atributos específicos

Paso 5 — Cache de Resultado

La respuesta completa puede almacenarse temporalmente en Redis.

Paso 6 — Registro de Evento

La búsqueda se registra en la tabla de analytics para agregación posterior.


3️⃣ Agregación y Métricas

Un proceso programado realiza agregaciones periódicas para generar:

  • Búsquedas más frecuentes

  • Tendencias por categoría

  • Distribución geográfica

  • Métricas de rendimiento de listados

  • Ranking de interacción

Estas métricas alimentan el dashboard de analytics.


4️⃣ Estrategia de Optimización

Para mantener eficiencia:

  • Cache de embeddings (TTL extendido)

  • Cache de resultados frecuentes

  • Índices vectoriales optimizados

  • Paginación estructurada

Esto reduce costos de procesamiento y mejora latencia.


5️⃣ Evolución Planificada

La arquitectura de datos permite:

  • Optimización futura de índices vectoriales

  • Separación de procesamiento pesado

  • Mayor granularidad en métricas

  • Expansión geográfica sin rediseño estructural

El diseño actual prioriza equilibrio entre robustez y velocidad de iteración.

Última actualización