RAG & IA

Indexación Semántica: Sistema de Búsqueda Inteligente

Igera Solutions
13 de abril de 2026
12 min read
Indexación Semántica: Sistema de Búsqueda Inteligente

El Problema: Búsqueda por Palabras Clave Falla

Imagina que tienes un estatuto que dice: "La comunidad debe mantener los espacios comunes en buen estado." Si buscas por palabra clave "mantenimiento", el sistema no lo encuentra porque la palabra exacta no aparece. Con búsqueda semántica, Igera entiende que "mantener espacios" significa lo mismo que "mantenimiento".

Esta es la diferencia entre Ctrl+F (búsqueda por texto) y una búsqueda inteligente por significado.

Cómo Funciona la Indexación Semántica

Paso 1: Fragmentación Inteligente

Cada PDF se divide en fragmentos (chunks) de ~500 tokens, respetando límites de párrafos y secciones. Un chunking mal hecho = contexto perdido.

Paso 2: Embedding (Vectorización)

Cada fragmento se convierte en un vector de 768 dimensiones usando Gemini Embedding 2. Este vector captura el significado semántico: "ascensor", "elevador" y "máquina de subida" tienen vectores similares.

Paso 3: Almacenamiento en pgvector

Los vectores se almacenan en Supabase PostgreSQL con extensión pgvector. Índices IVFFlat permiten búsquedas por similitud en microsegundos, incluso con millones de fragmentos.

Paso 4: Búsqueda Semántica

Cuando haces una pregunta, se convierte a vector y se busca el fragmento más similar. No importa si usas palabras diferentes: la similitud semántica lo encuentra.

Ejemplo: La Magia en Acción

Tu pregunta: "¿Quién se encarga de reparar las puertas comunes?"

Lo que dice el Estatuto: "La comunidad debe contratar a un profesional para el mantenimiento de elementos comunes, incluidas puertas y cerraduras."

Sin semántica: No encuentra nada (busca "reparar", el estatuto dice "mantenimiento")

Con semántica: Igera entiende que "reparación" ≈ "mantenimiento" y recupera la cláusula correcta.

Ventajas de Búsqueda Semántica

  • Sinónimos automáticos: "Ascensor" = "elevador" = "máquina de subida"
  • Contexto entendido: Busca por significado, no solo palabra clave
  • Multiidioma: Puedes preguntar en una idioma y encontrar en otro (si configurado)
  • Velocidad: Resultados en <100ms incluso con 100.000 fragmentos
#semántica#búsqueda#indexación#embeddings

COMPARTIR

Spread the knowledge with your network