El Token Saver System se diseñó y construyó para resolver el principal obstáculo en la adopción empresarial de modelos de lenguaje en producción: los costos recurrentes de API por tokens y la latencia de respuesta en sistemas críticos.
El sistema se colocó como una capa middleware inteligente y optimizada entre los canales bancarios y los proveedores de LLM. Implementé técnicas avanzadas de Retrieval-Augmented Generation (RAG) combinadas con un innovador algoritmo heurístico de compresión semántica de prompts, logrando recortar el contexto de entrada redundante sin degradar el rendimiento del modelo. Adicionalmente, una capa de caché de alto rendimiento optimizada con Redis almacena respuestas de consultas frecuentes, reduciendo la latencia de extremo a extremo a niveles inferiores a 5ms para un porcentaje considerable de los flujos del Banco de Crédito de Bolivia (BCP).