Motor de inferencia híbrido para la reconstrucción de Matrices Origen-Destino en sistemas de transporte masivo urbano.
Combina heurísticas deterministas de encadenamiento de viajes con distribuciones de energía de Boltzmann para inferir, sin supervisión, el destino de cada pasajero a partir únicamente de los registros de entrada (torniquetes). Validado sobre una simulación de TransMilenio Bogotá con 2M de usuarios y 55M de transacciones.
Contexto y Estado del Arte
Los sistemas de validación automática de tarifas (AFC) —torniquetes— registran con precisión dónde sube cada pasajero. Sin embargo, el destino permanece desconocido. Esta asimetría de información es el problema central de la planificación de transporte masivo.
La Matriz Origen-Destino (OD) es la representación matemática completa de este flujo: una matriz \(n \times n\) donde cada celda \(T_{ij}\) representa el número de viajes que van del nodo \(i\) al nodo \(j\) en un periodo dado.
El estado del arte histórico recurre a encuestas de hogar (costosas y bienales) o modelos gravitacionales estáticos. QuantumOD resuelve esto de forma dinámica, continua y escalable, sin sensores adicionales.
Literatura Relacionada
| Método | Actualización | Costo | Precisión |
|---|---|---|---|
| Encuesta hogar | Bianual | $$$$ | Alta |
| Modelo gravitacional | Mensual | $ | Media |
| GPS flotante | Diaria | $$$ | Alta |
| QuantumOD ✦ | Continua | $ | R²=0.96 |
Formalización del Problema
Buscamos la matriz que maximice su entropía $S(T)$ preservando la conservación de masa: el total de viajes salientes de cada nodo $O_i$ y llegantes $D_j$.
Inferencia Determinista
El 70% de la movilidad urbana es de naturaleza pendular: viajes Casa→Trabajo→Casa que se repiten con alta regularidad. El Trip Chaining explota la continuidad espacial de los viajes consecutivos.
La hipótesis central, validada empíricamente en sistemas como Transantiago, Paris RATP y Londres TfL, establece que el destino de un viaje \(k\) de un usuario es, con alta probabilidad, el origen de su viaje \(k+1\):
Donde $\Delta T_{\text{max}} = 16\text{h}$ es la ventana temporal de validez del encadenamiento.
El "Problema del Último Viaje" (viajes nocturnos sin viaje subsecuente) se resuelve con la Heurística de Retorno al Hogar: el destino del último viaje del día es el primer origen registrado del mismo día calendario.
D_ku = O_1u(d) si t_k > 12:00 ∧ k = último del día d
Esta heurística cierra el ciclo termodinámico del sistema, garantizando conservación de masa.
Paso 1 — Ordenamiento Temporal por Entidad
Ordenamiento Lexicográfico por (ID_usuario, Timestamp). Complejidad: $O(n \log n)$.
Paso 2 — Encadenamiento Proyectivo (Forward Shift)
Operación vectorizada: Destino[k] = Origen[k+1] con shift(-1).over('ID') en Polars. Zero-copy sobre Apache Arrow en RAM.
Paso 3 — Filtro de Ventana Temporal
Descartamos encadenamientos con $\Delta t > 16\text{h}$ (viajes de día siguiente), evitando asignaciones inter-jornada inválidas.
Paso 4 — Heurística Nocturna
Para huérfanos PM: asignar primer origen del día. Resuelve el 8.2% de casos no encadenables.
Resultado de Validación — Grupo A (Frecuentes)
El R² de 0.963 es estadísticamente indistinguible de la frontera teórica perfecta para sistemas de transporte real, donde el ruido operacional introduce varianza irreducible.
Gráfica de Ajuste — Volumen Real vs. Inferido
Grupo A (verde) se adhiere a la línea de identidad perfecta. Grupo B (naranja) disperso — confirma la entropía estocástica esperada.
Mecánica Estadística Aplicada
En la física de partículas, la Distribución de Boltzmann describe la probabilidad de que un sistema esté en un estado de energía $E$ cuando está en equilibrio térmico a temperatura $T$. La probabilidad decae exponencialmente con la energía:
Física estadística — Factor de Boltzmann
En el contexto de movilidad urbana, hacemos la siguiente analogía exacta: la energía es el costo generalizado del viaje (distancia, tiempo, esfuerzo), el inverso de la temperatura $\beta = 1/(k_B T)$ es la sensibilidad al costo del pasajero, y los estados son las estaciones de destino posibles.
| Partícula | → Pasajero |
| Estado de energía $E_i$ | → Costo del viaje $H_{ij}$ |
| Temperatura $T$ | → Sensibilidad inversa $1/\beta$ |
| Función partición $Z$ | → Normalizador $ Z_i $ |
| Masa/degen. $g_i$ | → Atracción nodal $M_j$ |
| Macroestado | → Matriz OD agregada $T_{ij}$ |
Gráfica Científica — Distribución de Boltzmann por Parámetro β
La curva verde (β=0.8) representa la calibración de QuantumOD. A mayor β, el sistema se vuelve más selectivo; a menor β, maximiza la entropía del destino.
Análogo al Hamiltoniano $\mathcal{H}$ de la mecánica cuántica, define el "costo energético" de cada transición.
Hamiltoniano de viaje
$\lambda_d = 2.0$ es la penalización energética por unidad de distancia. Calibrado empíricamente.
Probabilidad de destino — Distribución de Gibbs
Función de Partición Local (normalizador)
La función de partición $Z_i$ garantiza que las probabilidades sumen 1 para cada origen $i$. Es el análogo directo de la función de partición canónica en termodinámica.
La "masa" de cada nodo de destino no es estática: se calibra en tiempo real a partir de los flujos resueltos en la Fase 1. Los destinos mas frecuentemente elegidos por el grupo determinista poseen mayor masa gravitacional, sesgando el muestreo Boltzmann hacia los nodos realmente atractivos de la red.
$\beta = 0.8$ fue calibrado para modelar la alta irregularidad de mensajeros y viajes atípicos. Un $\beta$ alto (sistema "frío") concentra la probabilidad en destinos cercanos; un $\beta$ bajo (sistema "caliente") dispersa uniformemente la energía.
Resultado — Grupo B (Estocástico)
El R² negativo del Grupo B no es un fallo del modelo: es la confirmación teórica esperada. En sistemas de alta entropía (mensajeros, turistas), el comportamiento es estadísticamente indistinguible del ruido. El modelo Boltzmann preserva la Conservación de Masa con error 0.00%, que es la única garantía requerida en ingeniería de transporte.
Auditoría Científica
La Validación Estratificada es la contribución metodológica central de QuantumOD: separar el análisis del componente determinista del estocástico, en lugar de mezclarlos en una sola bolsa estadística (error estándar de la industria).
Gráfica de Validación — R² Score por Grupo Estratificado
El Grupo A (Trip Chaining) alcanza R²=0.963, cerca de la frontera teórica. El ruido global proviene exclusivamente del componente estocástico (Grupo B).
Reconstrucción determinista de rutas habituales. Frontera teórica alcanzada.
Efecto del ruido entrópico del Grupo B sobre la métrica global. Inevitablemente distorsionado.
Estándar de oro UK Highways Agency. Requerido: > 85%. QuantumOD supera el estándar en +11pp.
Estándar oficial UK Highways Agency / DfT para validación de modelos de transporte
El GEH (Geoffrey E. Havers, 1976) es una métrica híbrida entre el chi-cuadrado y el error relativo, diseñada específicamente para flujos de tráfico donde la varianza es proporcional a la magnitud. Evita los problemas del RMSE puro en distribuciones de cola larga.
Shannon (1948) / Kullback y Leibler (1951) — Teoría de la Información
La Divergencia de Kullback-Leibler mide la información perdida cuando la distribución inferida $Q$ se usa para aproximar la distribución real $P$. En transporte, cuantifica qué tan diferente es el "perfil de movilidad" inferido del real, independientemente de la escala de flujos.
$D_{KL} = 0$ indica distribuciones idénticas. QuantumOD reportó $D_{KL} = 10.85$ en el Grupo B, confirmando alta entropía informativa —esperada en rutas caóticas.
| Segmento | R² Score | RMSE | GEH Pass | Div. KL | Masa Error |
|---|---|---|---|---|---|
| Grupo A — FRECUENTE (Trip Chaining) | 0.9635 | 206.25 | 94.37% | — | 0.00% |
| Grupo B — ATÍPICO + MENSAJERO (Boltzmann) | -23.92 | 16.42 | — | 10.85 | 0.00% |
| Global Combinado | -1.158 | 344.60 | 95.99% | — | 0.00% |
Resultado obtenido sobre una simulación de 55,281,228 registros de transacción con 2,000,000 usuarios únicos. Tiempo de cómputo total: ~22 segundos en hardware consumer-grade (M-series Apple Silicon).
Ingeniería de Sistemas
Motor columnar en-memoria basado en Apache Arrow. Operaciones vectorizadas con paralelismo SIMD. Procesa 55M de filas en segundos con cero-copia entre etapas del pipeline.
Serialización binaria con compresión Snappy. Preserva la integridad y tipado estricto de los resultados para análisis longitudinal y auditoría retrospectiva.
Pipeline de validación automática con segmentación estratificada, generación de artefactos visuales (matplotlib/seaborn) y reporte técnico Markdown para revisión científica.
Diagrama de Pipeline — Flujo de Ejecución Completo
Pipeline de 5 etapas desde la simulación Génesis hasta la auditoría científica final. Procesamiento total: ~9.2 segundos sobre 55M registros.
El Por Qué de Todo Esto
Detrás de cada ecuación hay una persona real que pasa 3 horas diarias en un bus lleno, que paga más de lo que debería por un servicio mal planeado, o que pierde oportunidades porque el transporte público no llega donde se necesita. QuantumOD existe para cambiar eso.
Con la matriz OD en tiempo real, los operadores pueden mover buses hacia los corredores con mayor demanda antes de que el hacinamiento ocurra. No más buses vacíos en rutas sin demanda y vagones repletos donde la gente sí viaja.
Una tarifa bien diseñada requiere saber cuánto cuesta realmente cada viaje. QuantumOD provee los flujos reales para que los reguladores calculen tarifas basadas en datos, no en suposiciones, protegiendo al usuario más vulnerable.
¿Dónde falta una ruta? La respuesta está en los flujos OD. Las zonas con alta demanda origen-destino sin cobertura directa son exactamente donde se deben planificar nuevas líneas o conexiones.
En Bogotá, el promedio de commute es 97 minutos diarios. Optimizar frecuencias con datos reales puede reducir ese número. Cada minuto recuperado es tiempo de vida que las personas recuperan para su familia, descanso o educación.
Este modelo no requiere sensores costosos, GPS ni infraestructura especial. Solo datos de torniquete. Es replicable en cualquier ciudad latinoamericana, africana o asiática con sistema de validación de tarjetas.
Los operadores puede reasignar hasta un 15‑20% de los costos de flota cuando conocen la demanda real. Esa ahorro puede reinvertirse en mantenimiento, seguridad o subsidios para los usuarios de menores ingresos.
"El transporte público no es un lujo. Es infraestructura de igualdad. Y la igualdad se puede medir."
— Guillermo Aguirre, QuantumOD
Código Abierto
QuantumOD es un proyecto de código abierto. Si trabajas en una ciudad, en una agencia de transporte, o simplemente eres curioso sobre la ciencia de la movilidad, el repositorio completo está disponible en GitHub para que lo uses, lo adaptes a tu contexto y lo mejores con tus propias ideas.
Si tienes preguntas, quieres colaborar, o simplemente conversar sobre movilidad urbana e inteligencia de datos, no dudes en contactarme. Creo en el conocimiento compartido como motor de cambio real.
Licencia MIT — Sin restricciones
Usa el código comercialmente, modifícalo, distribúyelo. Sin obligaciones, solo da crédito si puedes.
Adaptable a cualquier sistema AFC
El modelo solo necesita registros de torniquete. Funciona con datos de cualquier ciudad con validación automática de tarifas.
Colaboraciones bienvenidas
Si eres investigador, ingeniero de datos o planificador urbano y quieres contribuir con datos reales o mejoras al modelo, escríbeme.
Arquitecto del Sistema
Analytics Manager @ Auteco | Lead System Architect
Mi enfoque profesional es cruzar la frontera entre la investigación académica pura y la ingeniería de software escalable. Aplico física estadística, teoría de la información e inferencia bayesiana como herramientas de resolución de problemas estructurales reales: no como ejercicios teóricos, sino como arquitecturas productivas capaces de procesar decenas de millones de transacciones con precisión medible.
En mi rol en Auteco, lidero arquitecturas de datos de alto rendimiento e iniciativas de IoT/telemetría como Trakku, donde la acumulación de señal de sensores en tiempo real se convierte en inteligencia operativa. Mi misión es traducir la matemática en ROI concreto: eficiencia de flota, reducción de OPEX y decisiones de infraestructura basadas en evidencia cuantitativa.