Modelos Predictivos de Tenis

El modelo más simple que funciona: puntos de servicio
Variables para mejorar el modelo base
Datos: dónde encontrarlos y cómo organizarlos
Calibración: cómo saber si tu modelo funciona
Del modelo a la apuesta: el umbral de valor
Lo que un modelo no puede hacer

Un modelo de apuestas no es más que un sistema para estimar la probabilidad de un resultado de forma consistente y replicable. No necesita ser sofisticado, no requiere un doctorado en estadística y no tiene que funcionar con inteligencia artificial. Lo que sí necesita es estructura, datos fiables y la honestidad de comparar sus predicciones con la realidad para mejorar con el tiempo.

La mayoría de los apostadores de tenis estiman probabilidades de forma intuitiva, procesando información en su cabeza y llegando a una conclusión que mezcla datos, experiencia y corazonadas. Este proceso funciona hasta cierto punto, pero tiene un problema fundamental: no es replicable ni verificable. Si ganas, no sabes exactamente por qué. Si pierdes, tampoco. Un modelo te obliga a explicitar tus supuestos, lo que permite identificar dónde aciertas y dónde fallas.

El modelo más simple que funciona: puntos de servicio

El modelo de apuestas de tenis más básico y sorprendentemente efectivo se basa en una sola premisa: el porcentaje de puntos ganados al servicio por cada jugador predice razonablemente el resultado del partido. Esta premisa tiene respaldo académico en el trabajo de Klaassen y Magnus, cuya investigación demostró que, aunque los puntos en tenis no son estrictamente independientes entre sí, las desviaciones son lo suficientemente pequeñas como para que el modelo de independencia funcione como una buena aproximación, y que las probabilidades de ganar cada punto se mantienen aproximadamente constantes a lo largo del partido.

El modelo funciona así. Tomas el porcentaje de puntos ganados al servicio de cada jugador en la superficie relevante durante los últimos seis a doce meses. Digamos que el Jugador A gana el 66% de sus puntos al servicio y el Jugador B gana el 63%. Con estos dos porcentajes, puedes estimar la probabilidad de que cada jugador gane un game de servicio, luego un set, y finalmente el partido completo.

La fórmula para la probabilidad de ganar un game de servicio, asumiendo que cada punto es independiente, utiliza las probabilidades punto por punto y las combina a través de los posibles marcadores del game. No es un cálculo trivial a mano, pero una hoja de cálculo o unas pocas líneas de código lo resuelven en milisegundos. Desde la probabilidad de ganar un game de servicio para cada jugador, se escala a la probabilidad de ganar un set y después a la del partido completo, considerando si es al mejor de tres o de cinco sets.

Este modelo básico produce estimaciones que, en estudios comparativos, se acercan sorprendentemente a las cuotas del mercado. No supera al mercado de forma consistente sin ajustes adicionales, pero proporciona una base cuantitativa sólida sobre la cual construir refinamientos.

Variables para mejorar el modelo base

El modelo de puntos de servicio es un punto de partida, no un destino. Para que genere valor real frente a las cuotas del mercado, necesitas incorporar variables adicionales que los modelos de las casas de apuestas ponderan con menor precisión.

La primera variable de mejora es la distinción entre superficies. En lugar de usar estadísticas generales de puntos al servicio, usa las específicas de la superficie del torneo. Un jugador puede ganar el 68% de sus puntos al servicio en pista dura y el 62% en arcilla, y esa diferencia cambia la predicción del modelo de forma significativa.

La segunda variable es la forma reciente ponderada. En lugar de usar la media de los últimos doce meses, pondera más los partidos recientes. Un sistema simple es dar doble peso a los partidos de los últimos tres meses respecto a los anteriores. Esto hace que el modelo sea más sensible a cambios de nivel actuales sin perder la estabilidad de una muestra amplia.

La tercera variable es el ajuste por nivel del rival. Las estadísticas de un jugador contra rivales del top 20 son diferentes a las que obtiene contra jugadores fuera del top 50. Filtrar los datos por rango de ranking del rival produce estimaciones más precisas para cada enfrentamiento específico, aunque reduce el tamaño de la muestra disponible.

Para alimentar tu modelo, primero debes aplicar estrategias avanzadas.

Datos: dónde encontrarlos y cómo organizarlos

Un modelo es tan bueno como los datos que lo alimentan. Para el modelo de puntos de servicio, necesitas estadísticas de partidos que incluyan puntos ganados al servicio y al resto para cada jugador, desglosados por superficie. Estas estadísticas están disponibles de forma gratuita en varias fuentes.

La base de datos de Jeff Sackmann en GitHub es la fuente más completa y accesible. Contiene datos de partidos ATP desde 1968 (el inicio de la Era Open), con estadísticas de servicio desglosadas por partido. Para el modelo, necesitas extraer los porcentajes de puntos ganados al servicio de cada jugador en partidos recientes sobre la superficie relevante, lo cual es directo con cualquier herramienta de procesamiento de datos.

Tennis Abstract ofrece estas estadísticas ya procesadas en los perfiles de cada jugador, filtradas por superficie y periodo temporal. Si no programas, puedes recopilar manualmente los datos de Tennis Abstract para los jugadores de cada partido que quieras modelar. Es más lento que automatizarlo, pero funciona perfectamente para un apostador que analiza entre cinco y diez partidos diarios.

La organización de los datos importa tanto como su calidad. Mantén una hoja de cálculo o base de datos con las estadísticas actualizadas de los jugadores que sigues regularmente, clasificadas por superficie. Actualizar estos datos después de cada semana de competición lleva entre treinta minutos y una hora, y te permite tener el modelo listo para producir estimaciones en cuestión de minutos cuando se publica el programa de partidos del día siguiente.

Calibración: cómo saber si tu modelo funciona

Construir un modelo es la parte fácil. Verificar que funciona es donde la mayoría de los apostadores se rinden. La calibración consiste en comparar las probabilidades que tu modelo produce con los resultados reales de los partidos, y ajustar los parámetros del modelo cuando las predicciones se desvían sistemáticamente de la realidad.

El test más básico de calibración es el siguiente: agrupa tus predicciones por rango de probabilidad y compara con la tasa de acierto real. Si tu modelo asigna probabilidades del 70-80% a un grupo de selecciones, esas selecciones deberían ganar entre el 70% y el 80% de las veces en una muestra suficiente. Si ganan solo el 60%, tu modelo está sobreestimando la probabilidad y necesitas ajustar a la baja. Si ganan el 85%, está subestimando y puedes ser más agresivo.

Para que la calibración sea significativa, necesitas una muestra de al menos 200-300 predicciones. Con menos, la varianza natural del tenis puede hacer que un modelo bueno parezca malo o viceversa. La paciencia de acumular datos suficientes antes de sacar conclusiones es una virtud que distingue al modelador serio del entusiasta que abandona después de una mala semana.

Un indicador complementario es el Brier Score, que mide la precisión de las predicciones probabilísticas. Cuanto menor es el Brier Score, mejor calibrado está tu modelo. Comparar tu Brier Score con el de las cuotas de cierre de las casas de apuestas te dice si tu modelo es más o menos preciso que el mercado. Si es más preciso de forma consistente, tienes una ventaja explotable.

Del modelo a la apuesta: el umbral de valor

Tener un modelo que produce probabilidades es necesario pero no suficiente. Para convertir esas probabilidades en apuestas rentables, necesitas un criterio de decisión que determine cuándo la diferencia entre tu estimación y la cuota del mercado justifica una apuesta.

El criterio más directo es el umbral de valor mínimo. Si tu modelo dice que un jugador tiene un 60% de probabilidad de ganar y la cuota implica un 55%, la diferencia es del 5%. Establece un umbral —digamos, 3% o 5%— por debajo del cual no apuestas. Cuanto más alto el umbral, menos apuestas realizas pero con mayor ventaja esperada en cada una. Cuanto más bajo, más apuestas pero con ventaja menor por apuesta y mayor exposición al ruido del modelo.

El umbral óptimo depende de la precisión de tu modelo y de tu tolerancia al riesgo. Un modelo bien calibrado con un historial largo puede operar con umbrales del 3%. Un modelo nuevo sin calibrar debería usar umbrales del 5-7% para compensar la incertidumbre sobre su propia precisión. A medida que acumulas datos y la calibración mejora, puedes reducir el umbral gradualmente para capturar más oportunidades.

Lo que un modelo no puede hacer

Un modelo estadístico no reemplaza el análisis cualitativo. No captura las lesiones no declaradas, los cambios de motivación, el impacto de un divorcio reciente ni la presión de jugar ante tu público en un torneo de casa. Estos factores existen, afectan los resultados y deben integrarse como ajustes manuales sobre la probabilidad base que produce el modelo. Tratar el output del modelo como verdad absoluta es tan peligroso como no tener modelo. La combinación de base cuantitativa con ajuste cualitativo informado es lo que produce las estimaciones más precisas y, con el tiempo, las apuestas más rentables.

Crea tu propio sistema con nuestro portal de inicio.