El fantasma del estadístico del siglo XVIII Thomas Bayes no ha visto su sombra, por lo que publicaremos las proyecciones de ZiPS de este año para 2023. Como de costumbre, este es un espacio para hablar sobre algunos de los conceptos básicos, responder algunas preguntas frecuentes y ponerse filosóficos sobre la naturaleza de predecir el futuro del béisbol. Se puede encontrar mucha información básica en la entrada del glosario MLB for ZiPS, que cubre la mayoría de los conceptos básicos, excepto la historia del origen.
ZiPS es un sistema de proyección por computadora que desarrollé originalmente en 2002-04; Se puso en marcha oficialmente para la temporada 2004. El origen de ZiPS es similar al de Marcel the Monkey de Tom Tango, que surge de las conversaciones que tuve con Chris Dial, uno de mis mejores amigos (cuando interactué por primera vez con Chris, ¡me llamaron palabrota!) y otro nerd de las estadísticas, a fines de la década de 1990. Evolucionando rápidamente desde sus comienzos originales como un sistema de proyección relativamente simple, ZiPS ahora puede hacer mucho más y usar muchos más datos de lo que podría haber imaginado hace 20 años. En esencia, sin embargo, todavía hace dos trabajos principales: estimar cuál es la expectativa de referencia para un jugador en el momento en que presiono el botón, y luego estimar a dónde podría ir ese jugador, utilizando grandes cohortes de jugadores relativamente similares.
¿Por qué ZiPS se llama ZiPS? En aquel entonces, las teorías de Voros McCracken sobre cómo interactuaban el lanzamiento, la defensa y las bolas en el juego eran bastante nuevas y, al querer incorporar algunas de sus ideas, quería que mi sistema rimara con DIPS (estadísticas de lanzamiento independientes de la defensa). con su bendición. No me gustaba SIPS, así que me decidí por la siguiente letra de mi apellido, Z. Originalmente llamé a mi trabajo ZiPs como un guiño a uno de mis programas favoritos que veía cuando era niño. Patatas fritas. Escribí ZiPs como ZiPS cuando publiqué las proyecciones públicamente, y dado que mi colega actual Jay Jaffe ya había cubierto ZiPS para su blog Futility Infielder, decidí seguir con eso. Nunca esperé que todo esto fuera útil para nadie más que para mí; Si lo hubiera hecho, ciertamente lo habría nombrado de manera menos extraña.
ZiPS utiliza estadísticas de varios años, y las temporadas más recientes se ponderan más; Al principio, a todas las estadísticas se les dio la misma ponderación anual, pero gradualmente se volvió más diferente debido a la investigación adicional. Y la investigación es una gran parte de ZiPS. Cada año realizo cientos de estudios sobre varios aspectos del sistema para determinar su valor predictivo y calibrar mejor las líneas de base de los jugadores. Lo que comenzó con los datos disponibles en 2002 se ha expandido significativamente: los datos básicos de ritmo, velocidad y tono desempeñaron un papel más importante desde 13, mientras que los datos de StatCast se agregaron en los últimos años a medida que me familiaricé con el valor predictivo y el impacto de estos números en modelos existentes. Creo en un diseño cuidadoso y conservador, por lo que los datos solo se incluyen cuando confío en una precisión mejorada; siempre hay compilaciones de ZiPS que están a unos años de distancia. Las herramientas ZiPS internas adicionales, como ABIP, zHR, zB y zSO, se utilizan para establecer mejor las expectativas de referencia para los jugadores. Estas estadísticas funcionan de manera similar a los diferentes tipos de estadísticas «x», donde la z representa algo que apuesto a que ya has adivinado.
¿Cómo proyecta ZiPS la producción futura? Primero, ZiPS crea una estimación de referencia para cada jugador que se pronostica utilizando datos de juegos recientes con ajustes para zStats y otras cosas como la calidad del parque, la liga y la competencia. Para tener una idea de hacia dónde se dirige el jugador, el sistema compara esta línea de base con las líneas de base de todos los demás jugadores en su base de datos, que también se calculan a partir de los mejores datos disponibles para el jugador en el contexto de su tiempo. La base de datos ZiPS actual consta de unas 140.000 líneas de base para lanzadores y unas 170.000 para bateadores. Para los bateadores, además de conocer la posición que juegan, esto es solo una infracción; Lo bueno que es un jugador a la defensiva no predice cómo envejecerá en el plato.
Usando una gran cantidad de estadísticas, información de formularios y características del jugador, ZiPS luego encuentra una gran cohorte que se parece más al jugador. Utilizo mucho la distancia de Mahalanobis para esto. Un estudiante de CompuSci/Math en Texas A&M hizo un trabajo maravilloso mostrándome cómo hacer esto, aunque las variables utilizadas no son idénticas.
Como ejemplo, aquí están las 50 mejores composiciones ofensivas actuales para Justin Turner cerca de la edad. La cohorte total es más grande que esto, pero 50 deberían ser suficientes para darle una idea:
Las 50 mejores composiciones ofensivas de ZiPS: Justin Turner
Idealmente, ZiPS preferiría que los jugadores tuvieran la misma edad y posición, pero dado que tenemos aproximadamente 170 000 líneas de base, no 170 000 millones, ZiPS a menudo tiene que conformarse con jugadores que tienen casi la misma edad y posición. La mezcla exacta se determinó aquí mediante extensas pruebas. El gran grupo de jugadores similares se utiliza luego para calcular espontáneamente un modelo de conjunto para las perspectivas futuras de carrera de un jugador, tanto buenas como malas.
Uno de los principios de las proyecciones que sigo es que no importa lo que diga la proyección, esta es la proyección ZiPS. Incluso si incluir mi opinión mejoraría una proyección en particular, me opongo filosóficamente a ella. ZiPS es más útil cuando la gente sabe que se basa puramente en datos, no en una combinación desconocida de datos y mi opinión. A lo largo de los años, me gusta pensar que he adoptado un enfoque inteligente para convertir más cosas en datos, por ejemplo, ZiPS usando información básica sobre lesiones, pero algunas cosas simplemente no están en el modelo. ZiPS no sabe si a un lanzador se le prohibió lanzar su slider después de una lesión o si un jardinero izquierdo sufrió una tragedia familiar en julio. Considero que estas cosas están fuera del alcance de un sistema de proyección, aunque pueden afectar el rendimiento en el campo.
También es importante recordar que la proyección del resultado final, en términos sencillos, es solo un punto medio. No esperan que todos los jugadores alcancen ese punto medio; El 10% de los jugadores «deberían» fallar en su predicción del percentil 10 y el 10% de los jugadores deberían pasar su predicción del percentil 90. Este punto puede causar una sorprendente cantidad de confusión. ZiPS dio proyecciones de .300 BA a tres jugadores en 2020: Luis Arraez, DJ LeMahieu (¡ay!) y Juan Soto. Pero eso no es lo mismo que ZiPS pensando que solo habría tres bateadores de .300. En promedio, ZiPS calculó que habría 34 jugadores con al menos 100 visitas al plato para eclipsar .300, no tres. Al final fueron 25; El entorno de la Liga BA resultó estar cinco puntos por debajo de lo esperado por ZiPS, lo que pilló desprevenido al sistema de proyección.
Otra cosa importante a tener en cuenta es que las proyecciones básicas de ZiPS no predicen el tiempo de juego. ZiPS no tiene idea de quién jugará realmente en las mayores en 2023. ZiPS esencialmente pronostica una producción equivalente; un bateador con una proyección de .240 puede «realmente» tener una proyección de .260 triple-A o una proyección de .290 doble-A. Pero cómo un Julio Rodríguez vencería a tiempo completo en las mayores en 2022 fue un uso mucho más interesante de un sistema de proyección que decirme que solo jugaría una temporada parcial (terminó jugando un año completo, obviamente). ). Para los gráficos de profundidad que aparecen en vivo en cada artículo, utilizo los gráficos de profundidad de FanGraphs para determinar el tiempo de juego para jugadores individuales. Como estamos hablando de creación de equipos, no puedo dejar a ZiPS en sus propios dispositivos para una aplicación como esta. Por la misma razón, utilizo tablas de profundidad modificadas para las predicciones del equipo durante la temporada. Hay un elemento probabilístico en las tablas de profundidad de ZiPS: a veces Joe Schmo juega una temporada completa, a veces pierde tiempo de juego y Buck Schmuck tiene que reemplazarlo. Pero el concepto básico es muy simple.
¿Qué hay de nuevo en 2023? Además de la calibración general, verá algunas cosas nuevas en estos informes. El grupo de referencia ha crecido ya que ahora tengo traducciones de ligas menores que se remontan a 1950. ZiPS ahora proyecta las carreras de JAWS de forma nativa (todavía usa bWAR para el pasado aquí para ser consistente) y puede ver la carrera pronosticada de un jugador de JAWS en un gráfico adicional este año. Agrego también los logros del 20./80. percentiles en algunas estadísticas clave para cada jugador para expresar mejor el rango de posibilidades para una audiencia.
También hay un cambio en la forma en que se muestran la mayoría de los jugadores similares. En el pasado, he enumerado el reproductor que constituye el mayor porcentaje del modelo, en lugar del reproductor que más se parece a él. Aunque estos están fuertemente correlacionados, no siempre son los mismos. Por ejemplo, si observa la lista de comp de Justin Turner anterior, Jed Lowrie figura como el número uno, pero representa una porción relativamente pequeña del modelo ya que Jed Lowrie tiene un futuro mucho más corto a partir de 2019. Considere que Bill Mueller después de 2006 o Brooks Robinson después de 1974. Así que se cae de la cohorte bastante rápido. Pero en realidad no existe el jugador que constituya el mayor porcentaje de la modelo. la crucial: casi no hay cambios en el resultado al eliminar a un solo jugador; descubrí que obtener el jugador más similar es más interesante para un lector, punto.
¿Tiene alguna pregunta, sugerencia o inquietud acerca de ZiPS? Intentaré responder tantas como pueda en los comentarios a continuación. Si las proyecciones han sido valiosas para usted ahora o en el pasado, también le insto a que considere convertirse en miembro de FanGraphs si puede. Es gracias a su continuo y muy apreciado apoyo que he podido hacer que gran parte de este trabajo esté disponible gratuitamente para el público durante tantos años. Mejorar y mantener ZiPS es un esfuerzo que requiere mucho tiempo, y el apoyo de los lectores me ha dado la flexibilidad para invertir una cantidad obscena de horas en su desarrollo. Es difícil creer que ZiPS se acerca a su vigésimo cumpleaños. Esperemos que las proyecciones y las cosas que hemos aprendido sobre el béisbol le hayan traído algún retorno, o al menos una pequeña medida de entretenimiento, ya sea delicioso o furioso.