Los problemas de los coeficientes de regresión
Contenido
En el ámbito de la modelización estadística, el análisis de regresión es un conjunto de procesos estadísticos para estimar las relaciones entre una variable dependiente (a menudo denominada variable de «resultado» o «respuesta», o una «etiqueta» en el lenguaje del aprendizaje automático) y una o más variables independientes (a menudo denominadas «predictores», «covariables», «variables explicativas» o «características»). La forma más común de análisis de regresión es la regresión lineal, en la que se encuentra la línea (o una combinación lineal más compleja) que más se ajusta a los datos según un criterio matemático específico. Por ejemplo, el método de mínimos cuadrados ordinarios calcula la única línea (o hiperplano) que minimiza la suma de las diferencias al cuadrado entre los datos reales y esa línea (o hiperplano). Por razones matemáticas específicas (véase la regresión lineal), esto permite al investigador estimar la expectativa condicional (o el valor medio de la población) de la variable dependiente cuando las variables independientes adoptan un conjunto determinado de valores. Otras formas menos comunes de regresión utilizan procedimientos ligeramente diferentes para estimar parámetros de localización alternativos (por ejemplo, la regresión cuantílica o el análisis de condiciones necesarias[1]) o para estimar la expectativa condicional en una colección más amplia de modelos no lineales (por ejemplo, la regresión no paramétrica).
Supuestos de Gauss-markov ols
La regresión lineal es probablemente uno de los algoritmos de aprendizaje automático más conocidos. Básicamente, consiste en modelar la relación entre los parámetros dados o derivados y el objetivo que debe aprenderse. Por lo tanto, cualquier entrevista de trabajo de aprendizaje automático estaría incompleta sin una salpicadura de preguntas de regresión lineal. Estas preguntas y respuestas de regresión lineal le ayudarán a prepararse para su entrevista de aprendizaje automático. Cubriremos todas las preguntas cruciales de la entrevista de aprendizaje automático de regresión lineal que muy probablemente le harán en su entrevista de aprendizaje automático.
Muchas leyes comunes tienen relaciones proporcionales y pueden describirse mediante relaciones lineales. Por lo tanto, se pueden modelar con una regresión lineal. Algunos ejemplos famosos son la ley de Ohm relacionada con V=IR o la segunda ley de Newton dada por F=ma. Si se observa con detenimiento, es evidente que cada una de estas leyes tiene la forma y=mx+c donde c=0, o están descritas esencialmente por líneas que pasan por el origen.
Es crucial visualizar los datos cuando se ajusta una recta, porque el ajuste numérico de una recta es fácil con el análisis numérico puro o con métodos como la regresión por mínimos cuadrados. Pero determinar si estas líneas ajustadas tienen algún sentido requiere un análisis más profundo del que la visualización de los datos es una de las formas más fáciles.
Ejercicio de regresión lineal en Python
La regresión múltiple es una extensión de la regresión lineal simple. Se utiliza cuando queremos predecir el valor de una variable en función del valor de otras dos o más variables. La variable que queremos predecir se llama variable dependiente (o a veces, variable de resultado, objetivo o criterio). Las variables que utilizamos para predecir el valor de la variable dependiente se denominan variables independientes (o, a veces, variables predictoras, explicativas o regresoras).
Por ejemplo, se puede utilizar la regresión múltiple para saber si el rendimiento en los exámenes se puede predecir en función del tiempo de repaso, la ansiedad ante los exámenes, la asistencia a las clases y el sexo. También puede utilizar la regresión múltiple para saber si el consumo diario de cigarrillos puede predecirse en función de la duración del hábito de fumar, la edad en que se empezó a fumar, el tipo de fumador, los ingresos y el sexo.
La regresión múltiple también permite determinar el ajuste global (la varianza explicada) del modelo y la contribución relativa de cada uno de los predictores a la varianza total explicada. Por ejemplo, puede querer saber qué parte de la variación en el rendimiento de los exámenes puede explicarse por el tiempo de revisión, la ansiedad ante los exámenes, la asistencia a las clases y el género «en conjunto», pero también la «contribución relativa» de cada variable independiente a la hora de explicar la varianza.
Datos de ejemplo de regresión lineal
Más allá de la regresión lineal múltiple: Applied Generalized Linear Models and Multilevel Models in R (R Core Team 2020) está pensado para que sea accesible a los estudiantes de grado que han completado con éxito un curso de regresión a través de, por ejemplo, un libro de texto como Stat2 (Cannon et al. 2019). Comenzamos a impartir este curso en el St. Olaf College en 2003 para que los estudiantes fueran capaces de enfrentarse al mundo no normal y correlacionado en el que vivimos. Se ha ofrecido en St. Olaf cada año desde entonces. Aunque no hay ningún prerrequisito matemático, introducimos temas bastante sofisticados como la teoría de la verosimilitud, el Poisson cero-inflado y el bootstrapping paramétrico de forma intuitiva y aplicada. Creemos firmemente en los estudios de casos con datos reales y preguntas de investigación reales; por lo tanto, la mayoría de los datos en el libro de texto (y disponibles en nuestro repositorio de GitHub) surgen de la investigación colaborativa realizada por los autores y sus estudiantes, o de proyectos de estudiantes. Nuestro objetivo es que, después de trabajar con este material, los estudiantes desarrollen un conjunto de herramientas ampliado y una mayor apreciación del mundo más amplio de los datos y los modelos estadísticos.