Si se violan los supuestos de regresión lineal, ¿debo transformar las variables o usar regresión no lineal? ¿Cuáles son las compensaciones?

Mi opinión es que es mejor transformar las variables solo por razones sustanciales, es decir, porque su interés está en las variables transformadas. Un ejemplo común de esto es tomar registros de valores de moneda porque pensamos en la mayoría de las variables de moneda en términos multiplicativos en lugar de términos aditivos. Es decir, si estás ganando $ 10,000 por año y obtienes un aumento de $ 2,000, es un gran problema. Si estás ganando $ 200,000 por año y obtienes un aumento de $ 2,000, no es tan grande. O, si está comprando una casa que cuesta alrededor de $ 1,000,000 y le dan $ 10,000 de descuento, eso es muy poco. En una casa que cuesta alrededor de $ 100,000, es mucho más que una gran cosa.

En los viejos tiempos (antes de las computadoras poderosas y algunos algoritmos y métodos nuevos) realmente solo se podían hacer algunos tipos de regresión, con la regresión OLS entre ellos. En estos días, es bastante sencillo de hacer

  1. Regresión cuantil (un método muy infrautilizado, creo)
  2. Regresión robusta de varios tipos.
  3. Regresión por spline de varios tipos.

y así. Lo único realmente negativo es explicar estos modelos relativamente desconocidos. Pero eso es algo negativo que vale la pena asumir.