= LinAproxNonLinReg = == Aproximación continua de relaciones no lineales en una regresión bayesiana == Los problemas de regresión no lineal no pueden ser estimados directamente si no se conoce la forma paramétrica de la familia de funciones a la que debería pertenecer la relación no lineal en cuestión. Este problema suele resolverse estimando por tramos en los que la función es aproximadamente lineal, formando una línea poligonal que ajuste la relación no lineal desconocida. Este enfoque poligonal por tramos tiende a dar serios problemas de estimación en modelos complejos: * falta de continuidad * posible falta de muestra en ciertos tramos * introducción de multicolinearidad inherente al proceso de construcción de los inputs por tramos * exceso de restricciones deterministas para obtener las formas esperadas. Además no se trata de problemas independientes entre sí sino que se potencian los unos a los otros, hasta el punto de hacer inviable una estimación adecuada, especialmente si hay varias relaciones no lineales en un mismo modelo que pueden estar correlacionadas entre sí. Aquí se describe un sistema de aproximación lineal continua con el que parametrizar relaciones no lineales dentro de un bloque lineal de regresión con restricciones e información a priori, que permitan darle la forma adecuada a la curva esperada sin perder por ello flexibilidad de ajuste, y reduciendo al mismo tiempo los problemas referidos. Se trata de aproximar la función no lineal desconocida mediante una combinación lineal de funciones de una base de funciones ortogonales y de clase al menos C2 en el intervalo [l,u] de dominio del input, o como mínimo que sean poco correladas. {{{ f (x) = F [1](x)*b[1] + F [2](x)*b[2] + ... + F [n]*b[n] f' (x) = F' [1](x)*b[1] + F' [2](x)*b[2] + ... + F' [n]*b[n] f''(x) = F''[1](x)*b[1] + F''[2](x)*b[2] + ... + F''[n]*b[n] }}} En un primer ataque se incluyen aproximaciones basadas en familias de polinomios ortogonales como los de Legendre o los de Chebyshov, que deberían funcionar sin problemas para formas con pocos puntos extremos y de inflexión, que es lo que nos solemos encontrar por lo que he podido ver en los casos que me han mostrado. Más tarde se podrían incluir familias trigonométricas como la de Fourier para aproximar funciones cíclicas o familias de splines para formas complejas. La idea fundamental es que se puedan expresar de una forma natural informaciones conocidas o postuladas a priori, tanto de forma determinista como probabilista tales como: * determinista: * debe ser creciente en un punto dado, * debe ser convexa en tal otro, * debe ser mayor en un punto que en otro * ... * probabilista: * debe haber un máximo local cercano a un punto dado * debe haber un mínimo local cercano a un punto dado * debe haber un punto de inflexión cercano a un punto dado * debe haber un punto de radio de curvatura mínimo cercano a un punto dado * la diferencia de valor entre dos puntos está en torno a cierta cantidad * ... Todas estas características se pueden expresar analíticamente como combinaciones lineales de los parámetros b construidas a partir de evaluaciones de las funciones básicas o sus derivadas en los puntos propuestos, por lo que se pueden imbricar en cualquier estimador bayesiano, en particular BSR y WgtProbit. Estye paquete contiene una clase para generar inputs linealizados de esta forma, con métodos ad-hoc para añadir cada tipo de información construyendo las ecuaciones de forma transparente para el usuario. A nivel de interfaz, se podría pensar en una forma de visualizar una batería de plantillas de formas para elegir la que más se parezca a lo que se busca y que internamente se representaría como un listado de características como las que se han enumerado. Otra funcionalidad bastante útil sería poder visualizar curvas válidas simuladas aleatoriamente para un generador de inputs ya diseñado para comprobar que efectivamente todas tienen las características geométricas que se están buscando, pues la intuición a veces es engañosa y una imagen vale más que mil palabras.