Version 3 (modified by 14 years ago) (diff) | ,
---|
Plan de Integración de Sistemas de Estimación
Las clases de modelos a los que nos enfrentamos van creciendo en volumen y complejidad a cada día que pasa y es necesario diseñar un plan de desarrollo que afronte los problemas que esto conlleva a medio y largo plazo.
El simulador bayesiano BSR supone un gran avance sobre toda la tecnología anterior pero parte de una estructura básica de la clase de modelos que no es posible saltarse: debe haber un bloque lineal principal de regresión con residuos normales.
Ciertamente en una gran parte, por no decir en la gran mayoría de los casos, la hipótesis de normalidad es perfectamente asumible, pero cada vez nos encontramos con más casos en los que no es así, particularmente cuando el output es booleano, pero también cuando es discreto con valores no muy altos, y las transformaciones de Box-Cox no son una aproximación razonable.
En este sentido, la forma ás natural de extensión de la clase de modelos es partir de la regresión lineal generalizada como base sobre la que añadir el resto de características que se precisan para la modelación de problemas reales.
Lo primero que habría que hacer sería enumerar y describir todas esas características para poder atisbar la clase general de modelos que queremos ser capaces de estimar:
- Distribución de los residuos
- caso normal
- caso generalizado (overdispersed exponential family)
- regresión cualitativa
- regresión booleana
- logit
- probit
- binomial
- etc.
- regresión multinomial
- regresión booleana
- regresión discreta
- regresión de Poisson
- regresión geométrica
- etc.
- regresión cualitativa
- Matriz de Varianzas-Covarianzas del ruido
- Diagonal: Regresión ponderada o heterocedástica
- ARIMA:
- Caso normal
- Caso generalizado
- Modelos multivariantes
- Tratamiento de omitidos en los datos (input y output)
- Caso normal
- Caso generalizado
- Filtros no lineales
- paramétricos
- no paramétricos
- Inclusión de restricciones para todas las variables del problema
- de igualdad
- lineal
- no lineal
- de desigualdad
- lineal
- no lineal
- de igualdad
- Información a priori para todas las variables del problema
- escalar
- normal
- chi-inverse
- otros
- vectorial
- modelos jerárquicos (paralelización)
- redes bayesianas
- escalar
Además de la definición de la clase de modelos hay que planificar también la metodología de estimación, diagnosis y métodos de inferencia de la forma más general posible:
- Chequeo previo: Comprobación de que el diseño del modelo es coherente con la clase establecida
- Ausencia de colinealidades
- Existencia de soluciones factibles
- Compatibilidad de la región factible con la verosimilitud del modelo
- Estimación:
- Simulación MCMC: Generación de cadenas de Markov de Montecarlo.
- División en bloques de Gibbs: Debe haber un proceso maestro (master) que se encargue de disparar la generación de cada bloque según una estrategia dada (secuencial, aleatoria o arbitraria)
- Generación dentro de cada bloque tipo Metropolis-Hastings y derivados mediante BysSampler, basado únicamente en el logaritmo, salvo una constante, de la función de densidad condicionada por el resto de bloques.
- Estimación parcial:
- Fijación de parámetros
- Recarga de estimaciones anteriores
- Implementación de las restricciones de igualdad
- Máximo probable: Maximizar la verosimilitud conjunta condicionada por la información a priori y
las restricciones de igualdad y desigualdad lineales y no lineales.
- Como objetivo en sí mismo en los casos en los que tenga sentido, es decir, cuando la distribución asintótica se sabe que es por construcción similar a la distribución a posteriori, pero resulte notablemente más rápida.
- Como paso previo a la simulación desde un punto inicial que acelere la convergencia
- Como distribución asintótica para generar muestras independientes de forma que la salida sea análoga a la de la simulación MCMC para poder ser utilizada por los métodos de diagnosis e inferencia baysianas.
- Simulación MCMC: Generación de cadenas de Markov de Montecarlo.
- Diagnosis:
- Chequeo de convergencia
- Raftery: Autocorrelación de la muestra
- Gelman: Muestras paralelas
- Postprocesado de cadenas basado en la verosimilitud que debe ser almacenada junto con la cadena
- Chequeo de las hipótesis del modelo
- Distribución de los parámetros
- Distribución de los residuos
- Chequeo de convergencia
- Inferencia bayesiana: hay que potenciar el uso de la inferencia bayesiana, pues de los resultados
de BSR se está usando sólo la media, lo cual es un desperdicio.
- Cálculo de estadísticos no lineales mediante MCMC
- Decisión bayesiana