Opened 15 years ago
Closed 15 years ago
#774 closed doubt (fixed)
Estimate con Omitidos
Reported by: | mlocubiche2 | Owned by: | Víctor de Buen Remiro |
---|---|---|---|
Priority: | highest | Milestone: | Mantainance |
Component: | Math | Version: | 2.0.1 |
Severity: | blocker | Keywords: | |
Cc: | atorre@…; irobles@… |
Description
Estamos estimando un modelo de una serie con muchos omitidos con el estimador Estimate. Adjuntamos el Ois.ArimaIsolate del modelo. Cuando vemos los resultados de esta estimación, nos encontramos con que los residuos son bastante significativos en algunas fechas en las que hay interrupciones. Esperaríamos que dichos residuos tendieran a cero en todas las fechas de omitidos del output. ¿Esta suposición es correcta?. ¿Los residuos en los omitidos deberían ser cero?. Muchas gracias.
Attachments (2)
Change History (11)
Changed 15 years ago by
Attachment: | ArimaIsolate.zip added |
---|
Changed 15 years ago by
Attachment: | ArimaIsolate2.zip added |
---|
comment:1 Changed 15 years ago by
comment:2 Changed 15 years ago by
No puedo reproducir ninguno de los dos ejemplos. En ambos casos me da estos errores
ERROR: [11] VentaAgr_Z1_Noise_Diario_1355030800834.Inp tiene valores desconocidos en 2885 ERROR: [12] VentaAgr_Z1_Not_Diario_1355030800834.Inp tiene valores desconocidos en 2885 ERROR: [13] VentaAgr_Z1_Fer_Diario_1355030800834.Inp tiene valores desconocidos en 2885 ERROR: [14] VentaAgr_Z1_Pro_Diario_1355030800834.Inp tiene valores desconocidos en 2885 ERROR: [15] VentaAgr_Z1_Eve_Diario_1355030800834.Inp tiene valores desconocidos en 2885
Los inputs tienen datos desconocidos por el final así que me imagino que habrá que darle al Estimate ciertas fechas que no me habéis indicado para poder reproducir exáctamente el mismo modelo.
De todas formas, a la vista de la serie output mucho me temo que sea demasiado pedirle al Estimate que haga algo con eso pues es lo menos parecido que he visto en mucho tiempo a una serie con ruido ARIMA normal.
comment:3 Changed 15 years ago by
Escudriñando por los datos he visto que las fechas mínima y máxima posibles son
[[y2000m05d01, y2009m03d31]]
Eso implica 3250 datos para 7 variables y 755 interrupciones que sitúan la superficie de respuesta en 4.26 datos por incógnita, lo cual es estadísticamente insignificante se mire por donde se mire.
En estos casos quizás un modelos bayesiano podría dar algo mínimamente coherente si se tiene algún conocimiento a priori con el que enderezar un poco el camino.
No obstante seguiré investigando por si viera alguna forma de mejorarlo con el Estimate.
comment:4 Changed 15 years ago by
comment:5 Changed 15 years ago by
Milestone: | → Manteinance |
---|
comment:6 Changed 15 years ago by
Después de ver los resultados del modelo está más que claro que lo que no tiene sentido es el diseño del modelo. Además es más que posible que la propia serie objetivo tenga datos incoherentes o erróneos.
La serie sufre drásticos cambios de nivel y de estructura estacional sin que haya ningún input que le permita adaptarse en absoluto. Esas mutaciones crean enormes residuos que debido a la parte MA estacional se amortiguan muy lentamente. Y es precisamente tras esos vaivenes cuando aumenta la frecuencia de omitidos que encima tiene a menudo la misma estacionalidad que la serie.
Es por estos motivos por lo que sospecho que o bien el sistema de medición o el propio criterio de definición de la magnitud observada parece cambiar en distintas fases históricas. Si esto no es así, entonces hay que buscar en primer lugar las razones de esos cambios tan bruscos y formalizarlas en inputs capaces de ajustar el filtro a la forma de la serie output de una forma creíble.
Es más que posible que exista algún problema de cálculo numérico en la estimación de los omitidos, dado que conforman una serie constante lo cual tiene probabilidad nula de ocurrir por azar. Pero la causa última de que aparezca es que esto no cumple ni de lejos las hipótesis del modelo ARIMA con función de transferencia.
Por todo ello el sistema de estimación tiene serias dificultades para converger, lo cual se pone también de manifiesto en que el gradiente está lejos de anularse en la última iteración ( Max|Jta|=13.86
) incluso después de recurrir al método Conjugate direction
como último recurso.
Por otra parte, aunque no tenga tanto que ver con este problema de los omitidos, cabe destacar que sólo dos de los inputs son significativos y la estructura es cuando menos incompleta pues las 4 primeras autocorrelaciones están alrededor de 3 sigmas. Puede deberse simplemente a que no ha podido converger.
Dado lo lento que resulta estimar un modelo máximo verosímil con tantas interrupciones creo que merecería la pena hacer una estimación bayesiana del mismo.
comment:7 Changed 15 years ago by
Buenas Víctor, muchas gracias por tu respuesta que como siempre ayuda y exclarece mucho los conceptos de modelación. Estos modelos han sido probados previamente con una estimatción BSR obteniendo unos tiempos de estimación mayores que con lo que se esta haciendo ahora mismo. La idea es hacer una estimación con Estimate como la que te hemos envíado para obtener el valor en los omitidos. Depués se estima con BSR tomando la serie que ya no tiene omitidos. Estamos aún así teniendo problemas en las estimaciones de estos emitidos en cuanto a tiempos y creo que necesitamos darle una vuelta a todo esto, sobre todo teniendo en cuenta tus observaciónes.
comment:8 Changed 15 years ago by
Este ticket genero el siguiente cambio: Enhanced messages and error control in CleanInterruptions
comment:9 Changed 15 years ago by
Resolution: | → fixed |
---|---|
Status: | new → closed |
El problema fue resuelto ya hace tiempo.
Perdón por no haber avisado antes.
Aunque esa sea la tendencia natural todo depende de la estructura global del modelo, es decir, el Estimate calcula los valores de los omitidos que maximizan la verosimilitud global de los residuos, lo cual no excluye que pueda haber un residuo alto en algún punto concreto.
De todas formas el Estimate no puede hacer magia y cuando hay muchos omitidos puede dar incongruencias, por ejejmplo si no hay bastante superficie de respuesta, o sea hay pocos valores conocidos en relación a la suma de variables y desconocidos, o también si hay altas correlaciones, simples o múltiples, entre los omitidos y algunas de las variables. Es decir, es posible que el problema no sea soluble o que haya un error interno.
Intentaré ver si en este caso concreto hay un error en el algoritmo o simplemente el problema no es soluble.
Si realmente es un objetivo estimar esos valores desconocidos durante un largo periodo de tiempo habría que estudiar una solución alternativa pero si simplemente se pretende que no estorben lo mejor es cambiar el fechado para sacarlos de la muestra.