close
Warning:
Can't synchronize with repository "(default)" (/var/svn/tolp does not appear to be a Subversion repository.). Look in the Trac log for more information.
- Timestamp:
-
Oct 24, 2011, 9:00:09 AM (13 years ago)
- Author:
-
Víctor de Buen Remiro
- Comment:
-
--
Legend:
- Unmodified
- Added
- Removed
- Modified
-
v6
|
v7
|
|
12 | 12 | convergencia para eliminarlas de la muestra (burn-in). |
13 | 13 | |
14 | | Existen dos clases fundamentales de métodos para |
| 14 | Existen dos clases fundamentales de métodos para el chequeo de la convergencia |
15 | 15 | |
16 | | * ''sequencia única'': Se basan únicamente en una cadena por lo que |
| 16 | * Métodos de '''cadena única''': Se basan únicamente en una cadena por lo que |
17 | 17 | sólo pueden determinar en cierta medida que la cadena converge a algo, pero no es |
18 | 18 | posible asegurar que converge a la distribución a posteriori, especialmente con |
… |
… |
|
23 | 23 | * ''Geweke'' |
24 | 24 | * ''Heidelberg and Welch'' |
25 | | * ''sequencia múltiple'': Estos métodos utilizan varias cadenas |
| 25 | * Métodos de '''múltiples cadenas''': Estos métodos utilizan varias cadenas |
26 | 26 | generadas desde puntos dispersos de la región factible para comprobar que realmente |
27 | 27 | todas las cadenas no sólo convergen cada una por separado sino que además lo |
… |
… |
|
49 | 49 | || [http://www.google.es/url?sa=t&rct=j&q=a%20c%2B%2B%20program%20for%20the%20cram%C2%B4er-von%20mises&source=web&cd=2&ved=0CCwQFjAB&url=http%3A%2F%2Fwww.jstatsoft.org%2Fv17%2Fi08%2Fpaper&ei=0B2lTpCkDZGWOvvY2K4N&usg=AFQjCNFaDAewPd7AcY7N3I8dmtQZAPMZIQ&sig2=ySS0WwmbqcButNNDMTDByQ Cramér-von Mises] || A C++ Program for the Cramér-von Mises Two-Sample Test || |
50 | 50 | || [http://www.ruhr-uni-bochum.de/imperia/md/content/mathematik3/publications/dewagvol7.pdf Dette-Wagener-Volgushev] || Nonparametric comparison of quantile curves: a stochastic process approach || |
51 | | || [http://www.stat.tamu.edu/~eparzen/smethmin.pdf parzen] || Statistical methods mining and nonparametric quantile domain data analysis || |
| 51 | || [http://www.stat.tamu.edu/~eparzen/smethmin.pdf Parzen] || Statistical methods mining and nonparametric quantile domain data analysis || |
52 | 52 | || [http://www.bios.unc.edu/~kosorok/909.pdf Kosorok] || Two sample quantile test under general conditions || |
53 | 53 | || [http://www.alglib.net/hypothesistesting/mannwhitneyu.php Mann-Whitney U-test] || Test no paramétrico para la comparación de medianas de muestras de tamaños arbitrarios, sustitutivo del test de la t-student para muestras normales || |
54 | 54 | |
55 | | La principal conclusión tras la lectura de estos documentos es que la comparación no paramétrica de distribuciones es un problema tremendamente complejo desde el punto de vista estadísticoy todavía más en lo que se refiere a su implementación. De hecho sólo he encontrado un método libre implementado en C++, el [http://www.google.es/url?sa=t&rct=j&q=a%20c%2B%2B%20program%20for%20the%20cram%C2%B4er-von%20mises&source=web&cd=2&ved=0CCwQFjAB&url=http%3A%2F%2Fwww.jstatsoft.org%2Fv17%2Fi08%2Fpaper&ei=0B2lTpCkDZGWOvvY2K4N&usg=AFQjCNFaDAewPd7AcY7N3I8dmtQZAPMZIQ&sig2=ySS0WwmbqcButNNDMTDByQ Cramér-von Mises], que es realmente bastante robusto pero tremendamente lento para cadenas de apenas unos cientos de muestras. |
56 | | El [http://www.alglib.net/hypothesistesting/mannwhitneyu.php Mann-Whitney U-test]) sí que es rapidísimo pero en principio sólo nos sirve para comparar las medianas. |
57 | | Tiene la ventaja añadida de que ya existe en TOL como la función [wiki:TolGuiaDelUsuarioSet#FunciónAlgLib.MannWhitneyUtest AlgLib.MannWhitneyUtest]. |
58 | | Podría usarse como filtro inicial a cualquier otro test de comparación de muestras, pues si las medianas son significativamente distintas es evidente que las distribuciones no pueden ser las mismas. |
59 | | Pero además de eso puede usar de una forma sencilla, aunque un tanto heurística, para comprobar que las muestras se parecen no sólo en los valores centrales sino en todo el rango de valores posibles |
| 55 | La principal conclusión tras la lectura de estos documentos es que la comparación no paramétrica de distribuciones es un problema tremendamente complejo desde el punto de vista estadístico, y todavía más en lo que se refiere a su implementación. De hecho sólo he encontrado un método libre implementado en C++, el [http://www.google.es/url?sa=t&rct=j&q=a%20c%2B%2B%20program%20for%20the%20cram%C2%B4er-von%20mises&source=web&cd=2&ved=0CCwQFjAB&url=http%3A%2F%2Fwww.jstatsoft.org%2Fv17%2Fi08%2Fpaper&ei=0B2lTpCkDZGWOvvY2K4N&usg=AFQjCNFaDAewPd7AcY7N3I8dmtQZAPMZIQ&sig2=ySS0WwmbqcButNNDMTDByQ Cramér-von Mises], que es realmente bastante robusto pero tremendamente lento para cadenas de apenas unos cientos de muestras. |
| 56 | El [http://www.alglib.net/hypothesistesting/mannwhitneyu.php Mann-Whitney U-test] sí que es rapidísimo pero en principio sólo nos sirve para comparar las medianas. |
| 57 | Tiene la ventaja añadida de que ya existe en TOL como la función [wiki:TolGuiaDelUsuarioSet#FunciónAlgLib.MannWhitneyUtest AlgLib.MannWhitneyUtest] y podría usarse como filtro inicial a cualquier otro test de comparación de muestras, pues si las medianas son significativamente distintas es evidente que las distribuciones no pueden ser las mismas. |
| 58 | Pero además de eso, se puede usar de una forma sencilla, aunque un tanto heurística, para comprobar que las muestras se parecen no sólo en los valores centrales sino en todo el rango de valores posibles |
60 | 59 | |
61 | 60 | 1. Se crea el vector de muestra conjunta mediante la simple concatenación de las muestras a chequear. |
… |
… |
|
70 | 69 | Lo primero que hace falta para poder simular varias cadenas es generar unos cuantos puntos de origen de la cadena lo más dispersos que sea posible dentro de la región factible. El problema es que para poder generar unos pocos puntos dispersos sin favorecer demasiado la zona cercana al punto factible de origen es necesario generar una muestra más o menos uniforme o sobre-disersa que tienda a recorrer todo la región factible y eso no es fácil hacerlo generando sólo unos pocos puntos, más bien hay que generar un paseo aleatorio más o menos largo. |
71 | 70 | |
72 | | En https://www.tol-project.org/ticket/1306#comment:14 se presenta el algoritmo actualmente usado que funciona estupendamente con pocas dimensiones, pero que hay que mejorar cunado aumentan las variables porque se atasca un poco y hay que generar muchos miles de muestras para recorrer medianamente la región factible. Tampoco es que tarde mucho en generar porque sólo tiene que evaluar si el punto es factible, aquí no hay densidades ni Gibbs ni nada de eso, algún producto matriz x vector y cosas así bastante lineales. Comparado con lo que cuesta simular luego la distribución a posteriori no es demasiado, aunque lógicamente sobrecarga la habrá. |
| 71 | En https://www.tol-project.org/ticket/1306#comment:14 se presenta el algoritmo actualmente usado que funciona estupendamente con pocas dimensiones, pero que hay que mejorar cuando aumentan las variables porque se atasca un poco y hay que generar muchos miles de muestras para recorrer medianamente la región factible. Tampoco es que tarde mucho en generar porque sólo tiene que evaluar si el punto es factible, aquí no hay densidades ni Gibbs ni nada de eso, algún producto matriz x vector y cosas así bastante lineales. Comparado con lo que cuesta simular luego la distribución a posteriori no es demasiado, aunque lógicamente sobrecarga la habrá. |
73 | 72 | |
74 | 73 | Se trata de un algoritmo completamente genérico pero implica la existencia de una función {{{g(x):R^n->R^m}}} tal que la región factible quede definida por las inecuaciones {{{g(x)<=0}}}. Tengo algunas ideas sobre cómo se puede mejorar el rendimiento |
… |
… |
|
81 | 80 | |
82 | 81 | Hay que tener en cuenta que la generación de múltiples cadenas es incompatible con algunas características de BSR |
83 | | 1. La continuación de cadenas es evidentemente imposible si queremos forzar distintos puntos de inicio[[BR]] |
| 82 | 1. La continuación de cadenas es evidentemente imposible si queremos forzar distintos puntos de inicio, por lo que habrá que asegurarse de que la configuración es correcta: [[BR]] |
84 | 83 | {{{ |
85 | 84 | #!java |