close Warning: Can't synchronize with repository "(default)" (/var/svn/tolp does not appear to be a Subversion repository.). Look in the Trac log for more information.

Changes between Version 6 and Version 7 of OfficialTolArchiveNetworkBysInfDiag


Ignore:
Timestamp:
Oct 24, 2011, 9:00:09 AM (13 years ago)
Author:
Víctor de Buen Remiro
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • OfficialTolArchiveNetworkBysInfDiag

    v6 v7  
    1212convergencia para eliminarlas de la muestra (burn-in).
    1313
    14 Existen dos clases fundamentales de métodos para
     14Existen dos clases fundamentales de métodos para el chequeo de la convergencia
    1515
    16  * ''sequencia única'': Se basan únicamente en una cadena por lo que
     16 * Métodos de '''cadena única''': Se basan únicamente en una cadena por lo que
    1717   sólo pueden determinar en cierta medida que la cadena converge a algo, pero no es
    1818   posible asegurar que converge a la distribución a posteriori, especialmente con
     
    2323  * ''Geweke''
    2424  * ''Heidelberg and Welch''
    25  * ''sequencia múltiple'': Estos métodos utilizan varias cadenas
     25 * Métodos de '''múltiples cadenas''': Estos métodos utilizan varias cadenas
    2626   generadas desde puntos dispersos de la región factible para comprobar que realmente
    2727   todas las cadenas no sólo convergen cada una por separado sino que además lo
     
    4949|| [http://www.google.es/url?sa=t&rct=j&q=a%20c%2B%2B%20program%20for%20the%20cram%C2%B4er-von%20mises&source=web&cd=2&ved=0CCwQFjAB&url=http%3A%2F%2Fwww.jstatsoft.org%2Fv17%2Fi08%2Fpaper&ei=0B2lTpCkDZGWOvvY2K4N&usg=AFQjCNFaDAewPd7AcY7N3I8dmtQZAPMZIQ&sig2=ySS0WwmbqcButNNDMTDByQ Cramér-von Mises] || A C++ Program for the Cramér-von Mises Two-Sample Test ||
    5050|| [http://www.ruhr-uni-bochum.de/imperia/md/content/mathematik3/publications/dewagvol7.pdf Dette-Wagener-Volgushev] || Nonparametric comparison of quantile curves: a stochastic process approach ||
    51 || [http://www.stat.tamu.edu/~eparzen/smethmin.pdf parzen] || Statistical methods mining and nonparametric quantile domain data analysis ||
     51|| [http://www.stat.tamu.edu/~eparzen/smethmin.pdf Parzen] || Statistical methods mining and nonparametric quantile domain data analysis ||
    5252|| [http://www.bios.unc.edu/~kosorok/909.pdf Kosorok] || Two sample quantile test under general conditions ||
    5353|| [http://www.alglib.net/hypothesistesting/mannwhitneyu.php Mann-Whitney U-test] || Test no paramétrico para la comparación de medianas de muestras de tamaños arbitrarios, sustitutivo del test de la t-student para muestras normales ||
    5454
    55 La principal conclusión tras la lectura de estos documentos es que la comparación no paramétrica de distribuciones es un problema tremendamente complejo desde el punto de vista estadísticoy todavía más en lo que se refiere a su implementación. De hecho sólo he encontrado un método libre implementado en C++, el [http://www.google.es/url?sa=t&rct=j&q=a%20c%2B%2B%20program%20for%20the%20cram%C2%B4er-von%20mises&source=web&cd=2&ved=0CCwQFjAB&url=http%3A%2F%2Fwww.jstatsoft.org%2Fv17%2Fi08%2Fpaper&ei=0B2lTpCkDZGWOvvY2K4N&usg=AFQjCNFaDAewPd7AcY7N3I8dmtQZAPMZIQ&sig2=ySS0WwmbqcButNNDMTDByQ Cramér-von Mises], que es realmente bastante robusto pero tremendamente lento para cadenas de apenas unos cientos de muestras.
    56 El [http://www.alglib.net/hypothesistesting/mannwhitneyu.php Mann-Whitney U-test]) sí que es rapidísimo pero en principio sólo nos sirve para comparar las medianas.
    57 Tiene la ventaja añadida de que ya existe en TOL como la función [wiki:TolGuiaDelUsuarioSet#FunciónAlgLib.MannWhitneyUtest AlgLib.MannWhitneyUtest].
    58 Podría usarse como filtro inicial a cualquier otro test de comparación de muestras, pues si las medianas son significativamente distintas es evidente que las distribuciones no pueden ser las mismas.
    59 Pero además de eso puede usar de una forma sencilla, aunque un tanto heurística, para comprobar que las muestras se parecen no sólo en los valores centrales sino en todo el rango de valores posibles
     55La principal conclusión tras la lectura de estos documentos es que la comparación no paramétrica de distribuciones es un problema tremendamente complejo desde el punto de vista estadístico, y todavía más en lo que se refiere a su implementación. De hecho sólo he encontrado un método libre implementado en C++, el [http://www.google.es/url?sa=t&rct=j&q=a%20c%2B%2B%20program%20for%20the%20cram%C2%B4er-von%20mises&source=web&cd=2&ved=0CCwQFjAB&url=http%3A%2F%2Fwww.jstatsoft.org%2Fv17%2Fi08%2Fpaper&ei=0B2lTpCkDZGWOvvY2K4N&usg=AFQjCNFaDAewPd7AcY7N3I8dmtQZAPMZIQ&sig2=ySS0WwmbqcButNNDMTDByQ Cramér-von Mises], que es realmente bastante robusto pero tremendamente lento para cadenas de apenas unos cientos de muestras.
     56El [http://www.alglib.net/hypothesistesting/mannwhitneyu.php Mann-Whitney U-test] sí que es rapidísimo pero en principio sólo nos sirve para comparar las medianas.
     57Tiene la ventaja añadida de que ya existe en TOL como la función [wiki:TolGuiaDelUsuarioSet#FunciónAlgLib.MannWhitneyUtest AlgLib.MannWhitneyUtest] y podría usarse como filtro inicial a cualquier otro test de comparación de muestras, pues si las medianas son significativamente distintas es evidente que las distribuciones no pueden ser las mismas.
     58Pero además de eso, se puede usar de una forma sencilla, aunque un tanto heurística, para comprobar que las muestras se parecen no sólo en los valores centrales sino en todo el rango de valores posibles
    6059
    6160 1. Se crea el vector de muestra conjunta mediante la simple concatenación de las muestras a chequear.
     
    7069Lo primero que hace falta para poder simular varias cadenas es generar unos cuantos puntos de origen de la cadena lo más dispersos que sea posible dentro de la región factible. El problema es que para poder generar unos pocos puntos dispersos sin favorecer demasiado la zona cercana al punto factible de origen es necesario generar una muestra más o menos uniforme o sobre-disersa que tienda a recorrer todo la región factible y eso no es fácil hacerlo generando sólo unos pocos puntos, más bien hay que generar un paseo aleatorio más o menos largo.
    7170
    72 En https://www.tol-project.org/ticket/1306#comment:14 se presenta el algoritmo actualmente usado que funciona estupendamente con pocas dimensiones, pero que hay que mejorar cunado aumentan las variables porque se atasca un poco y hay que generar muchos miles de muestras para recorrer medianamente la región factible. Tampoco es que tarde mucho en generar porque sólo tiene que evaluar si el punto es factible, aquí no hay densidades ni Gibbs ni nada de eso, algún producto matriz x vector y cosas así bastante lineales. Comparado con lo que cuesta simular luego la distribución a posteriori no es demasiado, aunque lógicamente sobrecarga la habrá.
     71En https://www.tol-project.org/ticket/1306#comment:14 se presenta el algoritmo actualmente usado que funciona estupendamente con pocas dimensiones, pero que hay que mejorar cuando aumentan las variables porque se atasca un poco y hay que generar muchos miles de muestras para recorrer medianamente la región factible. Tampoco es que tarde mucho en generar porque sólo tiene que evaluar si el punto es factible, aquí no hay densidades ni Gibbs ni nada de eso, algún producto matriz x vector y cosas así bastante lineales. Comparado con lo que cuesta simular luego la distribución a posteriori no es demasiado, aunque lógicamente sobrecarga la habrá.
    7372
    7473Se trata de un algoritmo completamente genérico pero implica la existencia de una función {{{g(x):R^n->R^m}}} tal que la región factible quede definida por las inecuaciones {{{g(x)<=0}}}. Tengo algunas ideas sobre cómo se puede mejorar el rendimiento
     
    8180
    8281Hay que tener en cuenta que la generación de múltiples cadenas es incompatible con algunas características de BSR
    83  1. La continuación de cadenas es evidentemente imposible si queremos forzar distintos puntos de inicio[[BR]]
     82 1. La continuación de cadenas es evidentemente imposible si queremos forzar distintos puntos de inicio, por lo que habrá que asegurarse de que la configuración es correcta: [[BR]]
    8483{{{
    8584#!java