close Warning: Can't synchronize with repository "(default)" (/var/svn/tolp does not appear to be a Subversion repository.). Look in the Trac log for more information.

Changes between Version 13 and Version 14 of OfficialTolArchiveNetworkBysSamplerPostProccess


Ignore:
Timestamp:
Jan 6, 2011, 2:04:30 AM (14 years ago)
Author:
Víctor de Buen Remiro
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • OfficialTolArchiveNetworkBysSamplerPostProccess

    v13 v14  
    55== Introducción ==
    66
    7 Los métodos tradicionales de post-procesado de cadenas de simulación basados en el burn-in y el thinning son demasiado arbitrarios para poder parametrizarlos de forma automática sin intervención del usuario.
     7Los métodos tradicionales de post-procesado de cadenas de simulación basados en el burn-in y el thinning son demasiado arbitrarios para poder parametrizarlos de forma automática sin intervención del usuario. Además no solucionan uno de los principales problemas de los métodos accept-reject basados en paseos aleatorios, que es la alternacia de fases con exceso de repeticiones por usar un tamaño de paso demasiado grande con otras fases en las que se avanza poco en cada iteración por todo lo contrario.
    88
    9 Las cadenas simuladas con BysSampler cuentan con una ventaja adicional al conocerse la log-likelihood de cada muestra, pues esto permite contrastarla directamente con la densidad local empírica de los puntos cercanos que han sido generados en sus cercanías.
     9Las cadenas simuladas con BysSampler cuentan con una ventaja adicional al conocerse el logaritmo de la verosimiltud de cada punto muestral, salvo una constante aditiva, pues esto permite contrastarla directamente con la masa local empírica, es decir el número de puntos que han sido generados en sus cercanías.
    1010
    11 En una cadena perfectamente muestreada el número de puntos generados en torno a un punto dado debería ser proporcional a la verosimilitud media alrededor de dicho punto. Esto permite diseñar un criterio completamente objetivo para eliminar puntos de zonas sobre-muestreadas e incluso sustituirlos por puntos en otras zonas infra-muestreadas.
     11En una cadena perfectamente muestreada el número de puntos generados en torno a un punto dado debería ser proporcional a la verosimilitud media alrededor de dicho punto. Esto permite diseñar un criterio completamente objetivo para eliminar puntos de zonas supoerpobladas e incluso sustituirlos por puntos en otras zonas inframuestreadas.
    1212
    1313== Diseño de entornos locales solapados ==
     
    4242donde [[LatexEquation( p_i )]] es la probabilidad de la hiperesfera, es decir, la integral de la función de densidad en cada entorno local [[BR]][[BR]]
    4343  [[LatexEquation( p_{i}=\int_{\Omega_{i}}\pi\left(y\right)\mathrm{d}y  )]] [[BR]]
    44 
    45  
     44 
    4645=== Aproximación de la probabilidad del entorno local ===
    4746 
     
    6362  [[LatexEquation( \ln\tilde{\pi}\left(z\right)=\frac{\underset{j=0}{\overset{k}{\sum}}w_{j}\left(z\right)\ln\pi_{i,j}}{\underset{j=0}{\overset{k}{\sum}}w_{j}\left(z\right)}\wedge y_{i,0}=x_{i}\wedge\pi_{i,0}=\pi_{i}\wedge w_{j}\left(z\right)=\left\Vert z-y_{i,j}\right\Vert ^{-2}  )]]
    6463   
    65 Si el número [[LatexEquation( k+1 )]] de puntos básicos de la interpolación [[LatexEquation( y_{i,j} \wedge j=0 \dots k)]], es menor o igual que la dimensión del espacio [[LatexEquation( n )]] la anterior aproximación no es lo suficientemente flexible, pero eso es facil de evitar añadiendo más puntos básicos, simplemente tomando los vecinos, los vecinos de los vecinos y así sucesivamente hasta que haya al menos [[LatexEquation( n )]] puntos básicos distintos. Gracias al algoritmo KNN esto no supondrá apenas ningún sobrecoste.
     64Si el número [[LatexEquation( k+1 )]] de puntos básicos de la interpolación [[LatexEquation( y_{i,j} \wedge j=0 \dots k)]], es menor o igual que la dimensión del espacio [[LatexEquation( n )]] la anterior aproximación no es lo suficientemente flexible, pero eso es facil de evitar añadiendo más puntos básicos, simplemente tomando sus vecinos, los vecinos de sus vecinos y así sucesivamente hasta que haya al menos [[LatexEquation( n )]] puntos básicos distintos. Gracias al algoritmo KNN esto no supondrá apenas ningún sobrecoste.
    6665   
    6766Como el volumen de la hiperesfera es proporcional a
     
    107106  [[LatexEquation( \mathrm{Pr}\left[\eta_{i}\leq h_{i}\right]=I_{1-p}\left(S-h_{i},h_{i+1}\right) )]] [[BR]]
    108107 
    109 == Filtrado de super-población ==
     108== Filtrado de la superpoblación ==
    110109 
    111 En los entornos en los que la probabilidad de exceso de muestra sea muy alta habrá que eliminar los repetidos hasta que se entre dentro de un margen razonable ...
     110En los entornos en los que la probabilidad de exceso de muestra sea muy alta habrá que eliminar puntos, empezando por los repetidos, hasta que se entre dentro de un margen razonable ...
    112111 
    113 == Estrategia de colonización ==
     112== Estrategia de recolonización ==
    114113
    115 En los entornos en los que la probabilidad de defecto de muestra sea muy alta habrá que añadir más mediante un mecanismo que asegure la convergencia ...
    116 
    117  
    118  
    119  
    120  
    121  
     114En los entornos en los que la probabilidad de defecto de muestra sea muy alta habrá que añadir más mediante un mecanismo que asegure la convergencia.
     115Una posibilidad sería continuar el mismo método utilizado en la generación de la muestra analizada comenzando por los puntos centrales de los entornos más despoblados hasta compensar la masa faltante.
     116Pero dada la información acumulada sería quizás más razonable utilizar un generador de candidatos centrado en los puntos centrales en lugar de usar un paseo aleatorio. Incluso se podría usar el método de ensayo múltiple generalizado usando como precandidatos los mismos puntos generados anteriormente para la aproximación de la integral.