close Warning: Can't synchronize with repository "(default)" (/var/svn/tolp does not appear to be a Subversion repository.). Look in the Trac log for more information.

Changes between Initial Version and Version 1 of Ticket #1049


Ignore:
Timestamp:
Dec 29, 2010, 4:50:27 PM (14 years ago)
Author:
Víctor de Buen Remiro
Comment:

Legend:

Unmodified
Added
Removed
Modified
  • Ticket #1049 – Description

    initial v1  
    33Las cadenas simuladas con BysSampler cuentan con una ventaja adicional al conocerse la log-likelihood de cada muestra, pues esto permite contrastarla directamente con la densidad local empírica de los puntos cercanos que han sido generados en sus cercanías.
    44
    5 En una cadena perfectamente muestreada el número de puntos generados en torno a un punto dado debería ser proporcional a la verosimilitud en dicho punto. Esto permite diseñar un criterio completamente objetivo para eliminar puntos de zonas sobre-muestreadas y sustituirlos por puntos en otras zonas infra-muestreadas.
     5En una cadena perfectamente muestreada el número de puntos generados en torno a un punto dado debería ser proporcional a la verosimilitud  media alrededor de dicho punto. Esto permite diseñar un criterio completamente objetivo para eliminar puntos de zonas sobre-muestreadas y sustituirlos por puntos en otras zonas infra-muestreadas.
     6
     7Una posibilidad sería utilizar el algoritmo KNN para encontrar los k vecinos más próximos cada punto [[LatexEquation( x_{i} )]] [[BR]][[BR]]
     8[[LatexEquation( y_{i,j} \wedge i=1 \dots S \wedge j=1 \dots k )]] [[BR]][[BR]]
     9Si [[BR]][[BR]]
     10[[LatexEquation( r_{i,k}=\sqrt{\underset{d=1}{\overset{n}{\sum}}\left(y_{i,k,d}-x_{i,d}\right)^{2}} )]] [[BR]][[BR]]
     11es la distancia de cada punto de la muestra a su k-ésimo vecino más próximo, la densidad local empírica en dicho punto será [[BR]][[BR]]
     12[[LatexEquation( \delta_{i,k} \propto \frac{k+1}{r_{i,k}^{n}} )]][[BR]][[BR]]
     13mientras que la verosimilitud media en ese entorno será [[BR]][[BR]]
     14[[LatexEquation( \pi_{i,k} \propto \frac{1}{k+1}\left(\pi\left(x_{i}\right)+\underset{j=1}{\overset{k}{\sum}}\pi\left(y_{i,j}\right)\right) )]]
     15
     16La diferencia de los logaritmos de ambas magnitudes sería
     17[[LatexEquation( \ln\left(\pi_{i,k}-\delta_{i,k}\right)=cte-2\ln\left(k+1\right)+\ln\left(\pi\left(x_{i}\right)+\underset{j=1}{\overset{k}{\sum}}\pi\left(y_{i,j}\right)\right)-n\ln\left(r_{i,k}\right) )]]
     18
     19y su esperanza es 0. Si establecemos la bastante razonable hipótesis de normalidad tendríamos que
     20
     21\ln\left(\pi\left(x_{i}\right)+\underset{j=1}{\overset{k}{\sum}}\pi\left(y_{i,j}\right)\right)\sim N\left(\mu,\sigma^{2}\right)
     22
     23con media y varianza desconocidas.
     24
     25Si suponemos que la cadena de partida no está perfectamente equilibrada pero sí ha recorrido el espacio convenientemente, entonces podemos buscar los outliers de las magnitudes anteriores, eliminando los puntos con residuos muy negativos pues corresponden a zonas superpobladas.
     26
     27Por el contrario, en los residuos muy positivos hay carencia de muestras por lo que es recomendable incluir nuevos puntos en esa zona. Para ello se puede utilizar un método multiple-try iniciado en el punto central del entorno y generar una serie corta.
     28
     29