5 | | En una cadena perfectamente muestreada el número de puntos generados en torno a un punto dado debería ser proporcional a la verosimilitud en dicho punto. Esto permite diseñar un criterio completamente objetivo para eliminar puntos de zonas sobre-muestreadas y sustituirlos por puntos en otras zonas infra-muestreadas. |
| 5 | En una cadena perfectamente muestreada el número de puntos generados en torno a un punto dado debería ser proporcional a la verosimilitud media alrededor de dicho punto. Esto permite diseñar un criterio completamente objetivo para eliminar puntos de zonas sobre-muestreadas y sustituirlos por puntos en otras zonas infra-muestreadas. |
| 6 | |
| 7 | Una posibilidad sería utilizar el algoritmo KNN para encontrar los k vecinos más próximos cada punto [[LatexEquation( x_{i} )]] [[BR]][[BR]] |
| 8 | [[LatexEquation( y_{i,j} \wedge i=1 \dots S \wedge j=1 \dots k )]] [[BR]][[BR]] |
| 9 | Si [[BR]][[BR]] |
| 10 | [[LatexEquation( r_{i,k}=\sqrt{\underset{d=1}{\overset{n}{\sum}}\left(y_{i,k,d}-x_{i,d}\right)^{2}} )]] [[BR]][[BR]] |
| 11 | es la distancia de cada punto de la muestra a su k-ésimo vecino más próximo, la densidad local empírica en dicho punto será [[BR]][[BR]] |
| 12 | [[LatexEquation( \delta_{i,k} \propto \frac{k+1}{r_{i,k}^{n}} )]][[BR]][[BR]] |
| 13 | mientras que la verosimilitud media en ese entorno será [[BR]][[BR]] |
| 14 | [[LatexEquation( \pi_{i,k} \propto \frac{1}{k+1}\left(\pi\left(x_{i}\right)+\underset{j=1}{\overset{k}{\sum}}\pi\left(y_{i,j}\right)\right) )]] |
| 15 | |
| 16 | La diferencia de los logaritmos de ambas magnitudes sería |
| 17 | [[LatexEquation( \ln\left(\pi_{i,k}-\delta_{i,k}\right)=cte-2\ln\left(k+1\right)+\ln\left(\pi\left(x_{i}\right)+\underset{j=1}{\overset{k}{\sum}}\pi\left(y_{i,j}\right)\right)-n\ln\left(r_{i,k}\right) )]] |
| 18 | |
| 19 | y su esperanza es 0. Si establecemos la bastante razonable hipótesis de normalidad tendríamos que |
| 20 | |
| 21 | \ln\left(\pi\left(x_{i}\right)+\underset{j=1}{\overset{k}{\sum}}\pi\left(y_{i,j}\right)\right)\sim N\left(\mu,\sigma^{2}\right) |
| 22 | |
| 23 | con media y varianza desconocidas. |
| 24 | |
| 25 | Si suponemos que la cadena de partida no está perfectamente equilibrada pero sí ha recorrido el espacio convenientemente, entonces podemos buscar los outliers de las magnitudes anteriores, eliminando los puntos con residuos muy negativos pues corresponden a zonas superpobladas. |
| 26 | |
| 27 | Por el contrario, en los residuos muy positivos hay carencia de muestras por lo que es recomendable incluir nuevos puntos en esa zona. Para ello se puede utilizar un método multiple-try iniciado en el punto central del entorno y generar una serie corta. |
| 28 | |
| 29 | |