close Warning: Can't synchronize with repository "(default)" (/var/svn/tolp does not appear to be a Subversion repository.). Look in the Trac log for more information.

Changes between Version 3 and Version 4 of Ticket #1049


Ignore:
Timestamp:
Dec 30, 2010, 1:24:44 AM (14 years ago)
Author:
Víctor de Buen Remiro
Comment:

Legend:

Unmodified
Added
Removed
Modified
  • Ticket #1049 – Description

    v3 v4  
    55En una cadena perfectamente muestreada el número de puntos generados en torno a un punto dado debería ser proporcional a la verosimilitud  media alrededor de dicho punto. Esto permite diseñar un criterio completamente objetivo para eliminar puntos de zonas sobre-muestreadas y sustituirlos por puntos en otras zonas infra-muestreadas.
    66
    7 Una posibilidad sería utilizar el algoritmo KNN para encontrar los k vecinos más próximos cada punto [[LatexEquation( x_{i} )]] [[BR]][[BR]]
    8 [[LatexEquation( y_{i,j} \wedge i=1 \dots S \wedge j=1 \dots k )]] [[BR]][[BR]]
    9 Si [[BR]][[BR]]
    10 [[LatexEquation( r_{i,k}=\sqrt{\underset{d=1}{\overset{n}{\sum}}\left(y_{i,k,d}-x_{i,d}\right)^{2}} )]] [[BR]][[BR]]
    11 es la distancia de cada punto de la muestra a su k-ésimo vecino más próximo, la densidad local empírica en dicho punto será [[BR]][[BR]]
    12 [[LatexEquation( \delta_{i,k} \propto \frac{k+1}{r_{i,k}^{n}} )]][[BR]][[BR]]
    13 mientras que la verosimilitud media en ese entorno será [[BR]][[BR]]
    14 [[LatexEquation( \pi_{i,k} \propto \frac{1}{k+1}\left(\pi\left(x_{i}\right)+\underset{j=1}{\overset{k}{\sum}}\pi\left(y_{i,j}\right)\right) )]]
     7Una posibilidad sería utilizar el algoritmo KNN para encontrar los vecinos más próximos de cada punto de la muestra de tamaño [[LatexEquation( S' < S )]]. Como en los métodos de simulación tipo ''accept-reject'' suele haber bastantes puntos repetidos, para que el algoritmo tenga sentido habría que tomar los [[LatexEquation( S' < S )]] puntos únicos
     8  [[LatexEquation( x_{i} \wedge i=1 \dots S' )]] [[BR]][[BR]]
     9y llamar
     10  [[LatexEquation( s_{i} \wedge i=1 \dots S' )]] [[BR]][[BR]]
     11al número de veces que aparece cada uno en la muestra. Obviamente, la suma de los números de apariciones da el tamaño muestral
     12  [[LatexEquation( S=\underset{i=1}{\overset{S'}{\sum}}s_{i} )]] [[BR]][[BR]]
    1513
    16 La diferencia de los logaritmos de ambas magnitudes sería
    17 [[LatexEquation( \ln\left(\pi_{i,k}-\delta_{i,k}\right)=cte-2\ln\left(k+1\right)+\ln\left(\pi\left(x_{i}\right)+\underset{j=1}{\overset{k}{\sum}}\pi\left(y_{i,j}\right)\right)+n\ln\left(r_{i,k}\right) )]]
     14Sean los [[LatexEquation( k )]] puntos muestrales vecinos de [[LatexEquation( x_{i} )]] en orden de proximidad al mismo
     15  [[LatexEquation( y_{i,j} \wedge i=1 \dots S \wedge j=1 \dots k )]] [[BR]][[BR]]
    1816
    19 y su esperanza es 0. Si establecemos la bastante razonable hipótesis de normalidad tendríamos que
     17Sea la distancia euclídea del punto [[LatexEquation( x_{i} )]] a su [[LatexEquation( k )]]-ésimo vecino más próximo[[BR]][[BR]]
     18  [[LatexEquation( r_{i,k}=\sqrt{\underset{d=1}{\overset{n}{\sum}}\left(y_{i,k,d}-x_{i,d}\right)^{2}} )]] [[BR]][[BR]]
    2019
    21 [[LatexEquation(  \ln\left(\pi\left(x_{i}\right)+\underset{j=1}{\overset{k}{\sum}}\pi\left(y_{i,j}\right)\right)+n\ln\left(r_{i,k}\right)\sim N\left(\mu,\sigma^{2}\right) )]]
     20Así las cosas tenemos que el número total de puntos muestrales en la hiperesfera de radio [[LatexEquation( r_{i,k} )]] y centro [[LatexEquation( x_{i} )]] es [[BR]][[BR]]
     21  [[LatexEquation( h_{i} = k+s_i)]] [[BR]][[BR]]
     22cantidad que se distribuye como una binomial [[BR]][[BR]]
     23  [[LatexEquation( \eta_{i} = B\left(S, p_i\rigtht))]]
     24donde [[LatexEquation( p_i )]] es la probabilidad de la hiperesfera, es decir, la integral de la función de densidad en esa hiperesfera [[BR]][[BR]]
     25  [[LatexEquation( p_{i}=\int_{\left\Vert y-x_{i}\right\Vert ^{2}\leq r_{i,k}}\pi\left(y\right)\mathrm{d}y )]] [[BR]]
     26Esa integral sería algo muy costoso de evaluar, pero lo que sí conocemos sin coste adicional es el logaritmo de esa densidad, salvo una constante [[LatexEquation(\lambda_0)]] desconocida, evaluado en cada uno de los puntos muestrales, es decir, conocemos
     27  [[LatexEquation( \ln\pi_{i}=\ln\pi\left(x_{i}\right)+\lambda_0 )]] [[BR]][[BR]]
     28  [[LatexEquation( \ln\pi_{i,j}=\ln\pi\left(y_{i,j}\right)+\lambda_0 )]] [[BR]]
    2229
    23 con media y varianza desconocidas.
     30Podemos pues aproximar dicha integral como el producto de la media de las densidades por el hipervolumen de la región hiperesférica, que será proporcional a
     31  [[LatexEquation( r^n_{i,k} )]] [[BR]]
     32obteniendo la relación
     33  [[LatexEquation( \ln p_{i}\approx\lambda_{1}+\ln\left(s_{i}\pi_{i}+\underset{j=1}{\overset{k}{\prod}}\pi_{i,j}\right)+n\ln r_{i,k} )]] [[BR]]
     34en la que [[LatexEquation(\lambda_1)]] es una constante desconocida.
    2435
    25 Si suponemos que la cadena de partida no está perfectamente equilibrada pero sí ha recorrido el espacio convenientemente, entonces podemos buscar los outliers de las magnitudes anteriores, eliminando los puntos con residuos muy negativos pues corresponden a zonas superpobladas.
     36La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea exactamente [[LatexEquation(h)]] será por tanto [[BR]][[BR]]
     37  [[LatexEquation( P_i = \mathrm{Pr}\left[\eta_{i}=h_{i}\right]=\left(\begin{array}{c}S\\h_{i}\end{array}\right)p_{i}^{h_{i}}\left(1-p_{i}\right)^{S-h_{i}} )]] [[BR]]
     38y podemos aproximar el logaritmo de dicha probabilidad del contraste como   
     39  [[LatexEquation( \ln\left(P_i\right)\approx\ln\left(\begin{array}{c}S\\h_{i}\end{array}\right)+h_{i}\lambda_{1}+\ln\left(s_{i}\pi_{i}+\underset{j=1}{\overset{k}{\prod}}\pi_{i,j}\right)+n\ln r_{i,k}+\left(S-h_{i}\right)\ln\left(1-\exp\left(\lambda_{1}+\ln\left(s_{i}\pi_{i}+\underset{j=1}{\overset{k}{\prod}}\pi_{i,j}\right)+n\ln r_{i,k}\right)\right) )]] [[BR]]
    2640
    27 Por el contrario, en los residuos muy positivos hay carencia de muestras por lo que es recomendable incluir nuevos puntos en esa zona. Para ello se puede utilizar un método multiple-try iniciado en el punto central del entorno y generar una serie corta.
     41Si la muestra fuera efectivamente perfectamente generada entonces sería lícito pensar que cierta transformación de Box-Cox de esta probabilidad debería tener una distribución normal independiente de cada punto[[BR]][[BR]]
     42  [[LatexEquation( T_{bc}\left(P_{i},\alpha,\beta\right)\sim N\left(\mu,\sigma^{2}\right) )]] [[BR]]
     43  [[LatexEquation( T_{bc}\left(P_{i},\alpha,\beta\right)=\begin{cases}\left(P_{i}+\alpha\right)^{\beta} & \forall\beta>0\\\ln\left(P_{i}+\alpha\right) & \forall\beta=0\end{cases} )]] [[BR]]
    2844
    29 
     45Es posible por lo tanto estimar los parámetros desconocidos 
     46  [[LatexEquation( \Theta=\left(\lambda_{1},\alpha,\beta,\mu,\sigma^{2}\right) )]]
     47que maximizan la verosimilitud de la normal así planteada.
     48 
     49Si suponemos que la cadena de partida no está perfectamente equilibrada pero sí ha recorrido el espacio convenientemente, entonces podemos buscar los outliers de las residuos en el modelo anterior, eliminando los puntos con residuos muy negativos pues corresponden a zonas superpobladas.