Context Navigation

close Warning: Can't synchronize with repository "(default)" (/var/svn/tolp does not appear to be a Subversion repository.). Look in the Trac log for more information.

Changes between Version 12 and Version 13 of OfficialTolArchiveNetworkBysSamplerPostProccess

Timestamp:: Jan 6, 2011, 1:44:50 AM (15 years ago)
Author:: Víctor de Buen Remiro
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

OfficialTolArchiveNetworkBysSamplerPostProccess

-                      v12
+                      v13
   [[LatexEquation( S=\underset{i=1}{\overset{S'}{\sum}}s_{i} )]] [[BR]][[BR]]
+No está claro por el momento cuál podría ser el criterio para seleccionar el número [[LatexEquation( k )]] de vecinos en cada entorno, pero debe ser en cualquier caso un número bastante pequeño en relación con [[LatexEquation( S' )]] pues se trata de observar el comportamiento a nivel local. También ha de ser bastante pequeño en términos absolutos porque la complejidad del algoritmo KNN crece cuadráticamente con el tamaño del vecindario. Tampoco puede ser excesivamente pequeño porque entonces quedarían amplias zonas del espacio sin recubrir por no estar lo suficientemente cerca de ninguno de los puntos muestreados. Lo ideal sería tomar un sistema de entornos que recubriera de forma conexa y compacta la muestra, aunque eso no parece facil de comprobar a primera vista. Tampoco es en principio obligatorio tomar el mismo número de puntos en cada entorno aunque por el momento supondremos que es así.
 Sean los [[LatexEquation( k )]] puntos muestrales vecinos de [[LatexEquation( x_{i} )]] en orden de proximidad al mismo
   [[LatexEquation( y_{i,j} \wedge i=1 \dots S \wedge j=1 \dots k )]] [[BR]][[BR]]
 …
   [[LatexEquation( \Omega_{i}=\left\{ y\in\mathbb{R}^{n}\left|\left\Vert y-x_{i}\right\Vert ^{2}\leq r_{i,k}\right.\right\}  )]]
+== Distribución del cardinal local ==
+Se trata de ver qué entornos están superpoblados y cuáles están inframuestreados, para lo cual deberemos estudiar la distribución de probabilidad del tamaño muestral incluido dentro de cada uno.
+== Distribución del tamaño muestral local ==
 Así las cosas tenemos que el cardinal local, es decir, el número total de puntos muestrales en [[LatexEquation( \Omega_{i} )]], es [[BR]][[BR]]
+Así las cosas tenemos que el tamaño muestral local, es decir, el número total de puntos muestrales en [[LatexEquation( \Omega_{i} )]], es [[BR]][[BR]]
   [[LatexEquation( h_{i} = k+s_i)]] [[BR]][[BR]]
 cantidad que se distribuye como una binomial [[BR]][[BR]]
 …
   [[LatexEquation( p_{i}=\int_{\Omega_{i}}\pi\left(y\right)\mathrm{d}y  )]] [[BR]]
+== Aproximación de la probabilidad del entorno local ==
+=== Aproximación de la probabilidad del entorno local ===
 La anterior integral sería algo muy costoso de evaluar así que hay que aproximarla por el método de Montecarlo, como el producto de la media de las verosimilitudes en un conjunto de puntos del entorno por el hipervolumen del mismo
 …
   [[LatexEquation( \ln\tilde{\pi}\left(z\right)=\frac{\underset{j=0}{\overset{k}{\sum}}w_{j}\left(z\right)\ln\pi_{i,j}}{\underset{j=0}{\overset{k}{\sum}}w_{j}\left(z\right)}\wedge y_{i,0}=x_{i}\wedge\pi_{i,0}=\pi_{i}\wedge w_{j}\left(z\right)=\left\Vert z-y_{i,j}\right\Vert ^{-2}  )]]
+Si el número [[LatexEquation( k+1 )]] de puntos básicos de la interpolación [[LatexEquation( y_{i,j} \wedge j=0 \dots k)]], es menor o igual que la dimensión del espacio [[LatexEquation( n )]] la anterior aproximación no es lo suficientemente flexible, pero eso es facil de evitar añadiendo más puntos básicos, simplemente tomando los vecinos, los vecinos de los vecinos y así sucesivamente hasta que haya al menos [[LatexEquation( n )]] puntos básicos distintos. Gracias al algoritmo KNN esto no supondrá apenas ningún sobrecoste.
 Como el volumen de la hiperesfera es proporcional a
   [[LatexEquation( r^n_{i,k} )]] [[BR]]
 …
   [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\}  )]] [[BR]]
+== Verosimilitud del parámetro ==
+Necesitamos un criterio razonable para establecer cuál debe ser el valor de la constante [[LatexEquation( \mu_{0} )]] para poder continuar con los cálculos, y dado que conocemos la forma de la distribución podemos encontrar su valor máximo-verosímil.
+=== Verosimilitud del parámetro ===
 La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea exactamente [[LatexEquation(h)]] para la binomial definida anteriormente es [[BR]][[BR]]
 …
   [[LatexEquation( \ln\left(P_{i}\right)=\ln\left(\begin{array}{c}S\\h_{i}\end{array}\right)+h_{i}\ln p_{i}+\left(S-h_{i}\right)\ln\left(1-p_{i}\right) )]] [[BR]]
 La verosimilitud de [[LatexEquation(\mu_0)]] será la suma ponderada por las repeticiones de la probabilidad, luego la expresión de su logaritmo será [[BR]]
+La verosimilitud de [[LatexEquation(\mu_0)]] dada la muestra observada, bajo la hipótesis de independencia entre los distintos entornos, será el productorio de las probabilidades del número de puntos efectivamente encontrados en cada uno, teniendo en cuenta que los puntos repetidos deben multiplicarse tantas veces como aparecen. La expresión de su logaritmo será por tanto [[BR]]
   [[LatexEquation( L\left(\mu_{0}\right)=\underset{i=1}{\overset{S'}{\sum}}s_{i}\ln\left(P_{i}\right) )]] [[BR]]
+En realidad los entornos cercanos no pueden ser independientes entre sí, pues de hecho comparten puntos, pero en primera instancia daremos por buena la hipótesis de independencia, simplemente por comodidad y porque no está claro que sea demasiado importante el efecto de la dependencia.
 Así pues tendremos el problema de optimización univariante
   [[LatexEquation(\underset{\mu_{0}}{\max}\left\{ E\left[L\left(\mu_{0}\right)\right]\right\} )]]
+  [[LatexEquation(\underset{\mu_{0}}{\max}\left\{ L\left(\mu_{0}\right)\right\} )]]
 Sujeto a
 …
 Resolviendo este problema obtenemos el valor de [[LatexEquation( \mu_{0} )]] que nos permite completar el resto de cálculos.
 == Test de super-población ==
+=== Función de distribución  ===
 La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea mayor o igual que [[LatexEquation(h)]] se calcula mediante la función [http://www.gnu.org/software/gsl/manual/html_node/Incomplete-Beta-Function.html beta incompleta] [[BR]] [[BR]]
   [[LatexEquation( \mathrm{Pr}\left[\eta_{i}\leq h_{i}\right]=I_{1-p}\left(S-h_{i},h_{i+1}\right) )]] [[BR]]
+== Filtrado de super-población ==
+En los entornos en los que la probabilidad de exceso de muestra sea muy alta habrá que eliminar los repetidos hasta que se entre dentro de un margen razonable ...
+== Estrategia de colonización ==
+En los entornos en los que la probabilidad de defecto de muestra sea muy alta habrá que añadir más mediante un mecanismo que asegure la convergencia ...