Context Navigation

close Warning: Can't synchronize with repository "(default)" (/var/svn/tolp does not appear to be a Subversion repository.). Look in the Trac log for more information.

Changes between Version 33 and Version 34 of OfficialTolArchiveNetworkBysSamplerPostProccess

Timestamp:: Jan 7, 2011, 11:22:31 AM (15 years ago)
Author:: Víctor de Buen Remiro
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

OfficialTolArchiveNetworkBysSamplerPostProccess

-                      v33
+                      v34
 La anterior integral sería algo muy costoso de evaluar así que hay que aproximarla por el método de Montecarlo, como el producto del volumen de la hiperesfera
   [[LatexEquation( V\left(\Omega_{i}\right)=\frac{\pi^{\frac{n}{2}}}{\Gamma\left(\frac{n}{2}+1\right)}r_{i,k}^{n} )]]
+  [[LatexEquation( V\left(\Omega_{i}\right)=\lambda_{0}r_{i,k}^{n}\;\wedge\lambda_{0}=\frac{\pi^{\frac{n}{2}}}{\Gamma\left(\frac{n}{2}+1\right)} )]]
 por la media de las verosimilitudes en una selección de puntos del entorno
 …
   [[LatexEquation( p_{i}=\frac{1}{N}\underset{j=1}{\overset{N}{\sum}}\pi\left(z_{i,j}\right)V\left(\Omega_{i}\right)\wedge z_{i,j}\in\Omega_{i}\forall j=1\ldots N\wedge i=1\ldots S' )]]
 El error en este tipo de aproximaciones decrece proporcionalmente a la raíz del número de puntos en el que evaluamos la verosimilitud pero sólo tenemos [[LatexEquation( k+1 )]] puntos interiores. Por otra parte tampoco conocemos la verosimilitud sino una función porporcional a la misma. Es decir, lo único conocemos sin coste adicional es el logaritmo de la verosimilitud, salvo una constante [[LatexEquation(\lambda_0)]] desconocida, evaluado en cada uno de los puntos muestrales, es decir, conocemos
   [[LatexEquation( \ln\pi_{i}=\ln\pi\left(x_{i}\right)+\lambda_0 )]]
   [[LatexEquation( \ln\pi_{i,j}=\ln\pi\left(y_{i,j}\right)+\lambda_0 )]]
+El error en este tipo de aproximaciones decrece proporcionalmente a la raíz del número de puntos en el que evaluamos la verosimilitud pero sólo tenemos [[LatexEquation( k+1 )]] puntos interiores. Por otra parte tampoco conocemos la verosimilitud sino una función porporcional a la misma. Es decir, lo único conocemos sin coste adicional es el logaritmo de la verosimilitud, salvo una constante [[LatexEquation(\lambda_1)]] desconocida, evaluado en cada uno de los puntos muestrales, es decir, conocemos
+  [[LatexEquation( \ln\pi_{i}=\ln\pi\left(x_{i}\right)+\lambda_1 )]]
+  [[LatexEquation( \ln\pi_{i,j}=\ln\pi\left(y_{i,j}\right)+\lambda_1 )]]
 …
 y calculamos la aproximación del logaritmo de la verosimilitud en cada uno de ellos mediante la fórmula de ponderación de Sheppard
   [[LatexEquation( \ln{\tilde{\pi}}_i\left(z\right)=\frac{\underset{j=0}{\overset{k}{\sum}}w_{j}\left(z\right)\ln\pi_{i,j}}{\underset{j=0}{\overset{k}{\sum}}w_{j}\left(z\right)}\wedge w_{j}\left(z\right)=\left\Vert z-y_{i,j}\right\Vert ^{-2}  )]]
+  [[LatexEquation( \ln\pi\left(z\right)-\lambda_{1}\backsimeq\ln\tilde{\pi}\left(z\right)=\frac{\underset{j=0}{\overset{k}{\sum}}w_{j}\left(z\right)\ln\pi_{i,j}}{\underset{j=0}{\overset{k}{\sum}}w_{j}\left(z\right)}\wedge y_{i,0}=x_{i}\wedge\pi_{i,0}=\pi_{i}\wedge w_{j}\left(z\right)=\left\Vert z-y_{i,j}\right\Vert ^{-2}  )]]
 Si el número [[LatexEquation( k+1 )]] de puntos básicos de la interpolación [[LatexEquation( y_{i,j} \wedge j=0 \dots k)]], es demasiado pequeño se puede ampliar con sus vecinos, los vecinos de sus vecinos y así sucesivamente hasta que haya suficientes puntos básicos distintos. Gracias al algoritmo KNN esto no supondrá apenas ningún sobrecoste.
 …
   [[LatexEquation( \ln p_{i}=\mu_{0}+\nu_{i}  )]]
+  [[LatexEquation( \nu_{i}=\ln\left(\frac{1}{N}\underset{j=1}{\overset{N}{\sum}}\tilde{\pi}_{i}\left(z_{i,j}\right)\right)+n\ln r_{i,k} )]]
+en la que llamaremos constante de integración a [[LatexEquation( \mu_{0} )]], que es un valor desconocido a estimar. La parte conocida [[LatexEquation( \nu_{i} )]] es el logaritmo de la media de las verosimilitudes interpoladas más el logaritmo del volumen salvo la constante [[LatexEquation(\lambda_0)]] que aunque es conocida es irrelevante. De hecho es conveniente sumarle a [[LatexEquation( \nu_{i} )]] otra constante [[LatexEquation(\lambda_2)]] que obligue a que su máximo sea 0 y evitar así problemas numéricos con las exponenciales
+  [[LatexEquation( \nu_{i}=\lambda_2 + \ln\left(\frac{1}{N}\underset{j=1}{\overset{N}{\sum}}\tilde{\pi}_{i}\left(z_{i,j}\right)\right)+n\ln r_{i,k} )]]
+Es decir, hay que tomar
+  [[LatexEquation( \lambda_{2}=-\underset{i=S'}{\max}\left\{ \ln\left(\frac{1}{N}\underset{j=1}{\overset{N}{\sum}}\tilde{\pi}_{i}\left(z_{i,j}\right)\right)+n\ln r_{i,k}\right\} )]]
+para que resulte
+    [[LatexEquation( \underset{i=S'}{\max}\left\{ \nu_{i}\right\}=0 )]]
+=== Acotación de la constante de itegración ===
 Puesto que una probabilidad ha de ser menor que 1 su logaritmo es siempre negativo, por lo que tenemos una cota para la constante
   [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\}  )]]
+  [[LatexEquation( \mu_{0}<=-\underset{i=S'}{\max}\left\{ \nu_{i}\right\}=0 )]]
 Podemos obtener un valor aproximado teniendo en cuenta que la esperanza de la suma de los tamaños muestrales observados es conocida
   [[LatexEquation( E\left[\underset{i=1}{\overset{S'}{\sum}}h_{i}\right]=\underset{i=1}{\overset{S'}{\sum}}Sp_{i}=\underset{i=1}{\overset{S'}{\sum}}Se^{\mu_{0}+\nu_{i}} )]]
+Sin embargo, esta aproximación sólo es adecuada para muestras exactas, y puesto que existen serias sospechas sobre exceso de repeticiones y lagunas inframuestreadas, es posible que necesitemos un criterio más robusto para establecer cuál debe ser el valor de la constante [[LatexEquation( \mu_{0} )]]. Dado que conocemos la forma de la distribución podemos encontrar su valor máximo-verosímil.
+=== Verosimilitud del parámetro ===
+de donde se extrae que
+  [[LatexEquation( \mu_{0}\approx\tilde{\mu}_{0}=Log\left(\underset{i=1}{\overset{S'}{\sum}}h_{i}\right)-Log\left(\underset{i=1}{\overset{S'}{\sum}}e^{\nu_{i}}\right)-Log\left(S\right) )]]
+Sin embargo, esta aproximación sólo es adecuada para muestras exactas, y puesto que existen serias sospechas sobre exceso de repeticiones y lagunas inframuestreadas, es posible que necesitemos un criterio más robusto para establecer cuál debe ser el valor de la constante [[LatexEquation( \mu_{0} )]]. Dado que conocemos la forma de la distribución podemos encontrar su valor máximo-verosímil. Lo que sí es posible hacer es utilizar la anterior aproximación para establecer un buen intervalo para el algoritmo de optimización que es algo que facilita mucho el trabajo.
+=== Estimación de la constante ===
 La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea exactamente [[LatexEquation(h)]] para la binomial definida anteriormente es
 …
 Sujeto a
   [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\}  )]]
+  [[LatexEquation( \mu_{0} \geq 0  )]]
 Resolviendo este problema obtenemos el valor de [[LatexEquation( \mu_{0} )]] que nos permite completar el resto de cálculos.
 …
 == Estrategia de post-procesado ==
 Una vez conocida la distribución del tamaño muestral local hay que contrastarlo con el valor observado y eliminar puntos en las zonas donde sobran y añadir en aquellas en las que faltan. No tiene porqué tratarse de un trasvase sino que puede forzarse que el tamaño muestral final [[LatexEquation( S^* )]] sea menor o mayor que el inicial [[LatexEquation( S )]], según sean los intereses del usuario. Habrá situaciones, como en modelos de tamaño moderado, en las que primará la precisión y se deseará aumentar la muestra, y otras en las que por el excesivo tamaño o por la masividad del número de modelos habrá que restringir el volumen de información para ajustarse a los recursos de memoria y tiempo disponibles.
+Una vez conocida la distribución del tamaño muestral local hay que contrastarlo con el valor observado y eliminar puntos en las zonas donde sobran y añadir en aquellas en las que faltan. No tiene porqué tratarse de un trasvase de suma 0, sino que puede forzarse que el tamaño muestral final [[LatexEquation( S^* )]] sea menor o mayor que el inicial [[LatexEquation( S )]], según sean los intereses del usuario que será quien lo especifique. Habrá situaciones, como en modelos de tamaño moderado, en las que primará la precisión y se deseará aumentar la muestra, y otras en las que por el excesivo tamaño o por la masividad del número de modelos habrá que restringir el volumen de información para ajustarse a los recursos de memoria y tiempo disponibles. En este caso, el sistema actuará como un sistema de compresión con pérdida de información mínima.
 Para evitar parámetros más o menos arbitrarios o difíciles de calibrar se puede seguir un mecanismo iterativo que filtre y colonize en cada etapa bajo condiciones muy restrictivas, es decir, allí donde no quepa duda alguna que debe intervenirse. Tras cada etapa se calculan una serie de cuantiles sobre cada variable escalares y se para si no se perciben cambios significativos para una tolerancia dada.
 …
 Una posibilidad sería continuar el mismo método utilizado en la generación de la muestra analizada comenzando por los puntos centrales de los entornos más despoblados hasta compensar la masa faltante.
 Pero dada la información acumulada sería quizás más razonable utilizar un generador de candidatos con media en los puntos centrales en lugar de usar un paseo aleatorio. Incluso se podría usar el método de ensayo múltiple generalizado usando como precandidatos los mismos puntos generados anteriormente para la aproximación de la integral.