close Warning: Can't synchronize with repository "(default)" (/var/svn/tolp does not appear to be a Subversion repository.). Look in the Trac log for more information.

Changes between Version 33 and Version 34 of OfficialTolArchiveNetworkBysSamplerPostProccess


Ignore:
Timestamp:
Jan 7, 2011, 11:22:31 AM (14 years ago)
Author:
Víctor de Buen Remiro
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • OfficialTolArchiveNetworkBysSamplerPostProccess

    v33 v34  
    6767La anterior integral sería algo muy costoso de evaluar así que hay que aproximarla por el método de Montecarlo, como el producto del volumen de la hiperesfera
    6868
    69   [[LatexEquation( V\left(\Omega_{i}\right)=\frac{\pi^{\frac{n}{2}}}{\Gamma\left(\frac{n}{2}+1\right)}r_{i,k}^{n} )]]
     69  [[LatexEquation( V\left(\Omega_{i}\right)=\lambda_{0}r_{i,k}^{n}\;\wedge\lambda_{0}=\frac{\pi^{\frac{n}{2}}}{\Gamma\left(\frac{n}{2}+1\right)} )]]
    7070
    7171por la media de las verosimilitudes en una selección de puntos del entorno
     
    7373  [[LatexEquation( p_{i}=\frac{1}{N}\underset{j=1}{\overset{N}{\sum}}\pi\left(z_{i,j}\right)V\left(\Omega_{i}\right)\wedge z_{i,j}\in\Omega_{i}\forall j=1\ldots N\wedge i=1\ldots S' )]]
    7474 
    75 El error en este tipo de aproximaciones decrece proporcionalmente a la raíz del número de puntos en el que evaluamos la verosimilitud pero sólo tenemos [[LatexEquation( k+1 )]] puntos interiores. Por otra parte tampoco conocemos la verosimilitud sino una función porporcional a la misma. Es decir, lo único conocemos sin coste adicional es el logaritmo de la verosimilitud, salvo una constante [[LatexEquation(\lambda_0)]] desconocida, evaluado en cada uno de los puntos muestrales, es decir, conocemos
    76 
    77   [[LatexEquation( \ln\pi_{i}=\ln\pi\left(x_{i}\right)+\lambda_0 )]]
    78 
    79   [[LatexEquation( \ln\pi_{i,j}=\ln\pi\left(y_{i,j}\right)+\lambda_0 )]]
     75El error en este tipo de aproximaciones decrece proporcionalmente a la raíz del número de puntos en el que evaluamos la verosimilitud pero sólo tenemos [[LatexEquation( k+1 )]] puntos interiores. Por otra parte tampoco conocemos la verosimilitud sino una función porporcional a la misma. Es decir, lo único conocemos sin coste adicional es el logaritmo de la verosimilitud, salvo una constante [[LatexEquation(\lambda_1)]] desconocida, evaluado en cada uno de los puntos muestrales, es decir, conocemos
     76
     77  [[LatexEquation( \ln\pi_{i}=\ln\pi\left(x_{i}\right)+\lambda_1 )]]
     78
     79  [[LatexEquation( \ln\pi_{i,j}=\ln\pi\left(y_{i,j}\right)+\lambda_1 )]]
    8080 
    8181
     
    8888y calculamos la aproximación del logaritmo de la verosimilitud en cada uno de ellos mediante la fórmula de ponderación de Sheppard
    8989
    90   [[LatexEquation( \ln{\tilde{\pi}}_i\left(z\right)=\frac{\underset{j=0}{\overset{k}{\sum}}w_{j}\left(z\right)\ln\pi_{i,j}}{\underset{j=0}{\overset{k}{\sum}}w_{j}\left(z\right)}\wedge w_{j}\left(z\right)=\left\Vert z-y_{i,j}\right\Vert ^{-2}  )]]
     90  [[LatexEquation( \ln\pi\left(z\right)-\lambda_{1}\backsimeq\ln\tilde{\pi}\left(z\right)=\frac{\underset{j=0}{\overset{k}{\sum}}w_{j}\left(z\right)\ln\pi_{i,j}}{\underset{j=0}{\overset{k}{\sum}}w_{j}\left(z\right)}\wedge y_{i,0}=x_{i}\wedge\pi_{i,0}=\pi_{i}\wedge w_{j}\left(z\right)=\left\Vert z-y_{i,j}\right\Vert ^{-2}  )]]
    9191   
    9292Si el número [[LatexEquation( k+1 )]] de puntos básicos de la interpolación [[LatexEquation( y_{i,j} \wedge j=0 \dots k)]], es demasiado pequeño se puede ampliar con sus vecinos, los vecinos de sus vecinos y así sucesivamente hasta que haya suficientes puntos básicos distintos. Gracias al algoritmo KNN esto no supondrá apenas ningún sobrecoste.
     
    9696  [[LatexEquation( \ln p_{i}=\mu_{0}+\nu_{i}  )]]
    9797
    98   [[LatexEquation( \nu_{i}=\ln\left(\frac{1}{N}\underset{j=1}{\overset{N}{\sum}}\tilde{\pi}_{i}\left(z_{i,j}\right)\right)+n\ln r_{i,k} )]]
     98en la que llamaremos constante de integración a [[LatexEquation( \mu_{0} )]], que es un valor desconocido a estimar. La parte conocida [[LatexEquation( \nu_{i} )]] es el logaritmo de la media de las verosimilitudes interpoladas más el logaritmo del volumen salvo la constante [[LatexEquation(\lambda_0)]] que aunque es conocida es irrelevante. De hecho es conveniente sumarle a [[LatexEquation( \nu_{i} )]] otra constante [[LatexEquation(\lambda_2)]] que obligue a que su máximo sea 0 y evitar así problemas numéricos con las exponenciales
     99
     100  [[LatexEquation( \nu_{i}=\lambda_2 + \ln\left(\frac{1}{N}\underset{j=1}{\overset{N}{\sum}}\tilde{\pi}_{i}\left(z_{i,j}\right)\right)+n\ln r_{i,k} )]]
     101
     102Es decir, hay que tomar
     103
     104  [[LatexEquation( \lambda_{2}=-\underset{i=S'}{\max}\left\{ \ln\left(\frac{1}{N}\underset{j=1}{\overset{N}{\sum}}\tilde{\pi}_{i}\left(z_{i,j}\right)\right)+n\ln r_{i,k}\right\} )]]
     105 
     106para que resulte
     107
     108    [[LatexEquation( \underset{i=S'}{\max}\left\{ \nu_{i}\right\}=0 )]]
     109 
     110=== Acotación de la constante de itegración ===
    99111 
    100112Puesto que una probabilidad ha de ser menor que 1 su logaritmo es siempre negativo, por lo que tenemos una cota para la constante
    101113
    102   [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\} )]]
     114  [[LatexEquation( \mu_{0}<=-\underset{i=S'}{\max}\left\{ \nu_{i}\right\}=0 )]]
    103115 
    104116Podemos obtener un valor aproximado teniendo en cuenta que la esperanza de la suma de los tamaños muestrales observados es conocida
    105117
    106118  [[LatexEquation( E\left[\underset{i=1}{\overset{S'}{\sum}}h_{i}\right]=\underset{i=1}{\overset{S'}{\sum}}Sp_{i}=\underset{i=1}{\overset{S'}{\sum}}Se^{\mu_{0}+\nu_{i}} )]]
    107  
    108 Sin embargo, esta aproximación sólo es adecuada para muestras exactas, y puesto que existen serias sospechas sobre exceso de repeticiones y lagunas inframuestreadas, es posible que necesitemos un criterio más robusto para establecer cuál debe ser el valor de la constante [[LatexEquation( \mu_{0} )]]. Dado que conocemos la forma de la distribución podemos encontrar su valor máximo-verosímil.
    109 
    110 === Verosimilitud del parámetro ===
     119
     120de donde se extrae que
     121 
     122  [[LatexEquation( \mu_{0}\approx\tilde{\mu}_{0}=Log\left(\underset{i=1}{\overset{S'}{\sum}}h_{i}\right)-Log\left(\underset{i=1}{\overset{S'}{\sum}}e^{\nu_{i}}\right)-Log\left(S\right) )]]
     123   
     124Sin embargo, esta aproximación sólo es adecuada para muestras exactas, y puesto que existen serias sospechas sobre exceso de repeticiones y lagunas inframuestreadas, es posible que necesitemos un criterio más robusto para establecer cuál debe ser el valor de la constante [[LatexEquation( \mu_{0} )]]. Dado que conocemos la forma de la distribución podemos encontrar su valor máximo-verosímil. Lo que sí es posible hacer es utilizar la anterior aproximación para establecer un buen intervalo para el algoritmo de optimización que es algo que facilita mucho el trabajo.
     125
     126=== Estimación de la constante ===
    111127
    112128La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea exactamente [[LatexEquation(h)]] para la binomial definida anteriormente es
     
    131147Sujeto a
    132148
    133   [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\}  )]]
     149  [[LatexEquation( \mu_{0} \geq 0  )]]
    134150 
    135151Resolviendo este problema obtenemos el valor de [[LatexEquation( \mu_{0} )]] que nos permite completar el resto de cálculos.
     
    153169== Estrategia de post-procesado ==
    154170
    155 Una vez conocida la distribución del tamaño muestral local hay que contrastarlo con el valor observado y eliminar puntos en las zonas donde sobran y añadir en aquellas en las que faltan. No tiene porqué tratarse de un trasvase sino que puede forzarse que el tamaño muestral final [[LatexEquation( S^* )]] sea menor o mayor que el inicial [[LatexEquation( S )]], según sean los intereses del usuario. Habrá situaciones, como en modelos de tamaño moderado, en las que primará la precisión y se deseará aumentar la muestra, y otras en las que por el excesivo tamaño o por la masividad del número de modelos habrá que restringir el volumen de información para ajustarse a los recursos de memoria y tiempo disponibles.
     171Una vez conocida la distribución del tamaño muestral local hay que contrastarlo con el valor observado y eliminar puntos en las zonas donde sobran y añadir en aquellas en las que faltan. No tiene porqué tratarse de un trasvase de suma 0, sino que puede forzarse que el tamaño muestral final [[LatexEquation( S^* )]] sea menor o mayor que el inicial [[LatexEquation( S )]], según sean los intereses del usuario que será quien lo especifique. Habrá situaciones, como en modelos de tamaño moderado, en las que primará la precisión y se deseará aumentar la muestra, y otras en las que por el excesivo tamaño o por la masividad del número de modelos habrá que restringir el volumen de información para ajustarse a los recursos de memoria y tiempo disponibles. En este caso, el sistema actuará como un sistema de compresión con pérdida de información mínima.
    156172
    157173Para evitar parámetros más o menos arbitrarios o difíciles de calibrar se puede seguir un mecanismo iterativo que filtre y colonize en cada etapa bajo condiciones muy restrictivas, es decir, allí donde no quepa duda alguna que debe intervenirse. Tras cada etapa se calculan una serie de cuantiles sobre cada variable escalares y se para si no se perciben cambios significativos para una tolerancia dada.
     
    186202Una posibilidad sería continuar el mismo método utilizado en la generación de la muestra analizada comenzando por los puntos centrales de los entornos más despoblados hasta compensar la masa faltante.
    187203Pero dada la información acumulada sería quizás más razonable utilizar un generador de candidatos con media en los puntos centrales en lugar de usar un paseo aleatorio. Incluso se podría usar el método de ensayo múltiple generalizado usando como precandidatos los mismos puntos generados anteriormente para la aproximación de la integral.
    188