close Warning: Can't synchronize with repository "(default)" (/var/svn/tolp does not appear to be a Subversion repository.). Look in the Trac log for more information.

Changes between Version 12 and Version 13 of OfficialTolArchiveNetworkBysSamplerPostProccess


Ignore:
Timestamp:
Jan 6, 2011, 1:44:50 AM (14 years ago)
Author:
Víctor de Buen Remiro
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • OfficialTolArchiveNetworkBysSamplerPostProccess

    v12 v13  
    2020  [[LatexEquation( S=\underset{i=1}{\overset{S'}{\sum}}s_{i} )]] [[BR]][[BR]]
    2121
     22No está claro por el momento cuál podría ser el criterio para seleccionar el número [[LatexEquation( k )]] de vecinos en cada entorno, pero debe ser en cualquier caso un número bastante pequeño en relación con [[LatexEquation( S' )]] pues se trata de observar el comportamiento a nivel local. También ha de ser bastante pequeño en términos absolutos porque la complejidad del algoritmo KNN crece cuadráticamente con el tamaño del vecindario. Tampoco puede ser excesivamente pequeño porque entonces quedarían amplias zonas del espacio sin recubrir por no estar lo suficientemente cerca de ninguno de los puntos muestreados. Lo ideal sería tomar un sistema de entornos que recubriera de forma conexa y compacta la muestra, aunque eso no parece facil de comprobar a primera vista. Tampoco es en principio obligatorio tomar el mismo número de puntos en cada entorno aunque por el momento supondremos que es así.
     23 
    2224Sean los [[LatexEquation( k )]] puntos muestrales vecinos de [[LatexEquation( x_{i} )]] en orden de proximidad al mismo
    2325  [[LatexEquation( y_{i,j} \wedge i=1 \dots S \wedge j=1 \dots k )]] [[BR]][[BR]]
     
    3032  [[LatexEquation( \Omega_{i}=\left\{ y\in\mathbb{R}^{n}\left|\left\Vert y-x_{i}\right\Vert ^{2}\leq r_{i,k}\right.\right\}  )]]
    3133
    32 == Distribución del cardinal local ==
     34Se trata de ver qué entornos están superpoblados y cuáles están inframuestreados, para lo cual deberemos estudiar la distribución de probabilidad del tamaño muestral incluido dentro de cada uno.
     35 
     36== Distribución del tamaño muestral local ==
    3337
    34 Así las cosas tenemos que el cardinal local, es decir, el número total de puntos muestrales en [[LatexEquation( \Omega_{i} )]], es [[BR]][[BR]]
     38Así las cosas tenemos que el tamaño muestral local, es decir, el número total de puntos muestrales en [[LatexEquation( \Omega_{i} )]], es [[BR]][[BR]]
    3539  [[LatexEquation( h_{i} = k+s_i)]] [[BR]][[BR]]
    3640cantidad que se distribuye como una binomial [[BR]][[BR]]
     
    3943  [[LatexEquation( p_{i}=\int_{\Omega_{i}}\pi\left(y\right)\mathrm{d}y  )]] [[BR]]
    4044
    41 == Aproximación de la probabilidad del entorno local ==
     45 
     46=== Aproximación de la probabilidad del entorno local ===
    4247 
    4348La anterior integral sería algo muy costoso de evaluar así que hay que aproximarla por el método de Montecarlo, como el producto de la media de las verosimilitudes en un conjunto de puntos del entorno por el hipervolumen del mismo
     
    5863  [[LatexEquation( \ln\tilde{\pi}\left(z\right)=\frac{\underset{j=0}{\overset{k}{\sum}}w_{j}\left(z\right)\ln\pi_{i,j}}{\underset{j=0}{\overset{k}{\sum}}w_{j}\left(z\right)}\wedge y_{i,0}=x_{i}\wedge\pi_{i,0}=\pi_{i}\wedge w_{j}\left(z\right)=\left\Vert z-y_{i,j}\right\Vert ^{-2}  )]]
    5964   
     65Si el número [[LatexEquation( k+1 )]] de puntos básicos de la interpolación [[LatexEquation( y_{i,j} \wedge j=0 \dots k)]], es menor o igual que la dimensión del espacio [[LatexEquation( n )]] la anterior aproximación no es lo suficientemente flexible, pero eso es facil de evitar añadiendo más puntos básicos, simplemente tomando los vecinos, los vecinos de los vecinos y así sucesivamente hasta que haya al menos [[LatexEquation( n )]] puntos básicos distintos. Gracias al algoritmo KNN esto no supondrá apenas ningún sobrecoste.
     66   
    6067Como el volumen de la hiperesfera es proporcional a
    6168  [[LatexEquation( r^n_{i,k} )]] [[BR]]
     
    7178  [[LatexEquation( \mu_{0}<-\underset{i=S'}{\max}\left\{ \nu_{i}\right\}  )]] [[BR]]
    7279 
    73 == Verosimilitud del parámetro ==
     80Necesitamos un criterio razonable para establecer cuál debe ser el valor de la constante [[LatexEquation( \mu_{0} )]] para poder continuar con los cálculos, y dado que conocemos la forma de la distribución podemos encontrar su valor máximo-verosímil.
     81 
     82=== Verosimilitud del parámetro ===
    7483
    7584La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea exactamente [[LatexEquation(h)]] para la binomial definida anteriormente es [[BR]][[BR]]
     
    7887  [[LatexEquation( \ln\left(P_{i}\right)=\ln\left(\begin{array}{c}S\\h_{i}\end{array}\right)+h_{i}\ln p_{i}+\left(S-h_{i}\right)\ln\left(1-p_{i}\right) )]] [[BR]]
    7988
    80 La verosimilitud de [[LatexEquation(\mu_0)]] será la suma ponderada por las repeticiones de la probabilidad, luego la expresión de su logaritmo será [[BR]]
     89La verosimilitud de [[LatexEquation(\mu_0)]] dada la muestra observada, bajo la hipótesis de independencia entre los distintos entornos, será el productorio de las probabilidades del número de puntos efectivamente encontrados en cada uno, teniendo en cuenta que los puntos repetidos deben multiplicarse tantas veces como aparecen. La expresión de su logaritmo será por tanto [[BR]]
    8190  [[LatexEquation( L\left(\mu_{0}\right)=\underset{i=1}{\overset{S'}{\sum}}s_{i}\ln\left(P_{i}\right) )]] [[BR]]
     91 
     92En realidad los entornos cercanos no pueden ser independientes entre sí, pues de hecho comparten puntos, pero en primera instancia daremos por buena la hipótesis de independencia, simplemente por comodidad y porque no está claro que sea demasiado importante el efecto de la dependencia. 
    8293
    8394Así pues tendremos el problema de optimización univariante
    8495
    85   [[LatexEquation(\underset{\mu_{0}}{\max}\left\{ E\left[L\left(\mu_{0}\right)\right]\right\} )]]
     96  [[LatexEquation(\underset{\mu_{0}}{\max}\left\{ L\left(\mu_{0}\right)\right\} )]]
    8697
    8798Sujeto a
     
    90101 
    91102Resolviendo este problema obtenemos el valor de [[LatexEquation( \mu_{0} )]] que nos permite completar el resto de cálculos.
    92  
    93 == Test de super-población ==
    94  
     103
     104=== Función de distribución  ===
     105
    95106La probabilidad de que el número de puntos que caen dentro de la hiperesfera sea mayor o igual que [[LatexEquation(h)]] se calcula mediante la función [http://www.gnu.org/software/gsl/manual/html_node/Incomplete-Beta-Function.html beta incompleta] [[BR]] [[BR]]
    96107  [[LatexEquation( \mathrm{Pr}\left[\eta_{i}\leq h_{i}\right]=I_{1-p}\left(S-h_{i},h_{i+1}\right) )]] [[BR]]
     108 
     109== Filtrado de super-población ==
     110 
     111En los entornos en los que la probabilidad de exceso de muestra sea muy alta habrá que eliminar los repetidos hasta que se entre dentro de un margen razonable ...
     112 
     113== Estrategia de colonización ==
     114
     115En los entornos en los que la probabilidad de defecto de muestra sea muy alta habrá que añadir más mediante un mecanismo que asegure la convergencia ...
     116
    97117 
    98118 
    99119 
    100120 
     121