[[PageOutline]] = Package BysSampler = == Introducción == El paquete {{{BysSampler}}} consiste en una jerarquía de clases para el muestreo bayesiano de cadenas de Markov de una distribución de probabilidad vectorial arbitraria, partiendo únicamente del logaritmo de la función de densidad correspondiente, a la que llamaremos densidad objetivo, y a la que se puede añadir una constante arbitraria [[LatexEquation( \ln\left(\pi\left(x\right)\right)+Cte=u\wedge\left\{ \begin{array}{cc}\begin{array}{c} u\in\mathbb{R}\end{array} & \forall x\in\Omega\subset\mathbb{R}^{n}\\u=-\infty & \forall x\in\mathbb{R}^{n}-\Omega\end{array}\right. $$)]] Existe una batería de métodos disponibles en la literatura capaces en teoría de dar respuesta a este tipo de problemas en determinadas circunstancias: * '''Escalares''': Utilizan un método escalar en cada dimensión y el método de Gibbs para vincularlas conjuntamente: * '''ARMS''': Adaptive Rejection Metropolis Sampling * '''SLICE''': [http://en.wikipedia.org/wiki/Slice_sampling Slice sampling] * '''Vectoriales''': Simulan directamente la variable aleatoria vectorial como un sólo bloque: * '''MH''': [http://en.wikipedia.org/wiki/Metropolis%E2%80%93Hastings_algorithm Metropolis-Hastings] * '''MTM''': [http://en.wikipedia.org/wiki/Multiple-try_Metropolis Multiple Try Metropolis] * '''GMTM''': [http://jmlr.csail.mit.edu/proceedings/papers/v9/pandolfi10a/pandolfi10a.pdf Generalized Multiple Try Metropolis-Hastings] * '''CGMC''': [http://www.google.es/url?sa=t&source=web&cd=2&sqi=2&ved=0CCEQFjAB&url=http%3A%2F%2Fwww.people.fas.harvard.edu%2F~junliu%2FTechRept%2F98folder%2Fmtm.ps.gz&ei=szXQTIr9HIzqOZPlgdAE&usg=AFQjCNEYiDDLHk2M5Zmn5Wr23aKqS2_7LA&sig2=MpGM_qLG9by78g_2mq-VbA Conjugate gradient Monte Carlo] * '''RRMC''': [http://books.google.es/books?id=Dk_ou-gqnHQC&pg=PA134&lpg=PA134&dq=random+ray+monte+carlo+Liu&source=bl&ots=UfoWWBBWuh&sig=K3q23CbKBkf1CWYmx2QLcCIqPDg&hl=es&ei=mkTRTIXJOZHQjAfC7b2oDA&sa=X&oi=book_result&ct=result&resnum=1&ved=0CBgQ6AEwAA#v=onepage&q=random%20ray%20monte%20carlo%20Liu&f=false Random Ray Monte Carlo] * '''MALA''': [http://www.stat.lsa.umich.edu/~yvesa/atmala.pdf Metropolis Adjusted Langevin Algorithm] * '''HMC''': [http://www.people.fas.harvard.edu/~junliu/TechRept/01folder/hmcrev3.pdf Hybrid Monte Carlo] * '''AMH''' : [http://sims.princeton.edu/yftp/amh/AMH.pdf Adaptive Metropolis-Hstings Sampling] Cada uno de estos algoritmos requiere algún otro tipo de información auxiliar particular de cada caso, pero se intentará que los valores por defecto sean adecuados en la mayoría de las ocasiones, de forma que el usuario no necesite saber demasiado acerca de los detalles de cada uno, salvo en casos en los que la eficiencia o la complejidad del problema lo requieran. El objetivo final sería la implementación de un algoritmo que de forma heurística seleccionara el método más adecuado a un problema en base a sus dimensiones y a un análisis inicial de la función de densidad conjunta. Los métodos escalares suelen ser más lentos en ejecución y además, si la región de densidad no nula es acotada, requieren la implementación de un método que proporcione los límites de cada variable condicionados a los valores actuales del resto de variables, lo cual puede ser a veces más costoso que la propia simulación. Los métodos vectoriales en cambio sólo necesitan partir de un vector con densidad no nula. A cambio, la mayoría de ellos precisan de una distribución de probabilidad que genere candidatos plausibles que serán luego aceptados o rechazados según un criterio determinado por cada algoritmo. El sistema proporcionará un generador universal de tipo paseo aleatorio con control de tamaño de paso automático que será suficiente en la mayor parte de las ocasiones. Algunos algoritmos pueden requerir además de alguna otra función que cumpla determinadas condiciones pero para todos ellos se dará al menos una forma por defecto transparente para el usuario. Cuando el modelo es muy complejo y está compuesto por bloques bien diferenciados lo mejor es aplicar el algoritmo más adecuado a cada uno de ellos y unir los resultados mediante el método de Gibbs. Por último se requiere algún mecanismo de diagnosis y reparación de de la cadena generada que mejore su calidad eliminando elementos demasiado repetidos o que cribe zonas superpobladas lo cuál se explica en la [wiki:OfficialTolArchiveNetworkBysSamplerPostProccess página de post-procesado] == Jerarquía de clases con base en {{{Class @Generic}}} == La clase {{{@Generic}}} es la clase base de la que heredan todos los simuladores. Los métodos virtuales puros fundamentales son los que definirán el logaritmo de la función de densidad definir por el usuario para cada problema y el método de muestreo definido por el sistema para cada algoritmo {{{ #!cpp //Target log-density except a constant //This method must be redefined by end user classes in order to define //the specific distribution to sample Real pi_logDens(VMatrix z); //Internal drawer must be redefined by system internal classes to //implement a given sampling algorithm VMatrix _draw(VMatrix x); }}} Por supuesto el usuario puede heredar sus propias clases que implementen algoritmos no suministrados por el sistema. Opcionalmente, el usuario podrá implementar el método {{{ #!cpp //Will be called after each accepted or rejected simulation //This method can be redefined by end user classes Real doAfterDraw(Real void) { True }; }}} que será llamado inmediatamente después de cada llamada al método {{{_draw}}}, lo cual podrá ser utilizado para tareas arbitrarias pero está especialmente indicado para montar una simulación de Gibbs por bloques, pues permite condicionar el resto de bloques al nuevo estado del bloque recién simulado También tiene una serie de métodos virtuales puros de acceso al vector de variables de forma que se independice la metodología de simulación del mecanismo de almacenamiento de la cadena: {{{ #!cpp //Number of variables to be simulated Real get.n(Real void); //Returns current drawn values VMatrix get.x(Real void); //Sets current drawn values Real set.x(VMatrix x); }}} === {{{Class @AcceptReject }}} === La clase {{{@AcceptReject : @Generic}}} sirve de base a todos los métodos en los que se genera un candidato [[LatexEquation( y )]] según una función de transición a partir de la última muestra [[LatexEquation( x )]] con densidad [[LatexEquation( Q\left(x,y\right) )]]. Luego ese candidato puede ser aceptado o rechazado según cierto criterio definido por una fórmula que retorna un valor crítico de aceptación [[LatexEquation( \alpha \in \left[0,1\right] )]] Por último se genera una uniforme [[LatexEquation( r \sim U\left[0,1\right] )]] y si resulta que [[LatexEquation( r \le \alpha )]] entonces se acepta el candidato, en cuyo caso se añadirá [[LatexEquation( y )]] a la cadena de Markov. Si se rechaza se volverá a añadir el mismo [[LatexEquation( x )]] anterior. Para que un método de este tipo converja efectivamente a la distribución objetivo la cadena de Markov debe ser reversible, es decir, la función de transición debe cumplir la ecuación de balance detallado (''[http://en.wikipedia.org/wiki/Detailed_balance detailed balance]'') [[LatexEquation( \pi\left(x\right) Q\left(x,y\right) = \pi\left(y\right) Q\left(y,x\right) )]] ==== {{{Class @RandWalk }}} ==== La clase {{{@RandWalk : @AcceptReject}}} genera los candidatos como un paseo aleatorio en el que en cada paso se da un salto desde el último punto aceptado a otro de su entorno mediante una normal multidimensional [[LatexEquation( Q\left(x,y\right) : y \sim N\left(x,\Sigma\right) )]]. Por defecto se tomará [[LatexEquation( \Sigma\ = s^2 I_n )]] donde el tamaño de paso (''step size'') [[LatexEquation( s )]] será modificado en cada iteración de forma que el ratio de aceptación {{{Real @Generic::acceptRatio}}}, es decir, la proporción de candidatos aceptados, se acerque lo más posible a un valor óptimo o deseado {{{Real @AcceptReject::acceptRatio.target}}} dependiente de cada método. ==== {{{Class @RandWalk.InPolytope }}} ==== La clase {{{@RandWalk.InPolytope : @AcceptReject}}} genera los candidatos como un paseo aleatorio en el que en cada paso se da un salto desde el último punto aceptado a otro de su entorno mediante una uniforme en una hiperesfera de radio menor a la distancia mínima del punto actual hasta la fronteras de un politopo [[LatexEquation( A x \ge a )]] Es el generador de candidatos adecuado para generar muestras sujetas a restricciones de desigualdad no lineales. En [wiki:OfficialTolArchiveNetworkBysSamplerRandWalkInPolytope ésta página] se puede ver la descripción técnica de este generador. ==== {{{Class @RandRay }}} ==== La clase {{{@RandRay : @AcceptReject}}} es similar a {{{@RandWalk}}} pero primero se fija un vector de dirección unitaria y luego se genera un punto en esa dirección con origen en el último valor aceptado y longitud normal de media nula [[LatexEquation( Q\left(x,y\right) : y = x + h u )]] [[LatexEquation( h \in \mathbb{R} \sim N\left(0,s^2\right) )]] [[LatexEquation( \left\Vert u \right\Vert = 1 )]] ==== {{{Class @GriddyGibbs}}} ==== Si en el método Random Ray en lugar de poder tomar cualquier dirección del espacio se restringe a los ejes de coordenadas en la base natural, se tiene el método de generación Griddy-Gibbs [[LatexEquation( Q\left(x,y\right) : y = x + h e_j )]] [[LatexEquation( h \in \mathbb{R} \sim N\left(0,s^2\right) )]] [[LatexEquation( e_j_j = 1 ; e_j_i = 0 \forall i \ne j)]] === {{{Class @MetHas }}} === La clase {{{@MetHas : @AcceptReject}}} implementa el más simple de los métodos de simulación vectorial: el método [http://en.wikipedia.org/wiki/Metropolis%E2%80%93Hastings_algorithm Metropolis-Hastings], que puede ser muy eficiente cuando no hay muchas variables y estas no están muy correlacionadas. El valor crítico de aceptación de este método se calcula como [[LatexEquation( \alpha = \min \left\{ 1, \frac{ \pi\left( y \right) Q\left( x, y \right) }{ \pi\left( x \right) Q\left( y, x \right) } \right\} $$)]] ==== {{{Class @MetHas.RandWalk }}} ==== Si se hereda de {{{@RandWalk}}} y {{{@MetHas}}} al mismo tiempo se obtiene la modalidad más usual: el método Random Walk Metropolis-Hastings (RWMH) cuyo valor crítico de aceptación es el cociente de densidades [[LatexEquation( \alpha = \min \left\{ 1, \frac{ \pi\left( y \right) }{ \pi\left( x \right)} \right\} $$)]] Es decir, si el candidato es más probable que el punto anterior siempre es aceptado. En este caso se tiene una fórmula que da el óptimo ratio de aceptación propuesta en el artículo [http://projecteuclid.org/DPubS/Repository/1.0/Disseminate?view=body&id=pdf_1&handle=euclid.ss/1015346320 Optimal scaling for various Metropolis-Hastings algorithms (''Gareth O. Roberts and Jeffrey S. Rosenthal'')] [[LatexEquation( \alpha^{MH}_n = 0.234 + 0.266 e^{1-n} $$)]] El problema es que esta regla heurística supone realizar pruebas para diferentes valores del tamaño de paso hasta encontrar el que da el ratio de aceptación esperado, lo cual supone un coste operacional excesivo. En el [wiki:OfficialTolArchiveNetworkBysSamplerExample01#Simulaci%C3%B3nconRandomWalkMetropolis-Hastings ejemplo 1] se puede observar la excesiva dependencia del método con respecto al tamaño de paso. === {{{Class @MulTryMet}}} === La clase {{{@MulTryMet: @AcceptReject}}} implementa el método [http://en.wikipedia.org/wiki/Multiple-try_Metropolis Multiple Try Metropolis (MTM)] basado en generar un número [[LatexEquation( k $$)]] de precandidatos [[LatexEquation( y_1 \dots y_k $$)]] según la ley [[LatexEquation( Q\left(x,y_j\right) )]] de entre los que se selecciona el candidato propiamente dicho. En primer lugar se debe definir una función de pesos de transición [[LatexEquation( w\left( x,y \right) = \pi\left( x \right) Q\left( x,y \right)\lambda \left( x,y \right) $$)]] donde [[LatexEquation( \lambda \left( x,y \right) = \lambda \left( y,x \right) \ge 0 $$)]] Una vez generados los precandidatos, la selección del candidato [[LatexEquation( y $$)]] se hace de forma aleatoria proporcional a los pesos [[LatexEquation( w\left( y_j, x \right) $$)]] Posteriormente se generan de forma recíproca los puntos [[LatexEquation( x_1 \dots x_{k-1} $$)]] según la ley [[LatexEquation( Q\left(y,x_j\right) )]] y se añade a la lista el punto de origen actual [[LatexEquation( x_k = x $$)]]. Finalmente, el valor crítico de aceptación del método se calculará como [[LatexEquation( \alpha = \min \left\{ 1, \frac{ {\overset{k}{\underset{j=1}{\sum}} {w\left( y_j, x \right)}} }{{\overset{k}{\underset{j=1}{\sum}} {w\left( x_j, y \right)}} } \right\} $$)]] Con una buena selección del número [[LatexEquation( k $$)]] de precandidatos y de la función [[LatexEquation( \lambda \left( x,y \right) $$)]] se puede mejorar bastante la convergencia y disminuir la autocorrelación de la cadena con respecto al método [http://en.wikipedia.org/wiki/Metropolis%E2%80%93Hastings_algorithm Metropolis-Hastings], Evidentemente esto sucede a costa de un mayor numero de evaluaciones de la densidad por lo que no es trivial determinar el valor óptimo de [[LatexEquation( k $$)]]. Hay que hacer notar que el método MTM con [[LatexEquation( k=1 $$)]] es precisamente el método MH, aunque por razones de eficiencia conviene tenerlos implementados por separado. ==== {{{Class @MulTryMet.Symmetric}}} ==== Si la función de geeración de candidatos es simétrica se puede tomar simplemente [[LatexEquation( \lambda \left( x,y \right) = \frac{1}{Q\left( x,y \right)} $$)]] resultando que la función de pesos es la propia densidad objetivo: [[LatexEquation( w\left( x,y \right) = \pi\left( x \right) $$)]] ===== {{{Class @MulTryMet.RandWalk}}} ===== La clase {{{@MulTryMet.RandWalk : @MulTryMet.Symmetric, @RandWalk}}} implementa la modalidad más simple de [http://en.wikipedia.org/wiki/Multiple-try_Metropolis Multiple Try Metropolis]: el método Random Walk Multiple Try Metropolis (RWMTM). Hasta el momento no se ha podido encontrar una fórmula del ratio de aceptación óptimo análoga a la de Roberts-Rosenthal para el método Metrópolis-Hastings, o al menos el que escribe no tiene noticias de su existencia. En el [wiki:OfficialTolArchiveNetworkBysSamplerExample01#Simulaci%C3%B3nconRandomWalkMultipleTryMetropolis ejemplo 1] se ilustra la dependencia del método con respecto al tamaño de paso. ===== {{{Class @MulTryMet.RandRay}}} ===== La clase {{{@MulTryMet.RandRay: @MulTryMet.Symmetric}}} implementa la modalidad Random Ray Multiple Try Metropolis (RRMTM) en la que todos los precandidatos se generan en una misma dirección seleccionada aleatoriamente, de forma simular al método [http://oai.cwi.nl/oai/asset/1755/1755A.pdf Hit and Run] pero evitando la optimización unidimensional que puede resultar demasiado costosa. === {{{Class @GenMulTryMet}}} === La clase {{{@GEnMulTryMet: @AcceptReject}}} implementa el método [http://jmlr.csail.mit.edu/proceedings/papers/v9/pandolfi10a/pandolfi10a.pdf Generalized Multiple Try Metropolis-Hastings (GMTM)] del cual MTM es un caso particular. La selección de precandidatos se hace igual que en MTM pero ahora los pesos se calculan con una función arbitraria con la única restricción de ser positiva. [[LatexEquation( w^*\left( x,y \right) >0 \forall x,y \in \mathbb{R} $$)]] El candidato [[LatexEquation( y $$)]] se selecciona aleatoriamente con probabilidad proporcional al peso de cada precandidato [[LatexEquation( p_{y_{j}}=\frac{w^{*}\left(y_{i},x\right)} {\overset{k}{\underset{i=1}{\sum}}w^{*}\left(y_{i},x\right)} $$)]] Análogamente al caso MTM se generan de forma recíproca los puntos [[LatexEquation( x_1 \dots x_{k-1} $$)]] según la ley [[LatexEquation( Q\left(y,x_j\right) )]] y se añade a la lista el punto de origen actual [[LatexEquation( x_k = x $$)]] y se define [[LatexEquation( p_x =\frac{w^{*}\left(x_{i},y\right)} {\overset{k}{\underset{i=1}{\sum}}w^{*}\left(x_{i},y\right)} $$)]] Finalmente, el valor crítico de aceptación del método se calculará como [[LatexEquation( \alpha = \min \left\{ 1, \frac{ \pi\left( y \right) Q\left( x, y \right) p_x}{ \pi\left( x \right) Q\left( y, x \right) p_y} \right\} $$)]] La ventaja de este método es que sólo es preciso evaluar la densidad objetivo en el candidato seleccionado y no en todos los precandidatos como ocurre en el caso MTM. La eficacia del método dependerá ahora como es lógico de la función de pesos. Cuanto más parecida sea a la densidad objetivo en el entorno de [[LatexEquation( x $$)]] mejor funcionará. Los autores del algoritmo proponen usar una aproximación cuadrática del logaritmo de la densidad objetivo pero eso sólo tiene sentido si se dispone de una formulación analítica de esa función y aún así, si la dimensión del espacio no es muy pequeña, el uso del gradiente y el hessiano de la misma puede ser tan ineficiente o más que la propia evaluación en un gran número de precandidatos. ==== {{{Class @GenMulTryMet.Symmetric}}} ==== En el caso de generación simétrica de candidatos el valor crítico de aceptación del método se simplifica a [[LatexEquation( \alpha = \min \left\{ 1, \frac{ \pi\left( y \right) p_x}{ \pi\left( x \right) p_y} \right\} $$)]] ===== {{{Class @GenMulTryMet.RandRay}}} ===== Si se toman los precandidatos dentro de una misma recta con dirección prefijada aleatoriamente, se puede evaluar la densidad objetivo en un pequeño subconjunto de [[LatexEquation( g $$)]] puntos y usar esos valores para crear una función que aproxime la densidad en toda la recta mediante splines o con el método que se estime más oportuno. === {{{Class @Arima}}} === Esta clase, ideada en principio como mecanismo de chequeo del sistema, implementa los métodos necesarios para manejar un modelo en el que las variables son los coeficientes de los polinomios estacionarios de un modelo ARIMA que hay que contrastar con una serie temporal de ruido ARIMA normal. Los valores iniciales se simulan en cada paso de forma condicionada a los polinomios simulados, pues en ese caso es formulable analíticamente, pero no se almacenan como cadena de Markov. En una próxima versión podría añadirse esta capacidad de forma opcional. ==== {{{@Arima.MetHas.RandWalk}}} ==== Simula un modelo ARIMA con el método Random Walk Metropolis-Hastings (RWMH) ==== {{{@Arima.MulTryMet.RandWalk}}} ==== Simula un modelo ARIMA con el método Random Walk Multiple Try Metropolis (RWMTM) ==== {{{@Arima.MulTryMet.RandRay}}} ==== Simula un modelo ARIMA con el método Random Ray Multiple Try Metropolis (RRMTM)