Información

Valores de Bootstrap

Valores de Bootstrap


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Qué indican los valores de arranque sobre la relación entre las especies? Estoy trabajando en el programa Mega, pero no entiendo qué significa el valor de arranque en términos simples y también qué indica sobre la relación entre las especies.


Los valores de bootstrap pertenecen a una amplia categoría de valores denominada valores de apoyo. Los valores de soporte en general se utilizan para dar alguna indicación del grado en el que uno puede estar seguro de que la rama representa alguna "señal" presente en los datos.

En particular, los valores de bootstrap indican cómo robusto las ramas del árbol son, es decir, qué tan resistentes son a la perturbación de los datos. Se obtienen volviendo a muestrear las columnas en la matriz de datos, construyendo árboles a partir de dichas matrices reemuestreadas y observando la proporción de los árboles obtenidos que contienen una rama determinada.

En el caso de bootstrap, el paso de remuestreo se realiza de la siguiente manera: Supongamos que la matriz de datos original tiene N columnas (es decir, N caracteres codificados, que pueden ser nucleótidos o aminoácidos en una secuencia de alineación, caracteres morfológicos, presencia- ausencia de características genómicas, etc.). Se obtendrá una nueva matriz dibujando al azar una de estas columnas, N veces. Por lo tanto, la nueva matriz tendrá el mismo número de caracteres, pero algunos de la matriz original estarán presentes varias veces y algunos estarán ausentes. Esto influirá en la topología del árbol. Por ejemplo, si una rama fue apoyada por caracteres que ahora están ausentes, esta rama puede no aparecer más con este nuevo muestreo en particular. El nuevo muestreo se suele realizar unas 100 o 1000 veces.

Un valor de arranque bajo significa que si el árbol se construye utilizando un subconjunto de los datos, es probable que esta rama no aparezca.

Un valor de arranque alto significa que la rama probablemente aparecerá en un árbol construido a partir de una matriz reemuestreada de este tipo. Sin embargo, esto no significa necesariamente que es más probable que la rama represente las verdaderas relaciones históricas: a veces, los artefactos de reconstrucción pueden ser robustos. Por ejemplo, con algunos métodos de reconstrucción de la filogenia molecular, los taxones pueden terminar agrupados en función de las similitudes en la composición del genoma. Los valores altos de bootstrap indican que hay una señal fuerte en los datos que respaldan la rama, ya sea una señal histórica u otra.


Valores de Bootstrap -por favor ayuda- (20 / Dic / 2007)

Necesito entender los valores de bootstap del árbol filogénico.
Si los valores de arranque son 1000, 786, 502, etc. en los puntos de ramificación del árbol filogenético, ¿qué significan esos no, es decir, 1000, 786, 502?

Hasta ahora sé que el análisis de bootstap es un método para probar qué tan bien se ajusta un conjunto de datos en particular a un modelo. ¿Qué significan esos valores, es decir, 1000, 786, etc.?

He recopilado un libro sobre bioinformática. análisis de secuencia y genoma por David W. Mount. Pero no dice mucho sobre los valores de bootstap. ¿Existe alguna fuente en línea adecuada para comprenderlo?

cualquier recomendación adicional será apreciada.
gracias de antemano.

Bootstrapping es un método en el que se toma una submuestra de los sitios en una alineación y se crean árboles basados ​​en esas submuestras; el árbol original se compara con el nuevo árbol. Para cada clado en el árbol original, se asigna una puntuación de 1 si ese clado está presente en el nuevo árbol, se asigna una puntuación de 0 si el clado no está presente en el nuevo árbol. Ese proceso constituye una muestra de arranque. Se registra la puntuación de cada clado y se puede iniciar el siguiente ciclo de arranque. Cuanto mayor sea la puntuación, más fiable será la ramificación en ese punto. Por lo general, se utilizan de 100 a 1000 repeticiones de arranque para estimar la confiabilidad del árbol.

Bootstrapping es una forma sencilla de probar qué tan confiable es una alineación de secuencia múltiple (MSA). La premisa básica de un MSA es que los residuos homólogos están alineados en cada columna del MSA. Pero eso es solo en los casos más ideales, e incluso los mejores programas de MSA no pueden garantizarlo. Por lo tanto, en la mayoría de los MSA sucede que ciertas partes de la alineación están muy bien alineadas, mientras que algunas otras no. Entonces, una forma de probar qué tan buenas son las diferentes partes de la alineación es introducir un poco de ruido en el MSA. Esto se hace mediante algo llamado "Muestreo con reemplazo", donde manteniendo constante la longitud del MSA, las columnas se muestrean y reemplazan aleatoriamente. Esto introduce un poco de ruido en el MSA y se calcula el árbol para este nuevo MSA. De manera similar, el ruido se introduce en diferentes partes del MSA y se calculan muchos más árboles. Normalmente, el número de bootstraps que realiza en un MSA depende de la longitud del MSA. El muestreo de 2/3 del MSA mediante bootstrapping generalmente se considera suficiente. (1000 muestras bootstraps de hecho con reemplazo de más de 2/3 del MSA en casi todos los casos).

Ahora que se han calculado diferentes árboles para los diferentes MSA, es necesario generar un consenso de los árboles (generalmente con la opción de ganar por mayoría). Ahora se puede pensar que los valores de bootstrap implican cuánto porcentaje de los MSA bootstrap admitían un clado particular a pesar de toda la introducción de ruido. Las asociaciones de homología fuertes no sufren incluso cuando se introduce ruido, mientras que las asociaciones más débiles simplemente aparecen con valores de arranque débiles y pueden flotar en el árbol en cualquier lugar sin ninguna asociación particular o consistente.

Recomendaría a cualquier persona que construya árboles filogenéticos que lea este maravilloso tutorial. Es fácil de leer y cualquiera puede comenzar muy rápidamente con la construcción de árboles.

Avísame si aún tienes alguna duda

Thx Bunsen Honeydew y String por proporcionarme la información necesaria.
atentamente

Bootstrapping es una forma sencilla de probar qué tan confiable es una alineación de secuencia múltiple (MSA). La premisa básica de un MSA es que los residuos homólogos están alineados en cada columna del MSA. Pero eso es solo en los casos más ideales, e incluso los mejores programas de MSA no pueden garantizarlo. Por lo tanto, en la mayoría de los MSA sucede que ciertas partes de la alineación están muy bien alineadas, mientras que algunas otras no. Entonces, una forma de probar qué tan buenas son las diferentes partes de la alineación es introducir un poco de ruido en el MSA. Esto se hace mediante algo llamado "Muestreo con reemplazo", donde manteniendo constante la longitud del MSA, las columnas se muestrean y reemplazan aleatoriamente. Esto introduce un poco de ruido en el MSA y se calcula el árbol para este nuevo MSA. De manera similar, el ruido se introduce en diferentes partes del MSA y se calculan muchos más árboles. Normalmente, el número de bootstraps que realiza en un MSA depende de la longitud del MSA. El muestreo de 2/3 del MSA mediante bootstrapping generalmente se considera suficiente. (1000 muestras bootstraps de hecho con reemplazo de más de 2/3 del MSA en casi todos los casos).

Ahora que se han calculado diferentes árboles para los diferentes MSA, es necesario generar un consenso de los árboles (generalmente con la opción de ganar por mayoría). Ahora se puede pensar que los valores de bootstrap implican cuánto porcentaje de los MSA bootstrap admitían un clado particular a pesar de toda la introducción de ruido. Las asociaciones de homología fuertes no sufren incluso cuando se introduce ruido, mientras que las asociaciones más débiles simplemente aparecen con valores de arranque débiles y pueden flotar en el árbol en cualquier lugar sin ninguna asociación particular o consistente.

Recomendaría a cualquier persona que construya árboles filogenéticos que lea este maravilloso tutorial. Es fácil de leer y cualquiera puede comenzar muy rápidamente con la construcción de árboles.


Cómo realizar Bootstrapping en R (con ejemplos)

Bootstrapping es un método que se puede utilizar para estimar el error estándar de cualquier estadístico y producir un intervalo de confianza para el estadístico.

El proceso básico de arranque es el siguiente:

  • Llevar k muestras repetidas con reemplazo de un conjunto de datos dado.
  • Para cada muestra, calcule la estadística que le interesa.
  • Esto resulta en k diferentes estimaciones para un estadístico dado, que luego puede usar para calcular el error estándar del estadístico y crear un intervalo de confianza para el estadístico.

Podemos realizar bootstrapping en R usando las siguientes funciones de la biblioteca de arranque:

1. Genere muestras de bootstrap.

arranque (datos, estadística, R y # 8230)

  • datos: Un vector, una matriz o un marco de datos
  • estadística: Una función que produce la (s) estadística (s) que se van a arrancar
  • R: Número de réplicas de bootstrap

2. Genere un intervalo de confianza de arranque.

boot.ci (bootobject, conf, tipo)

  • bootobject: Un objeto devuelto por la función boot ()
  • conf: El intervalo de confianza a calcular. El valor predeterminado es 0,95
  • escribe: Tipo de intervalo de confianza a calcular. Las opciones incluyen & # 8220norm & # 8221, & # 8220basic & # 8221, & # 8220stud & # 8221, & # 8220perc & # 8221, & # 8220bca & # 8221 y & # 8220all & # 8221 & # 8211 El valor predeterminado es & # 8220all & # 8221

Los siguientes ejemplos muestran cómo utilizar estas funciones en la práctica.

Ejemplo 1: Bootstrap de una única estadística

El siguiente código muestra cómo calcular el error estándar para el R-cuadrado de un modelo de regresión lineal simple:

De los resultados podemos ver:

  • El R-cuadrado estimado para este modelo de regresión es 0.7183433.
  • El error estándar para esta estimación es 0.06513426.

También podemos ver rápidamente la distribución de las muestras de arranque:

También podemos usar el siguiente código para calcular el intervalo de confianza del 95% para el R cuadrado estimado del modelo:

A partir de la salida, podemos ver que el intervalo de confianza de arranque del 95% para los valores reales de R cuadrado es (.5350, .8188).

Ejemplo 2: Bootstrap de varias estadísticas

El siguiente código muestra cómo calcular el error estándar para cada coeficiente en un modelo de regresión lineal múltiple:

De los resultados podemos ver:

  • El coeficiente estimado para la intersección del modelo es 29.59985476 y el error estándar de esta estimación es 1.49354577.
  • El coeficiente estimado para la variable predictora disp en el modelo es -0.04121512 y el error estándar de esta estimación es 0.00527082.

También podemos ver rápidamente la distribución de las muestras de arranque:

También podemos usar el siguiente código para calcular los intervalos de confianza del 95% para cada coeficiente:

A partir de la salida, podemos ver que los intervalos de confianza de arranque del 95% para los coeficientes del modelo son los siguientes:


Construcción y contenido

Visión general

El objetivo de STBase es proporcionar una herramienta que acepte la lista de consulta de nombres de taxón de un usuario y devuelva una lista clasificada de buenos & # x0201chits & # x0201d a una base de datos de árboles filogenéticos. Un & # x0201chit, & # x0201d destinado a ser análogo a las búsquedas BLAST [38], ocurre cuando el motor de búsqueda encuentra un conjunto de datos que contiene un número mínimo de taxones de consulta. STBase no admite búsquedas difusas en este momento, los nombres de taxón deben escribirse de la misma manera que en la taxonomía de GenBank. Cada & # x0201chit & # x0201d tiene un conjunto asociado de 1000 árboles creados por análisis de arranque. Los subárboles, con estimaciones de confianza, se crean podando cada árbol bootstrap a los taxones de interés; luego, el consenso de la regla de la mayoría de estos subárboles bootstrap se devuelve al usuario. Para cuantificar lo que significa & # x0201cgood hit & # x0201d, construimos una función de puntuación que aumenta con la calidad del árbol y la cantidad de superposición taxonómica entre el árbol y la consulta. Suponemos que la calidad del árbol se puede caracterizar al incluir un conjunto de árboles de confianza en la base de datos, calculado, por ejemplo, mediante bootstrapping (como aquí) o muestreando la distribución posterior [1]. Sea A la lista de consultas y h ser una preferencia proporcionada por el usuario que indique la importancia relativa de la calidad del árbol frente a la superposición de taxón. Para cualquier árbol, T, sea L (T) los taxones del árbol, T | A es el subárbol restringido solo a los taxones de consulta, y L (T | A) son los taxones compartidos entre la consulta y el árbol. Entonces define w (L (T | A)) para ser una función creciente de esta superposición. Sea q (T | A) alguna función creciente de la calidad del subárbol. La puntuación de un & # x0201chit & # x0201d en el árbol (precalculado) T para la lista de consultas A es entonces

Definir la puntuación de esta manera permite al usuario buscar árboles que se superpongan más extensamente con su lista de consulta de taxones (como el escalar h se acerca a 0) o preferir subárboles que tienen alta calidad como lo indican sus valores de arranque (como h aumenta). En promedio, esperamos que los árboles más grandes tengan un menor soporte [39] valores intermedios de h devolverá árboles que pueden presentar un compromiso entre los dos extremos de árboles más grandes y mejores árboles. El puntaje de calidad, q (T | A), se calcula multiplicando el soporte de arranque promedio (para nodos por encima del 50%) por la proporción de nodos resueltos en el árbol de consenso de la regla de la mayoría. La función de superposición, w (L (T | A)), es el número de taxones superpuestos dividido por el número de taxones de consulta que están en la base de datos (en lugar del conjunto más grande de taxones de consulta que podrían incluir taxones que no se encuentran en GenBank). Para garantizar que la puntuación sea comparable y, por lo tanto, útil para clasificar los resultados, normalizamos la puntuación para que varíe de 0 a 100 multiplicando la función de superposición por 100 y dividiendo el resultado por 1+. h (h es un número positivo, la interfaz de usuario tiene una barra deslizante que permite la selección entre 0.01 y 10.0 con un valor predeterminado de 1.0). Considere, por ejemplo, una lista de entrada proporcionada por el usuario de 200 nombres de taxón, todos los cuales se encuentran en GenBank (tenga en cuenta que los nombres de taxón que faltan en GenBank no afectan la clasificación de los resultados). Suponga que la base de datos contiene un árbol grande de 1200 taxones que comparte 80 de los nombres en la lista de consulta, que el árbol de consenso de la regla de la mayoría (MRT) de 1000 árboles arrancados, podados a esos 80 taxones (ver más abajo para detalles sobre la poda), es completamente resuelto y tiene un valor de arranque promedio del 70%, y el usuario ha seleccionado un h valor de 0,5. La puntuación normalizada para este árbol: S = ((80/200) & # x000d7 100 + 0,5 & # x000d7 70) / (1 + 0,5) = 50. Aunque se pueden devolver miles de árboles de cualquier consulta determinada, sus puntuaciones se calculan sobre la marcha, de modo que a medida que el usuario cambia h, la clasificación de árboles se ajusta inmediatamente.

Construcción de árboles

Conjuntos de datos de un solo locus. La Fig. 1 ilustra nuestra tubería de construcción de árboles. Se reunieron conjuntos de datos de nucleótidos de un solo locus (Tabla 1) a partir de GenBank rel. 184 en gran parte de acuerdo con la tubería PhyLoTA descrita en otra parte [27]. Brevemente, se construyeron conjuntos de datos a partir de secuencias dentro de grupos taxonómicos eucariotas de tamaño limitado (& # x0201gruposchub & # x0201d). Cada grupo central se seleccionó de modo que el número total de secuencias de todos sus miembros no supere las 35.000 (excluidos los organismos modelo, véase [27] para obtener más detalles). La membresía en el grupo fue determinada por la taxonomía NCBI. Este enfoque dio como resultado un conjunto de 517 grupos taxonómicos que correspondían en la práctica de manera muy aproximada al rango de los órdenes linneanos. Dentro de cada grupo central, los grupos de secuencias homólogas se identificaron mediante búsquedas BLAST de todos contra todos y agrupación de un solo enlace utilizando requisitos de superposición mínima del 50%. Esta operación se repitió luego para cada grupo descendiente del grupo central en la jerarquía NCBI, induciendo un conjunto de relaciones padre-hijo entre los clústeres. De un grupo original de 5,798,234 secuencias entre 413,628 taxones distintos, se retuvo un conjunto de 343,888 taxones en 160,801 grupos filogenéticamente informativos (es decir, grupos con cuatro o más taxones). El grupo más grande tiene 20,125 secuencias, el tamaño medio del grupo es 69,8 y hay 133 grupos con & # x02265 5,000 secuencias.

Los grupos de un solo locus se ensamblan a partir de los datos de nucleótidos de GenBank siguiendo los procedimientos de Phylota [27]. Se reconstruyen y almacenan mil árboles bootstrap de parsimonia rápida en la base de datos. Los árboles de máxima verosimilitud se reconstruyen y se utilizan para guiar la selección de secuencia para los árboles etiquetados individualmente (consulte el texto para obtener una descripción completa). Los grupos reducidos se ensamblan en varios conjuntos de datos de múltiples locus, cada uno de los cuales da como resultado mil árboles de arranque, depositados en la base de datos.

Tabla 1

Número de conjuntos de datosLoci (media y rango)Taxa 1 (media y rango)Tamaño del conjunto de datos 2 (media y rango)Soporte medio (fracción de ganglios resueltos en MRT)
Clústeres de un solo locus160,801 3 1 (1 & # x020131)63.1 (4 & # x020138767)63.1 (4 & # x020138767)0.51
Bicliques762,5299,8 (2 y # x0201391)15,6 (4 y # x02013510)142,3 (8 y # x020131526)0.84
Cuasibicliques decisivos67,10312,4 (2 & # x02013386)27,8 (5 y # x020131406) 4 234,7 (10 y # x020139516)0.68
Base de datos total990,4338.5 (1 & # x02013386)24.1 (4 & # x020138767)135,7 (4 & # x020139516)0.79

1 Requerimos un mínimo de cuatro taxones en un conjunto de datos, necesarios para relaciones potencialmente informativas en un árbol sin raíces.

2 Producto del número de loci y número de taxones.

3 De estos, 111.433 eran árboles múltiples. Unos 11,358 conjuntos de datos tenían menos de 4 taxones después de la reducción de múltiples árboles, por lo que solo se usaron 149,443 para construir conjuntos de datos de múltiples locus.

4 Debido a que requerimos cuatro taxones para una informatividad filogenética potencial mínima, un conjunto de datos cuasi-biclicuo decisivo, al que le faltan algunas entradas, debe tener un mínimo de cinco taxones (de lo contrario, sería un biclicuo, propiamente dicho).

Muchos (69%) de estos grupos incluyeron al menos un ID de taxón varias veces, tales secuencias taxonómicamente redundantes podrían deberse al muestreo de múltiples individuos, o podrían representar múltiples alelos o incluso loci parálogos. Los nombres de taxón que aparecen más de una vez en un conjunto de datos pueden denominarse & # x0201cmultaxa & # x0201d, y los árboles de dichos conjuntos de datos son & # x0201cmultrees & # x0201d [40]. Explotamos un algoritmo de reducción de árboles múltiples recientemente descrito [37] para extraer de cada uno de estos árboles múltiples un árbol etiquetado individualmente como & # x0201creduced & # x0201d que está garantizado para retener la máxima cantidad de información a nivel de especie libre de conflictos (Fig. 2). En resumen, el algoritmo evalúa cuartetos (un borde o rama que separa dos pares de taxones) y encuentra aquellos que no están en conflicto con otros cuartetos del mismo conjunto de taxones. El efecto del algoritmo es eliminar los bordes en conflicto y cualquier taxón que participe en cuartetos sin conflicto (Figs. & # X200B (Figs. 2, 2, & # x200B, 3 3 ver [37] para una descripción formal). es un procedimiento conservador que limita el número de relaciones de especies falsas positivas. Es importante destacar que es robusto a las razones biológicas de la presencia de secuencias múltiples. Pueden surgir a través de la duplicación de genes (Fig. 3C), muestreo de poblaciones (Fig. 3D), o incluso identificación errónea (ver también [35] para un algoritmo comparable dirigido específicamente a árboles con duplicaciones de genes solamente). El algoritmo está integrado en la interfaz de usuario. Para todos los árboles de un solo locus con múltiples terminales para al menos un taxón, el usuario puede recuperar el árbol múltiple original para un análisis posterior, por ejemplo, para distinguir las secuencias parálogas de las ortólogas, o el árbol etiquetado individualmente, para obtener la cantidad máxima de información a nivel de especie contenida en ese árbol en particular.

El árbol superior es un árbol múltiple, es decir, tiene al menos una etiqueta que se encuentra en más de un terminal. Además, muestra cuartetos (subárboles en cuatro taxones) que están en conflicto: BD|CE conflictos con antes de Cristo|Delaware. La forma reducida del árbol, a continuación, es un árbol con una sola etiqueta. Esta es una declaración conservadora sobre las relaciones entre especies en el sentido de que elimina el conflicto (sin introducir nueva información).

A. Árbol de alta clasificación para la consulta & # x0201cBrassica& # x0201d inferido de un conjunto de datos de un solo locus alineado al nivel de Brassicaceae (conjunto de datos # 56065 fenilalanina amoniaco-liasa). B. Reducción del árbol en A a relaciones a nivel de especie sin conflicto. Tenga en cuenta la pérdida de un taxón, Brassica napus este taxón estuvo presente en muchos cuartetos en el árbol original, pero cada uno fue contradicho por al menos otro cuarteto. Por lo tanto, no había información libre de conflictos para este taxón y el algoritmo la eliminó. C. Árbol de clasificación baja de la consulta & # x0201cDrosophila& # x0201d (conjunto de datos # 130188 gen SMOX) en el que no hay bordes informativos, por lo que la reducción de múltiples árboles produce un resultado nulo (no hay bordes, no se muestran taxones). D. Árbol clasificado intermedio en el que solo un taxón tiene múltiples secuencias y el árbol marcado individualmente reducido contiene todos los taxones (conjunto de datos # 91190 & # x02018yolk protein 1 & # x02019 no se muestra el árbol reducido, pero se puede obtener eliminando todos menos uno de las hojas etiquetadas Drosophila grimshawi).

Conjuntos de datos de múltiples locus. El ensamblaje de conjuntos de datos concatenados de múltiples locus (& # x0201csupermatrices & # x0201d) es problemático cuando uno o más de los conjuntos de datos tienen multaxa [35]. Por lo tanto, utilizamos el conjunto reducido de taxones obtenido de la reducción de múltiples árboles como fuente de datos de secuencia para el ensamblaje de supermatrices. Esto da como resultado una pérdida de algunos taxones en promedio (Fig. 3), pero también reduce el conflicto dentro de un árbol genético que surge de procesos biológicos como la duplicación y pérdida de genes o la clasificación incompleta del linaje. Aunque no hemos construido árboles de especies utilizando ningún método aparte de la concatenación, nuestra colección de loci / árboles reducidos podría usarse como entradas para los métodos de inferencia de árboles de especies utilizando el consenso [41], la reconciliación (por ejemplo, [42, 43]) o la probabilidad explícita o métodos bayesianos que explotan los datos de secuencia propiamente dichos (p. ej., [21]).

Se utilizaron dos protocolos para guiar la selección de subconjuntos de taxones y loci para el ensamblaje de supermatrices de múltiples locus de los conjuntos de datos reducidos de un solo locus en cada grupo central de NCBI y todos sus grupos descendientes. Ambos generan conjuntos de datos de múltiples locus con una propiedad deseable, & # x0201cdecisiveness & # x0201d, que puede ayudar a limitar el impacto de las entradas faltantes en la supermatriz ([23, 24, 44 & # x0201347]. Una supermatriz, METRO, es decisivo para el árbol, T (que contiene todos los taxones en METRO), si y solo si los subárboles, tI, para cada locus i, obtenido restringiendo T a solo aquellos taxones que tienen datos de secuencia en el locus i, definen de forma única T. Si, en cambio, los subárboles son consistentes con más de un árbol, no definen T, y la supermatriz puede ser incapaz de distinguir entre esos árboles para ciertos métodos de reconstrucción (por ejemplo, parsimonia o análisis de verosimilitud dividida: [24]). Una forma particularmente fuerte de decisión, que se aplica a algunos patrones de datos faltantes, es que METRO puede ser decisivo para todos los árboles posibles.

Nuestro primer protocolo ensambla maximal completo supermatrices al encontrar todos los llamados biclices máximos en una estructura de datos de gráfico asociada. Brevemente, un biclicuo aquí se refiere a un conjunto de taxones y loci para los cuales todos los taxones tienen datos para todos los loci. Los biclices máximos se pueden encontrar aprovechando los resultados teóricos de los gráficos citados en [48, 49]. Dado que cualquier supermatriz en la que un locus incluye la secuencia de todos los taxones es decisiva, estos son decisivos para todos los árboles. Nuestro segundo protocolo también garantiza la decisión, pero permite algunas entradas que faltan en la supermatriz. Construye una supermatriz usando un locus como locus de referencia. La lista de taxones se restringe entonces a los del locus de referencia, pero se incluyen todos los loci disponibles para cada uno de esos taxones (Fig. 4). Debido al locus de referencia, esta supermatriz también es decisiva para todos los árboles, aunque contiene datos faltantes, y nos referimos a ella como decisivo cuasi-biclique (dqbc). Para una colección dada de loci, uno dqbc se puede construir usando cada locus como referencia sucesivamente. La Fig. 4 ilustra este tipo de conjuntos de datos, incluido el caso trivialmente decisivo de los conjuntos de datos de un solo lugar. En nuestra implementación, restringimos la construcción dqbc para incluir solo aquellos loci con al menos 33.3% de los taxones en el locus de referencia.

Las barras llenas indican la presencia de datos para un locus y taxón en particular. Los conjuntos de datos multilocus se construyen de dos maneras: (1) como biclicuos (dentro de la línea continua), en los que no faltan loci a ningún taxón y no se puede agregar ninguno sin introducir datos faltantes (por lo que son & # x0201cmaximal & # x0201d), y (2) como cuasi-bicliques decisivos (dentro de la línea discontinua), en los que un locus de referencia sirve para restringir la lista de taxones, pero se incluyen todos los loci disponibles para esos taxones. Aquí el locus 1 sirve como el locus de referencia para el cuasi-biclicuo decisivo mostrado, pero se pueden construir otros dos usando los otros dos loci como loci de referencia. De manera similar, están presentes otros biclicuos máximos, cada uno de los cuales contiene solo dos loci (por ejemplo, loci 2 y 3 para los taxones C, J, K, L).

Los conjuntos de datos de múltiples locus (biclicuos máximos y cuasi biclices decisivos) construidos en algún nodo de la jerarquía NCBI pueden y se espera que se superpongan entre sí (Fig. 4). Para garantizar que los conjuntos de datos no sean completamente redundantes con otros construidos en el mismo nodo NCBI, se ejecutaron varias verificaciones y filtros en los resultados. Verificamos si había conjuntos de datos duplicados dentro o entre nodos en la jerarquía del NCBI y si los cuasi-biclices decisivos eran en realidad bicliques (lo que ocurre raramente cuando el patrón de cobertura del taxón es propicio). Además, usamos un protocolo BLAST para verificar que todos los loci en un conjunto de datos son independientes entre sí, y no comparten homologías locales (estas pueden surgir ocasionalmente por una variedad de razones aguas arriba en la tubería), lo que podría llevar a una inclusión redundante en el misma supermatriz (p. ej., [12], corrección de errores). La recopilación de conjuntos de datos de múltiples locus puede ser grande, en algunos casos con una cobertura de taxón relativamente densa, debido a la combinatoria básica. Encontramos, por ejemplo, que dentro de los mamíferos había cientos de miles de bicliques de primates y carnívoros (más que todo el número de bicliques para todos los demás taxones combinados, de hecho), por lo tanto, muestreamos solo una fracción de biqliques al azar de estas colecciones: 2% y 20% respectivamente.

La producción de esta tubería es de casi un millón de conjuntos de datos & # x0201cfilogenéticamente informativos & # x0201d (es decir, que tienen al menos cuatro taxones), entre los cuales se distribuyen 351,212 taxones distintos reconocidos por el NCBI. Para cada conjunto de datos, se obtuvieron alineaciones de secuencia múltiple usando MUSCLE [50], árboles óptimos ML usando opciones predeterminadas en RAxML [51] y 1,000 & # x0201cfast & # x0201d árboles bootstrap de parsimonia usando PAUP * [52]. El tiempo de cálculo requerido es de aproximadamente 6 semanas en un clúster de Linux de 300 núcleos para los análisis descritos. Estimamos que repetir esto con análisis de bootstrap de máxima probabilidad con opciones predeterminadas en RAxML (a diferencia de los bootstraps de parsimonia rápida usados ​​aquí) requeriría 5 & # x0201350 años en el mismo hardware.

La base de datos

Esquema, búsqueda y recuperación. La base de datos STBase tiene un esquema muy simple destinado a maximizar la eficiencia de búsqueda y recuperación. Básicamente, consta de cinco entidades: taxones, secuencias, grupos, conjuntos de datos y conjuntos de confianza de árboles. Un taxón consta de una especie o nombre subespecífico y su ID de taxón NCBI (ambos siguiendo la taxonomía NCBI & # x02019s). Un taxón puede tener varios nombres sinónimos asignados al mismo ID de taxón. Cada secuencia & # x02014 representada por un número NCBI GI como su ID & # x02014 está asociada con un taxón, y puede haber múltiples secuencias asociadas con el mismo taxón. Un grupo es una colección de secuencias homólogas, referidas vagamente como & # x0201clocus & # x0201d. Un conjunto de datos es una colección de uno o más grupos / loci alineados, concatenados en una supermatriz (si hay más de uno), a partir de la cual se construyeron los árboles. Cada conjunto de datos se asigna a un conjunto de mil árboles bootstrap. Para mapear eficientemente entre estas entidades, STBase emplea funciones hash [53, 54] (específicas de cadena: [55]), que son capaces de insertar y eliminar un elemento aleatorio en tiempo constante independientemente del tamaño de la colección.

El usuario ingresa una lista de nombres de taxón y / o nombres de género. Los nombres de género se reemplazan por una lista de todos los nombres de taxón en ese género. A esto le siguen cinco pasos: (1) recuperación de los ID de taxón correspondientes, (2) encontrar los conjuntos de datos que tienen la superposición deseada con el conjunto de taxones de consulta y leerlos del disco, (3) procesar cada conjunto de datos para restringir cada uno de los sus mil árboles a los taxones que se superponen con la consulta, (4) resumiendo los árboles restringidos para cada grupo como un árbol de consenso de reglas mayoritarias, con valores de soporte, y devolviendo estos MRT al usuario. Un enfoque similar se utiliza en el sitio web birdtree.org [14], que permite a los usuarios consultar conjuntos de árboles extraídos de una distribución pseudo-posterior de árboles de aves completos construidos utilizando una combinación de datos y simulación. Por último, (5) en el caso de árboles múltiples, se calcula un árbol reducido etiquetado individualmente a pedido (esto solo se aplica a conjuntos de datos de un solo locus & # x02014 para conjuntos de datos de múltiples locus, las secuencias redundantes se manejan antes de la concatenación).

Debido a los requisitos de almacenamiento colectivo de los árboles (más de 200 GB), los árboles de todos los conjuntos de datos no se pueden mantener en la RAM, lo que plantea varios desafíos para lograr un procesamiento rápido de consultas. Dado un conjunto de identificaciones de taxón, identificar los grupos superpuestos y leerlos de la memoria del disco es la parte más lenta del proceso de consulta, ya que hay casi un millón de conjuntos de datos, con 4 a casi 10,000 taxones cada uno, que cubren más de 340,000 taxones ( Tabla 1 ). Sin embargo, STBase identifica grupos superpuestos en el tiempo que es independiente del tamaño de la base de datos mediante el uso de indexación invertida [56, 57]. Un índice invertido permite la búsqueda y recuperación de un subconjunto de & # x0201cdocuments & # x0201d (aquí conjuntos de datos) que contienen una o más palabras del conjunto de consultas. Lo hace manteniendo un mapeo de un conjunto predefinido de palabras clave a los documentos de la colección que las contienen. En STBase, el objetivo es encontrar los conjuntos de datos que contienen taxones que se asignan a la lista de taxones proporcionada por el usuario. El índice invertido STBase & # x02019s, por lo tanto, almacena exactamente cuales Los conjuntos de datos (& # x0201cdocuments & # x0201d) contienen nombres de taxón (& # x0201ckeywords & # x0201d) y dónde esos conjuntos de datos se encuentran en el disco duro.

Generación de árbol de reglas mayoritarias. Una consulta normalmente encuentra 100 & # x02013200 conjuntos de datos que se superponen lo suficiente con los nombres de taxón proporcionados como entrada. Cada uno de estos está asociado con mil árboles de arranque precalculados que están restringidos a la superposición de consultas. Estos 1000 árboles podados luego se resumen como un MRT. Para generar el MRT en el momento de la consulta (& # x0201con-the-fly & # x0201d), utilizamos el algoritmo MRT de tiempo lineal aleatorio de Amenta et al. & # X02019s [58], que utiliza códigos hash & # x02014un objeto de tamaño constante & # x02014 para representar biparticiones y un método inteligente para construir el MRT usando solo estas biparticiones hash. Esto da como resultado un algoritmo de tiempo lineal esperado (es decir, óptimo).


Valores de Bootstrap - Biología

z g ^ u 8X 6H OR V 1q # | kb Φ ϊU @ 2 w 嬻 e * q ! د Fak | endstream endobj 70 0 obj> endobj 71 0 obj> endobj 72 0 obj> endobj 73 0 obj> stream

dvitpsk 5.78 Copyright 1998 Radical Eye Software (www.radicaleye.com)

> endstream endobj 85 0 obj 636 endobj 86 0 obj> stream 8Z] "% eL8 # Xib6 $ Z_gBG1H * !? nj, nl * T & ls # DT '#! gi) Qf_1 / GCV7l01p0] g] D i2uZO * 68aelHaOW [uQ" i1 + T!, JqoM71SpFNL "lI> AI) QkFsSU $ 1 @ Ao> V" ^, = RYuI MEdDWqmj (58 $ / m / NXL: tk] & + 49 / YQ> 'ea% 4A +: PYgHkD Q8P1> b% ]! ACbKIbLV! 8 LN4-t3C! # CJ + sE: i + b # u01WVi? A (7dQQ # - [: $ 3 ^ L.9! UWC # 3J% a5c6iN, ',) CR']] f? 0> EfhQ # OUBfN5impG q "U3NQp" * F. '= 1L' s "u & oFfF7 * aMO! + ^ T # nLT9thcGe` @ Xkt]% $ VtEeb`qK, WWK? 7% ptl # Hp> tL * s9" O) 4GBRde NF = g! r0 '

> endstream endobj 89 0 obj 705 endobj 90 0 obj> stream 8Z 7 $ # YDM% * `9kjMJf @ 2% O" 6 -KjYdDAdhEC^`.3J0o#BdMJ#@pNc4mGci*aG 2JrYOEUPCBL + WnqjFECf968 kOSm ^?///Ng':PT4/[email protected] oduOie%,a!T9 Ng,O(J>'YS`^Y#0FrMp!0Qq)7])L%(KRFk dL!L8! [email protected])[email protected]/=B1`G9?TgLnG *Bq]>`Gkf?Mn1KI?=B4dNi]'m>tI?Lm9]0K=q4!5. =1PZO,,bLK^L+lU"WZd U_OiX^=5P)-qdL-o)l=?,FlmRXL0O6%M=KZlD?cTLPep8.6CVeM83AO:,UmAY#D 9Bn:Q"iYl$#YmZ!cp$ i211_"NOh2q9lG8U+SBc2T6"'[email protected])[email protected]@'MmQeC_>/+S +]IPo. %5*Kle8FKni:DCQ=(OXs[rh&`1*D,O5+U][email protected][ 2KliaeF_gFIhK(" Hjp)O77[^

> endstream endobj 97 0 obj 568 endobj 98 0 obj > stream 8Z7=,t3Q#j)%%j>s>5>UU-

> endstream endobj 99 0 obj 735 endobj 100 0 obj > stream 8Z]!CCUFi#_]nk"[email protected],lN7d\%9?:[email protected]_3pG :kNL8S-Wsn(2s:UC/ZY k^$Q,m&[WP K ?*e(&2^[email protected]>> 1G#K#d1bm3rE/cYkOz. #WFZom-*MI,&

> endstream endobj 101 0 obj 317 endobj xref 0 102 0000000000 65535 f 0000000016 00000 n 0000000118 00000 n 0000005733 00000 n 0000005898 00000 n 0000006676 00000 n 0000007522 00000 n 0000008012 00000 n 0000008229 00000 n 0000008431 00000 n 0000008523 00000 n 0000008669 00000 n 0000008774 00000 n 0000058687 00000 n 0000058866 00000 n 0000059510 00000 n 0000059602 00000 n 0000059707 00000 n 0000064179 00000 n 0000064356 00000 n 0000064684 00000 n 0000064789 00000 n 0000115487 00000 n 0000115643 00000 n 0000115748 00000 n 0000124064 00000 n 0000124207 00000 n 0000124779 00000 n 0000124884 00000 n 0000177007 00000 n 0000177160 00000 n 0000177265 00000 n 0000185429 00000 n 0000185561 00000 n 0000185666 00000 n 0000193508 00000 n 0000193629 00000 n 0000193734 00000 n 0000241648 00000 n 0000241801 00000 n 0000241906 00000 n 0000249088 00000 n 0000249266 00000 n 0000273006 00000 n 0000273111 00000 n 0000286439 00000 n 0000286571 00000 n 0000286672 00000 n 0000286761 00000 n 0000286867 00000 n 0000292152 00000 n 0000292273 00000 n 0000292578 00000 n 0000293812 00000 n 0000294104 00000 n 0000295243 00000 n 0000295473 00000 n 0000295821 00000 n 0000296131 00000 n 0000297746 00000 n 0000298386 00000 n 0000306295 00000 n 0000306722 00000 n 0000313401 00000 n 0000313776 00000 n 0000317040 00000 n 0000317239 00000 n 0000317381 00000 n 0000317727 00000 n 0000317806 00000 n 0000318107 00000 n 0000318147 00000 n 0000318191 00000 n 0000318439 00000 n 0000319548 00000 n 0000319641 00000 n 0000319694 00000 n 0000320270 00000 n 0000320291 00000 n 0000320931 00000 n 0000320952 00000 n 0000321845 00000 n 0000321866 00000 n 0000322394 00000 n 0000322415 00000 n 0000323209 00000 n 0000323230 00000 n 0000323862 00000 n 0000323883 00000 n 0000324746 00000 n 0000324767 00000 n 0000325464 00000 n 0000325485 00000 n 0000326174 00000 n 0000326195 00000 n 0000326943 00000 n 0000326964 00000 n 0000327690 00000 n 0000327711 00000 n 0000328604 00000 n 0000328625 00000 n 0000329102 00000 n trailer ] >> startxref 329124 %%EOF


Resultados

Correlation Among Support Values from Bayesian MCMC and Nonparametric Bootstrap Methods

We excluded three scenarios (lse, hse, and hslb) from our calculations of correlations between Bayesian and bootstrap methods, because all or nearly all of the support values were 100%. For 12 of the 15 remaining scenarios, BMCMC-PP and ML-BP values were strongly correlated (r 2 > 0.8, PAG ≤ 0.05) (correlations for topological scenarios lpe, lssb, and hssb were only weakly correlated [r 2 < 0.8]). ML-BP support values showed strong correlation with MP-BP for only seven scenarios (lncl, lplb, lplm, lpsb, lpsm, lslb, and lssb), whereas BMCMC-PP and MP-BP correlated strongly in only a single scenario (lplb). For the 12 scenarios in which BMCMC-PP and ML-BP were strongly correlated, half were low-rate trees and half were high-rate trees. In contrast, ML-BP and MP-BP were strongly correlated only on low-rate trees.

Comparison of Bootstrap and Bayesian Methods in Assigning Confidence to Specific Internodes

Across all 18 scenarios, some general patterns of support were evident. All three methods tended to assign lower support to regions at the base of the tree and where relative branch length was short ( figs. 1 and 2). Median BMCMC internodal support was almost always equal to or higher than ML and MP bootstrap support. In problematic regions of the tree, MP-BP was usually lower than ML-BP and was sometimes much lower. Except for the nonclocklike symmetric trees (lncl and hncl), the pectinate topologies generally contained more problematic regions than the symmetric topologies. Median nodal support was usually higher on high-rate trees than on low-rate trees for BMCMC-PP and ML-BP. In contrast, median support from MP-BP decreased on many internodes when compared with their low-rate counterpart trees, especially in scenarios where internodes at or near the base of the tree were relatively short (see hpsb, hpsm, hssb, and hncl scenarios, figs. 1 and 2). For symmetric topologies, BMCMC and ML bootstrap support values were improved when using data sets generated with high-rate trees compared with data derived from low-rate trees. As expected, the opposite behavior was observed for MP bootstrap. For the most basal internodes of pectinate topologies, all methods performed more poorly with high-rate tree data sets than with low-rate tree data sets. However, the reverse was true for the most apical internodes of pectinate topologies.

Variance in support value was usually greater for MP-BP than for ML-BP and BMCMC-PP. For the latter, variance in nodal support was generally smaller than variance for ML-BP when internode length was relatively long. Median support for internodes in these situations was also generally very high. When internode length was short, BMCMC-PP variance sometimes exceeded that of ML-BP (e.g., lpsb internode 3 and lplm internode 2, fig. 1). Median support for the shortest internodes was generally lower, although it was sometimes still quite high (e.g., lplb internode 13, fig. 1). Internodes that showed extreme fluctuation in support values were generally very short. In most cases, these internodes were so short that maximum likelihood was unable to reconstruct the internode in all 100 replicates of a particular scenario (results not shown). For any given cut-off value, BMCMC-PP always assigned support to an equal or greater average number of correct internodes than either MP-BP or ML-BP, and ML-BP always performed as well as, or better than, MP-BP ( figs. 1 and 2). Thus, for arbitrarily chosen decision rules of 70% and 95%, rates of type I error (the rate of rejecting true internodes) were lower for BMCMC-PP than for either bootstrapping method. Differences in performance among support methods were most apparent at the highest confidence levels (≥95%) and were quite striking in some instances. For example, on the low-rate pectinate topology with equal length internodes (lpe) approximately nine correct internodes received a PP of 95% compared with approximately six and four that were supported by ML-BP and MP-BP, respectively. Symmetric topologies appeared to pose less of a challenge to the reconstruction algorithms than did the pectinate topologies. In three scenarios (lse, hse, and hslb), all methods assigned 100% support to all internodes. Furthermore, differences among the three methods were generally higher on the high-rate trees than on the low-rate trees.

None of the methods assigned support to a large number of incorrect internodes, which was not surprising given the relatively favorable evolutionary conditions under which we simulated these data sets ( table 1). Parsimony assigned moderate (>70%) support to the largest number of incorrect internodes (∼2.3 internodes/scenario for MP-BP versus ∼0.7 internodes/scenario for ML-BP and ∼1.9 internodes/scenario for BMCMC-PP, averaged over all 18 scenarios). BMCMC-PP assigned high (>95%) support to more incorrect internodes than either bootstrapping method (∼0.14 internodes/scenario for BMCMC-PP, ∼0.03 internodes/scenario for ML-BP, and ∼0.06 internodes/scenario for MP-BP, averaged over all 18 scenarios), although the overall rate of assigning high support to incorrect internodes was extremely low. However, as a result of this tendency of wrong topological bipartitions to have higher posterior probabilities than bootstrap proportions, the 95% threshold value (the support value that was greater than or equal to 95% of the support values that incorrecto internodes received) was highest for BMCMC-PP ( fig. 3A). Using a decision rule constructed to minimize the rate of accepting incorrect bipartitions would generally allow one to recover most correct monophyletic relationships regardless of the support method ( fig. 3B). However, ML-BP recovered slightly more correct internodes than BMCMC-PP (13.8 versus 13.6) and both model-based methods recovered more internodes than MP-BP (13.1). MP-BP also showed the greatest variance in performance across scenarios, occasionally recovering fewer than 12 correct internodes/tree.

Although all three methods assigned high support to few incorrect internodes, we identified some scenario replicates in which BMCMC-PP assigned a 95% or greater posterior probability to an incorrect internode, whereas ML-BP and MP-BP assigned much lower support ( table 1). These internodes were all found in regions of low-rate trees with the shortest internodes, and maximum likelihood trees for these replicates also contained the wrongly supported internodes. Thus, sampling error associated with evolving data at a slow rate on regions of the model topology with the shortest internodes could occasionally produce data sets with signal that was incongruent with the model topology.

Comparison of Bayesian and Bootstrap Methods in Estimating Phylogenetic Accuracy

We were unable to plot accuracy versus increasing support for four symmetric scenarios (lse, hse, lslb, and hslb) because all or nearly all of the internodes received 100% support. In the remaining 14 scenarios ( fig. 4), all three methods generally underestimated the true accuracy at levels of support greater than 50%. This bias was often less pronounced for BMCMC-PP. However, the latter overestimated accuracy at moderately high support levels in one scenario (lplm). BMCMC-PP appeared to lie closest to the line of perfect correspondence between accuracy and support for most scenarios.

For any particular topology, posterior probabilities and bootstrap proportions showed the greatest disparity on the shortest internodes. When we examined the effects of branch length on support across all scenarios, we found that posterior probabilities exceeded 95% for many very short internodes (as short as 1.3 expected changes). In contrast, maximum parsimony and likelihood bootstrap proportions did not reach 95% on branches shorter than three expected changes. BMCMC-PP assigned 100% confidence to some internodes with as few as 1.3 expected changes in contrast to ML-BP, which required at least 5 expected changes and MP-BP, which required 6.7 expected changes. ML and MP bootstrap proportions of 70% or more were obtained for branch lengths as short as 1.7 expected changes.

Sensitivity to the Amount of Phylogenetic Signal

Simulation on lse and lncl topologies to investigate the effects of increasing number of characters on support values revealed that the BMCMC-PP assigned 95% support to all internodes with a smaller number of characters relative to both bootstrapping methods. On the symmetric clocklike topology lse ( fig. 5A), tip internodes (7 to 14) received a median support of 95% with 100 to 150 characters for BMCMC-PP, compare with 200 to 300 characters for ML-BP and MP-BP. All internodes received 95% support at 200 characters with BMCMC-PP, compared with 300 characters for ML-BP and 350 for MP-BP. We observed a similar pattern on the nonclocklike topology lncl ( fig. 5B), with all internodes reaching a 95% posterior probability at 1,600 characters and a 95% likelihood bootstrap proportion at 2,000 characters. Parsimony bootstrap values decreased with increasing data set size for internodes 1, 3, and 7 on this tree. This is most likely due to maximum parsimony being inconsistent under such conditions (see Discusión). Even when these three internodes are excluded from this comparison, MP-BP constantly required the largest number of characters when discrepancies among methods were detected ( fig. 5B). In several cases (e.g., lse topology, internodes 11, 12, and 13) BMCMC-PP reached support values of 95% or higher with fewer characters than MP-BP required to reach support values of 70% or higher. In the most extreme example, on internode 8 of the lncl topology, BMCMC-PP reached 95% support with 300 characters while BP-MP required 700 characters to reach a 70% support value.


Bootstraping values is low , anyone familiar with DNAman program? - the bootstrap value is low, any way to increase it? (Oct/15/2006 )

i have 9 protein sequences of one particular gene from different strains of a same virus.
all the sequences are 99.6% similar ( DNA man program multiple alignment )
but when i creat the phylogenetic tree with bootstrap 10000 times,, the confidence level , bootstrap % is low

other genes of these strains show good bootstrap% values on the tree

does anyone know what that means? how can i change it?
i tried telling my proff that it only shows the confidnece level and the phylogeny is right
but he is interested in the bootstrap% being atleat around 90%

i have 9 protein sequences of one particular gene from different strains of a same virus.
all the sequences are 99.6% similar ( DNA man program multiple alignment )
but when i creat the phylogenetic tree with bootstrap 10000 times,, the confidence level , bootstrap % is low

other genes of these strains show good bootstrap% values on the tree

does anyone know what that means? how can i change it?
i tried telling my proff that it only shows the confidnece level and the phylogeny is right
but he is interested in the bootstrap% being atleat around 90%

There is no precise rule to say how high a bootstrap percentage has to be before you are sure that the group of species in question forms a "true" clade. However, values greater than 70% are often thought to be reasonably strong evidence. Bootstrap numbers need to be treated with caution. They are often a very useful indication of the reliability of different parts of a phylogenetic tree, but they DO NOT PROVE ANYTHING CONCLUSIVELY.

You could try optimisation criterions (neighbour joining, UPGMA or even maximum likelihood) for making judgements about trees but remember these are only predictions.

I think you should just explain the above statement to your professor.

Forgot to add this website. it's a phylogenetic tree drawing system called phylodraw.

It provides two clustering methods:

UPGMA (I wouldn't use this as the algorithm assumes a molecular clock)

NJ (neighbor joining - would recommend this)

thanks for the suggestions , i will try that link and see too

i am using a program called DNAman, it uses NJ method for making the trees. and ya it calculates the bootstrap value by doing the sampling the no: of times one wants it to , in my case i done it 10000 times and got the value

i told my proff that its only a prediction and the value only shows how much the program can be sure about its prediction .
another explanation i came up is this :

the sequences are very similar 99.6 %
so i think the phylogenic tree was right , but the program couldnt say it for sure since there is so much little divergence ,, maybe thats why the bootstrap value is that low.

what do u guys think ? is it ok??

the sequences are very similar 99.6 %
so i think the phylogenic tree was right , but the program couldnt say it for sure since there is so much little divergence ,, maybe thats why the bootstrap value is that low.

what do u guys think ? is it ok??

Yes you could say that. Low bootstrap values could also indicate lack of phylogenetic subdivisions. Depending on the distribution of variation among other taxa, the wrongly clustered short branch clade can give low bootstrap values overall.


Fertin G, Labarre A, Rusu I, Tannier E, Vialette S: Combinatorics of Genome Rearrangements. MIT Press, Cambridge 2009.

Moret B, Warnow T: Advances in phylogeny reconstruction from gene order and content data. Molecular Evolution: Producing the Biochemical Data, Part B, Volume 395 of Methods in Enzymology. Edited by: Zimmer Roalson. Elsevier 2005, 673-700.

Tannier E: Yeast ancestral genome reconstructions: the possibilities of computational methods. Proc. 7th RECOMB Workshop Comp. Genomics (RECOMB-CG’09), Volume 5817 of Lecture Notes in Comp. Sci. Springer Verlag, Berlin 2009, 1-12.

Efron B, Tibshirani R: An Introduction to the Bootstrap. Chapman & Hall/CRC, Boca Raton 1993.

Felsenstein J: Confidence limits on phylogenies: an approach using the bootstrap. Evol. 1985, 39: 783-791. 10.2307/2408678

Anisimova M, Gascuel O: Approximate likelihood-ratio test for branches: A fast, accurate, and powerful alternative. Syst Biol. 2006, 55 (4): 539-552. 10.1080/10635150600755453

Guindon S, Gascuel O: PHYML—A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst Biol. 2003, 52 (5): 696-704. 10.1080/10635150390235520

Shi J, Zhang Y, Luo H, Tang J: Using jackknife to assess the quality of gene order phylogenies. BMC Bioinformatics. 2010, 11: 168. 10.1186/1471-2105-11-168

Lin Y, Rajan V, Moret B: Fast and accurate phylogenetic reconstruction from high-resolution whole-genome data and a novel robustness estimator. Proc 8th RECOMB Workshop Comp Genomics (RECOMB-CG’10), Volume 6398 of Lecture Notes in Comp Sci. Springer Verlag, Berlin 2010, 137-148.

Saitou N, Nei M: The neighbor-joining method: A new method for reconstructing phylogenetic trees. Mol Biol Evol. 1987, 4: 406-425.

Desper R, Gascuel O: Theoretical Foundation of the Balanced Minimum Evolution Method of Phylogenetic Inference and Its Relationship to Weighted Least-Squares Tree Fitting. Mol Biol Evol. 2003, 21 (3): 587-598. 10.1093/molbev/msh049

Marron M, Swenson K, Moret B: Genomic distances under deletions and insertions. Theor Comput Sci. 2004, 325 (3): 347-360. 10.1016/j.tcs.2004.02.039

Lin Y, Moret B: Estimating true evolutionary distances under the DCJ model. Proc 16th Int’l Conf on Intelligent Systems for Mol. Biol. (ISMB’08), Volume 24(13) of Bioinformatics. 2008, i114-i122.

Swenson K, Marron M, Earnest-DeYoung J, Moret B: Approximating the true evolutionary distance between two genomes. Proc. 7th SIAM Workshop on Algorithm Engineering & Experiments (ALENEX’05). 2005, SIAM Press, Philadelphia

Lin Y, Rajan V, Swenson K, Moret B: Estimating true evolutionary distances under rearrangements, duplications, and losses. Proc 8th Asia Pacific Bioinf Conf (APBC’10), Volume 11 (Suppl 1) of BMC Bioinformatics. 2010, S54-

Quenouille M: Approximate tests of correlation in time-series 3. Math Proc Cambridge Philos Soc. 1949, 45 (3): 483-484. 10.1017/S0305004100025123

Tukey J: Bias and confidence in not quite large samples. Ann Math Stat. 1958, 29 (2): 614.Miller R: The jackknifeMiller R: The jackknife

Efron B: Bootstrap methods: another look at the jackknife. Ann Stat. 1979, 7: 1-26. 10.1214/aos/1176344552

The jackknife, the bootstrap and other resampling plans. CBMS-NSF Regional Conf Series in Applied Math, Volume 38. 1982, SIAM

Efron B, Gong G: A leisurely look at the bootstrap, the jackknife, and cross-validation. Am Statistician. 1983, 37: 36-48.

Miller R: The jackknife-a review. Biometrika. 1974, 61: 1.

Efron B: Nonparametric estimates of standard error: the jackknife, the bootstrap and other methods. Biometrika. 1981, 68 (3): 589-10.1093/biomet/68.3.589. 10.1093/biomet/68.3.589

Soltis P, Soltis D: Applying the bootstrap in phylogeny reconstruction. Statist Sci. 2003, 18 (2): 256-267. 10.1214/ss/1063994980

Holmes S: Bootstrapping phylogenetic trees: theory and methods. Stat Sci. 2003, 18 (2): 241-255. 10.1214/ss/1063994979

Felsenstein J, Kishino H: Is There Something Wrong with the Bootstrap on Phylogenies? A Reply to Hillis and Bull. Syst Biol. 1993, 42 (2): 193-200.

Shao J, Wu C: A general theory for jackknife variance estimation. Ann Stat. 1989, 17 (3): 1176-1197. 10.1214/aos/1176347263

Farris J: The future of phylogeny reconstruction. Zoologica Scr. 1997, 26 (4): 303-311. 10.1111/j.1463-6409.1997.tb00420.x

Farris J, Albert V, Källersjö M, Lipscomb D, Kluge A: Parsimony jackknifing outperforms neighbor-joining. Cladistics. 1996, 12 (2): 99-124. 10.1111/j.1096-0031.1996.tb00196.x

Salamin N, Chase M, Hodkinson T, Savolainen V: Assessing internal support with large phylogenetic DNA matrices. Mol Phyl Evol. 2003, 27 (3): 528-10.1016/S1055-7903(03)00011-3. 10.1016/S1055-7903(03)00011-3

Mort M, Soltis P, Soltis D, Mabry M: Comparison of three methods for estimating internal support on phylogenetic trees. Syst Biol. 2000, 49: 160-171. 10.1080/10635150050207456

Rokas A, Holland P: Rare genomic changes as a tool for phylogenetics. Trends in Ecol and Evol. 2000, 15: 454-459. 10.1016/S0169-5347(00)01967-4

Swofford D, Olson G, Waddell P, Hillis D: Phylogenetic inference. 2nd ed. Edited by: Hillis D, Moritz C, Mable B. 1996, Sunderland, Sinauer Assoc,

Moret B, Tang J, Wang LS, Warnow T: Steps toward accurate reconstructions of phylogenies from gene-order data. J Comput Syst Sci. 2002, 65 (3): 508-525. 10.1016/S0022-0000(02)00007-7

Wang LS: Exact-IEBP: a new technique for estimating evolutionary distances between whole genomes. Proc 33rd Ann ACM Symp Theory of Comput (STOC’01). 2001, 637-646. ACM Press, New York,

Wang LS, Warnow T: Estimating true evolutionary distances between genomes. Proc 1st Workshop Algs in Bioinf (WABI’01), Volume 2149 of Lecture Notes in Comp Sci. 2001, 176-190. Springer Verlag, Berlin,

Hillis D, Huelsenbeck J: Assessing molecular phylogenies. Ciencias. 1995, 267: 255-256. 10.1126/science.267.5195.255

Bergeron A, Mixtacki J, Stoye J: A unifying view of genome rearrangements. Proc 6th Workshop Algs in Bioinf (WABI’06), Volume 4175 of Lecture Notes in Comp Sci. 2006, 163-173. Springer Verlag, Berlin,

Yancopoulos S, Attie O, Friedberg R: Efficient sorting of genomic permutations by translocation, inversion and block interchange. Bioinformatics. 2005, 21 (16): 3340-3346. 10.1093/bioinformatics/bti535

R Development Core Team: R: A Language and Environment for Statistical Computing. 2009, R Foundation for Statistical Computing, Vienna,

Madsen O, Scally M, Douady CJ, Kao DJ, DeBry RW, Adkins R, Amrine HM, Stanhope MJ, de Jong, Springer MS: Parallel adaptive radiations in two major clades of placental mammals. Nature. 2001, 409: 610-614. 10.1038/35054544

Murphy W, Eizirik E, Johnson W, Zhang Y, Ryder O, O’Brien S: Molecular phylogenetics and the origins of placental mammals. Nature. 2001, 409: 614-618. 10.1038/35054550

Amrine-Madsen H, Koepfli KP, Wayne R, Springer M: A new phylogenetic marker, apolipoprotein B , provides compelling evidence for eutherian relationships. Mol Phyl Evol. 2003, 28 (2): 225-240. 10.1016/S1055-7903(03)00118-0

Huttley G, Wakefield M, Easteal S: Rates of genome evolution and branching order from whole-genome analysis. Mol Biol Evol. 2007, 24 (8): 1722-1730. 10.1093/molbev/msm094

Wildman D, Uddin M, Opazo J, Liu G, Lefort V, Guindon S, Gascuel O, Grossman L, Romero R, Goodman M: Genomics, biogeography, and the diversification of placental mammals. Proc Nat’l Acad Sci, USA. 2007, 104 (36): 14395-14400. 10.1073/pnas.0704342104

Cannarozzi G, Schneider A, Gonnet G: A phylogenomic study of human, dog, and mouse. PLoS Comput Biol. 2007, 3: e2. 10.1371/journal.pcbi.0030002

Wang LS, Jansen R, Moret B, Raubeson L, Warnow T: Fast Phylogenetic Methods For Genome Rearrangement Evolution: An Empirical Study. Proc 7th Pacific Symp on Biocomputing (PSB’02). 2002, World Scientific Pub, Singapore, 524-535.

Hu F, Gao N, Tang J: Maximum likelihood phylogenetic reconstruction using gene order encodings. Proc 8th IEEE Symp Comput Intell in Bioinf & Comput Biol (CIBCB’11). IEEE Press, Piscataway, 2011, 117-122.

Lin Y, Rajan V, Moret B: Bootstrapping phylogenies inferred from rearrangement data. Proc 11th Workshop Algs in Bioinf (WABI’11), Volume 6833 of Lecture Notes in Comp Sci. Springer Verlag, Berlin, 2011, 175-187.


15.3 - Bootstrapping

Bootstrapping is a method of sample reuse that is much more general than cross-validation [1]. The idea is to use the observed sample to estimate the population distribution. Then samples can be drawn from the estimated population and the sampling distribution of any type of estimator can itself be estimated.

The steps in bootstrapping are illustrated in the figure above. Observed quantities are denoted by solid curves and unobserved quantities by dashed curves. The objective is to estimate the true sampling distribution of some quantity T, which may be numeric (such as a regression coefficient) or more complicated (such as a feature cluster dendrogram). The true sampling distribution is computed by taking new samples from the true population, computing T and then accumulating all of the values of T into the sampling distribution. However, taking new samples is expensive, so instead, we take a single sample (1) and use it to estimate the population (2). We then (3) take samples "in silico" (on the computer) from the estimated population, compute T from each (4) and accumulate all of the values of T into an estimate of the sampling distribution. From this estimated sampling distribution we can estimate the desired features of the sampling distribution. For example, if T is quantitative, we are interested in features such as the mean, variance, skewness, etc and also confidence intervals for the mean of T. If T is a cluster dendrogram, we can estimate features such as the proportion of trees in the sampling distribution than include a particular node.

There are three forms of bootstrapping which differ primarily in how the population is estimated. Most people who have heard of bootstrapping have only heard of the so-called nonparametric or resampling bootstrap.

Nonparametric (resampling) bootstrap

In the nonparametric bootstrap a sample of the same size as the data is take from the data with replacement. What does this mean? It means that if you measure 10 samples, you create a new sample of size 10 by replicating some of the samples that you've already seen and omitting others. At first this might not seem to make sense, compared to cross validation which may seem to be more principled. However, it turns out that this process actually has good statistical properties.

Semiparametric bootstrap

The resampling bootstrap can only reproduce the items that were in the original sample. The semiparametric bootstrap assumes that the population includes other items that are similar to the observed sample by sampling from a smoothed version of the sample histogram. It turns out that this can be done very simply by first taking a sample with replacement from the observed sample (just like the nonparametric bootstrap) and then adding noise.

Semiparametric bootstrapping works out much better for procedures like feature selection, clustering and classification in which there is no continuous way to move between quantities. In the nonparametric bootstrap sample there will almost always be some replication of the same sample values due to sampling with replacement. In the semiparametric bootstrap, this replication will be broken up by the added noise.

Parametric bootstrap

Parametric bootstrapping assumes that the data comes from a known distribution with unknown parameters. (For example the data may come from a Poisson, negative binomial for counts, or normal for continuous distribution.) You estimate the parameters from the data that you have and then you use the estimated distributions to simulate the samples.

All of these three methods are simulation-based ideas.

The nonparametric bootstrap does not work well because sampling with replacement produces exact replicates. The samples that are identical are going to get clustered together. So, you don't get very much new information.

The semi-parametric bootstrap perturbs the data with a bit a noise. For clustering, instead of taking a bootstrap sample and perturbing it, we might take the entire original sample and perturb it. This allows us to identify the original data points on the cluster diagram and see whether they remain in the same clusters or move to new clusters.

Obtaining a confidence interval for a Normal mean (a parametric example)

Suppose we have a sample of size n and we believe the population is Normally distributed. A parametric bootstrap can be done by computing the sample mean (ar) and variance (s^2). The bootstrap samples can be taken by generating random samples of size n from N((ar,s^2)). After taking 1000 samples or so, the set of 1000 bootstrap sample means should be a good estimate of the sampling distribution of (ar). A 95% confidence interval for the population mean is then formed by sorting the bootstrap means from lowest to highest, and dropping the 2.5% smallest and 2.5% largest. the smallest and largest remaining values are the ends of the confidence interval.

How does this compare to the usual confidence interval: (arpm t_<.975>s/sqrt)? Our interval turns out to approximate (arpm z_<.975>s/sqrt) - that is, is uses the Normal approximation to the t-distribution. This is because it does not take into account that we have estimated the variance. There are ways to improve the estimate, but we will not discuss them here.

Obtaining a confidence interval for (pi_0) with RNA-seq data (a complex parametric example)

For an example of using the parametric bootstrap let's consider computing a confidence interval for (pi_0) an RNA-seq experiment. In this case we will assume that the data are Poisson. Here is what we would do:

1) First we estimate (pi_0) from all of the data.

2) Now we need to obtain a bootstrap sample from the Poisson distribution. We will hold the library sizes fixed.

i) in each sample for each feature, recompute the count as the percentage of the library size.

ii) for each feature compute the mean percentage over all the samples from that treatment - call this (g_) where i is the feature.

iii) For each sample, multiply the library size (N_j) where j is the sample, by (g_i) to obtain (N_jg_i) the expected count for feature i in sample j.

iv) The bootstrap sample for feature i in sample j is generated as a random Poisson with mean (N_jg_i) .

b) Now that there is a bootstrap "observation" for each feature in each sample, redo the differential expression analysis and estimate (pi_0).

c) Repeat steps a0 and b0 1000 times. Now you have 1000 different estimates of (pi_0) - this is your estimate of the sampling distribution of the estimate.

3) Your 1000 bootstrap estimates can be used to draw a histogram of the sampling distribution of the estimate of (pi_0). The central 95% of the histogram is a 95% confidence interval for (pi_0). To estimate this interval, it is simplest to use the sorted bootstrap values instead of the histogram. For example, if you drop the 2.5% smallest and largest values, the remainder are in the 95% confidence interval. To form the ends of the interval, use the smallest and largest of this central 95% of the bootstrap values.

This is a parametric bootstrap confidence interval because the bootstrap samples were generated by estimating the Poisson means and then generating samples from the Poisson distribution.

[1] Efron, B. (1982). The jackknife, the bootstrap, and other resampling plans . 38 . Society of Industrial and Applied Mathematics CBMS-NSF Monographs. ISBN 0-89871-179-7 .


Phylogenetic Bootstrapping (BS) is a standard technique for inferring confidence values on phylogenetic trees that is based on reconstructing many trees from minor variations of the input data, trees called replicates. BS is used with all phylogenetic reconstruction approaches, but we focus here on the most popular, Maximum Likelihood (ML). Because ML inference is so computationally demanding, it has proved too expensive to date to assess the impact of the number of replicates used in BS on the quality of the support values. For the same reason, a rather small number (typically 100) of BS replicates are computed in real-world studies. Stamatakis <em>et al.</em> recently introduced a BS algorithm that is 1---2 orders of magnitude faster than previous techniques, while yielding qualitatively comparable support values, making an experimental study possible.

In this paper, we propose <em>stopping criteria</em> , that is, thresholds computed at runtime to determine when enough replicates have been generated, and report on the first large-scale experimental study to assess the effect of the number of replicates on the quality of support values, including the performance of our proposed criteria. We run our tests on 17 diverse real-world DNA, single-gene as well as multi-gene, datasets, that include between 125 and 2,554 sequences. We find that our stopping criteria typically stop computations after 100---500 replicates (although the most conservative criterion may continue for several thousand replicates) while producing support values that correlate at better than 99.5% with the reference values on the best ML trees. Significantly, we also find that the stopping criteria can recommend very different numbers of replicates for different datasets of comparable sizes.


Configuration of the Bootstrap

There are two parameters that must be chosen when performing the bootstrap: the size of the sample and the number of repetitions of the procedure to perform.

Sample Size

In machine learning, it is common to use a sample size that is the same as the original dataset.

The bootstrap sample is the same size as the original dataset. As a result, some samples will be represented multiple times in the bootstrap sample while others will not be selected at all.

If the dataset is enormous and computational efficiency is an issue, smaller samples can be used, such as 50% or 80% of the size of the dataset.

Repetitions

The number of repetitions must be large enough to ensure that meaningful statistics, such as the mean, standard deviation, and standard error can be calculated on the sample.

A minimum might be 20 or 30 repetitions. Smaller values can be used will further add variance to the statistics calculated on the sample of estimated values.

Ideally, the sample of estimates would be as large as possible given the time resources, with hundreds or thousands of repeats.


Ver el vídeo: Основы верстки. HTML, CSS, bootstrap. (Mayo 2022).


Comentarios:

  1. Kazir

    Creo que estás equivocado. Estoy seguro. Puedo probarlo.

  2. Fishel

    la muy buena idea

  3. Mezijora

    Estoy aquí por casualidad, pero especialmente registrado en el foro, para participar en la discusión de este tema.

  4. Elston

    Gracias por tu ayuda en este asunto. Tienes un foro maravilloso.



Escribe un mensaje