Información

4.2: Conservación de secuencias genómicas - Biología

4.2: Conservación de secuencias genómicas - Biología


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Elementos funcionales en Drosophila

En un artículo de 20071, Stark y col. Las líneas grises conectan elementos funcionales ortólogos y está claro que sus posiciones se conservan generalmente en las diferentes especies.

Preguntas más frecuentes

P: ¿Por qué es significativo que se conserve la posición de los elementos ortólogos?

R: El hecho de que las posiciones se conserven es lo que nos permite hacer comparaciones entre especies. De lo contrario, no podríamos alinear regiones no codificantes de manera confiable.

Drosophila es una gran especie para estudiar porque, de hecho, la separación de las moscas de la fruta es mayor que la de los mamíferos. Esto nos lleva a una nota al margen interesante, la de qué especies seleccionar al mirar las firmas de conservación. No desea tener especies muy similares (como los humanos y los chimpancés, que comparten el 98% del genoma), porque sería difícil distinguir las regiones que son diferentes de las que son iguales. Al comparar especies con humanos, el nivel correcto de conservación a considerar son los mamíferos. Específicamente, la mayoría de las investigaciones realizadas en este campo se realizan utilizando 29 mamíferos euterios (mamíferos placentarios, no marsupiales ni monotremas) para estudiar. Otra cosa a tener en cuenta son las diferencias en la longitud de las ramas entre dos especies. Sus temas de estudio ideales serían unas pocas especies estrechamente relacionadas (de longitud de rama corta), para evitar problemas de interpretación que surgen con mutaciones de longitud de rama larga, como las mutaciones inversas.

Tarifas y patrones de selección

Ahora que hemos establecido que existe una estructura para la evolución de las secuencias genómicas, podemos comenzar a analizar características específicas de la conservación. Para esta sección, consideremos los datos genómicos a nivel de nucleótidos individuales. Más adelante en este capítulo veremos que también podemos analizar secuencias de aminoácidos.

Podemos estimar la intensidad de una restricción de selección ω haciendo un modelo de probabilidades de la tasa de sustitución inferida de los datos de alineación del genoma. El uso de una estimación de máxima verosimilitud (ML) de ω puede proporcionarnos la tasa de selección ω, así como la puntuación logarítmica de probabilidades de que la tasa no sea natural.

Una propiedad que esto mide que podemos considerar es la tasa de sustitución de nucleótidos en un genoma. La figura 4.3 muestra dos secuencias de nucleótidos de una colección de mamíferos. Una de las secuencias está sujeta a tasas de cambio normales, mientras que la otra muestra una tasa reducida. Por lo tanto, podemos plantear la hipótesis de que la última secuencia está sujeta a un mayor nivel de restricción evolutiva y puede representar una sección biológicamente más importante del genoma.

Además, podemos detectar patrones inusuales de selección π al observar un modelo probabilístico de una distribución estacionaria que es diferente de la distribución de fondo. La estimación ML de π nos proporciona la Matriz de peso de probabilidad (PWM) para cada k-mer en el genoma, así como la puntuación logarítmica de probabilidades para sustituciones que son inusuales (por ejemplo, una base que cambia a una y solo otra base). Como se puede ver en la Figura 4.4, las letras específicas importan porque algunas bases cambian selectivamente a una (o dos otras bases), y la base específica a la que cambia puede sugerir cuál puede ser la función de la secuencia.

Podemos aumentar nuestro poder de detección de elementos de restricción al observar más especies, como se muestra en la Figura 4.5, donde vemos un aumento dramático en el poder para detectar pequeños elementos restringidos.


1 www.nature.com/nature/journal...ture06340.html


ADN (bibliotecas de genes): construcción, bibliotecas genómicas y bibliotecas de ADNc

Una biblioteca de ADN es un conjunto de fragmentos clonados que representan colectivamente los genes de un organismo en particular. Se pueden aislar genes particulares a partir de bibliotecas de ADN, al igual que se pueden obtener libros de bibliotecas convencionales.

El secreto es saber dónde y cómo mirar. Hay dos tipos generales de biblioteca de genes: una biblioteca genómica, que consiste en el ADN cromosómico total de un organismo y una biblioteca de ADNc, que representa el ARNm de una célula o tejido en un momento específico.

La elección del tipo particular de biblioteca de genes depende de varios factores, siendo el más importante la aplicación final de cualquier fragmento de ADN derivado de la biblioteca. Si el objetivo final comprende el control de la producción de proteínas para un gen en particular o su arquitectura, entonces deben usarse bibliotecas genómicas.

Sin embargo, si el objetivo es la producción de proteínas nuevas o modificadas, o la determinación de la expresión específica de tejido de patrones de tiempo, las bibliotecas de ADNc son más apropiadas. La consideración principal en la construcción de bibliotecas genómicas o de ADNc es, por lo tanto, el material de partida de ácido nucleico. Dado que el genoma de un organismo es fijo, el ADN cromosómico puede aislarse de casi cualquier tipo de célula para preparar ADN genómico.

Sin embargo, por el contrario, las bibliotecas de ADNc representan solo ARNm que se produce a partir de un tipo de célula específico en un momento particular del desarrollo de la célula. Por tanto, es importante considerar cuidadosamente el tipo de célula o tejido del que se derivará el ARNm en la construcción de bibliotecas de ADNc.

Hay una variedad de vectores de clonación disponibles, muchos de ellos basados ​​en moléculas naturales como plásmidos bacterianos o virus que infectan bacterias. La elección del vector también depende de si se construye una biblioteca genómica o una biblioteca de ADNc.

Construcción de bibliotecas de genes:

Digestión de moléculas de ADN genómico:

Una vez que se ha aislado y purificado el ADN genómico, se digiere con endonucleasas de restricción. Estas enzimas son la clave para la clonación molecular debido a la especificidad que tienen para determinadas secuencias de ADN. Es importante tener en cuenta que cada copia de una molécula de ADN dada de un organismo específico dará el mismo conjunto de fragmentos cuando se digiera con una enzima en particular.

El ADN de diferentes organismos, en general, dará diferentes conjuntos de fragmentos cuando se trata con la misma enzima. Al digerir el ADN genómico complejo de un organismo, es posible dividir de forma reproducible su genoma en una gran cantidad de pequeños fragmentos, cada uno aproximadamente del tamaño de un solo gen. Algunas enzimas cortan directamente a través del ADN para dar extremos lisos o romos.

Otras enzimas de restricción hacen cortes escalonados de una sola hebra, produciendo proyecciones cortas de una sola hebra en cada extremo del ADN digerido. Estos extremos no solo son idénticos sino complementarios y se emparejarán entre sí; por lo tanto, se conocen como extremos cohesivos o pegajosos. Además, la proyección del extremo 5 & # 8242 del ADN siempre retiene los grupos fosfato.

Se han caracterizado más de 500 enzimas de restricción, que reconocen más de 200 sitios diferentes. La elección de qué enzima utilizar depende de varios factores. Por ejemplo, la secuencia de reconocimiento de 6 pb ocurrirá, en promedio, cada 4096 (4 6) bases, asumiendo una secuencia aleatoria de cada una de las cuatro bases.

Esto significa que la digestión del ADN genómico con EcoRI, que reconoce la secuencia 5 & # 8242-GAATTC-3 & # 8242, producirá fragmentos cada uno de los cuales tiene, en promedio, algo más de 4 kb. Las enzimas con secuencias de reconocimiento de 8 pb producen fragmentos mucho más largos. Por lo tanto, los genomas muy grandes, como el ADN humano, generalmente se digieren con enzimas que producen fragmentos de ADN largos. Esto hace que los pasos posteriores sean más manejables, ya que es necesario clonar y analizar posteriormente un número menor de esos fragmentos.

Ligadura de moléculas de ADN:

Los productos de ADN que resultan de la digestión por restricción para formar extremos pegajosos pueden unirse a cualquier otro fragmento de ADN tratado con la misma enzima de restricción. Por tanto, cuando los dos conjuntos de fragmentos se mezclan, el apareamiento de bases entre los extremos pegajosos dará como resultado el apareamiento de fragmentos que se derivaron de diferentes ADN de partida. Por supuesto, también habrá un apareamiento de fragmentos derivados de las mismas moléculas de ADN de partida, lo que se denomina reasociación.

Todos estos emparejamientos son transitorios, debido a la debilidad del enlace de hidrógeno entre las pocas bases en los extremos pegajosos, pero pueden estabilizarse mediante el uso de una enzima, ADN ligasa, en un proceso denominado ligadura. Esta enzima, generalmente aislada del bacteriófago T4 y llamada ADN ligasa T4, forma un enlace covalente entre el 5 & # 8242-fosfato al final de una hebra y el 3 & # 8242-hidroxilo de la hebra adyacente.

La reacción que depende de ATP a menudo se lleva a cabo a 10 ° C para disminuir la energía cinética de las moléculas y así reducir las posibilidades de que los extremos pegajosos emparejados con bases se separen antes de que se hayan estabilizado mediante ligación. Sin embargo, se necesitan tiempos de reacción prolongados para compensar la baja actividad de la ADN ligasa en el frío. También es posible unir extremos romos de moléculas de ADN, aunque la eficiencia de esta reacción es mucho menor que en las ligaciones de extremos pegajosos.

Dado que la ligación reconstruye el sitio de escisión, las moléculas recombinantes producidas por ligación de extremos pegajosos se pueden escindir nuevamente en las & # 8216uniones & # 8217, usando la misma enzima de restricción que se usó para generar los fragmentos inicialmente. Para propagar el ADN digerido de un organismo es necesario unir o ligar ese ADN con una molécula portadora de ADN especializada denominada vector.

Cada fragmento de ADN se inserta mediante ligación en la molécula de ADN del vector, lo que permite que el ADN recombinante completo se replique indefinidamente dentro de las células microbianas. De esta manera, se puede clonar un fragmento de ADN para proporcionar material suficiente para un análisis más detallado o para manipulaciones adicionales. Por lo tanto, todo el ADN extraído de un organismo y digerido con una enzima de restricción dará como resultado una colección de clones. Esta colección de clones se conoce como biblioteca de genes.

Bibliotecas genómicas:

Cualquier gen en particular constituye solo una pequeña parte del genoma de un organismo. Por ejemplo, si el organismo es un mamífero cuyo genoma completo abarca unos 106 kpb y el gen es de 10 kpb, entonces el gen representa solo el 0,001% del ADN nuclear total. No es práctico intentar recuperar secuencias tan raras directamente del ADN nuclear aislado debido a la abrumadora cantidad de secuencias de ADN extrañas.

En cambio, se prepara una biblioteca genómica aislando el ADN total del organismo, digiriéndolo en fragmentos de tamaño adecuado y clonando los fragmentos en un vector apropiado. Este enfoque se llama clonación de escopeta porque la estrategia no tiene forma de apuntar a un gen en particular, sino que busca clonar todos los genes del organismo a la vez.

La intención es que al menos un clon recombinante contenga al menos parte del gen de interés. Esto se puede lograr mediante digestión de restricción parcial con una enzima que reconoce secuencias de tetranucleótidos. La digestión completa con dicha enzima produciría una gran cantidad de fragmentos muy cortos, pero, si se permite que la enzima escinda solo algunos de sus posibles sitios de restricción antes de que se detenga la reacción, cada molécula de ADN se cortará en fragmentos relativamente grandes.

El tamaño medio de los fragmentos dependerá de las concentraciones relativas de ADN y enzima de restricción y, en particular, de las condiciones y duraciones de la incubación. También es posible producir fragmentos de ADN mediante cizallamiento físico, aunque es posible que sea necesario reparar los extremos de los fragmentos para que queden al ras. Esto se logra utilizando una ADN polimerasa modificada denominada polimerasa de Klenow.

Esta se prepara por escisión de la ADN polimerasa con subtilización, dando un gran fragmento de enzima que no tiene actividad exonucleasa 5 & # 8217 → 3 & # 8242, pero que todavía actúa como polimerasa 5 & # 8217 → 3 & # 8242. Usando los dNTP apropiados, esto llenará cualquier extremo 3 & # 8242 empotrado en el ADN cortado. La mezcla de fragmentos de ADN se liga luego con un vector y posteriormente se clona.

Si se producen suficientes clones, habrá una probabilidad muy alta de que cualquier fragmento de ADN particular, como un gen, esté presente en al menos uno de los clones. Para mantener el número de clones en un tamaño manejable, se necesitan fragmentos de aproximadamente 10 kb de longitud para bibliotecas procarióticas, pero la longitud debe aumentarse a aproximadamente 40 kb para bibliotecas de mammalismo.

Se han preparado bibliotecas genómicas a partir de cientos de especies diferentes. Se deben crear muchos clones para tener la certeza de que la biblioteca genómica contiene el gen de interés. La probabilidad, P, de que cierto número de clones, N, contenga un fragmento particular que represente una fracción, f, del genoma es

Por ejemplo, si la biblioteca consta de fragmentos de 10 kpb del genoma de E. coli (4640 kpb en total), se deben cribar más de 2000 clones individuales para tener una probabilidad del 99% (P = 0,99) de encontrar un fragmento particular. Dado que / = 10/4640 = 0.0022 y P & # 8211 0.99, N = 2093. Para una probabilidad del 99% de encontrar una secuencia particular dentro del genoma humano de 3 x 10 6 kpb, N sería igual a casi 1.4 millones si los fragmentos clonados promedian 10 kbp de tamaño. La necesidad de vectores de clonación capaces de transportar insertos de ADN muy grandes se hace evidente a partir de estos números.

Bibliotecas combinatorias:

El reconocimiento y la unión específicos de otras moléculas es una característica definitoria de cualquier proteína o ácido nucleico. A menudo, se desconocen los ligandos diana de una proteína particular o, en otros casos, se puede buscar un ligando único para una proteína conocida con la esperanza de bloquear la actividad de la proteína o perturbar su función.

Las bibliotecas combinatorias son el producto de estrategias emergentes para facilitar la identificación y caracterización de posibles ligandos para una proteína. Estas estrategias también son aplicables al estudio de los ácidos nucleicos. A diferencia de las bibliotecas genómicas, las bibliotecas combinatorias consisten en oligómeros sintéticos. Las matrices de oligonucleótidos sintéticos impresos como pequeños puntos sobre soportes sólidos en miniatura se conocen como chips de ADN.

Específicamente, las bibliotecas combinatorias contienen un gran número de moléculas sintetizadas químicamente (como péptidos u oligonucleótidos) con secuencias o estructuras aleatorias. Dichas bibliotecas se diseñan y construyen con la esperanza de que una molécula entre un gran número sea reconocida como ligando por la proteína (o ácido nucleico) de interés.

Si es así, tal vez esa molécula sea útil en una aplicación farmacéutica, por ejemplo, como fármaco para tratar una enfermedad que involucra a la proteína a la que se une. Un ejemplo de esta estrategia es la preparación de una biblioteca combinatoria sintética de hexapéptidos. El número máximo de combinaciones de secuencias para hexapéptidos es 20 6 o 64 000 000.

Un enfoque para simplificar la preparación y las posibilidades de selección de una biblioteca de este tipo es especificar los dos primeros aminoácidos en el hexapéptido, mientras que los cuatro siguientes se eligen al azar. En este enfoque, se sintetizan 400 bibliotecas (20 2), cada una de las cuales es única en términos de aminoácidos en las posiciones 1 y 2, pero aleatoria en las otras cuatro posiciones (como en AAXXXX, ACXXXX, ADXXXX, etc.) de modo que cada una de las 400 bibliotecas contiene 20 4 o 1 60 000 combinaciones de secuencias diferentes.

El cribado de estas bibliotecas con la proteína de interés revela cuál de las 400 bibliotecas contiene un ligando con alta afinidad. Luego, esta biblioteca se expande sistemáticamente especificando los primeros 3 aminoácidos (sabiendo de las bibliotecas elegidas 1 de 400 qué aminoácidos son mejores que los 2 primeros), solo se fabrican 20 bibliotecas sintéticas (cada una de las cuales contiene 20 3 u 8000 hexapéptidos). (una para cada posibilidad de tercera posición, las tres posiciones restantes son aleatorias).

La selección para la unión del ligando, nuevamente con la proteína de interés, revela lo mejor de estas 20, y esta biblioteca particular se varía luego sistemáticamente en la cuarta posición, creando 20 bibliotecas más (cada una de las cuales contiene 20 2 o 400 hexapéptidos). Este ciclo de síntesis, cribado y selección se repite hasta que las seis posiciones del hexapéptido se optimizan para crear el mejor ligando para la proteína.

Una variación de esta estrategia básica utilizando oligonucleótidos sintéticos en lugar de péptidos identificó un único 15-mer (secuencia GGTTGGTGTGGTTGG) con alta afinidad (KD = 2,7 nM) hacia la trombina, una serina proteasa en la vía de coagulación sanguínea. La trombina es un objetivo importante para la prevención farmacológica de la formación de coágulos en la trombosis coronaria.

Bibliotecas de cribado:

Un método común de cribado de bibliotecas genómicas basadas en plásmidos es llevar a cabo un experimento de hibridación de colonias. El protocolo es similar para las bibliotecas basadas en fagos, excepto que se examinan las placas de bacteriófagos, no las colonias bacterianas. En un experimento típico, las bacterias hospedadoras que contienen una biblioteca basada en plásmidos o bacteriófagos se colocan en placas en una placa de Petri y se dejan crecer durante la noche para formar colonias (o en el caso de bibliotecas de fagos, placas) (Fig 4.10).

Luego se obtiene una réplica de las colonias bacterianas (o placas) superponiendo la placa con un disco de nitrocelulosa. El disco se retira, se trata con álcali para disociar los dúplex de ADN unidos en ADN de hebra sencilla, se seca y se coloca en una bolsa sellada con una sonda etiquetada. Si el ADN de la sonda es ADN dúplex, debe desnaturalizarse calentándolo a 70 ° C.

Las secuencias complementarias de la sonda y del ADN diana deben estar en una forma monocatenaria si se van a hibridar entre sí. Cualquier secuencia de ADN complementaria al ADN de la sonda se revelará mediante autorradiografía del disco de nitrocelulosa. Las colonias bacterianas (placas de fagos) que contienen clones que llevan ADN diana se identifican en la película y se pueden recuperar de la placa maestra.

Sondas para la hibridación del sur:

Claramente, las sondas específicas son reactivos esenciales si el objetivo es identificar un gen particular en un contexto de innumerables secuencias de ADN. Normalmente, las sondas que se utilizan para cribar bibliotecas son secuencias de nucleótidos que son complementarias a alguna parte del gen diana. Para hacer sondas útiles se requiere cierta información sobre la secuencia de nucleótidos del gen.

A veces, esta información está disponible. Alternativamente, si se conoce la secuencia de aminoácidos de la proteína codificada por el gen, es posible trabajar hacia atrás a través del código genético hasta la secuencia de ADN (fig. 4.11). Debido a que el código genético está degenerado (es decir, varios codones pueden especificar el mismo aminoácido), las sondas diseñadas por este enfoque suelen ser oligonucleótidos degenerados de alrededor de 17 a 50 residuos de longitud (tales oligonucleótidos se denominan de 17 a 50 meros).

Los oligonucleótidos se sintetizan de modo que se incorporen diferentes bases en los sitios donde se producen degeneraciones en los codones. Por tanto, la preparación final consiste en una mezcla de oligonucleótidos de igual longitud cuyas secuencias varían para adaptarse a las degeneraciones. Presumiblemente, una secuencia de oligonucleótidos en la mezcla se hibridará con el gen diana.Estas sondas de oligonucleótidos son al menos 17-meros porque los oligonucleótidos degenerados más cortos podrían hibridar con secuencias no relacionadas con la secuencia diana.

Un fragmento de ADN del gen correspondiente en un organismo relacionado también se puede usar como sonda en el cribado de una biblioteca para un gen particular. Estas sondas se denominan sondas heterólogas porque no se derivan del organismo homólogo (el mismo). Surgen problemas si un gen eucariota completo es el objetivo de clonación. Los genes eucariotas pueden tener decenas o incluso cientos de pares de kilo-bases de tamaño.

Los genes de este tamaño están fragmentados en la mayoría de los procedimientos de clonación. Por tanto, el ADN identificado por la sonda puede representar un clon que lleva solo una parte del gen deseado. Sin embargo, la mayoría de las estrategias de clonación se basan en una digestión parcial del ADN genómico, una técnica que genera un conjunto superpuesto de fragmentos genómicos.

Siendo esto así, los segmentos de ADN de los extremos del clon identificado ahora pueden usarse para sondear la biblioteca en busca de clones que lleven secuencias de ADN que flanquean el aislado original en el genoma. La repetición de este proceso finalmente produce el gen completo entre un subconjunto de clones superpuestos.

Bibliotecas de ADNc:

Los ADNc son moléculas de ADN copiadas de moldes de ARNm. Las bibliotecas de ADNc se construyen sintetizando ADNc a partir de ARNm celular purificado. Estas bibliotecas presentan una estrategia alternativa para el aislamiento de genes, especialmente genes eucariotas. Debido a que la mayoría de los ARNm eucariotas portan colas 3 & # 8242-poli (A), el ARNm puede aislarse selectivamente de preparaciones de ARN celular total mediante cromatografía de oligo (dT) -celulosa (fig. 4.12). Las copias de ADN de los ARNm purificados se sintetizan hibridando primero cadenas cortas de oligo (dT) con las colas poli (A).

Estas cadenas de oligo (dT) sirven como cebadores para la síntesis de ADN impulsada por transcriptasa inversa (fig. 4.13). (Los oligonucleótidos aleatorios también se pueden usar como cebadores, con las ventajas de una menor dependencia de los tractos poli (A) y una mayor probabilidad de crear clones que representen los extremos 5 & # 8242 de los ARNm). La transcriptasa inversa es una enzima que sintetiza una hebra de ADN, copiando ARN como plantilla. Luego, la ADN polimerasa se usa para copiar la cadena de ADN y formar una molécula de doble cadena (ADN dúplex).

La ligación de fragmentos de ADN de extremos romos no es tan eficaz como la ligación de extremos pegajosos, por lo tanto, con moléculas de ADNc se llevan a cabo procedimientos adicionales antes de la ligación con vectores de clonación. Un método consiste en añadir moléculas pequeñas de ADNc de doble hebra con un sitio interno para una endonucleasa de restricción, que se denominan enlazadores de ácido nucleico. Numerosos enlazadores están disponibles comercialmente con restricción interna para muchas de las enzimas de restricción más comúnmente utilizadas.

Los conectores se ligan al ADNc en los extremos romos, pero como se añaden mucho más que el ADNc, el proceso de ligación es razonablemente satisfactorio. Posteriormente, los enlazadores se digieren con la enzima de restricción apropiada, que proporciona los extremos pegajosos para una unión eficaz a un vector digerido con la misma enzima. Este proceso puede facilitarse mediante la adición de adaptadores en lugar de enlazadores, que son idénticos excepto que se realizan los extremos pegajosos y, por lo tanto, no hay necesidad de digestión de restricción después de la ligadura.

Por lo tanto, por último, se añaden enlazadores a los dúplex de ADN generados a partir de las plantillas de ARNm, y el ADNc se clona en un vector adecuado. Una vez que se ha identificado un ADNc derivado de un gen particular, el ADNc se convierte en una sonda eficaz para seleccionar bibliotecas genómicas para el aislamiento del propio gen.

Debido a que diferentes tipos de células en organismos eucariotas expresan subconjuntos seleccionados de genes, las preparaciones de ARN de células o tejidos en los que se transcriben selectivamente genes de interés se enriquecen en los ARNm deseados. Las bibliotecas de ADNc preparadas a partir de dicho ARNm son representativas del patrón y el grado de expresión génica que definen de forma única tipos particulares de células diferenciadas.

Las bibliotecas de ADNc de muchos tipos de células humanas normales y enfermas están disponibles comercialmente, incluidas las bibliotecas de ADNc de muchas células tumorales. La comparación de bibliotecas de ADNc normales y anormales, junto con el análisis electroforético en gel bidimensional de las proteínas producidas en células normales y anormales, es una nueva estrategia prometedora en la medicina clínica para comprender los mecanismos de la enfermedad.


Introducción

Con la urgente necesidad de comprender mejor el genoma y las mutaciones del SARS-CoV-2, las alineaciones de secuencias de múltiples cepas de coronavirus (CoV) están disponibles 1 donde múltiples secuencias de CoV se alinean contra el genoma de referencia del SARS-CoV-2. Los alineamientos de secuencia proporcionan información importante sobre la historia evolutiva de diferentes bases genómicas. Dicha información puede ser útil para interpretar mutaciones, como por ejemplo, se ha demostrado que las bases con una fuerte restricción de secuencia o una evolución acelerada se enriquecen para las variantes asociadas al fenotipo 2,3. Si bien las anotaciones sistemáticas existentes que cuantifican la restricción de secuencia de las alineaciones 4, 5 son informativas, reducen la información en la alineación subyacente a un único valor univariante o binario y, por lo tanto, están limitadas en la información que transmiten. La información adicional sobre los patrones de las secuencias que se alinean y coinciden con el genoma del SARS-CoV-2 en cada base puede ser útil para analizar el genoma y las mutaciones del SARS-CoV-2.

Como un enfoque complementario a los métodos de puntuación de restricción de secuencia, ConsHMM se introdujo recientemente para anotar sistemáticamente un genoma dado con estados de conservación que capturan patrones combinatorios y espaciales en una secuencia de alineación de múltiples especies 6. ConsHMM modela específicamente si las bases de las secuencias que no son de referencia se alinean y coinciden con cada base en el genoma de referencia. ConsHMM extiende ChromHMM, un método ampliamente utilizado que utiliza un modelo oculto de Markov (HMM) multivariado para aprender patrones en datos epigenómicos de novo y anotar genomas basados ​​en los patrones aprendidos 7. Aparte de las alineaciones de entrada que se generaron utilizando árboles filogenéticos, ConsHMM no utiliza explícitamente ninguna información filogenética y, por lo tanto, no hace ninguna suposición estricta sobre la relación filogenética entre secuencias. Esto permite que ConsHMM sea más flexible en la captura de varios patrones dentro de las alineaciones que los enfoques de genómica comparativa más comúnmente utilizados que definen una puntuación de restricción única o llamadas binarias de elementos restringidos basados ​​en modelos filogenéticos. Trabajos previos aplicando ConsHMM a la alineación de múltiples especies de otros genomas han demostrado que los estados de conservación aprendidos por ConsHMM capturan varios patrones en la alineación ignorados por métodos anteriores y son útiles para interpretar elementos de ADN y variantes asociadas al fenotipo 6,8.

Motivados por la necesidad actual de comprender mejor el genoma y las mutaciones del SARS-CoV-2, aquí aplicamos ConsHMM a dos alineaciones de secuencias de múltiples cepas de CoV que se pusieron a disposición recientemente 1 y aprendemos dos conjuntos de estados de conservación. La primera alineación consiste en Sarbecovirus, un subgénero del género Betacoronavirus en la familia de Coronavirdae 9. Esta alineación consta de SARS-CoV y otros sarbecovirus que infectan murciélagos alineados con el genoma del SARS-CoV-2. La segunda alineación consiste en CoV que infecta a varios vertebrados (por ejemplo, humanos, murciélagos, pangolines, ratones, aves) alineados con el genoma del SARS-CoV-2.

Dados los dos conjuntos de estados de conservación aprendidos por ConsHMM de estas dos alineaciones, anotamos el genoma del SARS-CoV-2 con los estados y analizamos la relación de los estados con las anotaciones externas para comprender sus propiedades. Observamos que los estados capturan patrones distintos en los datos de alineación de entrada. Usando anotaciones externas de genes, regiones de interés y mutaciones observadas entre las secuencias de SARS-CoV-2, observamos que los estados también tienen distintos patrones de enriquecimiento para varias regiones anotadas. Generamos pistas de todo el genoma que puntúan cada nucleótido en función de las reducciones de estado y los enriquecimientos de las mutaciones observadas, que se pueden utilizar para priorizar las bases donde es más probable que las mutaciones tengan consecuencias. En general, nuestro análisis sugiere que los estados de conservación de ConsHMM resaltan las bases genómicas con distintos patrones evolutivos en las alineaciones de la secuencia de entrada y el potencial significado biológico. Las anotaciones del estado de conservación de ConsHMM y las pistas del agotamiento del estado de las mutaciones son recursos para interpretar el genoma y las mutaciones del SARS-CoV-2.


7.2. Determinación de las funciones de genes individuales

Una vez que se ha localizado un nuevo gen en una secuencia del genoma, se debe abordar la cuestión de su función. Esto está resultando ser un área importante de la investigación genómica, porque los proyectos de secuenciación completados han revelado que sabemos bastante menos de lo que pensamos sobre el contenido de los genomas individuales. E. coli y S. cerevisiae, por ejemplo, se estudiaron intensamente mediante análisis genéticos convencionales antes del advenimiento de los proyectos de secuenciación, y los genetistas estuvieron en un momento bastante seguros de que la mayoría de sus genes habían sido identificados. Las secuencias del genoma revelaron que, de hecho, existen grandes lagunas en nuestro conocimiento. De los 4288 genes que codifican proteínas en el E. coli secuencia del genoma, solo 1853 (43% del total) habían sido previamente identificados (Blattner et al., 1997). Para S. cerevisiae la cifra era sólo del 30% (Dujon, 1996).

Al igual que con la ubicación de genes, los intentos de determinar las funciones de genes desconocidos se realizan mediante análisis informáticos y estudios experimentales.

7.2.1. Análisis informático de la función genética

Ya hemos visto que el análisis informático juega un papel importante en la localización de genes en secuencias de ADN, y que una de las herramientas más poderosas disponibles para este propósito es la búsqueda de homología, que localiza genes comparando la secuencia de ADN en estudio con todas las demás secuencias de ADN. en las bases de datos. La base de la búsqueda de homología es que los genes relacionados tienen secuencias similares y, por lo tanto, se puede descubrir un nuevo gen en virtud de su similitud con un gen equivalente, ya secuenciado, de un organismo diferente. Ahora veremos más de cerca el análisis de homología y veremos cómo se puede usar para asignar una función a un nuevo gen.

La homología refleja las relaciones evolutivas

Los genes homólogos son aquellos que comparten un ancestro evolutivo común, revelado por las similitudes de secuencia entre los genes. Estas similitudes forman los datos en los que se basan las filogenias moleculares, como veremos en el capítulo 16. Los genes homólogos se dividen en dos categorías:

Un par de genes homólogos no suelen tener secuencias de nucleótidos idénticas, porque los dos genes experimentan diferentes cambios aleatorios por mutación, pero tienen secuencias similares porque estos cambios aleatorios han operado en la misma secuencia inicial, el gen ancestral común. La búsqueda de homología hace uso de estas similitudes de secuencia. La base del análisis es que si un gen recién secuenciado resulta ser similar a un gen previamente secuenciado, entonces se puede inferir una relación evolutiva y es probable que la función del nuevo gen sea la misma, o al menos similar, a la función del gen conocido.

Es importante no confundir las palabras homología y semejanza. Es incorrecto describir un par de genes relacionados como & # x0201880% homólogos & # x02019 si sus secuencias tienen 80% de identidad de nucleótidos (Figura 7.9). Un par de genes están relacionados evolutivamente o no. No hay situaciones intermedias y, por lo tanto, no tiene sentido atribuir un valor porcentual a la homología.

Figura 7.9

Dos secuencias de ADN con una identidad de secuencia del 80%.

El análisis de homología puede proporcionar información sobre la función de un gen completo o de segmentos dentro de él.

Se puede realizar una búsqueda de homología con una secuencia de ADN, pero normalmente una secuencia de genes tentativa se convierte en una secuencia de aminoácidos antes de que se lleve a cabo la búsqueda. Una razón de esto es que hay 20 aminoácidos diferentes en las proteínas, pero solo cuatro nucleótidos en el ADN, por lo que los genes que no están relacionados generalmente parecen ser más diferentes entre sí cuando se comparan sus secuencias de aminoácidos (Figura 7.10). Por lo tanto, es menos probable que una búsqueda de homología dé resultados falsos si se usa la secuencia de aminoácidos. Los aspectos prácticos de la búsqueda de homología no son en absoluto abrumadores. Existen varios programas de software para este tipo de análisis, el más popular es BLAST (Basic Local Alignment Search Tool Altschul et al., 1990). El análisis se puede realizar simplemente iniciando sesión en el sitio web de una de las bases de datos de ADN e ingresando la secuencia en la herramienta de búsqueda en línea.

Figura 7.10

La falta de homología entre dos secuencias suele ser más evidente cuando se realizan comparaciones a nivel de aminoácidos. Se muestran dos secuencias de nucleótidos, con nucleótidos que son idénticos en las dos secuencias indicadas en rojo y las no identidades indicadas en azul. (más. )

Una coincidencia positiva con un gen que ya está en la base de datos puede dar una indicación clara de la función del nuevo gen, o las implicaciones de la coincidencia pueden ser más sutiles. En particular, los genes que no tienen una relación evolutiva obvia pueden tener segmentos cortos que son similares entre sí. La explicación de esto a menudo es que, aunque los genes no están relacionados, sus proteínas tienen funciones similares y la secuencia compartida codifica un dominio dentro de cada proteína que es fundamental para esa función compartida. Aunque los genes en sí mismos no tienen un ancestro común, los dominios sí, pero con su ancestro común ocurriendo en una época muy antigua, los dominios homólogos han evolucionado posteriormente no solo por cambios de un solo nucleótido, sino también por reordenamientos más complejos que han creado nuevos genes dentro donde se encuentran los dominios (Sección 15.2.1). Un ejemplo interesante lo proporciona el dominio tudor, un motivo de aproximadamente 120 aminoácidos que se identificó por primera vez en la secuencia del Drosophila melanogaster gen llamado tudor (Ponting, 1997). La proteína codificada por el tudor El gen, cuya función se desconoce, está formado por diez copias del dominio tudor, una tras otra (Figura 7.11). Una búsqueda de homología utilizando el dominio tudor como prueba reveló que varias proteínas conocidas contienen este dominio. Las secuencias de estas proteínas no son muy similares entre sí y no hay indicios de que sean verdaderos homólogos, pero todas poseen el dominio tudor. Estas proteínas incluyen una involucrada en el transporte de ARN durante Drosophila ovogénesis, una proteína humana con un papel en el metabolismo del ARN, y otras cuyas actividades parecen involucrar al ARN de una forma u otra. Por tanto, el análisis de homología sugiere que la secuencia tudor juega algún papel en la interacción entre la proteína y su sustrato de ARN. La información del análisis por computadora es incompleta en sí misma, pero señala el camino hacia los tipos de experimentos que deben realizarse para obtener datos más claros sobre la función del dominio tudor.

Figura 7.11

El dominio tudor. El dibujo superior muestra la estructura del Drosophila proteína tudor, que contiene diez copias del dominio tudor. El dominio también se encuentra en un segundo Drosophila proteína, Vagabundo, y en la proteína de anclaje de la quinasa A humana (AKAP149), (más.)

Análisis de homología en el proyecto del genoma de levadura

los S. El proyecto del genoma de cerevisiae ha ilustrado tanto el potencial como las limitaciones del análisis de homología como medio para asignar funciones a nuevos genes. El genoma de la levadura contiene aproximadamente 6000 genes, el 30% de los cuales habían sido identificados mediante análisis genéticos convencionales antes de que se pusiera en marcha el proyecto de secuenciación. El 70% restante se estudió mediante análisis de homología, dando los siguientes resultados (Figura 7.12 Dujon, 1996):

Figura 7.12

Categorías de genes en el genoma de la levadura.

7.2.2. Asignación de función genética mediante análisis experimental

Está claro que el análisis de homología no es una panacea que pueda identificar las funciones de todos los genes nuevos. Por tanto, se necesitan métodos experimentales para complementar y ampliar los resultados de los estudios de homología. Este está demostrando ser uno de los mayores desafíos en la investigación genómica, y la mayoría de los biólogos moleculares están de acuerdo en que las metodologías y estrategias actualmente en uso no son del todo adecuadas para asignar funciones a la gran cantidad de genes desconocidos que se están descubriendo mediante proyectos de secuenciación. El problema es que el objetivo, trazar un curso desde un gen a una función, es el camino inverso al que normalmente toma el análisis genético, en el que el punto de partida es un fenotipo y el objetivo es identificar el gen o genes subyacentes. El problema que estamos abordando actualmente nos lleva en la dirección opuesta: comenzar con un nuevo gen y, con suerte, conducir a la identificación del fenotipo asociado.

Análisis funcional por inactivación de genes

En el análisis genético convencional, la base genética de un fenotipo generalmente se estudia buscando organismos mutantes en los que el fenotipo se haya alterado. Los mutantes pueden obtenerse experimentalmente, por ejemplo, tratando una población de organismos (por ejemplo, un cultivo de bacterias) con radiación ultravioleta o una sustancia química mutagénica (consulte la Sección 14.1.1), o los mutantes pueden estar presentes en una población natural. El gen o genes que se han alterado en el organismo mutante se estudian luego mediante cruces genéticos (Sección 5.2.4), que pueden localizar la posición de un gen en un genoma y también determinar si el gen es el mismo que uno que ya lo ha hecho. ha sido caracterizado. Luego, el gen puede estudiarse más a fondo mediante técnicas de biología molecular como la clonación y la secuenciación.

El principio general de este análisis convencional es que los genes responsables de un fenotipo pueden identificarse determinando qué genes están inactivados en organismos que presentan una versión mutante del fenotipo. Si el punto de partida es el gen, en lugar del fenotipo, entonces la estrategia equivalente sería mutar el gen e identificar el cambio fenotípico resultante. Ésta es la base de la mayoría de las técnicas utilizadas para asignar funciones a genes desconocidos.

Los genes individuales pueden inactivarse mediante recombinación homóloga.

La forma más sencilla de inactivar un gen específico es interrumpirlo con un segmento de ADN no relacionado (figura 7.13). Esto se puede lograr mediante la recombinación homóloga entre la copia cromosómica del gen y un segundo fragmento de ADN que comparte cierta identidad de secuencia con el gen diana. La recombinación homóloga (y otros tipos de) son eventos complejos, de los que trataremos en detalle en la Sección 14.3.1. Para los propósitos actuales, es suficiente saber que si dos moléculas de ADN tienen secuencias similares, entonces la recombinación puede resultar en el intercambio de segmentos de las moléculas.

Figura 7.13

Inactivación de genes por recombinación homóloga. La copia cromosómica del gen diana se recombina con una versión alterada del gen transportada por un vector de clonación. Como resultado, el gen objetivo se inactiva. Para obtener más información sobre la recombinación (más.)

¿Cómo se lleva a cabo en la práctica la inactivación genética? Consideraremos dos ejemplos, el primero con S. cerevisiae. Desde que se completó la secuencia del genoma en 1996, los biólogos moleculares de levaduras se han embarcado en un esfuerzo internacional coordinado para determinar las funciones de tantos genes huérfanos como sea posible (Oliver, 1996b). Una técnica que se está utilizando se muestra en la Figura 7.14 (Wach et al., 1994).El componente central es el casete de eliminación & # x02018 & # x02019, que porta un gen de resistencia a los antibióticos. Este gen no es un componente normal del genoma de la levadura, pero funcionará si se transfiere a un cromosoma de levadura, dando lugar a una célula de levadura transformada que es resistente al antibiótico genericin. Antes de usar el casete de deleción, se unen nuevos segmentos de ADN como colas en cada extremo. Estos segmentos tienen secuencias idénticas a partes del gen de la levadura que se inactivará. Después de que el casete modificado se introduce en una célula de levadura, se produce una recombinación homóloga entre las colas de ADN y la copia cromosómica del gen de la levadura, reemplazando esta última con el gen de resistencia a los antibióticos. Por lo tanto, las células que se han sometido a la sustitución se seleccionan sembrando el cultivo en medio de agar que contiene genetina. Las colonias resultantes carecen de la actividad del gen diana y sus fenotipos pueden examinarse para conocer mejor la función del gen.

Figura 7.14

El uso de un casete de deleción de levadura. El casete de deleción consta de un gen de resistencia a antibióticos precedido por las secuencias promotoras necesarias para la expresión en levadura y flanqueado por dos sitios de restricción. Los segmentos inicial y final del gen objetivo (más.)

El segundo ejemplo de inactivación genética utiliza un proceso análogo pero con ratones en lugar de levadura. El ratón se utiliza con frecuencia como organismo modelo para los seres humanos porque el genoma del ratón es similar al genoma humano y contiene muchos de los mismos genes. Por lo tanto, la identificación de las funciones de genes humanos desconocidos se lleva a cabo en gran medida inactivando los genes equivalentes en el ratón, siendo estos experimentos éticamente impensables en humanos. La parte de recombinación homóloga del procedimiento es idéntica a la descrita para la levadura y una vez más da como resultado una célula en la que el gen diana ha sido inactivado. El problema es que no queremos solo una célula mutada, queremos un ratón mutante completo, ya que solo con el organismo completo podemos hacer una evaluación completa del efecto de la inactivación del gen sobre el fenotipo. Para lograr esto es necesario utilizar un tipo especial de celda de ratón, un tallo embrionario o Célula ES (Evans et al., 1997). A diferencia de la mayoría de las células de ratón, las células madre embrionarias son totipotentes, lo que significa que no están comprometidas con una única vía de desarrollo y, por lo tanto, pueden dar lugar a todos los tipos de células diferenciadas. Por lo tanto, la célula ES modificada se inyecta en un embrión de ratón, que continúa desarrollándose y eventualmente da lugar a una quimera, un ratón cuyas células son una mezcla de mutantes, derivadas de las células ES manipuladas, y no mutantes, derivadas de todas las demás células del embrión. Esto todavía no es exactamente lo que queremos, por lo que los ratones quiméricos pueden aparearse entre sí. Algunos de los descendientes son el resultado de la fusión de dos gametos mutantes y, por lo tanto, no serán quiméricos, ya que cada una de sus células llevará el gen inactivado. Estos son ratones knockouty, con suerte, sus fenotipos proporcionarán la información deseada sobre la función del gen que se está estudiando. Esto funciona bien para muchas inactivaciones de genes, pero algunas son letales y, por lo tanto, no se pueden estudiar en un ratón knockout homocigótico. En cambio, se obtiene un ratón heterocigoto, producto de la fusión entre un gameto normal y uno mutante, con la esperanza de que el efecto fenotípico de la inactivación del gen sea evidente aunque el ratón todavía tenga una copia correcta del gen que se está estudiando.

Inactivación de genes sin recombinación homóloga

La recombinación homóloga no es la única forma de alterar un gen para estudiar su función. Una alternativa es el marcado de transposones, en el que la inactivación se logra mediante la inserción de un elemento transponible en el gen. La mayoría de los genomas contienen elementos transponibles (sección 2.4.2) y, aunque la mayor parte de estos están inactivos, por lo general hay algunos que conservan su capacidad de transposición. En circunstancias normales, la transposición es un evento relativamente raro, pero a veces es posible utilizar técnicas de ADN recombinante para producir transposones modificados que cambian su posición en respuesta a un estímulo externo. Una forma de hacer esto, involucrando el retrotransposón de levadura Ty1, se muestra en la Figura 7.15.

Figura 7.15

Inducción artificial de la transposición. Se han utilizado técnicas de ADN recombinante para colocar una secuencia promotora (Sección 3.2.2) que responde a la galactosa corriente arriba de un Ty1 elemento en el genoma de la levadura. Cuando la galactosa está ausente, la Ty1 elemento no es (más.)

El marcado de transposones es fundamental para la técnica llamada huella genética (Smith et al., 1995), que se ha utilizado para inactivar muchas de las levaduras huérfanas como primer paso para evaluar su función. El marcado de transposones también es importante en el análisis del genoma de la mosca de la fruta, utilizando el endógeno Drosophila transposón llamado PAG elemento (Engels, 2000). La debilidad del etiquetado de transposones es que es difícil apuntar a genes individuales, porque la transposición es más o menos un evento aleatorio y es imposible predecir dónde terminará un transposón después de haber saltado. Si la intención es inactivar un gen en particular, entonces es necesario inducir un número sustancial de transposiciones y luego examinar los organismos resultantes para encontrar uno con la inserción correcta. El marcado de transposones es, por tanto, más aplicable a los estudios globales de la función del genoma, en los que los genes se inactivan al azar y los grupos de genes con funciones similares se identifican examinando la progenie en busca de cambios fenotípicos interesantes.

La interferencia de ARN proporciona un enfoque completamente diferente para la inactivación de genes. En esta técnica, en lugar de alterar el gen en sí, se destruye su ARNm. Esto se logra mediante la introducción en la célula de moléculas cortas de ARN bicatenario cuyas secuencias coinciden con las del ARNm al que se dirige. Los ARN bicatenarios se descomponen en moléculas más cortas que inducen la degradación del ARNm (figura 7.16). Se ha demostrado que el proceso funciona eficazmente en el gusano. Caenorhabditis elegans (Fuego et al., 1998), cuyo genoma ha sido completamente secuenciado (ver Tabla 2.1) y que se considera un organismo modelo importante para eucariotas superiores (Sección 12.3.2). Casi 2500 de los 2769 genes predichos en el cromosoma I de C. elegans han sido inactivados individualmente por interferencia de ARN, simplemente colocando los gusanos en una solución que contiene el ARN bicatenario y permitiendo que los procesos normales de absorción transporten las moléculas al interior de las células (Fraser et al., 2000). Se están dirigiendo proyectos similares a los demás C. cromosomas elegans.

Figura 7.16

Interferencia de ARN. La molécula de ARN bicatenario se descompone mediante la ribonucleasa de Dicer en ARN interferentes cortos (ARNip) de 21 & # x0201325 pb de longitud. Una hebra de cada par de bases de ARNip con el ARNm objetivo, que luego se degrada (más.)

Se sabe que la interferencia de ARN ocurre naturalmente en una variedad de eucariotas, pero se esperaba que su aplicación a células de mamíferos fuera difícil porque estos organismos muestran una respuesta paralela al ARN bicatenario, en el que la síntesis de proteínas generalmente se inhibe, lo que resulta en la muerte celular ( Bass, 2001). Sin embargo, estas preocupaciones eran infundadas, porque ahora se ha demostrado que la introducción de ARN de doble hebra en células humanas cultivadas mediante la fusión con liposomas (Figura 7.17) da como resultado la inactivación del ARNm diana, sin una disminución medible en la síntesis de proteínas general (Elbashir et al., 2001). El inconveniente de utilizar esta técnica con mamíferos es que solo es posible trabajar con células individuales, en lugar de organismos completos, porque los ARN bicatenarios tienen una vida útil limitada dentro de la célula y no se pueden utilizar para diseñar cambios permanentes como los necesarios. en la construcción de ratones knockout.

Figura 7.17

La fusión con liposomas se puede utilizar para administrar ARN de doble hebra en una célula humana.

La sobreexpresión genética también se puede utilizar para evaluar la función

Hasta ahora nos hemos concentrado en técnicas que dan como resultado la inactivación del gen que se está estudiando (& # x02018pérdida de función & # x02019). El enfoque complementario es diseñar un organismo en el que el gen de prueba sea mucho más activo de lo normal (& # x02018gain of function & # x02019) y determinar qué cambios, si los hay, tiene en el fenotipo. Los resultados de estos experimentos deben tratarse con precaución debido a la necesidad de distinguir entre un cambio de fenotipo que se debe a la función específica de un gen sobreexpresado y un cambio de fenotipo menos específico que refleja la anomalía de la situación en la que un solo producto de gen se sintetiza en cantidades excesivas, posiblemente en tejidos en los que el gen normalmente está inactivo. A pesar de esta calificación, la sobreexpresión ha proporcionado información importante sobre la función genética.

Para sobreexpresar un gen, se debe usar un tipo especial de vector de clonación, uno diseñado para asegurar que el gen clonado dirija la síntesis de la mayor cantidad de proteína posible. Por lo tanto, el vector es multicopia, lo que significa que se multiplica dentro del organismo huésped a 40 & # x02013200 copias por célula, por lo que hay muchas copias del gen de prueba. El vector también debe contener un promotor altamente activo (Sección 9.2.2) de modo que cada copia del gen de prueba se convierta en grandes cantidades de ARNm, asegurando nuevamente que se produzca la mayor cantidad de proteína posible. En la Figura 7.18 se muestra un ejemplo de la técnica utilizada con genes de ratones (Simonet et al., 1997). En este proyecto se seleccionaron los genes a estudiar porque sus secuencias sugirieron que codifican proteínas que se secretan en el torrente sanguíneo. El vector de clonación que se utilizó contenía un promotor muy activo que se expresa solo en el hígado, por lo que cada ratón transgénico sobreexpresó el gen de prueba en su hígado y luego secretó la proteína resultante en la sangre. Se examinó el fenotipo de cada ratón transgénico en busca de pistas sobre las funciones de los genes clonados. Se hizo un descubrimiento interesante cuando se descubrió que un ratón transgénico tenía huesos que eran significativamente más densos que los de los ratones normales. Esto fue importante por dos razones: primero, permitió identificar el gen relevante como uno involucrado en la síntesis ósea; segundo, el descubrimiento de una proteína que aumenta la densidad ósea tiene implicaciones para el desarrollo de tratamientos para la osteoporosis humana, una enfermedad de los huesos frágiles .

Figura 7.18

Análisis funcional por sobreexpresión genética. El objetivo es determinar si la sobreexpresión del gen en estudio tiene efecto sobre el fenotipo de un ratón transgénico. Por lo tanto, se inserta un ADNc del gen en un vector de clonación que lleva un (más.)

Recuadro 7.1

Análisis del cromosoma I de Caenorhabditis elegans por interferencia de ARN. Se han asignado funciones a 339 genes en C. elegans cromosoma I después de la inactivación individual mediante la técnica de interferencia de ARN. C. elegans es un diminuto gusano nematodo (vea la Figura (más).

7.2.3. Estudios más detallados de la actividad de una proteína codificada por un gen desconocido.

La inactivación y sobreexpresión de genes son las principales técnicas utilizadas por los investigadores del genoma para determinar la función de un nuevo gen, pero estos no son los únicos procedimientos que pueden proporcionar información sobre la actividad de los genes. Otros métodos pueden ampliar y elaborar los resultados de la inactivación y la sobreexpresión. Estos pueden usarse para proporcionar información adicional que ayudará a la identificación de la función de un gen, o podrían formar la base de un examen más completo de la actividad de una proteína cuyo gen ya ha sido caracterizado.

La mutagénesis dirigida se puede utilizar para sondear la función de los genes en detalle.

La inactivación y la sobreexpresión pueden determinar la función general de un gen, pero no pueden proporcionar información detallada sobre la actividad de una proteína codificada por un gen. Por ejemplo, podría sospecharse que parte de un gen codifica una secuencia de aminoácidos que dirige su producto proteico a un compartimento particular de la célula, o es responsable de la capacidad de la proteína para responder a una señal química o física. Para probar estas hipótesis, sería necesario eliminar o alterar la parte relevante de la secuencia del gen, pero dejar la mayor parte sin modificar para que la proteína todavía se sintetice y conserve la mayor parte de su actividad. Los diversos procedimientos de dirigido al sitio o in vitro La mutagénesis (nota técnica 7.1) se puede utilizar para realizar estos cambios sutiles. Se trata de técnicas importantes cuyas aplicaciones se encuentran no solo en el estudio de la actividad genética, sino también en el área de la ingeniería de proteínas, donde el objetivo es crear proteínas novedosas con propiedades más adecuadas para su uso en entornos industriales o clínicos.

Recuadro 7.1

Mutagénesis dirigida al sitio. Métodos para realizar una alteración precisa en la secuencia de un gen con el fin de cambiar la estructura y posiblemente la actividad de una proteína. Los cambios en la estructura de las proteínas se pueden diseñar mediante técnicas de mutagénesis dirigida al sitio, que (más.)

Después de la mutagénesis, la secuencia del gen debe introducirse en la célula huésped para que la recombinación homóloga pueda reemplazar la copia existente del gen con la versión modificada. Esto presenta un problema porque debemos tener una forma de saber qué células han experimentado una recombinación homóloga. Incluso con levadura, esto será solo una fracción del total, y con ratones, la fracción será muy pequeña. Normalmente resolveríamos este problema colocando un gen marcador (por ejemplo, uno que codifique la resistencia a los antibióticos) junto al gen mutado y buscando células que adopten el fenotipo conferido por este marcador. En la mayoría de los casos, las células que insertan el gen marcador en su genoma también insertan el gen mutado estrechamente unido y, por lo tanto, son las que queremos. El problema es que en un experimento de mutagénesis dirigida al sitio debemos estar seguros de que cualquier cambio en la actividad del gen que se está estudiando es el resultado de la mutación específica que se introdujo en el gen, más que el resultado indirecto de cambiar su entorno en el genoma insertando un gen marcador junto a él. La respuesta es utilizar un reemplazo génico de dos pasos más complejo (figura 7.19). En este procedimiento, el gen diana se reemplaza primero con el gen marcador por sí solo, identificándose las células en las que tiene lugar esta recombinación seleccionando el fenotipo del gen marcador. Estas células se utilizan luego en la segunda etapa del reemplazo del gen, cuando el gen marcador es reemplazado por el gen mutado, y el éxito ahora se monitorea buscando células que hayan perdido el fenotipo del gen marcador. Estas células contienen el gen mutado y sus fenotipos pueden examinarse para determinar el efecto de la mutación dirigida sobre la actividad del producto proteico.

Figura 7.19

Reemplazo de genes en dos pasos. Ver el texto para más detalles.

Los genes informadores y la inmunocitoquímica se pueden utilizar para localizar dónde y cuándo se expresan los genes.

A menudo, se pueden obtener pistas sobre la función de un gen determinando dónde y cuándo está activo el gen. Si la expresión génica está restringida a un órgano o tejido particular de un organismo multicelular, o a un solo conjunto de células dentro de un órgano o tejido, entonces esta información posicional puede usarse para inferir el papel general del producto génico. Lo mismo ocurre con la información relacionada con la etapa de desarrollo en la que se expresa un gen. Este tipo de análisis ha demostrado ser particularmente útil para comprender las actividades de los genes involucrados en las primeras etapas del desarrollo en Drosophila (Sección 12.3.3) y se utiliza cada vez más para desentrañar la genética del desarrollo de los mamíferos. También es aplicable a los organismos unicelulares, como la levadura, que tienen etapas de desarrollo distintivas en su ciclo de vida.

La determinación del patrón de expresión génica dentro de un organismo es posible con un gen indicador. Este es un gen cuya expresión se puede controlar de manera conveniente, idealmente mediante examen visual (tabla 7.1), las células que expresan el gen informador se vuelven azules, fluorescentes o emiten alguna otra señal visible. Para que el gen informador dé una indicación fiable de dónde y cuándo se expresa un gen de prueba, el informador debe estar sujeto a las mismas señales reguladoras que el gen de prueba. Esto se logra reemplazando el ORF del gen de prueba con el ORF del gen informador (Figura 7.20). La mayoría de las señales reguladoras que controlan la expresión génica están contenidas en la región del ADN corriente arriba del ORF, por lo que el gen informador debería mostrar ahora el mismo patrón de expresión que el gen de prueba. Por lo tanto, el patrón de expresión se puede determinar examinando el organismo en busca de la señal informadora.

Cuadro 7.1

Ejemplos de genes informadores.

Figura 7.20

Un gen reportero. El marco de lectura abierto del gen informador reemplaza el marco de lectura abierto del gen que se está estudiando. El resultado es que el gen indicador se coloca bajo el control de las secuencias reguladoras que generalmente dictan el patrón de expresión (más.)

Además de saber en qué células se expresa un gen, a menudo es útil localizar la posición dentro de la célula donde se encuentra la proteína codificada por el gen. Por ejemplo, se pueden obtener datos clave sobre la función de los genes mostrando que el producto proteico se encuentra en las mitocondrias, en el núcleo o en la superficie celular. Los genes informadores no pueden ayudar aquí porque la secuencia de ADN corriente arriba del gen, la secuencia a la que está unido el gen informador, no participa en la orientación del producto proteico a su ubicación intracelular correcta. En cambio, es la secuencia de aminoácidos de la proteína en sí la que es importante. Por lo tanto, la única forma de determinar dónde se encuentra la proteína es buscarla directamente. Esto se realiza mediante inmunocitoquímica, que utiliza un anticuerpo que es específico para la proteína de interés y, por lo tanto, se une a esta proteína y no a otra. El anticuerpo está marcado de modo que se pueda visualizar su posición en la célula y, por tanto, la posición de la proteína diana (Figura 7.21). El marcaje fluorescente y la microscopía óptica se utilizan para estudios de baja resolución. Alternativamente, la inmunocitoquímica de alta resolución se puede llevar a cabo mediante microscopía electrónica utilizando un marcador denso en electrones como el oro coloidal.

Figura 7.21

Inmunocitoquímica. La célula se trata con un anticuerpo marcado con un marcador fluorescente azul. El examen de la célula muestra que la señal fluorescente está asociada con la membrana mitocondrial interna. Por tanto, una hipótesis de trabajo (más.)


Procedimientos de laboratorio húmedo

Muestreo y preservación de tejidos

Debe evitarse el daño del ADN. En Wong et al., (2012) se presenta un ejemplo de buenas prácticas para la recolección y preservación de tejidos.

Extracción de ADN, calidad y cantidad

La calidad del ADN se evalúa con

Electroforesis en gel de agarosa al 0,8% –1% y una escalera de peso molecular de 25 Kbp. Una única banda de alto peso molecular (

23 Kbp) indica una buena integridad del ADN. La alta pureza del ADN se confirma con una relación de absorbancia de 260/280 nm de

1.8–2.0.Se debe evitar el ADN muy fragmentado, ya que no se puede cuantificar con precisión utilizando métodos basados ​​en fluorometría (recomendados para la cuantificación precisa de ADN de doble hebra) (Sedlackova, Repiska, Celec, Szemes y Minarik, 2013). Para Pool-seq esto es particularmente importante ya que la contribución uniforme del ADN individual en un pool depende de una cuantificación precisa. La cantidad de ADN inicial depende de los requisitos de entrada de los kits de preparación de bibliotecas descritos en la Tabla 1.

Estandarización de la concentración de ADN en las muestras (para Pool-seq y lcWGR)

Cada muestra de ADN se diluye o concentra hasta un valor estándar deseado (ng / μl). El líquido de dilución debe estabilizar y proteger el ADN de daños (p. Ej., Bajo ET). Se recomienda un robot de manipulación de líquidos para este paso a fin de eliminar la posibilidad de errores de pipeteo (Figura B2).

Combinación de ADN (Pool-seq)

El agrupamiento consiste en mezclar cantidades equimolares de ADN de varios individuos de una población. Cuando el interés es identificar la base genética de un rasgo, los grupos deben incluir individuos que comparten el mismo rasgo (no necesariamente de la misma población) y las categorías de rasgos extremos tienen un mayor potencial para generar señales genéticas más claras. Se recomienda un mínimo de 50 individuos por grupo, pero incluir más (& gt100) (asumiendo un aumento proporcional en la profundidad de secuenciación) puede ayudar a minimizar una ligera desigualdad en la representación de unos pocos individuos, lo que conduce a estimaciones de frecuencia de alelos más precisas (Gautier et al., 2013 Schlötterer et al., 2014). Luego, el ADN individual se diluye a una concentración estándar y se verifica mediante un paso de cuantificación. Una vez normalizado, la misma cantidad de ADN de muestras individuales se puede combinar en un solo tubo.

Preparación de la biblioteca de secuenciación

Varios kits para la preparación de bibliotecas están disponibles comercialmente. Se diferencian en el costo por muestra, la necesidad de un sonicador, la incorporación de un paso de PCR y la cantidad de ADN de entrada. Para conocer el precio actual y los requisitos de entrada de ADN de los kits de Illumina, consulte la Tabla 1. La amplificación de ADN con PCR es conveniente cuando se dispone de cantidades bajas de ADN, pero la PCR puede introducir sesgos (p. Ej., Representación insuficiente de fragmentos ricos en GC, amplificación preferencial de fragmentos cortos y duplicados) que pueden dar lugar a una cobertura desigual en algunos loci. Algunos de estos sesgos pueden minimizarse realizando ajustes en el protocolo de PCR (Aird et al., 2011) (p. Ej., Utilizando la menor cantidad posible de ciclos de PCR, normalmente de 6 a 8) y eliminando los duplicados in silico con las herramientas de Picard, http: // broadinstitute.github.io/picard, o samtools (Li, Handsaker, et al., 2009). Se detectan pequeñas variantes estructurales (INDEL y CNV) a partir de lecturas breves de bibliotecas estándar (

350–550 pb de tamaño de inserción), mientras que la detección de grandes variantes estructurales (que abarcan Mbs) puede requerir el uso de bibliotecas de pares de parejas (

2–20 Kb de tamaño de inserto) o datos de lectura larga. Se discuten consideraciones adicionales en Head et al. (2014).

Secuenciación de alto rendimiento de bibliotecas de ADN

Actualmente, la tecnología más popular para la secuenciación de alto rendimiento de lectura corta es Illumina, aunque se están desarrollando nuevas tecnologías (Goodwin et al., 2016). Illumina ofrece una precisión general & gt99.5%, que es alta en relación con otras plataformas pero aún restrictiva, ya que es difícil distinguir la verdadera variación genética de los artefactos técnicos (Laehnemann, Borkhardt y McHardy, 2016). La cobertura mínima sugerida para huWGR es & gt30 × / individual (Sims, Sudbery, Ilott, Heger y Ponting, 2014), y para Pool-seq, es & gt50 × / pool (Schlötterer et al., 2014), aunque mucho se debe apuntar a una cobertura más alta (& gt100–200 ×) para la detección de alelos raros (Wang, Skoog, et al., 2016) y para lcWGR es de 1 a 4 × / individuo (Nielsen et al., 2011 Buerkle & Gompert, 2013) . El número de carriles de Illumina necesarios depende del equilibrio entre el tamaño del genoma, la cobertura del objetivo por muestra / grupo y el rendimiento de la celda de flujo. La secuenciación de Illumina es potencialmente propensa a la variación de un carril a otro (Ross, Russ y Costello, 2013), un problema que puede minimizarse distribuyendo bibliotecas de códigos de barras en varios carriles (TCAG DNA Secuenciación de la instalación, comunicación personal).

Procedimientos informáticos

Control de calidad de secuencias sin procesar

Leer mapeo a un genoma de referencia

Las lecturas de alta calidad se asignan a un genoma en función de la similitud de secuencia. Existen múltiples algoritmos para el mapeo de lectura corta y se han revisado en otros lugares (Fonseca, Rung, Brazma y Marioni, 2012 Hatem, Bozdaǧ y Çatalyürek, 2013 Reinert et al., 2015 Ye, Meehan, Tong y Hong, 2015). Algunos de los alineadores libres más utilizados son BWA (Li & Durbin 2009, 2010 Li, 2013) (Tabla 2) y Bowtie2 (Langmead & Salzberg, 2012). Los artefactos de alineación podrían surgir debido a múltiples factores, incluidos los desajustes alrededor de los INDEL y la divergencia entre las lecturas del sujeto y el genoma de referencia. Por lo tanto, es importante comprender cómo funcionan los distintos algoritmos para tomar decisiones informadas sobre cómo optimizar los parámetros de ejecución (ver Cuadro 3). El producto final del mapeo de lectura es un archivo SAM (Sequence Alignment / Map) (varios Gb de tamaño), formato que contiene una línea para cada lectura y campos con información asociada, incluida la posición de lectura y la puntuación de calidad del mapeo (MAPQ o MQ) (Li , Ruan y Durbin, 2008) que se pueden utilizar para el filtrado de SNP. Un archivo BAM, la versión binaria comprimida de peso ligero del archivo SAM, se obtiene utilizando herramientas Picard, y es el formato comúnmente preferido como archivo de entrada por otros programas. La clasificación de lectura, el marcado de duplicados, la adición de grupos de lectura y la indexación son pasos adicionales para preparar los archivos BAM para la llamada de variantes (Van der Auwera et al., 2013).

Control de calidad de lecturas mapeadas

Realineación de Indel (opcional, dependiendo de la persona que llama SNP)

Los artefactos de mapeo puntual alrededor de INDEL pueden no resolverse optimizando los parámetros de mapeo global. Los reajustes locales de INDEL son un requisito previo necesario cuando se utiliza un algoritmo de llamada SNP basado en el sitio como samtools (Li, Handsaker, et al., 2009) o gatk - unifiedgenotyper (McKenna et al., 2010). Este paso no es necesario cuando se utilizan llamadores basados ​​en haplotipos como freebayes (Garrison & Marth, 2012) o el gatk - haplotypecaller (http://gatkforums.broadinstitute.org/gatk/discussion/7847). La realineación de INDEL se puede realizar con funciones específicas en gatk (McKenna et al., 2010) (tutorial: https://software.broadinstitute.org/gatk/guide/article?id=7156). Un archivo con INDEL conocidos puede ayudar a definir objetivos para la realineación (Van der Auwera et al., 2013), pero en su ausencia, los INDEL identificados durante el mapeo de lectura se pueden usar en su lugar (modo predeterminado) (https://software.broadinstitute.org /gatk/events/slides/1504/GATKwr7-X-3-Non_human.pdf).

Recalibración de la base (opcional pero recomendada)

Los puntajes de calidad por base obtenidos de secuenciadores a menudo presentan errores. Debido a que los algoritmos de probabilidad de genotipo y llamadas de SNP consideran tales puntuaciones de calidad, deben corregirse. Esto se puede lograr utilizando el paquete de recalibración del puntaje de calidad base (BQSR) implementado en gatk (DePristo et al., 2011 Van der Auwera et al., 2013). Se requiere un conjunto conocido de variantes, pero en su ausencia, se puede seguir un enfoque de arranque iterativo (Tung, Zhou, Alberts, Stephens y Gilad, 2015 Snyder-Mackler et al., 2016).

Detección de sitios variantes

Existe un software específico para la detección de los diferentes tipos de variantes genéticas (es decir, SNP e INDEL, SV y CNV). Dichos algoritmos implementan modelos particulares de variación y fuentes de información para el descubrimiento de polimorfismos a partir de datos de lectura corta. Las posiciones variantes se detectan de forma diferente en los datos hrWGR, huWGR, Pool-seq y lcWGR. En los tres primeros, la detección de sitios polimórficos se basa en la cobertura de lectura por sitio y la calidad por individuo o población, mientras que en el último, se basa en la cobertura y calidad de todas las lecturas que cubren un sitio de varios individuos en una muestra determinada. Los SNP no se llaman en lcWGR, en cambio, las probabilidades de genotipo por sitio se calculan utilizando software como angsd (Korneliussen et al., 2014). En hrWGR, huWGR y Pool-seq, los SNP se llaman mediante software como gatk - haplotypecaller, samtools o freebayes (Tabla 2). Se puede encontrar una revisión completa de las llamadas SNP utilizando datos NGS en Nielsen et al. (2011) y (2012), y para variantes estructurales en Alkan et al. (2011). Cada algoritmo de llamada de SNP hace una serie de suposiciones que pueden conducir a resultados diferentes. Por tanto, una buena práctica es comparar los SNP detectados por al menos dos algoritmos (O'Rawe et al., 2013). El producto de la llamada variante es un archivo VCF (formato de llamada variante) que contiene polimorfismos sin procesar y anotaciones (Danecek et al., 2011).

La selección de un algoritmo de llamada SNP para datos Pool-seq requiere considerar si maneja ploidías mayores que 2. En teoría, Ploidía de la piscina = Ploidía por individuo × Numero de individuos. Suponiendo que se mezclan 50 individuos diploides, la ploidía del grupo es 100. Sin embargo, tales ploidías grandes agotan la memoria del sistema y multiplican el tiempo de ejecución (en gatk - haplotypecaller https://software.broadinstitute.org/gatk/gatkdocs/org_broadinstitute_gatk_tools_walkers_haplotypecaller_Hplot, y free : //github.com/ekg/freebayes/commit/576bc703c246035342538a0feeecd1, consultado en junio de 2017).

El uso de la ploidía predeterminada (2) hace que el software llame solo a los 2 alelos más comunes en un grupo, ya que la ploidía asume una frecuencia de alelos 50/50 (http://gatkforums.broadinstitute.org/gatk/discussion/6551/what-if -ploidy-is-set-to-2-for-pooled-dna-sequencing-experiment, consultado en junio de 2017). Esto podría no ser un problema al llamar a SNP entre muestras estrechamente relacionadas, ya que los SNP se consideran bialélicos, pero limitaría el número total de alelos detectados al comparar muestras relacionadas más lejanamente. El uso de ploidías grandes ahora se resuelve parcialmente estableciendo el número máximo de alelos alternativos a considerar. En gatk v.3.7 esto se puede configurar con la bandera –MaxGenotypeCnt (https://software.broadinstitute.org/gatk/blog?id=8692), y en FreeBayes con –Utilizar-mejores-n-alelos y establecer un modo agrupado (–Pooled-discrete o –Pooled-continuo). Esta configuración hace que los algoritmos se ejecuten más rápido a expensas de la ausencia de alelos de baja frecuencia en loci multialélicos (https://github.com/ekg/freebayes).

Control de calidad de variantes crudas

Los SNP con poco soporte deben eliminarse del conjunto de datos final, ya que lo más probable es que sean llamadas falsas. Esto se puede lograr utilizando la recalibración de puntuación de calidad variante (VQSR) o aplicando filtros estrictos. Generalmente se prefiere VQSR ya que es un filtrado imparcial basado en una gran cantidad de variantes validadas que entrenan el algoritmo (Van der Auwera et al., 2013). Los filtros duros se aplican generalmente en ausencia de variantes conocidas e incluyen la eliminación de SNP en función de los parámetros de anotación asignados a cada SNP durante el mapeo de lectura y la llamada de variantes. Los filtros comunes incluyen baja complejidad, profundidad máxima, balance de alelos, doble hebra, hebra de Fisher y filtro de calidad (Van der Auwera et al., 2013 Li & Wren, 2014), así como calidad de mapeo (MQ) (Li et al. , 2008). Cada algoritmo de mapeo calcula el puntaje MQ de manera diferente (Ruffalo, Koyutürk, Ray y LaFramboise, 2012) para los cuales los puntajes no deben compararse entre programas. Sin embargo, la aplicación de filtros duros puede sesgar el espectro de frecuencia del sitio al excluir variantes de baja frecuencia y está limitada por la ausencia de pautas para seleccionar qué anotaciones o valores de corte deben aplicarse a un dato dado. La elección adecuada de los valores de corte es una función de los datos. Por tanto, la recomendación es probar diferentes combinaciones de parámetros y umbrales para optimizar estos filtros. Este foro, https://software.broadinstitute.org/gatk/guide/article?id=6925, puede ofrecer información sobre el filtrado estricto con gatk. Además, los SNP dentro de las regiones de baja complejidad deben eliminarse, ya que estas regiones son problemáticas para el mapeo de lectura y las llamadas de SNP (Li & Wren, 2014). El archivo VCF final después del control de calidad está listo para análisis posteriores.

Anotación de variante

Los términos de ontología de secuencia se pueden anotar en variantes en un archivo VCF utilizando, por ejemplo, los programas vcfanno (Pedersen et al., 2016), annovar (Yang & Wang, 2015) o snpeff (Cingolani et al., 2012).

Validación de variantes

Las variantes detectadas a partir de los datos de WGR deben tratarse como polimorfismos putativos, especialmente en Pool-seq y lcWGR. Los métodos basados ​​en PCR de genotipado de SNP se pueden utilizar para la validación de SNP. La amplificación por PCR y la secuenciación de Sanger se pueden utilizar para la validación de SV.

Para obtener pautas adicionales sobre cómo obtener variantes de alta calidad a partir de datos de secuenciación de alto rendimiento, consulte Van der Auwera et al. (2013) y Pfeifer (2017).

Recuadro 3. Pool-seq: Limitaciones, fuentes de error y sesgo y posibles soluciones


Página de investigación de la facultad

Mi laboratorio estudia cómo funcionan y evolucionan las secuencias genómicas que controlan la expresión génica. Nos impulsa el deseo de comprender la base molecular de la diversidad de los organismos y la creencia de que muchas diferencias en fisiología, morfología y comportamiento surgen de cambios en la regulación genética. Nuestro objetivo final es poder interpretar la información reguladora codificada en el ADN genómico, de modo que podamos identificar rutinariamente secuencias reguladoras, discernir su función, predecir las consecuencias de su perturbación y reconstruir cómo evolucionaron.

Somos un laboratorio híbrido computacional y experimental que combina análisis computacional y experimental a escala genómica de la regulación genética en Drosophila melanogaster y Saccharomyces cerevisiae con un análisis extenso de datos de secuencia comparativa y análisis experimental de especies estrechamente relacionadas con estos sistemas modelo. Nos centramos en escalas de tiempo evolutivas cortas donde es posible acoplar cambios específicos en las secuencias del genoma con alteraciones en la regulación y expresión de genes.

Proyectos actuales

Caracterización experimental de la regulación génica en D. melanogaster embriones

Para proporcionar una base experimental sólida para nuestros estudios evolutivos, estamos trabajando con varios otros laboratorios en Berkeley para diseccionar sistemáticamente la expresión y regulación génica en los primeros tiempos. D. melanogaster embrión. Para cada uno de los aproximadamente 40 factores de transcripción críticos para dar forma a los patrones anteroposterior y dorsal-ventral, nuestros objetivos son: 1) medir la afinidad in vitro del factor con cada una de sus posibles secuencias diana, 2) identificar las regiones genómicas unidas por cada factor en embriones vivos, 3) determinar el patrón de expresión del factor y sus objetivos en tres dimensiones a resolución celular. Los miembros de mi laboratorio y yo participamos activamente en las partes experimentales del proyecto y estamos llevando a cabo los análisis de estos datos.

Modelado de las limitaciones evolutivas de las secuencias reguladoras eucariotas

Ahora tenemos datos extensos de secuencias comparativas para moscas de la fruta (12 genomas de Drosophila) y levaduras (muchos genomas de hongos), y estamos utilizando estos datos para caracterizar cómo los bloques de construcción individuales de secuencias reguladoras (sitios de unión de factores de transcripción) y estructuras de orden superior (por ejemplo, desarrollo potenciadores) evolucionan. Estamos particularmente interesados ​​en comprender cómo la selección para mantener los sitios de unión del factor de transcripción afecta la evolución de las secuencias diana y cómo la plasticidad extensa que se observa en la organización de los potenciadores del desarrollo está relacionada con su función.

Caracterización y modelado de la variación de la red transcripcional dentro y entre especies de Drosophila

Mi laboratorio está aplicando los métodos de imágenes fluorescentes de alta resolución desarrollados para D. melanogaster analizar sistemáticamente la expresión génica y diseccionar redes reguladoras, en otros Drosophila especies y en varias líneas endogámicas de D. melanogaster. Los datos experimentales detallados que estamos generando para D. melanogaster, y las secuencias del genoma de 12 especies de Drosophila son un recurso tremendo para estudiar la evolución de la regulación genética. Sin embargo, es difícil estudiar los cambios en la secuencia sin comprender el contexto en el que existen estas secuencias y cómo esos cambios afectan la función. Si bien no es práctico repetir todos los experimentos realizados en D. melanogaster en todas las demás cepas y especies, estamos extendiendo varias clases de experimentos a cepas y especies seleccionadas para que podamos comprender mejor la variación reguladora en cada uno de sus múltiples niveles: cómo la variación de secuencia afecta la unión, cómo la variación de unión afecta la expresión y cómo la variación de expresión afecta el fenotipo.

Uso de la evolución de la secuencia reguladora para dilucidar los mecanismos de regulación génica

Para aprovechar la diversidad de secuencias fuera del género Drosophila, estamos secuenciando loci importantes para el desarrollo de varias familias de moscas no Drosophila para proporcionar información sobre los principios subyacentes de la regulación génica. Estamos particularmente interesados ​​en secuencias reguladoras que se han sometido a extensos reordenamientos en sus repertorios de sitios de unión sin alterar su función. Aunque se observan reordenamientos extensos entre las secuencias reguladoras de Drosophla, debe haber límites para esta plasticidad. Con el tiempo, las secuencias reguladoras acumularán solo aquellos cambios en sus repertorios de sitios de unión que sean compatibles con los complejos eventos bioquímicos necesarios para producir su salida reguladora específica. Por lo tanto, creemos que recopilar y caracterizar secuencias reguladoras con funciones similares pero secuencias diversas conducirá en última instancia a una mejor comprensión de los principios bioquímicos que relacionan la composición y organización de las secuencias reguladoras con su función. Para realizar dicho análisis, actualmente estamos secuenciando 20 loci específicos de 6 especies de cada una de las familias Sepsidae (moscas insignia), Tephritidae (verdaderas moscas de la fruta) y Diopsidae (moscas de ojos de tallo). Elegimos estos taxones, que divergieron de Drosophila hace entre 100 y 150 millones de años, para proporcionar el equilibrio óptimo entre la divergencia de secuencia y la divergencia funcional. Estamos complementando el análisis de secuencia con el análisis experimental del desarrollo en especies seleccionadas de cada taxón, el examen de la actividad de los potenciadores de estas especies en D. melanogaster embriones y pruebas exhaustivas de hipótesis sobre la función y la evolución de la secuencia reguladora.

Publicaciones Seleccionadas

[copias de todos los documentos están disponibles en rana.lbl.gov]

Pollard DA, Moses AM, Iyer VN y Eisen MB (2006). Discordancia generalizada de árboles genéticos con árboles de especies en Drosophila: evidencia de una clasificación de linaje incompleta. Genética PLoS 2(10): e173.

Moses AM, Pollard DA, Nix DA, Iyer VN, Li XY, Biggin MD, Eisen MB (2006). Recambio a gran escala de los sitios de unión del factor de transcripción funcional en Drosophila. Biología Computacional PLoS 2(10): e130.

Pollard DA, Moses AM, Iyer VN y Eisen MB. Detectar los límites de la conservación de elementos reguladores y la estimación de la divergencia utilizando múltiples alineaciones por pares y múltiples. BMC Bioinformático 7(1):376.

Chiang DY, Nix DA, Shultzaberger RK, Gasch AP, Eisen MB (2006).Requisitos de arquitectura de promotores flexibles para el reclutamiento de coactivadores. Biología Molecular BMC 7(1):16.

Gasch AP, Moses AM, Chiang DY, Fraser HB, Berardini M y Eisen MB (2004). Conservación y evolución de cis-sistemas reguladores en hongos Ascomycete. Biología PLoS 2(12): e398.

Moses AM, Chiang DY, Pollard DA, Iyer VN y Eisen MB (2004). MONO: identificación de sitios de unión de factores de transcripción conservados en múltiples alineaciones utilizando un modelo evolutivo específico de sitio de unión. Biología del genoma 5(12): R98.

Berman BP, Pfeiffer BD, Laverty TR, Salzberg SL, Rubin GM, Eisen MB y Celniker SE (2004). Identificación computacional de potenciadores del desarrollo: conservación y función de grupos de sitios de unión de factores de transcripción en Drosophila melanogaster y Drosophila pseudoobscura. Biología del genoma 5(9): R61.

Moses AM, Chiang DY, Kellis M, Lander ES y Eisen MB (2003). Posición de la variación específica en la tasa de evolución en los sitios de unión del factor de transcripción Biología Evolutiva BMC 3(19).

Berman BP, Nubu Y, Pfeiffer BD, Tomancak P, Celniker SE, Levine M, Rubin GM y Eisen MB (2002). Explotación de la agrupación de sitios de unión del factor de transcripción para identificar cis-módulos reguladores involucrados en la formación de patrones en el Drosophila genoma. Proc Natl Acad Sci EE. UU. 99, 757-62.


Archivos de datos adicionales

Están disponibles los siguientes archivos de datos adicionales. Archivo de datos adicional 1: Tejidos analizados en este estudio. Los tejidos en la parte superior, resaltados en color, son los que se consideran entre los diez tipos de tejidos más comunes. Aquellos con coloración idéntica se combinaron (promediando intensidades normalizadas) para el análisis de la conservación de la expresión génica entre los diez tejidos comunes. Archivo de datos adicional 2: datos de expresión génica de microarrays obtenidos en este estudio. Los clustergrams muestran los conjuntos de datos de microarrays en pollo, rana y pez globo, mostrados como relación de expresión relativa (ver Materiales y métodos) de cada gen dentro de cada uno de los 20 tejidos perfilados. Las filas y columnas se ordenaron de forma independiente para cada conjunto de datos, y las ramas de alto nivel se rompieron y reorganizaron para obtener una apariencia diagonal como se describe en [44]. Archivo de datos adicional 3: Dendrograma de correlaciones entre diez tejidos comunes, utilizando 1 - correlación de Pearson y vinculación promedio de más de 3.074 genes. Archivo de datos adicional 4: categorías de ontología genética que tienden a expresarse en gran medida en cada uno de los diez tejidos comunes. Se muestran categorías seleccionadas de procesos biológicos de GO enriquecidas entre genes altamente expresados ​​dentro de cada uno de los diez tejidos comunes en cada especie. El tejido y el orden de la categoría GO se organizaron manualmente en el mapa de calor. (Se proporciona una matriz completa de las puntuaciones de WMW en el archivo de datos adicional 13). Archivo de datos adicional 5: Matriz binaria de genes clasificados como con eventos de expresión totalmente conservados, según la intensidad del punto de microarrays clasificados, en cinco umbrales diferentes (1/6, 1 / 5, 1/4, 1/3, 1/2). Archivo de datos adicional 6: Distribuciones acumulativas que resumen las comparaciones por pares de la conservación de la expresión génica utilizando la medida de correlación de Pearson. Las distribuciones acumuladas muestran la proporción de los 3.074 genes con Pearson r (intensidades normalizadas) por debajo del valor que se muestra en el eje horizontal, para ortólogos reales (verde) y genes emparejados aleatoriamente (azul). Archivo de datos adicionales 7: matriz de características utilizada para comparar medidas de conservación de expresión con otros atributos de genes individuales, con correlaciones de Spearman y pag-valores. Archivo de datos adicional 8: WMW pag-valores para atributos de genes categóricos, con rangos determinados por la conservación relativa de la expresión génica por la correlación de Pearson mediana para cada especie contra Tetraodon. Archivo de datos adicional 9: Distribución acumulativa de las puntuaciones de EEL para la ortología real y permutada entre humanos y peces globo. Archivo de datos adicional 10: Desglose de la proporción de todos los genes en cada especie que se expresan dentro de cada tejido. Archivo de datos adicional 11: Lista de genes clasificados como TF sobre la base de contener un dominio de unión al ADN conocido. Archivo de datos adicional 12: Clustergrams que muestran correlaciones de Spearman y pag-valores para las comparaciones de la conservación de la expresión génica frente a otras propiedades génicas. Archivo de datos adicional 13: enriquecimiento de WMW pag-valores de genes asociados con anotaciones de procesos biológicos de GO expresados ​​dentro de cada tejido de cada especie (matriz completa utilizada para crear un archivo de datos adicional 4).


Abstracto

Las especies evaluadas como amenazadas por la Unión Internacional para la Conservación de la Naturaleza (UICN) muestran evidencia de una disminución del tamaño de la población. La diversidad genética se pierde por esta disminución, lo que reduce el potencial adaptativo de la especie y aumenta su riesgo de extinción en un entorno cambiante. En este estudio, recopilamos un extenso conjunto de datos de diversidad de nucleótidos en el gen mitocondrial COI (subunidad I de la citocromo C oxidasa) para 4.363 especies animales evaluadas por la UICN y encontramos niveles significativamente reducidos de diversidad en especies amenazadas de clases de animales longevos. Luego, construimos un marco comparativo adquiriendo el intervalo de confianza (IC) del 95% de los valores medios de la diversidad de nucleótidos COI en muestras bootstrap de especies no amenazadas. Finalmente, probamos el marco comparativo con datos de las especies de bivalvos en peligro de extinción, Pinna nobilis. Concluimos que la diversidad de nucleótidos en COI es un buen proxy para una primera evaluación del estado de conservación de las poblaciones de especies, donde se carece de conocimientos previos y es difícil realizar un censo.


Agradecimientos

Agradecemos a Eoghan Harrington y a los miembros del grupo Bork de EMBL por sus útiles debates y su ayuda. También agradecemos a Sergej Andrejev por la ayuda en la implementación de FCA. Deseamos agradecer a Jean-Louis Petit por su excelente asistencia técnica ya Sabine Tricot por su experiencia en LC / MS. Agradecemos también a Véronique de Berardinis por darnos acceso a la colección de cepas bacterianas Genoscope. La investigación que condujo a estos resultados ha recibido financiación del Consejo de Investigación de Ciencias Naturales e Ingeniería de Canadá (NSERC), CEA, CNRS, la Universidad de Evry y EMBL. Agradecemos a Y. Yuan y al servicio de TI EMBL por el soporte técnico y computacional

Contribuciones de autor: PB diseñó y supervisó este estudio. TY realizó todos los análisis bioinformáticos. TY y ASW analizaron los datos. PB, TY y ASW escribieron el manuscrito. JR contribuyó al diseño de este estudio. KRP y AZ contribuyeron al modelado metabólico. NP, AP y MS realizaron los experimentos. JW brindó soporte técnico y asesoramiento conceptual.


Ver el vídeo: Genoma (Junio 2022).


Comentarios:

  1. Moogushakar

    Por favor llegue al punto.

  2. Sagar

    El fantástico :)

  3. Cuilean

    Considero que no estás bien. Puedo probarlo. Escríbeme en PM, hablaremos.

  4. Kyner

    Estoy seguro de que estás equivocado.



Escribe un mensaje