Información

Haplotipo en fase HapMap 3

Haplotipo en fase HapMap 3


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Necesito obtener datos de haplotipos en fase de HapMap 3. ¿Dónde puedo encontrarlo?

De hecho, necesito estos datos para poblaciones específicas y un gen específico. ¿Cuál es la forma más sencilla de encontrar datos?

Espero encontrar una respuesta. ¡Gracias!


Aquí está la dirección FTP. Dentro encontrará la carpeta phase_3. Si tiene otras preguntas, consulte esta página (el enlace al servicio de asistencia técnica se encuentra en la parte inferior de la página).


Proyecto Internacional HapMap

La elucidación de todo el genoma humano ha hecho posible nuestro esfuerzo actual para desarrollar un mapa de haplotipos del genoma humano. El mapa de haplotipos, o "HapMap", es una herramienta que permite a los investigadores encontrar genes y variaciones genéticas que afectan la salud y la enfermedad.

La secuencia de ADN de dos personas es idéntica en un 99,5 por ciento. Sin embargo, las variaciones pueden afectar en gran medida el riesgo de enfermedad de una persona. Los sitios en la secuencia de ADN donde los individuos difieren en una sola base de ADN se denominan polimorfismos de un solo nucleótido (SNP). Los conjuntos de SNP cercanos en el mismo cromosoma se heredan en bloques. Este patrón de SNP en un bloque es un haplotipo. Los bloques pueden contener una gran cantidad de SNP, pero unos pocos SNP son suficientes para identificar de forma única los haplotipos en un bloque. El HapMap es un mapa de estos bloques de haplotipos y los SNP específicos que identifican los haplotipos se denominan SNP de etiqueta.

El HapMap es valioso al reducir el número de SNP necesarios para examinar el genoma completo en busca de asociación con un fenotipo desde los 10 millones de SNP que existen hasta aproximadamente 500.000 SNP de etiquetas. Esto hace que los enfoques de exploración del genoma para encontrar regiones con genes que afecten a enfermedades sean mucho más eficientes y completos, ya que no se desperdicia el esfuerzo escribiendo más SNP de los necesarios y se pueden incluir todas las regiones del genoma.

Además de su uso en el estudio de asociaciones genéticas con enfermedades, el HapMap es un recurso poderoso para estudiar los factores genéticos que contribuyen a la variación en respuesta a factores ambientales, en la susceptibilidad a infecciones y en la efectividad y respuestas adversas a medicamentos y vacunas. Todos estos estudios se basan en la expectativa de que haya frecuencias más altas de los componentes genéticos contribuyentes en un grupo de personas con una enfermedad o una respuesta particular a un fármaco, vacuna, patógeno o factor ambiental que en un grupo de personas similares sin la enfermedad. o respuesta. Usando solo los SNP de etiqueta, los investigadores pueden encontrar regiones cromosómicas que tienen diferentes distribuciones de haplotipos en los dos grupos de personas, las que tienen una enfermedad o respuesta y las que no. Luego, cada región se estudia con más detalle para descubrir qué variantes en qué genes de la región contribuyen a la enfermedad o la respuesta, lo que conduce a intervenciones más efectivas. Esto también permite el desarrollo de pruebas para predecir qué medicamentos o vacunas serían más efectivos en individuos con genotipos particulares para genes que afectan el metabolismo de los medicamentos.

Información, eventos e informes de proyectos internacionales de HapMap

Información de HapMap
    [hapmap.ncbi.nlm.nih.gov]
    El sitio web de la asociación del Proyecto HapMap de científicos y agencias de financiación de Canadá, China, Japón, Nigeria, Reino Unido y Estados Unidos.
    [hapmap.ncbi.nlm.nih.gov]

  • Comunicado de prensa del proyecto HapMap: Consorcio internacional lanza proyecto de mapeo de variación genética 29 de octubre de 2002
Eventos

    El webcast del tutorial del 27 de octubre de 2005: Cómo utilizar los datos de HapMap.
      [hapmap.ncbi.nlm.nih.gov]
      Materiales de apoyo para el tutorial de dos horas sobre el uso efectivo de HapMap. Incluye una introducción al HapMap, el uso del HapMap para estudios de asociación, la selección de etiquetas SNP, la mejora de los análisis utilizando chips con SNP preseleccionados y una guía de las páginas web de HapMap.
    Informes de reuniones

    Documentos del proyecto internacional HapMap

    Constortium Internacional HapMap. Un mapa de haplotipos humanos de segunda generación de más de 3,1 millones de SNP. Naturaleza449: 851-862. 2007. [Texto completo]

    Constortium Internacional HapMap. Información complementaria para: Un mapa de haplotipos humanos de segunda generación de más de 3,1 millones de SNP. Naturaleza449: 1-38. 2007. [Texto completo]

    Detección y caracterización de selección positiva en todo el genoma en poblaciones humanas. Naturaleza449: 913-919. 2007. [Texto completo]

    Consorcio Internacional HapMap. Un mapa de haplotipos del genoma humano. Naturaleza437: 1229-1320. 2005. [Texto completo]

    El Consorcio Internacional HapMap. El Proyecto Internacional HapMap. Naturaleza426: 789-796. 2003. [Texto completo]

    El Consorcio Internacional HapMap. Integrando la ética y la ciencia en el Proyecto Internacional HapMap. Genética de la naturaleza, 5: 467-475. 2004. [Texto completo]

    Thorisson, G.A., Smith A.V., Krishnan L. y Stein, L.D. El sitio web del Proyecto Internacional HapMap. Investigación del genoma, 15: 1592-1593. 2005. [PubMed] [Genome Research]

    Documentos relacionados con el proyecto internacional HapMap

    Clark, A.G., Hubisz, M.J., Bustamante C.D., Williamson, S.H. y Nielsen, R. Sesgo de determinación en estudios de polimorfismo en todo el genoma humano. Investigación del genoma, 15: 1496-1502. 2005. [PubMed]

    Goldstein, D.B. y Cavalleri, G.L. Genomics: Comprendiendo la diversidad humana. Naturaleza437: 1241-1242. 2005. [Texto completo] [nature.com]

    Hinds, D.A., Stuve, L.L., Nilsen, G.B., Halperin, E., Eskin, E., Ballinger, D.G., Frazer, K.A. y Cox, D.R. Patrones de genoma completo de variación común del ADN en tres poblaciones humanas. Ciencias, 307: 1072-1079. 2005. [PubMed]

    Myers, S., Bottolo, L., Freeman, C., McVean, G. y Donnelly, P. Un mapa a escala fina de tasas de recombinación y puntos calientes en el genoma humano. Ciencias310: 321-324. 2005. [PubMed]


    Instituto amplio

    Este es borrador de la versión 1 para el genotipado de SNP de todo el genoma y la secuenciación dirigida en muestras de ADN de una variedad de poblaciones humanas (a veces denominadas muestras "HapMap 3").

    Este comunicado contiene los siguientes datos:

    • Los datos del genotipo SNP generados a partir de 1115 muestras, recopilados mediante dos plataformas: Illumina Human1M (del Wellcome Trust Sanger Institute) y Affymetrix SNP 6.0 (del Broad Institute). Los datos de las dos plataformas se han combinado para esta versión.
    • Datos de resecuenciación basados ​​en PCR (por el Centro de secuenciación del genoma humano del Baylor College of Medicine) en diez regiones de 100 kb (denominadas colectivamente "ENCODE 3") en 712 muestras.

    Dado que se trata de una versión preliminar, le pedimos que visite este sitio con regularidad para obtener actualizaciones y nuevas versiones.

    Instituciones de producción de datos

    Agencias de financiamiento

    HapMap 3 muestras

    La colección de muestras de HapMap 3 comprende 1.301 muestras (incluidas las 270 muestras originales utilizadas en la Fase I y II del Proyecto Internacional HapMap) de 11 poblaciones, enumeradas a continuación alfabéticamente por sus etiquetas de 3 letras. Para obtener más información sobre estas muestras, haga clic aquí.

    etiqueta muestra de población número de muestras
    ASW Ascendencia africana en el suroeste de EE. UU. 90
    CEU Residentes de Utah con ascendencia de Europa del Norte y Occidental de la colección CEPH 180
    CHB Chino Han en Beijing, China 90
    CHD Chino en el área metropolitana de Denver, Colorado 100
    GIH Indios gujarati en Houston, Texas 100
    JPT Japonés en Tokio, Japón 91
    LWK Luhya en Webuye, Kenia 100
    MEX Ascendencia mexicana en Los Ángeles, California 90
    MKK Masai en Kinyawa, Kenia 180
    TSI Toscanos en Italia 100
    YRI Yoruba en Ibadan, Nigeria 180

    CODIFICAR 3 Regiones

    Cinco de las diez regiones ENCODE 3 se superponen con las regiones HapMap-ENCODE, las otras cinco son regiones seleccionadas al azar de las regiones objetivo ENCODE (excluyendo las 10 regiones HapMap-ENCODE). Todas las regiones ENCODE 3 tienen un tamaño de 100 kb y están centradas dentro de cada región ENCODE respectiva. Lea más sobre el proyecto ENCODE aquí.

    región cromosoma coordenadas (NCBI build 36) estado
    ENm010 7 27,124,046-27,224,045 HapMap-ENCODE
    ENr321 8 119,082,221-119,182,220 HapMap-ENCODE
    ENr232 9 130,925,123-131,025,122 HapMap-ENCODE
    ENr123 12 38,826,477-38,926,476 HapMap-ENCODE
    ENr213 18 23,919,232-24,019,231 HapMap-ENCODE
    ENr331 2 220,185,590-220,285,589 Nuevo
    ENr221 5 56,071,007-56,171,006 Nuevo
    ENr233 15 41,720,089-41,820,088 Nuevo
    ENr313 16 61,033,950-61,133,949 Nuevo
    ENr133 21 39,444,467-39,544,466 Nuevo

    Contenido de datos de esta versión

    etiqueta número de muestras número de QC + SNP número de QC + SNP polimórficos
    ASW 71 1632186 1536247
    CEU 162 1634020 1403896
    CHB 82 1637672 1311113
    CHD 70 1619203 1270600
    GIH 83 1631060 1391578
    JPT 82 1637610 1272736
    LWK 83 1631688 1507520
    MEX 71 1614892 1430334
    MKK 171 1621427 1525239
    TSI 77 1629957 1393925
    YRI 163 1634666 1484416
    consenso 1115 1525445 1490422

    etiqueta número de muestras
    ASW 55
    CEU 119
    CHB 90
    CHD 30
    GIH 60
    JPT 91
    LWK 60
    MEX 27
    MKK 0
    TSI 60
    YRI 120
    total 712

    Control de calidad para esta versión

    La concordancia de genotipado entre las dos plataformas fue 0,9931 (calculada sobre 249889 SNP superpuestos). Los datos de las dos plataformas se fusionaron usando PLINK (--merge-mode 1), manteniendo solo las llamadas de genotipo si hay consenso entre las llamadas de genotipo que no faltan (es decir, el genotipo combinado se establece como faltante si las dos plataformas dan diferentes, no -llamadas perdidas).

    El control de calidad a nivel individual fue realizado por separado por los dos sitios. En esta versión solo se mantuvieron los individuos con datos de genotipo en ambas plataformas. Se utilizaron los siguientes criterios para mantener los SNP en los conjuntos de datos de QC +:

    • Hardy-Weinberg p & gt0.000001 (por población)
    • faltantes & lt0.05 (por población)
    • & lt3 errores de Mendel (por población solo se aplica a YRI, CEU, ASW, MEX, MKK)
    • El SNP debe tener un rsID y mapearse a una ubicación genómica única

    El conjunto de datos de "consenso" contiene datos de 1115 individuos (558 hombres, 557 mujeres, 924 fundadores y 191 no fundadores), y solo se conservan los SNP que aprobaron el control de calidad en todas las poblaciones (la tasa general de llamadas es 0,998). El conjunto de datos "consenso | polimórfico" tiene 35023 SNP monomórficos (en todo el conjunto de datos) eliminados.

    En todos los archivos de genotipos, los alelos se expresan como si estuvieran en la hebra (+ / fwd) de NCBI build 36.

    Las llamadas de variantes basadas en secuencias se generaron mediante mosaico con conjuntos de cebadores de PCR espaciados aproximadamente a 800 bases entre las regiones ENCODE 3. Después de filtrar lecturas de baja calidad, los datos se analizaron con SNP Detector versión 3, para el descubrimiento de sitios polimórficos y la llamada de genotipos individuales. Luego se aplicaron varios filtros de control de calidad. Específicamente, filtramos los amplicones de PCR con demasiados SNP y los SNP con llamadas de alelos discordantes en varios amplicones. También filtramos los SNP con baja completitud en las muestras, o con demasiadas llamadas de genotipo en conflicto en dos hebras diferentes.

    En el conjunto de datos QC +, filtramos las muestras con baja completitud y filtramos los SNP con una tasa de llamada baja en cada población (& lt80%) y no en HWE (p & lt0.001). En el conjunto de datos QC +, la tasa general de falsos positivos es

    3,2%, basado en un número limitado de ensayos de validación.

    Advertencias en esta versión

    • En esta versión faltan los SNP de Illumina que son A / T o C / G debido a problemas de varamiento.
    • En esta versión faltan los SNP de Illumina que son mitocondriales (ya que no tienen rsID).
    • Es posible que queden pocos SNP (Illumina) en esta versión que todavía estén en la cadena (- / rev) de NCBI build 36, pero no son SNP A / T o C / G, por lo que son fáciles de identificar en sentido descendente.

    Aún no se han validado todas las llamadas variantes: estimamos que actualmente hay una tasa de falsos positivos de

    12% entre todas las llamadas, con una tasa ligeramente superior (

    14%) si se consideran solo los singleton. La validación adicional está en curso. También está en curso la secuenciación por PCR de muestras adicionales (MKK).

    Cómo descargar esta versión

      - tarball de QC + datos de genotipo polimórfico por población, formateados como archivos PLINK PED y MAP [833 MB] - Archivo PED de QC + datos de genotipo polimórfico (consenso) [738 MB] - Archivo MAP de QC + datos de genotipo polimórfico (consenso) [11 MB ] - relaciones familiares (pedigrí) y etiquetas de población para 1.301 muestras de HapMap 3 [37 KB] - lista de las 270 muestras utilizadas en la Fase I y II del Proyecto Internacional HapMap [2 KB]

    Para acceder a los datos de resecuenciación de PCR de ENCODE III, visite el sitio ftp público de BCM-HGSC en ftp://ftp.hgsc.bcm.tmc.edu/pub/data/Encode o descárguelo aquí:

      - Archivo README [3 KB] - Lista de 712 muestras secuenciadas no relacionadas [61 KB] - Genotipos de 10.076 sitios SNP por 712 muestras [641 KB] - QC + genotipos de 6.223 sitios SNP por 692 muestras [9 MB]

    Planes de análisis

    A continuación se enumeran los planes de análisis que estamos llevando a cabo actualmente:

    • Estimación de la frecuencia de alelos SNP
    • Diferenciación poblacional
    • Análisis de desequilibrio de ligamiento
    • Etiquetado SNP
    • Eficiencia de imputación
    • Ubicaciones genómicas de las NVC humanas
    • Genotipos de NVC
    • Propiedades genéticas poblacionales de las CNV (frecuencias alélicas, diferenciación poblacional, etc.)
    • Tasa de mutación (frecuencia de NVC de novo) y posibles mecanismos mutacionales
    • Propiedades de desequilibrio de ligamiento de las CNV
    • Etiquetado e imputación de CNV
    • Señales de selección en torno a las CNV
    • Asociación de SNP y CNV con fenotipos de expresión

    Política de divulgación de datos

    La publicación de datos previos a la publicación de grandes proyectos científicos que generan recursos fue el tema de una reunión celebrada en enero de 2003, la reunión "Fort Lauderdale". Una declaración de política de NHGRI basada en el resultado de la reunión se encuentra en el sitio web de NHGRI (http://www.genome.gov/10506537).

    Las recomendaciones de la reunión de Fort Lauderdale abordan las funciones y responsabilidades de los productores de datos, los usuarios de datos y los financiadores de "proyectos de recursos comunitarios", con el objetivo de establecer y mantener un equilibrio adecuado entre los intereses de los usuarios de datos en el acceso rápido a los datos y las necesidades de los productores de datos para recibir reconocimiento por su trabajo. La conclusión de los asistentes a la reunión fue que el uso responsable de los datos es necesario para garantizar que los productores de datos de primer nivel continúen participando en tales proyectos y produzcan y publiquen rápidamente valiosos conjuntos de datos a gran escala. El "uso responsable" se definió como permitir a los productores de datos tener la oportunidad de publicar los análisis globales iniciales de los datos, tal como se articuló al comienzo del proyecto. Al hacerlo, también se asegurará de que los datos generados se describan en su totalidad.


    Encontrar y navegar a una región de interés

    El navegador del genoma en el sitio web de HapMap proporciona acceso a regiones pequeñas y medianas del genoma para este tipo de exploración interactiva. Este protocolo básico describe cómo empezar a utilizar el navegador del genoma.

    1. Con cualquier navegador web moderno, vaya a www.hapmap.org.

    2. Haga clic en el enlace "Examinar datos del proyecto" en la sección "Datos del proyecto" de la página de inicio de hapmap.org.

    Esto lo llevará a un navegador de genoma basado en el paquete GBrowse (Figura 1).

    La página inicial que se muestra al comenzar a utilizar el navegador del genoma HapMap por primera vez. Dependiendo de la configuración de idioma de su computadora, esta página puede aparecer en uno de varios idiomas, aunque esta sección asume inglés. También se puede acceder a la página directamente en http://www.hapmap.org/cgi-perl/gbrowse/.

    3. Ubique el cuadro de búsqueda "Landmark or Region" e ingrese un término de búsqueda.

    Cualquiera de los siguientes tipos de términos de búsqueda funcionará:

    Un nombre de cromosoma (p. Ej., "Chr19")

    Una posición cromosómica con el formato Cromosoma: inicio..parar (p. Ej., "Cr10: 25000..300000")

    El nombre de un SNP con su nombre "rs" dbSNP (p. Ej., "Rs6870660")

    Un gen que usa su número de acceso NCBI RefSeq (por ejemplo, "NM 153254")

    Un gen que usa su nombre común (p. Ej., "BRCA2")

    Una banda cromosómica (p. Ej., "5q31")

    4. Después de ingresar uno de estos puntos de referencia, presione el botón "Buscar" (o presione "Enter").

    Esto devolverá una página que muestra la región que rodea la característica solicitada (Figura 2). Si varias características coinciden, la página mostrará un resumen gráfico, incluida la ubicación genómica, de todas las características posibles y le pedirá que elija una.

    El navegador del genoma HapMap que muestra una característica solicitada.

    En la parte superior de la página devuelta hay una sección de "Descripción general" que muestra el mapa citogenético del cromosoma seleccionado. Un cuadro rojo indica la sección del cromosoma a la vista.

    A continuación se muestra una descripción general de la región, que muestra 2 Mb que rodean la región de interés. Nuevamente, un cuadro rojo indica la sección del cromosoma.

    Debajo hay una sección de "Detalles" que tiene pistas horizontales que muestran varios tipos de datos. De forma predeterminada, solo se muestra inicialmente una pequeña cantidad de pistas genómicas para la región. Las dos pistas más útiles son la pista de "SNP genotipados" que proporciona información sobre la posición, los alelos y las frecuencias alélicas de cada SNP caracterizado por el proyecto HapMap, y la pista de genes Entrez, que muestra las posiciones y estructuras de la codificación de proteínas humanas. genes.

    Se encuentran disponibles varias pistas de información adicional, que pueden ayudar en particular a comprender y diseñar los estudios de asociación. Se encuentran disponibles varios análisis derivados de los datos de HapMap, así como de fuentes de datos externas (tabla 1). Particularmente dignos de mención son una serie de pistas relacionadas con la variación estructural en el genoma, así como los enlaces a la base de datos Reactome (http://www.reactome.org Vastrik y col. 2007), un recurso curado de vías y reacciones centrales en biología humana.

    De forma predeterminada, el navegador del genoma va a la versión más reciente de los datos de HapMap. Las versiones anteriores están disponibles a través de esta interfaz y las diferentes versiones se pueden seleccionar en el menú "Fuente de datos".

    5. Utilice los controles en la parte superior de la página para desplazarse hacia la izquierda, hacia la derecha o para cambiar la ampliación de la región. Haga clic en cualquier lugar de "Descripción general", "Región" o la escala en la parte superior de la sección "Detalles" para centrar la vista en esta posición.

    La pista SNP genotipada cambia su apariencia de una manera apropiada a la escala de la imagen:

    A pequeños aumentos, los SNP genotipados aparecen como triángulos equiláteros. Estos colores se pueden personalizar seleccionando el elemento "Resaltar propiedades de SNP" en el menú "Informes y análisis".

    A mayores aumentos, los SNP genotipados cambian para mostrar los alelos asociados con el SNP. El alelo que se muestra en azul es el alelo presente en la secuencia genómica de referencia en esa ubicación, y el alelo rojo es el otro alelo presente en el SNP.

    Cuando se amplía aún más, los SNP genotipados rastrean los cambios para mostrar gráficos circulares que representan la frecuencia alélica para cada población genotipada. La cuña azul del gráfico circular indica la frecuencia del alelo que aparece en la secuencia del genoma de referencia. La cuña roja es la frecuencia del alelo alternativo. La pantalla de gráfico circular proporciona al investigador la capacidad de distinguir fácilmente los SNP que son altamente polimórficos en las cuatro poblaciones de HapMap y, por lo tanto, es más probable que sean polimórficos también en otras poblaciones. Alternativamente, el investigador puede identificar SNP que son más polimórficos en una sola población y, por lo tanto, son adecuados como marcadores en cribados genéticos específicos de la población.

    6. Haga clic en el glifo de un SNP individual para ver una página basada en texto con recuentos detallados de genotipos y alelos e información del ensayo.

    Esto proporciona al investigador la información necesaria para generar un ensayo para el SNP, incluidas las secuencias flanqueantes izquierda y derecha necesarias para crear cebadores de PCR.

    I. Haga clic en el enlace de hipertexto a dbSNP (http://www.ncbi.nlm.nih.gov/SNP Wheeler et al.2007) para obtener más información sobre cómo se descubrió por primera vez el SNP y cualquier otra información genética poblacional que pueda existir fuera del proyecto HapMap.

    ii. Haga clic en el enlace a Ensembl (http://www.ensembl.org Hubbard et al. 2007) para llegar a un sitio donde se pueda examinar el impacto estructural del SNP en la secuencia de codificación, sitios de empalme y otras características de genes cercanos.

    Visualización de la extensión del desequilibrio de ligamiento (LD)

    Cuando un investigador diseña un estudio para detectar la asociación entre una variación alélica común de un gen y una enfermedad de interés, el conocimiento de la extensión de LD en la región es esencial para reducir la cantidad de SNP que deben genotiparse en toda la región. Si hay un LD alto en la región, entonces solo unos pocos SNP necesitan ser genotipados porque su enlace con otros SNP en la región servirá como sustitutos de los genotipos de SNP no caracterizados. Por el contrario, una región de LD baja necesitará muestrearse más intensamente porque el estado alélico de un SNP genotipado será un mal predictor del estado de los SNP no genotipados. La determinación de patrones de LD en las poblaciones caracterizadas por el proyecto HapMap ha sido uno de los principales objetivos de este proyecto. El Proyecto Internacional HapMap ha precalculado patrones de LD entre los SNP genotipados. Los datos se pueden descargar de forma masiva desde el sitio web de HapMap o navegar de forma interactiva utilizando el navegador del genoma de HapMap. El último método permite a los investigadores ver patrones de LD en contexto con la distribución de genes de interés.

    7. Para ver los datos de LD disponibles calculados previamente a partir de los genotipos de HapMap, busque una región de interés (consulte los Pasos 1-4).

    8. Seleccione el complemento "Anotar trazado LD" en el menú "Informes y análisis".

    9. Haga clic en el botón "Configurar" para que aparezca una página de configuración que le permitirá ajustar las propiedades de visualización a su gusto.

    Los parámetros clave en esta página son las poblaciones de HapMap para mostrar, qué medida de LD usar (elección de D ′, r 2 o logaritmo de las probabilidades [LOD]), si la gráfica de triángulo debe estar orientada con el vértice apuntando hacia arriba o hacia arriba. hacia abajo, esquema de color, y si el tamaño de la caja en la parcela debe ser proporcional a la distancia genómica entre marcadores o de tamaño uniforme (ver Fig. 3).

    La página de configuración del navegador del genoma HapMap permite al usuario personalizar numerosas características de estilo de la visualización de datos.

    Las métricas tradicionales D 'yr 2 reflejan el grado de LD por pares entre dos SNP, pero difieren en su sensibilidad y especificidad en diferentes escalas de tamaño. Ver Mueller (2004) para una discusión de la aplicación práctica de estas medidas. La métrica LOD utilizada en la visualización del sitio web de HapMap se describe en Daly et al. (2001).

    10. Haga clic en el botón "Configurar" para volver a la pantalla principal, que ahora mostrará un gráfico de triángulo para cada población seleccionada (ver Fig. 4).

    El navegador del genoma HapMap que muestra un diagrama de triángulo de los valores de LD para múltiples poblaciones. Se muestra una región típica de LD que muestra "parches" de LD alta separados por límites relativamente bien definidos de LD baja. La gráfica de triángulo se construye conectando cada par de SNP a lo largo de líneas a 45 ° de la línea de seguimiento horizontal. El color del diamante en la posición donde se cruzan dos SNP indica la cantidad de LD, los colores más intensos indican LD más alto. Un rombo gris indica que faltan datos.

    En regiones con muchos SNP genotipados, el complemento LD aumenta significativamente el tiempo que tarda la página web en cargarse. Puede apagar la pantalla LD en cualquier momento desmarcando la casilla de verificación correspondiente en la sección "Pistas" del navegador. La configuración del complemento LD se almacena en una cookie del navegador, por lo que no es necesario visitar la página de configuración cada vez que se enciende el complemento.

    Selección y visualización de etiquetas SNP

    Los SNP de etiquetas son un conjunto reducido de SNP que capturan gran parte de la LD en regiones que pueden usarse en estudios de asociación para reducir el número de SNP necesarios para detectar la asociación basada en LD entre un rasgo de interés y una región del genoma. Para regiones pequeñas, es posible seleccionar etiquetas-SNP a mano usando las visualizaciones gráficas y numéricas de LD generadas anteriormente, pero para obtener mejores resultados, se recomienda que el investigador utilice un algoritmo que elija etiquetas-SNP maximizando formalmente el número de SNP vinculados capturados por el conjunto de etiquetas. No existe un conjunto único de SNP de etiquetas que satisfaga los diversos requisitos de cada diseño de estudio de asociación. Los investigadores pueden desear seleccionar SNP que funcionen bien con un sistema de genotipado particular (por ejemplo, aquellos que se han incluido en un "chip SNP" en particular) y pueden estar dispuestos a aceptar diferentes compensaciones entre el costo de genotipar una población de estudio y la fuerza de la asociación que pueden detectar. Por esta razón, el sitio web de HapMap no ofrece un conjunto estático de etiquetas-SNP preseleccionadas, sino que ofrece a los investigadores una herramienta para seleccionar de forma interactiva etiquetas-SNP según los criterios proporcionados por el usuario. Las listas de etiquetas-SNP se generan a partir de algoritmos en el programa Tagger (http://www.broad.mit.edu/mpg/tagger/ de Bakker y col. 2005).

    11. Navegue a una región de interés (consulte los pasos 1 a 4).

    12. En el menú "Informes y análisis", seleccione la opción "Anotar etiqueta SNP Picker".

    13. Presione “Configurar” para seleccionar las opciones deseadas para la selección de etiqueta-SNP (vea la Fig. 5).

    El navegador del genoma HapMap que muestra gráficamente los SNP de etiquetas, así como haplotipos en fases.

    Seleccionar una población y un algoritmo

    Carga de una lista de ID de SNP que se incluirán en el conjunto de etiquetas SNP

    Carga de una lista de SNP ID que se excluirán del conjunto de etiquetas SNP

    Cargar una lista de puntajes de diseño (prioridades) para cada SNP

    Selección de puntos de corte para el valor mínimo aceptable de LD y la frecuencia alélica para que los SNP se incluyan en el conjunto

    14. Haga clic en el botón "Configurar" para ejecutar el análisis y volver a la pantalla principal.

    Los resultados se muestran en una nueva pista de funciones (consulte Figura 5).

    Al igual que con la pantalla LD anterior (paso 10), la configuración se almacena en una cookie del navegador y la pista del complemento se puede desactivar cuando no se necesita.

    Visualización de haplotipos en fase

    Un investigador puede desear correlacionar el conjunto etiqueta-SNP seleccionado por el algoritmo selector de etiqueta-SNP con la estructura de haplotipo subyacente de la región. Una forma de hacer esto es activar simultáneamente las pistas LD y tag-SNP por pares (Pasos 7-10 y 11-14, respectivamente). Sin embargo, una alternativa es activar una pista que muestre los propios haplotipos en fase. Los datos de haplotipos en fase descritos en esta sección fueron generados por el Consorcio del Proyecto Internacional HapMap utilizando el programa PHASE versión 2.1 (Stephens y Donnelly 2003). Durante la fase, cada alelo en un genotipo se asigna a uno u otro cromosoma parental, utilizando un algoritmo de máxima verosimilitud que usa información de trío (linaje) en los grupos de población de HapMap, o, si la información de trío no está disponible, ajustando los datos a un modelo que minimiza el número de cruces históricos implícitos en la población. Los haplotipos escalonados se muestran como un gráfico en el que cada cromosoma de los individuos muestreados por el proyecto se representa como una línea de un píxel de altura, y cada alelo SNP se colorea arbitrariamente de azul o amarillo. Una región de LD alta aparecerá como una región en la que hay largas series de SNP que comparten alelos en múltiples cromosomas, lo que indica que hay poca recombinación entre ellos. Una región de LD baja aparecerá como un área donde los recorridos son más cortos y más fragmentarios.

    15. Navegue a una región de interés (consulte los pasos 1 a 4).

    16. Seleccione "Anotar visualización de haplotipos en fase" en el menú "Informes y análisis".

    17. Presione “Configurar” para configurar las opciones para la visualización de haplotipos.

    Las opciones le brindan la posibilidad de seleccionar la población para la cual mostrar la información del haplotipo.

    18. Después de seleccionar las poblaciones deseadas, haga clic en el botón "Configurar" para volver a la pantalla principal. Aparecerá una nueva pista de características para cada población seleccionada. Cada pista muestra los haplotipos para esa población usando el esquema de dos colores descrito anteriormente (ver Fig. 5).

    El orden de los cromosomas está determinado por una metodología de agrupación jerárquica rápida, que coloca juntos los cromosomas que comparten haplotipos similares.

    La ventaja de esta pantalla sobre la “pantalla triangular” LD por pares es que es más compacta y, por lo tanto, más adecuada para la visualización de grandes regiones. Esto facilita la correlación de la posición de los haplotipos comunes largos con los SNP elegidos por el selector de etiquetas-SNP. La desventaja de esta pantalla es que oculta gran parte de la estructura fina de LD en la región en particular, LD fuerte entre SNP que no son adyacentes entre sí.

    19. Para recuperar los genotipos detallados en fase, haga clic en la pista de la población deseada.

    Esto lo llevará a una página que proporciona la información del haplotipo en forma de tabla. Cada fila de la tabla es un cromosoma individual y cada columna es un SNP individual. El fondo de cada entrada de la tabla se establece en un color correspondiente al que se ve en la pista gráfica.


    Resultados

    Medición de la distancia genética en el MHC con SNP-nivel FS T

    Entre 25 Mb y 35 Mb en el cromosoma 6, un total de 1.607 SNP estaban presentes en nuestros datos que comprenden las ocho poblaciones japonesas y las cuatro poblaciones HapMap y SGVP. La distancia genética entre cada par de estas 12 poblaciones se midió mediante el nivel F de SNP promedioS T valores en estos 1.607 SNP. Entre las ocho poblaciones japonesas, Okinawa se destacó como la población más distinta, mostrando un mínimo FS T del 0,6% con Ehime y una F máximaS T del 1,0% con Fukuoka, Shimane y Tokio (Tabla complementaria 1). Las siete poblaciones japonesas restantes eran comparativamente más homogéneas, con distancias genéticas del orden de 0,1% a 0,3%; esta última cifra se observó en la comparación de pares de poblaciones que involucraban principalmente a Ehime. Las distancias genéticas calculadas a partir de los mismos 1.607 SNP entre el norte y el sur de China (CHB, CHS) y entre el norte y el sur de la India (GIH, INS) se utilizaron para comparar las distancias observadas en las poblaciones japonesas. La distancia entre CHB y CHS fue de 0,4%, mientras que la distancia entre GIH e INS fue de 0,5%, lo que sugiere que las poblaciones de Japón continental eran más homogéneas que los chinos Han del norte y sur de China en la región de MHC, mientras que Okinawa era más distinta de la de China. resto de las poblaciones japonesas del continente que el caso de las diferencias genéticas entre los indios gujarati y tamiles.

    Análisis de componentes principales de la estructura de la población

    En un PCA preliminar de 1.833 muestras con datos de todo el genoma en 240.332 SNP comunes en las ocho poblaciones japonesas y cuatro de evaluación comparativa, era evidente que las dos poblaciones del sur de Asia (GIH, INS) eran significativamente distintas de las poblaciones de Asia oriental (CHB, CHS, JPT, siete poblaciones japonesas), aunque también quedó claro que había tres subgrupos genéticos que correspondían a las muestras de Okinawa, chinos Han y japoneses continentales respectivamente (Fig. 2A). Las muestras de Okinawa se distinguieron claramente de las muestras del chino Han y del Japón continental de una manera que no sugirió que las muestras de Okinawa estuvieran mezcladas entre los japoneses continentales y los chinos Han (Fig.2A, B), ya que las muestras de Okinawa se encontraron en el espectro opuesto al chino Han en los respectivos componentes principales. Esto está de acuerdo con una serie de hallazgos en la historia de las poblaciones humanas en el archipiélago japonés, es decir, un modelo de estructura dual en las poblaciones del archipiélago japonés 40. En el PCA de 1.285 japoneses continentales, sin embargo, no hubo evidencia de ninguna subestructura observable entre las siete poblaciones en el análisis de datos de todo el genoma (Fig. 2C).

    Análisis de componentes principales a nivel de sujeto con datos de SNP de todo el genoma.

    Se muestran biplots para los dos primeros ejes de variaciones de tres análisis de componentes principales (PCA) diferentes de 240,332 SNP que están presentes en todo el genoma en las ocho poblaciones japonesas y las cuatro poblaciones de evaluación comparativa del este y sur de Asia. Los tres PCA diferentes se realizaron en (A) las 12 poblaciones (B) sólo las ocho poblaciones japonesas y las dos chinas han y (C) sólo las siete poblaciones del Japón continental. Cada círculo representa a un individuo de una población en particular y se le asigna un color único para esa población que se representa en la leyenda en el panel inferior derecho.

    También realizamos una serie de PCA a nivel de población utilizando el K × K matrices de distanciaK representa el número de poblaciones) construido a partir de los 1607 SNP en la región de 10 Mb en el cromosoma 6 (ver Materiales y métodos para detalles). Esto representó efectivamente la distancia genética usando la FS T métrica para cuantificar el alcance de las diferencias de frecuencia de alelos entre pares de poblaciones. Estos análisis distinguieron de manera similar a los asiáticos del sur y los chinos han de las muestras japonesas (Fig. 3A, B), así como las muestras de Okinawa de las muestras japonesas continentales (Fig. 3B), pero parecieron proporcionar una mayor resolución a las diferencias genéticas dentro de las siete poblaciones de Japón continental donde Ehime y Shimane parecían ser más distintas de las cinco poblaciones restantes (Fig. 3C). Estas observaciones fueron notablemente concordantes con lo que vimos para los datos de todo el genoma, especialmente cuando resumimos las observaciones en la Figura 2 al promediar las coordenadas del componente principal a nivel de muestra en cada población para producir una única coordenadas a nivel de población para esa población (Figura complementaria 1). Para investigar más a fondo la distinción observada entre Ehime y Shimane y las poblaciones restantes de Japón continental, agrupamos el FS T valores calculados para los 1607 SNP en todos los pares posibles de las siete poblaciones de Japón continental para producir una F generalS T distribución. Al identificar la FS T valores en el 1% superior, observamos que había una sobrerrepresentación significativa de los pares de población que involucraban a Ehime (PAGBinomio = 0,0011) y Shimane (PAGBinomio = 1,38 × 10 −15). La distinción entre Ehime y Shimane y el resto de las muestras de Japón continental se observó de manera similar en los PCA basados ​​en haplotipos en los seis genes HLA (Figura complementaria 2). En particular, las diferencias genéticas dentro de las siete poblaciones de Japón continental parecían ser más pronunciadas en las regiones de genes de Clase II (HLA-DR, -DQ y -DP) que en las regiones de genes de Clase I (HLA-A, -B y -C) (Suplementario Figura 2).

    Análisis de componentes principales a nivel de población con SNP en el MHC.

    Se muestran biplots para los dos primeros ejes de variaciones de las descomposiciones propias de las matrices de distancia que se calcularon a partir del promedio FS T valores entre pares de poblaciones en 1.607 SNP encontrados en el intervalo entre 25Mb y 35Mb del cromosoma 6 en las ocho poblaciones japonesas y las cuatro poblaciones de evaluación comparativa del este y sur de Asia. Se realizaron tres análisis diferentes, involucrando (A) las 12 poblaciones (B) sólo las ocho poblaciones japonesas y las dos chinas han y (C) sólo las siete poblaciones del Japón continental. Cada círculo representa una población en particular y está coloreado con el mismo color único para esa población, como se representa en la leyenda de la Fig.2.

    Diferencias de haplotipos entre poblaciones

    Los haplotipos para los 1.607 SNP se obtuvieron escalonando los datos del genotipo para las 12 poblaciones con BEAGLE. Esto nos permitió examinar la distribución de los principales haplotipos en cada uno de los seis genes HLA en cada una de estas poblaciones (Tabla 1). La definición de los haplotipos principales es bastante arbitraria. En nuestro estudio, para HLA-A, HLA-B, HLA-C, HLA-DR, definimos un haplotipo principal como poseedor de una frecuencia de población de al menos el 10% en cualquiera de las 12 poblaciones. Mientras que para HLA-DQ y HLA-DP, definimos un haplotipo principal como poseedor de una frecuencia de población de al menos el 6% en cualquiera de las 12 poblaciones. Esto se debe a la gran cantidad de haplotipos que se encuentran en un conjunto más grande de SNP en HLA-DQ y HLA-DP.

    Como era de esperar, hubo haplotipos específicos de ascendencia que se encontraron solo en el sur de Asia o en el este de Asia y la mayoría de los principales haplotipos en Japón se compartieron entre las diferentes poblaciones japonesas, excepto que las frecuencias de haplotipos variaron entre las poblaciones hasta cierto punto (Fig. 4, Figuras complementarias 3-7). Por ejemplo, en el caso de HLA-B, aunque había 373 haplotipos distintos de 74 SNP en este locus, solo había ocho haplotipos principales en las 12 poblaciones. Cinco de los ocho haplotipos principales estaban ausentes en las poblaciones del sur de Asia (H1, H2, H3, H4, H7), mientras que H8 no se encontró en ninguna de las ocho poblaciones japonesas (Fig. 4A). Uno de los haplotipos (H3) parecía ser exclusivo de las poblaciones japonesas y observamos que la frecuencia de H4 variaba del 1,7% en Okinawa al 14,2% tanto en Fukuoka como en Shimane (Fig. 4B). Sin embargo, debe tenerse en cuenta que la mayoría de los principales haplotipos encontrados en los genes HLA estaban presentes en todas las poblaciones japonesas y eran comunes con las otras poblaciones de Asia oriental y / o meridional utilizadas para la evaluación comparativa (Fig. 5).

    Distribución de los principales haplotipos en HLA-B.

    Distribución de los principales haplotipos encontrados en las ocho poblaciones japonesas y las cuatro poblaciones de evaluación comparativa del este y sur de Asia en HLA-B, donde se ilustran las frecuencias (A) en gráficos circulares de acuerdo con las ubicaciones geográficas esperadas, que corresponden a las ascendencias de las respectivas poblaciones (B) en gráficos de barras para indicar los porcentajes de cada uno de los principales haplotipos en las 12 poblaciones. Se observaron ocho haplotipos principales en HLA-B, de 373 haplotipos únicos formados por 74 SNP. La distribución de los principales haplotipos en cada uno de los gráficos circulares no indica la suma total de la frecuencia de los haplotipos, ya que no se incluyó la etiqueta "otros". El mapa de figuras se creó utilizando el paquete R "maps" 50 y "mapdata" 51 en el software R 52.

    Distribución de los principales haplotipos en los tres principales grupos de ascendencia.

    Las ocho poblaciones japonesas y las cuatro poblaciones de referencia de Asia oriental y meridional se clasificaron en tres grupos de ascendencia principales, correspondientes a los japoneses, los indios del sur de Asia y los chinos de Asia oriental. Los principales haplotipos observados en los seis genes HLA se representaron en el diagrama de Venn para ilustrar si estaban presentes en cada grupo de ascendencia, definido como exhibiendo una frecuencia distinta de cero en al menos una de las poblaciones en el grupo de ascendencia.

    Como nuestro análisis de la diversidad de haplotipos consideró haplotipos mutuamente distintos que se encuentran dentro de una región genómica en cada población, es útil medir en qué medida se supone que estos distintos haplotipos difieren.Al calcular el porcentaje de sitios SNP que diferían entre dos haplotipos cualesquiera en un locus, observamos que la mayoría de los haplotipos principales encontrados en los loci HLA eran sustancialmente diferentes entre sí a nivel de SNP que formaban haplotipos individuales excepto en HLA-A donde había cuatro haplotipos principales que diferían en un solo SNP (Tabla 2). Rendimiento de imputación en la región MHC con diferentes paneles de referencia.

    Una consecuencia inmediata de las variaciones de haplotipos entre diferentes poblaciones japonesas es el impacto en la precisión de la imputación. Investigamos esto de dos maneras: en primer lugar, si la precisión cambió cuando se usaron diferentes paneles de una sola población para imputar datos de SNP para cada población japonesa y, en segundo lugar, si el uso de un panel combinado de Asia Oriental, que consta de chinos, japoneses y malayos. de bases de datos públicas como HapMap y SGVP, producirá un mejor rendimiento. Los diferentes paneles de referencia, excepto el panel combinado, se eligieron deliberadamente para que fueran de tamaños comparables a fin de evitar cualquier confusión debido al tamaño de la muestra, para permitir la investigación del impacto de la diversidad de haplotipos. Además, para evitar un ajuste excesivo, se utilizaron 19 muestras adicionales de cada una de las poblaciones japonesas (excepto HapMap JPT) como datos objetivo para la imputación.

    Observamos que el uso del panel HapMap JPT o el panel combinado de Asia Oriental produjo tasas de discordancia marginalmente más altas, en comparación con el uso de la mayoría de los paneles de una sola población (Figura 6, Tabla complementaria 2). El último resultado fue sorprendente ya que el panel combinado de Asia Oriental era casi el doble del tamaño de los paneles de una sola población. Cuando se imputaron contra paneles de una sola población, las muestras de Ehime y Okinawa arrojaron las tasas de discordancia más bajas solo cuando se utilizaron los respectivos paneles de referencia específicos de la población (Tabla complementaria 2), lo que proporciona otra línea de evidencia para respaldar que estas dos poblaciones eran más distintas de las otras poblaciones japonesas.

    Rendimiento de imputación en las poblaciones de estudio.

    El rendimiento de imputar muestras dentro de cada una de las 12 poblaciones de estudio se midió mediante la tasa de discordancia, definida como 1 - r 2, donde r 2 corresponde a la correlación entre el genotipo observado y la dosis del alelo imputado a 400 SNP que estaban enmascarados de 1,607 SNP en el MHC. Para cada una de las siete poblaciones japonesas (excepto JPT), la imputación se realizó en 19 muestras adicionales que no formaban parte del estudio principal y se utilizó para construir el panel de referencia específico de la población. Por otro lado, la imputación en CHB, CHS, GIH y JPT se realizó en 19 muestras de los mismos datos de población, que se utilizaron para construir el panel de referencia y, por lo tanto, estaba sujeto a sobreajuste. Las anotaciones de los paneles de referencia utilizados son las siguientes: JPTPanel = JPT HAP_SGVPPanel = panel combinado usando las muestras CHB, CHS, JPT FukuokaPanel = Fukuoka EhimePanel = Ehime ShimanePanel = Shimane AmaPanel = Amagasaki Kita-NagoyaPanel = Kita-nagoya TokyoPanel = OkayPanel = Okinawa CHBPanel = CHB CHSPanel = CHS.

    Otras tres poblaciones japonesas (Shimane, Amagasaki, Kita-nagoya) produjeron de manera similar las tasas de discordancia más bajas cuando se utilizaron los respectivos paneles de referencia específicos de la población, aunque esto no fue exclusivo de los paneles de referencia específicos de la población, había al menos otro panel de población que arrojó un nivel equivalente de tasas de discordancia. Por ejemplo, la tasa de discordancia más baja del 2% se observó en Shimane cuando se utilizó como referencia el panel de Shimane o el de Amagasaki. También fue evidente que el uso de paneles de referencia construidos a partir de chinos o indios han arrojó resultados de imputación comparativamente más bajos para las muestras japonesas.


    COLOCAR LD EN UN CONTEXTO GENÓMICO

    Si bien las herramientas del sitio web de HapMap brindan acceso de última generación a los datos y análisis de HapMap, solo ofrecen información limitada sobre el contexto genómico más amplio de una región. Para comprender completamente las ramificaciones biológicas y funcionales de la variación humana, es importante poner la información de LD y haplotipos en un contexto genómico completo. El navegador del genoma humano UCSC [40] y Ensembl [41] son ​​dos herramientas clave que están disponibles para lograr esto y ambos ahora han integrado los datos de HapMap LD para visualizar junto con otra información genómica.

    Aunque ambas herramientas tienen muchas similitudes, cada una contiene información e interpretación de datos distinta, por lo que generalmente vale la pena consultar a ambos espectadores, aunque solo sea para obtener una segunda opinión (ambos espectadores proporcionan enlaces recíprocos). El navegador del genoma UCSC tiene una gran ventaja sobre el navegador del genoma HapMap y Ensembl, ya que permite la visualización de LD en regiones de más de 1 Mb o incluso cromosomas completos. Esta robusta visualización LD realmente hace que el navegador UCSC sea una herramienta excepcional para la visualización LD / genómica integrada [42]. La Figura 3 muestra una región de 1,5 Mb que contiene el gen de la lactasa (LCT). Esto muestra claras diferencias en LD entre las poblaciones de CEU, YRI y JPT – CHB, también muestra las tasas de recombinación calculadas a partir de los datos de HapMap (que se correlacionan bien con los límites del bloque LD) y evidencia de selección positiva en diferentes grupos étnicos basados ​​en el cálculo de D de Tajima a partir de los datos del genotipo SNP (consulte el texto siguiente para obtener más detalles). La información de LD y haplotipo también se coloca en contexto con genes conocidos y conservación del genoma de vertebrados. Se puede acceder a la información descriptiva de cada conjunto de datos UCSC presionando el botón gris a la izquierda de cada pista. También está disponible una gran cantidad de información adicional configurable, pero no se muestra aquí para mayor brevedad.

    El navegador UCSC también es muy eficaz para el análisis detallado del contexto genómico de los datos de LD. Es poco probable que un SNP causal se pruebe directamente en una exploración del genoma, pero puede estar en LD con marcadores que se prueban. Usando la salida de una consulta HapMart, es relativamente simple (por ejemplo, usando Microsoft Excel) crear una pista de datos personalizada UCSC (consulte la documentación de UCSC para obtener detalles) basada en SNP que muestran evidencia de LD (r 2 & gt 0.5) con un SNP asociado. La Figura 4 muestra un ejemplo de tal análisis. Al cargar la ubicación de SNP asociada y las ubicaciones de los SNP que muestran evidencia de LD como pistas personalizadas, la alineación con las características genómicas es mucho más fácil que usar la vista de bloque de LD. Las características genómicas y los SNP se pueden alinear directamente para evaluar la superposición. La secuencia de ADN completa también se puede exportar con diferentes pistas anotadas en la secuencia mediante el enlace "ADN" en la parte superior del navegador. Más allá de la inspección visual, las pistas personalizadas creadas para el navegador UCSC también tienen otra aplicación increíblemente poderosa: se pueden consultar utilizando el navegador de tablas UCSC [43 **]. El navegador de tablas, al que se accede mediante el enlace "Tablas" en el navegador principal, es una herramienta excelente que permite al usuario realizar consultas complejas entre conjuntos de datos, incluidas las pistas personalizadas cargadas por el usuario. Usando el filtro de intersección, por ejemplo, es posible identificar todos los SNP previamente identificados por LD (su pista personalizada) que se superponen con sitios de unión de factores de transcripción conservados o elementos promotores conocidos o sitios diana de micro ARN, etc. Esta funcionalidad altamente flexible hace que el El navegador UCSC Table es una herramienta singularmente poderosa que se recomienda encarecidamente al lector.

    Uso de pistas personalizadas para obtener una vista detallada del contexto genómico en el navegador del genoma UCSC. Ubicación genómica de un SNP asociado cercano al gen CARD4. Las pistas personalizadas en el navegador del genoma UCSC muestran la ubicación de los SNP que muestran LD con un r 2 & gt 0,5 umbral en el contexto de la anotación del genoma. Las pistas adicionales describen genes conocidos, etiquetas de secuencias expresadas (EST) empalmadas humanas, tecnologías ecológicamente racionales sin empalmar, potencial regulador predicho y sitios de unión a factores de transcripción conservados. La información de HapMap LD a continuación es para los individuos CEU y sugiere que hay dos grupos de haplotipos conservados en esta región. Estos grupos están divididos por un hotspot de recombinación identificado independientemente en los conjuntos de datos de HapMap y Perlegen.

    Uso de pistas personalizadas para obtener una vista detallada del contexto genómico en el navegador del genoma UCSC. Localización genómica de un SNP asociado cercano al gen CARD4. Las pistas personalizadas en el navegador del genoma UCSC muestran la ubicación de los SNP que muestran LD con un r 2 & gt 0,5 umbral en el contexto de la anotación del genoma. Las pistas adicionales describen genes conocidos, etiquetas de secuencia expresada (EST) empalmadas humanas, tecnologías ecológicamente racionales sin empalmar, potencial regulador predicho y sitios de unión de factores de transcripción conservados. La información de HapMap LD a continuación es para los individuos CEU y sugiere que hay dos grupos de haplotipos conservados en esta región. Estos grupos están divididos por un hotspot de recombinación identificado independientemente en los conjuntos de datos de HapMap y Perlegen.


    Abstracto

    La determinación de los haplotipos subyacentes de los genomas humanos individuales es un paso esencial, pero actualmente difícil, hacia una comprensión completa de la función del genoma. La secuenciación de próxima generación basada en agrupaciones de fosmidos permite la generación de segmentos de ADN haploide de 40 kb en todo el genoma, que pueden introducirse en haplotipos moleculares contiguos computacionalmente mediante el haplotipo individual individual (SIH). Se han propuesto muchos algoritmos SIH, pero la precisión de tales métodos ha sido difícil de evaluar debido a la falta de datos de referencia reales. Para abordar este problema, generamos datos de la secuencia de fosmidos del genoma completo de un niño del trío HapMap, NA12878, para el cual ya se han producido haplotipos confiables. Ensamblamos haplotipos utilizando ocho algoritmos para SIH y llevamos a cabo comparaciones directas de su precisión, integridad y eficiencia. Nuestras comparaciones indican que el haplotipado basado en fosmidos puede ofrecer resultados altamente precisos incluso con una cobertura baja y que nuestro algoritmo SIH, ReFHap, es capaz de producir haplotipos de alta calidad de manera eficiente. Expandimos los haplotipos para NA12878 combinando los haplotipos actuales con nuestros haplotipos basados ​​en fosmidos, produciendo nuevos haplotipos estándar de oro casi completos que contienen casi el 98% de SNP heterocigotos. Esta mejora incluye fracciones notables de SNP relacionados con enfermedades y GWA. Integrada con otros conjuntos de datos de biología molecular, esta información de fase avanzará en el campo emergente de la genómica diploide.


    Conclusiones

    Desarrollamos ParaHaplo 3.0, un conjunto de programas de computadora, para el cálculo paralelo de la estimación de haplotipos y valores de P precisos en GWAS basados ​​en haplotipos. ParaHaplo está diseñado para su uso en clústeres de estaciones de trabajo que utilizan Intel MPI. Utilizando ParaHaplo, realizamos una estimación de haplotipos de JPT y datos de genotipos CHB tomados del conjunto de datos HapMap 3.0 [12].

    Estos resultados indican que cuando el número de procesadores es suficiente, las capacidades de computación paralela de ParaHaplo son 20 veces más rápidas que las de los programas no paralelos. Se han obtenido genotipos precisos y completos para más de un millón de SNP [15], y ahora se están genotipando & gt10.000 individuos [21]. La necesidad de una estimación rápida de haplotipos utilizando computación paralela será cada vez más importante a medida que el tamaño de los datos del proyecto continúe aumentando.


    Formatos de archivo de entrada

    Actualmente, Haploview acepta datos de entrada en cinco formatos, formato de enlace estándar, haplotipos en fase total o parcial, volcados de datos del proyecto HapMap, formato PHASE y salidas PLINK. El programa también puede recuperar automáticamente datos de HapMap en fase del sitio web de HapMap. También incluye un archivo separado con información sobre la posición del marcador, así como varios archivos de entrada auxiliares, que se describen a continuación. Los cuatro formatos se explican en profundidad a continuación.

    Formato de enlace

    Los datos de vinculación deben estar en formato Linkage Pedigree (pre MAKEPED), con columnas de familia, individuo, padre, madre, sexo, estado afectado y genotipos. El archivo no debe tener una línea de encabezado (es decir, la primera línea debe ser para la primera persona, no los nombres de las columnas). Tenga en cuenta que Haploview solo puede interpretar marcadores bialélicos con más de dos alelos (por ejemplo, microsatélites) que no funcionarán correctamente. Una línea de muestra de un archivo de este tipo podría verse así:

    Un identificador alfanumérico único para la familia de esta persona. Las personas no relacionadas no deben compartir un nombre de pedigrí.

    Un identificador alfanumérico para esta persona. Debe ser único dentro de su familia (ver arriba).

    Identificador correspondiente a la cédula individual del padre o "0" si se desconoce el padre. Nota
    que si se especifica una identificación de padre, el padre también debe aparecer en el archivo.

    Identificador correspondiente a la identificación individual de la madre o "0" si la madre es desconocida. Tenga en cuenta que si se especifica una identificación de la madre, la madre también debe aparecer en el archivo.

    Sexo de la persona (1 = MASCULINO, 2 = FEMENINO).

    Estado de afecto que se utilizará para las pruebas de asociación (0 = DESCONOCIDO, 1 = NO AFECTADO, 2 = AFECTADO).

    Cada marcador está representado por dos columnas (una para cada alelo, separada por un espacio) y codificado ACGT o 1-4 donde: 1 = A, 2 = C, 3 = G, T = 4. Un 0 en cualquiera de las posiciones del genotipo del marcador (como en los genotipos del tercer marcador anterior) indica que faltan datos.

    También vale la pena señalar que este formato se puede utilizar con datos no familiares. Simplemente use un valor ficticio para el nombre del árbol genealógico (1, 2, 3.) y complete los ceros para la identificación del padre y la madre. Es importante que el valor "ficticio" del nombre ped sea único para cada individuo. El estado de afecto se puede utilizar para designar casos frente a controles (2 y 1, respectivamente).

    Los archivos también deben seguir las siguientes pautas:

    • Las familias deben enumerarse consecutivamente dentro del archivo (es decir, todas las líneas con la misma identificación de pedigrí deben ser adyacentes)
    • Si una persona tiene un padre distinto de cero, el padre debe incluirse en el archivo en su propia línea.

    Haplotipos en fase

    Los datos de haplotipos para la entrada de Haploview deben formatearse en columnas de Familia, Individual y Genotipos. Debe haber dos líneas (cromosomas) para cada individuo. Este es el formato estándar de la salida TDT de Genehunter. Vea la muestra a continuación:

    El formato de datos utiliza los números 1-4 para representar genotipos, el número cero para representar datos faltantes y la letra "h" para representar un alelo heterocigoto. Es decir, si un individuo es heterocigoto en un locus, ambos alelos deben ser "h" si la fase (qué alelo cae en qué cromosoma) es incierta.

    Volcados de datos del proyecto HapMap

    Los datos del proyecto HapMap se pueden descargar por región utilizando la interfaz GBrowse. El archivo de datos guardado tiene un formato de marcador por línea que se puede cargar en Haploview.

    GBrowse vuelca solo un archivo, que tiene un marcador por línea y que incluye las relaciones familiares entre las muestras de HapMap, así como la información de la posición del marcador. El formato de archivo tiene varias líneas de encabezado (comenzando con "#") que Haploview analiza. Abra el archivo seleccionando la opción "Examinar datos de HapMap" y seleccionando el archivo descargado.

    Si desea cargar datos de otra fuente en formato de estilo HapMap, deberá especificar la información del árbol genealógico en el encabezado del archivo que ha creado. Esto se puede hacer creando líneas con el siguiente formato en la parte superior de su archivo:

    Estos datos son los mismos que los del formato de archivo pedfile discutido anteriormente. Los campos son familia, individuo, padre, madre, género, estado afectado. Luego, reemplazaría los identificadores NAXXXX en la fila de encabezado del archivo HapMap con sus identificadores, sujetos a dos restricciones importantes: deben ser únicos en todo el conjunto de datos, no solo dentro de una familia y deben comenzar con los caracteres NA.

    Formato FASE de HapMap

    Datos en el FASE HapMap El formato se puede cargar en Haploview usando tres archivos separados. El primero es el archivo de datos que contiene información de alelos binarios. El segundo es un archivo de muestra que contiene una sola columna de los ID individuales utilizados en el conjunto de datos. El tercero es un archivo de leyenda que contiene cuatro columnas: marcador, posición, 0 y 1. Sólo el archivo de leyenda requiere un encabezado y se utiliza para decodificar la información en el archivo de datos. Estos archivos se pueden cargar como archivos comprimidos GZIP usando la casilla de verificación "Archivos comprimidos GZIP" en la pantalla de carga inicial. Para obtener más información sobre el formato HapMap PHASE, consulte el archivo Léame de HapMap PHASE.

    Descargar HapMap

    Datos en el FASE HapMap El formato también se puede descargar automáticamente en Haploview usando la pestaña "Descargar HapMap" en la pantalla de carga especificando la liberación de HapMap, el cromosoma, el panel de análisis y las posiciones inicial y final (en kb). Estas opciones también se pueden completar automáticamente consultando la base de datos de GeneCruiser con un gen o ID de SNP. Puede encontrar más información sobre la base de datos de GeneCruiser en el sitio web de GeneCruiser.

    Archivo de información de marcador

    El archivo de información del marcador consta de dos columnas, el nombre del marcador y la posición. Las posiciones pueden ser coordenadas cromosómicas absolutas o posiciones relativas. Podría verse algo como esto:

    Se puede incluir una tercera columna opcional en el archivo de información para hacer notas adicionales para SNP específicos. Los SNP con información adicional se resaltan en verde en la pantalla LD. Por ejemplo, puede tener en cuenta que el primer SNP es una variante de codificación de la siguiente manera:

    Formato PLINK

    Archivos de salida de PLINK se puede cargar en Haploview usando la pestaña PLINK en la pantalla de carga inicial. Los archivos PLINK deben contener un encabezado y al menos un encabezado de columna debe titularse "SNP" y contener los ID de los marcadores de los resultados en el archivo. La carga PLINK también requiere un mapa PLINK estándar o un archivo de mapa binario correspondiente a los marcadores en el archivo de salida. El archivo de mapa puede tener tres o cuatro columnas sin encabezado (la columna de distancia de Morgan es opcional). El archivo de mapa también se puede incrustar en el archivo de resultados como las primeras columnas del archivo usando la casilla de verificación "Información de mapa integrada". También puede cargar archivos no basados ​​en SNP marcando la casilla "No SNP". Estos archivos no requieren un archivo de mapa. Puede elegir cargar solo un cromosoma de su archivo de resultados usando la casilla de verificación "Solo cargar resultados de cromosoma" y seleccionando un cromosoma de la lista desplegable. También puede seleccionar qué columnas cargar desde su archivo de resultados marcando la casilla de verificación "Seleccionar columnas". Para obtener más información sobre las salidas PLINK, consulte el sitio web PLINK de Shaun Purcell.

    Archivo de carga por lotes

    El indicador "-batch" en la línea de comando le permite ejecutar Haploview automáticamente (en modo nogui) en varios archivos. Los archivos de entrada por lotes deben tener un archivo de genotipo por línea, junto con un archivo de información (si se desea) separado por un espacio. Los nombres de archivo deben ajustarse a las siguientes reglas:

    • Los nombres de los archivos pedfile deben terminar en ".ped"
    • Los nombres de los archivos de haplotipos en fase deben terminar en ".
    • Los nombres de los archivos de HapMap deben terminar en ".hmp"
    • Los nombres de los archivos de información deben terminar en ".info"

    El siguiente ejemplo muestra 2 pedfiles (con archivos de información) y un archivo de hapmap:


    Materiales y métodos

    En la Figura 1 se muestra un diagrama de flujo de los procesos de siete pasos que utiliza HaploShare para detectar y evaluar la EII que comparte haplotipos.

    Paso 1. Construcción de un catálogo de haplotipos poblacionales

    El genoma completo de cada sujeto de control se divide en regiones de bloques de LD y puntos calientes de recombinación basados ​​en LD entre SNP en controles sanos, utilizando una modificación de un método anterior [23]. Se considera que un par de SNP tiene LD fuerte o débil si el límite de confianza superior unilateral del 95% de D ’es & gt0.98 o & lt0.90. No se consideran los pares entre estos valores. Si (pares "LD fuerte") / (pares "LD fuerte" + pares "LD débil") & gt0.95 en una región, se considera un bloque LD. De lo contrario, se trata como un hotspot de recombinación y estos SNP se considerarán individualmente. La evaluación de los bloques de LD y los puntos calientes comienza desde el SNP más 5 'en un cromosoma. Una vez que se identifica el primer par de SNP adyacentes con LD fuerte, los SNP descendentes se agregan al bloque evaluando el LD de cada adición con todos los SNP en la región, hasta que la definición de un bloque LD ya no se cumple o dos SNP adyacentes son separados por & gt50 kb. A continuación, se utiliza el software PHASE [24, 25] para generar un catálogo de haplotipos para cada bloque LD predefinido junto con sus frecuencias de población.

    Si no hay datos de control disponibles, los bloques de LD y los puntos calientes de recombinación se definen a partir de las distancias genéticas entre los marcadores SNP obtenidos de HapMap. Una distancia genética menor de 0,001 centiMorgans (cM) entre dos SNP adyacentes dentro de los 10 kb extiende un bloque LD. Los dos métodos suelen generar resultados similares de bloques LD y puntos calientes de recombinación (archivo adicional 1: Figura S1). Los datos por fases de la población correspondiente en HapMap se utilizarán para generar un catálogo de haplotipos en este caso.

    Paso 2. Fase de genotipos en casos basados ​​en un catálogo de haplotipos de población

    Los genotipos en los casos en cada bloque de LD se clasifican en haplotipos según el catálogo de haplotipos de la población. Pueden aplicarse varios escenarios. (A) Solo un par de haplotipos en el catálogo puede explicar los genotipos en un bloque. (B) Si más de un par de haplotipos es consistente con los genotipos en un bloque, todos los posibles pares de haplotipos serán registrados y usados ​​en pasos posteriores para identificar el haplotipo compartido. (C) El genotipo solo se puede explicar por un haplotipo conocido junto con un haplotipo que no existe en el catálogo. Una baja frecuencia poblacional, que se estima como

    se asume para el haplotipo no detectado. Aquí metro es el tamaño de muestra de los controles utilizados para generar el catálogo de haplotipos y se supone una probabilidad del 95% de que un haplotipo esté ausente en los controles. (D) Los genotipos no son consistentes con ninguno de los haplotipos conocidos en el catálogo. En este caso, se asumen errores de genotipado y el bloque LD no se utilizará para la detección inicial de haplotipos compartidos. Sin embargo, no evitará la extensión de un haplotipo compartido que lo contiene.

    Paso 3. Detectar el intercambio de haplotipos por parejas en los casos

    Después de obtener los resultados por fases para todos los casos, se escanean pares de individuos y se comparan en busca de un posible intercambio de haplotipos en cada cromosoma. Solo los haplotipos compartidos en un bloque LD (no los SNP en los puntos calientes de recombinación) se utilizan para iniciar el emparejamiento. La región compartida se extiende en ambas direcciones mientras está respaldada por haplotipos en bloques LD o SNP en puntos calientes, lo que permite posibles errores de genotipado. Los errores de genotipado se toleran si el 1% o menos SNP en un haplotipo extendido no cumplen con el intercambio de haplotipos. No se permite incompatibilidad en el primer y los últimos 20 SNP de un haplotipo compartido extendido para evitar extensiones falsas. Los haplotipos extendidos compartidos por pares más largos que una distancia genética preestablecida (como 0.5 o 1 cM como se usa en las simulaciones que se muestran en este estudio) se seleccionan y evalúan para compartir entre múltiples individuos.

    Paso 4. Detectar el intercambio de haplotipos mediante múltiples muestras

    Los haplotipos compartidos por parejas se comparan entre sí para identificar aquellos que comparten al menos parte de un haplotipo extendido. Se fusionan cuando diferentes pares se superponen, al menos parcialmente, sobre la región compartida en el mismo alelo. Un haplotipo extendido compartido por múltiples individuos se define como un haplotipo compartido por al menos dos individuos en cualquier punto dado y contiene un haplotipo central que tiene que cubrir al menos un bloque LD y ser compartido por todos los individuos. Un ejemplo de esto se ilustra en la Figura 4. El método puede pasar por alto individuos que comparten una porción del haplotipo extendido pero que no alcanzaron el umbral de selección para compartir por pares con otras muestras de este grupo. Para incluirlos en un análisis adicional, las muestras restantes se escanean en busca de aquellas que comparten el haplotipo central completo y tienen una longitud total de haplotipo compartido que es al menos la mitad del umbral utilizado inicialmente (consulte el paso 3 anterior).

    Detección de los haplotipos portadores de la mutación RET. La región de mutación RET abarca 7 Mb de distancia física pero solo 1 cM de distancia genética, que contiene 17 bloques de LD. Los 14 casos comparten el haplotipo central compuesto por los bloques 8 a 11 y el resto de la región es compartida por al menos dos casos en cualquier punto dado. La frecuencia de los haplotipos compartidos en diferentes bloques varía de menos del 1% al 60% entre la población china de Hong Kong.

    Paso 5. Estimación de la razón de verosimilitud de un haplotipo compartido por la EII frente al intercambio por azar

    La mayoría de los haplotipos compartidos de la población general son cortos y comunes, aunque la longitud física puede ser un indicador deficiente [26]. Sin embargo, se espera que los verdaderos haplotipos fundadores recientes sean más largos y puedan contener múltiples haplotipos en bloque de baja frecuencia en la población. Aquí presentamos una estimación de las probabilidades de compartir debido a la EII o por casualidad y usamos el logaritmo de su relación para evaluar los eventos de intercambio de haplotipos.

    Si el intercambio se debe al azar, la herencia de haplotipos de diferentes bloques debería ser un evento independiente, sin tener en cuenta la LD débil entre bloques. Por tanto, su probabilidad se puede estimar como el producto de las probabilidades de heredar haplotipos en diferentes bloques de LD. La probabilidad de compartir el haplotipo I en bloque LD j por casualidad por k j individuos se designa como PAG j, que, con base en la frecuencia poblacional del haplotipo compartido y el número de individuos que comparten el haplotipo, se puede estimar como:

    La frecuencia poblacional del haplotipo I en bloque j es h Ji. Aquí k es el número de individuos que comparten el haplotipo extendido, y k j es el número de individuos en k que comparten haplotipo I en bloque j y k jk. ( left ( begin hfill 2k hfill <> hfill k hfill end right) ) representa el número de posibles combinaciones de k cromosomas de un total de 2 k cromosomas y (< left ( begin hfill 2 hfill <> hfill 1 hfill end derecha)> ^ ) indica que uno de los dos haplotipos es compartido por cada uno de los k j individuos. La probabilidad de compartir el haplotipo extendido por azar es:

    dónde s es el número total de individuos considerados (por ejemplo, el tamaño de la muestra de casos), y metro es el número total de bloques LD dentro de este haplotipo compartido extendido. Por lo tanto L (H o ) representa la probabilidad de k individuos que comparten un haplotipo extendido por azar, y el haplotipo extendido ha metro LD bloques con respectivas frecuencias de haplotipos de h Ji. Solo se consideran los haplotipos de bloque para la estimación de verosimilitud.

    Si la región se comparte debido a la herencia de un antepasado común reciente, la probabilidad se puede estimar en función de la edad estimada, n, del haplotipo compartido (generaciones) en función de la longitud genética de la región yk, el número de individuos que comparten el haplotipo extendido:

    Entonces norte × k representa el número total de meiosis en la configuración del haplotipo extendido compartido y 0,5 es la probabilidad de que el haplotipo se herede en cada meiosis. Dado que diferentes individuos pueden compartir diferentes longitudes del haplotipo extendido, norte se estima por la distancia genética media D gramo (cM) del haplotipo compartido para cada uno de los k individuos:

    Un haplotipo heredado de 2 cM en promedio indica que aproximadamente 50 meiosis pueden haber ocurrido en la región circundante, lo que sugiere que se compartió un ancestro común hace aproximadamente 50 generaciones. El logaritmo de la razón de probabilidad de compartir por EII y compartir por azar se estima entonces como:

    Paso 6. Estimación de la distribución nula empírica utilizando controles

    La razón de probabilidad puede estar inflada debido a una LD débil entre los bloques de haplotipos. Las diferencias en la cobertura del genoma, especialmente en variantes genéticas raras, pueden introducir inexactitudes. Por lo tanto, es necesaria una corrección de todo el genoma para que la razón de probabilidad sea comparable en diferentes regiones. Se utiliza un proceso de simulación de Monte Carlo para estudiar la distribución de haplotipos compartidos en controles sanos.

    Si una región es compartida por k individuos entre un total de s casos, entonces s las muestras se seleccionan al azar del conjunto total de controles. Para estos individuos, se detecta el intercambio de haplotipos y las proporciones de probabilidad de compartir por IBD y compartir por azar se calculan como se describe anteriormente. En cada simulación, la mayor proporción de probabilidad de todos los haplotipos extendidos en todo el genoma compartido por k o menos individuos. La razón de usar la razón de verosimilitud más grande de cada iteración para calcular la distribución nula en una población en lugar de usar los de todos los haplotipos extendidos evaluados es un reflejo de la dificultad de estimar la distribución nula de la razón de verosimilitud tomando el problema de las pruebas múltiples. en consideración. Dado que es muy difícil modelar el efecto sobre las razones de probabilidad por la edad del haplotipo extendido y el número de individuos que lo comparten, esta restricción asegura que se detecten los haplotipos extendidos en los casos que son más recientes en la historia. Este proceso se repite al menos 1.000 veces seleccionando diferentes conjuntos de muestras de los controles al azar. Si las muestras disponibles en los controles son menores de 2 s, las muestras virtuales se generan de acuerdo con el alelo SNP y bloquean las frecuencias de haplotipos de las muestras existentes, como se detalla a continuación. Cada ronda de simulación utiliza toda la muestra de control, excepto los haplotipos extendidos ya seleccionados y registrados, para evitar la selección repetida de los mismos haplotipos entre las simulaciones. Este es un enfoque que aborda el problema de que las muestras de control a menudo no son lo suficientemente grandes como para permitir la simulación repetida sin seleccionar el mismo subconjunto de individuos entre diferentes rondas.

    Esto genera una colección de valores extremos de razones de probabilidad en el intercambio de haplotipos de los controles, que siguen una distribución de Gumbel, con la bondad del ajuste siempre alcanzando 0,99 o más bajo la prueba de Anderson-Darling realizada en Matlab (PAG & gt0.01, acepta H0, lo que indica que los datos se ajustan a la distribución). Por lo tanto, esta distribución se trata como la distribución nula empírica en todo el genoma de las razones de verosimilitud para el intercambio de haplotipos en la población de interés (que se muestran como curvas discontinuas en la Figura 2 y el archivo adicional 1: Figura S2), a partir de la cual el error de tipo I pueden estimarse y los umbrales determinados en función del área bajo la curva en la cola derecha.

    Si las muestras de control no están disponibles o son más pequeñas que el doble de las de los casos, HaploShare genera un conjunto de datos de control virtual basado en los haplotipos y sus frecuencias de población en base a los datos de HapMap o los controles proporcionados. Brevemente, para genotipos en bloques, se seleccionan al azar dos haplotipos con probabilidad proporcional a su frecuencia poblacional. Para los genotipos en hotspots de recombinación, los alelos SNP se eligen mediante un modelo de Markov con la posibilidad de ser seleccionados proporcionalmente a su LD débil a su SNP 5 ', como se describió anteriormente [26]. Este procedimiento garantiza que las frecuencias de haplotipos en bloque y LD para los SNP de hotspot de recombinación sigan siendo similares a las de las muestras originales de HapMap o los controles limitados proporcionados.

    Paso 7. Evaluación de la importancia de las razones logarítmicas de verosimilitud

    PAG Los valores se definen como la probabilidad de exceder el estadístico observado bajo la hipótesis nula. Como se mencionó anteriormente, la hipótesis nula generada en este método (paso 6) no se basó en todos los haplotipos extendidos evaluados, sino en los mejores de las iteraciones. Por lo tanto, para evitar confusiones, utilizamos el término "cuasi PAG valor "en lugar de"PAG value "en este método. El 'cuasi PAG value ’no refleja directamente la tasa de falsos positivos del método, sino que solo evalúa la importancia de cada haplotipo compartido. La distribución generada en el paso 6 se aplicó para encontrar el "cuasi PAG valores "de los haplotipos compartidos identificados entre los casos. Archivo adicional 1: Tabla S10 demostró la forma de calcular las tasas de falsos positivos de ciertos cuasi PAG valores.

    Paso 8. Eliminación de los haplotipos extendidos compartidos por ambos casos y controles sin diferencias de frecuencia significativas

    Con el fin de reducir aún más los hallazgos de falsos positivos, los haplotipos significativamente compartidos en los casos se comparan con los compartidos en los controles para encontrar los que se superponen tanto en la ubicación como en el alelo, y sin diferencias significativas en el número de individuos que comparten el haplotipo. Para cada haplotipo compartido que se encuentre significativo en los casos, HaploShare examina las muestras en todos los controles que portan el mismo haplotipo según los siguientes criterios: (1) existe una superposición completa en el haplotipo central entre el intercambio en casos y controles (2) las muestras en los controles también comparten más del 50% de todo el haplotipo extendido compartido en los casos y (3) no hay una diferencia significativa en la frecuencia del haplotipo compartido entre los casos y los controles según la prueba de Chi cuadrado (PAG & gt0.05). Los haplotipos compartidos en casos y controles así definidos se consideran sin evidencia de asociación con la enfermedad subyacente y se eliminan de los hallazgos.

    Generación de conjuntos de datos para evaluar HaploShare y otros programas

    Se utilizó un conjunto de datos reales de muestras chinas de Hong Kong genotipadas con Illumina 610-Quad Beadchips para evaluar esta metodología (& gt2,800 personas, consulte el archivo adicional para obtener detalles de los datos). Los datos se utilizaron por primera vez para evaluar el método de fases introducido en HaploShare. Se utilizaron genotipos de un conjunto de 1000 individuos para generar el catálogo de haplotipos poblacionales por bloques y se eligió al azar otro conjunto de 1000 individuos para probar el proceso de fases. Se encontró que aproximadamente el 91% de los marcadores estaban ubicados en bloques LD y el resto en puntos calientes de recombinación. El noventa y siete por ciento de los genotipos en bloques podrían explicarse por un par único de haplotipos El 2.7% se explicaron por más de un par de haplotipos y el 0.2% de los genotipos en bloques solo podrían explicarse por un haplotipo conocido y uno desconocido. haplotipo. Muy raramente los genotipos en bloque (& lt0.01%) no eran compatibles con ningún haplotipo conocido en este conjunto de datos, aunque esto dependerá del tamaño de la muestra de control utilizada y la tasa de error de la plataforma de genotipado.

    Para generar haplotipos fundadores recientes, se simuló el proceso de meiosis como se describió anteriormente [27]. En cada simulación, se seleccionó una muestra como "antepasado" y varias muestras como "descendientes" de la última generación. Los genotipos de las muestras seleccionadas dentro de los bloques de LD se escalonaron de acuerdo con el catálogo de haplotipos por bloques presentado anteriormente (o mediante el uso de genotipos de miembros de la familia escalonados por BEAGLE, ver más abajo). La LD entre dos SNP adyacentes en puntos calientes de recombinación o entre bloques LD se modeló como se describió anteriormente. Por lo tanto, el LD tanto dentro como entre bloques se tuvo en cuenta en el proceso de fases.

    Después de la fase, se eligió al azar un único SNP "antepasado" como la "mutación fundadora". En el proceso de meiosis simulada, el haplotipo extendido que porta la mutación se acortó a través de cada evento de recombinación simulado [27]. Una vez que se determinó el rango del haplotipo portador de la "mutación fundadora", uno de los alelos en su ubicación en cada uno de los "descendientes" de la última generación fue reemplazado por el haplotipo fundador portador de la mutación para generar genotipos portadores de este haplotipo ancestral. Los "descendientes afectados" creados de esta manera se mezclaron con otros individuos elegidos al azar en el grupo de "casos" para probar HaploShare y otros programas. Archivo adicional 1: La Figura S3 muestra la correlación de la distancia genética y la edad (generaciones) de los haplotipos fundadores simulados en este estudio.

    En este estudio también se utilizó un método alternativo para generar haplotipos fundadores que es menos similar al algoritmo utilizado por HaploShare. Usó datos de 192 pares de hermanos genotipados con Illumina 610-Quad Beadchip. Las regiones potencialmente compartidas de EII entre hermanos se definieron como cualquier región de más de 10 cM de distancia genética y contiene menos del 0,1% de marcadores con desajuste completo de genotipos (genotipos homocigotos discordantes). Para cada par de hermanos, se seleccionaron aleatoriamente 960 regiones potenciales de EII de diversas longitudes (1, 2, 3, 4 y 5 cM de distancia genética). La fase de las regiones IBD se realizó utilizando BEAGLE [16]. Los haplotipos que se compartieron con EII entre hermanos se utilizaron luego como "haplotipos fundadores" en el proceso de simulación descrito anteriormente y se comparó la sensibilidad de HaploShare para detectar los haplotipos fundadores generados por los dos métodos diferentes.

    Se evaluaron la tasa de falsos positivos y el rango de los haplotipos fundadores simulados entre todos los haplotipos extendidos significativos compartidos en todo el genoma. Se seleccionaron al azar mil individuos del conjunto de datos reales de muestras chinas de Hong Kong como datos de prueba en cada simulación. En 100 réplicas cada una, se insertaron dos, cinco o 10 de los 1000 individuos con un haplotipo fundador reciente simulado de 10 a 50 generaciones de edad. Todos los haplotipos extendidos compartidos (simulados y no simulados) identificados por HaploShare en un nivel de significancia de cuasi PAG & lt0.05 fueron contados y clasificados por su cuasi PAG valores. El número medio de haplotipos compartidos identificados y el rango de los haplotipos fundadores simulados se utilizaron para evaluar la detección de falsos positivos. Debido a sus limitaciones de diseño, BEAGLE fastIBD solo puede utilizar el intercambio de haplotipos por pares simulados derivados de estas simulaciones como prueba de falsos positivos.

    Disponibilidad de datos

    El programa y los datos utilizados para probar los programas están disponibles en los siguientes sitios web:


    Ver el vídeo: 6E - SNP-typing the genome the science Part 1: HapMap (Julio 2022).


Comentarios:

  1. Cadda

    El fantástico :)

  2. Abd Al Rashid

    No va conmigo. ¿Hay otras opciones?

  3. Mikalkree

    En mi opinión, se cometen errores. Propongo discutirlo.

  4. Felmaran

    Se logra el mayor número de puntos. Creo que es una buena idea. Totalmente de acuerdo con ella.

  5. Gwynham

    Creo que estas equivocado. Puedo defender mi posición. Envíame un correo electrónico a PM, hablaremos.



Escribe un mensaje