Las Máquinas Virtuales Microsoft® Azure® Ddv4 Reducen el Tiempo y el Costo de las Tareas de Genómica Completas casi a la Mitad

Kit de herramientas de análisis de genómica

  • Los racimos de máquinas virtuales Azure Ddv4 completaron un conjunto de tareas de genómica en tan solo un 52 % del tiempo de otros racimos.

  • Los racimos de máquinas virtuales Azure Ddv4 completaron un conjunto de tareas de genómica a tan solo un 52 % del costo de otros racimos.

Las máquinas virtuales que cuentan con procesadores escalables Intel® Xeon® de 2ª Generación ejecutaron un conjunto de tareas de kit de herramientas de análisis de genómica en tan solo un 52 % del tiempo y tan solo un 52 % del costo de máquinas virtuales con procesadores de generación anterior

Si su empresa está considerando ejecutar sus cargas de trabajo de genómica en la nube pública, tenga en cuenta que las máquinas virtuales (VMs) pueden variar ampliamente en términos de desempeño y costos. Para realizar el análisis de referencia del tiempo y la rentabilidad, Intel probó los racimos de VMs Microsoft® Azure® de tres categorías:

  • VMs serie Ddv4, que ofrecen exclusivamente procesadores escalables Intel® Xeon® de 2ª Generación.
  • VMs serie Dv2, con CPUs que van desde procesadores Intel® Core™ serie i de 4ᵃ Generación hasta procesadores escalables Intel® Xeon® de 2ᵃ Generación.
  • VMs de configuración predeterminada de las siguientes series: A, Av2, Dv2, Dv3, Ls, Fsv2, con CPUs que van desde procesadores Intel® Core™ de 2ᵃ Generación hasta procesadores escalables Intel® Xeon® de 2ª Generación.

Las pruebas usaron el análisis de referencia Cromwell en Azure para medir el desempeño de la aplicación kit de herramientas de análisis de genómica (GATK). El flujo de trabajo de prueba comprendió 24 tareas. En este resumen miramos el desempeño y costos relativos tanto para todo el conjunto de tareas como para una de las tareas más exigentes de recursos.

Los Racimos de VMs Ddv4 que Cuentan con Procesadores Escalables Intel® Xeon® de 2ª Generación Ejecutaron Tareas de Genómica en un Tiempo Significativamente Menor que otros Racimos de VMs

La Figura 1 muestra el tiempo relativo para completar tareas de genómica en la aplicación GATK. En comparación con las máquinas virtuales predeterminadas que usan una gama de procesadores antiguos, la VM Ddv4 con procesadores escalables Intel® Xeon® de 2ª Generación completó el conjunto completo de tareas en poco más de la mitad del tiempo, una reducción de hasta un 48 %. Para ejecutar HaplotypeCaller, una tarea exigente de recursos, la VM Ddv4 necesitó poco más de un cuarto del tiempo que necesitaron las VMs predeterminadas, una reducción de hasta un 74 %. Estas ventajas pueden traducirse en llevar a cabo su análisis de genómica de manera mucho más eficiente.

Figura 1. Tiempo relativo para completar tareas de genómica. Menos tiempo es mejor.

Los Racimos de VMs Ddv4 con Procesadores Escalables Intel® Xeon® de 2ª Generación Ejecutaron Tareas de Genómica a un Costo Significativamente Menor que otros Racimos de VM

Los clientes ahorran cuando un racimo de VMs puede realizar un conjunto de tareas en menos tiempo, ya que pagan por menos tiempo de actividad de la VM. La Figura 2 muestra el costo relativo para completar las mismas tareas de GATK mencionadas en la página anterior. En comparación con las VMs predeterminadas que usan una gama de procesadores antiguos, la VM Ddv4 con procesadores más recientes completó el conjunto completo de tareas a un poco más de la mitad del costo, un ahorro de hasta un 48 %. El costo de ejecutar HaplotypeCaller, una tarea exigente de recursos, en el racimo de VMs Ddv4 fue un poco más de un tercio del de los racimos de VMs predeterminados, un ahorro de hasta un 63 %.

Figura 2. Costo relativo para completar tareas de genómica. Un costo más bajo es mejor.

Conclusión

Las aplicaciones de análisis de genómica son muy exigentes de poder computacional, por lo que es especialmente importante seleccionar una VM de la nube con un desempeño robusto. Nuestras pruebas mostraron que optar por VMs Azure Ddv4 con procesadores escalables Intel® Xeon® de 2ª Generación redujo el tiempo para completar tareas de genómica, y el costo para completarlas, casi a la mitad en comparación con VMs predeterminadas con procesadores antiguos.

Más Información

Visite https://docs.microsoft.com/en-us/azure/virtual-machines/ddv4-ddsv4-series para comenzar a ejecutar sus cargas de trabajo de genómica en máquinas virtuales Microsoft® Azure® Ddv4 con procesadores escalables Intel® Xeon® de 2ª Generación.

Todas las pruebas de Intel en Azure/uswest2. Todas las pruebas: Linux, Conjunto de datos de entrada 30X cobertura de secuencia completa de genoma humano (WGS); NA12878, canal de mejores prácticas para llamado de variantes en líneas de gérmenes con preprocesamiento, GATK 4.0.10.1, Biblioteca de kernel de genómica (GKL) 0.8.6, Cromwell 52, Picard 2.20, BWA 0.7.15-r1140, Samtools 1.3.1. Herramientas en https://hub.docker.com/r/broadinstitute/genomes-in-the-cloud/: us.gcr.io/broad-gotc-prod/genomes-in-the-cloud:2.4.3-1564508330, us.gcr.io/broad-gatk/gatk:4.0.10.1. Flujo de trabajo definido: https://github.com/microsoft/gatk4-genome-processing-pipeline-azure. Iteraciones ejecutadas: 3. Detalles de VM: serie Ddv4: 8272CL: Standard_D16d_v4: 16 vCPUs, 64 GiB de RAM, SSD de 600 GiB; Standard_D8d_v4: 8 vCPUs, 32 GiB de RAM, SSD de 300 GB; Standard_D4d_v4: 4 vCPUs, 16 GiB de RAM, SSD de 150 GiB; Standard_D2d_v4: 2 vCPUs, 8 GiB de RAM, SSD de 75 GiB; Serie Dv2: 8272CL, 8171M, E5-2673 v4 o E5-2673 v3: Standard_D3_v2: 4 vCPUs, 14 GiB de RAM, SSD de 200 GiB; Standard_D4_v2: 8 vCPUs, 28 GiB de RAM, SSD de 400 GiB; Standard_D5_v2: 16 vCPUs, 56 GiB de RAM, SSD de 800 GiB; Standard_D2_v2: 2 vCPUs, 7 GiB de RAM; SSD de 100 GiB; Standard_D1_v2: 1 vCPUs, 3,5 GiB de RAM, SSD de 50 GiB; Configuración predeterminada: E5-2660 (A); E5-2660, E5-2673 v4 (Av2); 8272CL, 8171M, E5-2673v4, E5-2673v3 (Dv2, Dv3); E5-2673 (Ls); 8168, 8272CL (Fsv2): Standard_A2: 2 vCPUs, 3,5 GiB de RAM, SSD de 135 GiB; Standard_A3: 4 vCPUs, 7 GiB de RAM, SSD de 285 GiB; Standard_A1_v2: 1 vCPU, 2 GiB de RAM, SSD de 10 GiB; Standard_D2_v3: 2 vCPUs, 8 GiB de RAM, SSD de 50 GiB; Standard_F16s_v2: 16 vCPUs, 32 GiB de RAM, SSD de 128 GiB; Standard_L4s: 4 vCPUs, 32 GiB de RAM, SSD de 678 GiB.