Amazon EMR

Ejecución y escalado sencillos de Apache Spark, Hive, Presto y otros marcos de big data

Amazon EMR es la plataforma para big data en la nube líder en la industria destinada al procesamiento de grandes volúmenes de datos mediante el uso de herramientas de código abierto como Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi y Presto. Con EMR puede ejecutar análisis a escala de petabytes a menos de la mitad del costo de las soluciones locales tradicionales y con una velocidad 3 veces superior que el Apache Spark estándar. Para trabajos de corta duración, puede iniciar y finalizar clústeres y pagar por segundo en función de las instancias utilizadas. Para cargas de trabajo de larga duración, puede crear clústeres de alta disponibilidad que se escalan automáticamente para satisfacer la demanda. Si tiene implementaciones locales de herramientas de código abierto, tales como Apache Spark y Apache Hive, también puede ejecutar clústeres de EMR en AWS Outposts.

Beneficios

Facilidad de uso

Los analistas, los ingenieros de datos y los científicos de datos pueden usar EMR Notebooks, lo que permite a las personas y los equipos colaborar fácilmente y analizar, procesar y visualizar datos de manera interactiva. Tan solo debe especificar la versión de las aplicaciones de EMR y el tipo de cómputo que desea usar. EMR se encarga del aprovisionamiento, la configuración y el ajuste de los clústeres para que pueda concentrarse en ejecutar análisis.

Bajo costo

Los precios de EMR son simples y predecibles: paga una tarifa por instancia por segundo de uso, con un cargo mínimo de un minuto. Puede lanzar un clúster de EMR de 10 nodos por tan solo 0,15 USD por hora. También puede ahorrar entre un 50 y 80 % en el costo de las instancias si selecciona instancias de spot de Amazon EC2 para cargas de trabajo transitorias e instancias reservadas para cargas de trabajo de larga duración. También puede utilizar Savings Plans.

Elasticidad

A diferencia de la infraestructura rígida de los clústeres locales, EMR desacopla el cómputo y el almacenamiento, lo que le brinda la capacidad para ajustar la escala de cada uno de forma independiente y aprovechar el almacenamiento en niveles de Amazon S3. Gracias a EMR, puede aprovisionar una instancia de cómputo o cientos o miles de ellas para procesar datos a cualquier escala. Aumente o reduzca la cantidad de instancias automáticamente con Auto Scaling (que administra los tamaños de los clústeres en función del uso), y solo pagará por lo que utilice.

Fiabilidad

Dedique menos tiempo a ajustar y monitorizar el clúster. EMR está ajustado para la nube y monitoriza el clúster constantemente, reintenta las tareas fallidas y sustituye de forma automática las instancias que tienen un rendimiento deficiente. Como poseen varios nodos principales, los clústeres tienen una disponibilidad alta y ejecutan una conmutación por error automática cuando ocurren fallas en un nodo. EMR proporciona las últimas versiones estables del software de código abierto. No es necesario que usted administre actualizaciones y correcciones de errores, lo que implica menos problemas y esfuerzo para mantener el entorno.

Seguridad

EMR establece automáticamente los ajustes del firewall de EC2 para controlar el acceso de red a las instancias y lanza clústeres en una Amazon Virtual Private Cloud (VPC). El cifrado del lado del servidor o el cifrado del lado del cliente se puede utilizar con AWS Key Management Service o las claves administradas por el cliente. EMR facilita la habilitación de otras opciones de cifrado, como el cifrado en tránsito y en reposo, y la autenticación sólida con Kerberos. Puede usar AWS Lake Formation o Apache Ranger para aplicar controles de acceso a los datos específicos para bases de datos, tablas y columnas.

Flexibilidad

Usted tiene pleno control sobre su clúster con acceso raíz a cada instancia. Puede iniciar clústeres de EMR con las AMI de Amazon Linux personalizadas e instalar fácilmente aplicaciones adicionales con acciones de arranque. EMR le permite reconfigurar aplicaciones en clústeres en ejecución sobre la marcha, sin la necesidad de reiniciar los clústeres. Además, con Hadoop 3.0, puede empaquetar las dependencias de la biblioteca en contenedores Docker y enviarlas con sus trabajos para simplificar las dependencias del entorno.

Casos de uso

Aprendizaje automático

Use las herramientas de aprendizaje automático integradas de EMR, como Apache Spark MLlib, TensorFlow y Apache MXNet para los algoritmos de aprendizaje automático escalables, y use las AMI personalizadas y las acciones de arranque para agregar sus bibliotecas y herramientas preferidas con facilidad y crear su propio conjunto de herramientas de análisis predictivo.

Extracción, transformación y carga (ETL)

EMR se puede utilizar para realizar de forma rápida y rentable cargas de trabajo de transformación de datos (ETL), como por ejemplo ordenar, agregar e incluir, en conjuntos de datos de gran tamaño.

Conozca cómo Redfin utiliza los clústeres transitorios de EMR para ETL

Análisis de secuencias de clics

Analice los datos de secuencias de clics de Amazon S3 con Apache Spark y Apache Hive para segmentar a los usuarios, comprender sus preferencias y presentar anuncios más efectivos.

Streaming en tiempo real

Analice los eventos de Apache Kafka, Amazon Kinesis u otras fuentes de datos de streaming en tiempo real con Apache Spark Streaming y Apache Flink para crear canalizaciones de datos de streaming de larga duración, altamente disponibles y tolerantes a errores en EMR. Conserve los conjuntos de datos transformados en S3 o HDFS y la información en Amazon Elasticsearch Service.

Conozca cómo Hearst utiliza Spark Streaming

Análisis interactivo

EMR Notebooks ofrece un entorno analítico de administración basado en Jupyter de código abierto que permite que los científicos de datos, los analistas y los desarrolladores preparen y visualicen los datos, colaboren con sus colegas, creen aplicaciones y realicen análisis interactivos.

Genómica

EMR se puede utilizar para procesar grandes volúmenes de datos genómicos y otros conjuntos de datos científicos de gran tamaño de forma rápida y eficiente. Los investigadores pueden obtener acceso a los datos genómicos alojados de forma gratuita en AWS.

Obtenga información sobre Apache Spark y la medicina de precisión

Casos prácticos

Investigaciones de analistas