Procesamiento masivo de datos farmacéuticos
Sector Salud & Farmacéutico
Cliente
Empresa farmacéutica alemana con gran relevancia internacional.
Descripción
Gran problema de rendimiento en la ingesta de datos con Spark. Volumen de varios TB de información diaria.
Resultados
Rediseño completo de los Pipelines de ingesta, permitiendo reducir el tiempo de computación de varios días a únicamente unas horas.
Tecnología
Spark con Scala para procesamiento de datos. Flume y Sqoop para la ingesta. Almacenamiento en HDFS disponible usando el motor SQL de Hive. Clúster Big Data con tecnología MapR.