¿Cómo empiezo con Hadoop, analítica y big data?

1

Todo el mundo está hablando de Hadoop, analítica y big data. Según el analista IDC, el mercado de soluciones de big data y analítica en América Latina representó 661 millones de dólares en 2014. Se espera que la adopción de las soluciones de analítica y big data se incremente como resultado de la madurez del ecosistema de Hadoop y el incremento en el uso de herramientas y aplicaciones analíticas como las ofrecidas por SAS.

La adopción de la analítica y big data en América Latina ha estado lleno de incertidumbres. El trabajo realizado por los diferentes proveedores para educar y capacitar al mercado no ha sido tan exitoso. El número de empresas que iniciaron proyectos de este tipo es muy bajo basado en la información de IDC. La principal razón es la complejidad de este tipo de proyectos.

En Hadoop tenemos un ecosistema muy diverso, que crece día a día, por lo que es difícil estar actualizado de todos los proyectos activos. Por tal motivo, es importante apalancarse del trabajo realizado por proveedores de software como Cloudera, Hortonworks y SAS entre otros, para simplificar y tomar ventaja del ecosistema.

Para iniciar un proyecto de este tipo lo primero es preguntarse ¿Por qué hacerlo? Debe existir un caso de uso convincente, un conductor competitivo, un factor de costo, o algún otro tema que ha sido identificado para la aplicación de tecnologías de big data y analítica. Lo segundo es seleccionar a los integrantes del equipo antes que a la tecnología. La selección de personal es la variable más importante en el éxito del proyecto sobre todo cuando se trata de tecnologías emergentes.

Lo recomendable es dar pasos pequeños con un alcance bien definido y acotado. Tomar un caso de uso real con un retorno de inversión (ROI) claro que fundamente el proyecto. Por ejemplo, utilizar Hadoop como un repositorio centralizado de datos con el fin de abatir el costo de almacenamiento e incrementar la capacidad de procesamiento de grandes volúmenes de datos.

Inicie con pasos pequeños

Es muy importante moverse lento y seguro. En mi experiencia dar “pequeños pasos” y “aprender haciendo” es la clave del éxito. A la fecha existen en Hadoop aproximadamente 133 proyectos en diferentes categorías:

SAS-Hadoop-Alex_Página_2

Con tantas opciones es fácil perderse y desperdiciar los escasos presupuestos y recursos de Tecnología de la Información (TI) si tratamos de abarcar todos ellos. Por lo que es recomendable definir y acotar nuestro proyecto y seleccionar del ecosistema el o los proyectos que mejor se adecuen a nuestros objetivos.

Alcance definido y acotado

Un factor fundamental de éxito es la definición de objetivos del proyecto, previo a la planificación del mismo. ¿Por qué son importantes los objetivos? Principalmente por tres razones:

  1. Ayudan a acotar el alcance real
  2. Permiten monitorear la evolución
  3. Validar la satisfacción de expectativas

Una técnica frecuentemente utilizada para poder evaluar si los objetivos están correctamente definidos es verificar si son “SMART”, acrónimo por sus siglas en inglés, que significa: Specific (Específicos); Measurable (Medibles); Achievable (Alcanzables); Realistic (Realistas); y Time bound (Límite de tiempo).

Necesidad Real

En Mexico, Iusacell ha logrado rebasar diversos retos de negocios, entre los cuales destacan la reducción de los niveles de abandono de clientes y la oferta de campañas más estratégicas a sus clientes.

En Colombia, el banco Davivienda presenta un caso práctico. DaviPlata es un producto que permite al cliente manejar de forma fácil y gratis su dinero desde su celular sin necesidad de tener una cuenta bancaria o tarjeta débito. Una vez activado el celular con DaviPlata se puede recibir y enviar dinero. Banco Davivienda ha tomado técnicas emergentes de big data para analizar los comportamientos típicos de grupos de clientes similares y controlar o rechazar uso atípico.

En Argentina Arcos Dorado, la mayor cadena de restaurantes de servicio rápido de América,   analiza los recibos de las cajas, recolectando los datos de las ventas realizadas en todos los restaurantes, para saber quién come qué, cuándo, con quién, y después evaluar las nuevas ofertas a ofrecer en función de menús, recetas, regiones, horarios, etcétera.

Son muchos los campos donde el big data es utilizado. En empresas del sector financiero, bancario, salud, automotriz, gubernamental, farmacéutico, y otros sectores económicos en todos los continentes. Si bien existen un número de aplicaciones “sexy” como las antes mencionadas. Big data no es siempre tan sexy y, de hecho, la mayoría de las veces no lo es. De ahí que la clave del éxito es identificar una necesidad real de la empresa y cuál es el retorno de la inversión esperado.

Retorno de inversión

Los proyectos de big data son complejos, de alto riesgo y el retorno de la inversión es difícil de cuantificar. Definitivamente este es el nuevo tipo de aplicaciones que se requieren. Sin embargo, en la fase de aprendizaje lo mejor es iniciar creando un fundamento sólido para su desarrollo. Los proyectos mencionados en la sección anterior tienen en común el acceso a un volumen de datos adecuado en forma oportuna y con la calidad suficiente para su análisis.

Las empresas exitosas en este tipo de proyectos han empezado evolucionando su almacenamiento de datos y su forma de extraerlos y procesarlos hacia un esquema de big data y herramientas de analítica avanzada para aprovechar la información lo mejor posible.

Un factor clave ha sido la escalabilidad y el bajo costo de Hadoop. Por ejemplo, un clúster Hadoop con un petabyte de capacidad para almacenamiento, requiere entre 125 y 250 nodos que cuestan aproximadamente $ 1 millón de dólares. El costo de una distribución comercial de Hadoop tiene costos similares (aprox. $ 4.000 Dólares por nodo), que es una pequeña fracción del costo de una bodega de datos ($10-$100s de millones de dólares) utilizando una base de datos relacional y almacenamiento tradicional. Las empresas innovadoras tienen hoy Hadoop - la pregunta es ¿cómo van a aprovecharlo y que tan rápido se convertirá en una tecnología de misión-crítica?

Para iniciar un proyecto con Hadoop, analítica y big data es recomendable dar pasos pequeños, con un alcance bien definido. Hay que democratizar el acceso a los datos y tener una plataforma robusta para manejarlos.

Con Hadoop las empresas pueden almacenar los datos en diferentes formatos. Por lo que se reduce la inversión de tiempo y dinero para procesarlos en comparación con el tiempo requerido para configurar las bases de datos relacionales y sus tablas rígidas. Hadoop es la plataforma perfecta, ya que el crecimiento es más sencillo y económico, además de facilitar la captura datos procedentes de múltiples fuentes.

Publicación disponible también en Forbes México

Share

About Author

Alex Infanzon

Principal Solutions Architect

Alex cuenta con amplia experiencia en temas de inteligencia de negocios (BI), gestión e integración de datos, gestión de datos maestros, analítica y soluciones de computación de alto rendimiento. Su trayectoria es de más de 30 años de experiencia profesional en consultoría y pre-venta de software en diferentes empresas y giros como: Westinghouse, Informix Software, Sun Microsystems, Composite Software, Dun and Bradstreet, EMC Greenplum y SAS Institute. Su labor en SAS se ha destacado por realizar proyectos de consultoría y desarrollo de arquitecturas (hardware y software) con un gran número de empresas en diferentes industrias verticales. Actualmente colabora para SAS en atender a las organizaciones de la costa oeste de SAS. Alex tiene una maestría en Ciencias de la Computación de la Universidad de Exeter en el Reino Unido y una licenciatura en Informática de la Universidad Anáhuac en México.

1 Comment

Leave A Reply

Back to Top