Big data

Actualmente existen multitud de datos en las empresas, tanto los que provienen de datos internos de negocio, como nuevas fuentes de datos como los que se recopilan de redes sociales, la web de la empresa, etc.

Podemos dividir los datos disponibles para las empresas en dos grandes categorías. Por un lado, están los datos que tradicionalmente han sido objeto de análisis, los estructurados, que son los datos susceptibles de almacenarse en bases de datos de tablas homogéneas.

Por otro lado, existen los datos que no son estructurados, que cada vez cobran más importancia y que requieren estructuras y formatos distintos, ya que provienen de distintas fuentes. Algunas nuevas fuentes de datos que producen esta información son los logs de uso de la web y los datos generados por la interacciones del usuario online, como pueden ser los mapas de densidad de clics, tweets, chats de Facebook, mensajes de texto, correos, etc.

Se crea pues un entorno híbrido que enriquece enormemente las posibilidades del análisis, pero que al mismo tiempo aumenta su dificultad, y que conlleva decisiones de gran calado para el proyecto. Por ejemplo, haya que decidir si se normaliza toda la información antes del análisis, o si basta con proporcionar una vista agregada de todas las fuentes, simplificando la integración pero aumentando la incertidumbre sobre el alcance de las conclusiones.

¿Cómo se analizan los datos no estructurados?

Para analizar datos no estructurados se deben buscar patrones en texto, vídeo, imágenes y otros contenidos no tradicionales. Esto es diferente de una búsqueda convencional, que devuelve resultados relevantes en función de las apariciones de una cadena de texto. En un entorno de análisis y extracción de datos no estructurados se emplean técnicas desarrolladas en áreas científicas como la lingüística, la estadística y el análisis numérico, entre otros.

Por ejemplo, el área de Text Analytics se ocupa de encontrar patrones repetitivos en documentos, correos, conversaciones y de extraer de ello inferencias y nuevos conocimientos. Algunas de las tecnologías utilizadas para el análisis de datos no estructurados son el procesamiento de lenguaje natural (NLP), la minería de datos, la gestión de datos maestros (MDM) y los procedimientos estadísticos, etc.

Para dar soporte a Text Analytics se utilizan bases de datos NoSQL (Not Only SQL), que son bases de datos de última generación no relacionales. Se caracterizan por ser escalables y tener alta disponibilidad. Además, están diseñadas para ser fáciles de gestionar y son más económicas que otro tipo de sistemas como RDBMS. Existen distintos tipos de bases NoSQL, por lo que se debe decidir cuál es la adecuada en función de cada proyecto.

En paralelo, hay distintos tipos de lenguajes para trabajar con bases NoSQL, por ejemplo Hive y Pig, y cada uno tiene sus ventajas y sus desventajas a la hora de desplegar una solución de Big Data.

Si quieres conocer más en profundidad las soluciones Big Data las opciones disponibles visita nuestra web y ponte en contacto con uno de nuestros expertos.

#BIG DATA #DATOS #NOSQL
Fuente: GTI