¿qué es la arquitectura de datos? un marco para la gestión de datos

Definición de arquitectura de datos

La arquitectura de datos describe la estructura de los activos de datos lógicos y físicos y los recursos de gestión de datos de una organización, según The Open Group Architecture Framework (TOGAF). Es una rama de la arquitectura empresarial que comprende los modelos, políticas, reglas y estándares que rigen la recopilación, almacenamiento, disposición, integración y uso de datos en las organizaciones. La arquitectura de datos de una organización es competencia de los arquitectos de datos.

Objetivos de la arquitectura de datos

El objetivo de la arquitectura de datos es traducir las necesidades empresariales en requisitos de datos y sistemas y gestionar los datos y su flujo a través de la empresa. Muchas organizaciones buscan modernizar su arquitectura de datos como base para aprovechar plenamente la IA y permitir la transformación digital. La consultora McKinsey Digital señala que muchas organizaciones no alcanzan sus objetivos de transformación digital y de IA debido a la complejidad del proceso en lugar de la complejidad técnica.

Principios de arquitectura de datos

Según Joshua Klahr, vicepresidente de gestión de productos, productos básicos, en Splunk, y ex vicepresidente de gestión de productos en AtScale, seis principios forman la base de la arquitectura de datos moderna:

  1. Los datos son un activo compartido. Una arquitectura de datos moderna necesita eliminar los silos de datos departamentales y dar a todas las partes interesadas una visión completa de la empresa.
  2. Los usuarios requieren un acceso adecuado a los datos. Además de descomponer los silos, las arquitecturas de datos modernas necesitan proporcionar interfaces que faciliten a los usuarios el consumo de datos utilizando herramientas adecuadas para sus trabajos.
  3. La seguridad es esencial. Las arquitecturas de datos modernas deben diseñarse para la seguridad y deben apoyar las políticas de datos y los controles de acceso directamente sobre los datos brutos.
  4. Los activos de datos compartidos, como catálogos de productos, dimensiones de calendario fiscal y definiciones de KPI, requieren un vocabulario común para ayudar a evitar disputas durante el análisis.
  5. Los datos deben ser comisariados. Invierta en las funciones básicas que realizan la curaduría de datos (modelo de relaciones importantes, limpieza de datos brutos y curaduría de dimensiones y medidas clave).
  6. Los flujos de datos deben ser optimizados para la agilidad. Reduzca el número de veces que los datos deben ser movidos para reducir el costo, aumentar la frescura de los datos y optimizar la agilidad empresarial.

Componentes de arquitectura de datos

Una arquitectura de datos moderna consta de los siguientes componentes, según la consultora de TI BMC:

  • Gasoductos de datos. Un gasoducto de datos es el proceso en el cual los datos son recogidos, movidos y refinados. Incluye recolección de datos, refinamiento, almacenamiento, análisis y entrega.
  • Almacenamiento en la nube. No todas las arquitecturas de datos aprovechan el almacenamiento en la nube, pero muchas arquitecturas de datos modernas utilizan nubes públicas, privadas o híbridas para proporcionar agilidad.
  • Computación en la nube. Además de utilizar la nube para el almacenamiento, muchas arquitecturas de datos modernas utilizan la computación en la nube para analizar y administrar datos.
  • Las arquitecturas de datos modernas utilizan API para hacer que sea fácil exponer y compartir datos.
  • Los modelos AI y ML. AI y ML se utilizan para automatizar sistemas para tareas como la recopilación de datos, el etiquetado, etc. Al mismo tiempo, las arquitecturas de datos modernas pueden ayudar a las organizaciones a desbloquear la capacidad de aprovechar la IA y el ML a escala.
  • Transmisión de datos. La transmisión de datos fluye continuamente de una fuente a un destino para su procesamiento y análisis en tiempo real o casi en tiempo real.
  • Un sistema de orquestación de contenedores como Kubernetes de código abierto se utiliza a menudo para automatizar el despliegue, escalado y administración de software.
  • Análisis en tiempo real. El objetivo de muchas arquitecturas de datos modernas es ofrecer análisis en tiempo real, la capacidad de realizar análisis sobre nuevos datos a medida que llega al entorno.

Arquitectura de datos vs. modelado de datos

Según Data Management Book of Knowledge (DMBOK 2), la arquitectura de datos define el plan para la gestión de activos de datos alineándose con la estrategia organizacional para establecer requisitos y diseños de datos estratégicos para cumplir con esos requisitos. Por otro lado, DMBOK 2 define el modelado de datos como “el proceso de descubrir, analizar, representar y comunicar los requisitos de datos en una forma precisa llamada el modelo de datos”.

Si bien tanto la arquitectura de datos como el modelado de datos buscan salvar la brecha entre los objetivos empresariales y la tecnología, la arquitectura de datos trata de la macrovisión que busca entender y apoyar las relaciones entre las funciones, la tecnología y los tipos de datos de una organización.

Marcos de arquitectura de datos

Hay varios marcos de arquitectura empresarial que suelen servir de base para la construcción del marco de arquitectura de datos de una organización.

  • DAMA-DMBOK 2. El Cuerpo de Conocimiento de Gestión de Datos de DAMA International es un marco específico para la gestión de datos. Proporciona definiciones estándar para funciones de gestión de datos, entregables, roles y otra terminología, y presenta principios rectores para la gestión de datos.
  • Zachman Framework for Enterprise Architecture. Zachman Framework es una ontología empresarial creada por John Zachman en IBM en la década de 1980. La columna “datos” del Marco Zachman comprende múltiples capas, incluyendo estándares arquitectónicos importantes para el negocio, un modelo semántico o modelo de datos conceptuales/empresarios, un modelo de datos empresariales/lógicos, un modelo de datos físicos y bases de datos reales.
  • El Open Group Architecture Framework (TOGAF). TOGAF es una metodología de arquitectura empresarial que ofrece un marco de alto nivel para el desarrollo de software empresarial. La fase C de TOGAF cubre el desarrollo de una arquitectura de datos y la construcción de una hoja de ruta de arquitectura de datos.

Mejores prácticas de arquitectura de datos moderna

Las arquitecturas de datos modernas deben diseñarse para aprovechar tecnologías emergentes como la inteligencia artificial (AI), la automatización, Internet de las cosas (IoT) y blockchain. Dan Sutherland, director senior, consultoría tecnológica, Protiviti, dice que las arquitecturas de datos modernas deben adherirse a las siguientes mejores prácticas:

  • Las arquitecturas de datos modernas deben ser diseñadas para soportar escalado elástico, alta disponibilidad, seguridad de extremo a extremo para datos en movimiento y datos en reposo, y escalabilidad de costo y rendimiento.
  • Conducciones de datos escalables. Para aprovechar las tecnologías emergentes, las arquitecturas de datos deben apoyar la transmisión de datos en tiempo real y las ráfagas de datos de micro-batch.
  • Integración de datos sin fisuras. Las arquitecturas de datos deben integrarse con aplicaciones heredadas utilizando interfaces API estándar. También deben optimizarse para compartir datos entre sistemas, geografías y organizaciones.
  • Habilitación de datos en tiempo real. Las arquitecturas de datos modernas deben apoyar la capacidad de implementar la validación, clasificación, gestión y gobernanza de datos automatizada y activa.
  • Las arquitecturas de datos modernas deben diseñarse para acoplarse libremente, lo que permite a los servicios realizar tareas mínimas independientes de otros servicios.

Funciones de arquitectura de datos

Estos son algunos de los títulos de trabajo más populares relacionados con la arquitectura de datos y el salario promedio para cada puesto, según los datos de PayScale:

  • Arquitecto de datos: $79K-$160K
  • Director del proyecto: 58K-129K
  • Arquitecto de soluciones: $76K-$163K
  • Ingeniero de datos: $66K-$132K
  • Analista de datos: 45K-87K
  • Científico de datos: $68K-$136K

Siguiente lea esto

  • 10 resoluciones de TI para 2022
  • 11 mentiras que los CIO se dirán en 2022
  • Los 15 mejores productos para llevar de los líderes de TI desde 2021
  • 7 inversiones en el presupuesto de TI en caliente — y 4 que se enfrían
  • 7 errores de arquitectura empresarial para evitar
  • 13 trabajos de TI más difíciles de cumplir
  • 7 tendencias de transformación digital en caliente — y 3 en frío
  • 7 métricas de TI que más importan
  • 7 conductas tóxicas del equipo Los líderes de TI deben desarraigar
  • 10 habilidades clave para una estrategia de nube exitosa
    Relacionado:

  • Gestión de datos
  • Master Data Management
  • Minería de datos
  • Ciencia de los datos
  • Análisis
  • Marcos de gobernanza de las tecnologías de la información

Autor: Thor Olavsrud, Senior Writer

Thor Olavsrud cubre análisis de datos, inteligencia de negocios y ciencia de datos para CIO.com. Vive en Nueva York.

>

Historias recientes de Thor Olavsrud:

  • Los 10 mejores programas de postgrado de AI
  • ¿Qué es una plataforma de datos del cliente? Una base de datos unificada del cliente
  • A pérdida para el proyecto de datos ROI? Evaluarlo como un producto
  • Los 7 principales desafíos a los que se enfrentarán los líderes de TI en 2022

Video: ¿Qué es la arquitectura de datos? Un marco para la gestión de datos

Similar Articles

Most Popular