¿debo seguir usando un enfoque kimball en un moderno almacén de datos? enlace pegamento rojo

¿Por qué surge esta pregunta?

La aparición del almacenamiento columnar ha puesto en tela de juicio la principal ventaja de la metodología: el rendimiento.

Las bases de datos relacionales tradicionales se almacenan en páginas de fila, para obtener una columna de una fila en particular, es necesario tirar de toda la fila.

Con el almacenamiento columnar, los datos se almacenan en segmentos de columna comprimida. Como cada columna se almacena individualmente, es posible leer sólo las columnas deseadas.

El almacenamiento de columnas aporta ganancias de rendimiento en las cargas de trabajo de OLAP. Por lo tanto, tener una sola mesa ancha con todas las columnas se llevará a cabo mejor, ya que elimina las uniones sin perder rendimiento.

Entonces, ¿Kimball sigue siendo relevante en una arquitectura moderna de DW?

Depende, pero para la mayoría de los almacenes de datos la respuesta es… sí, pero la razón por la que ya no es el rendimiento.

A pesar de una amplia tabla desnormalizada ha mejorado el rendimiento; puede ser difícil de mantener. La gestión de datos es muy importante en este tipo de sistemas.

La actualización de un campo en una dimensión SCD tipo 1 puede requerir actualizaciones de millones de registros en nuestra tabla desnormalizada. Además, la evolución del sistema, como añadir un nuevo campo a una dimensión puede ser una gran tarea en una tabla desnormalizada.

Si estamos cargando información de varios sistemas diferentes, algo típico en un DW, un enfoque de Kimball ayuda a identificar y estandarizar dimensiones comunes.

También al implementar tableros, los hechos con dimensiones comunes pueden aprovechar estos enlaces para la interacción (por ejemplo, PowerBI), algo más complicado entre dos o más tablas desnormalizadas.

¿Qué hacer?

En conclusión, las razones para usar Kimball no serán para el rendimiento sino para la gestión de datos.

Esto no excluye que poner todo en una sola tabla desnormalizada no puede ser una solución para algunos escenarios donde se necesita rendimiento. Podemos adoptar una arquitectura híbrida de acuerdo con los requisitos.

Kimball no es la única solución para un datawarehouse, otras metodologías, como Data Vault o Inmon, existen y deben ser consideradas. Sin embargo, sufren de los mismos problemas discutidos en este artículo.

Anterior

Lo que la licencia Premium por usuario (PPU) cambiará en la adopción Power BI

Siguiente

Data Lake o Almacén? Usted no tiene que elegir!

Puestos conexos

Análisis de datos, Arquitectura de datos, Ciencia de datos, Enlace RedGlue

MLOps – Mida su madurez

Luis Marques , Hace 1 año 3 min para leer Analítica de Datos, Arquitectura de Datos, Ciencia de Datos, Link RedGlue

Servicios de malla de datos – Parte I

Luis Marques , Hace 1 año 3 min para leer Data Architecture, Opinión Artículos

Qué Power BI Premium por licencia de usuario tiene que ofrecer para aquellos que ya tienen Premium

Enlace RedGlue , Hace 1 año 2 min leer Data Architecture, Opinión Artículos

Una inmersión rápida en la inteligencia artificial y el aprendizaje automático

Enlace RedGlue , Hace 1 año 4 min para leer Data Architecture, Opinión Artículos

Lo que la licencia Premium por usuario (PPU) cambiará en la adopción Power BI

Enlace RedGlue , Hace 1 año 3 min leer Procesamiento de datos, Ciencia de los datos, Aprendizaje de características, Opinión Artículos

Aprendizaje de características – Ayudando a los algoritmos de aprendizaje automático derivan valor de los datos

FPreto , Hace 6 meses 4 min para leer

Similar Articles

Most Popular