¿Por qué surge esta pregunta?
La aparición del almacenamiento columnar ha puesto en tela de juicio la principal ventaja de la metodología: el rendimiento.
Las bases de datos relacionales tradicionales se almacenan en páginas de fila, para obtener una columna de una fila en particular, es necesario tirar de toda la fila.
Con el almacenamiento columnar, los datos se almacenan en segmentos de columna comprimida. Como cada columna se almacena individualmente, es posible leer sólo las columnas deseadas.
El almacenamiento de columnas aporta ganancias de rendimiento en las cargas de trabajo de OLAP. Por lo tanto, tener una sola mesa ancha con todas las columnas se llevará a cabo mejor, ya que elimina las uniones sin perder rendimiento.
Entonces, ¿Kimball sigue siendo relevante en una arquitectura moderna de DW?
Depende, pero para la mayoría de los almacenes de datos la respuesta es… sí, pero la razón por la que ya no es el rendimiento.
A pesar de una amplia tabla desnormalizada ha mejorado el rendimiento; puede ser difícil de mantener. La gestión de datos es muy importante en este tipo de sistemas.
La actualización de un campo en una dimensión SCD tipo 1 puede requerir actualizaciones de millones de registros en nuestra tabla desnormalizada. Además, la evolución del sistema, como añadir un nuevo campo a una dimensión puede ser una gran tarea en una tabla desnormalizada.
Si estamos cargando información de varios sistemas diferentes, algo típico en un DW, un enfoque de Kimball ayuda a identificar y estandarizar dimensiones comunes.
También al implementar tableros, los hechos con dimensiones comunes pueden aprovechar estos enlaces para la interacción (por ejemplo, PowerBI), algo más complicado entre dos o más tablas desnormalizadas.
¿Qué hacer?
En conclusión, las razones para usar Kimball no serán para el rendimiento sino para la gestión de datos.
Esto no excluye que poner todo en una sola tabla desnormalizada no puede ser una solución para algunos escenarios donde se necesita rendimiento. Podemos adoptar una arquitectura híbrida de acuerdo con los requisitos.
Kimball no es la única solución para un datawarehouse, otras metodologías, como Data Vault o Inmon, existen y deben ser consideradas. Sin embargo, sufren de los mismos problemas discutidos en este artículo.
Anterior
Lo que la licencia Premium por usuario (PPU) cambiará en la adopción Power BI
Siguiente
Data Lake o Almacén? Usted no tiene que elegir!
Puestos conexos
Análisis de datos, Arquitectura de datos, Ciencia de datos, Enlace RedGlue
MLOps – Mida su madurez
Luis Marques , Hace 1 año 3 min para leer Analítica de Datos, Arquitectura de Datos, Ciencia de Datos, Link RedGlue
Servicios de malla de datos – Parte I
Luis Marques , Hace 1 año 3 min para leer Data Architecture, Opinión Artículos
Qué Power BI Premium por licencia de usuario tiene que ofrecer para aquellos que ya tienen Premium
Enlace RedGlue , Hace 1 año 2 min leer Data Architecture, Opinión Artículos
Una inmersión rápida en la inteligencia artificial y el aprendizaje automático
Enlace RedGlue , Hace 1 año 4 min para leer Data Architecture, Opinión Artículos
Lo que la licencia Premium por usuario (PPU) cambiará en la adopción Power BI
Enlace RedGlue , Hace 1 año 3 min leer Procesamiento de datos, Ciencia de los datos, Aprendizaje de características, Opinión Artículos
Aprendizaje de características – Ayudando a los algoritmos de aprendizaje automático derivan valor de los datos
FPreto , Hace 6 meses 4 min para leer