Puntos para recordar al escribir ETL desde cero

Una introducción a ETL

ETL es un tipo de proceso de integración de datos que se refiere a tres pasos distintos pero interrelacionados (Extraer, Transformar y Cargar) y se usa para sintetizar datos de múltiples fuentes muchas veces para construir un Data Warehouse, Data Hub o Data Lake.

El error y el error de juicio más comunes que se cometen al diseñar y construir una solución ETL es saltar a escribir código antes de tener una comprensión integral de los requisitos/necesidades del negocio.

Hay algunas cosas fundamentales que deben tenerse en cuenta antes de seguir adelante con la implementación de una solución y un flujo ETL.

¿Por qué ETL?

Es esencial formatear y preparar correctamente los datos para poder cargarlos en el sistema de almacenamiento de datos de su elección. La combinación triple de ETL proporciona funciones cruciales que muchas veces se combinan en una sola aplicación o conjunto de herramientas que ayudan en las siguientes áreas:

  • Ofrece un contexto histórico profundo para los negocios.
  • Potencia las soluciones de Business Intelligence para la toma de decisiones.
  • Permite agregaciones de contexto y datos para que la empresa pueda generar mayores ingresos y/o ahorrar dinero.
  • Habilita un repositorio de datos común.
  • Permite verificar las reglas de transformación, agregación y cálculo de datos.
  • Permite la comparación de datos de muestra entre el sistema de origen y el de destino.
  • Ayuda a mejorar la productividad ya que codifica y reutiliza sin necesidad de conocimientos técnicos adicionales.

Un proceso ETL básico se puede clasificar en las siguientes etapas:

  1. Extracción de datos
  2. Limpieza de datos
  3. Transformación
  4. Carga

El enfoque factible no solo debe coincidir con la necesidad y los requisitos comerciales de su organización, sino también con el desempeño en todas las etapas anteriores.

En muchos lugares, la carga se realiza antes de la transformación, ese proceso también se conoce como ELT.

Puntos a tener en cuenta:

  1. Conozca y comprenda su fuente de datos, donde necesita extraer datos.
  2. Nunca pierda sus datos sin procesar.
  3. Aprenda las mejores formas de extraer datos de la fuente.
  4. Haga todo lo posible para implementar la extracción incremental (no se pierda los datos actualizados).
  5. Elija un mecanismo de limpieza adecuado según los datos extraídos.
  6. Conozca y comprenda el destino final de los datos: dónde residirán en última instancia.
  7. Decida si la transformación debe realizarse antes de la carga o después de la carga.
  8. Si escribe su propio ETL, escríbalo modular y expandible para futuras fuentes de datos, pero no complique el código.
  9. Tenga cuidado con los datos duplicados y los valores nulos.
  10. Si la fuente es la base de datos, tenga cuidado con el retraso.

Hay muchos puntos a considerar al escribir el ETL. Acabo de mencionar sólo algunos. Sería genial saber de usted acerca de los puntos críticos que olvidé mencionar.

Similar Posts

Leave a Reply

Your email address will not be published.