Introducción a la carga, transformación y exportación de datos

En este documento, se describen los enfoques de integración de datos para cargar y transformar datos en BigQuery mediante los procesos de extracción, carga y transformación (ELT) o extracción, transformación y carga (ETL). También se describe la exportación de datos desde BigQuery para aplicar estadísticas en otros sistemas, lo que se conoce como ETL inverso.

Cómo decidir entre ELT o ETL

Es común transformar los datos antes o después de cargarlos en BigQuery. Una decisión fundamental es si transformar los datos antes de cargarlos en BigQuery (enfoque de extracción, transformación y carga o ETL) o cargar los datos sin procesar en BigQuery y realizar transformaciones con BigQuery (enfoque de extracción, carga y transformación o ELT).

En el siguiente gráfico, se muestran las diferentes opciones de integración de datos en BigQuery, ya sea con ELT o ETL.

Un árbol de decisiones de los productos que se usan en los flujos de trabajo de ELT o ETL para la integración de datos en BigQuery

En general, recomendamos el enfoque de ELT a la mayoría de los clientes. El flujo de trabajo de ELT divide la integración de datos compleja en dos partes fáciles de administrar: extracción y carga, y, luego, transformación. Los usuarios pueden elegir entre una variedad de métodos de carga de datos que se adapten a sus necesidades. Una vez que sus datos se cargan en BigQuery, los usuarios familiarizados con SQL pueden desarrollar canalizaciones de transformación con herramientas como Dataform.

En las siguientes secciones, se describe cada flujo de trabajo con más detalle.

Carga y transformación de datos

Es común transformar los datos antes o después de cargarlos en BigQuery. En las siguientes secciones, se describen los dos enfoques comunes para la integración de datos, ETL y ELT.

Enfoque de integración de datos con ELT

Con el enfoque de extracción, carga y transformación (ELT), realizas la integración de datos en dos pasos discretos:

  • Extrae y carga datos
  • Transforma los datos

Por ejemplo, puedes extraer y cargar datos de una fuente de archivo JSON en una tabla de BigQuery. Luego, puedes usar canalización para extraer y transformar campos en tablas de destino.

El enfoque de ELT puede simplificar tu flujo de trabajo de integración de datos de las siguientes maneras:

  • Elimina la necesidad de otras herramientas de procesamiento de datos
  • Divide el proceso de integración de datos, a menudo complejo, en dos partes fáciles de administrar.
  • Aprovecha al máximo las capacidades de BigQuery para preparar, transformar y optimizar tus datos a gran escala.

Extracción y carga de datos

En el enfoque de integración de datos de ELT, extraes datos de una fuente de datos y los cargas en BigQuery con cualquiera de los métodos compatibles para cargar o acceder a datos externos.

Transforma datos en BigQuery

Después de cargar los datos en BigQuery, puedes prepararlos y transformarlos con las siguientes herramientas:

  • Para compilar, probar, documentar y programar de forma colaborativa canalizaciones avanzadas de transformación de datos de SQL, usa Dataform.
  • Para flujos de trabajo de transformación de datos más pequeños que ejecuten código SQL, notebooks de Python o preparaciones de datos según un programa, usa canalizaciones de BigQuery.
  • Para limpiar tus datos para el análisis, usa la preparación de datos potenciada por IA.

Cada una de estas herramientas se basa en la API de Dataform.

Para obtener más información, consulta Introducción a las transformaciones.

Enfoque de integración de datos con ETL

En el enfoque de extracción, transformación y carga (ETL), extraes y transformas los datos antes de que lleguen a BigQuery. Este enfoque es útil si tienes un proceso existente para la transformación de datos o si deseas reducir el uso de recursos en BigQuery.

Cloud Data Fusion puede facilitar tu proceso de ETL. BigQuery también funciona con socios externos que transforman y cargan datos en BigQuery.

Exporta datos

Después de procesar y analizar los datos en BigQuery, puedes exportar los resultados para aplicarlos en otros sistemas. BigQuery admite las siguientes exportaciones:

  • Exporta los resultados de las consultas a un archivo local, Google Drive o Hojas de cálculo de Google
  • Exporta tablas o resultados de consultas a Cloud Storage, Bigtable, Spanner y Pub/Sub

Este proceso se conoce como ETL inverso.

Para obtener más información, consulta Introducción a la exportación de datos en BigQuery.

¿Qué sigue?