Trabajar con diferentes fuentes de datos y aplicar sobre ellas procesos que te permitan establecer varias estrategias para el acceso y la explotación de dichos datos.
Crear espacios de trabajos para que diferentes usuarios puedan explotar los datos sin interferir con las tareas de otros usuarios y sin afectar la información en origen.
- Abrir el CMD en Windows o Terminal en Linux.
- Ejecutar docker pull dremio/dremio-oss para descargar la imagen.
Imagen 1. Descargar la imagen de dremio
- Verificar la instalación en Docker Desktop.
Imagen 2. Verificación de la instalación en Docker Desktop
- Ejecutar la instancia con docker run -p 9047:9047 -p 31010:31010 -p 45678:45678 dremio/dremio-oss.
Imagen 3. Ejecutar la instancia
- Abrir http://localhost:9047 en el navegador, crear una cuenta y asignar una contraseña.
Imagen 4: Abrir el localhost, crear cuenta e iniciar sesion
- Descargar y descomprimir origenes_de_datos.zip para obtener los cuatro ficheros de datos.
- Desde Dremio, crear una carpeta y subir los ficheros.
- Verificar que los datos se carguen correctamente y realizar los ajustes necesarios.
Imagen 5: Verificar que los datos se carguen correctamente
- Crear una página descriptiva para cada dataset subido, incluyendo la información que contiene y una lista de los campos.
Imagen 6: Crear de Wiki Content.
- Crea tres espacios de trabajo en Dremio: Analista 1, Analista 2 y Analista 3.
Imagen 7: Crear espacios de trabajo en Dremio
Cada espacio debe tener una Wiki Content que explique su finalidad:
- Analista 1: Datos relacionados con ficheros CSV.
- Analista 2: Datos relacionados con ficheros JSON.
- Analista 3: Datos relacionados con ficheros Open Data.
- Abre el dataset Terrazas_202104 y realiza las siguientes modificaciones sobre él:
- Elimina todos los campos id_* excepto el campo id_terraza.
- Elimina el campo “Escalera”.
- Crea un nuevo campo llamado Superficie_TO que sume el campo Superficie_ES y Superficie_ES.
- Guarda la consulta con el nombre de Terreza_001 y guárdalo en el espacio Analista 1.
- Abre el dataset Licencias_Locales_202104
- Elimina los campos del dataset excepto id_local, ref_licencia, desc_tipo_licencia, desc_tipo_situacion_licencia y fecha_dec_lic.
- Guarda esta modificación con el nombre Licencias_002 en el espacio de trabajo Analista 1.
- Abre el dataset Terrazas_202104
- Crea un join con el dataset Licencia_002, utiliza el campo id_local para hacer el inner join. - Guarda esta modificación con el nombre Licencias_Terrazas_003 en el espacio de trabajo Analista 2.
- Abre el dataset books y realiza los siguientes cambios:
- Elimina el campo _id.
- Excluye los libros que no tienen ISBN (opción Exclude…, casilla null).
- En las columnas authors y categories aplica la opción unnest.
- Guarda esta modificación con el nombre Books_ 001 en el espacio de trabajo Analista 3.
Desde el repositorio de datos de ejemplo de Dremio, crea un espacio de trabajo con dichos datos, en concreto con el fichero employees.parquet.
- Crea una Wiki Content para este nuevo repositorio.
- Crea una consulta con el nombre Empleados y guárdala en un espacio de trabajo llamado “Analista General”.
Imagen 8: Dremio sources y datasets









