Buenas! Hoy quiero compartir un trabajo muy interesante que he realizado para la asignatura de diseño y uso de bases de datos analíticas del Grado de Ciencia de Datos Aplicada. En esta práctica, los alumnos, nos enfocamos en el análisis de los resultados de las elecciones de Estados Unidos utilizando un modelo OLAP (Online Analytical Processing).
Qué hicimos?
El objetivo principal era diseñar y explotar un almacén de datos (o data warehouse) para analizar las elecciones presidenciales de Estados Unidos. Esta fue la parte final, anteriormente hicimos el diseño de la parte ETL y la parte de la base de datos relacional, la stage area y el diseño dimensional.
Aquí dejo un resumen de los pasos que seguí:
- Creación del Proyecto en Visual Studio:
- Creé un nuevo proyecto en Visual Studio, donde importé los datos desde un servidor del laboratorio de la universidad.
- Configuré la conexión a la base de datos para asegurarme de que todo funcionara correctamente.
- Creación de Vistas de Origen de Datos:
- Creé vistas para organizar los datos de manera estructurada. Por ejemplo, para analizar el índice SP500 y los resultados de las elecciones, creé vistas específicas para cada uno.
- Creación e Implementación de Cubos:
- Un cubo OLAP es como una hoja de cálculo súper avanzada donde puedes cruzar datos de diferentes maneras.
- Creé dos cubos: uno para el índice SP500 y otro para los resultados de las elecciones.
- Configuración de Dimensiones:
- Las dimensiones son como categorías para agrupar los datos. Configuré dimensiones como el año, el estado, el partido político, etc.
- Procesado y Solución de Errores:
- Procesé los cubos para asegurarme de que todo funcionara correctamente y solucioné cualquier error que surgiera durante el proceso.
- Consultas y Explotación de Datos:
- Diseñé varias consultas para responder a preguntas específicas, como la evolución de los votos del partido demócrata a lo largo del tiempo, los candidatos más votados, y la comparación de los resultados de las elecciones de 2016 y 2020 en estados clave.
Resultados Clave obtenidos con consultas MDX y en Power Bi:
- Evolución del Índice SP500:
- Analicé cómo ha cambiado el índice SP500 a lo largo del tiempo y observé las diferencias entre años clave.
- Evolución de los Votos del Partido Demócrata:
- Mostré cómo los votos para el partido demócrata han evolucionado con el tiempo, ordenados de manera descendente por año.
- Top 10 de Candidatos Más Votados:
- Mostré los diez candidatos presidenciales más votados en la historia de las elecciones.
- Comparación de Resultados en Estados Clave:
- Resultados de las elecciones de 2016 y 2020 en Michigan, Pennsylvania y Wisconsin, mostrando cómo estos resultados fueron cruciales para la victoria de Joe Biden en 2020.
- Participación Electoral en California:
- Identifiqué los cinco años con mayor participación electoral en California.
- Diferencia de Votos de Donald Trump:
- Diferencia en los votos recibidos por Donald Trump entre las elecciones de 2016 y 2020, estado por estado.
- Comparación Entre Clinton y Trump en 2016:
- Comparé los resultados de Hillary Clinton y Donald Trump en las elecciones de 2016, estado por estado.
Herramientas Utilizadas
Para llevar a cabo este análisis, utilicé varias herramientas:
- Visual Studio: Para crear y gestionar el proyecto OLAP.
- Power BI: Para visualizar y analizar los datos de manera interactiva.
- SQL Server Management Studio (SSMS): Para gestionar la base de datos y ejecutar consultas SQL.
Proyecto en versión PDF
Conclusión
Este proyecto me permitió profundizar en el análisis de datos a gran escala y entender mejor cómo se pueden utilizar las bases de datos multidimensionales para tomar decisiones informadas. Fue un reto interesante y estoy muy contento con los resultados obtenidos.
Espero que esta explicación les haya dado una idea clara de lo que hice y cómo lo hice. Si tienen alguna pregunta o quieren saber más detalles, ¡no duden en dejarme un comentario!
¡Hasta la próxima!
Deja una respuesta