Periodismo de datos y machine Learning con Orange Data Mining

En esta entrada, me sumerjo en dos campos apasionantes que se entrelazan con mi formación en ciencia de datos en la UOC: el periodismo de datos y el machine learning. Aquí comparto un resumen de lo que he trabajado, enfocándome en cómo los datos pueden revelar tendencias globales y predecir resultados de salud importantes.

Periodismo de datos: Mi análisis se centra en la adopción global de vehículos eléctricos, utilizando datos proporcionados por la Agencia Internacional de Energía. Este estudio no solo examina las tendencias de ventas y uso de vehículos eléctricos hasta 2023, sino que también destaca las disparidades significativas entre países como Noruega y Suecia, que lideran la transformación, frente a otros que aún están rezagados. Lo más impactante para mí ha sido descubrir la variabilidad en la adopción de vehículos eléctricos en América Latina y ciertas áreas de Europa, lo que sugiere barreras políticas y de infraestructura. Además, hablo de la huella de carbono que conlleva la fabricación de estos vehículos y cómo se compensa rápidamente en países con energía limpia.

Machine Learning I: En este proyecto, me concentro en un conjunto de datos sobre pacientes con diabetes, sobre el software Orange, donde exploro múltiples variables como la glucosa en sangre y la presión arterial. A través de un proceso de visualización y análisis, identifico valores atípicos y ajusto modelos predictivos utilizando regresión logística, redes neuronales y Naive Bayes. Evalúo cada modelo con detenimiento, empleando métricas como la precisión, sensibilidad (recall) y la puntuación F1, lo que me permite encontrar el mejor enfoque para predecir la presencia de la enfermedad.

En medicina, el desafío frecuente es priorizar la sensibilidad sobre la precisión. Esto se debe a que minimizar los errores de tipo II, o falsos negativos, es crucial: es más crítico evitar clasificar a una persona enferma como sana que diagnosticar erróneamente a alguien sano como enfermo. Aunque siempre se busca un equilibrio entre los errores de tipo I y tipo II, en el contexto médico se tiende a priorizar la reducción de falsos negativos, debido a las posibles consecuencias graves de no tratar una enfermedad a tiempo.

Este análisis no solo ha enriquecido mi comprensión técnica, sino que también ha profundizado mi apreciación por las implicaciones sociales y políticas de los datos médicos. Además, subraya la importancia de utilizar estos datos de manera responsable y asegurar que permanezcan anónimos para proteger la privacidad de las personas.

Reflexiones: Cada análisis que realizo me lleva a reflexionar sobre cómo los datos que manejamos pueden influir en decisiones políticas y sociales. En particular, hablo de la importancia de modelos predictivos precisos en el ámbito médico, donde los errores pueden tener consecuencias directas en la vida de las personas. La precisión y la sensibilidad de los modelos no solo son fundamentales desde el punto de vista técnico, sino también ético.

Todos los datos y análisis presentados en este artículo, así como en este sitio en general, se basan en información de dominio público o bajo licencias Creative Commons, específicamente CC0 o CC BY. La imagen destacada ha sido generada mediante inteligencia artificial y también es de dominio público. El documento adjunto ha sido elaborado por mí y cuenta con su propia bibliografía; está compartido bajo la licencia CC BY. Si tienes dudas o necesitas más información, no dudes en preguntarme.

Si quieres ver el documento, aquí puedes:

Recuerda seguirme en redes sociales y si necesitas mi ayuda, no dudes en contactarme


Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *