COVID-19
Epidemiología y ArcGIS Insights Primera Parte
Por Linda Beale
He pasado la mayor parte de mi carrera profesional trabajando en análisis espacial y epidemiología. Estos fueron términos que a menudo se encontraron con miradas en blanco cuando me preguntaron qué hacía. Pero ahora, después de años de tener que explicar lo que significan y, además, cómo se relaciona el SIG, durante la pandemia COVID-19, términos previamente especializados como "curva epidémica" han entrado en el lenguaje cotidiano. Por lo tanto, parece un momento perfecto para un blog rápido sobre este tema.
La epidemiología se encuentra en una intersección de varias disciplinas diferentes y utiliza conocimientos y métodos de, por ejemplo, los campos de la salud, la medicina y las estadísticas. Existen numerosas disciplinas, incluso dentro del amplio marco de la epidemiología, que se centran en las enfermedades infecciosas, la genética, las enfermedades crónicas y la epidemiología ambiental y espacial. Si bien podría escribir apasionadamente sobre epidemiología ambiental y espacial en particular, he tratado de mantener este blog un poco más genérico, pero pensé que debería declarar mi sesgo (espacial) por adelantado. Por razones de coherencia, durante esta descripción general demostraré epidemiología utilizando ejemplos de COVID-19 de abril de 2020. También demostraré cómo ArcGIS Insights proporciona una solución potente y accesible para algunas de las necesidades analíticas del epidemiólogo, cómo puede ser se utiliza al unísono con otros enfoques epidemiológicos ampliamente utilizados y cómo puede ayudar a transmitir información al público en general y a los responsables de la toma de decisiones.
He identificado diez temas clave que exploraré brevemente, con ejemplos. Estos se dividirán entre dos blogs, ¡solo para mantenerlos en la pausa del café! En total, los dos blogs identifican diez áreas principales de estudio epidemiológico y el alcance de los SIG para proporcionar un marco analítico. En la Parte 1, describiré las primeras cinco áreas. En la Parte 2 lo redondearé con otras cinco áreas a diez.
Características de los datos de salud
Incluso los datos de eventos de salud más simples se recopilarán, analizarán e informarán de maneras muy diferentes. El número total de casos y la tasa de eventos de salud a menudo se usan indistintamente, pero cada uno transmite información muy diferente.
El número total de eventos de salud puede ser valioso para la planificación y financiación de la capacidad. En tiempos de respuesta de salud, la cantidad de eventos de salud como la muerte, el nacimiento y la hospitalización son valiosos para cuantificar el alcance de las medidas de prevención requeridas, o de hecho, la atención médica que pueda ser necesaria.
En la mayoría de las otras situaciones, el número de eventos de salud solo se puede entender con referencia al tamaño de la población de la que se deriva. En epidemiología, una tasa es la frecuencia de ocurrencia de eventos en una población definida durante un período de tiempo específico. Las tasas son, por lo tanto, útiles para comparar eventos de salud en diferentes poblaciones.
Distribuciones de datos de salud
Antes de cualquier modelado, los datos deben ser explorados y bien entendidos. Muchos enfoques requieren que se cumplan varios supuestos. Los eventos de salud generalmente se caracterizan por eventos infrecuentes, a veces recurrentes, por ejemplo, hospitalizaciones, que no se distribuyen normalmente, están muy sesgados positivamente con una distribución de Poisson (la distribución de Poisson se usa para describir la distribución de eventos raros en una gran población). En la mayoría de los análisis de salud, a menudo existen fuertes interrelaciones, y la colinealidad de los datos es una consideración importante para algunos métodos.
Para comprender las distribuciones de datos, se pueden usar histogramas y diagramas de caja, junto con estadísticas como asimetría y curtosis. Las correlaciones de datos entre variables se pueden evaluar usando diagramas de dispersión y matrices de diagrama de dispersión, mientras que el análisis de regresión se puede usar para estimar la fuerza y la dirección de la relación entre variables dependientes e independientes. Las distribuciones de datos espaciales también deben analizarse para verificar lagunas, patrones o sesgos de datos.
Un histograma permite explorar la distribución de datos numéricos. Permiten una evaluación visual de la forma de distribución, la tendencia central, la variación de datos y las brechas o valores atípicos en los valores de datos. Se pueden agregar algunas estadísticas al histograma, como la distribución media, mediana y normal. También se pueden calcular estadísticas relacionadas adicionales sobre los datos y, en ArcGIS Insights, se incluyen automáticamente en la parte posterior de las tarjetas de gráficos para cuantificar el gráfico. Un histograma con distribución normal es simétrico y tendrá una inclinación de 0. La dirección de la inclinación se muestra en la cola de la distribución, por lo que si la cola de la derecha es más larga (como se muestra arriba), la inclinación es positiva. Si la cola del lado izquierdo es más larga, la asimetría es negativa.
Los gráficos de caja se pueden agrupar por una variable categórica, como el estado, que permite una comparación de distribuciones. Los datos se trazan de modo que el 50% de los datos se encuentran dentro del cuadro entre el cuartil inferior (Q1) y el superior (Q3) y la mediana se muestra como una línea. Los bigotes contienen un 25% adicional de los datos, por encima y por debajo del rango intercuartil (IQR), que es la longitud del cuadro (cuartil superior - cuartil inferior). Los valores que se extienden más allá de 1.5 IQR son valores atípicos.
La exploración visual de datos es un paso clave del análisis y puede mitigar los errores de modelado. Durante el modelado, los datos a menudo se agregan para garantizar que haya suficientes puntos de datos en el análisis para que tengan solidez estadística, pero este paso puede ocultar datos faltantes o cambios en la recopilación de datos, como cambios en la clasificación internacional de prácticas de codificación de enfermedades.
Las diferentes visualizaciones darán una perspectiva diferente sobre los datos y poder explorar y visualizar datos de numerosas maneras puede ayudar a comprender muchos aspectos de los datos del estudio. Cuanto más involucrado sea el análisis, más importante es describir y visualizar los datos antes de realizar cualquier modelado.
Dimensiones temporales de los datos de salud
Las asociaciones de tiempo y los patrones con datos epidemiológicos se visualizan más comúnmente utilizando gráficos de líneas para datos continuos de fecha / hora y curvas epidémicas que tradicionalmente usan barras sin espacios.
Las curvas de epidemia muestran gráficamente la frecuencia de nuevos casos en comparación con la fecha de inicio de la enfermedad. Una curva epidémica o epi muestra la fecha o la hora de aparición de la enfermedad entre los casos en el eje xy verticalmente, el eje y muestra el número de casos. La unidad de tiempo utilizada se basa en el período de incubación de la enfermedad y el tiempo durante el cual se distribuyen los casos. La forma general de la curva puede revelar el tipo de brote (por ejemplo, fuente común, fuente puntual o propagada).
Los análisis epidemiológicos pueden incluir datos que abarcan largos períodos de tiempo (para capturar suficientes eventos o resultados poco frecuentes), dentro de los cuales puede haber habido muchos cambios en la metodología de recopilación de datos. Como parte del proceso de análisis, los datos de entrada deben entenderse bien, y las limitaciones deben notarse particularmente para estudios con interacciones complejas que pueden no entenderse completamente. Lo mismo podría ser cierto para las nuevas enfermedades que, por definición, se entenderán mal. Aunque la información pasada y los eventos similares se utilizarán para comprender los patrones potenciales de propagación de la enfermedad en el espacio y el tiempo, los datos informados en las primeras fases serán propensos a errores e incertidumbres desconocidos (e incuantificables). Esta incertidumbre tiene el impacto adicional de dificultar la comprensión si los eventos anteriores son de hecho similares y, por lo tanto, comparables.
La visualización de datos temporales en una línea de tiempo ayuda a revelar lagunas de datos, por ejemplo, en la recopilación de datos. El análisis de datos que pueden variar en el espacio y el tiempo no debe hacerse sin evaluar los datos antes del análisis, tanto temporal como espacialmente.
Una gran cantidad de análisis temporal utilizará datos genéricos, como los resultados de las encuestas de censo decenal, para evaluar los patrones entre los diferentes subgrupos de población. Sin embargo, cuanto más lejos esté de un año censal, más se reducirá la precisión de esos datos. Aunque esta limitación debe ser aceptada, explorar las diferencias temporales entre los datos conocidos puede ayudar a modelar y ciertamente puede ayudar a la interpretación.
Lidiando con diferentes geografías de salud
Las áreas de intervención y respuesta pueden diferir de las utilizadas para el análisis epidemiológico, y cada una tiene requisitos muy diferentes. Las necesidades de respuesta pueden ser impulsadas por las regiones de salud, por ejemplo, mientras que el análisis tiende a alinearse más estrechamente con las áreas censales debido a la disponibilidad de datos auxiliares y (a menudo se supone) la homogeneidad socioeconómica de esas áreas.
El análisis espacial se puede utilizar para definir las áreas de estudio. Se puede filtrar los datos seleccionando áreas del mapa o usando conjuntos de datos de límites adicionales. Esto puede ser valioso para subdividir datos en poblaciones o casos expuestos y poblaciones no expuestas o de control. La mayoría de los datos utilizados para el análisis se agregarán en función de los límites administrativos, mientras que las poblaciones expuestas no están definidas por áreas administrativas.
En algunos casos, cuando el conjunto de datos contiene unidades espaciales como un campo de datos, los datos pueden analizarse de forma no espacial por diferentes límites geográficos. En otros casos, cuando los datos necesitan ser "desplazados" a áreas geográficas que no están contenidas en el conjunto de datos, la ubicación espacial se puede usar para "mover" los datos a diferentes áreas. En estos casos, los datos pueden estar disponibles como recuentos individuales o incluso totales por área. La reasignación de datos entre diferentes geografías permite la traducción de datos entre geografías muy diferentes y, por lo tanto, permite el informe de datos agregados en diferentes límites.
Tradicionalmente, ha habido marcadas diferencias socioeconómicas entre las poblaciones urbanas y rurales. Aunque esta tendencia está comenzando a cambiar, la precisión y precisión de los datos espaciales a menudo están vinculadas a la densidad de población, y las áreas rurales tienden a cubrir grandes áreas que pueden abarcar marcadas diferencias sociales y económicas. Estas diferencias pueden dar lugar a disparidades entre las zonas urbanas y rurales. La incorporación del análisis espacial garantiza que los datos se puedan estratificar fácilmente, por ejemplo, en áreas urbanas / rurales para el modelado epidemiológico.
Diferentes tipos de datos se unen para el análisis de salud
Tradicionalmente, un SIG almacena datos espaciales como una característica por ubicación. Los datos pueden ser ráster, usando celdas regulares, o vector, usando puntos, líneas o polígonos (áreas). En cada ubicación puede haber una o más piezas de información asociadas (por ejemplo, población por área administrativa). Sin embargo, en epidemiología, casi todos los análisis deben incluir múltiples componentes por ubicación (por ejemplo, desglose de la población por edad y género). Técnicamente, esto requiere una relación de uno a muchos (característica de salud y variables demográficas).
Para superar estas diferentes estructuras de datos, los datos pueden unirse como un paso del análisis para que cada ubicación, ya sea ese punto, línea o área, pueda asociarse con múltiples atributos o filas de información. Este es un paso crucial para garantizar que el análisis espacial y epidemiológico se pueda integrar con éxito. Además, en algunos casos, se necesitan uniones compuestas (por ejemplo, usando la ubicación y la hora).
Resumen
Este blog ha resumido brevemente cinco temas de consideración en epidemiología y cómo ArcGIS Insights puede usarse como parte de la solución de análisis.
Muchos de estos temas están mucho más involucrados y, como con todo el trabajo analítico, el análisis efectivo requiere datos confiables, junto con un sólido conocimiento de estudios relevantes anteriores. Un epidemiólogo debe estar bien versado en el tratamiento de la falta de cualquiera de ellos y, a menudo, aquí es donde radica la verdadera experiencia.
Los modelos complejos y la comunicación efectiva de resultados son una parte clave del proceso. En la segunda parte de este blog, exploraremos esos temas entre otros.
Acerca del Autor
Linda Beale
La Dra. Linda Beale es la Líder del Grupo para Análisis de Ubicación en Esri, con un interés en compartir el valor del análisis espacial con una audiencia que va desde aquellos nuevos a la disciplina hasta aquellos que buscan nuevos enfoques y técnicas. Geógrafa de formación, Linda obtuvo su doctorado en SIG, estadística y modelado, y dirigió el grupo de salud geoespacial en la Unidad de Estadísticas de Salud de Área Pequeña en el Imperial College de Londres. Linda tiene una amplia experiencia en el campo de la epidemiología espacial y ha trabajado en estrecha colaboración con los departamentos de salud, la Organización Mundial de la Salud y el Centro para el Control de Enfermedades. Desarrolló el galardonado programa Rapid Inquiry Facility para el modelado de enfermedades crónicas y fue coautora del emblemático Atlas de Medio Ambiente y Salud de Inglaterra y Gales. Linda es autora del primer MOOC de Esri, Going Places with Spatial Analysis, y ha publicado numerosos artículos revisadospor pares, capítulos de libros, y ha sido invitada a conferencias magistrales, presentar y ofrecer talleres en conferencias nacionales e internacionales. Linda ha trabajado en Esri desde 2011, donde su experiencia ayuda a dar forma a los análisis de ubicación para proporcionar a la comunidad herramientas mejores y más poderosas, y donde ayuda a enseñar las mejores prácticas y compartir conocimientos para desarrollar la comprensión en toda la comunidad.