ArcGIS Pro
Aprendizaje automático y componentes espaciales en ArcGIS Pro
Por Josiah Parry
En ArcGIS Pro 3.4, lanzamos una nueva herramienta Crear variables explicativas de componentes espaciales que puede crear variables que tengan en cuenta de manera efectiva la naturaleza confusa de los datos espaciales en el aprendizaje automático.
Creación de componentes espaciales
¡En muchos casos, hay procesos espaciales no medidos que pueden causar estragos en nuestros modelos predictivos!
La herramienta Crear variables explicativas de componentes espaciales puede ayudar a crear variables que tengan en cuenta los patrones espaciales no medidos que pueden estar presentes en el conjunto de datos. Para ello, crea componentes espaciales basados únicamente en la disposición de la geometría en el conjunto de datos. La herramienta selecciona el subconjunto de componentes espaciales que mejor predicen una variable numérica.
Para ilustrar este punto, utilizaremos el famoso conjunto de datos de viviendas de Ames (De Cock, 2011) para ilustrar cómo funciona esta herramienta. Queremos predecir el precio de las casas que se venden en Ames, Iowa.
Conjunto de datos de viviendas de Ames, Iowa
El precio de venta promedio en el conjunto de datos es de alrededor de $180,000. Sin embargo, hay una cola muy larga en la que el percentil 95 de las ventas de viviendas tiene un precio de $335,000. Al observar la variable, podemos ver una cantidad considerable de agrupamiento espacial en el precio de la vivienda que los modelos de aprendizaje automático tradicionales pueden no ser capaces de manejar muy bien.
Predicción de precios de vivienda con regresión potenciada
Crearemos un modelo de referencia que utilice la herramienta Clasificación y regresión mejoradas y basadas en bosques de la caja de herramientas de Estadísticas espaciales. Este modelo de referencia predecirá el precio de venta en función del tipo de edificio que se venda, así como del año en que se construyó la propiedad.
Tipos de edificios de viviendas de Ames y años de construcción
Abre la herramienta Clasificación y regresión potenciada y basada en bosque. Pasaremos el conjunto de datos Ames y elegiremos como sale_pricevariable dependiente y year_builtcomo bldg_typevariables independientes. Además, utilizaremos Potenciada por gradiente como tipo de modelo.
Construye un modelo base basado en el año de construcción y el tipo de edificio.
Una vez entrenado el modelo, podemos revisar los mensajes de geoprocesamiento para evaluar el rendimiento general del modelo de referencia.
Los diagnósticos de validación muestran cómo funciona nuestro modelo de referencia con datos fuera de la muestra. Los resultados no son los más impresionantes, con un R cuadrado de solo 0,39 y un error absoluto medio de casi 45 000 dólares.
Lo que también es bastante interesante es que la bldg_typevariable tiene una gran importancia, lo que significa que se utiliza mucho para ayudar a tomar decisiones de ramificación en nuestro modelo.
También podemos ver que hay áreas bastante extremas de residuos en las esquinas del mapa. Quizás la heterogeneidad espacial esté en juego aquí y debamos tenerla en cuenta mejor.
Creación de componentes espaciales
Para mejorar la calidad de este modelo, crearemos componentes espaciales que sean más predictivos de sale_price. Para ello, abra la herramienta Crear variables explicativas de componentes espaciales y utilice ames como Características de entrada y sale_price como Campos de entrada.
Esta herramienta analizará 28 posibles configuraciones de matrices de ponderaciones espaciales para identificar la matriz de ponderaciones espaciales y la combinación de componentes espaciales que sean más predictivas (usando regresión lineal) de la sale_pricevariable. El resultado muestra el primer componente espacial que se seleccionó.
Salida de Crear variables explicativas espaciales
Incorporando el espacio a nuestro modelo basado en árboles potenciado
Podemos utilizar estos componentes recién creados en nuestro modelo de árbol de regresión para intentar mejorar el rendimiento. En las variables explicativas de entrenamiento, incluye los primeros 10 componentes además de las variables explicativas originales y ejecuta la herramienta nuevamente para entrenar un nuevo modelo.
Ahora podemos revisar el rendimiento del nuevo modelo que incorpora estos componentes espaciales. El R cuadrado de validación se ha disparado en casi 0,4, casi duplicando la varianza explicada por el modelo de regresión. Se trata de un aumento enorme en el rendimiento del modelo. Además, el error absoluto medio (MAE) se ha reducido de 45.000 dólares a poco menos de 30.000 dólares. Eso significa que, en promedio, las predicciones del modelo están casi 15.000 dólares más cerca del valor real.
Si analizamos la importancia de cada una de estas variables, podemos ver que la year_builtvariable sigue siendo muy importante para calcular la densidad sale_pricede una casa. Sin embargo, ahora la variable del tipo de edificio es posiblemente la variable menos útil del modelo.
Por último, al revisar los residuos del modelo, estos ya no parecen estar agrupados espacialmente, sino que parecen estar distribuidos de manera bastante aleatoria alrededor de la ciudad.
Residuos estandarizados de un árbol de regresión potenciado utilizando componentes espaciales
Consideraciones cuidadosas
Al incluir componentes espaciales en nuestro modelo, pudimos mejorar considerablemente su poder predictivo. Sin embargo, eso no significa que debamos preferirlos. De hecho, es probable que estos componentes espaciales sean indicativos de un sesgo por variable omitida (OVB).
Cuando los componentes espaciales son útiles en las predicciones de modelos, es probable que exista algún otro fenómeno del mundo real que el modelo no esté teniendo en cuenta. Puedes utilizar estos componentes para complementar las variables medidas correctamente o incluso para identificar medidas adicionales que puedas necesitar.
Citas
Tobler, WR 1970. “Una película de computadora que simula el crecimiento urbano en la región de Detroit”. Economic Geography 46: 234–40. https://doi.org/10.2307/143141.
Pebesma, E.; Bivand, R. (2023). Ciencia de datos espaciales: con aplicaciones en R (1.ª ed.). 314 páginas. Chapman y Hall/CRC, Boca Raton. https://doi.org/10.1201/9780429459016
De Cock, D. (2011) Ames, Iowa: Alternativa a los datos de vivienda de Boston como proyecto de regresión de fin de semestre. Journal of Statistics Education, 19, publicado en línea. https://doi.org/10.1080/10691898.2011.11889627