Postavke privatnosti

MIT advierte: los intervalos de confianza clásicos pueden engañar en análisis espaciales de aprendizaje automático

Investigadores del MIT advierten que los métodos estadísticos habituales en análisis espaciales a menudo crean una falsa impresión de fiabilidad. Un nuevo enfoque científico permite intervalos de confianza más exactos al estimar asociaciones de variables en investigaciones ambientales, de salud y económicas.

MIT advierte: los intervalos de confianza clásicos pueden engañar en análisis espaciales de aprendizaje automático
Photo by: Domagoj Skledar - illustration/ arhiva (vlastita)

En investigaciones que se basan en datos de mapas y estaciones de medición, a menudo se da por sentado que la “incertidumbre está resuelta” tan pronto como un modelo informático adivina bien los valores que debe predecir. Pero en los análisis reales, a los científicos y a los tomadores de decisiones generalmente no les interesa solo el pronóstico, sino también la cuestión de la relación: si una determinada exposición está asociada con un resultado, en qué dirección y cuál es la fuerza del efecto. Es precisamente aquí – en la estimación de la asociación de variables en el espacio – donde un equipo de investigadores del MIT ha demostrado que los métodos habituales para calcular intervalos de confianza pueden romperse seriamente en configuraciones espaciales y producir intervalos que parecen convincentes, pero son erróneos.


Imaginemos un escenario de salud pública: un científico ambiental en un condado quiere estimar si la exposición a la contaminación del aire está asociada con pesos al nacer más bajos. En la era de los grandes conjuntos de datos, un paso natural es entrenar un modelo de aprendizaje automático que capture relaciones complejas y no lineales – porque tales modelos a menudo brillan en la predicción. El problema surge cuando se le pide otra cosa al modelo: no “cuánto pesará el bebé”, sino “cuál es la asociación entre la exposición y el peso al nacer” y con qué seguridad podemos decir eso.


Los métodos estándar de aprendizaje automático pueden entregar estimaciones y, a veces, incertidumbre para la predicción misma. Pero cuando el objetivo es establecer una asociación entre una variable (por ej. partículas finas en el aire) y un resultado (por ej. peso al nacer), los investigadores confían en los intervalos de confianza: un rango de valores para el cual se espera que con una cierta probabilidad “cubra” el efecto real. En problemas espaciales – donde los datos difieren dependiendo de la ubicación – el equipo del MIT advierte que ese rango puede ser completamente erróneo, y de una manera que lleva al usuario a una conclusión equivocada: el método puede afirmar “alta confianza” mientras que la estimación ha fallado el valor real.


Por qué “95% confiable” a veces no vale


El análisis espacial de asociaciones se ocupa de cómo una variable y un resultado están conectados en un área geográfica. Un ejemplo puede ser la relación entre la cubierta de copas de árboles y la altitud en los EE. UU., o el vínculo entre las precipitaciones y el rendimiento de algún cultivo. El investigador aquí a menudo tiene datos “de origen” recolectados en ubicaciones específicas, y desea estimar la relación en otra ubicación donde las mediciones no existen o son raras. En un caso ideal, el modelo da una estimación y un intervalo que expresa la incertidumbre de manera realista.


En la práctica, advierten los autores, a menudo sucede lo contrario: el método puede afirmar que está, por ejemplo, 95 por ciento seguro de que el intervalo “capturó” la verdadera relación, mientras que el valor real no está en absoluto dentro de ese rango. En otras palabras, el intervalo de confianza parece autoritativo, pero en realidad es – erróneo. Tales intervalos “falsamente seguros” son especialmente riesgosos cuando los resultados se utilizan para políticas de protección ambiental, recomendaciones de salud pública o estimaciones de efectos económicos en el terreno, porque los números pueden crear la impresión de una prueba sólida donde no la hay.


La causa clave está en las suposiciones sobre las que descansan los procedimientos clásicos de construcción de intervalos. En estadística, las suposiciones funcionan como reglas del juego: si son válidas, las conclusiones son válidas; si no son válidas, los números pueden engañar. En datos espaciales, algunas de las suposiciones más comunes se rompen en varios lugares.


Tres suposiciones que se quiebran en datos espaciales


1) suposición i.i.d. (independiente e idénticamente distribuido)
Muchos métodos parten de la idea de que las observaciones son mutuamente independientes y de la “misma” distribución. En el mundo espacial, esto a menudo no es cierto. Un ejemplo que se cita a menudo es la disposición de las estaciones de medición: las ubicaciones de los sensores de calidad del aire no son aleatorias, sino que se eligen con respecto a la infraestructura, la densidad de población, la industria, el tráfico y la red de medición existente. Esto significa que la inclusión de una ubicación en los datos afecta en gran medida qué otras ubicaciones están representadas.


2) suposición del modelo perfectamente correcto
Parte de los procedimientos para intervalos de confianza asume implícitamente que el modelo es “exacto”. Pero en aplicaciones reales, los modelos son aproximaciones: omiten variables, simplifican procesos y describen erróneamente el ruido. Cuando el modelo está errado, los intervalos que confían en su corrección pueden ser irrealistamente estrechos y seguros de sí mismos.


3) similitud de datos de origen y destino
En problemas espaciales, a menudo existe una diferencia entre los datos en los que el modelo aprendió y el lugar en el que se desea hacer inferencias. Ejemplo: un modelo se entrena en mediciones de contaminación urbana (porque los sensores son más frecuentes en las ciudades), y luego se utiliza para estimar relaciones en un área rural sin estaciones. La urbanización, el tráfico y la industria cambian las características del aire, por lo que el área “objetivo” es sistemáticamente diferente. Tal desplazamiento de distribución puede introducir un sesgo en la estimación de la asociación – y anular la fiabilidad nominal del intervalo.


En combinación, estas tres grietas crean espacio para un problema serio: el modelo puede fallar el efecto, y el intervalo seguir “comportándose” como si todo estuviera bien. Para periodistas e instituciones públicas, esto es especialmente sensible, porque en la comunicación pública los intervalos de confianza a menudo se traducen en afirmaciones como “científicamente probado” o “con gran seguridad”, sin una visión de cuánto se satisfacen las suposiciones siquiera.


“Suavidad” como una suposición más realista


En lugar de insistir en i.i.d. y en la superposición de ubicaciones de origen y destino, los autores introducen una suposición que es más intuitiva en muchos procesos espaciales: que los datos cambian suavemente a través del espacio. En lenguaje matemático, esto se describe mediante la condición de Lipschitz – la idea de que un cambio en el espacio no puede producir un salto de valor arbitrariamente grande, sino que existe un límite superior para “qué tan rápido” puede cambiar la relación.


Para partículas finas en el aire, el ejemplo es casi tangible: no esperamos que el nivel de contaminación en una cuadra de la ciudad sea drásticamente diferente que en la siguiente cuadra de la ciudad. En lugar de saltos, es más común una imagen de disminución gradual a medida que nos alejamos de las fuentes de emisiones. En tales condiciones, la suavidad es una suposición más cercana a lo que realmente sucede en el medio ambiente que la “idealización” i.i.d.


Sobre esta base, el equipo del MIT propone un procedimiento que cuenta directamente con la posibilidad de sesgo causado por una selección de ubicaciones no aleatoria y un desplazamiento de distribución. El objetivo no es solo obtener una estimación de la asociación, sino construir un intervalo de confianza que aún tenga una cobertura (coverage) con sentido – es decir, que realmente, tan a menudo como afirma, contenga el valor verdadero del parámetro de interés.


Qué hay de nuevo en el enfoque y por qué es importante


Según la descripción en el trabajo, el nuevo método construye intervalos de confianza frecuentistas válidos para asociaciones espaciales con suposiciones adicionales mínimas: una cierta forma de suavidad espacial y un error gaussiano homoscedástico. Crucial es también lo que el método no requiere: los autores enfatizan que no confían en la corrección completa del modelo ni en la “superposición de covariables” entre las ubicaciones donde se aprende y las ubicaciones donde se estima el efecto.


En la práctica, esto significa que el método también se puede utilizar cuando las mediciones están amontonadas en las ciudades, y se busca inferencia para la periferia o áreas rurales – un escenario que aparece a menudo en epidemiología y estudios ambientales. Cuando el nivel de ruido se conoce, los autores indican que los intervalos pueden ser válidos incluso en muestras finitas; cuando el ruido no se conoce, ofrecen un procedimiento de estimación de la varianza que es asintóticamente consistente.


En comparaciones en simulaciones y en datos reales, los autores informan que su procedimiento es el único que entrega consistentemente intervalos confiables en situaciones donde los enfoques estándar pueden fallar completamente. En otras palabras, no se trata de una mejora cosmética, sino de un intento de “reparar el instrumento” que se utiliza a menudo para sacar conclusiones sobre relaciones de variables en el espacio.


Del pronóstico a la explicación: qué significa esto para el medio ambiente, la economía y la medicina


En el público, el aprendizaje automático a menudo se percibe como una herramienta para “pronósticos más exactos”. Pero en la ciencia y en la política, el pronóstico es solo el comienzo. Si la salud pública estima dónde invertir en prevención, si una ciudad planifica políticas de transporte, o si se estima el efecto de la reforestación en el microclima, la pregunta es: qué tan fuerte es la asociación y qué tan seguros estamos en esa estimación?


Aquí el papel del intervalo de confianza se convierte en un filtro de confianza práctico. Si el intervalo sugiere falsamente una alta seguridad, las decisiones pueden basarse en una estimación errónea del efecto, y eso puede significar una redirección de recursos o intervenciones erróneas. Por otro lado, un intervalo que refleja de manera realista la incertidumbre permite una planificación más racional: tanto cuando el efecto está presente, como cuando es pequeño, y cuando los datos aún no son suficientes para concluir con confianza.


Los autores sitúan su trabajo en un amplio rango de aplicaciones: desde ciencias ambientales (contaminación, precipitaciones, gestión de bosques) pasando por epidemiología, hasta análisis económicos que se basan en datos espaciales. En todas estas áreas existe una necesidad común: distinguir un “modelo que predice bien” de un “modelo en el que podemos confiar cuando habla de relaciones”.


NeurIPS 2025: de la teoría a la comunidad


El trabajo fue presentado en la conferencia NeurIPS 2025, una de las conferencias más influyentes del mundo para el aprendizaje automático y la inteligencia artificial. En la página oficial del programa se menciona una presentación de póster bajo el título “Smooth Sailing: Lipschitz-Driven Uncertainty Quantification for Spatial Associations”, con los autores David Burt, Renato Berlinghieri, Stephen Bates y Tamara Broderick, realizada el 3 de diciembre de 2025 como parte del programa de la conferencia.


Simultáneamente, una versión del trabajo está disponible como preimpresión en arXiv, con la indicación de que es una referencia de NeurIPS 2025 y que las primeras versiones se recibieron el 9 de febrero de 2025, con revisiones posteriores. Los autores también publicaron una implementación de código de referencia, lo cual es crucial en trabajos metodológicos para que los resultados puedan reproducirse y verificarse en otros conjuntos de datos.


Más información sobre el trabajo y materiales relacionados está disponible en: página de arXiv del trabajo, tarjeta oficial del póster de NeurIPS 2025 y repositorio de código.

Encuentra alojamiento cerca

Hora de creación: 9 horas antes

Redacción de ciencia y tecnología

Nuestra Redacción de Ciencia y Tecnología nació de una pasión de muchos años por investigar, interpretar y acercar temas complejos a los lectores comunes. En ella escriben empleados y voluntarios que llevan décadas siguiendo el desarrollo de la ciencia y la innovación tecnológica, desde descubrimientos de laboratorio hasta soluciones que transforman la vida cotidiana. Aunque escribimos en plural, detrás de cada texto hay una persona real con amplia experiencia editorial y periodística, y un profundo respeto por los hechos y la información verificable.

Nuestra redacción fundamenta su trabajo en la convicción de que la ciencia es más fuerte cuando es accesible para todos. Por eso buscamos claridad, precisión y comprensión, sin simplificaciones que puedan perjudicar la calidad del contenido. A menudo pasamos horas estudiando investigaciones, documentos técnicos y fuentes especializadas para presentar cada tema de una forma que interese al lector sin sobrecargarlo. En cada artículo intentamos conectar el conocimiento científico con la vida real, mostrando cómo las ideas surgidas de centros de investigación, universidades y laboratorios tecnológicos moldean el mundo que nos rodea.

Nuestra larga experiencia periodística nos permite reconocer lo que realmente importa al lector, ya se trate de avances en inteligencia artificial, descubrimientos médicos, soluciones energéticas, misiones espaciales o dispositivos que entran en nuestra vida cotidiana antes de que podamos imaginar sus posibilidades. Nuestra mirada sobre la tecnología no es solo técnica; también nos interesan las historias humanas detrás de los grandes avances: investigadores que trabajan durante años para completar proyectos, ingenieros que convierten ideas en sistemas funcionales y visionarios que amplían los límites de lo posible.

En nuestro trabajo también nos guía un fuerte sentido de responsabilidad. Queremos que el lector pueda confiar en la información que ofrecemos, por lo que verificamos fuentes, comparamos datos y no publicamos con prisa cuando algo no está completamente claro. La confianza se construye más lentamente de lo que se escribe una noticia, pero creemos que solo este tipo de periodismo tiene un valor duradero.

Para nosotros, la tecnología es más que dispositivos y la ciencia más que teoría. Son campos que impulsan el progreso, moldean la sociedad y ofrecen nuevas oportunidades a quienes desean comprender cómo funciona el mundo hoy y hacia dónde se dirige mañana. Por eso abordamos cada tema con seriedad, pero también con curiosidad, porque la curiosidad abre la puerta a los mejores textos.

Nuestra misión es acercar a los lectores a un mundo que cambia más rápido que nunca, con la convicción de que el periodismo de calidad puede ser un puente entre expertos, innovadores y todos aquellos que desean entender lo que ocurre detrás de los titulares. En esto vemos nuestra verdadera tarea: convertir lo complejo en comprensible, lo lejano en cercano y lo desconocido en inspirador.

AVISO PARA NUESTROS LECTORES
Karlobag.eu ofrece noticias, análisis e información sobre eventos globales y temas de interés para lectores de todo el mundo. Toda la información publicada se ofrece únicamente con fines informativos.
Destacamos que no somos expertos en los ámbitos científico, médico, financiero ni legal. Por lo tanto, antes de tomar decisiones basadas en la información de nuestro portal, le recomendamos que consulte a expertos cualificados.
Karlobag.eu puede contener enlaces a sitios externos de terceros, incluidos enlaces de afiliados y contenidos patrocinados. Si compra un producto o servicio a través de estos enlaces, podemos recibir una comisión. No tenemos control sobre el contenido o las políticas de dichos sitios y no asumimos responsabilidad alguna por su exactitud, disponibilidad o por cualquier transacción realizada a través de ellos.
Si publicamos información sobre eventos o venta de entradas, tenga en cuenta que no vendemos entradas ni directamente ni a través de intermediarios. Nuestro portal informa únicamente a los lectores sobre eventos y oportunidades de compra a través de plataformas de venta externas. Conectamos a los lectores con socios que ofrecen servicios de venta de entradas, pero no garantizamos su disponibilidad, precios o condiciones de compra. Toda la información sobre las entradas es obtenida de terceros y puede estar sujeta a cambios sin previo aviso. Le recomendamos que verifique detenidamente las condiciones de venta con el socio seleccionado antes de realizar cualquier compra.
Toda la información en nuestro portal está sujeta a cambios sin previo aviso. Al utilizar este portal, usted acepta leer el contenido bajo su propio riesgo.