Algoritma

Qué es un data lake y cómo es la propuesta de crear uno para todas las historias clínicas de España

data lake
Tiempo de lectura: 4 min

Los hospitales generan grandes cantidades de datos. Esta fue una de las cosas que sorprendió a Antonio Urda, traumatólogo, cuando empezó a trabajar con los científicos de datos que desarrollan modelos de inteligencia artificial en Savana. Y tras hablar con él sorprende saber que no todos esos datos están siendo analizados actualmente, en un contexto en el que ya tenemos la tecnología para hacerlo. 

Publicidad

España ha sido uno de los países pioneros en implementar la historia clínica electrónica: desde hace años es bastante difícil encontrar un médico que apunte los datos en papel en un consultorio español.

La administración pública comenzó hace años a invertir en digitalización de historia clínica. Ya en 2009, todas las Comunidades Autónomas sin excepción tenían sistemas de historia clínica electrónica en fase de implantación casi completa en Atención Primaria, según un informe del Instituto de Información Sanitaria; y hoy prácticamente todos los profesionales sanitarios tienen un ordenador conectado al sistema de historia clínica electrónica en su puesto de trabajo, como señala un estudio de la Asociación Salud Digital

Sin embargo este esfuerzo de la administración y los profesionales sanitarios por verter todo lo que el paciente les dice en su historia médica a través del ordenador no implica siempre el aprovechamiento de esos datos.

Si un médico quiere investigar, primero debe preparar una tabla de información para estructurar, y luego tiene que revisar todos los documentos de las historias clínicas manualmente para completar esa tabla, además de pedir los permisos correspondientes por protocolos éticos. Todo esto lleva un tiempo considerable que limita las posibilidades de investigación de muchos profesionales. 

Un data lake sanitario en el Plan de Recuperación

Como parte de la reforma del sistema de Salud Pública, el Plan de Recuperación, Transformación y Resiliencia tiene un apartado especial entre sus inversiones para la creación de un “data lake sanitario”. Lo describe como la “generación de un centro de datos sanitarios que recoja la información de los sistemas de información y permita un análisis masivo para la identificación y mejora del diagnóstico y de los tratamientos”. 

Publicidad

Urda es, desde hace unos meses, vicepresidente de Hospitales en Savana, la compañía tecnológica que ha presentado una propuesta para desarrollar este data lake sanitario. El proyecto consiste en una especie de plataforma en la que analizan las historias clínicas de los diferentes hospitales y centros de atención primaria y convierten los datos en conocimiento científico, para ponerlo a disposición de la comunidad médica e investigadora. 

«Se trata de aplicar la estadística del siglo XXI, que no deja de ser la inteligencia artificial»

No es sólo un registro, como los que ya existen en los centros de salud, sino un centro de datos que utiliza inteligencia artificial y Procesamiento del Lenguaje Natural (PNL) para que toda la información clínicamente relevante sea integrada, esté en el formato que esté, o aunque los datos hayan sido creados en diferentes registros no estandarizados. El fin es que sean accesibles por la comunidad científica y médica para investigación, con las garantías de privacidad para los pacientes. 

El Ministerio de Sanidad ha mostrado interés por esta propuesta y han dicho que puede ser un salto cualitativo muy importante para la ciencia y la investigación en España, según Urda, que entiende que el próximo paso sería intentar conseguir financiación de los fondos del Plan de Recuperación. Varias sociedades científicas y asociaciones de pacientes que respaldan este proyecto representan a más de 40.000 médicos y más de 600.000 pacientes de todo el país.

Publicidad

Entre ellas, muchas dedicadas a pacientes oncológicos, porque  la capacidad de ver qué está pasando con estos pacientes es “impresionante”, según Urda. “El cáncer impacta mucho pero afortunadamente no es masivo: ahora estamos haciendo un estudio con 50 pacientes aquí, 100 allá, 20 aquí y podríamos juntarlos todos: todos los pacientes diagnosticados de un cáncer de pulmón en España, por ejemplo. ¿Por qué no ver la foto más grande?”, se pregunta. 

Qué es un data lake

Se suele hablar de data lakes como de almacenes de datos (data warehouses), pero no son exactamente lo mismo. Los primeros funcionan a partir de un principio llamado schema-on-read o esquema contra escritura, lo que significa que no existe un esquema predefinido en el que deban colocarse los datos antes de almacenarlos. Sólo cuando los datos se leen durante el tratamiento se analizan y se adaptan en un esquema según convenga, lo que además de permitir guardar datos en cualquier formato, ahorra mucho tiempo que se hubiera dedicado previamente a definir ese esquema.

El término data lake está siendo aceptado como una forma de describir cualquier gran conjunto de datos en el que el esquema y los requisitos de los datos no se definen hasta que los datos se consultan. 

Publicidad


Inteligencia Artificial
Cómo se alimenta a una máquina

La inteligencia artificial requiere grandes bases de datos y cuanta más información se ponga a su disposición, mejor funcionará. Sin embargo, Urda dice que no tienen una cantidad mínima de pacientes, centros o comunidades autónomas para echar a andar el proyecto. “Con una mínima adhesión sería suficiente para que el proyecto mereciera la pena”. 

Savana, IA para leer documentos clínicos

En marzo de 2020 en plena pandemia, Savana lanzó un estudio de investigación sobre la COVID-19 en Castilla-La Mancha mediante un acuerdo con esa comunidad autónoma. No crearon un data lake como tal pero sí una base de datos de un estudio con la misma metodología. A partir de ahí pensaron hacerlo a nivel nacional, entendiendo todas las particularidades que hay. “No queremos plantear que esté bajo el paraguas del Gobierno, o del Ministerio de Sanidad, quizás es mejor que esté bajo cada comunidad autónoma, es algo a decidir”, reflexiona Urda. 

La tecnología de Savana se utiliza de forma activa en varios hospitales de la Comunidad de Madrid (H.U. Infanta Leonor, HU Infanta Sofía, HU La Princesa, HU Puerta de Hierro), en el Hospital La Fe de Valencia, en el Hospital Universitario de la Santa Creu i Sant Pau de Barcelona, en el Hospital Universitario General de Castellón, y en el Hospital Universitario Son Espases de Palma de Mallorca, entre otros muchos de España. 

Savana es una compañía fundada en 2014 por Jorge Tello e Ignacio Hernández Medrano, que desarrolló esta idea tras su paso por la Singularity University, en California. Tienen 150 empleados repartidos entre España, Francia, Alemania, Reino Unido y Estados Unidos. En 2020 recibió inversión por 12,71 millones de euros, que ha sido dedicada principalmente a la mejora del motor de la inteligencia artificial y a la expansión internacional. Según Urda, ya tienen leídos por encima de los mil millones de registros médicos electrónicos en inglés, francés, alemán y español, lo que la convierte en una de las empresas con más documentos clínicos leídos con inteligencia artificial en el mundo. 

El texto libre y los datos no estructurados

Los datos que se generan en un hospital son de dos grandes tipos. Los datos estructurados son los que aparecen reflejados siempre de manera homogénea: la edad, el sexo, la alergia a medicamentos, respondes sí o no. Hay una codificación: por ejemplo, al infarto de miocardio le corresponde un número. Otro ejemplo son los datos de laboratorio: hay valores precisos para cada indicador. Esta información se lleva explotando años y es la que utilizan los gestores de la medicina para tomar decisiones. 

Las dificultades comienzan con otro tipo de datos, los no estructurados, ese campo de texto libre que rellenan los médicos. “Donde cada médico pone lo que considera”, explica Urda. “Aunque usamos un lenguaje muy específico, yo puedo poner gonalgia y otro médico puede poner ‘dolor de rodilla’. El concepto es el mismo pero lo hemos expresado de formas distintas”. El volumen existente de datos estructurados es alto, pero los datos no estructurados son más valiosos para la investigación.

Dos enfermeras acceden a un programa para consultar protocolos (1987) | National Cancer Institute

Curso clínico, observaciones y notas, informes de alta, pruebas diagnósticas o informes quirúrgicos: son aquellos relevantes para el diagnóstico o que el médico considera que pueden afectar a la evolución de la situación clínica, y por eso deja constancia de ellos. En Savana estiman que “en torno al 80% de la información clínica relevante de un paciente se encuentra en el texto libre, en forma de dato no estructurado” y un estudio de Jamia revela que este tipo de datos ofrece más precisión cuando algoritmos entrenados son capaces de extraerlos de las narrativas médicas. Si se quieren realizar estudios clínicos con este tipo de información, se requiere el análisis manual de las historias clínicas disponibles. Los estudios suelen estar acotados a centros de salud o un número abarcable por los investigadores: no es posible hacerlo sobre todos los pacientes de un país, por ejemplo.

Data lake: mucho más que un registro electrónico

Las herramientas de aprendizaje automático (Machine Learning) y de Procesamiento de Lenguaje Natural permiten hacer extracción de todas esas variables de importancia clínica que hay metidas en el texto libre de las historias clínicas electrónicas y estructurarlas, codificarlas. El proyecto de Savana utiliza una ontología médica llamada SnomedCT, un código internacional utilizado también por el Ministerio de Sanidad, aunque también se podría utilizar cualquier otro. Las ontologías tienen como característica que ya establecen ciertas relaciones entre conceptos: si decimos ‘fractura de tobillo’, la máquina ya sabe que es un hueso y también que pertenece a uno de los miembros inferiores. 

El proyecto del data lake no sólo sirve para identificar conceptos en esa cantidad de documentos sino también para asociarles metadatos, con lo que es posible no sólo leer todos estos datos no estructurados -y estructurarlos- sino también encontrar patrones y descubrir relaciones que no se habían pensado previamente al hacer los registros. Urda sigue con el ejemplo de la rodilla: “Necesito saber si el concepto ‘dolor de rodilla’ está asociado a temporalidad (“el dolor viene desde hace 3 meses”), o a un concepto de especulación (“le pondré un tratamiento si sigue con dolor”). Y también para homogeneizar datos de todos los centros de salud, que aunque ya están digitalizados, tienen formatos y sistemas diferentes. 

El concepto del data lake es por esto diferente del de las bases de datos como meros registros. En los registros, la información está predefinida: el investigador debe definir la estructura de los datos, con lo que se cierra de entrada su campo para buscar relaciones o patrones en los que no había pensado. En el data lake, dice Urda, “no hay información predefinida, aquí vamos a volcar todo. Nadie tiene por qué saber de antemano si una persona que sufre un infarto tuvo una caída a los 6 años”. Se refiere a que con grandes bases de datos, las redes neuronales detectan patrones, pero si definimos de antemano las variables quitamos ese potencial. “Luego habrá que analizar si son sensatos, si tienen sentido clínico… Pero en fin, se trata de aplicar la estadística del siglo XXI, que no deja de ser la inteligencia artificial”. 

La cuestión de la privacidad

Cuando se habla de inteligencia artificial aplicada a datos de salud, siempre saltan alarmas por la cuestión de la privacidad, sobre todo cuando las nuevas tecnologías parecen ser útiles para luchar contra la pandemia. Urda dice que no se han encontrado con dificultades en torno al tratamiento de los datos porque la propuesta cumple con las normativas y para ellos “el GDPR es el primer mandamiento”, aunque como empresa a veces se encuentran con algunas reticencias, sobre todo en ciertos hospitales. 

En la propuesta de Savana, la base de datos estaría seudonimizada. La seudonimización de los datos es un proceso por el cual se sustituyen los datos personales por otros en el registro y es aceptada por el Reglamento General de Protección de Datos como una medida apropiada para garantizar un nivel de seguridad adecuada al riesgo.

De  esta manera los investigadores pueden utilizar los datos de salud para su investigación sin acceder a los datos personales, aunque existe la posibilidad de saber a quiénes pertenecen si fuera necesario en determinados casos. ¿Cuáles? Por ejemplo para alertas de medicamentos. “Si quisiera saber qué pacientes en España han tomado este medicamento en los últimos 6 meses, para qué ir hospital por hospital si ya tengo toda la información? Y como gestor del data lake puedo saber a quién pertenece y bajo una serie de criterios establecidos, como una alerta sanitaria, puedo contactarles”, dice Urda. 

¿Quiénes son los responsables de estos datos? Técnicamente es posible adjudicar a cualquier persona o entidad, e incluso otorgar accesos mediante la compartimentalización de la información: “se puede hacer como se decida, técnicamente es posible hacerlo por comunidades autónomas, por hospitales, o poniendo un gestor a nivel nacional que sea el Ministerio de Sanidad, por ejemplo. Es una cuestón más política que tecnológica”, dice Urda. 

Además de la información seudonimizada, el proyecto incluye una gran parte de información que puede ser anonimizada. La característica del data lake permite que se le pueda añadir información de otros registros de salud que existen, como los registros de medicamentos de especial vigilancia, o los que se generan en residencias de la tercera edad, en mutuas de accidentes de trabajo, que también podrían sumarse. “Tendríamos a disposición la base de datos más grande del mundo para hacer estudios de todo tipo de investigación clínica. Esto no se ha hecho en otro país”, asegura Urda. 

Fuentes

1 Comentarios

Ya no se pueden publicar comentarios en este artículo.

  • Un gran proyecto, cuando ahora, en la CAM no hay un único número d historia clínica, sino que para un mismo paciente cada hospital le asigna número distinto y lo que es más también el centro d Salud Salud tiene otro número de historia clínica distinto. Será posible, al menos, en algún momento la unificación de la historia clínica y que los hospitales se hablen entre sí