Inicio > Informática Médica > Codificación automática mediante procesamiento de lenguaje natural > Página 2

Codificación automática mediante procesamiento de lenguaje natural

Material y Métodos

Esta herramienta trabaja sobre la salida de los registros electrónicos de salud, es decir, sobre los informes de alta escritos del lenguaje natural del facultativo, una vez firmados y validados.

El proceso para el desarrollo del proyecto nos llevó a distinguir cuatro claras etapas:

  • Una etapa de procesamiento de datos: En esta etapa se definió el ámbito a trabajar y la fuente de información. Aunque el sistema era capaz de trabajar en varios ámbitos del Real Decreto 69/2015: Urgencias y CMBDA, sólo se abordó el ámbito de Urgencias, puesto que no precisa por ahora una codificación automática de los procedimientos, limitándonos solamente a los diagnósticos y evitando más variables que puedan causar ruido en el análisis de resultados.
  • Una etapa de preprocesamiento de datos, bien con técnicas de lematización, identificación y eliminación de stop words (palabras que no aportan valor) o bien mediante algoritmos de identificación de prestaciones en el sistema de información hospitalaria y su equivalencia en los procedimientos de la CIE. Para reforzar el éxito de esta codificación se definieron los apartados o estructuras reguladas por el Real Decreto 1093/2010, de 3 de septiembre, por el que se aprueba el conjunto mínimo de datos de los informes clínicos en el Sistema Nacional de Salud (12). Así la herramienta no precisaba leer el informe completo y garantizaba la codificación específica del episodio.
  • Para expresar la relevancia de una palabra se utilizó el método Tf-idf, es decir, la frecuencia del término en la colección de documentos. Este valor aumenta proporcionalmente al número de veces que una palabra en el documento, pero es compensada por la frecuencia de la palabra en la colección de documentos y resulta muy eficaz para para el filtrado de las stop-words que suelen usarse en casi todos los documentos (13).
  • Desarrollo del modelo y aprendizaje supervisado, bien por la extracción aleatoria de una muestra y su corrección o bien por pasarlo por filtros de las herramientas oficiales de codificación en la Comunidad de Madrid.
  • Validación y pruebas, extendiendo este modelo al procesamiento del lenguaje natural en cualquier ámbito o documento generado en los actos asistenciales.

Respecto a la muestra seleccionada empezamos a analizarla desde septiembre de 2018 hasta marzo de 2019, ambos meses inclusive, considerando que sería suficiente para estimar las diferencias encontradas en el estudio. El motivo para empezar en ese periodo fue por considerar que el sistema estaba estable, debido a los cambios de hardware, virtualización de máquinas y cambio de sistema operativo. Actualmente rueda en un equipo virtualizado con un procesador Xeon 2.00 GHz x64, 16 GB RAM y HDD 300 GB, con un Sistema Operativo y nivel de parcheado: Windows Server 2012 Release R2 standard.

Respecto a la agrupación de variables que pudiera interferir en el resultado, se trabajó con el rango etario, el Servicio responsable, el número de reingresos, el sexo del paciente y el número de códigos obtenidos de manera automática.

El rango etario de los pacientes se estableció hasta 14 años considerado niños y superior a 65 años considerando como jubilados, simplemente para dilucidad la relación con el número de códigos automáticamente recabados. Respecto a la segregación de los Servicios de Urgencias se estableció mediante los GFH (grupos funcionales hospitalarios) pertenecientes al SFH (Servicios funcionales hospitalarios) de Urgencias. En este caso no todos los Servicios de Hospitalización están representados en Urgencias, muchos de ellos estando agrupados y bajo la tutela de URGN (Urgencias generales médicas) y URGQ (Urgencias generales quirúrgicas).

Por último se estudió si el motivo de reingreso era justificación para hacer los informes más escuetos y para ello se restaron el número de códigos encontrados en los informes del primer ingreso del paciente y el número en el último episodio analizado, en el periodo de tiempo descrito. Y a su vez se clasificaron los pacientes que perdían códigos con el tiempo en sus informes y los que ganaban con el tiempo en sus informes.

El análisis estadístico y descriptivo para comparar las diferencias respecto al sexo y pérdida de códigos, o grupo etario y pérdida de códigos,  se realizó mediante pruebas de chi-cuadrado. La comparación de las medias de variables continuas número de códigos automáticamente detectados se realizó mediante la prueba de T-Student. El análisis estadístico para la comparación de medias entre grupos independientes se realizó a través del modelo matemático Análisis de la Varianza (ANOVA) para los criterios de normalidad. Para todos los contrastes se adoptó un nivel de significación del 5%. Los análisis se realizaron con el SPSS ver. 25 para Windows x86 SO 8.1.

Resultados

De los 91.624 episodios totales que sucedieron en ese periodo de tiempo, el 88.6% fue codificado correctamente. Del porcentaje no codificado, cabe justificar que el 13,40% (1.400 episodios) fueron sucesos donde el paciente no se quedó a recibir la asistencia inicial que había solicitado (como por ejemplo altas no comunicadas o fugas).

Respecto al Servicio que menos codificaciones acertadas se hicieron fue el de Urgencias General (URGN) pero es verdad que también fue el Servicio que más atenciones realizó. De las no codificadas casi la mitad (49,7%) pertenecieron a URGN, pero como hemos mencionado el 58,7% (53.746 episodios) pertenecían a ese Servicio.

Del total de episodios el 47,3% (43.320 episodios) tuvieron pacientes reincidentes con una media de 1,05 reingresos (desviación estándar 1,69 y un caso máximo de 47 reingresos).

Centrando el estudio en los casos codificados (80.411 episodios), 43.728 episodios fuero de pacientes sin reingresos (el 54,4%), es decir una diferencia del 1,7% respecto al dato reportado de codificados y  no codificados. De los reingresados (36.683 episodios) el 38,1% tuvieron un reingreso y la media de reingresos fue de 2,12 (desviación estándar 1,64) con un máximo de un caso de 40 reingresos (el mismo mencionado antes, solo que 7 de los episodios no fueron codificados por información insuficiente). Antes de analizar los reingresos y sus códigos, se exploró si existía relación entre el número de reingresos y el rango etario de los pacientes, encontrándose diferencias estadísticamente significativas (ANOVA p<0,001). Los niños tuvieron una media de 1,01 reingresos con una desviación estándar de 1,329, los adultos con una media de 0,75 reingresos y desviación estándar de 1,326 y los jubilados con una media de 1,24 episodios de reingresos y desviación estándar de 1,767.

Analizando el número de diagnósticos codificados respecto al motivo de alta, encontramos una diferencia estadísticamente significativa entre las medias de cada uno de ellos (ANOVA p<0,001). El motivo cuyos diagnósticos fue menos codificados fue la fuga con una media de 1 único diagnóstico y el motivo de alta con más códigos fue el éxitus con una media de 4 diagnósticos (desviación estándar 3,176).

En el análisis de medias por Sección de Urgencias (GFH) también detectamos diferencias estadísticamente significativas. Existen Servicios como Oftalmología de Urgencias, o Traumatología de Urgencias cuyas medias de códigos por episodio son 1,15 (desviación estándar 0,489) y media de 1,25 (desviación estándar 0,625) respectivamente, frente a la media códigos de Urgencias General o Urgencias Quirúrgica con unas medias de códigos por episodio de 1,97          (desviación estándar 1,929) y media de 2,03 (desviación estándar 2,134) respectivamente.

En la media de número de códigos encontrados a mujeres respecto a hombres, se encontró una diferencia de medias estadísticamente significativas, teniendo los episodios protagonizados por mujeres una media de 1,69 códigos (desviación estándar 1,563) frente a los 1,78 códigos (desviación estándar 1,746) de los hombres, pudiendo afirmar que esta diferencia de medias es suficientemente significativa con los métodos estadísticos de la T-Student (p<0,001)

Otra de las variables que pueden influir en la generación del informe de alta de urgencias y como consecuencia la cantidad de códigos que es capaz la herramienta de generar es el mes de la fecha en la que se genera el informe. Encontramos diferencias significativas entre la media de códigos encontrados y los meses (ANOVA p<0,001), siendo el mes cuyos informes tienen más número de códigos el mes de febrero con una media de 1,791 códigos por informe de episodio (desviación estándar 0,765) y el que menos fue octubre con una media de 1,69 (desviación estándar 1,660).

Respecto a la  diferencia de códigos en los informes de la primera visita de pacientes y la última visita, para comprobar la calidad de los informes en pacientes reincidentes se observó que un 46,5% obtenía menos episodios en las visitas sucesivas a urgencias frente a un 53,5% que se detectaron más códigos en los informes del último episodio de reingreso.

Conclusiones

En la actualidad existen pocas herramientas y sistemas de aprendizaje de ontologías en el dominio médico (4) y menos aún que colaboren con el entorno de codificación en CIE10.

Los métodos de clasificación basados en el aprendizaje supervisado demuestran su eficacia cuando el número de datos es elevado y se procesan grandes cantidades de documentos (2). Por lo tanto nuestra herramienta con el tiempo adquirirá mejores resultados siempre y cuando la calidad de los informes escritos sea la misma.

Los estudios demuestran que la codificación automática basada en el procesamiento del lenguaje natural sobre los informes de alta generados, tiene un alto grado de concordancia con una codificación manual realizada por codificadores humanos (10). Esto supone un gran ahorro económico puesto que para codificar aproximadamente los 191.000 episodios de urgencias que puede alcanzar un Hospital como el nuestro se necesitarían 19 codificadores.

Hasta hace poco al no existir otra categoría profesional para el desempeño de estas funciones eran llevadas a cabo por enfermeras con alta especialización en codificación. Hoy en día con los nuevos grados universitarios en documentación y gestión sanitaria, el número de personas es el mismo aunque el salario bruto anual es inferior, aun así siempre muy superior al coste de un sistema de codificación automático.

Estas técnicas no están exentas de errores para los cuales es necesario la creación de reglas y algoritmos de reconocimiento, así como el entrenamiento de los sistemas informáticos. Para la supervisión y entrenamiento de las máquinas sigue siendo necesario un técnico que supervise y mejore el sistema con sus aportaciones.

Existe coherencia en el número de diagnóstico encontrado en función de la edad del paciente o del motivo de alta. En cuanto más mayor es el paciente, más complejidad y mayor número de diagnósticos encontrados. Al igual que cuando el motivo de alta es fuga donde el paciente no ha concluido su estudio asistencial, lógicamente se detectan menos diagnóstico automáticamente. El motivo éxitus, probamente debido a la misma complejidad es donde más diagnósticos automáticos detectó la herramienta.

Para que todo el sistema tenga un alto grado de rendimiento y especificidad es necesario una formación previa a los facultativos de la importancia de su escritura en los bloques que dicta el Real Decreto 1093/2010, de 3 de septiembre, por el que se aprueba el conjunto mínimo de datos de los informes clínicos en el Sistema Nacional de Salud. Para esto ayuda muchísimo una Historia Clínica Electrónica que tenga las casillas estructuradas acorde a ese Real Decreto.

Existen Servicios que tradicionalmente son más escuetos a la hora de realizar un informe de alta y eso se ve reflejado en el número de códigos que es capaz el sistema de detectar automáticamente. Por ejemplo el Servicio de Traumatología y el de Oftalmología, tienen un número inferior de códigos detectados. Sería interesante y objeto de otro estudio realizar esta misma aseveración en la codificación realizada manualmente por codificadores en el ámbito de hospitalización.

Otro tema, de futuro estudio, sería comprobar las causas que relacionen el mayor número de diagnósticos de los informes de alta en los meses de febrero, probablemente por la complejidad de la patología estacional en ese mes, pero no ha sido objeto de este artículo.

Respecto a la hipótesis de que a mayor número de reingresos peor calidad de informes y por consiguiente menor número de diagnósticos reflejados, no podemos asegurar que en nuestro caso haya sido así. Hemos observado una gran calidad y constancia en el tratamiento de los pacientes, indistintamente de la frecuencia que vengan a Urgencias. Esto denota la profesionalidad de nuestros facultativos que repiten la anamnesis, y descripción de pruebas tantas veces como sea necesario para llegar a un correcto diagnóstico del paciente.

Por lo tanto la utilización de estos programas nos permite afirmar rotundamente su beneficio de reducción de costes económicos, principalmente de recursos humanos, sin perder la calidad de codificación.  Pero además el importante recurso tiempo es otra de las características a contemplar permitiendo realizar esta tarea en cuestión de minutos frente a los muchos meses que llevaría de otra manera realizarlo con medios humanos. Estas tareas son programadas en horario nocturno para no interferir en los sistemas informáticos y su rendimiento, pero en nuestro caso, al haber separado esta función en un servidor virtual dedicado se observa una mejora del rendimiento en cualquier rango horario operativo.

Bibliografía.

  1. Real Decreto 69/2015, de 6 de febrero, por el que se regula el Registro de Actividad de Atención Sanitaria Especializada, (10 de febrero de 2015).
  2. Almagro M, Martínez Unanue R, Fresno Fernández V, Montalvo Herranz S. Estudio preliminar de la anotación automática de códigos CIE-10 en informes de alta hospitalarios. Procesamiento del Lenguaje Natural. 2018;60:45-52.
  3. Lopez Osornio A, Montenegro S, García  Marti S, Toselli L, Otero C, Tavasci I, et al. Codificación múltiple de una lista de problemas utilizando la CIAP-2, CIE-10 y SNOMED CT.  INFORMEDICA 2004; 3 er Vitual Congress of Medical Informatics2004.
  4. Cedeño Moreno D, Vargas  Lombardo M. Ontología y Procesamiento de Lenguaje Natural. KnE Engineering. 2018;3(1):492-501.
  5. Perdomo Sánchez E, Díaz  Blanco J, Ojeda  González A, Amador  Domínguez N. Análisis de los procesos de lematización y estemizado en lingüística computacional. In: Matanzas Ud, editor.; Cuba2017.
  1. Pena Seijas J. Partes de la morfología. Las unidades del análisis morfológico: Espasa Calpe; 1999. 4305-66 p.
  2. Vivancos-Vicente PJ, Castejón-Garrido JS, Paredes-Valverde MA, del Pilar Salas-Zárate M, Valencia-García R. XHEALTH: Un sistema avanzado de reconocimiento del habla para la interacción con sistemas de información de sanidad. Procesamiento del Lenguaje Natural. 2017(59):149-52.
  3. Pestana Delgado R, Llanos Zavalaga L, Cabello Morales EA, Lecca García L. Concordancia entre el diagnóstico médico y la codificación de informática, considerando el CIE-10, en la consulta externa de pediatría en el Hospital Nacional Cayetano Heredia, Lima-Perú. Revista Medica Herediana. 2005;16(4):239-45.
  4. Sánchez Seda S, de Paula Pérez  León F, Moreno  Conde J, Gutiérrez  Ruiz MC, Martín  Sánchez J, Rodríguez G, et al. Plataforma para la extracción automática y codificación de conceptos dentro del ámbito de la Oncohematología (Proyecto COCO). Procesamiento del Lenguaje Natural. 2018;61:65-71.
  5. Floristán Floristán Y, Delfrade Osinaga J, Carrillo Prieto J, Aguirre Perez J, Moreno-Iribas C. Codificación de las causas de muerte con el software Iris. Impacto en las estadísticas de mortalidad de la Comunidad Foral de Navarra. Revista Española de Salud Pública. 2016;90:e1-e9.
  6. González Herrero D. Diseño y contrucción de una herramienta tecnológica basada en técnicas de procesamiento de lenguaje natural y aprendizaje automático para clasificación de correos de una entidad bancaria: Universidad Politécnica de Madrid; 2017.
  7. Real Decreto 1093/2010, de 3 de septiembre, por el que se aprueba el conjunto mínimo de datos de los informes clínicos en el Sistema Nacional de Salud. B.O.E. Num. 225. Sect. I (16 de septiembre de 2010).
  8. Ramos J, editor Using tf-idf to determine word relevance in document queries. Proceedings of the first instructional conference on machine learning; 2003: Piscataway, NJ.