Codificación automática mediante procesamiento de lenguaje natural
El Real decreto 69/2015 establece la codificación obligatoria con CIE10 a partir de enero de 2018 para el ámbito de Urgencias en los Hospitales de categorías C1.1. Y C1.2.
Autores
Ramos-López, J.M.1; Palacios Romero, M.L. 2; Gómez Montero, G. 3; Cortés Valdés, A.4;
Villares Ojeda, M. 5
1 Médico de Admisión y Documentación, Responsable de SSII del Servicio de Admisión del Hospital Universitario Ramón y Cajal
2 Directora de Continuidad Asistencial, del Hospital Universitario Ramón y Cajal.
3 Enfermero, Sistemas de Información del Hospital Universitario Ramón y Cajal.
4 Médico de Admisión y Documentación, Coordinadora del Servicio de Admisión y Documentación Clínica del Hospital Universitario Ramón y Cajal
5 Enfermera, Continuidad Asistencial del Hospital Universitario Ramón y Cajal.
Titulo
Codificación automática mediante procesamiento de lenguaje natural
Resumen
Introducción: El Real decreto 69/2015 establece la codificación obligatoria con CIE10 a partir de enero de 2018 para el ámbito de Urgencias en los Hospitales de categorías C1.1. Y C1.2. Para abordar este objetivo hemos planteado la codificación automática mediante la interpretación del lenguaje natural y el aprendizaje con inteligencia artificial de herramientas informáticas. Utilizaremos técnicas de tratamiento morfológico del lenguaje, lematización y estemizado.
Material y Métodos: El estudio descriptivo lo llevaremos a cabo evaluando el número de códigos obtenidos de manera automática y su relación con variables como rango etario, motivo de alta, reingresos, Servicio responsable, sexo del paciente y mes de la atención.
Resultados: De 91.624 episodios de Urgencias en un periodo de 6 meses, el 88.6% fue codificado correctamente. Se observó un 47,3% de pacientes con varios episodios con una media de 1,05 reingresos (SD 1,69). Existe relación (ANOVA p<0,001) para el número de códigos automáticamente codificados y la edad. Mayores de 65 años tuvieron un mayor número de códigos encontrados (media 1,326 SD 1,24). El motivo de alta con más códigos fue el éxitus (media 4 diag. SD 3,176). El mes que más códigos se hallaron automáticamente fue febrero (media 1,71 SD 0,765) y el Servicio que menos códigos arrojó fue oftalmología y traumatología.
Conclusión: El método de codificación automática basada en el aprendizaje informático supervisado ha demostrado su eficacia. En cuanto mayor sea el número de registros de entrada nuestro sistema irá progresivamente devolviendo mejores resultados. Para que este sistema tenga plena garantía es necesario que la información esté estructurada en los bloques que dicta el Real Decreto 1093/2010. Podemos afirmar, en adhesión a otros autores, que la codificación automática tiene un alto grado de concordancia respecto a la codificación manual. Por lo tanto, podemos afirmar que el sistema tiene un ahorro de coste económico y un ahorro del recurso tiempo, que adicionalmente en nuestro caso no compite por los recursos informáticos de asistencia clínica.
Palabras clave
Historia Clínica, Codificación Clínica, Inteligencia Artificial
Automatic coding through natural language processing.
Abstract
Objectives: Royal Decree law 69/2015 establishes the mandatory coding with ICD10 as of January 2018 for the Emergency area in Hospitals of categories C1.1. And C1.2. To get this objective we have proposed automatic coding through the interpretation of natural language and learning with artificial intelligence of computer tools. We will use techniques like morphological language treatment, lematization and optimization.
Material and methods: The descriptive study will be carried out by evaluating the number of codes obtained automatically and their relationship with variables such as age range, reason for discharge registration, readmissions, responsible service, sex of the patient and month of care.
Results: There was 91,624 episodes of Emergencies in a period of 6 months, 88.6% were correctly coded. We observed 47.3% of patients with several episodes with a mean of 1.05 readmissions (SD 1.69). There is a relationship (ANOVA p <0.001) for the number of automatically coded codes and age. Over 65 years old patients had a greater number of codes found (average 1,326 SD 1.24). The reason for registration with more codes was the death (average 4 diag SD 3,176). The month that most codes were found automatically was February (average 1.71 SD 0.765) and the Service that gave the less codes was ophthalmology and traumatology
Conclusion: The automatic coding method based on supervised computer learning has proven its effectiveness. The higher the number of entry registers, improve our system return. For this system have full guarantee it is necessary that the information is structured in the blocks that has the Royal Decree Law 1093/2010. We can affirm, in adhesion to other authors, that the automatic coding has a high degree of agreement with respect to manual coding. Therefore, we can affirm that the system has a saving of economic cost and a saving of the resource time that additionally in our case does not compete for the computer resources of clinical assistance
Keyword
Medical Records; Clinical Coding; Artificial Intelligence
Introducción
El Real Decreto 69/2015 por el que se regula el Registro de Actividad de Atención Sanitaria Especializada establece la codificación con CIE10 de la Hospitalización y de la Cirugía Ambulatoria de los Hospitales de Agudos (Categorías C1.1 y C1.2) a partir del 1 de enero de 2016. Los procedimientos Ambulatorios de alta complejidad, Hospital de Día Médico, Hospitalización a Domicilio y Urgencias de los Hospitales (Categorías C1.1 y C1.2) y Centros públicos se codificarán con esta CIE a partir del 1 de enero de 2018 (1).
Esto ha supuesto un gran esfuerzo y un gran cambio radical en una codificación arraigada desde hacía muchos años en CIE9, en la cual se había invertido mucho en recursos humanos y formación específica. El número de códigos diagnósticos nuevos, respecto a la CIE9, casi se ha multiplicado por 5, siendo un total aproximado de 69.000 códigos en la CIE10, y los procedimientos se han multiplicado por 18 veces, alcanzando un total aproximado de 72000 códigos (2).
En un momento de la historia de la sanidad donde tenemos que optimizar los recursos, tanto humanos como tecnológicos para hacer el sistema sostenible, es necesario recurrir a nuevas formas de codificación supervisadas pero con automatismos que alivien este incremento de esfuerzos.
Hasta hace poco, corrientes de expertos en codificación apostaban por la construcción de registros electrónicos con palabras clave propuestas con la ayuda de herramientas integradas en la Historia Clínica Electrónica. Así, el facultativo sólo tenía que seleccionar y filtrar los conceptos que más se aproximaban. Pero la tendencia actual es a la interpretación del lenguaje natural y el aprendizaje de las herramientas con inteligencia artificial.
No olvidemos que el texto narrativo no estructurado es hoy la forma de documentación más frecuentemente usada en medicina (3). Cuando el lenguaje humano se transcribe en registros tiene el problema que organiza la información en estas fuentes no estructuradas y esto dificulta la gestión del conocimiento.
Por ello, el conocimiento informático es necesario que se represente formalmente mediante glosarios especializados, taxonomías, tesauros u ontologías (4). Para entender este último concepto, explicaremos que una ontología se encarga de catalogar las variables requeridas para algún conjunto de información y establece las relaciones entre ellos, limitando así la complejidad y organizando la información.
Para establecer una comunicación de los sistemas informáticos a partir del lenguaje humano es necesario la lingüística computacional y una de sus principales funciones: la recuperación de la información para su reconocimiento (5). El nivel por el que se inicia el tratamiento es el morfológico para identificar las palabras a partir de un diccionario. Sin embargo, también es necesario un proceso de lematización debido a que todos los términos no están incluidos en un diccionario o lexicón. Esto consiste en segmentar en lexemas y afijos.
Otra técnica necesaria para interpretar el lenguaje natural es la eliminación de los morfemas flexivos que señalan los accidentes gramaticales de las palabras (género, número, persona, tiempo, modo,…). A esta técnica la denominamos estemizado (6) y como demuestran algunos autores tiene un alto grado de efectividad para el lenguaje español (5).
La parte positiva de este aprendizaje es que el 90% de las codificaciones existentes se realizan con el 20% de todos los códigos y de ese 90% la mitad se han anotado el código una única vez (2). En el estudio de Almagro, Martinez et all codificaron automáticamente una media de 8 diagnósticos y 2 procedimientos en un episodio de hospitalización (2), pero nosotros necesitaremos menos puesto que el ámbito a tratar en este estudio es la codificación de Urgencias, cuyos diagnóstico y procedimientos es infinitamente menor .
Los errores en la interpretación del lenguaje en el ámbito de la medicina pueden afectar a la salud del paciente, por una interpretación incorrecta de los resultados. Estos errores no sólo pueden tener repercusiones iatrogénicas sino un alto coste económico en salud (7).
Existen estudios que argumentan que una incorrecta traducción del diagnóstico y procedimiento por un administrativo, en ocasiones sin formación suficiente, puede ser muy peligroso (8).
Hemos encontrado software muy especializado para codificar automáticamente en conjuntos de la CIE como el Oncohematológico y sus códigos CIE-O-3 (9) pero nuestro objetivo es tener todo un repertorio de informes de cualquier ámbito y especialidad, lo que incrementa la complejidad del proyecto. Basada en las bondades de otros proyectos europeos de codificación automática sobre causas de muerte y los certificados de defunción (10) nos aventuramos a implementar un sistema similar basado en un único informe de alta en los episodios de Urgencias como punto de partida, para ir posteriormente ampliando la tipología documental a informes únicos en el desarrollo de técnicas de especial complejidad en el ámbito asistencial ambulatorio del paciente.
La disciplina del procesamiento del lenguaje natural permite a la máquina entender el lenguaje escrito, procesarlo y transformarlo en datos estructurados (11) siendo en nuestro caso una transformación final al código CIE10.
En este artículo se realiza un análisis descriptivo de una herramienta utilizada en un convenio de innovación entre el Hospital Ramón y Cajal y la empresa 3M. Describe la metodología utilizada para poder llevar a cabo dicho estudio y una observación descriptiva de los resultados en los aciertos de codificación junto con las variables que pueden interferir.