RelEx: Converting histological reports into structured data by using Relation Extraction

 

Beteiligte Mitarbeiter

Prof. Dr. Edgar Dahl, Julian Dörenberg

Kooperationspartner

Prof. Dr. van der Aalst (Chair of Process- and Data Science RWTH Aachen University),
Institut für Pathologie RWTH Aachen University,
Klinik für Allgemein-, Viszeral- und Transplantationschirurgie Universitätsklinikum Aachen

Projektstart

Dezember 2020

Projektabschluss

Fortlaufend, Proof of Concept März 2022

Die Verfügbarkeit von strukturierten Daten wird ein immer wichtigerer Faktor in KI-basierter Analyse von krebsbezogenen Daten. Derzeit dokumentieren Pathologinnen und Pathologen in Deutschland ihre histologische Befunde in Fließtexten. Um diese wichtigen Tumor-assoziierten Dokumente für die Verarbeitung mittels Computer vorzubereiten ist es notwendig, sie von natürlicher Sprache in eine strukturierte Form zu bringen. Daher entwickelt die RWTH cBMB ein Tool zur Extraktion von strukturierten Daten aus histopathologischen Befundtexten.

Auf einem Evaluationsdatensatz von bisher 10 Befunden zu hepatozellulären Karzinomen konnte das Tool die gewünschten informationen mit einer Genauigkeit von 98% extrahieren. Daneben erreichte die RNN-basierte Dependenzgrammatik KI einen Unlabelled Attachment Score (UAS) von 96%, einen Labelled Accuracy Score (LA) von 95% und einen Labelled Attachment Score (LAS) von 93% auf 200 zufällig ausgewählten Sätzen aus Befunden zu Mammabiopsien.

Die Evaluation und Weiterentwicklung des Tools wird in den kommenden Monaten weiter voran getrieben, um mittelfristig in der Lage zu sein, beliebige Datensätze aus histologischen Befundtexten für die Forschung zur Verfügung zu stellen.


Publikationen und Vorträge

Dörenberg J: Masterarbeit "Converting histological records insto structured data by using a Dependency Grammar"

Dörenberg J, Gaisa N, Bednarsch J, Heij L, Dahl E: "Extraction of HCC-related data from histological reports by using a Dependency Grammar"