Chatbots – Wie können wir KI zur Wahrheit verpflichten?

Chatbots, betrieben durch kĂŒnstliche Intelligenz, sind eine große Chance fĂŒr Entlastung in der Patientenversorgung. Verlassen kann man sich auf ChatGPT und Co. allerdings noch nicht.

Ob bei der Patientenberatung, Diagnostik oder dem Erstellen von klinischen Berichten – Large Language Models (LLM) wie GPT 4 von OpenAI und das Pathways Language Model (PaLM) von Google könnten schnelle Helfer sein. Ihre unregulierte Verwendung im Gesundheitswesen berge jedoch inhĂ€rente Risiken, wie die Technische UniversitĂ€t Dresden (TU Dresden) jetzt warnt.

In einer kma vorliegenden Publikation argumentiert Prof. Stephen Gilbert, wie und vor allem ob sich LLM-basierte generative Chat-Tools im Gesundheitsbereich regulieren lassen. Der Professor fĂŒr Medical Device Regulatory Science der TU Dresden forscht dazu im Rahmen des Projekts „PATH – Personal Mastery of Health and Wellness Data“.

Von falschen Antworten und ausgedachten Werten

Diese großen Sprachmodelle sind neuronale Netze mit ausgeprĂ€gten KonversationsfĂ€higkeiten. Sie erzeugen menschenĂ€hnliche Reaktionen und fĂŒhren interaktive GesprĂ€che. Allerdings generieren sie regelmĂ€ĂŸig Ă€ußerst ĂŒberzeugende Aussagen, die nachweislich falsch oder unangemessen sind. Fehlen einem LLM wichtige Informationen kommt es vor, dass diese nicht nachgefragt, sondern zufĂ€llig und mit erfundenen Werten ergĂ€nzt werden. Besonders im medizinischen Bereich eine Gefahr. 

Diese Chatbots sind unsichere Werkzeuge, wenn es um medizinische Beratung geht und es ist notwendig, neue Rahmenbedingungen zu entwickeln, die die Patientensicherheit gewÀhrleisten. 

Die QualitĂ€t, Stichhaltigkeit oder ZuverlĂ€ssigkeit aller gegebenen Antworten zu ĂŒberprĂŒfen, ist dabei jedoch kaum leistbar. „Diese Chatbots sind unsichere Werkzeuge, wenn es um medizinische Beratung geht und es ist notwendig, neue Rahmenbedingungen zu entwickeln, die die Patientensicherheit gewĂ€hrleisten“, so Prof. Stephen Gilbert. Denn egal in welcher Form der Patienteninformation oder Beratung man Chatbots nutze: Der zugrundeliegende Ansatz von LLM enthĂ€lt kein Modell einer medizinischen „Grundwahrheit“.

Diese Grundwahrheit oder „Ground Truth“ ist eine Prozessmethode, die sicherstellt, dass die der Analyse zu Grunde gelegten Daten aktuell, prĂ€zise und vollstĂ€ndig sind. LLMs mit nachvollziehbaren Ergebnissen, geringer Verzerrung, vorhersagbar, korrekt und mit ĂŒberprĂŒfbaren Ergebnissen gĂ€be es derzeit allerdings nicht, so die TU Dresden.

Wie könnte KI verlÀsslicher werden?

Um Chatbots, die mehr als nur einfache Datenbankfunktionen ausfĂŒhren – also bei Diagnose und Behandlung unterstĂŒtzen – sinnvoll nutzen zu können, mĂŒssen sie verlĂ€sslicher werden. Das funktioniere zum Beispiel ĂŒber einen Zulassungsprozess.

„Aktuelle LLM-Chatbots erfĂŒllen nicht die wichtigsten Prinzipien fĂŒr KI im Gesundheitswesen, wie Voreingenommenheitskontrolle, ErklĂ€rbarkeit, Aufsichtssysteme, Validierung und Transparenz. Um sich ihren Platz im medizinischen Repertoire zu verdienen, mĂŒssen Chatbots fĂŒr eine höhere Genauigkeit konzipiert werden, wobei Sicherheit und klinische Wirksamkeit nachgewiesen und von den Aufsichtsbehörden genehmigt werden mĂŒssen“, so Gilbert. Nicht zu vernachlĂ€ssigen ist dabei der Fakt, dass nach EU-Recht Software mit diesem Nutzungsumfang im medizinischen Bereich als Medizinprodukt eingestuft wird und daher einer genau solche Zulassung erfordert. 

Das Deutsche Institut fĂŒr Normung (DIN) hat unter anderem dazu kĂŒrzlich einen Arbeitsausschuss gegrĂŒndet. Die Gruppe „KI in der Medizin“ besteht aus 44 Expert*innen und soll die in der „Normungsroadmap KI“ formulierten Handlungsbedarfe umzusetzen. DarĂŒber hinaus gelte es europĂ€ische und internationale NormungsaktivitĂ€ten im Themenbereich KI in der Medizin aus dem ISO/TC 215 „Health informatics“ und der ISO/IEC JTC1/SC42 – ISO/TC 215 JWG 3 „AI enabled health informatics“ zu koordinieren und begleiten.

Training, Training, Training

Klar ist: LLMs werden stetig trainiert und damit werden sie auch stetig zuverlĂ€ssiger. Rein medizinische Chatbots können beispielsweise ausschließlich mit kontrollierten und validierten medizinischen Texten gefĂŒttert werden. Was dann noch fehlt, um den stetigen Wahrheitsgehalt der Aussagen sicherzustellen, ist ein QualitĂ€tsmanagement. DafĂŒr mĂŒssten laut Gilbert allerdings „Algorithmen, Daten und Modelle vollstĂ€ndig verfĂŒgbar gemacht werden. Einschließlich großer DatensĂ€tze mit entpersonalisierten Aufforderungen und Antworten sowie automatisierten Testcodes.“

Ein Ende – oder eine Erfolgsquote – dieser EntwicklungsvorgĂ€nge ist damit nicht abzusehen. „Da sie eine nahezu unendliche Bandbreite an Eingaben und Ausgaben haben, ist es schwierig, die Benutzerfreundlichkeit und Marktleistung von LLMs zu testen, und es ist daher fraglich, ob ihre Tendenz, schĂ€dliche oder falsche – aber höchst plausible – Informationen zu suggerieren, jemals kontrolliert werden kann“, so Gilbert. Festzuhalten fĂŒr den Entwicklungsprozess ist jedoch: Will man LLMs sicher im medizinischen Bereich nutzen, so sollte man an ihre Aussagekraft einen genauso hohen Anspruch stellen, wie an die Ärzt*innen, die uns jeden Tag behandeln.

Quelle: Lisa-Marie Hofmann 2023. Thieme.