Chatbots, betrieben durch künstliche Intelligenz, sind eine große Chance für Entlastung in der Patientenversorgung. Verlassen kann man sich auf ChatGPT und Co. allerdings noch nicht.
Ob bei der Patientenberatung, Diagnostik oder dem Erstellen von klinischen Berichten – Large Language Models (LLM) wie GPT 4 von OpenAI und das Pathways Language Model (PaLM) von Google könnten schnelle Helfer sein. Ihre unregulierte Verwendung im Gesundheitswesen berge jedoch inhärente Risiken, wie die Technische Universität Dresden (TU Dresden) jetzt warnt.
In einer kma vorliegenden Publikation argumentiert Prof. Stephen Gilbert, wie und vor allem ob sich LLM-basierte generative Chat-Tools im Gesundheitsbereich regulieren lassen. Der Professor für Medical Device Regulatory Science der TU Dresden forscht dazu im Rahmen des Projekts „PATH – Personal Mastery of Health and Wellness Data“.
Von falschen Antworten und ausgedachten Werten
Diese großen Sprachmodelle sind neuronale Netze mit ausgeprägten Konversationsfähigkeiten. Sie erzeugen menschenähnliche Reaktionen und führen interaktive Gespräche. Allerdings generieren sie regelmäßig äußerst überzeugende Aussagen, die nachweislich falsch oder unangemessen sind. Fehlen einem LLM wichtige Informationen kommt es vor, dass diese nicht nachgefragt, sondern zufällig und mit erfundenen Werten ergänzt werden. Besonders im medizinischen Bereich eine Gefahr.
Diese Chatbots sind unsichere Werkzeuge, wenn es um medizinische Beratung geht und es ist notwendig, neue Rahmenbedingungen zu entwickeln, die die Patientensicherheit gewährleisten.
Die Qualität, Stichhaltigkeit oder Zuverlässigkeit aller gegebenen Antworten zu überprüfen, ist dabei jedoch kaum leistbar. „Diese Chatbots sind unsichere Werkzeuge, wenn es um medizinische Beratung geht und es ist notwendig, neue Rahmenbedingungen zu entwickeln, die die Patientensicherheit gewährleisten“, so Prof. Stephen Gilbert. Denn egal in welcher Form der Patienteninformation oder Beratung man Chatbots nutze: Der zugrundeliegende Ansatz von LLM enthält kein Modell einer medizinischen „Grundwahrheit“.
Diese Grundwahrheit oder „Ground Truth“ ist eine Prozessmethode, die sicherstellt, dass die der Analyse zu Grunde gelegten Daten aktuell, präzise und vollständig sind. LLMs mit nachvollziehbaren Ergebnissen, geringer Verzerrung, vorhersagbar, korrekt und mit überprüfbaren Ergebnissen gäbe es derzeit allerdings nicht, so die TU Dresden.
Wie könnte KI verlässlicher werden?
Um Chatbots, die mehr als nur einfache Datenbankfunktionen ausführen – also bei Diagnose und Behandlung unterstützen – sinnvoll nutzen zu können, müssen sie verlässlicher werden. Das funktioniere zum Beispiel über einen Zulassungsprozess.
„Aktuelle LLM-Chatbots erfüllen nicht die wichtigsten Prinzipien für KI im Gesundheitswesen, wie Voreingenommenheitskontrolle, Erklärbarkeit, Aufsichtssysteme, Validierung und Transparenz. Um sich ihren Platz im medizinischen Repertoire zu verdienen, müssen Chatbots für eine höhere Genauigkeit konzipiert werden, wobei Sicherheit und klinische Wirksamkeit nachgewiesen und von den Aufsichtsbehörden genehmigt werden müssen“, so Gilbert. Nicht zu vernachlässigen ist dabei der Fakt, dass nach EU-Recht Software mit diesem Nutzungsumfang im medizinischen Bereich als Medizinprodukt eingestuft wird und daher einer genau solche Zulassung erfordert.
Das Deutsche Institut für Normung (DIN) hat unter anderem dazu kürzlich einen Arbeitsausschuss gegründet. Die Gruppe „KI in der Medizin“ besteht aus 44 Expert*innen und soll die in der „Normungsroadmap KI“ formulierten Handlungsbedarfe umzusetzen. Darüber hinaus gelte es europäische und internationale Normungsaktivitäten im Themenbereich KI in der Medizin aus dem ISO/TC 215 „Health informatics“ und der ISO/IEC JTC1/SC42 – ISO/TC 215 JWG 3 „AI enabled health informatics“ zu koordinieren und begleiten.
Training, Training, Training
Klar ist: LLMs werden stetig trainiert und damit werden sie auch stetig zuverlässiger. Rein medizinische Chatbots können beispielsweise ausschließlich mit kontrollierten und validierten medizinischen Texten gefüttert werden. Was dann noch fehlt, um den stetigen Wahrheitsgehalt der Aussagen sicherzustellen, ist ein Qualitätsmanagement. Dafür müssten laut Gilbert allerdings „Algorithmen, Daten und Modelle vollständig verfügbar gemacht werden. Einschließlich großer Datensätze mit entpersonalisierten Aufforderungen und Antworten sowie automatisierten Testcodes.“
Ein Ende – oder eine Erfolgsquote – dieser Entwicklungsvorgänge ist damit nicht abzusehen. „Da sie eine nahezu unendliche Bandbreite an Eingaben und Ausgaben haben, ist es schwierig, die Benutzerfreundlichkeit und Marktleistung von LLMs zu testen, und es ist daher fraglich, ob ihre Tendenz, schädliche oder falsche – aber höchst plausible – Informationen zu suggerieren, jemals kontrolliert werden kann“, so Gilbert. Festzuhalten für den Entwicklungsprozess ist jedoch: Will man LLMs sicher im medizinischen Bereich nutzen, so sollte man an ihre Aussagekraft einen genauso hohen Anspruch stellen, wie an die Ärzt*innen, die uns jeden Tag behandeln.
Quelle: Lisa-Marie Hofmann 2023. Thieme.