Läs våra senaste artiklar

Utvärdering av AI-baserade triageverktyg

Skriven av Ulf Österstad | Jan 26, 2026 16:52 PM

AI-driven triage förändrar ingången till hälso- och sjukvården — vare sig det sker genom symtomkoll i hemmet, digitala inskrivningssystem i jour- och närakutverksamhet eller kliniska beslutsstöd på primärvårdsmottagningar. Dessa verktyg genererar vanligtvis både en triageprioritet och en differentialdiagnos, med målet att vägleda patienter till rätt vårdnivå. Trots detta är det fortsatt svårt att utvärdera deras prestanda, eftersom triagebeslut — till skillnad från laboratorietester — saknar facit. Vad som "borde" ha hänt vid första kontakt är sällan observerbart, ofta subjektivt och påverkas dessutom av själva triagebeslutet.

Triagens syfte

Triagens primära mål är riskstratifiering, inte diagnostisk träffsäkerhet. Den säkerställer att patienter som riskerar allvarlig skada om de inte bedöms skyndsamt prioriteras, medan patienter med lägre risk kan hanteras säkert med mindre brådska. Triage sker innan utredningar, fullständig anamnes eller — i många fall — en definitiv diagnos. Många allvarliga tillstånd debuterar initialt med vanliga eller ospecifika symtom. Exempelvis kan en plötslig, mycket kraftig huvudvärk i slutändan visa sig vara en benign migrän, men akut triage är ändå korrekt eftersom symtomet också kan representera en livshotande subaraknoidalblödning.

Effektiv triage prioriterar känslighet för allvarlig risk framför diagnostisk precision. En viss grad av övertriage är acceptabel för att minimera risken att missa patienter med hög allvarlighetsgrad. Utvärderingsramverk bör därför bedöma triage utifrån rimligheten i den givna prioriteringen baserat på tillgänglig information — inte utifrån facit i efterhand eller slutlig diagnos.

Sanningsglappet

Triage är i grunden probabilistisk. Många sökorsaker t.ex. bröstsmärta, feber och huvudvärk är så kallade ”uteslutningsscenarier” där målet är säker och snabb åtgärd, snarare än exakt diagnos. Utvärdering baserad på utfall är problematisk av två skäl:

  • Efterföljande händelser påverkas av triagebeslutet. En patient som triageras till akutsjukvård genomgår utredningar som inte hade gjorts om hen hänvisats till egenvård, vilket skapar rundgång.

  • Godartade utfall innebär inte att triagen var felaktig. En patient som slutligen diagnostiseras med migrän kan initialt ha beskrivit symtom som liknade subaraknoidalblödning; säker triage kräver att även allvarliga men osannolika tillstånd beaktas.

Utmaningar kring differentialdiagnoser

Många verktyg genererar, utöver triageprioritet, även en differentialdiagnos. Men att jämföra och mäta denna utdata är svårt. I sammanhang med lägre vårdtyngd får patienter ofta aldrig någon definitiv diagnos.

Mätetal som enbart räknar om den ”sanna” diagnosen finns med på listan, eller dess placering i listan, kan vara missvisande. Differentialdiagnoslistor är sannolikhetsordnade, inte förutsägelser med ett enda rätt svar. För sällsynta tillstånd kan det vara kliniskt rimligt att rangordna vanligare alternativ högre. Att bestraffa verktyget för detta speglar efterklokhet snarare än kliniskt resonemang.

Utvärdering av differentialdiagnoser bör därför ta hänsyn till probabilistiskt tänkande och klinisk nytta, inte enbart enkla listpositionsmått.

Kliniskt omdöme som referensstandard

Eftersom utfall och diagnoser inte kan fungera som entydig ”sanning" jämför många studier AI-verktyg med klinikers beslut. Detta är användbart, men har tydliga begränsningar:

  • Subjektivitet: Olika kliniker har olika risktrösklar; överensstämmelsen mellan bedömare är måttlig.

  • Vinjettförvrängning: Textbaserade vinjetter sammanfattar fall och utelämnar dynamisk anamnes.
    Prestation på vinjetter överskattar ofta verklig klinisk prestanda.

  • Takeffekt: Jämförelse mot kliniker sätter ett tak för mätbar prestanda; en algoritm som faktiskt överträffar kliniker kan inte identifieras.

Begränsningarna med vinjettbaserad testning

Vinjetter är praktiska men problematiska för sammanfattande utvärdering:

  • Låg realism: Verkliga patienter ger ofullständig och ibland motsägelsefull information.

  • Begränsad informationsmängd: Vinjetter är statiska, medan anamnes är iterativ.

  • Läckage från träningsdata: Vissa verktyg testas på fall som liknar deras träningsdata, vilket blåser upp resultaten.

  • Icke-representativ fallmix: Vinjetter överrepresenterar ofta sällsynta eller extrema tillstånd.

Vinjettbaserad validering är därför otillräcklig för att fastställa säkerhet eller tillförlitlighet i verklig användning.

Övertriage och undertriage: centrala dimensioner av träffsäkerhet

Triagebeslut kan delas in i flera olika nivåer och ordnas på olika sätt; t.ex. akut, brådskande, samma dag, rutin, egenvård. De kliniskt mest meningsfulla måtten är:

  • Undertriage: Tilldelning av lägre prioritet än vad som är lämpligt; den primära patientsäkerhetsrisken.

  • Övertriage: Tilldelning av högre prioritet än nödvändigt; påverkar den operativa effektiviteten.

Traditionella mått som sensitivitet, specificitet eller ett enda sammanslaget träffsäkerhetsmått är ofta missvisande:

  • Triage är inte ett enkelt ja/nej-beslut, utan handlar om flera möjliga prioritetsnivåer.

  • Ett enda tal döljer asymmetriska risker — att missa ett livshotande tillstånd är betydligt allvarligare än onödig övertriage.

  • Måtten är prevalensberoende; sällsynta högprioriterade tillstånd kan snedvrida den upplevda träffsäkerheten.

Tongivande aktörer och tillsynsmyndigheter prioriterar därför i allt högre grad mått som undertriagefrekvens, missade högakuta tillstånd och kliniskt acceptabla nivåer av övertriage.

Kontexten är avgörande

Utvärdering måste ta hänsyn till klinisk kontext:

  • Primärvård: Fokus på efterfrågestyrning och tidig upptäckt.

  • Akutsjukvård: Betoning på snabb eskalering och resursflöde.

  • Publika eller digitala vårdtjänster: Prioriterar säkerhet, begriplighet och att undvika onödiga vårdbesök.

Jämförelser mellan verktyg måste ta hänsyn till prevalens, arbetsflöden och operativ miljö; annars blir resultaten missvisande.

Hur robust utvärdering ser ut

Högkvalitativ utvärdering kombinerar flera angreppssätt.

  • Prospektiva fallstudier i verklig miljö: Fångar bortfall av data, tvetydiga anamneser och variation.

  • Flera kliniska bedömningar: Konsensus eller blindad majoritetsbedömning ger en stabilare referens; variation mellan bedömare bör redovisas.

  • Utfallsbaserade säkerhetskontroller: Uppföljning av efterföljande händelser (försämring, akutmottagningsbesök, inläggning) för att identifiera undertriage.

  • Lämpliga mätetal: Använd ordnade, viktade och risksensitiva mått snarare än ett enda träffsäkerhetstal.

  • Prospektiva implementeringsstudier: Bedömer tillförlitlighet och patientsäkerhet i verklig användning, över populationer och vårdkontexter.

Slutsats

Utvärdering av AI-baserade triageverktyg är i grunden komplex, på grund av avsaknaden av entydig facit. Differentialdiagnoser tillför ytterligare komplexitet, och utvärderingar baserade på vinjetter eller enskilda kliniker tenderar att överskatta prestanda. Säker och kliniskt meningsfull utvärdering kräver prospektiva studier i verklig miljö, kliniskt omdöme från flera källor, utfallsbaserade säkerhetskontroller och mätetal som respekterar triagens och differentialdiagnostikens probabilistiska och ordnade natur.

Träffsäkerhet i AI-triage handlar mindre om ett enda tal och mer om en säkerhetsfilosofi som omfattar undertriage, övertriage, identifiering av varningssignaler, probabilistisk differentialdiagnostik, robusthet i indata och kontextmedveten utvärdering. Genom att anamma detta flerdimensionella ramverk kan AI-baserade triageverktyg bli säkra, tillförlitliga och kliniskt värdefulla.

Ulf Österstad, Chief Medical Officer, Visiba
Dr. Annabelle Painter, Clinical AI Strategy Lead, Visiba