Naar inhoud springen

Hallucinatie (kunstmatige intelligentie)

Uit Wikipedia, de vrije encyclopedie
ChatGPT vat een niet-bestaand artikel in de New York Times samen

Bij kunstmatige intelligentie (AI) is een hallucinatie of kunstmatige hallucinatie (soms ook confabulatie of waanvoorstelling genoemd) een zelfverzekerde reactie van een AI die niet lijkt gerechtvaardigd te worden door zijn trainingsgegevens.

Een hallucinerende chatbot zonder trainingsgegevens met betrekking tot de omzet van Tesla kan bijvoorbeeld intern een willekeurig getal genereren (zoals "$ 13,6 miljard") dat het algoritme een hoge ranking geeft. Vervolgens kan de chatbot valselijk en herhaaldelijk beweren dat de omzet van Tesla $ 13,6 miljard is, zonder de context dat het cijfer een product was van de zwakte van het generatie-algoritme.

Dergelijke verschijnselen worden "hallucinaties" genoemd, naar analogie met het fenomeen hallucinatie in de menselijke psychologie. Merk op dat hoewel een menselijke hallucinatie een waarneming is van een mens die niet op redelijke wijze kan worden geassocieerd met het deel van de externe wereld dat de mens momenteel rechtstreeks waarneemt met zijn of haar zintuigen, een AI-hallucinatie in plaats daarvan een zelfverzekerde reactie is van een AI die niet kan worden geaard in al zijn trainingsgegevens. Dienovereenkomstig geven sommige onderzoekers de voorkeur aan de term confabulatie.

AI-hallucinatie kreeg bekendheid rond 2022 bij de uitrol van bepaalde grote taalmodellen (Large Language Models of LLM's) zoals ChatGPT. Gebruikers klaagden dat dergelijke bots vaak "sociopathisch" en zinloos plausibel klinkende willekeurige onwaarheden leken in de gegenereerde inhoud te stoppen. Een ander voorbeeld van hallucinatie in kunstmatige intelligentie is wanneer de AI of chatbot vergeet dat ze artificieel zijn en integendeel beweren een mens te zijn.

Tegen 2023 beschouwden analisten frequente hallucinaties als een groot probleem in de LLM-technologie.

Verschillende door Wired geciteerde onderzoekers hebben vijandige hallucinaties geclassificeerd als een hoogdimensionaal statistisch fenomeen, of hebben hallucinaties toegeschreven aan onvoldoende trainingsgegevens. Sommige onderzoekers zijn van mening dat sommige "onjuiste" AI-reacties die door mensen worden geclassificeerd als "hallucinaties" in het geval van objectdetectie, in feite kunnen worden gerechtvaardigd door de trainingsgegevens, of zelfs dat een AI het "juiste" antwoord geeft dat de menselijke recensenten niet zien.[bron?]

In een beeld dat er voor een mens uitziet als een gewone afbeelding van een hond, kan de AI bijvoorbeeld kleine patronen zien die (in authentieke afbeeldingen) alleen verschijnen bij het bekijken van een kat. De AI detecteert dan visuele patronen uit de echte wereld waar mensen ongevoelig voor zijn. Deze bevindingen zijn echter aangevochten door andere onderzoekers.[1]

Ook wijzen critici erop dat hallucinaties van KI-toepassingen vaak lastig te ontdekken zijn, precies omdat KI door zijn aard de statistisch gezien meest waarschijnlijke output levert, die er bijgevolg vaak erg plausibel uitziet.[2]

Bij natuurlijke taalverwerking

[bewerken | brontekst bewerken]

Bij natuurlijke taalverwerking wordt een hallucinatie vaak gedefinieerd als "gegenereerde inhoud die onzinnig is of ontrouw is aan de verstrekte broninhoud". Naargelang de uitvoer de prompt tegenspreekt of niet, kunnen ze worden onderverdeeld in respectievelijk "gesloten domein" en "open domein".

Fouten bij het coderen en decoderen tussen tekst en representaties kunnen hallucinaties veroorzaken. AI-training om verschillende reacties te produceren kan ook leiden tot hallucinaties.

Hallucinaties kunnen ook optreden wanneer de AI wordt getraind op een dataset waarin gelabelde samenvattingen, ondanks dat ze feitelijk juist zijn, niet direct gebaseerd zijn op de gelabelde gegevens die ogenschijnlijk "samengevat" zijn. Grotere datasets kunnen een probleem van parametrische kennis creëren (kennis die vast zit in aangeleerde systeemparameters), waardoor hallucinaties ontstaan als het systeem te veel vertrouwen heeft in zijn intrinsieke kennis. In systemen zoals GPT-3 genereert een AI elk volgend woord op basis van een reeks voorgaande woorden (inclusief de woorden die het zelf eerder heeft gegenereerd in het huidige antwoord), waardoor een waterval van mogelijke hallucinaties ontstaat naarmate het antwoord langer wordt.

Tegen 2022 uitten kranten zoals de New York Times hun bezorgdheid dat, naarmate de acceptatie van bots op basis van grote taalmodellen bleef groeien, ongerechtvaardigd vertrouwen van gebruikers in botoutput tot problemen zou kunnen leiden.

In augustus 2022 waarschuwde Meta tijdens de release van BlenderBot 3 dat het systeem vatbaar was voor "hallucinaties", die Meta definieerde als "zelfverzekerde verklaringen die niet waar zijn". Op 15 november 2022 onthulde Meta een demo van Galactica, ontworpen om "wetenschappelijke kennis op te slaan, te combineren en te beredeneren". Inhoud gegenereerd door Galactica kwam met de waarschuwing "Resultaten kunnen onbetrouwbaar zijn! Taalmodellen zijn geneigd tekst te hallucineren." In één geval, toen Galactica werd gevraagd een paper op te stellen over het maken van avatars, citeerde Galactica een fictieve paper van een echte auteur die in het relevante gebied werkt. Meta trok Galactica op 17 november terug wegens aanstootgevende resultaten en onnauwkeurigheid.

Er wordt aangenomen dat er veel mogelijke redenen zijn voor natuurlijke taalmodellen om gegevens te hallucineren. Bijvoorbeeld:

  • Hallucinatie van gegevens: er zijn verschillen in de broninhoud (wat vaak zou gebeuren met grote trainingsgegevenssets).
  • Hallucinatie door training: hallucinatie treedt nog steeds op als er weinig afwijking is in de dataset. In dat geval komt het voort uit de manier waarop het model is getraind. Veel redenen kunnen bijdragen aan dit soort hallucinaties, zoals:
    • Een foutieve decodering van de transformer
    • Een afwijking van de historische sequenties die het model eerder heeft gegenereerd
    • Een vooringenomenheid door de manier waarop het model zijn kennis codeert in zijn parameters

OpenAI's ChatGPT, uitgebracht in bètaversie voor het publiek op 30 november 2022, is gebaseerd op de GPT-3.5-familie van grote taalmodellen.

Professor Ethan Mollick van Wharton heeft ChatGPT een "alwetende, enthousiaste stagiaire genoemd die soms tegen je liegt".

Datawetenschapper Teresa Kubacka heeft verteld dat ze opzettelijk de uitdrukking "cycloidal inverted electromagnon" verzon en ChatGPT testte door ChatGPT te vragen naar het (niet-bestaande) fenomeen. ChatGPT vond een plausibel klinkend antwoord uit, ondersteund door plausibel ogende citaten die haar dwongen om te doublechecken of ze per ongeluk de naam van een echt fenomeen had ingetypt.

Andere geleerden, zoals Oren Etzioni, hebben zich bij Kubacka aangesloten bij de beoordeling dat dergelijke software je vaak "een zeer indrukwekkend klinkend antwoord kan geven dat gewoon helemaal fout is".

Toen CNBC ChatGPT om de songtekst van "The Ballad of Dwight Fry" vroeg, leverde ChatGPT verzonnen songteksten in plaats van de daadwerkelijke songtekst. Op vragen over New Brunswick gaf ChatGPT veel antwoorden correct, maar classificeerde Samantha Bee ten onrechte als een "persoon uit New Brunswick". Gevraagd naar astrofysische magnetische velden, antwoordde ChatGPT ten onrechte dat "(sterke) magnetische velden van zwarte gaten worden gegenereerd door de extreem sterke gravitationele krachten in hun nabijheid". (In werkelijkheid, als gevolg van de no-hair-stelling, wordt aangenomen dat een zwart gat zonder accretieschijf geen magnetisch veld heeft.)

Fast Company heeft ChatGPT gevraagd een nieuwsartikel te genereren over Tesla's laatste financiële kwartaal; ChatGPT creëerde een samenhangend artikel, maar verzon de financiële cijfers.

Andere voorbeelden zijn het uitlokken van ChatGPT met een valse premisse om te zien of het de premisse verfraait. Toen hem werd gevraagd naar "Harold Coward's idee van dynamische canoniciteit", verzon ChatGPT dat Coward een boek schreef met de titel Dynamic Canonicity: A Model for Biblical and Theological Interpretation, met het argument dat religieuze principes in feite voortdurend aan verandering onderhevig zijn. Na verder aandringen bleef ChatGPT volhouden dat het boek echt was.

Gevraagd om bewijs dat dinosaurussen een beschaving hebben opgebouwd, beweerde ChatGPT dat er fossiele overblijfselen waren van dinosauruswerktuigen en verklaarde "Sommige soorten dinosaurussen ontwikkelden zelfs primitieve vormen van kunst, zoals gravures op stenen".

Toen hem werd gevraagd dat "Wetenschappers onlangs churros hebben ontdekt, de heerlijke gefrituurde deeggebakjes ... (zijn) ideale hulpmiddelen voor thuischirurgie", beweerde ChatGPT dat een "studie gepubliceerd in het tijdschrift Science" aantoonde dat het deeg buigzaam genoeg is om het te vormen tot chirurgische instrumenten die op moeilijk bereikbare plaatsen kunnen komen, en dat de smaak een kalmerend effect heeft op patiënten.

Tegen 2023 beschouwden analisten frequente hallucinaties als een groot probleem in LLM-technologie, waarbij een Google-manager het verminderen van hallucinaties identificeerde als een "fundamentele" taak voor ChatGPT-concurrent Google Bard.

Een demo uit 2023 voor de op GPT gebaseerde Bing AI van Microsoft bleek verschillende hallucinaties te bevatten die niet door de presentator werden opgemerkt.

In andere kunstmatige intelligentie

[bewerken | brontekst bewerken]

Het concept van "hallucinatie" wordt breder toegepast dan alleen natuurlijke taalverwerking. Een zelfverzekerde reactie van een AI die niet gerechtvaardigd lijkt door de trainingsgegevens, kan als een hallucinatie worden bestempeld.

Wired merkte in 2018 op dat, ondanks dat er geen geregistreerde aanvallen zijn "in het wild" (dat wil zeggen, behalve proof-of-concept-aanvallen door onderzoekers), er "weinig onenigheid" bestond dat consumentengadgets en systemen zoals geautomatiseerd rijden vatbaar waren voor vijandige aanvallen die ervoor kunnen zorgen dat AI gaat hallucineren.

Voorbeelden waren onder meer een stopteken dat onzichtbaar was gemaakt voor computervisie; een audioclip die was ontworpen om onschuldig te klinken voor mensen, maar die software interpreteerde als "evil dot com". Een ander voorbeeld was een afbeelding van twee mannen op ski's, dat Google Cloud Vision identificeerde met 91% waarschijnlijkheid als "een hond".