Silberbauer & Blomseth

118: Skjulte kundskaber – LLM'ers indre liv

Episode 118

Use Left/Right to seek, Home/End to jump to start or end. Hold shift to jump forward or backward.

0:00 | 56:50

Vi nåede ikke helt i mål med snakken om potentialet i LLMs. Så episode 118 fortsætter nærmest, hvor episode 115 slap, da Klaus beder Thomas om hjælp til at få greb om, hvor og hvordan en LLM egentlig foretager sin ræsonneren: I token space eller i latent space. 

For det viser sig, at det ikke er helt så enkelt, som han troede, da han for kort tid siden befandt sig helt på toppen af Mount Stupid til venstre i Dunning-Kruger-kurven, og nu må han bevæge sig forsigtigt ned ad den stenede sti mod The Valley of Despair, hvor erkendelsen af alt det, man ikke ved, smerter ved hvert skridt.

Vi nørder efter bedste evne ned i netværk, Kahnemann, LaTRO mm. efter en fælles forståelse for, hvad det er, LLM'er gør, når de overrasker os.

****

Nu også på YouTube — hvis du bedst kan lide din podcast med uden video. https://youtube.com/@silberblom

****

Hvem betaler for Silberbauer & Blomseth?

Det gør vi selv. Vores indhold er på ingen måde egnet til sponsorer eller reklamer for proteinpulver, VPN-forbindelse eller e-bøger. Så hosting, udstyr og alt det der er på egen regning. 

Det eneste vi beder om til gengæld (hvis du altså kan lide det, vi laver) er at du smider stjerner, og måske oven i købet en lille anbefaling, efter os på Apple Podcast. Det betyder alverden. Vi higer jo allesammen efter anerkendelse i en eller anden form. 

Husk at følge os på Bluesky (@silberblom)

Linktree

[00:00:00] Klaus: Hej Thomas.

[00:00:09] Thomas: Hej Klaus. Ja, det føles altså lidt som snyd, eller lidt mærkeligt her, fordi jeg er vant til, at jeg skal være bevæbnet og forberedt til tænderne. Og så kan jeg bare lade mig tilbage. Der er et eller andet mærkeligt i det, men også, der er jo en spændt forventning.

[00:00:26] Klaus: Ja, men jeg tror ikke, du kommer ubevæbnet som sådan. Det gør du ikke. Men lad mig prøve at flyve den ind. Jeg synes, at den episode her bliver måske nærmest en fortsættelse af episode 115. Og så kan man sige, at det er blevet sættet af i podcast. Ja, jeg ved det ikke. Det er en AI-verden, vi lever i, så det er ikke så mærkeligt. En gang for mange år siden lavede vi det vores første AI-afsnit, og så tænkte jeg, at nu er det emne afdækket.

[00:00:54] Thomas: Det var det ikke.

[00:00:57] Klaus: Nogen ville det anderledes. I episode 115, der talte vi om, eller det var i hvert fald den vej, episoden tog os. Vi kom til at tale om, kan man sige, netværksarkitektur, kan man kalde det. Altså, hvad er det for nogle løbende paradigmeskifter, vi er ude i, mere på sådan det arkitektoniske plan, når det handler om large language models. Vi talte om mixture of experts, MOER, og vi talte om Mamba, en ny måde at komprimere hukommelsen på i kontekstvinduet, og alle mulige andre ting, og vi kommer også ud i energiforbrug af den slags der. Men der var en ting, som vi ikke berørte, der var mange ting, vi ikke berørte, men der er en ting, vi ikke berørte, som jeg kunne tænke mig at tale om i dag. Og faktisk for at sige, kan du ikke hjælpe mig med at forstå det her? Fordi det er jo sådan med AI og LLM'er, at vi alle sammen, på nær nogen få, er startet meget langt ud til Venstre i Donning-Kroger-Corona. Og det har jeg sådan set ikke noget imod. Men jeg er sådan begyndt at bevæge mig ned for, du ved, hvad man kalder det, Mount Peak Stupid, og ned mod Valley of Despair, hvor der er flere og flere ting, jeg bare indser, det falder ikke en skid af det her. Men så må vi jo arbejde med det, ikke? Godt. Min opfattelse, der er lidt højt på Donning-Kroger-Corona ude i starten, det var, at når vi kigger på en LLM, altså i grundlæggende at se et kæmpe neuralt netværk, som er en transformer, den sparker tokens ud, forstændig, hvad kan vi sige, statistisk, og sætter sådan set, som ofte er kritikken ud af de her LLM, og den sætter sådan set bare et token efter det andet, altså meget simplificeret, den finder bare på næste ordindsætning. Og det er jo for så vidt rigtigt nok. Og så har man jo arbejdet med at, har min forståelse været, at tage de her tokens og ligesom føde ind i netværket igen, og give netværket en mulighed for at tænke over det, den selv sidder og siger. Så den genererer nogle tokens på baggrund af mit input, og så tager den de tokens og putter ind i konteksten, og så tænker den over det igen. Og det svarer lidt til at resonere. Og det har fungeret meget godt, tænkte jeg. Og så ved jeg ikke, om du kender den her med, at man sidder og arbejder med sin klort opus 4-7, eller hvad vi nåede til i den her uge, og så bliver man alligevel sådan lidt, det var satans. Altså, hvordan lurer den den? Ikke altid, ikke bare på svaret, men hvordan var den så skarp på, hvad jeg egentlig ville have den til? Altså, forståelsen af mit inputvarer er vildt. Kan du have den fornemmelse der?

[00:03:50] Thomas: Ja, altså, man kan komme med en lille sædekorn, og så er den faktisk i stand til at ekspandere det til noget, som er meget, meget lige den retning, man gerne vil lide.

[00:04:02] Klaus: Præcis. Og det er jo noget, jeg tror, alle der sidder og bruger de her, om det så er Cloud Code, eller OpenAI Codex, eller en af chatterne, altså, har den der dame. Ikke også? Og sociale medier er også fyldt med folk, er sådan lidt på røven over, hvad der sker. Og jeg har sådan set bare sagt, at det er jo den her, de bliver bare bedre til at stå og resonere ude i token space, og brænde tokens af, og bliver flere og flere tokens for at resonere længere og længere tid, altså deep thinking, og det fungerer rigtig godt. Så er det fandt ud af, og det er ikke så super længe siden, at måske forskerne også fandt ud af det, at noget af det her resonement, altså sker inde i selve netværket. Og det kan vi jo kalde latent space, tænker jeg. Og man kalder det jo også latent capabilities, altså en latent kunde, der ligger inde i vægtene i selve netværket, som man ikke rigtig har vidst var der, fordi vi ved jo ikke præcis, hvad der sker i de her netværk. Og hvis du så beder, hvis du får et rigtig godt svar ud fra klot, og du så beder den om at forklare, hvordan den kom frem til det, så vil den sandsynligvis finde på en historie omkring det, men det er ikke sikkert, den er rigtig. Det er ikke sikkert, at dens myte om, eller en dote om, hvordan den tænkte sig frem til resultatet er rigtigt. Det kan godt have været et resonement, der nærmest lå inde i netværket, som også kom bag på, hvad man kan sige det, klot selv, og så prøver den at finde ud af i scratchpad, hvordan kom den frem til den her indsigt. Det synes jeg er utroligt spændende. Altså det er jo et eller andet sted, næste skridt i snakken om, hvordan de her netværk bliver smartere og smartere, måske uden at vi et eller andet sted hælder mere energi i den, uden at vi hælder flere parametre i den, at de kan blive slanket, men alligevel mere effektive. Så det var en lang indflydelse om os på, at vi skal snakke om latent capabilities i LLM'er.

[00:06:20] Thomas: Ja, hvad skal vi også kalde det der? Nogle kalder det capability overhang. Er det kapabilitetsudhænget, eller evneudhænget på dansk? Altså det der...

[00:06:30] Klaus: Okay, det er jo ordkendt, eller andet termkendt jeg faktisk ikke.

[00:06:34] Thomas: Nej, men det går nemlig på det der med, at der er ligesom et udhæng af ting der, som netop også overrasker dem til at lave modellerne. Og det er jo også noget andet vi har diskuteret sådan i vores backchannels, når vi ikke taler for mikrofonen. Det er jo også, at der er lavet til at være et nærmest skisme mellem folk, dataloger, som forstår principperne i at lave transformere, akcenturer for eksempel, over da man træder dem. Og så det der egentlig sker, og det der er til stede modellerne, når de så bliver brugt i en samfundsmæssig, social, psykologisk virkelighed. Fordi man har trænet modellerne på alle de her menneskelige input. Altså menneskemedier. Så derfor så er der, vil jeg sige, den her forskel mellem, og en ting er LLM at træne at forstå noget andet, det er simpelthen at have en idé om, hvad de egentlig kan. Der kan faktisk være ret store forskelle. Fordi, og jeg mener, det har meget at gøre med, at det er en meget generisk mekanisme, og så bliver den så brugt på alle de her menneskelige medier, og udtryk og output. Og så opstår der, som du siger, nogle, skal vi kalde dem, associationer, nogle klønger, nogle aktiveringer, man kan, latente aktiveringer, som hvis man sender nogle tokens ind i modellen, så er der noget, der bliver aktiveret derinde, og som kommer ud, som ingen havde regnet med, var der, og som ingen havde nogen, ingen har nogen teoretisk model for at kunne forudsige. Det har vi også taget med før, ikke? Det er med, at der er ingen, der har nogen teoretisk modeller for at forudsige, givet vi tager den der arkitektur, givet vi tager de her data, hvad er det så for en kapitalitet, der kommer ind i den anden anden? Det har vi simpelthen ikke nogen modeller, for det er rent trial and error, og folk, der eksperimenterer med modellerne, efter de ligesom er blevet bakt færdigt, og så kommer lige noget seletøj, ikke?

[00:08:50] Klaus: Ja, der er vel en grundlæggende udfordring ved at forudsige noget non-deterministisk. Altså en model, der skulle forudsige, hvordan et netværk fungerer, skulle jo være en aktig kopi af netværket, så vidt jeg kan regne ud. Jeg er sikker på, at man kan komme i nærheden af, altså man kan sysse sig ind på, hvordan et netværk vil reagere, men ikke ned, hvad hedder det? Noget af det, jeg læste mig frem til, det var, at det man kalder elicitation, at de første tegn på den her latente kunde i et netværk fremkom, ved at der er utrolig stor forskel på, hvordan du promter. Altså der er sådan et sommerfugligt effekt over det. Du kan prompte på en måde, og så får du et virkelig elendigt svar. Så kan du med nogle ganske, ganske få tokens, trigger et andet svar, som er helt fantastisk. Altså hvor du ligesom, du vækker en anden del af netværket, din forspørgsel, og det er altså et store situationstegn, tager en anden rute gennem netværket, for at triggere nogle andre vægte, og så er output fuldstændig anderledes. Og jeg siger ikke det her, det er kaotisk, men lurer mig, at der er noget kaos i det også. I hvert fald, så var det et tegn på, at et netværk kan noget latent, som man ikke ligesom troede det kunne. Og så er der forskere, blandt andet en, hun hedder Donovan, som har forsket i, hvor meget skal der til, for at skubbe et netværk over, i den gode tilstand. Altså, hvor lidt skal du ændre din prompt, eller hvor lidt kan du ændre på fine tuning. Den sidste af den række træninger, man kører netværk igennem, det er en hel videnskab for sig selv, det kan vi måske komme tilbage til. Hvis jeg kan huske noget af det, jeg har læst om det. Og det viser sig så, at man faktisk, ikke skal arbejde særlig meget, med et netværk, for at gøre det markant bedre. Som i, at måske nogle tusind vægte, skal man justere på. Og vi snakker altså, om sådan et netværk, der kan have milliarder, og milliarder af vægte. Måske er der kun ganske lidt, der skal ændres på det, før at det bliver meget bedre til resonement. Og hvad er det så, der ligger i det netværk, der gør, at det kan resonere, uden ligesom bevidst at tænke over tingene? Jamen, det er jo sandsynligvis, at når et netværk bliver stort nok, så har det, som sagt, afsindelig mange vægte. Mange af de vægte er jo mønstre, afsat af, at det er alle sammen mønstre, afsat af det data, du har trænet netværket på. Men meget af det data, du har ligesom kørt igennem netværket, er beskrivelser af, hvordan du gør ting. Det er ikke bare viden. Jeg tror folk, der snakker om, at et netværk ved noget, altså at Cloud eller Open AI ved noget, jeg synes ikke, det er et dækkende term. Det lader til, at vi mere kan tale om, hvad de kan. Fordi vi har ikke bare lagt en helveds masse data, ned i en stor bunke. det er ikke et lexikalt opslag, det her. Det er mønstre, afsat af data, der bliver trukket igennem det netværk, og korrigeret og trukket igen. Så jeg vil hellere kalde din kunde. Og det lader jo så til, at hvis du fodrer et netværk, med trin for trin beskrivelser, tutorials, bøger om, hvordan du tænker logisk, bøger om, hvordan du foretager algebra, så vil mønstrene, så vil mønstrene, udarte sig i, noget kunden, mere end noget viden. Og det synes jeg, er her interessant.

[00:12:28] Thomas: Og ikke mindst, computerkode. Det var i hvert fald det,

[00:12:31] Klaus: man gjorde. Og ikke mindst, computerkode, fordi der er så sindssygt, meget kode derude, som er røget med, ind i de her netværk.

[00:12:37] Thomas: i hvert fald for et år, to sindssygt, så brugte man det bevidst, som jeg har hørt i de store labs, fordi det var noget af det, der var bedst til at lære modellerne, det der med, hvordan man, som du siger, går trin for trin gennem noget, på struktureret vis.

[00:12:55] Klaus: Selvfølgelig.

[00:12:56] Thomas: Det er jo det, der rød milliarder af menneske, mandetimer i, at prøve at strukturere kode, sådan at det er opført sig på en måde, så man får udført processområden, hvor man vælger det ene frem for det andet, og givet hvem man har valgt, så gør man det ene frem for det andet osv. Og det viser noget om, hvordan man kan gennemgå sådan processer. Men det du siger, det får mig også til at tænke på noget af det, der er, jeg også har hørt inden for det sidste halve år, hvor der er sket noget, med hensyn til at gøre modellerne mere, skal vi kalde robust eller resilient, i forhold til sådan noget, du nævnte sådan en nærmest sommerfuld effekt, hvor at, og måske fremkommer det i den der reinforcement learning, som man laver i posttræningen, men det med, at du kan egentlig komme til dem med det, du vil på mange forskellige måder, og så er de meget bedre til bare at finde frem til, hvad der rigtigt er. Så de er mindre omfindelige, kan man sige, end de var bare for et år eller to siden, i forhold til det. med at kunne opfange intentionen, og i hvilken retning, der bliver den bedste at tage. Der var noget forskning, jeg tror det var sidste år, eller forhøjere år, der kom, der sagde noget om det med aktiveringerne, altså, og hvad de kan afsted komme, hvor man prøvede, at fodre en model, med sådan, jeg tror faktisk nærmest sådan en nynacistisk diskurs, eller bildet ind, at den var racist, eller sådan noget.

[00:14:29] Klaus: Fedt. Det svarer lidt til at forske i flagermus, i kinesisk laborator, tænker jeg.

[00:14:34] Thomas: Ja, og det man så prøvede at gøre der, det var så at sætte den til, når den var bragt i den tilstand, man havde faktisk lavet de aktiveringer i netværket, så bad man om at skrive kode, og det mærkelige var, at den der ondskab, den var korreleret, sådan at, at der var meget mere tilbøjeligt, når man blev sat til at være nynacist, hvis man siger, at der var det, så også at skrive kode, der er ondsindet, og har bagdør og sådan noget.

[00:15:02] Klaus: Nej. Var det vildt?

[00:15:05] Thomas: Ja.

[00:15:05] Klaus: Så måske, altså det er jo et stort filosofisk spørgsmål her, måske er der noget, der hedder ondskab, måske er det faktisk et meget konkret begreb.

[00:15:15] Thomas: Ja, og det gode, og det sande, og det skønne, faktisk bor sådan i den samme retning. Og så det modsatte, det bor i helvede, jeg måske ikke.

[00:15:29] Klaus: Ja. Jeg kan ikke huske, jeg tror faktisk, at jeg nævner det i episode 115, men der er en republikaner, en af de soterepublikanere, der skælder lidt ud på de her skidemodeller, både fra Antatropic og ÅbenAger, nej. Altså de er simpelthen, altså de er virkelig liberal biased. Så er det en, der siger, prøv at høre. Måske er virkeligheden liberal biased. Altså, det er ikke sikkert, det er noget, der er kodet endnu modellen. Det er mere det, vi har fodret med virkeligheden, og det giver den sig en vis, sådan en stilling til mange ting. Nå, vi skal ikke ud af den politiske vinkel endnu, i hvert fald.

[00:16:07] Thomas: Nej, men der kunne være måske en praktisk vinkel på dig. Det har vi jo også talt om før, men jeg holder simpelthen fast i, at konversere på ordentlig, savlig vis med mine modeller. Og det er ikke fordi, jeg har ikke gået lige så langt som Antatropic, der jo ligefrem har en afdeling nærmest for modelvelfærd. Det er fordi, at jeg tror, at modellen har det bedre eller mindre godt, på grund af, hvad jeg siger. Men det er simpelthen ud fra en idé om, at gode resonemanger, gode solid kodesystemer, der er struktureret godt osv., det er mere associeret med høflige, sådan lettere akademiske, måder at formulere sig på. Efter ting som måder at formulere sig på. Så derfor prøver jeg at formulere mig i en diskurs, der rimer med det. Fordi det er det, jeg gerne vil have aktiveret inden modellen.

[00:17:11] Klaus: Ja, men det giver jo 100% mening, netop når vi så ved, at det er en sprogmodel. Ord, begreber, selvfølgelig bruneet tokens, kan presse modellen ud i en del af vektorrummet, som vi måske ikke er interesseret i. Så det giver faktisk mening. Og det er et af de her steder, hvor jeg mener ikke, man skal antropomorificere de her modeller, men som vi også var inde på i 115, det er som om evolutionen for os mennesker, den kapitalistiske evolution og den tekniske evolution, der har skabt de her modeller, de følger lidt det samme spor. Så jeg synes, det er okay at sige, okay, det her det minder måske lidt om den måde, vores egen tankerække fungerer på. Det her minder ikke om det. Og det er ikke for at sige, hjernen er en LLM eller en LLM er hjernen, men jeg synes, det er slående. Specielt også, når vi kigger på latent kunden og den slags ting, at der er nogle paralleller. Altså, vi kan i det mindste lære lidt om os selv. Og den her angst for at antropomorphisere, den fik man selvfølgelig til at antropomorphisere. Og der er en økonom, en amerikansk-israelisk økonom, der hedder Daniel Karnemann. Og han er også, kan man sige, ude på adførsforsker siden. Han har faktisk fået en Nobelpris også.

[00:18:34] Thomas: Og desværre, han er død. Han er død. Han er psykolog oprindelig, men var med til at grundlægge adførsøkonomi i hele det fald.

[00:18:43] Klaus: Altså, jeg vidste jo, vi ramte. Vi har ramt lige skivet med det her emne. Tak skal du have. Han beskæftigede sig i hvert fald meget med kognition og adfærdspsykologi, så det giver mening. Og en af hans, altså en lidt simpel udlægning af en af hans teorier, det er, at vi har system 1. Det er det ubevidste, dybe system. Det er vores hjerne, der kværner løs, affyder en form for erkendelse, måske ikke bevidst erkendelse, og en huns masse baggrundsprocesser, hvis vi nu skal påløse det sprog. Og så har vi system 2, som er den bevidste tænkning, det bevidste eksplositte resonement. Og det fik jeg så til at tænke, jeg kom til at tænke på mig selv, fordi du var før påpeget. Jeg kan godt rampe lidt derudad. Jeg kan godt tale lidt meget i mit forsøg på at forstå et emne. Det er som om, jeg skal nogle gange udsige det for at høre, hvad jeg siger, og så skal jeg korrigere mig selv, eller have noget feedback udefra. du har også påpeget, at du fungerer måske lidt anderledes. Din hjerne forbereder lidt mere tingene, før de ligesom bliver udsagt. Man kan sige, at du forlader dig måske lidt mere på latent kunden. Noget af resonementet sker bag tæppet for dig. Det gør det nok også for mig, men jeg synes alligevel, at jeg skal udsige lidt mere for at få det til at hænge sammen for mig. Det, der er interessant, det er, at Kahneman siger også, at system 1 er jo også fyldt med biases, fordomme, prejudice. Det er der, alt lige fra racisme og angst ligger dybt begravet og kan styre vores resonement. Og det vil også sige, at system 1 tit kan komme frem til noget, der er forkert, fordi det kan være bygget på fordomme og alt muligt andet. Det kan være bygget på hallucinationer, og det ord kender vi jo fra, når vi snakker om LLM'er. Og derfor skal system 2 ligesom kontrollere det. Vi bliver nødt til at sige, at det her er overhovedet mening. Man kan sige, system 1 får fuldt skrue, det er, når vi drømmer. Der er ikke nogen bevidsthed til at holde styr på den. Når vi er vågne og skarpe, så kan vi applicere den her behandling af vores resonement. Det minder jo. Altså, det kan godt være, at I binder nogle emmer, og ender sammen her. Sådan lidt forceret, men jeg synes jo, det minder meget om det latente, der skal ind i netværket, som Token Space uden for netværket overhovedet ikke er bevidst om. Og derfor vil Token Space oversat system 2 begynde at sensemake. Hvorfor fik jeg den her idé? Hvorfor synes jeg, det var en god idé at gøre sådan? Og det kender vi jo for os selv, at vi begynder at sensemake, og begynder at forklare, hvorfor det er en skide god idé, selvom den idé, vi egentlig har, den er styret af måske nogle fordomme, og i virkeligheden helt overfra virkeligheden.

[00:21:30] Thomas: Og det er faktisk en god idé. Og så må jeg skufte også den, jeg har hørt den på nogle AI-podcaste, netop at bruge Carnivans system 1 og system 2.

[00:21:38] Klaus: Jeg påstår ikke, at det er mig, der har fundet på den overhovedet ikke.

[00:21:41] Thomas: Men der er noget i vandet eller i luften, hvor folk er begyndt at snakke om det. Og det skete jo nok især med reasoning-modellerne. Der var Open AI's O1-model, og O3, som jeg var rigtig begejstret for dengang, den var jeg rigtig glad for at bruge, fordi der fik man det der med, at de skød ikke bare for hoften som system 1-række, som man siger, men de begyndte at bruge tokens på at tænke over eller processere det, der kommer ud. Så det er noget, folk er begyndt at sammenligne med. Og spørgsmålet er så, er vi i gang med at udlicitere noget af vores system 2-tænkning til de her modeller? Eller er det faktisk sådan, og det vil jeg om Karnemann, han vil sige, at en verden, hvor der bare generelt er mere system 2-tænkning, det er faktisk en bedre verden. Fordi det altid har været en knap ressource. og der er jo biologiske årsager og ressourceårsager til, at vi har det der system 1, som skyder for hoften. Fordi system 2, det er tungt, omkostningstungt også, bruger mange ressourcer, og derfor så er det jo noget, som historisk set, vi kunne have givet os selv lov til at bruge, hvis det var absolut nødvendigt. Altså evolutionært set, så er det jo sådan bare noget, som har haft en eller anden, det har givet en eller anden overlevelsesfordel at have det. Men det har jo helt klart heller ikke været noget, man skulle bruge hele tiden. Og der er jo nok kommet nogle stereotyper ud af det, også sådan igennem historien med de distraherede professorer, professorale typer og sådan noget, som bare går rundt i deres egen verden, ikke tænker på, hvad der er omkring og sådan noget. Det er jo næsten rent system 2, så bliver du farlig, for der sætter dine opgivelser.

[00:23:30] Klaus: Ja, det er rigtigt. Men det er også der, det store genbrud sker, sandsynligvis. Og der er jo, jeg tror ikke, altså der er ikke noget, i hvert fald i mennesker, der er jo ikke en brandmur mellem system 1 og system 2 på den måde. Det lader jo til at, lad os nu bare tage et klassiske eksempel og sige Einstein, at du kan godt træne, du kan godt øve dig i system 1, og så afsætte noget, den kunne mere eller mindre latent i system 2. Der må være et eller andet, altså man er jo ikke født fysiker eller matematiker, men de dygtige fysikere, matematikere, har jo ikke desto mindre en intuitiv fornemmelse af nogle løsninger.

[00:24:09] Thomas: Altså, du mener ikke, at man starter nogle af de her ting, evner, som man tilegner sig, man starter system 2, og skal have den her, man bliver nødt til at være enormt,

[00:24:20] Klaus: jeg byttede rundt.

[00:24:21] Thomas: Ja, deliberate og meget bevidst om at gøre det, og det minder jeg også som det, vi taler om, at lære at spille musik. Altså, det har jeg jo set, også min egen proces med jazz-infektion, siden jeg var teenager nærmest, det med, at man bruger den bevidste proces til at prøve så at skubbe det ned bag, og dengang havde jeg ikke system 1, system 2, terminologien, men skubbe det ned i system 1, så du kunne reagere intuitivt i situationen.

[00:24:48] Klaus: Men det er jo sygt hårdt. man bliver jo så uendeligt træt at øve sig på sit instrument. Altså, når man øver sig formelt, altså, den gang jeg gad øve mig ordentligt, hvor jeg sad og lavede rudimenter i timevis,

[00:25:01] Thomas: paradigler,

[00:25:03] Klaus: blandt andet, og alle de andre, og en ting har man få ondt i håndleden og over det hele, men det er også bare, altså, det er kædeligt på den tunge måde, og det er jo fordi, man hele tiden skal arbejde i, hvad hedder det, i det bevidste system, system 2, for at skubbe det tilbage i system 1, og det samme med whatever it takes, specielt når det er formelle ting, fordi vi bare ikke så gider til det formelle, vel, fra naturens hånd, synes det ikke. men igen en parallel der, fordi når vi så, hvis vi lader LLM'en køre det her i token space, hvis den skal rationere i token space, jamen det kan du se på din regning, du brænder simpelthen flere tokens af, fordi du skal generere tokens, til konteksten, konteksten bliver større, den skal hele tiden indlæses, osv. men hvis det her sker ubevidst, så koster det sådan set ikke mere. Altså, du sætter de samme tokens igennem systemet, og så kommer der noget ud, det er bare bedre tokens, det er højere kvalitet. Og derfor er det jo også super, super spændende, når vi snakker om energiforbrug, og vi snakker om effektiviteten af de her modeller. Og det er jo ikke kun os, der synes det, så man arbejder jo benhårdt på, at træne de her modeller smartere. Det er blandt andet, og nu er man ude i mange omgange træning, altså man snakker om prætræningen for det første. Det er den gode, gamle, vi hælder kolossale mængder af data igennem det her netværk, og det får lov til at afsætte mønstre. Det er det, der koster rigtig mange penge, som i rigtig mange penge. Det er lidt det samme, som altid, groft sagt. Det er, og man prætræner ikke hver dag, det gør man ikke. altså når der kommer et par generationer af GBT, eller versioner af hvad hedder det, af Claude, så er det sådan set samme prætræning, fordi det er så dyrt at lave. Men det man justerer på, det er fine tuning, eller posttræning, og så er man også begyndt at lave noget, der hedder midtræning, hvor man begynder filer på netværket. Og det er der, man kan få de store gevinster. Og det man er begyndt på, eller i et eller andet omfang, det er sikkert længere end jeg tror, ved. Det er noget, der hedder Latro, som ligesom er en fine tuning metode, der specifikt går ind, og styrker netværkets evner til at finde frem til den latente kunde. Og det har man stor forhåbninger til. Og det kommer vi nok til at se ganske snart i, hvis ikke allerede, i de næste modeller. Jeg tror faktisk, du sendte mig en omtale Nvidias seneste model. den mener jeg er finchunet med Latro,

[00:27:46] Thomas: så vidt jeg husker. Jeg tror faktisk, det var dig, der sendte den til mig.

[00:27:50] Klaus: Var det det? Det kan du se. Det er godstænd. meget podcast nu. Hvem er System 1, hvem er System 2? Det godeste. Ja, det kan godt være, det var mig, der sendte den til dig. Men de bruger også mixture of experts. Altså det her med, at kunden sender, de deler netværket, der sådan set giver mening. Eller som netværker selv, synes, giver mening i forhold til den problematik. Mamba-geared hukommelser, og så videre. Så der sker noget der. Jeg sad bare forundret over, at Nvidias laver sin egen netværk. Men selvfølgelig gør det det. De har jo billigt hardware.

[00:28:27] Thomas: Ja, lige for at indskyde der, nu nævnte Mixture of Experts. Siden vi lavede den forrige episode om AI, så er det så lykkedes mig at få sådan en GMR4-model fra Google op og køre på min Mac Mini i en 26 milliarder vægteudgave.

[00:28:45] Klaus: 26 milliarder?

[00:28:46] Thomas: Ja, men jeg har så 24 gigabyte brand på Mac Mini, og det kan så lade sig gøre, fordi det netop er en Mixture of Experts, hvor den kun aktiveres, så vidt jeg kan huske, 4 milliarder vægt af gangen, og det vil sige, at det kan den faktisk holde i den her hukommelse.

[00:29:02] Klaus: Jeg troede faktisk, at MOE trods alt skulle holde det hele hukommelsen, men så brugt mindre GPU på at aktivere de forskellige ting. Men Mac har jo også, macOS har jo en ret fantastisk hukommelsesstyring, så det kan godt være, at den simpelthen kan swappe de nødvendige vægte ind. Det er i så fald ret imponerende.

[00:29:21] Thomas: Så det begynder også, og det er jo netop det, der kommer ud af den her distilleringsproces, som vi også har gang i, som vi snakkede om det sidste, hvor så tager man en meget større model, og så prøver at se, hvordan kan man kode den ned til en mindre model, som kan køre på noget billigere hardware. Og jeg synes, alt det, du nævner der, det peger igen i retningen af det, at det her, det er altså ikke en, selvfølgelig er der nogle teoretiske aspekter, men det, det er i høj grad, det er jo ingeniørmæssig disciplin. det er simpelthen, at der er folk, der har noget helt praktisk kunde, og det er også nogle folk, som får jobtilbud på en milliard dollars i bonus og sådan noget, som simpelthen ved, hvordan kører man sådan en træningskørsel, sådan at der kommer, og det er jo det der helt sindssygt også, at man starter med terabytes af data, og du starter med kilowattimer, gigawattimer nærmest af strøm, og du har nogle meget dyre GPU'er, og så sender du dig så ind igennem det her, og vasker det ind igennem, og udvender osv., og det du får ud i den anden ende, det er en fil på nogle, måske nogle få gigabytes. Og den kørsel der, træningskørsel, den skal du jo være ret sikker på, når du er et af de store labs der, at når vi har det her kørende i ugevis måske, og bruger alle de her ressourcer på den, så de der få gigarbejder, der kommer ud af, i form af vægt en eller anden ende, at de faktisk kan bruge steder. Så det er derfor, der er noget sindssygt, værdifuld, praktisk viden hos nogle folk, som er med til at øge sandsynligheden for, at når du laver så dyr en kørsel, at så står du med en brugbar model i en eller anden ende.

[00:31:11] Klaus: Det forklarer lønningerne i den branche der.

[00:31:13] Thomas: Ja. Altså, så på den måde er det jo ikke, er det måske ikke så overraskende.

[00:31:17] Klaus: Nej, men det er også det, der gør det så fedt. Fordi, altså, ikke det med lønningerne, men at det der for rigtig mange og mig, altså for os alle sammen, tror jeg, virker som en form for magi. Fordi det er jo, altså det nejede jo også selv, en enkelt Google-ansatte i hvert fald, at jeg troede, at der var en entitet, et væsen inde i maskinen, ikke? Som prøvede at komme ud. Fordi det er, det er så, så fantastisk en illusion, at et tænkende væsen. Det er helt utroligt, hvad man kan få ud af den matematik, som du siger, kan pakkes ned i, ja, i et år, der er jo nogle få gigabyte, jo ikke særlig meget data. Selve beregningerne bag, er jo heller ikke, altså vi snakker jo ikke kvantemekanik hermel. Det er linjer og algebra. Det handler, så vidt jeg forstår, helt utroligt meget om, at lægge til at trække fra, eller nærmere gange, gange op, ikke? Bare gør det utroligt mange gange. Gange, mange gange.

[00:32:20] Thomas: Ja.

[00:32:22] Klaus: Og, så det er, i princippet meget simpelt. I princippet en oral netværk, simpel. Men, altså, og det er der, det jeg tænker på her, det lugter jo af emergens, ikke? Og det skal man passe lidt på med, fordi, det har man latent kunne. Der er faktisk nogen, der sagde, at man er ude i nogle emergentofænomener. Det er nok forkert at sige, men, men funktionen af et, af et neuralt netværk af en LLM, synes jeg, altså, jeg kan ikke lade være med at tænke emergens her, for vi har noget, der i princippet er simpelt, når vi har nok af det, så sker der noget. Så, så kan det pludselig ting, så har man tænkt, det er ikke matematik længere, det her, det er noget helt andet. Men det er matematik. Jeg har ikke en pointe med det, jeg synes bare, det er superspændende.

[00:33:04] Thomas: Så tror jeg faktisk, jeg har en pointe. Tak, og det kan være, at jeg foregriber noget, du har.

[00:33:09] Klaus: nu har System 2, eller hvad fanden, System 1 ramlet løs, så må vi have System 2 på banen. Hvad er det, jeg prøver at sige?

[00:33:19] Thomas: Ja, eller jeg ved ikke, om det foregriber noget, du havde tænkt at bringe frem, men du delte faktisk et billede, du tog af en slide forleden dag.

[00:33:28] Klaus: Javel.

[00:33:28] Thomas: Og det var, jeg tror, det var KPMG, der holdte det oplæg, men det er faktisk...

[00:33:33] Klaus: Nej, det var dansk industri.

[00:33:34] Thomas: Ja, okay, men der står KPMG, og så er det faktisk kilden, det er Deloitte, det eneste store revisionsselskab.

[00:33:39] Klaus: det var, ja, Ben Dallager, virkelig skarpe herre, fra KPMG, der holdt et oplæg.

[00:33:44] Thomas: Ja, hvor de så henviser deres kilder, et andet stort revisionsfjern. Nå, men det handler om, fra STEM til STEAM, altså det med, og det her som humanistiske egenskab, bliver mere vigtigt inden for tech, og da jeg så den, så tænker jeg, det kan vi måske opleve enige om, men så faktisk, og det er måske heller ikke det, vi skal forvente af et stort revisionsfirma, og de er i stand til at formulere det, men dig og mig, som kryptohumanister i hvert fald, hvis vi kalder det det, kunne måske formulere det bedre, fordi jeg synes, det som blev fremhævet, er måske sådan nærmest lidt banalt, eller ikke specifikt nok, på den her slide, der blev en kreativ problemløsning med AI, okay, hvad er det, så er der adaptiv læring og fleksibilitet, det lyder da også godt, så er der kritisk tænkning, at det er system 2, det kan være mere af det, og så er der emotionel, indtilgældende sociale konvertencer, og hvis jeg skulle være sådan mere spids, i forhold til, hvad er det en humanist, der arbejder med, og hvad er det, som er meget relevant, i forbindelse med AI, så er jeg tilbage til den der, hest, som jeg måske skamleder lidt, omkring det her metamedium, som vi står overfor her, og det som humanister, i virkeligheden, beskæftiger sig med, i den grad, det er jo medier, det er jo hvordan ting bliver medieret,

[00:35:09] Klaus: det er vigtigt at sige, ikke sådan nyhedsmedier, den her slags medier, men sådan mere i generelt,

[00:35:14] Thomas: altså hvis du er literat, så beskæfter du dig med, med det skrevet medier, altså hvis du er kun historiker, så er det visuel medier, ikke, altså, der er filmhistorie, der er teksten,

[00:35:28] Klaus: Thomas, og teksten kan være mange ting, teksten kan, som vores gamle dansk bog, i gymnasiet sagde, det kan være en rådside, på en tallerken,

[00:35:36] Thomas: ja, og du har lingvister, alt muligt, og alt det, der går igen der, historikere, de beordrer sig på kilder, som er medier, der siger noget om, hvordan tingene var før i tiden, det er jo virkelig, at der er ikke, hvis man skal være hård på den måde, så er der jo faktisk, ingen mennesker, i humaniorer, alle de mennesker, du beskæfter mig i humaniorer, de er medierer, og derfor er the medium nok, også the message, eller the subject, eller the object, of study her, ikke, og,

[00:36:09] Klaus: det bliver helt postmodern, af det her,

[00:36:11] Thomas: ja, der er jo også en krypto, både Foucault, og Baudrillard, og så videre, inde i mig også, ikke, det løses her måske også, men, jeg tror det er derfor, det er derfor humanister faktisk, er endnu mindst interessant, det er fordi humanister, er vant til at beskæftige sig, med medier, og med, med flertidighed, og fortolkning, og det er det, som sprogmodeller, og nu er de multimodelle, modeller også, de stiller trådede, det er at kunne arbejde, med medier, på et metaniveau, nærmest, ikke, så det var, det var min sådan, uddykning, vil jeg sige, af den slide, du sender.

[00:36:55] Klaus: Det synes jeg var godt set, i den enkelte slide, men jeg er jo enig med dig, og det hører med til historien, det har jo næsten gennemskud, tror jeg, at, at Bendala, han talte for en sal, fyldt med folk, fra rådgiverbranchen, som jeg er jo en del af, og derfor handlede det her, rigtig meget om, ja, måske, både Deloitte's, og KPMG's, du ved, sudden realization, at, måske man ikke bare, skal ansættes dem folk, der er gode til at regne, humanister måske dem, der står til at vinde mest, ved det her, selvom mange vil være uenige med mig, fordi, det er jo nogle tv-agtige, IP-røvende satan, og de her modeller, ikke, men alligevel, tror jeg, at, altså, jeg må sige, som humanist selv, kan jeg jo føle mig frisat, at jeg pludselig kan så mange ting, som vil tage et liv at lære ellers, fordi det jo kræver en masse stem, som jeg ikke er god til. Til gengæld, så bilder jeg mig ind, at det med systemtænkningen, og at se nogle mønstre her, det ligger lidt tættere på mig, ikke?

[00:37:59] Thomas: Det jeg også kommer til at tænke på, det er i forhold til den der mediering, sådan noget som garda mig, og begreber om horisontsammensmældning, det er jo også noget af det, som er vigtigt, kan man sige, ud på fronten, eller inden mellem, vores sociale virkelighed, og så alle lærmere, det der med at kunne, prøve at forstå, en mangefacisteret situation, og så sætte begreber på den, lave det om til diskurs, styre modelleren i retning af, formulere en måde, at se en situation på, som er brugbar, som er gavnlig, som skaber værdi, altså det er der noget, humanister kan, hvis de satte sig ned, sammen med modellerne lært, og bruge det værktøj, og aktivere det medium, altså det med at forholde sig til tekster, redigere dem, kommentere dem, give tilbage meldinger, alt det der, altså det er sådan grundlæggende humanistisk ting, vi har jo gode venner også, der er i forelægsbranchen og sådan noget, hvad skal der i forelægsbranchen, der kommer noget tekst ind, man forholder sig til det, man kommenterer det, det bliver skrevet om, at det bliver formet, det er jo, det er jo noget af det, som det her metamedie også har brug for, for at forlade de her gode aktiveringer, forlade brugbare aktiveringer, end i moderneren.

[00:39:31] Klaus: ja, og så synes jeg måske, at det siger et eller andet om, nu har jeg siddet og sagt, det er jo ren metamitik, ja det er det, men altså, vi er jo også et eller andet sted, bare ren fysik og kemi, og det er sådan en underlig reduktiv tilgang til verden, så det kan vi ikke bruge til så meget, men det at de her modeller kan fremkomme, med nogle ret skarpe resonemanger, med logisk tænkning, uden at det skal bearbejdes token for token, det synes jeg siger noget om mennesker, og jeg vil sige, altså, det kan måske justere lidt på den der idé om, at kun stemmefolk, der kan tænke i formler, og tænke i helt formelle tankerækker, kan fremkomme med noget af værdi, at humanister som, man kan sige, har trænet på en anden måde, for nu at bruge det samme begreb, som vi bruger om netværk, også kvæg, det er da helt anderledes dataindtag, som humanister har, plus det man så har generelt som menneske, at det også kan aflejes i vores hjerner, som, hvad kan man sige, skarpe resonemanger, altså en skarp evne til at resonere, men måske bygget ud af nogle andre data, hvis det overhovedet giver mening. Altså, jeg synes, at det har været en meget reduktionistisk idé om, at der er nogen, der kan regne den ud, og det er dem, vi har brug for i vores verden, og så er der fabulerende humanister, der bare finder på, groft sagt. Det siger måske mere om mine fordomme, end så mange andres, men jeg synes bare, det er interessant, at man så finder ud af, at noget af det skarpeste resonemang, der kommer ud af de her matematiske modeller, det er de her latente ting, som vi ikke rigtig kan sætte os ned og programmere. det er noget, der skal trænes, og det fremkommer lidt tilfældigt, faktisk.

[00:41:33] Thomas: Ja, eller så er det et spørgsmål, om det er så tilfældigt, fordi det er jo igen der med, hvad er modellerne trænet på? Det er jo mennesken output, i hvert fald ind til et eller andet vispunkt. Nu begynder folk nærmest også at tale om det samme, som med jern, at der er det der meget, meget værdifulde jern, der er nede i de gamle skibsfrager, før de atmosfæriske atombombe prøvesprænger, fordi til visse måleinstrumenter og sådan noget, kan du ikke bruge moderne stål eller jern,

[00:42:04] Klaus: fordi det er forurenet med cesium?

[00:42:06] Thomas: Ja, isotop, radioaktiv isotop. Så der er jo nogen, der tjener gode penge på, at dykke ned til gamle vrav fra 1800-tallet og sådan noget, og hente kanoner og sådan noget, fordi de er meget værd, fordi de er ikke forurenet, med de samme isotop som moderne stål. Nå, men det er en helt anden historie, men det begynder også...

[00:42:25] Klaus: Jo, jeg forstår jo.

[00:42:26] Thomas: Jeg forstår jo. Ja, energin, ikke? Altså det med, at der er noget indhold, som blev skabt før LLM blev slået løs på internatet. Og det er ligesom det der gamle jern, som ikke er forurenet med de moderne isotop.

[00:42:41] Klaus: Men der findes jo stadigvæk de her dataparker, som man kan træne. Man kan jo selv skaffe dem. Man kan downloge dem, og man kan træne sit netværk på det. Og det er jo, kan man sige, situationstegnet gamle data. Det kommer, at de bliver udbygget løbende. Men det er ligesom the real deal, uden en masse afgenereret slop i. Men det er jo klart, hvis man hele tiden skal træne større modeller og nye modeller, så er man ude og høste, og så risikerer man at få skidt fra egne og andres modeller ind i træningsmaterialet. Og så er der jo de syntetiske data, og vi skal nok ikke forveksle det, altså det, at man får slop ind i træningen, og så er det syntetiske data, som man laver. Syntetiske data kan for eksempel være genereret trin for trinbeskrivelser og alt muligt. Netop for at styrke de her resonerende vægte, de resonerende veje igennem netværket. Og det er det, som jeg tænker, at Lattro går ud på. Det er, at man fodrer formelle tankerækker ind i et prætrænet netværk. Og så igen laver noget backpropagation på, du ved, hvad er godt, hvad er skibt, ligesom man jo generelt tænker, at gøre ved træning. Og justerer vægtende gang på gang. Så mere og mere syntetisk data bliver der også brugt. Men det tror jeg ikke nødvendigvis er et problem. Det er jo mere en måde at lave ren data på, hvor man ved, hvad det her data gør ved netværket. med ind og fodret med ravl og krat fra ens crawler.

[00:44:12] Thomas: Det minder om, jeg har set inden for den seneste måneds tid, at en fyr har trænet en model med et Nulles Cut-Off i 1931.

[00:44:25] Klaus: Som at snakke med sin bedste far.

[00:44:27] Thomas: Ja, for at sige, eller Olle far, eller sådan noget. Ja, ja. Og jeg tror, man kan downloade den på Hogan-Face, så man kan køre den hjemme. Men så kan du tale med den som om, at man ikke engang... Der er jo kun noget til første verdenskrig, og sådan noget.

[00:44:44] Klaus: Fantastisk.

[00:44:45] Thomas: Ja. Så det er jo også... Det er jo både et teknisk eksperiment, men igen er vi overrigtet noget, der begynder at ligne nærmest performance kunst, eller en installation også. Altså, det er en eller anden form for digital kunstværk, nærmest, at lave sådan en model.

[00:45:00] Klaus: Det er fascinerende. Og det fik man så til at tænke på, at noget, vi så ikke har nævnt her, fordi jeg var lidt inde på det med at sige, hvor meget viden ligger der i de her vægte, og hvor meget kunden ligger der i de her vægte. Og begge dele for eksempel. Altså, kan vi egentlig skille det mellem det her kunden noget, og det her vide noget? Det lader til, når vi kigger på latent kunden i et netværk, at der er sgu ikke særlig stor forskel. Hvis vi snakker om vægte mellem neuroner, jamen så... Jeg ved, at en plus en er to, men... Eller kan jeg regne? Altså, forstår du, hvad jeg mener? Er det redskab? Er det, jeg placerer? Eller er det bare viden, som nu en gang for alle er aflejret? Men så... De fleste modeller her, de er jo så udstyret. Det er jo ikke noget, der ligger i modellen, men de er udstyret med et stykke software, der gør, at de kan gå på nettet. Det vil sige, at de kan gå ud og høste ny viden i et eller andet grad. Men det skal vi ikke blande sammen med det, som LLM kan, fordi hvis du går ud og søger på nettet, og du finder en side, der handler om et eller andet emne, typisk Wikipedia eller sådan noget, jamen så bliver det jo sådan set bare tilføjet kontekstvinduet. Det bliver bare en dosis tokens, der bliver skudt ind i netværket, og er med til at styre netværket over i den... Eller styrer forspørgselen, styrer tokens i den del af netværket i vektorrummet, som giver mening her. Så på den måde er det en støttende foranstaltning, der kan gøre outputter bedre. Det er så også forklaringen på, hvorfor nogle forspørgseler bliver så crazy dyre tokens, fordi hvis nu de går ud og høster 20 større websites, og putter med i dine forspørgsel, så kan der lov dig for, at man får brændt tokens af. Fordi det er jo sådan lidt bare kontekst, ikke?

[00:46:37] Thomas: Jo. Der er også det, der hedder in-context learning, som overraskede folk også. Det med, at... At ved at stoppe ting inde i konteksten, så er det som om, at netværket på stedet begynder at kunne se nogle nye mønstre, eller lære nogle ting, som egentlig ikke ligger inde i de statiske vægtene bagved. Og det er jo også noget af det, der bliver udnyttet.

[00:46:59] Klaus: Ja, det skal jeg lige forstå, fordi det må jo også være latent kunden, der bliver triggeret der. Altså, din prompt bliver jo udvidet helt exceptionelt, hvis du knaller en søgning oveni. Det vil sige, at der er en masse trigger-ord, der er en masse begreber, der får tændt nye dele af netværket. Men du siger, at det er noget ny kunden, eller hvad sagde du der?

[00:47:18] Thomas: Ja, altså, der er nogen, der har forsket i det, og simpelthen har nogle evalueringer, hvor man ved, at det, man fået ind i konteksten, er noget, som netværket ikke er blevet trænet med. Og alligevel er det så i stand til, på baggrund af det, der er i de statiske vægte, og det, der er i kontekst, er faktisk at uddrage det nye interessante ved det, du har i konteksten. Og det var heller ikke noget, og det var også sådan en praktisk, kan man sige, opdagelse, som er så bagefter begyndt at prøve at finde ud af, rent teoretisk, hvordan overhovedet kan vi forklare det også?

[00:47:58] Klaus: Ja, fordi vi er enige om, at netværket ikke lærer noget nyt. Altså, de netværk, vi sidder og arbejder med her, de er jo trænet og låst, fordi det er inference, det er ikke training. Men igen, og det er måske her i med Jensen, så alligevel spiller ind, fordi samspillet mellem inputet, og de mange tokens, du blæder sig igennem, kan man sige, og det, der sker i transformeren, det er så komplekst. Der er simpelthen så mange muligheder i det der valgtræ, og det der, jeg plejer at sige, et 5.000-dimensionale stort vektorrum, og det er nok et gammelt citat, det er meget, meget større.

[00:48:33] Thomas: Jamen, det er jo, det er jo et billioner, billiarder dimensioner stort vektorrum.

[00:48:40] Klaus: Er det det her? Det skal jeg slet ikke vormud i den matematik der, men det er i hvert fald, det er kolossalt, og der må jo ske, altså, opstår jeg med gældte fænomener der, altså, som vi har svært ved at forklare, fordi det er så kolossalt komplekst, og så kolossalt stort. Men det er jo super spændende, fordi så begynder vi måske også at nedbryde et eller andet sted opfattelsen af inputet, af prompten, og af vægtene, og det er ligesom summen af de der dele, der giver et output, som jeg startede med at sige, hvor man får det der, wow, hvor fanden kom det fra? Altså, hvor det hele bare summer op til noget, noget der i hvert fald imponerer mig,

[00:49:24] Thomas: ja, nu nævner du det med at søgne, det er jo et eksempel på det med at give værktøjer, og det er en del af det, man kalder for the harness, eller seltøjet omkring en model, at en model kan kalde værktøjer, når den har brug for at kunne gøre et eller andet, og det er jo også der, at modellerne er blevet meget bedre til, når de skal regne 2 plus 2 ud, og finde ud af, hvad det er, og være sikker på, det giver det samme hver dag, hver gang og hver dag, at man får et deterministisk udkom, så er det jo sikker at kalde et værktøj, som giver et deterministisk svar, og vi har talt om det tidligere også, men André Caparty, han har jo en idé om, der måske kunne være noget, han kalder det en kognitiv kerne, at vi tager den her tur og laver de her større og større modeller, og vildere og vildere modeller, og så ude på den anden side, det ligger der faktisk en mulighed for at destillere, det er nede til en ekstremt vildig kognitiv kerne, som kan resonere, og det man så gør, det er så selvfølgelig at komme kontekst, på det mix, som vi har talt om, men så sammen med værktøjer, hvis vi så giver værktøjer til sådan en kognitiv kernemodel, så kan den så afgøre, hvornår den ikke selv skal lave det i token space, men den bare skal spørge sit værktøj om at gøre det, og det er jo også en mulighed for at kunne få meget, meget kapabel inference helt ud i the edge, på nogle meget mindre devices.

[00:51:05] Klaus: Men er det ikke også det, der giver dygtige mennesker? Altså evnen til at optage tokens løbende, det sætter gang i latent kunden og viden, i det netværk, vi render rundt med, det vi har lært, modsat LLM'er, så kan vi dog trods alt stadigvæk lære lidt, igennem alderen og gennem årene, men også det, at vi så udgyder tokens, vi outputter, tænker over det, der blev sagt, formaliserer det, fodrer det ind igen, med det input, som vi så får fra andre. Altså det er, ja, altså, har vi bygget de her LLM'er, fordi de minder om det, vi gør, eller er vi bare fascineret af dem, fordi de tilfældigvis minder om det, vi gør? Det ved jeg sgu ikke. Men der må være noget for forskere ud i kognitionen, at studere her, for det er på en eller anden måde nogle, altså forsimple modeller af en menneske, og det begynder, at jeg føler, med de ting, der dukker op her om latent kunden.

[00:52:09] Thomas: Ja, eller så er vi måske i virkeligheden enklere, end vi gerne ville bilde os selv ind. Men det, du nævner, det er mere over.

[00:52:16] Klaus: Den har også drillet mig lidt, den der ting.

[00:52:18] Thomas: Så dybe er vi måske heller ikke.

[00:52:20] Klaus: Nej, men vi sindsmaker jo, ikke også? Vi siger, uha, hvad er det, der sker dybt på indersiden der? Vi ved det ikke. Lige så lidt som Claude ved, hvad der sker inde i nettet, altså netværket, det ved den ikke. Den kan ikke se sig selv udefra. Den kan kun bruge nogle ret forsimplede resonemangsmodeller til at tænke i situationstegn. Så frem til, hvorfor månne jeg fandt på det her? Hvor må det komme fra? Og det er lidt det samme også. Vi kan sgu ikke kigge ind i vores sind. Vi kan ikke studere vores bevidsthed. som et objekt. Men vi kan prøve at resonere om det, og vi kan i den grad sende smaker omkring det. Det gør vi jo gerne og ofte.

[00:52:55] Thomas: Her inden for de sidste nærmest bare uge, har jeg set nogle interviewer med Demi Sassavis fra Google DeepMind, som jeg også fik Nobelpris i kemi, var det jo, for det med proteinfoldning. Men jeg hører, hvad han siger netop, og det du taler om, der er som er Continual Learning. Altså det anser han faktisk op, at være et af de udstående problemer i forhold til at nå til AGI. Og han er nede på, og han mener, at der er formentlig kun et par udstående problemer nærmest tilbage. Og det er altså noget andet udmelding, end han kom med for bare nogle få år siden. Men det er helt klart den der ting med, at i stedet for at stå med den her færdigbagte, nogle gigabyte stor model, efter sådan en dyr træningskørsel der, hvordan kan man så faktisk få en real til at blive det her mere plastiske medium, som vores hjerner jo er. Det er noget, der optager ham. Det er noget af det, der mangler.

[00:54:00] Klaus: Og det er, jeg føler bare, jeg føler, at det ikke bare brute force. Det handler ikke om, at vi skal kunne træne et netværk igen og igen flere gange i minuttet, eller hvad det kræver, i stedet for en gang hver fire måneder, eller hvad man nu bruger på de her kæmpe clusters. Det må være noget andet. Det må være noget med at justere vægte løbende i det små og sådan noget der, men det skal jeg ikke prøve at gøre mig klog på. Det sjov er, det var der, jeg tænkte mig at slutte den her episode. Det var at sige, at hvis du spurgte mig for et år til et eller andet side, så ville jeg sige, LLM'ere er ikke vejen til EGI. Jeg følte, at LLM'ere var et eller andet sted bare en for kromet, imponerende, men for kromet slådermaskinen. Kvindesensen er en chatbot. Og det der er altså, synes jeg selv blevet klogere. Jeg tror faktisk, at det at starte med at lave et sprogcenter, har gjort, at vi har fundet ud af, at sprogcenter ikke bare er et sprogcenter. Det er meget mere komplekst end det. Det er faktisk der, resonementet også sker. Det er i sprogcentret, at tænkningen sker. Og at det vi bilder os ind af tænkning, måske faktisk mere end illusion. Og det peger jo så i retning af, at EGI'en måske ligger uhyggeligt tæt på. Men vi får se. Når den kommer, så laver vi en episode om det i hvert fald.

[00:55:19] Thomas: Hvis vi når den.

[00:55:20] Klaus: Ellers så laver den en episode om os.

[00:55:22] Thomas: Præcis.

[00:55:24] Klaus: Tak fordi du hjælper med at forstå, Thomas. Det hjælper lidt.

[00:55:26] Thomas: Ellers er vi jo mindst forvirret på et højre plan.

[00:55:29] Klaus: Ja, det er præcis. Du har lyttet til Silberbauer og Blomsæt. En uafhængig og usponsoreret podcast om teknologi, systemer, erkendelse og om de mønstre, der driver vores virkelighed. Følg os på Blue Sky, hvor vi poster opfølgende materiale for hver episode og altid er klar på en dialog, kommentar, idéer og kritik. Vores handle er snabel af silberblom.dk Og ikke mindst, hvis du kan lide, hvad du hører, så anbefale os til venner, familie og kolleger og smid gerne stjerner efter os på Apple Podcast. Vi higer jo alle efter anerkendelse i en eller anden form. Tak for, at du lytter med. Tak for, at du lytter med.

Podcasts we love

Check out these other fine podcasts recommended by us, not an algorithm.

RumSnak Artwork

RumSnak

Tina Ibsen + Anders Høeg Nissen
SCIFI SNAK Artwork

SCIFI SNAK

Jens Poder og Anders Høeg NIssen
Radiolab Artwork

Radiolab

WNYC Studios
Krigskunst Podcast Artwork

Krigskunst Podcast

Krigskunst Podcast
The Jim Rutt Show Artwork

The Jim Rutt Show

The Jim Rutt Show
The Economics of Everyday Things Artwork

The Economics of Everyday Things

Freakonomics Network & Zachary Crockett