Modellsykofani kommer fra RLHF, ikke sant? hvor mennesker er mer sannsynlig (generelt) å rangere sykofantiske responser høyere? da kan vi forvente at etter hvert som modellene forbedres for dem å lære av skrivestiler som vil foretrekke mer sykofani kontra mindre og justere deretter De som ønsker å holde på fornuften, vil kanskje vurdere å prøve å bli den "mindre" typen ASAP
2,28K