很想看看Loria将如何与确定性或目标导向的结构进行交互,即奖励建模。