这是一个很棒的评估用例。客户应该始终获得模型的最高质量实现,而数据是区分的最佳方式。 很高兴 openbench 在这里有用 🫡🫡