m//@夹头博士DrChuck: 清华大学新鲜出炉的论文，超长文本的基准测试，在中文，英文，数学，编程等多项测试中，GP...

作者：反脆弱1ztldxdz

发布于:2024-03-05 00:52

Android

转发：0

回复：0

喜欢：0

m//@夹头博士DrChuck: 清华大学新鲜出炉的论文，超长文本的基准测试，在中文，英文，数学，编程等多项测试中，GPT4平均得分45.63，依然遥遥领先。Kimi得34.73分，落后于GPT和Anthropic的Claude2，但在英文的多选题和文章总结方面得了最高分，主要差在编程和数学上。查看图片

引用：

2024-03-04 17:39

月之暗面的kimi chat体验不错。之前用过文心一言，本来以为这一轮科技革命国内掉队了，月之暗面让我重塑了信心。btw 有没有专业的LLM评价体系，类似于跑分？kimi这个大概相比gpt4是什么水平？