LLMEval3 LLMEval-3是由复旦大学NLP实验室推出的大模型评测基准,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目。 AI实用工具 2024年05月18日 0 点赞 0 评论 124 浏览
H2O EvalGPT H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具,它提供了一个平台来了解模型在大量任务和基准测试中的性能。通过相关性、透明度、速度和更新、范围以及交互性和人工一致性等特点,H2O EvalGPT 可以帮助用户为项目选择最有效的模型完成具体任务。 AI实用工具 2024年05月21日 0 点赞 0 评论 149 浏览
PubMedQA PubMedQA是一个涵盖了1K专家标注、61.2K未标注和211.3K个人工生成的QA实例的生物医学研究问答数据集,该排行榜目前已收录18个模型的医学测试得分。 AI实用工具 2024年05月18日 0 点赞 0 评论 124 浏览