AI模型评测

首页

AI模型评测

列表

默认

浏览次数

发布日期

LLMEval3

LLMEval-3是由复旦大学NLP实验室推出的大模型评测基准，涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科，共计约20W道标准生成式问答题目。

AI实用工具 2024年05月18日 0 点赞 0 评论 272 浏览

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具，它提供了一个平台来了解模型在大量任务和基准测试中的性能。通过相关性、透明度、速度和更新、范围以及交互性和人工一致性等特点，H2O EvalGPT 可以帮助用户为项目选择最有效的模型完成具体任务。

AI实用工具 2024年05月21日 0 点赞 0 评论 346 浏览

PubMedQA

PubMedQA是一个涵盖了1K专家标注、61.2K未标注和211.3K个人工生成的QA实例的生物医学研究问答数据集，该排行榜目前已收录18个模型的医学测试得分。

AI实用工具 2024年05月18日 0 点赞 0 评论 273 浏览

返回
顶部