AI模型评测第2页

AI大模型服务性能评测平台

AI Ping是什么 AI Ping是专注AI大模型服务性能评测的平台，通过全面、客观、真实的评测，为用户提供各大模型服务的性能数据，包括吞吐量、延迟等关键指标。AI Ping涵盖众多知名模型服务供应商，如无问芯穹、SophNet、PPIO派欧云等，和知名模型，如DeepSeek、GLM、Kimi、Hunyuan等。通过性能坐标图和详细的数据表格，展示各模型在吞吐量、延迟等关键指标上的表现。用户能比较不同模型的性能，为选择合适的AI服务提供决策支持。 AI Ping的主要功能模型性能评测：提供大模型服务在吞吐量、延迟等关键性能指标上的评测。性能数据展示：以性能坐标图和数据表格形式展示模型的近7日平均性能数据。...

日期：2025-10-15 19:43:21 栏目：ai工具大全阅读：40

AI大模型评测社区

AGI-Eval是什么 AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区，旨在打造公正、可信、科学、全面的评测生态，以“评测助力，让AI成为人类更好的伙伴”为使命。专门设计用于评估基础模型在人类认知和问题解决相关任务中的一般能力。AGI-Eval通过这些考试来评估模型的性能，与人类决策和认知能力直接相关。衡量模型在人类认知能力方面的表现，有助于了解在现实生活中的适用性和有效性。 AGI-Eval的主要功能大模型榜单：基于通用评测方案，提供业内大语言模型的能力得分排名榜单。榜单涵盖综合评测和各能力项评测。数据透明、权威，帮助您深入了解每个模型的优缺点，定期...

日期：2025-10-15 18:09:44 栏目：ai工具大全阅读：45

智源研究院推出的FlagEval（天秤）大模型评测平台

FlagEval是什么 FlagEval（天秤）是北京智源人工智能研究院（BAAI）推出的科学、公正、开放的大模型评测体系及开放平台，为研究人员提供全面评估基础模型及训练算法性能的工具和方法。FlagEval采用“能力-任务-指标”三维评测框架，从多个维度对大模型的认知能力进行评估，涵盖对话、问答、情感分析等多种应用场景，提供超过22个数据集和8万道评测题目。平台支持多模态模型评测，覆盖文本、图像、视频等多种数据类型，兼容多种AI框架和硬件架构。FlagEval提供自动化评测机制，支持主观与客观评测的全自动流水线，帮助研究人员高效、准确地了解模型性能，推动大模型技术的发展。 FlagEval的主要功能多维度评测...

日期：2025-10-13 17:13:37 栏目：ai工具大全阅读：37

Hugging Face推出的开源大模型排行榜单

Open LLM Leaderboard是什么 Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。Open LLM Leaderboard通过多种基准测试（如 IFEval、BBH、MATH 等），从指令遵循、复杂推理、数学解题、专业知识问答等多个维度对模型进行评估。排行榜涵盖预训练模型、聊天模型等多种类型，提供详细的数值结果和模型输入输出细节。Open LLM Leaderboard 能帮助用户筛选出当前最先进的模型，...

日期：2025-10-13 11:12:38 栏目：ai工具大全阅读：28

大规模多任务语言理解基准

MMLU 全称 Massive Multitask Language Understanding，是一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务，包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛，语言是英文，用以评测大模型基本的知识覆盖范围和理解能力。...

日期：2025-10-13 10:22:00 栏目：ai工具大全阅读：29

‹‹ ‹ 1 2 ››