北京商报讯(记者魏蔚)12月19日,智源研讨院发布并解读国表里100余个开源和买卖闭源的说话、视觉说话、文生图、文生视频、语音说话大模子概括及专项评测遵循。本次评测依托智源研讨院自2023年6月上线的大模子评测平台FlagEval,经由数次迭代,当今已隐讳大师800多个开闭源模子ai 萝莉,包含20多种任务,90多个评测数据集,超200万条评测题目。
在评测法度与器具上,智源研讨院勾通寰宇10余家高校和机构配合共建,探索基于AI的援救评测模子FlagJudge和生动全面的多模态评测框架FlagEvalMM,并构建面向大模子新才能的有挑战的评测集,包括与北京大学共建的HalluDial幻觉评测集、与北师大共建的CMMU多模态评测集、多说话跨模态评测集MG18、复杂代码评测集TACO以及长视频领路评测MLVU等,其中与北京大学共建的HalluDial是当今大师规模最大的对话场景下的幻觉评测集,有18000多个轮次对话,和14万多个回复。
av 动漫以说话模子为例,评测重心考验模子汉文才能,遵循走漏字节卓著Doubao-pro-32k-preview、百度ERNIE4.0Turbo位居第一、第二,OpenAIo1-preview-2024-09-12、AnthropicClaude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排行第五;在说话模子客不雅评测中,OpenAIo1-mini-2024-09-12、GoogleGemini-1.5-pro-latest位列第一、第二,阿里巴巴Qwen-max-0919、字节卓著Doubao-pro-32k-preview位居第三、第四,MetaLlama-3.3-70B-Instruct排行前五。