• 首页 > 云计算频道 > 大模型

    新一代旗舰端侧模型:面壁 MiniCPM 2.0 发布

    2024年04月28日 11:56:45   来源:中文科技资讯

     

      全球领先的旗舰端侧模型系列面壁 MiniCPM 上新!一口气带来:

      l 端侧最强的多模态模型 MiniCPM-V 2.0:OCR 能力显著增强、甚至部分能力比肩 Gemini Pro;

      l 适配更多端侧场景的基座模型 MiniCPM-1.2B:性能超越 Llama2-13B、推理速度达到人类语速近 25 倍;

      l 最小的 128K 长文本模型 MiniCPM-2B-128K ;

      l 性能进一步增强的 MoE 架构模型 MiniCPM-MoE-8x2B

      此前发布的 MiniCPM 第一代,凭借其强有力的性能与极致低成本,堪称大模型里的小钢炮。 两个月后的今天,我们秉承高效 Scaling Law 的科学方法论,持续挖掘小钢炮的性能极限,将其升级为新一代 MiniCPM 2.0 系列模型。

      端侧最强的多模态模型

      刷新OCR综合性榜单开源模型最佳表现,部分能力比肩Gemini-Pro、GPT-4V

      多模态能力已成为当前大模型的核心竞争力之一,智能终端设备由于其影像视觉处理的高频需求,对在端侧部署的人工智能模型提出了更高的多模态识别与推理能力要求。

      这一次,MiniCPM-V 2.0 不仅带来最强端侧多模态通用能力,更带来极为惊艳的 OCR 表现。通过自研的高清图像解码技术,可以突破传统困境,让更为精准地识别充满纷繁细节的街景、长图在端侧成为可能。

      甚至,还能识读 2300 多年前的清华简上一些难以辨别的古老字迹,以卓越的 OCR 能力,为我们叩响识读老文字的大门。譬如,它不仅可以在三根竹简中准确找到最短的竹简,也能精准地识别出上面的字迹。甚至,连无从辨别的复杂楚文字都被正确解读。

      作为多模态识别与推理能力的硬核指标,新一代 MiniCPM-V 2.0 在 OCR(光学字符识别)方面的成绩,已被一项项权威榜单验证。

      在 权威 OCR 综合能⼒榜单 OCRBench 中,MiniCPM-V 2.0 秉承面壁「小钢炮」系列「以小博大」传统,刷新了开源模型 SOTA。在 场景图片文字识别榜单 TextVQA 中,越级超越全系 13B 量级通用模型,甚至部分能力比肩多模态领域代表性模型 Gemini Pro。

      这一次,新一代 MiniCPM-V 2.0 还加速解锁了过去难以识别的高清图像信息识别,譬如街景、长图这类典型场景。

      为什么我们在手机上随手可得的影像,用于 OCR 识别却如此困难?这是由于传统处理方法,只能处理固定尺寸图片,会将大像素或不规则图片强制压缩,导致原始图片中丢失大量信息、难以识别,这对充满了细节文字信息、又大量零散分布的街景类画面提出了极大挑战。

      得益于自研高清图片解码技术,新一代 MiniCPM-V 2.0 带来清晰大图识别体验的大幅提升。可以处理最大 180 万像素高清大图,甚至 1:9 极限宽高比的高清图片(譬如要翻阅好几屏的长图),对它们进行高效编码和无损识别。

      具体效果如下:

      不仅如此,在 中文OCR 能力方面,MiniCPM-V 2.0 展现的性能效果明显超越了 GPT-4V。例如,识别同一张街景图,MiniCPM-V 2.0 可以准确地叫出大厦的名字,但 GPT-4V 却只能回答“看不清楚”。

      此外,多模态通用能力 是衡量基座模型水平的重要指标。

      目前,在多模态大模型综合评测权威平台 OpenCompass 榜单上,MiniCPM-V 2.0 仅以 2B 量级规模,以小博大超过了一众10B、17B甚至34B量级主流模型(如Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-VL-34B) 。

      在又一项多模态大模型性能的重要指标:幻觉能力方面,MiniCPM-V 2.0 取得与 GPT-4V 持平水平(Object HalBench 榜单)。

      目前,MiniCPM-V 2.0 已经可部署于智能手机,在图像理解和推理效率方面取得了卓越的表现:

      小钢炮四连发,还带来

      更适配端侧场景的1.2B尺寸,以及长文本、MoE版本

      在「高效大模型」的路径下,把大模型变得更小!更强!推动大模型落地应用!

      我们再次追求极致,制造了一颗小小钢炮—— MiniCPM-1.2B。参数减少一半,速度提升 38%,成本下降 60%(1元= 4150000 tokens) 。在手机上的 推理速度 达到 25 token / s,甚至相当于 人的语速的 15 ~25 倍。

      在公开测评榜单上,MiniCPM-1.2B 延续 以小博大、越级超越 的传统,取得了综合性能超过 Qwen1.8B、Llama2-7B 甚至超过 Llama2-13B 的优异成绩。

      25 token / s, 则是将 MiniCPM-1.2B 离线部署于 iPhone 15 的实测成绩。

      同时而来的,还有当前 最小的“128K长文本”模型,将原先4K上下文窗口一口气扩增至 128K(20万字)。

      在多维度长文本评测集 InfiniteBench 上,在多维度综合性能评测中表现卓越,综合性能超过了 Yarn-Mistral-7B-128k、Yi-6B-200k、ChatGLM3-6B-128k、LWM-Text-7B 等 6/7B 量级模型。此评测集针对大模型在长文本方面的五项能力(检索、数学、代码、问答和摘要)而设计,相较于当前主流的仅关注检索能力的大海捞针测试更加全面。

      此外,我们通过 MoE 的性能增强,让 2B 小钢炮(MiniCPM 1.0)在其原来的基础之上性能平均提高 4.5 个百分点。从榜单成绩上来看,MiniCPM-MoE-8x2B 模型做到了在性能上的越级超越,并且推理成本仅为 Gemma-7B 的 69.7%。

      我们刚刚完成了新一轮数亿元融资,面壁计划正进行时,欢迎优秀的人才加入。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    [No. S013]
    分享到微信

    即时探行数字人注册免费试用

    中兴二合一 5G 云电脑“逍遥”系列上架:一键切换双模式,

    5 月 10 日消息,据中兴通讯官微,中兴二合一 5G 云电脑“逍遥”系列已经在电商平台上架。其支持本地、云端双模式,可在电脑与平板模式之间一键切换。售价方面,型号为 W200DS 的产品首销价格为 1899 元。

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费探行AI视频 快速生成真人营销视频

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。