• 首页
  • 行业
  • 财经
  • 综合
  • 热点
  • 科技
  • 商业
  • 要闻
  • 观点
  • 经济
  • 社会
  • 法治
  • 文旅
  • 体育
  • 健康
  • 生活
  • 国际
  • 国内
  • 教育
logo
  • 综合 >
  • 正文

10倍压缩率、97%解码精度!DeepSeek开源新模型 为何赢得海内外关注

2025-10-22 05:55:39 来源:澎湃新闻

DeepSeek开源新模型:用视觉模式实现上下文压缩。


(资料图片仅供参考)

10月20日,DeepSeek宣布开源最新大模型DeepSeek-OCR。所谓的OCR,据DeepSeek在论文中解释称,是通过光学2D映射压缩长上下文可行性的初步研究。DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。DeepEncoder作为核心引擎,设计为在高分辨率输入下保持低激活,同时实现高压缩比,以确保视觉tokens数量优化且可管理。

通俗而言,这是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

据公布的论文名单显示,该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,但这三位核心作者都颇为低调,其中一作作者Haoran Wei曾在阶跃星辰工作过,曾主导开发旨在实现“第二代 OCR”的GOT-OCR2.0系统。

DeepSeek-OCR的架构分为两部分。一是DeepEncoder,一个专为高压缩、高分辨率文档处理设计的视觉编码器;二是DeepSeek3B-MoE,一个轻量级混合专家语言解码器。这款刚开源不久的新模型,发布后就得到海外科技媒体广泛赞美,有网友盛赞:“这是AI的JPEG时刻。”

前特斯拉AI总监、OpenAI创始成员安德烈·卡帕西(Andrej Karpathy)在社交媒体高度评价DeepSeek的新模型,他表示,自己相当喜欢新的DeepSeek-OCR论文,“它是一个很好的OCR模型(可能比dots稍微差一点),是的,数据收集等等,但无论如何都不重要。对我来说更有趣的部分(尤其是作为一个以计算机视觉为核心,暂时伪装成自然语言的人)是像素是否比文本更适合作为LLM的输入。作为输入,文本标记是否浪费且糟糕。”

根据他的设想,或许所有LLM的输入都只应该是图像。即便是纯文本内容,也应该先渲染成图片再输入给模型,其中理由包括:信息压缩效率更高、像素更通用、支持双向注意力、可淘汰存在安全隐患的分词器(Tokenizer)。

特斯拉创始人马斯克(Elon Musk)也现身评论区,并表示:“从长远来看,AI模型超过99%的输入和输出都将是光子,没有其他任何东西可以规模化。”

知名科技媒体《麻省理工科技评论》解释称,DeepEncoder是整个系统的关键所在。它的设计目标在于,在处理高分辨率输入图像的同时,保持较低的激活内存,并实现极高的压缩比。为达到这一目的,DeepEncoder融合两种成熟的视觉模型架构:SAM(Segment Anything Model)和 CLIP(Contrastive Language–Image Pre-training)。前者以窗口注意力机制(window attention)见长,擅长处理局部细节,构成编码器的前半部分;后者则依赖密集的全局注意力机制(global attention),能够捕获整体知识信息。

《麻省理工科技评论》表示,除了文本识别性能,DeepSeek-OCR还具备较强的“深度解析”能力。这得益于其训练数据中包含了图表、化学分子式、几何图形等多样化的视觉内容。因此,模型不仅能识别标准文本,还能对文档中嵌入的复杂元素进行结构化解析。例如,它可以将报告中的图表转换为表格数据,将化学文献中的分子式输出为SMILES格式,或解析几何图形中的线段关系。这种超越传统文本识别的能力,拓展了其在金融、科研、教育等专业领域的应用空间。

DeepSeek介绍,实验表明,当文本tokens数量在视觉tokens的10倍以内(即压缩比<10×)时,模型可达到97%的OCR精度。即使在20×压缩比下,OCR精度仍保持在约60%。这为历史长上下文压缩和LLM中的记忆遗忘机制等研究领域展示可观前景。

DeepSeek-OCR还初步验证上下文光学压缩的可行性,证明模型可以从少量视觉tokens中有效解码超过10倍数量的文本tokens。DeepSeek-OCR也是一个高度实用的模型,可大规模生产预训练数据,“未来,我们将进行数字-光学文本交错预训练、大海捞针测试等进一步评估,继续推动这一有前景的研究方向。”

据海外科技媒体分析,研究团队表示,在基准测试中,DeepSeek-OCR优于多个主流模型,且使用的视觉tokens数量少得多。此外,单张A100-40G GPU每天可生成超过20万页的训练数据,可为大型语言模型和视觉-语言模型的开发提供支持。

前网易副总裁、杭州研究院执行院长汪源发文表示,DeepSeek-OCR模型是一个专门能“读懂”图片里文字的AI模型。但厉害的地方不是简单“识字”,是采用了一种非常新颖的思路:把文字当成图片来处理和压缩。

汪源认为,可以把它想象成一个超级高效的“视觉压缩器”,传统的AI模型是直接“读”文本,但 DeepSeek-OCR 是先“看”文本的图像,然后把一页文档的图片信息高度压缩成很少的视觉tokens。DeepSeek-OCR的能力强在能把一篇1000字的文章,压缩成100个视觉tokens。在十倍的压缩下,识别准确率可以达到96.5%。

责任编辑:{ij7}

    为您推荐

  • 10倍压缩率、97%解码精度!DeepSeek开源新模型 为何赢得海内外关注

    【10倍压缩率、97%解码精度!DeepSeek开源新模型为何赢得海内外关注】1
  • *ST荣控:公司不涉及出口至欧盟国家相关业务

    此页面是否是列表页或首页?未找到合适正文内容。
  • A股30亿收购案启动!皖通高速拟受让山东高速7%股权

    【大河财立方消息】10月21日,安徽皖通高速(600012)公路股份有限公司
  • 实时焦点:神思电子:中标约1.61亿元可信数据空间建设项目

    人民财讯10月21日电,神思电子(300479)10月21日公告,公司作为牵头单位
  • 今日热搜:国信证券发布燕京啤酒研报:三季度行业需求偏弱,公司收入增速放缓、利润延续较高增速

    国信证券发布燕京啤酒研报:三季度行业需求偏弱,公司收入增速放缓、利
  • 当前热点恒玄科技33万股限制性股票将于10月24日上市流通

    恒玄科技33万股限制性股票将于10月24日上市流通
  • 华翔股份:控股股东拟减持公司不超3%股份-消息

    人民财讯10月21日电,华翔股份(603112)10月21日公告,公司控股股东山西
  • 当前资讯!珠免集团:拟将格力房产100%股权转让至投捷控股 预计构成重大资产重组

    南方财经10月21日电,珠免集团(600185 SH)公告称,公司拟将持有的珠海
  • 焦点要闻:政策驱动超硬材料板块多日异动 产业链各环节“温差”明显 上市公司喜忧参半

    超硬材料出口管制措施临近实施,多家上市公司股价大涨。财联社记者采访
  • 【播资讯】新奥能源:Morgan Stanley & Co., International plc净买入公司股份5400股

    南财智讯10月21日电,新奥能源(02688 HK)公告,MorganStanley&Co ,In
  • 头条:“钰”见雄安vlog丨在雄安,下班干点啥呢?

    当夜幕降临雄安,雄安新区“容东康宁雄观书屋”依然灯火通明。这座由雄
  • 今日报丨快讯|现货白银日内跌幅达3.00%,现报50.72美元/盎司

    快讯|现货白银日内跌幅达3 00%,现报50 72美元 盎司
  • 龙旗科技新设投资公司,注册资本5亿元

    企查查APP显示,近日,海口龙旗科技投资有限公司成立,注册资本5亿元,
  • 最高检:强化检察监督与司法审判、建筑行业监管联动

    最高人民检察院10月21日发布办案统计情况显示,2025年前三季度,全国检
  • 国货美妆橘朵母公司橘宜集团收购意大利美发品牌丰添 焦点观察

    【国货美妆橘朵母公司橘宜集团收购意大利美发品牌丰添】橘宜集团通过官
  • 携手创新 共筑健康新高地——保定国际医疗基地质子治疗专题培训会在河北一洲肿瘤医院举行

    2025年10月16日,一场聚焦质子治疗技术创新与临床应用、共谋肿瘤诊
  • 12月CBA六场焦点战!广厦3次碰强敌,张镇麟回辽宁,北京决赛重演

    12月CBA六场焦点战!广厦3次碰强敌,张镇麟回辽宁,北京决赛重演,广厦,
  • 哈啰出行在温州成立网络科技公司 注册资本500万美元

    天眼查App显示,近日,温州哈捷网络科技有限公司成立,法定代表人为邢
  • 当前资讯!南通队长谈苏超决赛:其实谁赢谁输不重要了,双方要尽情享受

    南通队长谈苏超决赛:其实谁赢谁输不重要了,双方要尽情享受,苏超,谁赢
  • 110千伏变电站投运,园区发展获强支撑-热闻

    2025年10月20日,象州县110千伏花山变电站正式投产运行,标志着三江口
  • 焦点速讯:PriceSeek提醒:2025年9月棉纱进口量同比增15%

    据海关统计数据,2025年9月我国棉纱进口量约13万吨,同比增加约2万吨,
  • 浦发银行郑州分行25亿贷款推动产业智能化升级|独家

    大河网讯浦发银行郑州分行紧跟国家战略部署,通过优化信贷流程、开辟绿
  • 南京金雨茂物战新软信人工智能创投企业登记成立

    人民财讯10月21日电,企查查APP显示,近日,南京金雨茂物战新软信人工
  • 江苏同创卫生召回1500只苏洁康牌一次性口罩 观点

    本次召回范围内的一次性防护口罩(非医用),由于存在过滤效率较低,可能
  • 焦点滚动:“超时免罚”让外卖行业跑出可持续的“加速度”

    工人日报张西流据10月19日央广网报道,超时罚款一度困扰着外卖骑手。无
  • 焦点热讯:北交所融资融券余额74.65亿元,环比增加1165.35万元

    证券时报&bull;数据宝统计,10月20日北交所融资买入额为4 00亿元,最新
  • 各地最低工资标准公布

    近日,人力资源和社会保障部网站公布全国各省、自治区、直辖市最低工资
  • 10月21日生意社铝基准价为20943.33元/吨

    10月21日,生意社铝基准价为20943 33元 吨,与本月初(20733 33元 吨)相
  • LPR连续5个月“按兵不动” 后续仍存调整空间

    10月20日,中国人民银行授权全国银行间同业拆借中心公布,贷款市场报价
  • 每日热讯!泸天化:融资净偿还505.48万元,融资余额1.64亿元(10-20)

    2025年10月20日泸天化融资净偿还505 48万元,融资余额1 64亿元

相关推荐

  • 10倍压缩率、97%解码精度!DeepSeek
  • *ST荣控:公司不涉及出口至欧盟国家
  • A股30亿收购案启动!皖通高速拟受让
  • 实时焦点:神思电子:中标约1.61亿
  • 今日热搜:国信证券发布燕京啤酒研报
  • 当前热点恒玄科技33万股限制性股票
  • 华翔股份:控股股东拟减持公司不超3
  • 当前资讯!珠免集团:拟将格力房产10
  • 焦点要闻:政策驱动超硬材料板块多
  • 【播资讯】新奥能源:Morgan Stanl

阅读排行

  • 每日关注!徐州爱之优机械制造有限公司成立 注册资本200万人民币
  • 今日讯![快讯]禾川科技4013万限售股10月28日解禁
  • 南宫市君祥橡胶制品有限公司成立 注册资本10万人民币
  • 喜报!广西八桂战队拿下中南赛区第一!晋级全国总决赛!
  • 云知声(09678):基础大模型和智能体平台商业化取得实质性进展
  • 隆华科技:股东拟减持不超过0.97%股份
  • 每日报道:龙羊峡畔的高原“渔光曲”
  • 2025年6G材料及元器件股票龙头股是什么?您了解多少?(10月20日)-焦点速递
  • remio 发布2.0版本,汪源:我们的定位从来就不是笔记应用
  • 每日简讯:[快讯]誉衡药业387万限售股10月22日解禁

291 32 36@qq.com

Copyright © 1998-2015 by 中国北京网版权 所有 京ICP备12018864号-3

营业执照公示信息