DeepSeek推出全新AI推理方法,下一代模型备受期待
2025-04-07 00:23 loading...
中国人工智能(AI)初创公司DeepSeek近日推出了一种全新的推理方法,市场对其下一代模型的发布充满期待。据报道,该公司通过与清华大学研究人员的合作,成功开发出一种结合生成奖励建模(GRM)和自适应调整技术的方法,从而显著提升了大型语言模型(LLMs)的推理能力。
根据报告,一篇最新发表的研究论文详细介绍了这一技术突破。该方法使DeepSeek开发的模型能够为各种查询提供更快、更准确的结果,极大优化了用户体验。
DeepSeek揭示新的AI推理方法
研究人员表示,新开发的DeepSeek-Grm模型在性能上超越了现有的多种方法,并通过强大的公共奖励模型实现了竞争性表现。奖励建模是一种帮助大型语言模型理解人类偏好的关键技术。此外,DeepSeek计划将GRM模型开源,但尚未公布具体的时间表。
这篇学术论文引发了业界对DeepSeek下一步动作的广泛猜测。此前,该公司凭借DeepSeek V3基础模型和R1推理模型获得了全球关注。尤其是今年早些时候发布的R1模型,因其性能优于包括OpenAI早期ChatGPT模型在内的多款产品而备受瞩目。
值得注意的是,R1模型不仅开源,还以远低于其他AI模型的成本运行,这让硅谷的技术巨头们感到意外。尽管近期市场关注度有所下降,但竞争对手们的快速进步表明,AI行业的竞争正进入白热化阶段。
然而,路透社上个月的一份报告提到,DeepSeek可能正在开发R1的继任者——DeepSeek-2。据知情人士透露,该公司可能会在本月底发布这一新模型,以进一步巩固其在AI行业的地位。不过,DeepSeek官方目前对R2模型保持沉默,并未回应相关传闻。
V3模型的开发持续推进
总部位于杭州的DeepSeek由企业家梁文峰于2023年创立,在过去几个月中因技术创新成为全球焦点。尽管如此,该公司选择低调行事,将所有资源集中于研发工作。虽然外界传言不断,但DeepSeek显然在稳步推进其技术布局。
上个月,DeepSeek宣布了其最新的开发成果,推出了升级版V3模型,名为DeepSeek-V3-0324。据公司介绍,这一升级版本具备“增强的推理能力、优化的前端网络开发以及改进的中文写作能力”。今年2月,DeepSeek开放了五个代码存储库,供开发者审查和贡献代码,展现了其对透明度和技术共享的承诺。
同月,梁文峰发表了一项关于本地稀疏注意力技术的研究,旨在提高大型语言模型处理海量数据时的效率。这位40岁的企业家同时也是DeepSeek母公司高级Quant的创始人。这家对冲基金为DeepSeek的技术研发提供了坚实的资金支持。今年2月下旬,梁文峰作为科技企业家代表之一,参加了由中国国家主席习近平主持的研讨会。会上,习主席高度赞扬了DeepSeek在面对美国遏制中国AI技术发展时所展现出的韧性。
加密大都会学院:即将推出 - 一种新的方式,在2025年通过DeFi赚取被动收入。了解更多
相关阅读
-
PI网络主网发射已备受期待WEB3.0 2025-04-02 00:17
-
比特币主导地位攀升至62%,Altcoin季节期待落空比特币资讯 2025-03-29 22:02
-
技术解析:Mira如何应对AI大模型“幻觉”问题区块链资讯 2025-03-28 00:23
-
中国DeepSeek激发AI模型热潮:低成本创新撼动全球市场交易所新闻 2025-03-26 19:19
-
Berachain的PoL机制:革新DeFi激励模型的激进尝试区块链资讯 2025-03-25 16:15
-
波场社区探讨比特币减半式奖励削减以优化TRX经济模型比特币资讯 2025-03-23 00:03
-
市场期待美联储干预保证,但政策调整或成难题法规 2025-03-21 00:30
-
大型科技公司加速AI投资 推理模型成新焦点名家专栏 2025-03-18 13:26
-
OpenAI游说特朗普政府阻止各州AI法规以换取联邦模型访问法规 2025-03-14 18:29
-
Aura筹集了550万美元的种子回合来加速AI模型验证和租赁市场区块链资讯 2025-03-14 18:22