快科技2月13日报道,近期,我国人工智能领域迎来了一波新的发展高潮。智谱GLM-5、Minimax 2.5以及DeepSeek均在11日同日发布了新一代的大模型,其中DeepSeek的新模型备受瞩目。
此前,我们已对此次更新进行了报道。此次更新主要提升了上下文处理能力,达到了1M,相较于之前的DeepSee V3系列(128K),在上下文处理能力方面提升了7倍。
今晚,DeepSeek在官方群中正式确认了这一消息,明确表示网页及APP版本正在测试新的长文本模型结构,该结构支持1M上下文处理能力。
同时,DeepSeek还强调,API服务并未发生变化,依旧为V3.2系列大模型,仅支持128K上下文处理能力。
从DeepSeek的介绍来看,这次的新模型依旧为文本模型,主要提升在于上下文处理能力,这在众多领域都具有重要意义。在长对话中,上下文处理能力不足往往会导致大模型无法记住之前的内容。
尽管网络上已经有许多实测表明,这次的DeepSeek大模型在编程、输出速度等方面也有显著提升,但与之前的期待相比,这次的更新多少有些令人失望。
这次的大模型显然并非V4版本,更可能是V4 Lite。据悉,该模型的参数量仅为2000亿,相较于V3系列的6700亿,减少了近一半,因此部分能力不及V3系列也是预料之中的。
有猜测认为,这个模型可能是V4 Lite。DeepSeek未来发布的V4大模型可能不会只有一款,而是会有不同版本,每个系列都有其独特的方向和设计。现在的V4 Lite只是作为先导,因此提升的内容并不多,而且DeepSeek官方也未详细说明其技术架构,相关信息还需进一步了解。
传闻中的DeepSeek V4满血版参数量将达到1.5万亿,是V3系列的近两倍,还将采用DeepSeek之前研究的新技术,如Engram、mHC等,在全面提升性能的同时,成本也将得到降低,因此备受期待。


