1月20日下午,中心、国务院总理李强掌管举行专家、企业家和教科文卫体等范畴代表座谈会,听取对《政府工作报告(征求定见稿)》的定见主张。
座谈会上,张辉、任少波、刘珺、梁文锋、魏洪兴、陈学东、陈红彦、杜斌、邹敬园等先后讲话。
有仔细者发现,第四位讲话的梁文锋,就是最近一段时间颇受重视的大模型DeepSeek的创始人。17岁考入浙江大学、30岁兴办幻方量化、36岁办理千亿规划的私募基金……在金融和AI范畴范畴深耕多年的梁文锋有着非常亮眼的经历。
在国内外互联网巨子连续提出“All in AI”,花高价买显卡、堆算力之际,他带领的DeepSeek却凭仗对练习方法和模型架构的立异,使得练习出的模型在大幅度下降算力本钱的一起,功能上直接赶超美国AI巨子OpenAI投入超百倍的尖端模型GPT-4o,也引得雷军拿出千万年薪吸引该项目团队的中心参与者。
在外界的关心之下,梁文锋却分外低沉,这两年,他很少承受各个媒体的采访,也鲜少揭露出面参与活动。昨日《新闻联播》播出的总理座谈会的画面,让许多人第一次看到了他的线后”的深度求索之路
梁文锋,1985年出生于广东省湛江市。2002年,这位对数学建模充满热情的年轻人考入浙江大学电子信息工程专业,并在随后的几年里持续进修,最总算2010年取得信息与通信工程硕士学位。
2024年5月初,DeekSeek对外宣告,其开源模型DeepSeek-V2的推理本钱被降到每百万token仅 1块钱,约等于GPT-4 Turbo的七非常之一。随后,智谱、豆包、通义千问、文心一言等国内排名靠前的大模型先后跟进,最高降幅乃至高达97%经此一役,DeepSeek解锁了一个新绰号——AI界的拼多多。
可是,DeepSeek超卓的成果与其团队规划形成了明显的比照。依据揭露报导,DeepSeek的职工规划不及OpenAI的1/5,百人出面的公司中,算子、推理结构、多模态等研制工程师以及深度学习方面的研究人员共有约70人,主要在北京分部,其他30多人在杭州总部,多为前端、产品以及商务人员。
最近一段时间,DeepSeek的动作不断。1月20日晚,它正式对外发布DeepSeek-R1,并同步开源模型权重。文中对产品的介绍如下:该模型在后练习阶段大规划使用了强化学习技能,在仅有很少标示数据的情况下,极大提升了模型推理才能。在数学、代码、自然语言推理等使命上,功能比肩 OpenAI o1 正式版。