16k 词
1741930284684 DeepSeek系列论文发布时间线的图表。时间线分为三个阶段: 2024年1月至4月 ,发布了DeepSeek LLM、DeepSeek MoE、DeepSeek Coder、DeepSeek Math和DeepSeek VL等论文。 2024年5月至8月,发布了DeepSeek-V2、DeepSeek-Coder-V2以及关于MoE的ALF负载均衡相关论文。 2024年12月至2025年1月,发布了DeepSeek-V3、DeepSeek-R1和DeepSeek-VL2等论文 。 1741930307926 1741930317102 1741930425145 这张图片介绍了DeepSeek LLM预训练的相关信息: 模型参数:有7B和67B两个版本。7B版本包含30层,模型维度4096,32个注意力头,kv头数32,上下文长度4096,序列批量大小2304,学习率4.2e-4,处理token数量2.0T ;67B版本有95层,模型维度8192,64个注意力头,kv头数8,上下文长度4096,序列批量大小4608,学习...