
腾讯元宝
腾讯元宝是腾讯发布的 AI 产品,可在多平台使用,具有 AI 搜索、写作、阅读、画图等多种功能,应用于企业服务、内容创作、个人生活等场景,依托腾讯混元大模型等技术,有强大的模型支持、多领域技术融合、深度整合腾讯生态等优势,其 V2.0 版本进一步强化了行业场景适配能力。
发布时间:2024年12月26日
发布机构:DeepSeek AI
模型类型:MoE(Mixture-of-Experts)模型
参数量:6710亿
激活参数量:370亿
高效推理与训练:
创新架构:
无辅助损失的负载均衡策略:
多标记预测(MTP)目标:
训练数据:预训练数据集包含14.8万亿高质量和多样化的令牌,涵盖了数学、编程和多种语言。
训练成本:仅耗费了266.4万H800 GPU小时,完成了对14.8万亿token的预训练,总训练成本仅为557.6万美元。
性能表现:在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他开源模型,并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型。
API价格:DeepSeek V3提供了优惠的API价格,用户可以在指定时间内享受价格优惠。
部署方案:DeepSeek AI与开源社区和硬件厂商合作,提供了多种部署方案,包括华为昇腾NPU、SGLang、LMDeploy等,支持在多种硬件平台上运行。
DeepSeek V3是一款高效、经济且性能强大的开源语言模型。通过创新的架构设计和优化策略,在多个基准测试中表现优异,尤其是在代码和数学任务上。其高效的推理和训练能力,以及多种部署方案,使得DeepSeek V3在AI领域具有广泛的应用前景。