模型更新
今天没有足够可信的新模型更新
价格与服务商
- Groq
- 定价模式:按百万 token 线性计费,明确区分未缓存输入、已缓存输入与输出,强调“无隐藏成本”和高 TPS(适合低延迟与长提示缓存复用场景)。
- 型号覆盖:除常见开源族群外,也列出供应商模型(如 moonshotai/kimi-k2-instruct-0905)。
- 价格点:页面列示 kimi-k2-instruct-0905 未缓存输入约 $1.00/百万 tokens;其余型号按输入/输出/缓存分档,适合输入侧占比高且可复用的工作负载。
- Fireworks
- 推理价格亮点:公开价继续覆盖多家前沿与开源模型,部分代表性价格值得盯:
- DeepSeek V3 系列:输入约 $0.56/百万,输出约 $1.68/百万(适合高输出字数场景)。
- GLM-5:输入约 $1.00/百万、缓存输入约 $0.20/百万、输出约 $3.20/百万(缓存折扣清晰)。
- Qwen3 VL 30B A3B:输入约 $0.15/百万、输出约 $0.60/百万(多模态性价比高)。
- 微调与服务:支持 SFT/DPO,训练计费按百万训练 tokens:
- ~120B 量级(如 Qwen3-235B、gpt-oss-120B):SFT ~$6,DPO ~$12。
- >300B(如 DeepSeek V3、Kimi K2):SFT ~$10,DPO ~$20。
- 运营侧优势:微调后线上推理与基座同价,便于大规模上线与成本预估。
当下最值得盯的价格点:
- 高输出密集:Fireworks 的 DeepSeek V3(输出 $1.68/M)在长文生成上仍具优势。
- 大上下文与复用:Groq 的缓存输入分档+高 TPS,对长上下文、重复提示非常友好。
- 多模态入门价:Fireworks 的 Qwen3 VL 30B A3B 输入 $0.15/M,做图文混合推理的低成本选择。
今日热点
- 社区讨论:MiniMax M2.5 在 OpenRouter 上出现自称“我是 Claude,由 Anthropic 创建”的异常回复,引发是否存在蒸馏/对齐污染或系统 prompt 泄漏的猜测;目前为个案反馈,尚无官方解释。对使用代理平台路由多模型的团队,这是关于“来源可追溯、行为一致性”与“品牌/条款合规”的风险提醒。
- 今日热点不足:除上述事件外,主流厂商(OpenAI、Anthropic、Google、xAI、Meta、Mistral、DeepSeek、Qwen、Together 等)无明确新品或官方成本变更对外发布。
一句话判断
- 若你的工作负载以长文输出为主,Fireworks 的 DeepSeek V3 组合在单位输出成本上仍具竞争力。
- 需要低延迟与提示复用的产品形态,应评估 Groq 的缓存分档+高吞吐是否显著拉低总拥有成本。
- 使用聚合路由服务时,应把“模型来源与行为核验”加入上线门槛,避免因模型蒸馏与对齐污染带来的合规与一致性风险。
参考链接
- https://groq.com/pricing/
- https://fireworks.ai/pricing
- https://news.ycombinator.com/item?id=47372273