跳到主要内容
博客

今日 AI 情报 - 2026-03-14

## 模型更新 今天没有足够可信的新模型更新 ## 价格与服务商 - Groq - 定价模式:按百万 token 线性计费,明确区分未缓存输入、已缓存输入与输出,强调“无隐藏成本”和高 TPS(适合低延迟与长提示缓存复用场景)。 - 型号覆盖:除常见开源族群外,也列出供应商模型(如 mo...

模型更新

今天没有足够可信的新模型更新

价格与服务商

  • Groq
  • 定价模式:按百万 token 线性计费,明确区分未缓存输入、已缓存输入与输出,强调“无隐藏成本”和高 TPS(适合低延迟与长提示缓存复用场景)。
  • 型号覆盖:除常见开源族群外,也列出供应商模型(如 moonshotai/kimi-k2-instruct-0905)。
  • 价格点:页面列示 kimi-k2-instruct-0905 未缓存输入约 $1.00/百万 tokens;其余型号按输入/输出/缓存分档,适合输入侧占比高且可复用的工作负载。
  • Fireworks
  • 推理价格亮点:公开价继续覆盖多家前沿与开源模型,部分代表性价格值得盯:
  • DeepSeek V3 系列:输入约 $0.56/百万,输出约 $1.68/百万(适合高输出字数场景)。
  • GLM-5:输入约 $1.00/百万、缓存输入约 $0.20/百万、输出约 $3.20/百万(缓存折扣清晰)。
  • Qwen3 VL 30B A3B:输入约 $0.15/百万、输出约 $0.60/百万(多模态性价比高)。
  • 微调与服务:支持 SFT/DPO,训练计费按百万训练 tokens:
  • ~120B 量级(如 Qwen3-235B、gpt-oss-120B):SFT ~$6,DPO ~$12。
  • >300B(如 DeepSeek V3、Kimi K2):SFT ~$10,DPO ~$20。
  • 运营侧优势:微调后线上推理与基座同价,便于大规模上线与成本预估。

当下最值得盯的价格点:

  • 高输出密集:Fireworks 的 DeepSeek V3(输出 $1.68/M)在长文生成上仍具优势。
  • 大上下文与复用:Groq 的缓存输入分档+高 TPS,对长上下文、重复提示非常友好。
  • 多模态入门价:Fireworks 的 Qwen3 VL 30B A3B 输入 $0.15/M,做图文混合推理的低成本选择。

今日热点

  • 社区讨论:MiniMax M2.5 在 OpenRouter 上出现自称“我是 Claude,由 Anthropic 创建”的异常回复,引发是否存在蒸馏/对齐污染或系统 prompt 泄漏的猜测;目前为个案反馈,尚无官方解释。对使用代理平台路由多模型的团队,这是关于“来源可追溯、行为一致性”与“品牌/条款合规”的风险提醒。
  • 今日热点不足:除上述事件外,主流厂商(OpenAI、Anthropic、Google、xAI、Meta、Mistral、DeepSeek、Qwen、Together 等)无明确新品或官方成本变更对外发布。

一句话判断

  • 若你的工作负载以长文输出为主,Fireworks 的 DeepSeek V3 组合在单位输出成本上仍具竞争力。
  • 需要低延迟与提示复用的产品形态,应评估 Groq 的缓存分档+高吞吐是否显著拉低总拥有成本。
  • 使用聚合路由服务时,应把“模型来源与行为核验”加入上线门槛,避免因模型蒸馏与对齐污染带来的合规与一致性风险。

参考链接

  • https://groq.com/pricing/
  • https://fireworks.ai/pricing
  • https://news.ycombinator.com/item?id=47372273