最新AI新闻

来自人工智能世界的最新新闻、发展和分析。

Qwen3-Max-Thinking：突破 AI 推理极限
2026/1/26
Qwen3-Max-Thinking 凭借卓越的推理能力、自适应工具使用以及在关键基准测试中超越 Gemini 3 Pro 的表现，树立了 AI 领域的新标杆。
Gemini 化身作曲家：Lyria 3 让文字图片秒变 30 秒金曲
2026/2/19
谷歌将 DeepMind 最新音乐模型 Lyria 3 引入 Gemini，支持通过文本或图片生成含歌词的 30 秒高质量音乐。新功能集成 SynthID 水印技术保障安全，并扩展至 YouTube Dream Track，为创作者提供无限灵感。
Apple Creator Studio Pro发布：AI是创作者的副驾驶，而非替代者
2026/2/1
面对AI取代人类创作者的担忧，Apple推出了"Creator Studio Pro"。这套将于周三上线的订阅服务整合了Final Cut和Logic Pro等专业工具，将AI定位为处理繁琐任务的助手，在提升效率的同时严格保护用户隐私。
DeepSeek-V4 Preview 正式开源发布
2026/4/24
DeepSeek正式发布并开源DeepSeek-V4 Preview系列。该系列包含DeepSeek-V4-Pro和DeepSeek-V4-Flash，两款模型均支持100万Token上下文、API服务、开放权重以及Thinking和Non-Thinking双模式。
Gemma 4 发布：基于 Apache 2.0 的最强开源 AI 模型
2026/4/3
Google 正式推出 Gemma 4，以 Apache 2.0 许可协议提供前所未有的参数级智能。其 31B 模型在全球 Arena AI 榜单中位列第三，而全新的端侧多模态模型彻底重塑了离线移动端 AI 的处理能力。
科学写作的新标准：GPT-5.2 驱动的 Prism 平台让科研从此告别繁琐格式
2026/1/28
Prism 作为一个集成了 GPT-5.2 的免费 LaTeX 原生工作区，旨在加速日常科学工作。它具备“项目感知”型 AI、无限人数的实时协作以及与 Zotero 同步的文献管理功能，通过自动化处理格式和编辑任务，让科学家能够将宝贵的时间从清理工作中解放出来，专注于思想的创新。
xAI 完成 200 亿美元 E 轮融资
2026/1/25
xAI 超额完成 E 轮融资，筹集 200 亿美元，旨在通过全球最大的 GPU 集群加速 Grok 5 的研发与部署。
GPT-5.5 已登陆 ChatGPT 与 Codex
2026/4/24
OpenAI 开始在 ChatGPT 和 Codex 中推出 GPT-5.5。新模型面向编码、电脑操作、知识工作、科学研究以及需要规划、工具使用和持续执行的长任务。
AI 机器人重塑医疗分诊
2026/1/25
基于 Meta AI 模型的自主机器人在 DARPA 挑战赛中大显身手，正在彻底改变灾难现场的伤员分诊与救援流程。
Qwen3-TTS：开源语音生成新纪元
2026/1/25
Qwen3-TTS 家族正式开源，提供强大的声音克隆、通过自然语言指令进行的个性化声音设计，以及适用于实时交互的超低延迟流式语音生成功能。
Qwen3.6-Plus：全能智能体与代码生成的绝对巅峰
2026/4/3
阿里云正式发布 Qwen3.6-Plus，树立了自主 AI 智能体的新全球标准。该模型拥有 1M 超大上下文窗口，在 SWE-bench Verified 测试中斩获 78.8 分，完美执行复杂的代码仓库级自动化工作流。
MapTrace：教 AI 读懂地图的合成数据革命
2026/2/19
Google 研究人员推出了 MapTrace，利用 Gemini 2.5 和 Imagen-4 生成了 200 万份合成地图数据。这一突破性管道教会了 MLLM 细粒度的空间推理能力，显著提升了 Gemma 3 和 Gemini 2.5 Flash 在复杂环境中的导航表现。
MiniMax发布M2.7，强调模型参与自身演进
2026/4/12
MiniMax发布M2.7，并将其定义为M2系列中首个深度参与自身演进的模型。公司表示，该模型不仅执行任务，也会参与构建代理框架、更新记忆并持续优化自身工作流程。
Claude Opus 4.7 现已全面开放
2026/4/17
Anthropic宣布Claude Opus 4.7正式进入全面可用阶段。官方将其定位为Opus 4.6的直接升级版本，重点强化了高级软件工程、视觉处理、长任务稳定性以及高价值专业知识工作能力。
ProducerAI 加入 Google Labs：生成式 AI 重塑音乐创作
2026/2/24
Google Labs 宣布整合生成式音乐平台 ProducerAI。借助 Lyria 3 和 Gemini 模型，并配备 SynthID 水印，该平台让艺术家能通过自然语言指令轻松创作专业级歌曲和全新乐器。
从“静观”到“主动探究”：Gemini 3 Flash 推出 Agentic Vision（代理视觉）功能
2026/1/27
Google DeepMind 为 Gemini 3 Flash 引入了全新的“代理视觉”（Agentic Vision）能力。通过结合视觉推理与 Python 代码执行，模型能够执行“思考-行动-观察”的循环，主动缩放、标记和分析图像，从而在多项视觉基准测试中实现了 5-10% 的质量提升。
开源视觉代理智能的新巅峰：Kimi K2.5 发布，首创自适应“智能体集群”技术
2026/1/27
Kimi K2.5 作为迄今为止最强大的开源模型正式发布。基于 15T 混合 token 训练，该模型引入了原生的视觉代理智能和“智能体集群”（Agent Swarm）范式。它能够自主指挥 100 个子智能体并行协作，通过视频直接生成代码，并在多项基准测试中超越 GPT-5.2 等顶尖竞品。
突破语言壁垒：ChatGPT 以语境感知重塑 40 多种语言的即时互译体验
2026/1/29
ChatGPT正在重新定义跨语言沟通，它不仅翻译文字，更能在 40 多种语言中精准传递语调与文化语境。通过处理语音、文本和图像，它克服了传统工具的局限，为学生、旅行者和专业人士提供了一种自然、流畅且精准的全球交流方式。
从草图到现实：Google 推出“Project Genie”原型，开启无限交互世界新纪元
2026/1/29
Google 宣布向美国地区的 Google AI Ultra 订阅者开放“Project Genie”实验性研究原型。该平台由 Genie 3 世界模型驱动，赋予用户通过文字或图像创建、探索并重混交互式虚拟世界的能力。这是 Google 在通往通用人工智能（AGI）道路上的又一重大里程碑，展示了 AI 模拟现实动态的强大潜力。
Codex 新增电脑操作功能
2026/4/17
Codex迎来一次大幅更新，能力范围不再局限于写代码。新版加入了电脑操作、网页支持、图像生成、记忆、自动化以及更完整的开发工作流功能，进一步向统一的软件开发工作空间靠近。