2025年AI行业重心正从纯文本模型转向多模态领域。下半年以来,Sora 2、谷歌Nano Banana等多模态应用相继推出,视觉创作类AI Agent也获得高度关注。
文本模型已进入优化阶段,性能提升趋于平稳,而多模态能力在可用性上取得突破。DeepSeek-OCR通过将文本转化为图像识别,大幅降低了计算成本,展示了文本模型优化方向。
多模态发展以文本模型为基础,理解与生成相互促进。业界认为多模态是通向AGI的必经之路,其突破将推动世界模型、具身智能等发展,并为市场带来更多商业机会。
2025年AI行业重心正从纯文本模型转向多模态领域。下半年以来,Sora 2、谷歌Nano Banana等多模态应用相继推出,视觉创作类AI Agent也获得高度关注。
文本模型已进入优化阶段,性能提升趋于平稳,而多模态能力在可用性上取得突破。DeepSeek-OCR通过将文本转化为图像识别,大幅降低了计算成本,展示了文本模型优化方向。
多模态发展以文本模型为基础,理解与生成相互促进。业界认为多模态是通向AGI的必经之路,其突破将推动世界模型、具身智能等发展,并为市场带来更多商业机会。
热点播报 2025-10-29 15:56:36
热点播报 2025-10-29 15:39:12
热点播报 2025-10-29 14:22:39
热点播报 2025-10-29 13:42:18
热点播报 2025-10-29 13:02:49
网友评论