AI竞争激烈至日出三新品：微软自研模型，OpenAI升级语音，马斯克切入编程-翊众世纪

8月29日消息，微软、OpenAI与埃隆·马斯克旗下的xAI不约而同地发布了各自最新的AI模型，此举不仅标志着AI赛道的竞争已进入白热化阶段，也凸显了核心技术正以前所未有的速度向前推进。

微软自研模型，志在掌控AI命运。微软周四推出了两款自主研发的强大AI模型，此举标志着微软的人工智能部门将不再“藏于幕后”，而是要正式走向台前，与OpenAI等行业巨头正面竞争，从而在高风险的AI赛道上掌握自己的命运。MAI-Voice-1：一款高效的语音AI模型，能够在单个GPU上运行，并在不到一秒内生成一分钟的音频。· MAI-1-preview：一款文本模型，预计将为未来版本的Copilot AI助手提供支持。这两款模型在设计上都高度注重成本效益。微软人工智能部门负责人穆斯塔法·苏莱曼（Mustafa Suleyman）透露，微软采用了部分来自开源社区的技术，以MAI-1-preview为例，其训练仅使用了约1.5万颗英伟达H-100 GPU，远低于xAI的Grok模型所使用的超10万颗。

OpenAI升级语音API，定义“下一个媒介”。同一天，OpenAI也发布了其迄今为止最先进的语音模型gpt-realtime，并宣布其Realtime API在历经数月公测后已广泛可用。“我们认为语音是下一个媒介，”OpenAI产品负责人迈克达德·贾弗（Miqdad Jaffer）表示，“通过语音来表达，比文本更简单、更自然。”据介绍，OpenAI于2024年10月首次以公测版形式推出了Realtime API，此次更新后，将支持远程模型上下文协议（MCP）服务器、图像输入和电话呼叫。OpenAI方面表示，MCP非常适合语音命令，能让用户无缝地通过已连接的应用程序执行操作。这些扩展功能将使得语音智能体能够访问更多工具，并拥有更丰富的上下文来协助用户。这不仅简化了将AI模型与数据源连接的过程，并且MCP作为一项开放标准，还能在确保连接安全性的同时，优先保护用户的数据和隐私。新的gpt-realtime模型则在多个维度上实现了显著提升：不仅在智能化、函数调用和遵循复杂指令方面有所改进，还能在单个句子中途流畅地切换语言。其演示版本展现了逼真的类人特性，声音的起伏能够表达多种情感，甚至在面对“越狱尝试”时也能冷静地重新引导对话。此外，该模型还能分析照片内容，并就其观察与用户展开讨论。此外，OpenAI还新增了两种专供API用户的语音Cedar和Marin。从周四开始，新模型和API已向所有开发者开放。贾弗建议开发者，“去做对你的用户最有益的事情，我们相信语音就是未来。”

xAI切入编程赛道，主打经济高效。与此同时，马斯克旗下的xAI也加入了这场发布热潮，推出了一款名为grok-code-fast-1的“快速且经济”的智能编程模型，正式进军AI编程这一关键领域。xAI表示，该模型将在有限时间内免费提供，首批发布合作伙伴包括了GitHub Copilot和Windsurf。其“优势在于以经济、紧凑的形式提供强劲的性能”，旨在成为处理常见编程任务的高性价比选择。智能编程领域的竞争正日趋激烈。微软的GitHub Copilot已在企业中广泛应用，其CEO萨提亚·纳德拉（Satya Nadella）在4月透露，公司内部已有20%至30%的代码由AI编写。而OpenAI旗下的编程助手Codex也已于6月向ChatGPT Plus用户开放。xAI此刻入局，无疑将使这一赛道的竞争格局更趋复杂。

微软、OpenAI和xAI在同一天的模型发布，共同勾勒出当前AI行业竞争激烈、创新层出不穷的图景。

微软正着力于通过自主研发掌握核心技术，并强调模型的成本效益和长期战略部署；OpenAI则持续深耕其技术优势，力图在作为“下一个媒介”的语音交互上定义行业标准；而xAI则以其“快速且经济”的智能编程模型，切入AI编程助手这一关键应用领域。