微软推出了全新的Phi-4-mini-闪推理小型语言模型,其主要优势在于,它能为边缘设备、移动应用和嵌入式系统等资源受限环境带来先进的推理能力。通过在本地设备上运行此类模型,您无需向OpenAI和谷歌等公司托管的服务器发送请求(这些公司会利用您的输入来训练新模型),从而增强了隐私保护。
如今,许多新设备都配备了神经处理单元,使得在本地高效运行AI成为可能。因此,微软这类创新成果正变得愈发重要。
微软这款全新的Phi模型采用了名为SambaY的新架构,这也是该模型的核心创新所在。在SambaY架构中,有一个名为门控记忆单元(GMU)的组件,它能在模型内部各部分之间高效共享信息,从而提升模型效率。
得益于这些进步,该模型即使面对极长的输入,也能更快地生成答案并完成任务。此外,这款Phi模型还能处理大量数据,并理解非常长的文本或对话。
该模型的主要亮点在于,其吞吐量比其他Phi模型高出多达10倍。这意味着,在相同时间内,该模型能完成更多工作。具体来说,它能在相同时间内处理10倍的请求量或生成10倍的文本量,这对于实际应用而言是巨大的提升。同时,延迟也降低了2至3倍。
随着Phi-4-mini-闪推理模型在速度和效率上的提升,它降低了在更普通硬件上本地运行AI的门槛。微软表示,该模型将适用于需要实时反馈循环的自适应学习场景;作为移动学习助手等设备端推理代理;以及根据学习者表现动态调整难度的互动辅导系统。
微软表示,该模型在数学和结构化推理方面尤为出色。这使得它在教育技术、轻量级模拟以及需要可靠逻辑推理和快速响应时间的自动化评估工具中具有重要价值。
全新的Phi-4-mini-闪推理模型已在Azure AI Foundry、NVIDIA API目录和Hugging Face上发布。
图片来源Depositphotos.com