Phi-3-vision 是一款多模态小型语言模型(SLM),主要用于本地 AI 场景,该模型参数量为 42 亿,上下文长度为 128k token,能够为常规视觉推理任务和其他任务提供支持。
那么 Phi-3-vision 有多厉害?微软今天发布了新的论文 [PDF],表示该 SLM 和 Claude 3-haiku、Gemini 1.0 Pro 等其他模型不相上下。
微软在论文中对比了 ScienceQA、MathVista 和 ChartQA 等模型,Phi-3-vision 的参数虽然不多,但性能非常优秀。
此前报道,微软提供了 Phi-3-vision 相较于字节跳动 Llama3-Llava-Next(8B)、微软研究院和威斯康星大学、哥伦比亚大学合作的 LlaVA-1.6(7B)、阿里巴巴通义千问 QWEN-VL-Chat 模型等竞品模型的比较图表,其中显示 Phi-3-vision 模型在多个项目上表现优异。
目前微软已经将该模型上传至 Hugging Face,感兴趣的小伙伴们可以访问项目地址:点此进入。
相关教程
2024-10-30
2024-04-29
2024-01-02
2024-09-12
2024-02-02
2023-10-24
2024-03-22
2023-12-29
2023-09-30
2024-11-18
2024-11-18
2024-11-15
2024-11-15
2024-11-14
2024-11-14
copyright © 2012-2024 雪花家园 m.xhjaty.com 版权声明