自己做网站和外包,国际外贸平台有哪些,设计作品集模板,百度高级搜索首页阿里开源Ovis1.6#xff1a;多模态领域再夺第一
阿里再一次证明了自己在多模态领域的实力。这一次#xff0c;阿里国际AI团队开源的多模态大模型Ovis1.6#xff0c;不仅成功开源#xff0c;还在多模态评测基准OpenCompass上击败了Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.…阿里开源Ovis1.6多模态领域再夺第一
阿里再一次证明了自己在多模态领域的实力。这一次阿里国际AI团队开源的多模态大模型Ovis1.6不仅成功开源还在多模态评测基准OpenCompass上击败了Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6等主流开源模型荣登300亿参数以下模型榜首。 Ovis1.6不仅仅是在视觉感知推理、数学推理以及科学分析等多项任务中表现优异甚至在一些评测中超过了闭源模型GPT-4o-mini。无论是学术研究、生活场景还是金融财报分析Ovis1.6的表现堪称卓越。
Ovis1.6的实际应用
在应用方面Ovis1.6展示了多模态大模型的广泛适用性。例如它可以通过视觉理解和数学推理来帮助用户处理复杂的大学数学问题 还能够解析论文生成关键内容或进行财务报表的分析。 这一模型甚至可以通过图像分析生成简单易懂的烹饪指导例如教用户如何做一道经典的炸鱼薯条。 更重要的是Ovis系列大模型遵循Apache 2.0开源协议允许开发者进行商用。这种开放性和灵活性使其在开发和商用环境中具有极高的实用价值。
技术细节揭秘视觉与文本嵌入的对齐
阿里国际AI团队在开发Ovis1.6时针对多模态模型存在的视觉与文本信息不协调的问题提出了创新性的解决方案。传统多模态大模型往往通过简单的连接器将预训练的大语言模型LLM与视觉Transformer结合但这种方法导致文本和视觉模块难以有效融合影响模型的整体性能。 Ovis1.6引入了视觉Tokenizer、视觉嵌入表以及大语言模型相结合的架构通过可学习的视觉嵌入表将连续的视觉特征转化为结构化的视觉token。然后这些视觉token会和文本token一起被处理完成多模态任务。 这种架构设计不仅解决了视觉和文本信息的对齐问题还显著提升了模型在处理复杂视觉任务和文本生成任务时的性能。
优化与应用
Ovis1.6相较于前代产品Ovis1.5在架构、数据以及训练策略等方面进行了全面优化。例如采用动态子图方案来灵活处理不同分辨率的图像特征在实际任务中提升了模型的应对能力。数据方面Ovis1.6涵盖了丰富的数据集如Caption、OCR、表格、图表和数学数据确保模型在多个应用场景中保持优异表现。训练策略方面通过DPO等优化手段进一步增强了模型的生成和理解复杂任务的能力。
实验表明Ovis1.6与基于MLP连接器的架构相比性能提升了8.8%。此外Ovis1.6已经应用于阿里国际的多项实际业务中特别是在出海电商领域展现出了显著的降本增效效果。
Ovis1.6助力出海电商
阿里国际通过Ovis1.6的强大AI能力改变了跨境电商领域的工作方式。特别是在退货和退款审核环节Ovis1.6通过处理用户提供的图文、视频信息实现了秒级别的审核极大减少了人力成本提高了效率和一致性确保了商家与消费者的公平权益。 此外Ovis1.6还在商品属性提取、生成卖点等应用场景中被广泛应用优化了商品发布流程并提升了商品的搜索量和曝光度。阿里国际的AI能力已覆盖营销、客户服务、商品发布等40多个应用场景日均调用超过5000万次。 AI助力商家降本增效的秘密武器
Ovis1.6只是阿里国际AI能力的一部分阿里国际还构建了多语言增强大模型Marco以及电商版多模态大模型MarcoVL专门为电商领域提供定制化服务。这些AI技术已经成为跨境商家在全球市场中提升竞争力的重要工具。 例如通过AI生成的多语言商品描述使得商家能够突破语言障碍更加高效地与全球消费者沟通。AI图片处理技术如一键生成虚拟试衣效果等也让商品展示更加生动进一步提高了购买转化率。
阿里国际的Ovis1.6大模型不仅在技术上取得了重要突破更在实际商业应用中展现了强大的降本增效能力。通过开源和AI技术的赋能阿里国际为出海电商商家提供了更具竞争力的工具和服务也为全球开发者和企业提供了更多技术创新的可能。
对于广大开发者而言Ovis1.6的开源无疑是一个重大利好为他们带来了强大的多模态技术推动更多创新和应用的诞生。
Ovis1.6开源地址和Demo arXiv: https://arxiv.org/abs/2405.20797 Github: https://github.com/AIDC-AI/Ovis Huggingfacehttps://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B Demohttps://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B