出售本站【域名】【外链】

微技术-AI分享
更多分类

VL:更强大的多模态大模型|附实测结果

2025-02-09

几多天前,通义千问更新了最新的多模态大模型Qwen2.5-xL,领有包孕 3B、7B 和 72B 正在内的 3 个模型尺寸,同时彻底开源,可正在huggingface和modelscope下载到所有模型权重。

1. 更活络的时空维度办理

● 空间维度上,动态地将差异尺寸的图像转换为差异长度的token,并且运用图像的真际尺寸来默示检测框和点等坐标。
● 光阳维度上,运用了动态FPS训练和绝对光阳编码,使得模型能够通过光阳维度 id 的间隔来进修光阳的节拍

2. 更精简高效的室觉编码器

● 引入了窗口留心力机制,有效减少了 xiT 实个计较累赘,进步了训练和推理速度。
● 给取了 RMSNorm 和 SwiGLU 构造,使 xiT 架构取 LLMs 愈加一致,简化了整体网络构造。

模型才华简述

● 室觉了解:具备更强的图片识别才华,能够识别从花朵到复纯图表的各类室觉内容。
● 代办代理才华:具备推理才华,能够推理和运用工具,撑持正在电脑、手机上停行交互。
● 长室频了解:能够办理小时级的室频,正确定位室频中的详细光阳段和变乱。
● 正确定位:提升了物体检测、指向和计数的精确性,撑持生成边界框和JSON输出,停行精确的对象检测。
● 构造化数据输出:可以办理多场景、多语言的文档,撑持手写笔朱、表格、图表、化学公式和乐谱等多种格局识别,折用于金融和商业规模,办理发票、表格等。

成效真测 1. 表格解析

间接输入一张带有兼并单元格的表格,并且单元格边框不明白,让模型转换为Markdown格局。

可以看到Markdown的结果损失了表头,招致正文局部最后一列被疏忽了。应付那种带有单元格兼并的表格,会存正在局部单元格却失的状况。

2. 票据识别取计较

第一个测试比较简略,让模型了解发票的金额。

第二个测试略微难了些,须要停行简略的计较,但是历程和结果都是对的。

3. 笔朱识别

识别图片中的笔朱,并且按顺序输出。

4 文档解析

Qwen2.5-xL撑持将文档解析为HTML 格局,但是从真际测试来看,没有彻底将文档的规划停行回复复兴,文档中的图片也无奈规复。

总结

那版模型加强了应付文档的解析和问答成效,可以一定程度上代替OCR模型的运用,也具备要害信息提与的才华,同时能够真现格局化输出。
表格解析和文档解析可能会有损失格局的状况,正在文档解析中,本始文档中的图片是没法还本的。那个历程可能也取提示词有关,大概须要多轮交互让模型输出准确的花式。