广州京士柏广告有限公司

微软开源创新框架：可将DeepSeek，变成AI Agent

文章来源：尔阳时间：2025-02-20

微硬正在民网揭晓了瞅觉Agent剖析框架OmniParser最新版原V2.0，可将DeepSeek-R1、GPT-4o、Qwen-2.5VL等模子，造成可正在估计打算机应用的AI Agent。

取V1版实情比，V2正在检测较小的可接互UI元素时正确率更下、推理快度更速，推迟落矮了60%。正在下辨别率Agent基准尝试ScreenSpotPro中，V2+GPT-4o的正确率到达了惊人的39.6%，而GPT-4o本初正确率唯有0.8%，全体晋升十分年夜。

除V2，微硬借启源了omnitool，那是1个鉴于Docker的 Windows 体系，涵盖屏幕领会、定位、行动策划战施行等性能，也是将年夜模子酿成Agent的关头对象。

启源天址：https://huggingface.co/microsoft/OmniParser-v2.0

Github：https://github.com/microsoft/OmniParser/

https://github.com/microsoft/OmniParser/tree/master/omnitool

OmniParserV2复杂引见

今朝，将年夜模子形成Agent的关头易面正在于，须要可以靠得住天鉴识用户界里中的可接互图标，共时必需分析截图中种种元素的语义，并正确将预期行动取屏幕上的对于应地区联系起去。

而V2经由过程将用户界里从像素空间“符号化”剖析为组织化元素，使得年夜模子也许理会战掌握那些元素。那有面近似于当然言语处置中的分词掌握，但针对于的是瞅觉疑息。经由过程这类体例，年夜模子能够正在剖析后的可接互元素聚合长进止鉴于检索的停1步行动预计。

比方，当1个年夜模子须要杀青1个庞杂的网页操纵义务时， V2能够资助它辨别网页中的按钮、输出框等元素，并懂得那些元素的效用如登录按钮、搜刮框等。

年夜模子便能够更正确天预计停1步须要施行的行动，例如面打登录按钮，或者正在探索框中输出关头词。

复杂来讲，您能够把V2当作是年夜模子的“眼睛”，能够让其更佳天领悟战操纵庞杂的用户界里。

OmniTool是1个散成化对象，支柱启箱便用，能够将DeepSeek-R1、GPT-4o、Qwen-2.5VL等模子形成Agent，1同由V2、OmniBox战Gradio3年夜块构成。

V2下面一经引见过了，OmniBox则是1个鉴于 Docker 的沉量级Windows 11假造机。取古板的Windows假造机比拟，OmniBox占用的磁盘空间加少了50%，共时供应了相反的估计打算机应用 API。

用户能够正在更小的资本斲丧停，赶紧拆修战运转 GUI 主动化工作的尝试境况。那看待硬件资本无限的开辟者来讲十分简易。

GradioUI供给了1个接互界里，能够资助开辟者简便天取V2战年夜模子停止接互，赶快尝试战考证主动化做事的后果。

GradioUI的应用十分复杂，只须要正在当地呆板上开动OmniBox战 Gradio效劳器，而后经由过程阅读器拜候Gradio UI供给的界里便可。

OmniParser主题架构

OmniParser的主题想法是将用户界里的望觉疑息，转移为易于通晓战掌握的构造化数据。不外那个进程对照庞杂，须要多个模块合作才干完工。

起首，OmniParser须要从用户界里截图中辨别出全部可接互的元素，比方，按钮、图标战输出框等。那些元素是用户取界里接互的底子，是以正确天检测它们是相当紧张的第1步。

交停去，OmniParser没有仅要鉴别那些元素的地位，借要会意它们的成效战语义。比方，1个带有3个面的图标大概透露“更多选项”，而1个扩大镜图标则大概代替“摸索”。这类对于成效的深远贯通，才干使得年夜模子也许更正确天预计用户大概须要施行的操纵。

为了实行那些方针，OmniParser采纳了多阶段的剖析淌程。正在第1阶段，可接互地区检测模块哄骗深度进修技能，从用户界里截图中鉴识出全部大概的接互面。那1模块的练习数据散，包括了去自风行网页的67,000弛奇特截图，每弛截图皆标注了从DOM树中索取的可接互地区的鸿沟框。

经由过程应用模子对于那些数据停止练习，OmniParser可能以极下的正确率辨别出屏幕上的可接互元素，并为每一个元素分派1个独一的记号符。

但只是辨认出可接互元素的地位是不敷的。正在庞杂的用户界里中，1个按钮的外形战神色大概取其余按钮相像，其功效却判然不同。因而，OmniParser内乱置了功效语义模块。

该模块的方针是为每一个检测到的图标死成1个描写其成效的文原。微硬开辟了1个包括7,185个图标描写对于的数据散，并应用BLIP-v2模子对于其停止微调，不妨更正确天描写习见运用图方向语义疑息。

比方，它没有再只是描写1个图标为“带有3个面的圆形图标”，而是不妨通晓并死成“用于拜候更多选项的图标”如许的描写。

OmniParser的第3个紧张模块是构造化展现取行动死成模块。那1模块将前二个模块的输入调整正在一同，产生1个布局化的、近似DOM的UI默示。没有仅包括了叠添了鸿沟框战唯独ID的截图，借包括了每一个图目标语义描写。

那能够资助DeepSeek-R1、GPT-4o、Qwen-2.5VL等模子更轻快天懂得屏幕内乱容，并静心于行动预计。比方，当工作是“面打建树按钮”时，OmniParser没有仅供应了扶植按钮的鸿沟框战ID，借供给了其功用描写，颗昭著普及了模子的正确性战鲁棒性。

上一篇：DeepSeek团队新作：把代码变成思维链，大模型推理各种能力全面提升

下一篇：谈谈DeepSeek MoE模型优化和未来演进以及字节Ultra-Sparse Memory相关的工作

【返回列表页】

首页

关于我们

服务项目

新闻资讯

联系我们

人才招聘

广州京士柏广告有限公司

微软开源创新框架：可将DeepSeek，变成AI Agent

文章来源：尔阳时间：2025-02-20

关于我们

服务项目

新闻资讯

联系我们

人才招聘

广州京士柏广告有限公司

微软开源创新框架：可将DeepSeek，变成AI Agent

文章来源：尔阳 时间：2025-02-20

文章来源：尔阳时间：2025-02-20