标签:视觉语言模型

UI-TARS-desktop - GUI Agent工具 | 本地电脑控制 视觉语言模型 自然语言操作 开源免费

UI-TARS-desktop - GUI Agent工具 | 本地电脑控制 视觉语言模型 自然语言操作 开源免费

软件介绍 UI-TARS-desktop 是一个基于视觉语言模型的桌面GUI Agent应用,由字节跳动开源。它通过屏幕截图实时感知界面内容,并用自然语言指令控制电脑操作,如打开文件、浏览网页、点击按钮、输入文字、拖拽等。支持本地和远程电脑/浏览器操作,完全本地运行,无需云端依赖。核心一句话:UI

guest guest 2026-03-05
367 0 0