UI-TARS-desktop - GUI Agent工具 | 本地电脑控制视觉语言模型自然语言操作开源免费

2026年3月5日 332点热度 0人点赞 0条评论

软件介绍

UI-TARS-desktop 是一个基于视觉语言模型的桌面GUI Agent应用，由字节跳动开源。它通过屏幕截图实时感知界面内容，并用自然语言指令控制电脑操作，如打开文件、浏览网页、点击按钮、输入文字、拖拽等。支持本地和远程电脑/浏览器操作，完全本地运行，无需云端依赖。核心一句话：UI-TARS-desktop 让AI像人类一样“看懂”并操作你的电脑，实现自动化任务执行。

UI-TARS-desktop界面 - GUI Agent本地电脑控制视觉语言模型与自然语言操作演示

核心参数

支持系统：Windows 10/11、macOS 12+、Linux（部分支持）
最低配置：8GB内存 + 支持GPU的CPU（推荐16GB+内存 + NVIDIA GPU流畅运行模型）
最高支持：多模态理解（视觉+语言）、实时鼠标键盘控制、浏览器自动化、远程操作
核心功能：本地电脑控制、屏幕感知、指令解析、动作执行、日志审计
模型支持：UI-TARS-1.5/2系列（7B/72B等规模，可本地部署或vLLM推理）
运行方式：本地Electron应用 + 模型推理（vLLM推荐）
开源许可：Apache-2.0（代码公开，可审计/修改/商用）
权限要求：屏幕捕获、鼠标键盘控制、网络（本地推理可选）
最新版本（2026参考）：v0.2.0+（新增远程浏览器/电脑操作、优化模型加载）

软件功能亮点

自然语言指令控制

输入“打开浏览器搜索字节跳动官网”或“在桌面新建文件夹叫AI测试”，AI自动执行。

屏幕视觉感知

实时截图分析界面元素（按钮、输入框、图标），精准定位并交互。

鼠标键盘自动化

支持单击/双击/右键、拖拽、滚轮、键盘输入、快捷键组合。

浏览器与桌面双支持

本地桌面操作 + 远程浏览器自动化，适合网页任务和本地软件控制。

远程电脑/浏览器操作

无需配置端口映射，即可控制另一台电脑或浏览器，实现远程协助。

日志审计与调试

详细记录每步操作（感知、推理、动作），便于排查和优化。

开源免费与本地运行

开源免费，全部本地部署，无需互联网连接（推理后）。

使用教程

步骤1-2：安装与模型准备

1. 从下载渠道获取UI-TARS-desktop安装包。
2. 安装完成后下载UI-TARS模型（Hugging Face或本地部署vLLM）。

步骤3-4：启动与连接

3. 运行应用，加载模型（首次可能需几分钟）。
4. 输入自然语言指令开始操作（如“帮我打开记事本”）。

步骤5-6：高级任务

5. 使用远程模式连接另一台电脑（输入ID/密码）。
6. 查看日志面板调试执行过程。

小Tips（新手快速上手建议）

新手先用简单指令测试（如“截图桌面”）；本地GPU加速模型加载；复杂任务分步描述提升准确率。

安全与使用提醒

1. 授予屏幕/键盘控制权限时注意隐私；避免在敏感环境中运行未知指令。
2. 模型推理需强大硬件，建议用vLLM优化；从可信渠道下载避免篡改。
3. 远程操作时确认对方授权，防止未授权访问。

下载地址（分流入口）

1. 主页下载与文档： https://github.com/bytedance/UI-TARS-desktop/blob/main/README.zh-CN.md（推荐首选，含最新安装包）
2. GitHub核心仓库：https://github.com/bytedance/UI-TARS-desktop （源代码 + Releases）
3. Windows/Mac/Linux安装：https://github.com/bytedance/UI-TARS-desktop/releases （官方Releases）
4. 模型下载：https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B （Hugging Face模型）
5. 社区讨论与支持：https://github.com/bytedance/UI-TARS-desktop/discussions （Issue与教程）