UI-TARS-desktop - GUI Agent工具 | 本地电脑控制 视觉语言模型 自然语言操作 开源免费

软件介绍

UI-TARS-desktop 是一个基于视觉语言模型的桌面GUI Agent应用,由字节跳动开源。它通过屏幕截图实时感知界面内容,并用自然语言指令控制电脑操作,如打开文件、浏览网页、点击按钮、输入文字、拖拽等。支持本地和远程电脑/浏览器操作,完全本地运行,无需云端依赖。核心一句话:UI-TARS-desktop 让AI像人类一样“看懂”并操作你的电脑,实现自动化任务执行。

UI-TARS-desktop界面 - GUI Agent本地电脑控制 视觉语言模型与自然语言操作演示

核心参数

支持系统:Windows 10/11、macOS 12+、Linux(部分支持)
最低配置:8GB内存 + 支持GPU的CPU(推荐16GB+内存 + NVIDIA GPU流畅运行模型)
最高支持:多模态理解(视觉+语言)、实时鼠标键盘控制、浏览器自动化、远程操作
核心功能:本地电脑控制、屏幕感知、指令解析、动作执行、日志审计
模型支持:UI-TARS-1.5/2系列(7B/72B等规模,可本地部署或vLLM推理)
运行方式:本地Electron应用 + 模型推理(vLLM推荐)
开源许可:Apache-2.0(代码公开,可审计/修改/商用)
权限要求:屏幕捕获、鼠标键盘控制、网络(本地推理可选)
最新版本(2026参考):v0.2.0+(新增远程浏览器/电脑操作、优化模型加载)

软件功能亮点

自然语言指令控制

输入“打开浏览器搜索字节跳动官网”或“在桌面新建文件夹叫AI测试”,AI自动执行。

屏幕视觉感知

实时截图分析界面元素(按钮、输入框、图标),精准定位并交互。

鼠标键盘自动化

支持单击/双击/右键、拖拽、滚轮、键盘输入、快捷键组合。

浏览器与桌面双支持

本地桌面操作 + 远程浏览器自动化,适合网页任务和本地软件控制。

远程电脑/浏览器操作

无需配置端口映射,即可控制另一台电脑或浏览器,实现远程协助。

日志审计与调试

详细记录每步操作(感知、推理、动作),便于排查和优化。

开源免费与本地运行

开源免费,全部本地部署,无需互联网连接(推理后)。

使用教程

步骤1-2:安装与模型准备

1. 从下载渠道获取UI-TARS-desktop安装包。
2. 安装完成后下载UI-TARS模型(Hugging Face或本地部署vLLM)。

步骤3-4:启动与连接

3. 运行应用,加载模型(首次可能需几分钟)。
4. 输入自然语言指令开始操作(如“帮我打开记事本”)。

步骤5-6:高级任务

5. 使用远程模式连接另一台电脑(输入ID/密码)。
6. 查看日志面板调试执行过程。

小Tips(新手快速上手建议)

新手先用简单指令测试(如“截图桌面”);本地GPU加速模型加载;复杂任务分步描述提升准确率。

安全与使用提醒

1. 授予屏幕/键盘控制权限时注意隐私;避免在敏感环境中运行未知指令。
2. 模型推理需强大硬件,建议用vLLM优化;从可信渠道下载避免篡改。
3. 远程操作时确认对方授权,防止未授权访问。

下载地址(分流入口)

1. 主页下载与文档: https://github.com/bytedance/UI-TARS-desktop/blob/main/README.zh-CN.md(推荐首选,含最新安装包)
2. GitHub核心仓库:https://github.com/bytedance/UI-TARS-desktop (源代码 + Releases)
3. Windows/Mac/Linux安装:https://github.com/bytedance/UI-TARS-desktop/releases (官方Releases)
4. 模型下载:https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B (Hugging Face模型)
5. 社区讨论与支持:https://github.com/bytedance/UI-TARS-desktop/discussions (Issue与教程)

上一篇 1Panel 开源Linux运维面板 | 轻量高效、可视化管理,服务器运维首选
下一篇 Blender - 3D创作软件 | 建模动画渲染 几何节点 Cycles开源免费 多平台支持
实时下载排行