软件介绍
UI-TARS-desktop 是一个基于视觉语言模型的桌面GUI Agent应用,由字节跳动开源。它通过屏幕截图实时感知界面内容,并用自然语言指令控制电脑操作,如打开文件、浏览网页、点击按钮、输入文字、拖拽等。支持本地和远程电脑/浏览器操作,完全本地运行,无需云端依赖。核心一句话:UI-TARS-desktop 让AI像人类一样“看懂”并操作你的电脑,实现自动化任务执行。

核心参数
支持系统:Windows 10/11、macOS 12+、Linux(部分支持)
最低配置:8GB内存 + 支持GPU的CPU(推荐16GB+内存 + NVIDIA GPU流畅运行模型)
最高支持:多模态理解(视觉+语言)、实时鼠标键盘控制、浏览器自动化、远程操作
核心功能:本地电脑控制、屏幕感知、指令解析、动作执行、日志审计
模型支持:UI-TARS-1.5/2系列(7B/72B等规模,可本地部署或vLLM推理)
运行方式:本地Electron应用 + 模型推理(vLLM推荐)
开源许可:Apache-2.0(代码公开,可审计/修改/商用)
权限要求:屏幕捕获、鼠标键盘控制、网络(本地推理可选)
最新版本(2026参考):v0.2.0+(新增远程浏览器/电脑操作、优化模型加载)
软件功能亮点
自然语言指令控制
输入“打开浏览器搜索字节跳动官网”或“在桌面新建文件夹叫AI测试”,AI自动执行。
屏幕视觉感知
实时截图分析界面元素(按钮、输入框、图标),精准定位并交互。
鼠标键盘自动化
支持单击/双击/右键、拖拽、滚轮、键盘输入、快捷键组合。
浏览器与桌面双支持
本地桌面操作 + 远程浏览器自动化,适合网页任务和本地软件控制。
远程电脑/浏览器操作
无需配置端口映射,即可控制另一台电脑或浏览器,实现远程协助。
日志审计与调试
详细记录每步操作(感知、推理、动作),便于排查和优化。
开源免费与本地运行
开源免费,全部本地部署,无需互联网连接(推理后)。
使用教程
步骤1-2:安装与模型准备
1. 从下载渠道获取UI-TARS-desktop安装包。
2. 安装完成后下载UI-TARS模型(Hugging Face或本地部署vLLM)。
步骤3-4:启动与连接
3. 运行应用,加载模型(首次可能需几分钟)。
4. 输入自然语言指令开始操作(如“帮我打开记事本”)。
步骤5-6:高级任务
5. 使用远程模式连接另一台电脑(输入ID/密码)。
6. 查看日志面板调试执行过程。
小Tips(新手快速上手建议)
新手先用简单指令测试(如“截图桌面”);本地GPU加速模型加载;复杂任务分步描述提升准确率。
安全与使用提醒
1. 授予屏幕/键盘控制权限时注意隐私;避免在敏感环境中运行未知指令。
2. 模型推理需强大硬件,建议用vLLM优化;从可信渠道下载避免篡改。
3. 远程操作时确认对方授权,防止未授权访问。
下载地址(分流入口)
1. 主页下载与文档: https://github.com/bytedance/UI-TARS-desktop/blob/main/README.zh-CN.md(推荐首选,含最新安装包)
2. GitHub核心仓库:https://github.com/bytedance/UI-TARS-desktop (源代码 + Releases)
3. Windows/Mac/Linux安装:https://github.com/bytedance/UI-TARS-desktop/releases (官方Releases)
4. 模型下载:https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B (Hugging Face模型)
5. 社区讨论与支持:https://github.com/bytedance/UI-TARS-desktop/discussions (Issue与教程)
文章评论