
Agent TARS 是字节跳动 Seed 团队开源的通用多模态 AI 智能体技术栈,包含 CLI 命令行、Web 网页端与 UI‑TARS 桌面客户端,支持自然语言操控电脑、浏览器、命令行、文件系统,可像真人一样完成点击、输入、浏览、搜索、填表、预订、数据分析等复杂任务。
基于 UI‑TARS 视觉语言模型,采用视觉 + DOM 混合识别技术,搭配 MCP 模型上下文协议,集成搜索、文件编辑、代码运行、系统操作等工具,支持任务自动规划、多步骤工作流编排、实时操作可视化,可本地私有化部署、保护隐私,兼容主流大模型,适合自动化办公、数据采集、网页操作、开发调试、数字员工搭建等场景,免费开源可二次开发。
中文文档:https://github.com/bytedance/UI-TARS-desktop/blob/main/README.zh-CN.md
部署指南
# Launch with `npx`.
npx @agent-tars/cli@latest
# Install globally, required Node.js >= 22
npm install @agent-tars/cli@latest -g
# Run with your preferred model provider
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key