Agent TARS 字节开源多模态 AI 智能体 电脑自动化操控框架

Agent TARS操作界面

Agent TARS 是字节跳动 Seed 团队开源的通用多模态 AI 智能体技术栈,包含 CLI 命令行、Web 网页端与 UI‑TARS 桌面客户端,支持自然语言操控电脑、浏览器、命令行、文件系统,可像真人一样完成点击、输入、浏览、搜索、填表、预订、数据分析等复杂任务。
基于 UI‑TARS 视觉语言模型,采用视觉 + DOM 混合识别技术,搭配 MCP 模型上下文协议,集成搜索、文件编辑、代码运行、系统操作等工具,支持任务自动规划、多步骤工作流编排、实时操作可视化,可本地私有化部署、保护隐私,兼容主流大模型,适合自动化办公、数据采集、网页操作、开发调试、数字员工搭建等场景,免费开源可二次开发。

中文文档:https://github.com/bytedance/UI-TARS-desktop/blob/main/README.zh-CN.md

部署指南

# Launch with `npx`.
npx @agent-tars/cli@latest

# Install globally, required Node.js >= 22
npm install @agent-tars/cli@latest -g

# Run with your preferred model provider
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key

 

上一篇 堡塔云 WAF 网站防火墙 云防护 CC 攻击拦截工具
下一篇 BentoPDF轻量 PDF 编辑器 免费PDF处理工具支持私有化部署
实时下载排行