自通用 AI 智能体 Manus 发布以来,它就像野火一样在全球迅速传播。这款由中国武汉初创公司“蝴蝶效应”(Butterfly Effect)开发的产品不仅在中国引发热议,还吸引了全球科技界的关注。推特联合创始人杰克·多西(Jack Dorsey)和 Hugging Face 产品负责人维克多·穆斯塔尔(Victor Mustar)等知名人士都对其表现给予了高度评价。甚至有人称其为“第二个深度求索”(DeepSeek),因为它和此前那款凭借意外能力和出身震惊业界的 AI 模型一样,带来了新的惊喜。
Manus 自称是全球首个通用 AI 智能体,它整合了多个 AI 模型(如 Anthropic 的 Claude 3.5 Sonnet 和阿里巴巴开源模型 Qwen 的微调版本),并利用多个独立运行的智能体自主完成各种任务。(这使得它与基于单一大型语言模型的 AI 聊天机器人不同,包括深度求索在内,后者主要设计用于对话交互。)
尽管宣传铺天盖地,但真正使用过 Manus 的人寥寥无几。目前,等待名单中仅有不到 1% 的用户获得了邀请码。(尚不清楚具体有多少人在排队,但可以感受到它的热度——Manus 的 Discord 频道已拥有超过 18.6 万名成员。)
《麻省理工科技评论》获得了 Manus 的测试权限。在试用过程中,我发现它的体验就像与一位聪明高效的实习生合作:虽然偶尔会误解任务要求、做出错误假设或为了加快速度而偷工减料,但它能清晰地解释推理过程,适应能力极强,并且在收到详细指令或反馈后能显著改进。总体而言,它很有潜力,但还不完美。
与其母公司 2023 年发布的 AI 助手 Monica 一样,Manus 的目标用户是全球市场。默认语言设置为英语,界面设计简洁清爽。
用户需要输入有效的邀请码才能进入系统。随后,系统会引导用户进入一个与 ChatGPT 或深度求索极为相似的界面——左侧显示历史会话,中央是聊天输入框。主页还展示了公司精选的示例任务,涵盖商业战略制定、交互式学习,甚至定制化音频冥想课程。
与其他基于推理的智能体 AI 工具(如 ChatGPT DeepResearch)类似,Manus 能够将任务分解为多个步骤,并自主浏览网络以获取所需信息。它的独特之处在于“Manus’s Computer”窗口,用户可以实时观察 AI 的操作,并在任何阶段进行干预。
为了测试其能力,我交给了 Manus 三项任务:
- 整理一份报道中国科技领域的知名记者名单
- 搜索纽约市的两居室房源
- 提名《麻省理工科技评论》年度“35 岁以下创新者”榜单的潜在候选人
以下是它的表现:
任务 1:记者名单
Manus 最初提供的名单仅包含 5 个名字,外加 5 个“荣誉提名”。我注意到,它列出了部分记者的代表作,但并未涵盖所有人。当我询问原因时,它的回答简单得令人发笑: 它偷懒了 。它解释说:“部分原因是时间有限,我试图加快研究进程。”在我坚持要求一致性和全面性后,Manus 最终提供了一份包含 30 名记者的完整名单,标注了他们的现任媒体和代表作。(我很高兴看到自己和许多尊敬的同行榜上有名。)
令我印象深刻的是,我可以像指导真实实习生或助理一样提出高阶修改建议,而 Manus 也能恰当回应。尽管它起初忽略了某些记者的雇主变动,但在我要求复查后,它迅速修正了错误。另一个亮点是,输出结果可下载为 Word 或 Excel 文件,便于编辑或分享。
不过,Manus 在访问付费墙后的新闻文章时遇到了障碍,频繁遭遇验证码拦截。虽然我能逐步接管任务,但许多媒体网站仍以“可疑活动”为由屏蔽了该工具。我认为未来版本若能主动在遇到限制时请求帮助,将会是一大改进。
任务 2:纽约房源搜索
我给了 Manus 一套复杂的搜索条件,包括预算和多项参数:宽敞的厨房、户外空间、曼哈顿市中心通勤便利,以及 7 分钟步行可达主要火车站。Manus 起初过于字面化地理解“某种户外空间”这一模糊要求,完全排除了没有私人露台或阳台的房源。但在进一步指导和澄清后,它整理出了一份更全面、更有帮助的清单,并按层级和清晰的要点给出推荐。
最终输出结果读起来像极了 Wirecutter 的风格,包含“最佳综合选择”“最佳性价比”和“豪华选项”等分类。这项任务(包括来回沟通)耗时不到半小时,远少于整理记者名单的一小时,可能是因为房源信息在网络上更开放且结构化。
任务 3:提名“35 岁以下创新者”
这是范围最广的任务:我要求 Manus 提名 50 人入选今年的榜单。每年我们都会收到数百份提名,因此我很好奇 Manus 的表现如何。它将任务分解为多个步骤:分析往届名单以理解评选标准、制定候选人搜索策略、整理名单并确保全球多样性。
制定搜索策略是 Manus 最耗时的环节。虽然它没有明确说明方法,但“Manus’s Computer”窗口显示,它快速浏览了顶尖研究型大学的网站、科技奖项公告和新闻文章。然而,它在尝试访问学术论文和付费媒体内容时再次受阻。
经过三小时的网络搜索(期间 Manus 多次询问是否可以缩小范围),它仅能提供三位背景完整的候选人。当我坚持要求完整的 50 人名单时,它最终生成了一份,但某些学术机构和领域占比过高,反映出研究过程的不完整。在我指出问题并要求补充 5 位中国候选人后,它成功整理了一份扎实的名单,但结果偏向中国媒体宠儿。最终,系统警告“若继续输入大量文本,性能可能下降”,我不得不放弃进一步调整。
总体评价
总体而言,Manus 是一款高度直观的工具,适合有无编程背景的用户。在三项任务中,它在两项上的表现优于 ChatGPT DeepResearch,尽管耗时更长。Manus 似乎最适合那些需要大量开放网络研究但范围有限的分析任务——换句话说,它擅长完成一个熟练人类实习生一天内能搞定的事情。
不过,它的表现并非一帆风顺。Manus 可能会频繁崩溃或系统不稳定,且在处理大段文本时容易卡顿。我多次在发起新请求时看到提示:“由于当前服务负载较高,无法创建任务,请稍后再试。”有时,“Manus’s Computer”窗口还会长时间卡在某个页面。
Manus 的首席科学家季峰(Peak Ji)表示,团队正在解决其失败率高于 ChatGPT DeepResearch 的问题。但据中国媒体 36 氪报道,Manus 的单任务成本约为 2 美元,仅为 DeepResearch 的十分之一。如果 Manus 团队能加强服务器基础设施,它很可能成为个人用户(尤其是白领、独立开发者和小型团队)的首选工具。
最后,我认为 Manus 的工作流程相对透明且支持协作,这一点极具价值。它会在执行过程中主动提问,并将关键指令存储为“知识”以供后续使用,从而提供高度可定制的智能体体验。此外,每段会话都可回放和分享,这也是一个亮点。
无论是个人还是职业场景,我都计划继续使用 Manus 处理各类任务。尽管将其与深度求索相提并论可能并不完全准确,但它再次证明,中国 AI 公司并非只是跟随西方同行的脚步。它们不仅在基础模型上创新,更在以自己的方式推动自主 AI 智能体的应用发展。