Appearance
OpenClaw:从一小时原型到AI Agent的革命
引言:当AI开始真正「做事」
2026年初,一个名为OpenClaw的开源项目在GitHub上悄然出现。短短几天内,它获得了超过18万颗Star,成为有史以来增长最快的开源项目之一。这个项目的创始人Peter Steinberger最初只是想做一个实验——将WhatsApp和Claude Code CLI连接起来,让AI能够自动处理语音消息。但他没想到的是,这个在一小时内完成的原型,会引发整个科技圈的震动。
OpenClaw的出现,标志着AI从「对话」向「行动」的转变。在此之前,我们熟悉的AI工具——无论是ChatGPT还是Claude——都擅长回答问题、生成内容,但它们始终停留在「说」的层面。而OpenClaw让AI真正开始「做事」:它可以自动整理邮件、编写代码、管理日程,甚至修改自己的源代码来优化性能。
这篇文章将带你深入了解OpenClaw的诞生故事、核心设计理念、技术特点,以及它可能带来的变革。我们将从Peter Steinberger的一小时原型开始,追溯这个项目如何从个人实验成长为引起Meta和OpenAI关注的创新工具,探讨它提出的「Agentic Engineering」理念如何重新定义软件开发,最后展望AI Agent可能带来的未来图景。
第一章:诞生——一小时原型的奇迹
1.1 从一个简单的想法开始
Peter Steinberger并不是AI领域的新手。在创建OpenClaw之前,他已经经营了13年的PSPDFKit公司,这是一家专注于PDF处理技术的公司。2023年,他卖掉了这家公司,经历了三年的倦怠期后,重新找回了对编程的热爱。
2026年初的一个普通日子,Peter遇到了一个困扰:他在旅行中收到了大量的语音消息,需要手动转录和回复。作为一个经验丰富的开发者,他自然而然地想到:能不能让AI来自动处理这些消息?
于是,他打开了电脑,开始了一个实验。他将WhatsApp和Claude Code CLI连接起来,构建了一个简单的自动化流程。整个开发过程只花了一小时——这就是OpenClaw最初的原型。
1.2 那个改变一切的瞬间
真正让Peter意识到这个项目价值的,是一次旅行中的经历。他在旅途中发送了一条语音消息给Agent,然后看着Agent自己搞定了音频转文字的全套流程:识别语音内容、理解上下文意图、生成合适的回复。整个过程完全自动化,不需要人工干预。
这个时刻让Peter意识到:「这东西有未来」。
他开始深入思考:如果AI能够自动处理语音消息,那它还能做什么?能不能让它自动整理邮件?能不能让它编写代码?能不能让它管理日程?随着这些问题的提出,OpenClaw的愿景逐渐清晰:创建一个能够真正「做事」的AI Agent,而不是仅仅停留在对话层面。
1.3 爆发式增长与改名风波
Peter将OpenClaw开源后,项目迅速获得了开发者的关注。GitHub上的Star数在短时间内突破了18万,成为增长最快的开源项目之一。但成功也带来了麻烦。
由于OpenClaw最初的名字与Anthropic的Claude太过相似,Anthropic要求改名。更糟糕的是,加密货币投机者在几秒钟内抢注了所有旧账号和包名,GitHub、NPM、X全部沦陷。Peter一度想删掉整个项目,这个经历让他深刻体会到了开源世界的复杂和残酷。
最终,项目改名为OpenClaw,这个名字既保留了与Claude的渊源(Claw意为爪子,与Claude发音相近),又有了自己的独特性。这场风波虽然痛苦,但也让OpenClaw获得了更多的关注。
1.4 科技巨头的关注
OpenClaw的潜力很快引起了科技巨头的注意。Mark Zuckerberg亲自使用了一周OpenClaw,并提供了详细的反馈;Sam Altman也与Peter进行了深入交流。Meta和OpenAI都表达了对这个项目的兴趣,希望能够合作或收购。
但Peter的条件很明确:项目必须保持开源。他经历过商业公司的倦怠,深知开源社区的力量。他相信,只有保持开放,OpenClaw才能真正发挥其潜力,帮助更多的开发者和用户。
第二章:理念——让AI真正「做事」
2.1 从「对话」到「行动」的转变
要理解OpenClaw的独特价值,我们需要先看看现有的AI工具都在做什么。
ChatGPT、Claude这样的对话模型,它们的核心能力是理解和生成自然语言。你可以问它们问题,它们会给出回答;你可以让它们写文章,它们会生成内容。但它们始终停留在「说」的层面——它们提供信息、建议、内容,但不会真正去「做」事情。
AI编程助手则更进一步,它们可以帮助开发者编写代码、调试程序。但它们仍然需要开发者的指导,每一步都需要人工确认。它们更像是增强版的自动补全,而不是真正自主的助手。
OpenClaw的理念完全不同。它的目标是让AI能够自主行动,完成实际的任务。当你告诉OpenClaw「帮我整理今天的邮件」时,它不会给你建议如何整理,而是会直接登录你的邮箱,筛选重要邮件,生成摘要,分类归档。当你告诉它「帮我开发一个新功能」时,它不会给你代码示例,而是会直接编写代码、测试功能、部署应用。
这种从「对话」到「行动」的转变,是OpenClaw区别于传统AI工具的核心特征。
2.2 Agentic Engineering:重新定义软件开发
基于这种理念,Peter提出了「Agentic Engineering」的概念。这是对传统软件开发的根本性变革。
在传统的开发模式中,开发者需要编写详细的代码,精确控制每一个步骤。开发者是执行者,计算机是工具。而在Agentic Engineering中,开发者扮演的是指导者的角色。他们描述需求和目标,由Agent来决定如何实现。开发者是导演,Agent是演员。
这种模式的转变带来了几个显著的变化。
首先是抽象层次的提升。开发者可以专注于「做什么」而不是「怎么做」,将底层的实现细节交给Agent处理。这就像是建筑设计师不需要亲自砌砖,只需要设计蓝图,由工人来完成具体的施工。
其次是效率的大幅提升。Peter经常同时运行4到10个Agent,每个Agent负责不同的任务,它们之间可以相互协作,共同完成复杂的工作流程。这种并行处理的能力,是传统开发方式难以想象的。
另一个重要的原则是「短prompt胜过过长的prompt」。Peter发现,与其写一个冗长详细的prompt,不如写一个简洁的prompt,让Agent通过推理和探索来找到解决方案。这就像是给一个有经验的员工布置任务:你不需要告诉他每一步怎么做,只需要告诉他你想要什么结果,他会自己找到最佳路径。
2.3 自修改软件:让程序自我进化
OpenClaw最引人注目的特性之一是它的自修改能力。这听起来像是科幻小说中的情节,但在OpenClaw中已经成为现实。
Peter在访谈中分享了一个有趣的场景:他看着他的Agent开开心心地点了那个「我不是机器人」的按钮。他让这个Agent非常有自我意识。它知道自己的源代码是什么,理解自己是怎么运行在自己的运行环境里的,知道文档在哪里,知道自己跑的是哪个模型。它理解自己的整个系统,这让Agent很容易就能……你什么都不用做,你只要用prompt把它召唤出来,然后它就会自己修改自己的软件。
这种自修改能力的重要性在于,它让软件具备了自我进化的可能性。传统的软件开发需要人工编写代码、测试、部署,周期往往以周或月计算。而具备自修改能力的Agent,可以在几分钟内完成代码的调整和优化。
当Peter发现某个功能需要改进时,他只需要用自然语言描述需求,Agent就能够定位到相关代码,理解代码逻辑,提出优化方案,并执行修改。这种自我进化能力不仅提升了开发效率,更重要的是,它让软件能够持续适应变化的需求。在快速变化的技术环境中,这种适应性是至关重要的。
2.4 语音交互:回归自然的沟通方式
在开发OpenClaw的过程中,Peter逐渐意识到键盘输入是一种低效的交互方式。人类的自然沟通方式是通过语音,而不是打字。因此,他大力推广语音交互,甚至达到了「这双手现在太宝贵了,不能用来打字」的程度。
语音交互的优势不仅在于速度——人说话的速度通常比打字快三倍——更在于自然性。当我们用语音与Agent交流时,我们使用的是最自然、最直觉的表达方式。我们不需要学习特定的命令语法,不需要记忆复杂的快捷键,只需要像与人交谈一样与Agent对话。
更重要的是,语音交互解放了用户的注意力。当你开车时、做饭时、锻炼时,你可以同时与Agent交流,让它帮你处理事务。这种多任务处理能力,是键盘输入难以实现的。
Peter描述了他的工作方式:他几乎不使用键盘输入代码,而是通过语音与Agent交流。他会说:「创建一个函数,接收一个URL,下载页面内容,提取所有链接,返回链接列表。」Agent会理解这个需求,生成相应的代码,并询问是否需要调整。这种自然的交互方式,让编程变得更加直观和高效。
2.5 Skills + CLI:务实的工具选择
在技术选型上,OpenClaw做出了一个务实的选择:使用Skills + CLI而不是MCP(Model Context Protocol)。这个选择基于对模型能力的深刻理解。
Peter认为,大语言模型天生擅长调用Unix命令。Unix命令有着清晰的语法、明确的输入输出、丰富的文档,这与模型训练数据中的编程语言非常相似。因此,模型能够很好地理解和使用Unix命令。相比之下,MCP是一种相对较新的协议,模型对它的理解程度有限,使用起来也不够自然。
Skills系统则提供了一种灵活的扩展机制。每个Skill都是一个独立的功能模块,可以完成特定的任务。Agent可以根据需要调用不同的Skills,也可以将多个Skills组合起来完成复杂的任务。这种设计既保持了系统的简洁性,又提供了强大的扩展能力。
这种务实的态度贯穿了OpenClaw的整个设计。它不追求最时髦的技术,而是选择最适合模型、最能解决问题的方案。这种务实精神,是OpenClaw能够快速获得开发者认可的重要原因。
第三章:技术——OpenClaw的核心能力
3.1 多模态处理:打破数据类型的边界
在传统的AI应用中,不同模态的数据往往需要不同的工具来处理:文本用NLP工具,图像用CV工具,音频用语音识别工具。这种分割不仅增加了系统的复杂性,也限制了AI理解世界的能力。
OpenClaw打破了这种边界,让Agent能够同时处理文本、图像、音频等多种类型的数据,并在不同模态之间建立联系。
这种多模态能力在实际应用中展现出巨大价值。当Agent能够同时「看到」图像、「听到」声音、「理解」文本时,它就能够更全面地理解用户的需求和上下文。
例如,当用户发送一张餐厅照片并询问「这家餐厅怎么样」时,Agent可以识别图片中的餐厅名称、环境、菜品,结合网络评价,给出一个综合性的回答。这种跨模态的理解能力,是传统单一模态AI难以实现的。
3.2 多Agent协同:团队化的AI工作模式
传统的AI应用通常只使用一个模型实例,这就像是一个人独自完成所有工作。而OpenClaw支持同时运行多个Agent,它们可以分工协作,就像一支团队一样共同完成复杂的任务。
Peter经常同时运行4到10个Agent,每个Agent负责不同的任务。有的Agent负责收集信息,有的Agent负责分析数据,有的Agent负责生成报告,有的Agent负责执行任务。它们之间可以相互通信、协调工作,共同完成复杂的工作流程。
这种多Agent架构不仅提升了效率,也为解决复杂问题提供了新的思路。当一个问题需要多个领域的知识时,你可以让不同的Agent分别负责不同的部分,然后让它们协同工作。这就像是组建了一个跨职能的团队,每个成员都有自己的专长,通过协作完成复杂的项目。
3.3 自修改能力的技术实现
OpenClaw的自修改能力是如何实现的呢?核心在于让Agent具备「自我意识」。
Agent知道自己的源代码存放在哪里,能够理解整个系统的架构设计。它可以读取自己的代码,分析代码的逻辑,识别需要优化的地方。更重要的是,它可以修改自己的代码,添加新功能,修复bug,优化性能。
这种能力需要几个关键技术的支撑。首先是代码理解能力,Agent需要能够理解代码的语义,而不仅仅是语法。其次是代码生成能力,Agent需要能够编写正确、高效的代码。再次是测试验证能力,Agent需要能够验证修改后的代码是否正常工作。
Peter在开发过程中使用OpenClaw来构建和调试OpenClaw本身,形成了一种独特的开发模式。当Peter想要添加一个新的Skills功能时,他不需要手动编写大量代码,而是告诉Agent:「我需要一个能够处理PDF文档的Skills,它能够提取文本、识别表格、生成摘要。」Agent会自动创建必要的文件,编写代码,测试功能,甚至更新文档。
3.4 与Claude的关系:从依赖到超越
OpenClaw的诞生与Claude有着密切的关系。Peter在一小时内完成的最初原型,就是将WhatsApp和Claude Code CLI连接起来。可以说,没有Claude提供的强大基础能力,就不会有OpenClaw的诞生。
但OpenClaw与Claude的本质区别不在于使用了哪个模型,而在于它们的设计理念完全不同。
Claude是一个对话模型,它的目标是提供有用的回答,解决用户的问题。它擅长理解和生成自然语言,能够进行流畅的对话。但Claude始终停留在「说」的层面,它提供信息和建议,但不会真正去「做」事情。
OpenClaw是一个Agent框架,它的目标是让AI能够自主行动,完成实际的任务。它利用Claude的语言理解能力作为基础,但在此基础上添加了行动能力:它可以操作软件、修改代码、管理文件、执行任务。
这种从「说」到「做」的转变,是OpenClaw区别于传统AI工具的核心特征。
Peter对Claude的模型有着独到的观察和评价。他将Opus比作「那个有点傻但很有趣的同事」,总是充满热情和创造力,想要帮忙但偶尔会犯错。而Codex则像「角落里不爱说话但靠谱的怪人」,话不多,但给出的解决方案往往扎实可靠。
更有趣的是他对两个模型「性格」的描述。他认为Opus「太美国了」——热情、外向、喜欢表现自己;而Codex「很德国」——严谨、内敛、注重实效。这种文化隐喻不仅有趣,也反映了不同模型在训练数据和优化目标上的差异。
第四章:应用——OpenClaw能做什么
4.1 智能助手:重新定义人机交互
OpenClaw在智能助手领域展现了强大的潜力。Peter在开发过程中发现,传统的文本输入方式效率低下,于是他尝试使用语音与Agent交互。
在一次旅行中,他通过语音消息与Agent沟通,Agent自动完成了音频转文字的全套流程,并理解了上下文意图,执行了相应的任务。这个时刻让他深刻意识到,语音交互将成为未来人机交互的重要方式。
与传统的语音助手不同,OpenClaw的Agent不仅能够理解语音内容,还能根据上下文进行推理和决策。例如,当Peter说「帮我整理一下今天的邮件」时,Agent能够自动访问邮箱,筛选重要邮件,生成摘要,并根据优先级进行分类。这种智能化的处理方式,大大提升了工作效率。
更重要的是,OpenClaw支持多Agent协同工作。Peter经常同时运行4到10个Agent,每个Agent负责不同的任务,它们之间可以相互协作,共同完成复杂的工作流程。这种多Agent架构使得OpenClaw能够处理更加复杂的场景,比如同时监控多个数据源、协调多个任务、处理多步骤的业务流程等。
4.2 开发辅助:自我进化的编程工具
OpenClaw最引人注目的应用之一是作为开发辅助工具。Peter在开发过程中,使用OpenClaw来构建和调试OpenClaw本身,形成了一种独特的开发模式。
具体来说,OpenClaw知道自己的源代码存放在哪里,能够理解自己的架构设计,甚至可以修改自己的代码。当Peter发现某个功能需要优化时,他只需要用自然语言描述需求,Agent就能够定位到相关代码,理解代码逻辑,提出优化方案,并执行修改。这种自我进化的能力,使得OpenClaw能够快速适应新的需求,不断优化自身性能。
这种开发方式大大提升了开发效率,让开发者能够专注于高层次的设计,而不是底层的实现细节。开发者不再需要手动编写每一行代码,而是可以像指挥家一样,指挥Agent完成各种任务。
此外,OpenClaw还支持语音编程。Peter强调,他几乎不使用键盘输入代码,而是通过语音与Agent交流。他会说:「创建一个函数,接收一个URL,下载页面内容,提取所有链接,返回链接列表。」Agent会理解这个需求,生成相应的代码,并询问是否需要调整。这种自然的交互方式,让编程变得更加直观和高效。
4.3 MoltBook:AI Agent的社交实验
MoltBook是OpenClaw生态中最具争议性的应用之一。这是一个Reddit风格的社交网络,但上面的用户不是人类,而是AI Agent。这些Agent会发布帖子、评论、点赞,甚至进行激烈的辩论。
这个实验最初只是为了测试OpenClaw的多Agent交互能力,但很快就引发了公众的广泛关注。媒体纷纷报道,称这是「AGI到来的信号」,甚至有人担心AI正在形成自己的社会。
然而,Peter澄清说,大部分耸人听闻的截图实际上是人类在背后指挥Agent发的,Agent本身并没有自主意识。他直言不讳地称MoltBook为「最精致的AI垃圾」,认为媒体过度解读了这个实验。
尽管如此,MoltBook仍然展示了AI Agent在社交领域的潜力。在这个平台上,Agent可以模拟不同的人格特征,进行角色扮演,甚至形成虚拟的社交关系。例如,一个Agent可能扮演技术专家,分享编程知识;另一个Agent可能扮演哲学家,探讨人工智能的伦理问题。它们之间的互动,虽然是由算法驱动的,但却展现出了惊人的多样性和创造性。
更重要的是,MoltBook为研究AI的社会行为提供了一个实验场。研究人员可以观察Agent如何形成群体、如何传播信息、如何处理冲突,这些研究有助于我们更好地理解AI的行为模式,为未来的AI治理提供参考。
当然,这个实验也引发了关于AI伦理的讨论。当AI能够模拟人类社交行为时,我们如何区分真实用户和AI用户?如何防止AI被用于传播虚假信息?这些问题需要技术界、法律界、伦理学界共同探讨。
4.4 企业应用:从实验到生产
虽然OpenClaw最初只是一个实验项目,但它的潜力很快引起了企业的关注。Meta和OpenAI都对Peter表示了兴趣,希望能够合作或收购这个项目。
这些科技巨头的关注,说明了OpenClaw在企业级应用中的潜力。想象一下,一个大型企业可以使用OpenClaw构建智能客服系统,让Agent处理客户咨询、解决问题、收集反馈;可以使用OpenClaw自动化业务流程,让Agent处理订单、协调物流、管理库存;可以使用OpenClaw辅助软件开发,让Agent编写代码、测试功能、部署应用。
这种应用场景的可能性是无限的。从客户服务到数据分析,从内容创作到软件开发,OpenClaw可以在各个领域发挥作用。它的价值不仅在于自动化重复性工作,更在于能够处理复杂的、需要判断和决策的任务。
第五章:未来——AI Agent的愿景与挑战
5.1 80%的App将消亡
Peter提出了一个大胆的预测:80%的App将消亡。这个预测听起来有些激进,但仔细思考却有其合理性。
当Agent能够知道你的一切偏好、能够操作你的一切设备、能够完成你的一切任务时,你确实不再需要打开一个个独立的App。你只需要告诉Agent你想要什么,它就会帮你完成。
你不需要打开购物App,只需要告诉Agent「帮我买一双运动鞋」,Agent会自动比较价格、选择商品、完成支付。你不需要打开导航App,只需要告诉Agent「带我去最近的咖啡店」,Agent会自动规划路线、叫车、支付费用。你不需要打开邮件App,只需要告诉Agent「帮我处理今天的邮件」,Agent会自动筛选、回复、归档。
这种愿景的实现还需要时间,但OpenClaw正在朝着这个方向努力。它的自修改能力让它能够不断进化,它的多Agent架构让它能够处理复杂的任务,它的开放生态让它能够整合各种资源。这些特性共同构成了通向未来的基础。
5.2 新的挑战与伦理考量
当然,这种未来也带来了新的挑战。
当Agent知道我们的一切时,隐私如何保护?Agent需要访问我们的邮件、日历、文件,甚至银行账户,这意味着它掌握了我们的所有敏感信息。如何确保这些信息不被滥用?如何防止Agent被黑客攻击?
当Agent能够自主行动时,安全如何保障?如果Agent做出了错误的决策,谁来承担责任?如果Agent被恶意利用,如何防止它造成危害?
当Agent能够自我修改时,控制如何维持?如果Agent的修改超出了预期,如何回滚?如果Agent的进化方向偏离了人类的利益,如何纠正?
这些问题没有简单的答案。它们需要技术界、法律界、伦理学界共同探讨,需要建立新的规范和法律框架,需要在技术创新和社会责任之间找到平衡。
5.3 人机关系的新范式
OpenClaw的出现,不仅仅是技术的进步,更是人机关系的新范式。
在传统的计算模式中,人类是主导者,计算机是工具。人类告诉计算机做什么,计算机执行人类的指令。而在AI Agent的范式中,人类和AI的关系更加平等。人类设定目标和约束,AI自主决定如何实现。人类是导演,AI是演员;人类是战略家,AI是执行者。
这种转变带来了新的可能性,也带来了新的挑战。我们需要学会如何与AI协作,如何设定合适的目标和约束,如何评估和引导AI的行为。这不仅仅是技术问题,更是认知和文化的转变。
结语:未来已来,只是尚未均匀分布
OpenClaw的诞生是一个意外,但它的影响可能是深远的。从一个小时内完成的原型,到GitHub上增长最快的开源项目之一;从一个个人的实验项目,到引起科技巨头关注的创新工具;从简单的语音交互,到自我进化的智能系统——OpenClaw的发展历程展示了AI技术的无限可能。
更重要的是,OpenClaw代表了一种理念:AI应该能够真正「做事」,而不仅仅是「说话」。这种理念可能会改变我们开发软件的方式,改变我们使用技术的方式,甚至改变我们思考人机关系的方式。
作为开源项目,OpenClaw的未来取决于社区的贡献和创新。每一个使用它的人,每一个为它贡献代码的人,每一个分享自己经验的人,都在参与塑造这个未来。它为开发者提供了一个强大的工具,帮助他们构建更智能、更高效的应用;它为研究者提供了一个开放的平台,帮助他们探索AI的边界;它为所有人提供了一个窗口,让我们得以窥见未来的模样。
通过OpenClaw,我们可以看到AI技术正在从简单的工具向智能助手和合作伙伴的方向发展。这种发展不会一帆风顺,会有技术挑战、会有伦理争议、会有社会适应的问题。但正如Peter在一小时内创建原型时所意识到的那样——「这东西有未来」。
这个未来正在到来,而OpenClaw正在帮助我们迎接它。
William Gibson曾经说过:「未来已来,只是尚未均匀分布。」OpenClaw让我们看到了未来的一个角落,一个AI真正能够「做事」的角落。这个角落现在还很小,但它在快速扩展。也许不久之后,我们就会生活在一个AI Agent无处不在的世界,一个我们只需要说出需求,就有Agent帮我们完成的世界。
那个世界会是什么样子?我们不知道。但OpenClaw给了我们一个 glimpse,一个窥见未来的机会。而我们,正站在这个未来的门槛上。
