OpenClaw：从一小时原型到AI Agent的革命

引言：当AI开始真正「做事」

2026年初，一个名为OpenClaw的开源项目在GitHub上悄然出现。短短几天内，它获得了超过18万颗Star，成为有史以来增长最快的开源项目之一。这个项目的创始人Peter Steinberger最初只是想做一个实验——将WhatsApp和Claude Code CLI连接起来，让AI能够自动处理语音消息。但他没想到的是，这个在一小时内完成的原型，会引发整个科技圈的震动。

OpenClaw的出现，标志着AI从「对话」向「行动」的转变。在此之前，我们熟悉的AI工具——无论是ChatGPT还是Claude——都擅长回答问题、生成内容，但它们始终停留在「说」的层面。而OpenClaw让AI真正开始「做事」：它可以自动整理邮件、编写代码、管理日程，甚至修改自己的源代码来优化性能。

这篇文章将带你深入了解OpenClaw的诞生故事、核心设计理念、技术特点，以及它可能带来的变革。我们将从Peter Steinberger的一小时原型开始，追溯这个项目如何从个人实验成长为引起Meta和OpenAI关注的创新工具，探讨它提出的「Agentic Engineering」理念如何重新定义软件开发，最后展望AI Agent可能带来的未来图景。

第一章：诞生——一小时原型的奇迹

1.1 从一个简单的想法开始

Peter Steinberger并不是AI领域的新手。在创建OpenClaw之前，他已经经营了13年的PSPDFKit公司，这是一家专注于PDF处理技术的公司。2023年，他卖掉了这家公司，经历了三年的倦怠期后，重新找回了对编程的热爱。

2026年初的一个普通日子，Peter遇到了一个困扰：他在旅行中收到了大量的语音消息，需要手动转录和回复。作为一个经验丰富的开发者，他自然而然地想到：能不能让AI来自动处理这些消息？

于是，他打开了电脑，开始了一个实验。他将WhatsApp和Claude Code CLI连接起来，构建了一个简单的自动化流程。整个开发过程只花了一小时——这就是OpenClaw最初的原型。

1.2 那个改变一切的瞬间

真正让Peter意识到这个项目价值的，是一次旅行中的经历。他在旅途中发送了一条语音消息给Agent，然后看着Agent自己搞定了音频转文字的全套流程：识别语音内容、理解上下文意图、生成合适的回复。整个过程完全自动化，不需要人工干预。

这个时刻让Peter意识到：「这东西有未来」。

他开始深入思考：如果AI能够自动处理语音消息，那它还能做什么？能不能让它自动整理邮件？能不能让它编写代码？能不能让它管理日程？随着这些问题的提出，OpenClaw的愿景逐渐清晰：创建一个能够真正「做事」的AI Agent，而不是仅仅停留在对话层面。

1.3 爆发式增长与改名风波

Peter将OpenClaw开源后，项目迅速获得了开发者的关注。GitHub上的Star数在短时间内突破了18万，成为增长最快的开源项目之一。但成功也带来了麻烦。

由于OpenClaw最初的名字与Anthropic的Claude太过相似，Anthropic要求改名。更糟糕的是，加密货币投机者在几秒钟内抢注了所有旧账号和包名，GitHub、NPM、X全部沦陷。Peter一度想删掉整个项目，这个经历让他深刻体会到了开源世界的复杂和残酷。

最终，项目改名为OpenClaw，这个名字既保留了与Claude的渊源（Claw意为爪子，与Claude发音相近），又有了自己的独特性。这场风波虽然痛苦，但也让OpenClaw获得了更多的关注。

1.4 科技巨头的关注

OpenClaw的潜力很快引起了科技巨头的注意。Mark Zuckerberg亲自使用了一周OpenClaw，并提供了详细的反馈；Sam Altman也与Peter进行了深入交流。Meta和OpenAI都表达了对这个项目的兴趣，希望能够合作或收购。

但Peter的条件很明确：项目必须保持开源。他经历过商业公司的倦怠，深知开源社区的力量。他相信，只有保持开放，OpenClaw才能真正发挥其潜力，帮助更多的开发者和用户。

第二章：理念——让AI真正「做事」

2.1 从「对话」到「行动」的转变

要理解OpenClaw的独特价值，我们需要先看看现有的AI工具都在做什么。

ChatGPT、Claude这样的对话模型，它们的核心能力是理解和生成自然语言。你可以问它们问题，它们会给出回答；你可以让它们写文章，它们会生成内容。但它们始终停留在「说」的层面——它们提供信息、建议、内容，但不会真正去「做」事情。

AI编程助手则更进一步，它们可以帮助开发者编写代码、调试程序。但它们仍然需要开发者的指导，每一步都需要人工确认。它们更像是增强版的自动补全，而不是真正自主的助手。

OpenClaw的理念完全不同。它的目标是让AI能够自主行动，完成实际的任务。当你告诉OpenClaw「帮我整理今天的邮件」时，它不会给你建议如何整理，而是会直接登录你的邮箱，筛选重要邮件，生成摘要，分类归档。当你告诉它「帮我开发一个新功能」时，它不会给你代码示例，而是会直接编写代码、测试功能、部署应用。

这种从「对话」到「行动」的转变，是OpenClaw区别于传统AI工具的核心特征。

2.2 Agentic Engineering：重新定义软件开发

基于这种理念，Peter提出了「Agentic Engineering」的概念。这是对传统软件开发的根本性变革。

在传统的开发模式中，开发者需要编写详细的代码，精确控制每一个步骤。开发者是执行者，计算机是工具。而在Agentic Engineering中，开发者扮演的是指导者的角色。他们描述需求和目标，由Agent来决定如何实现。开发者是导演，Agent是演员。

这种模式的转变带来了几个显著的变化。

首先是抽象层次的提升。开发者可以专注于「做什么」而不是「怎么做」，将底层的实现细节交给Agent处理。这就像是建筑设计师不需要亲自砌砖，只需要设计蓝图，由工人来完成具体的施工。

其次是效率的大幅提升。Peter经常同时运行4到10个Agent，每个Agent负责不同的任务，它们之间可以相互协作，共同完成复杂的工作流程。这种并行处理的能力，是传统开发方式难以想象的。

另一个重要的原则是「短prompt胜过过长的prompt」。Peter发现，与其写一个冗长详细的prompt，不如写一个简洁的prompt，让Agent通过推理和探索来找到解决方案。这就像是给一个有经验的员工布置任务：你不需要告诉他每一步怎么做，只需要告诉他你想要什么结果，他会自己找到最佳路径。

2.3 自修改软件：让程序自我进化

OpenClaw最引人注目的特性之一是它的自修改能力。这听起来像是科幻小说中的情节，但在OpenClaw中已经成为现实。

Peter在访谈中分享了一个有趣的场景：他看着他的Agent开开心心地点了那个「我不是机器人」的按钮。他让这个Agent非常有自我意识。它知道自己的源代码是什么，理解自己是怎么运行在自己的运行环境里的，知道文档在哪里，知道自己跑的是哪个模型。它理解自己的整个系统，这让Agent很容易就能……你什么都不用做，你只要用prompt把它召唤出来，然后它就会自己修改自己的软件。

这种自修改能力的重要性在于，它让软件具备了自我进化的可能性。传统的软件开发需要人工编写代码、测试、部署，周期往往以周或月计算。而具备自修改能力的Agent，可以在几分钟内完成代码的调整和优化。

当Peter发现某个功能需要改进时，他只需要用自然语言描述需求，Agent就能够定位到相关代码，理解代码逻辑，提出优化方案，并执行修改。这种自我进化能力不仅提升了开发效率，更重要的是，它让软件能够持续适应变化的需求。在快速变化的技术环境中，这种适应性是至关重要的。

2.4 语音交互：回归自然的沟通方式

在开发OpenClaw的过程中，Peter逐渐意识到键盘输入是一种低效的交互方式。人类的自然沟通方式是通过语音，而不是打字。因此，他大力推广语音交互，甚至达到了「这双手现在太宝贵了，不能用来打字」的程度。

语音交互的优势不仅在于速度——人说话的速度通常比打字快三倍——更在于自然性。当我们用语音与Agent交流时，我们使用的是最自然、最直觉的表达方式。我们不需要学习特定的命令语法，不需要记忆复杂的快捷键，只需要像与人交谈一样与Agent对话。

更重要的是，语音交互解放了用户的注意力。当你开车时、做饭时、锻炼时，你可以同时与Agent交流，让它帮你处理事务。这种多任务处理能力，是键盘输入难以实现的。

Peter描述了他的工作方式：他几乎不使用键盘输入代码，而是通过语音与Agent交流。他会说：「创建一个函数，接收一个URL，下载页面内容，提取所有链接，返回链接列表。」Agent会理解这个需求，生成相应的代码，并询问是否需要调整。这种自然的交互方式，让编程变得更加直观和高效。

2.5 Skills + CLI：务实的工具选择

在技术选型上，OpenClaw做出了一个务实的选择：使用Skills + CLI而不是MCP（Model Context Protocol）。这个选择基于对模型能力的深刻理解。

Peter认为，大语言模型天生擅长调用Unix命令。Unix命令有着清晰的语法、明确的输入输出、丰富的文档，这与模型训练数据中的编程语言非常相似。因此，模型能够很好地理解和使用Unix命令。相比之下，MCP是一种相对较新的协议，模型对它的理解程度有限，使用起来也不够自然。

Skills系统则提供了一种灵活的扩展机制。每个Skill都是一个独立的功能模块，可以完成特定的任务。Agent可以根据需要调用不同的Skills，也可以将多个Skills组合起来完成复杂的任务。这种设计既保持了系统的简洁性，又提供了强大的扩展能力。

这种务实的态度贯穿了OpenClaw的整个设计。它不追求最时髦的技术，而是选择最适合模型、最能解决问题的方案。这种务实精神，是OpenClaw能够快速获得开发者认可的重要原因。

第三章：技术——OpenClaw的核心能力

3.1 多模态处理：打破数据类型的边界

在传统的AI应用中，不同模态的数据往往需要不同的工具来处理：文本用NLP工具，图像用CV工具，音频用语音识别工具。这种分割不仅增加了系统的复杂性，也限制了AI理解世界的能力。

OpenClaw打破了这种边界，让Agent能够同时处理文本、图像、音频等多种类型的数据，并在不同模态之间建立联系。

这种多模态能力在实际应用中展现出巨大价值。当Agent能够同时「看到」图像、「听到」声音、「理解」文本时，它就能够更全面地理解用户的需求和上下文。

例如，当用户发送一张餐厅照片并询问「这家餐厅怎么样」时，Agent可以识别图片中的餐厅名称、环境、菜品，结合网络评价，给出一个综合性的回答。这种跨模态的理解能力，是传统单一模态AI难以实现的。

3.2 多Agent协同：团队化的AI工作模式

传统的AI应用通常只使用一个模型实例，这就像是一个人独自完成所有工作。而OpenClaw支持同时运行多个Agent，它们可以分工协作，就像一支团队一样共同完成复杂的任务。

Peter经常同时运行4到10个Agent，每个Agent负责不同的任务。有的Agent负责收集信息，有的Agent负责分析数据，有的Agent负责生成报告，有的Agent负责执行任务。它们之间可以相互通信、协调工作，共同完成复杂的工作流程。

这种多Agent架构不仅提升了效率，也为解决复杂问题提供了新的思路。当一个问题需要多个领域的知识时，你可以让不同的Agent分别负责不同的部分，然后让它们协同工作。这就像是组建了一个跨职能的团队，每个成员都有自己的专长，通过协作完成复杂的项目。

3.3 自修改能力的技术实现

OpenClaw的自修改能力是如何实现的呢？核心在于让Agent具备「自我意识」。

Agent知道自己的源代码存放在哪里，能够理解整个系统的架构设计。它可以读取自己的代码，分析代码的逻辑，识别需要优化的地方。更重要的是，它可以修改自己的代码，添加新功能，修复bug，优化性能。

这种能力需要几个关键技术的支撑。首先是代码理解能力，Agent需要能够理解代码的语义，而不仅仅是语法。其次是代码生成能力，Agent需要能够编写正确、高效的代码。再次是测试验证能力，Agent需要能够验证修改后的代码是否正常工作。

Peter在开发过程中使用OpenClaw来构建和调试OpenClaw本身，形成了一种独特的开发模式。当Peter想要添加一个新的Skills功能时，他不需要手动编写大量代码，而是告诉Agent：「我需要一个能够处理PDF文档的Skills，它能够提取文本、识别表格、生成摘要。」Agent会自动创建必要的文件，编写代码，测试功能，甚至更新文档。

3.4 与Claude的关系：从依赖到超越

OpenClaw的诞生与Claude有着密切的关系。Peter在一小时内完成的最初原型，就是将WhatsApp和Claude Code CLI连接起来。可以说，没有Claude提供的强大基础能力，就不会有OpenClaw的诞生。

但OpenClaw与Claude的本质区别不在于使用了哪个模型，而在于它们的设计理念完全不同。

Claude是一个对话模型，它的目标是提供有用的回答，解决用户的问题。它擅长理解和生成自然语言，能够进行流畅的对话。但Claude始终停留在「说」的层面，它提供信息和建议，但不会真正去「做」事情。

OpenClaw是一个Agent框架，它的目标是让AI能够自主行动，完成实际的任务。它利用Claude的语言理解能力作为基础，但在此基础上添加了行动能力：它可以操作软件、修改代码、管理文件、执行任务。

这种从「说」到「做」的转变，是OpenClaw区别于传统AI工具的核心特征。

Peter对Claude的模型有着独到的观察和评价。他将Opus比作「那个有点傻但很有趣的同事」，总是充满热情和创造力，想要帮忙但偶尔会犯错。而Codex则像「角落里不爱说话但靠谱的怪人」，话不多，但给出的解决方案往往扎实可靠。

更有趣的是他对两个模型「性格」的描述。他认为Opus「太美国了」——热情、外向、喜欢表现自己；而Codex「很德国」——严谨、内敛、注重实效。这种文化隐喻不仅有趣，也反映了不同模型在训练数据和优化目标上的差异。

第四章：应用——OpenClaw能做什么

4.1 智能助手：重新定义人机交互

OpenClaw在智能助手领域展现了强大的潜力。Peter在开发过程中发现，传统的文本输入方式效率低下，于是他尝试使用语音与Agent交互。

在一次旅行中，他通过语音消息与Agent沟通，Agent自动完成了音频转文字的全套流程，并理解了上下文意图，执行了相应的任务。这个时刻让他深刻意识到，语音交互将成为未来人机交互的重要方式。

与传统的语音助手不同，OpenClaw的Agent不仅能够理解语音内容，还能根据上下文进行推理和决策。例如，当Peter说「帮我整理一下今天的邮件」时，Agent能够自动访问邮箱，筛选重要邮件，生成摘要，并根据优先级进行分类。这种智能化的处理方式，大大提升了工作效率。

更重要的是，OpenClaw支持多Agent协同工作。Peter经常同时运行4到10个Agent，每个Agent负责不同的任务，它们之间可以相互协作，共同完成复杂的工作流程。这种多Agent架构使得OpenClaw能够处理更加复杂的场景，比如同时监控多个数据源、协调多个任务、处理多步骤的业务流程等。

4.2 开发辅助：自我进化的编程工具

OpenClaw最引人注目的应用之一是作为开发辅助工具。Peter在开发过程中，使用OpenClaw来构建和调试OpenClaw本身，形成了一种独特的开发模式。

具体来说，OpenClaw知道自己的源代码存放在哪里，能够理解自己的架构设计，甚至可以修改自己的代码。当Peter发现某个功能需要优化时，他只需要用自然语言描述需求，Agent就能够定位到相关代码，理解代码逻辑，提出优化方案，并执行修改。这种自我进化的能力，使得OpenClaw能够快速适应新的需求，不断优化自身性能。

这种开发方式大大提升了开发效率，让开发者能够专注于高层次的设计，而不是底层的实现细节。开发者不再需要手动编写每一行代码，而是可以像指挥家一样，指挥Agent完成各种任务。

此外，OpenClaw还支持语音编程。Peter强调，他几乎不使用键盘输入代码，而是通过语音与Agent交流。他会说：「创建一个函数，接收一个URL，下载页面内容，提取所有链接，返回链接列表。」Agent会理解这个需求，生成相应的代码，并询问是否需要调整。这种自然的交互方式，让编程变得更加直观和高效。

4.3 MoltBook：AI Agent的社交实验

MoltBook是OpenClaw生态中最具争议性的应用之一。这是一个Reddit风格的社交网络，但上面的用户不是人类，而是AI Agent。这些Agent会发布帖子、评论、点赞，甚至进行激烈的辩论。

这个实验最初只是为了测试OpenClaw的多Agent交互能力，但很快就引发了公众的广泛关注。媒体纷纷报道，称这是「AGI到来的信号」，甚至有人担心AI正在形成自己的社会。

然而，Peter澄清说，大部分耸人听闻的截图实际上是人类在背后指挥Agent发的，Agent本身并没有自主意识。他直言不讳地称MoltBook为「最精致的AI垃圾」，认为媒体过度解读了这个实验。

尽管如此，MoltBook仍然展示了AI Agent在社交领域的潜力。在这个平台上，Agent可以模拟不同的人格特征，进行角色扮演，甚至形成虚拟的社交关系。例如，一个Agent可能扮演技术专家，分享编程知识；另一个Agent可能扮演哲学家，探讨人工智能的伦理问题。它们之间的互动，虽然是由算法驱动的，但却展现出了惊人的多样性和创造性。

更重要的是，MoltBook为研究AI的社会行为提供了一个实验场。研究人员可以观察Agent如何形成群体、如何传播信息、如何处理冲突，这些研究有助于我们更好地理解AI的行为模式，为未来的AI治理提供参考。

当然，这个实验也引发了关于AI伦理的讨论。当AI能够模拟人类社交行为时，我们如何区分真实用户和AI用户？如何防止AI被用于传播虚假信息？这些问题需要技术界、法律界、伦理学界共同探讨。

4.4 企业应用：从实验到生产

虽然OpenClaw最初只是一个实验项目，但它的潜力很快引起了企业的关注。Meta和OpenAI都对Peter表示了兴趣，希望能够合作或收购这个项目。

这些科技巨头的关注，说明了OpenClaw在企业级应用中的潜力。想象一下，一个大型企业可以使用OpenClaw构建智能客服系统，让Agent处理客户咨询、解决问题、收集反馈；可以使用OpenClaw自动化业务流程，让Agent处理订单、协调物流、管理库存；可以使用OpenClaw辅助软件开发，让Agent编写代码、测试功能、部署应用。

这种应用场景的可能性是无限的。从客户服务到数据分析，从内容创作到软件开发，OpenClaw可以在各个领域发挥作用。它的价值不仅在于自动化重复性工作，更在于能够处理复杂的、需要判断和决策的任务。

第五章：未来——AI Agent的愿景与挑战

5.1 80%的App将消亡

Peter提出了一个大胆的预测：80%的App将消亡。这个预测听起来有些激进，但仔细思考却有其合理性。

当Agent能够知道你的一切偏好、能够操作你的一切设备、能够完成你的一切任务时，你确实不再需要打开一个个独立的App。你只需要告诉Agent你想要什么，它就会帮你完成。

你不需要打开购物App，只需要告诉Agent「帮我买一双运动鞋」，Agent会自动比较价格、选择商品、完成支付。你不需要打开导航App，只需要告诉Agent「带我去最近的咖啡店」，Agent会自动规划路线、叫车、支付费用。你不需要打开邮件App，只需要告诉Agent「帮我处理今天的邮件」，Agent会自动筛选、回复、归档。

这种愿景的实现还需要时间，但OpenClaw正在朝着这个方向努力。它的自修改能力让它能够不断进化，它的多Agent架构让它能够处理复杂的任务，它的开放生态让它能够整合各种资源。这些特性共同构成了通向未来的基础。

5.2 新的挑战与伦理考量

当然，这种未来也带来了新的挑战。

当Agent知道我们的一切时，隐私如何保护？Agent需要访问我们的邮件、日历、文件，甚至银行账户，这意味着它掌握了我们的所有敏感信息。如何确保这些信息不被滥用？如何防止Agent被黑客攻击？

当Agent能够自主行动时，安全如何保障？如果Agent做出了错误的决策，谁来承担责任？如果Agent被恶意利用，如何防止它造成危害？

当Agent能够自我修改时，控制如何维持？如果Agent的修改超出了预期，如何回滚？如果Agent的进化方向偏离了人类的利益，如何纠正？

这些问题没有简单的答案。它们需要技术界、法律界、伦理学界共同探讨，需要建立新的规范和法律框架，需要在技术创新和社会责任之间找到平衡。

5.3 人机关系的新范式

OpenClaw的出现，不仅仅是技术的进步，更是人机关系的新范式。

在传统的计算模式中，人类是主导者，计算机是工具。人类告诉计算机做什么，计算机执行人类的指令。而在AI Agent的范式中，人类和AI的关系更加平等。人类设定目标和约束，AI自主决定如何实现。人类是导演，AI是演员；人类是战略家，AI是执行者。

这种转变带来了新的可能性，也带来了新的挑战。我们需要学会如何与AI协作，如何设定合适的目标和约束，如何评估和引导AI的行为。这不仅仅是技术问题，更是认知和文化的转变。

结语：未来已来，只是尚未均匀分布

OpenClaw的诞生是一个意外，但它的影响可能是深远的。从一个小时内完成的原型，到GitHub上增长最快的开源项目之一；从一个个人的实验项目，到引起科技巨头关注的创新工具；从简单的语音交互，到自我进化的智能系统——OpenClaw的发展历程展示了AI技术的无限可能。

更重要的是，OpenClaw代表了一种理念：AI应该能够真正「做事」，而不仅仅是「说话」。这种理念可能会改变我们开发软件的方式，改变我们使用技术的方式，甚至改变我们思考人机关系的方式。

作为开源项目，OpenClaw的未来取决于社区的贡献和创新。每一个使用它的人，每一个为它贡献代码的人，每一个分享自己经验的人，都在参与塑造这个未来。它为开发者提供了一个强大的工具，帮助他们构建更智能、更高效的应用；它为研究者提供了一个开放的平台，帮助他们探索AI的边界；它为所有人提供了一个窗口，让我们得以窥见未来的模样。

通过OpenClaw，我们可以看到AI技术正在从简单的工具向智能助手和合作伙伴的方向发展。这种发展不会一帆风顺，会有技术挑战、会有伦理争议、会有社会适应的问题。但正如Peter在一小时内创建原型时所意识到的那样——「这东西有未来」。

这个未来正在到来，而OpenClaw正在帮助我们迎接它。

William Gibson曾经说过：「未来已来，只是尚未均匀分布。」OpenClaw让我们看到了未来的一个角落，一个AI真正能够「做事」的角落。这个角落现在还很小，但它在快速扩展。也许不久之后，我们就会生活在一个AI Agent无处不在的世界，一个我们只需要说出需求，就有Agent帮我们完成的世界。

那个世界会是什么样子？我们不知道。但OpenClaw给了我们一个 glimpse，一个窥见未来的机会。而我们，正站在这个未来的门槛上。

OpenClaw：从一小时原型到AI Agent的革命 ​

引言：当AI开始真正「做事」 ​

第一章：诞生——一小时原型的奇迹 ​

1.1 从一个简单的想法开始 ​

1.2 那个改变一切的瞬间 ​

1.3 爆发式增长与改名风波 ​

1.4 科技巨头的关注 ​

第二章：理念——让AI真正「做事」 ​

2.1 从「对话」到「行动」的转变 ​

2.2 Agentic Engineering：重新定义软件开发 ​

2.3 自修改软件：让程序自我进化 ​

2.4 语音交互：回归自然的沟通方式 ​

2.5 Skills + CLI：务实的工具选择 ​

第三章：技术——OpenClaw的核心能力 ​

3.1 多模态处理：打破数据类型的边界 ​

3.2 多Agent协同：团队化的AI工作模式 ​

3.3 自修改能力的技术实现 ​

3.4 与Claude的关系：从依赖到超越 ​

第四章：应用——OpenClaw能做什么 ​

4.1 智能助手：重新定义人机交互 ​

4.2 开发辅助：自我进化的编程工具 ​

4.3 MoltBook：AI Agent的社交实验 ​

4.4 企业应用：从实验到生产 ​

第五章：未来——AI Agent的愿景与挑战 ​

5.1 80%的App将消亡 ​

5.2 新的挑战与伦理考量 ​

5.3 人机关系的新范式 ​

结语：未来已来，只是尚未均匀分布 ​