分享开发的 OpenClaw Skill : 录制浏览器操作自动生成 RPA,不再让大模型反复点网页烧 Token - V2EX
请不要在回答技术问题时复制粘贴 AI 生成的内容
greentim

分享开发的 OpenClaw Skill : 录制浏览器操作自动生成 RPA,不再让大模型反复点网页烧 Token

  •  1
     
  •   greentim Apr 2 2274 views
    This topic created in 40 days ago, the information mentioned may be changed or developed.

    大家好,我是 Zhiwei (next4.ai co-founder) ,一直做 AI 和 AI Agent 方向的研究。

    工作场景中,有几个问题让我很头疼:

    用 OpenClaw 让模型直接驱动浏览器

    1. 幻觉模型有时会点错按钮、找错元素、自己编一个不存在的操作
    2. 费用每次重复任务都调大模型,token 烧得很快
    3. 每次用模型,自动化操作,速度很慢

    于是做了一个 RPA (自动化机器人程序) 技能来根本性地解决这两个问题

    核心思路 录制一次真实操作 → 自动生成 Playwright Python 脚本 → 以后直接跑脚本。 不再调大模型,没有幻觉,每次执行路径完全一致,结果可预期。

    主要功能 在真实 Chrome 里逐步录制,选择器直接从 DOM 读取,不靠模型猜 支持多步任务自动拆解,防止单次请求超时 生成可独立运行的 .py 文件,脱离 OpenClaw 也能跑 支持浏览器操作 + 本机文件提取(存到桌面等) 在 OpenClaw + 飞书/IM 里可以发 #rpa-run:任务名 随时触发或定时执行

    典型场景 电商登录下单、Yahoo 财经行情抓取、豆瓣影评提取、新闻标题汇总…… 录一次,之后随时回放,每次结果稳定一致。

    详细介绍和安装说明: https://github.com/laziobird/openclaw-rpa/blob/main/README.zh-CN.md 里面有案例视频演示

    Skill 地址 https://clawhub.ai/laziobird/openclaw-rpa

    推荐使用大模型:Minimax 2.7 、>= Gemini Pro 3.0 、Claude Sonnet 4.6

    如果有人也在研究怎么让 Agent 跑得更稳、成本更低,欢迎一起交流!

    17 replies    2026-04-15 02:07:46 +08:00
    dong706
        1
    dong706  
       Apr 2
    感觉很有价值,收藏了!
    putaozhenhaochi
        2
    putaozhenhaochi  
       Apr 2
    大模型烧 token 是真狠啊
    Tink
        3
    Tink  
    PRO
       Apr 2
    我现在一般是先指导大模型点哪里点哪里,完整走完一次流程,然后让他把上面成功的路径封装成 skill
    matafu
        4
    matafu  
       Apr 2
    @Tink 用什么工具来教他呢?求科普
    frank1256
        5
    frank1256  
       Apr 2
    @matafu 他说的指导,会不会是“人”?
    itechify
        6
    itechify  
    PRO
       Apr 2
    谢谢分享
    Tink
        7
    Tink  
    PRO
       Apr 2 via iPhone
    @Tink 跟他对话
    dingawm
        8
    dingawm  
       Apr 2
    为啥更推荐 Minimax 2.7 ,是在 Agent 上面效果更好吗?
    greentim
        9
    greentim  
    OP
       Apr 2
    @dingawm 因为 Minimax 2.5 能力不够。跑不通
    greentim
        10
    greentim  
    OP
       Apr 2
    @Tink 封装成 skill ,你还是要花 Token 跑这个 skill 呀
    dingawm
        11
    dingawm  
       Apr 2
    @greentim #9 哦哦,我看成了 Minimax 2.7 >= Gemini Pro 3.0 ,再看了下意思应该是大于 Gemini Pro 3.0 的 Gemini Pro 系列的模型是吧
    greentim
        12
    greentim  
    OP
       Apr 2
    @dingawm Gemini Pro 3.0 也没问题。 国内大模型是要差点意思
    Tink
        13
    Tink  
    PRO
       Apr 2 via iPhone
    @greentim 现在 gpt 和 Claude 模型基本上都是直接封装成带 scripts 的 skill 的
    yinyu
        14
    yinyu  
       Apr 2
    挺好的,我龙虾做蠢的要死,自己写脚本跑,快得一批,我都担心风控
    greentim
        15
    greentim  
    OP
       Apr 3
    @Tink 带 scripts 的 skill 还是每次大模型实时生成 Script ,每次都需要烧不必要的 Token
    greentim
        16
    greentim  
    OP
       Apr 8
    感谢大家的关注,新版本来了,https://github.com/laziobird/openclaw-rpa 主要增加了 API 调用,Computer Use 自动化(word 、excel)、自动化登录录制 https://github.com/laziobird/openclaw-rpa?tab=readme-ov-file#what-you-can-automate 一些典型案例 1 、行情 API + 新闻 + 本地简报(#rpa-api )

    说明:HTTP 拉 JSON + 浏览器新闻页 + 合并简报;本节以文案与 API 说明为主。
    文档:
    https://github.com/laziobird/openclaw-rpa/blob/main/README.zh-CN.md#api-quotes-news-brief-zh

    2 、自动登录( Cookie ):电商购物自动登录
    说明:#rpa-login 存 Cookie → 录制/回放自动注入。
    https://github.com/laziobird/openclaw-rpa/blob/main/articles/autologin-tutorial.md

    系统自动化对账( API + Excel + Word )
    说明:API 财务系统 + 本地 Excel 匹配 + Word 表格报告。
    https://github.com/laziobird/openclaw-rpa/blob/main/articles/scenario-ap-reconciliation.md
    greentim
        17
    greentim  
    OP
       Apr 15
    而我们的 RPA Skill 在网页数据提取时,引入了视觉大模型( Vision )模式。它不依赖底层的 HTML 代码,而是像人眼一样直接“看”网页截图。只要屏幕上显示了“价格”和“评分”,它就能精准提取。网站底层怎么改,影响不到它。

    大模型视觉识别 VS 传统爬虫(如 Python/Scrapy )
    像 Airbnb 这种现代网站,大量采用 SPA (单页应用)技术,数据都是动态加载的,甚至网页元素会随着鼠标滚动不断变化。传统爬虫极度依赖底层的 HTML 代码结构,面对这种复杂的 SPA 网站几乎束手无策;一旦网站稍微改版,爬虫代码直接报废,维护成本是个无底洞。

    我刚发了一个“Airbnb 民宿竞品比价机器人”案例,Airbnb 、携程ctrip.com 就是典型做了防爬的 SPA 复杂网站 。案例完整介绍 https://github.com/laziobird/openclaw-rpa/blob/main/articles/scenario-airbnb-compare.md
    我们在 Airbnb 比价案例中,视觉提取底层使用的是阿里最新开源的 Qwen3-VL 视觉大模型。它不仅识别极其精准,而且花费的 Token 极小!作为开源模型,你甚至可以将其本地私有化部署 (GitHub: Qwen3-VL),彻底解决企业数据隐私的后顾之忧
    About     Help     Advertise     Blog     API     FAQ     Solana     5691 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 161ms UTC 03:32 PVG 11:32 LAX 20:32 JFK 23:32
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86