又被AI淘汰了!一句话生成自动化操作
代码语言:javascript代码运行次数:0运行复制现在谁还手动操作浏览器,应该学会让AI做你自己的打工人,释放自己的双手去,你的手应该是用来摸鱼而不是做这些费时并且无聊的操作
地址:
现在我们只需要通过人类的语言也就是自然语言告诉AI,帮我发一条微博,采集周杰伦演唱会的信息,并且写入到Google Docs
中,AI就会进行类似RPA的操作,在浏览器中点击、输入、提取数据,甚至生成可视化报告
复盘每一步操作,不需要我们写代码,也不需要一步步配置PRA,只需要一句话就可以实现,这就是Midscene.js
任何人都可以通过自然语言操控网页,无论是正常需要处理一些批量的网页操作,还是需要进行一些自动化测试,写Python代码或者设置RPA就太low了,太没效率了,Midscene.js
轻松搞定,重点是完全开源
。
自然语言驱动
不用写一行代码!直接用你自己的语言告诉 Midscene.js 你想做什么:
“在豆瓣搜索《流浪地球 2》并提取评分”
“登录淘宝,把购物车前 3 件商品加入收藏”
“监控某电商页面价格,降价 10% 立即通知我”AI 会自动解析指令、规划操作步骤,像真人一样点击按钮、填写表单、抓取数据,甚至支持复杂的逻辑判断(比如 “如果页面出现错误提示,就重试 3 次”)。
集成更多开源模型
除了支持 GPT-4o、Claude 等通用大模型,Midscene.js 特别适配了两款专为 UI 自动化设计的开源模型:
UI-TARS:可以私有化部署,让本地私人数据更安全,并且对网页元素的识别准确率高达 98%,这个我就不多介绍了,前面的文章已经写过了,大家可以看看以往的文章
Qwen2.5-VL(千问):中文场景优化,对一些复杂表格、弹窗处理能力更加强大,并且完全免费且支持商业使用。
如果不想依赖闭源模型,这两个开源模型都可以满足需求
强大集成能力
作为前端,在我们以前常用的Puppeteer/Playwright
可以通过API调用,直接与以前编写的自动化脚本无缝衔接,例如先用 AI 定位到网页元素,再使用 Playwright 执行批量点击操作
日常使用(摸鱼使用
发布评论