AutoGLM 能操控手机,AI 未来已经来了?
最近,AutoGLM 刷屏了各大社交平台,我随即去看了一下它的介绍视频。这不正是我一直梦寐以求的 AI 智能助手吗?
只需一句简单的指令,就能控制手机或电脑上的软件,执行各类操作。这不就是电影《钢铁侠》里的“贾维斯”吗?难道我们真的要迎来一个 AI 超越未来的时代了?
AutoGLM:让 AI 变成你的私人助理
从官方介绍来看,AutoGLM 已经能够帮助用户完成诸多日常任务,比如:
- 电商购物:比如在双十一期间,我想购买一部小米 14 旗舰手机,只需对 AutoGLM 说一句话,它便会自动打开淘宝,查找最新价格,并展示给我。
- 语音导航:无需手动输入地址,只需告诉 AutoGLM 目的地,它便会自动打开地图并开始导航。
- 自动生成文本:写好评、回复消息、甚至是撰写社交媒体帖子,AutoGLM 都能轻松搞定。
目前,AutoGLM 已适配微信、淘宝、美团、小红书、大众点评、12306、携程和高德地图等 8 款常用应用,基本覆盖了日常生活所需的核心软件。此外,它还能执行更多高阶操作,比如朋友圈点赞、抢车票、订门票等。
Claude 的 Computer Use vs. AutoGLM:AI 交互方式的不同
在 AI 代理(Agent)领域,AutoGLM 不是唯一的探索者。例如,Claude 近期推出的“Computer Use”功能,展现了一种不同的 AI 交互方式。
Claude 的 Computer Use
Claude 的 Computer Use 让 AI 能够像人类一样操作电脑,它可以:
- 查看屏幕内容:分析当前界面,并理解用户需求。
- 鼠标与键盘操作:自动点击、输入文字、填表,甚至是进行网页操作。
- 复杂任务执行:Claude 能够基于 API 与设备交互,实现任务自动化。
这意味着,Claude 主要专注于 PC 端的自动化操作,例如办公自动化、编程辅助等任务。
AutoGLM 的核心优势
相比之下,AutoGLM 的重点在于移动端交互,核心优势包括:
- 无需复杂 API 调用:用户只需语音或文字指令,即可让 AI 代为操作手机。
- 深度集成主流 APP:已经支持多个高频应用,涵盖外卖、购物、出行等场景。
- 更贴近日常生活:手机作为最常用的设备,AutoGLM 让 AI 交互变得更自然。
换句话说,Claude 的 Computer Use 是“让 AI 操控你的电脑”,而 AutoGLM 则是“让 AI 操控你的手机”,两者在应用场景上形成互补。
AI 大模型的未来:从理解世界到操作世界
自 2022 年 ChatGPT 横空出世以来,大模型的发展已经进入白热化阶段。然而,从实际体验来看,各大模型的能力差距正在缩小,仅仅提升参数规模已无法带来革命性突破。
因此,AI 的下半场竞争,很可能聚焦在 AI Agent 能力上。
为什么 AI Agent 能力至关重要?
- 智能手机的智能升级:当前的 AI 主要回答问题,而 AI Agent 则让手机主动完成任务。
- 环境交互成为关键:AI 需要具备功能调用、工具使用和任务规划能力,以精准理解需求并执行操作。
- 多模态理解与执行:不仅能读懂文字,还能结合语音、图像等信息,实现更复杂的交互。
例如,阿里近期发布的 Qwen2-VL 多模态模型,展示了 AI 结合视觉信息、执行实际任务的能力。
Qwen2-VL 赋能 AI Agent
在 Qwen2-VL 的演示中,用户上传了一张航班信息图片,并询问目的地的天气。AI 先解析图像文字,再自动调用天气 API,返回对应信息。
更复杂的任务场景下,AI 还能执行网页搜索、筛选信息、自动填写表单等操作。例如,在 San Diego 查找餐厅时,AI 能够:
- 打开 Google 搜索,输入关键词。
- 筛选符合条件的餐厅,分析位置、评分等因素。
- 推荐最佳选项,甚至直接帮用户导航过去。
这种能力,正是 AI Agent 未来的发展方向——从被动应答升级为主动执行。
结语
AI 发展至今,已经从“智能助手”向“智能代理”演进。AutoGLM 的出现,标志着 AI 迈入一个全新阶段:不仅能回答问题,还能帮你操作设备、执行任务。
未来,我们可以期待 AI 在手机端拥有更强的自主决策能力,让设备真正成为个人智能助理。而这一切,或许只是 AI 变革的开始。
你期待 AI 还能做些什么?欢迎留言讨论!
发布评论