让机器人替你回微信?他让机器人学会看屏操作,不插数据线就能像人一样戳手机
创始人
2026-02-24 01:39:27

2026 年央视春晚展示的机器人甚至可以夹烤肠和用竹签串烤肠了,还有一台登上本次春晚的机器人的价格甚至已经下探到万元以下,距离进入寻常百姓家真的不远了。可是,有一天真的来了一个机器人到你家里帮忙,结果它卡在了没法帮你回微信的第一步?

这听起来像是一个笑话,但其实是目前机器人进家门遇到的真实问题。现在许多事情都离不开手机:智能门锁需要授权密码、刷个抖音都得用手指滑动解锁。如果机器人不会操作手机,那么当它干完扫地擦窗的活儿,碰到这些需要依赖手机的任务就只能干瞪眼。

英国伦敦大学学院汪军教授团队赵皓宇博士生和合作者打造了一个名为 See-Control(视控)的框架,让机器人像人一样看屏幕和思考,然后使用机械手指戳点屏幕操控手机,彻底绕开了过去智能手机助手必须给手机插数据线以及使用系统开发者工具才能操控的老路子。

图 | 赵皓宇(来源:受访者)

赵皓宇告诉 DeepTech:“我们解决了现在大部分厂家都存在的一个痛点:自动化手机助手操作手机必须要通过系统开发者工具配合数据线来与电脑连接,并且只能操控单一手机操作系统。想象一下你家里有一台机器人。也许是家务机器人,或者你桌上的机械臂。通过我们完全纯视觉的方案,不依赖任何平台开发软件,可以扩展到任意的触屏设备且不需要任何线接。同时用户可以保证隐私不会有任何泄露,因为手机完完全全是机械臂物理点击交互,不需要开放任何权限、开发者协议,也不需要下载任何软件。用户完全不用担心手机会不会泄露隐私。包括部分不会用智能手机的老人、不会用开发者选项在内的非专业用户也可以通过这套系统来受益。”

(来源:https://arxiv.org/pdf/2512.08629)

通常,当我们希望使用电脑控制智能手机时,会使用一种叫做 ADB(Android Debug Bridge,安卓调试桥)的工具。它就像一根“数字电缆”,让程序员可以直接向手机系统发送指令。

但问题就在这里,使用 ADB 的方式与人类使用手机的方式并不一样,我们不会把一根线插进大脑来打开应用,而是通过看屏幕、用手指轻触来完成操作。另外,ADB 只支持 Android 平台,还需要开启特殊的开发者模式,这本身就可能带来一定的安全风险,就像给系统留了一扇没有上锁的后门。

而基于物理交互方式的 See-Control 的工作原理特别像我们教老人使用智能手机:机器人盯着屏幕截图,脑子里的大模型分析这是微信红包还是诈骗链接,然后决定到底是点一下、划一下还是打几个字。整个过程完全不碰手机核心部分,就像使用指尖操作一样自然。

为了让它真正靠谱,该团队专门设计了 155 个日常任务让机器人练习,从最简单的打开设置,到复杂的在小红书搜索攻略、截图、发给微信好友,难度步步升级。测试结果虽然不算完美,简单任务的成功率还行(大于 90%),跨越多个 APP 的任务还有点手忙脚乱。但是,方向已经十分清晰,那就是未来的家用机器人可以通过观察和触摸来接管你的手机杂活。

该团队将手机操作问题建模为部分可观测马尔可夫决策过程(POMDP),并且将多模态大模型能力装进了机器人里,使用了 GPT-4o、QwenVL 这样的视觉语言模型,让机器人不仅能够看见屏幕上的图标和文字,还能理解点击某个头像背后的社交意图。

有个特别有意思的设计是视觉提示:在智能体发出要对图标进行定位的指令时,机器人先是用一个名为 Grounding DINO 的目标检测模型,把屏幕上可交互的按钮全部框出来,标上数字 123,假如用户要点披萨,这时机器人就会问大模型用户让点披萨应该点哪一个,大模型一看 3 号是某披萨品牌的图标,OK 就它了。这套流程模仿了人类扫一眼屏幕、锁定目标的本能反应。

(来源:https://arxiv.org/pdf/2512.08629)

当然,要让机器人真的在你的手机屏幕上戳来戳去,还需要解决几个头疼的技术难题。最典型的是返回、退出和打字这三个动作。以前使用电脑上的系统开发者工具例如 Android Debug Bridge(ADB)调试手机,一条指令就能搞定;现在机器人只能使用物理手势,想返回就得从左向右滑,想退回到桌面就得从底部向上推,特别是打字,还需要对虚拟键盘的每一个键的位置都有准确的认知。这也是目前复杂任务的成功率较低的原因。

但是该团队留了一个后手。他们把机器人每次操作的思考过程和动作记录全部保存下来,做成一个数据集公开分享。这里既有成功的经验,也有失败的教训,甚至标注了“这一步点对了吗”“整个任务完成没”等信息,让其他研究者也可以依靠这些数据训练出更聪明的机器人。

(来源:https://arxiv.org/pdf/2512.08629)

应用场景当然距离我们非常近。比如,未来你在沙发上喊一声“帮我交话费”,机器人就会晃晃悠悠地走过来,看着手机屏幕点开支付宝和输入密码;再比如,当你出门忘记带手机,远程让家里的机器人帮你截图快递二维码发到你的智能手表上进行闪送;再再比如,家里有老人不会使用打车软件,机器人可以代劳叫车,送到医院还能帮忙挂号。

赵皓宇表示:“我们做的用户测试显示,很多人都认为这种形式能够极大程度上帮助到老年人、残障人士,或者一些没有时间用手机的人,极大减缓工作时间,提高工作效率。想象一位重度运动障碍患者或年迈的老人:他们可能无法握持手机,或者因为手抖而难以精准点击细小的图标。有了 See-Control,只需对语音助手说一句:‘给我孙子打微信电话。’机器人就会自动在手机屏幕上操作——打开应用、找到联系人、点击呼叫按钮,一气呵成。它像一座桥梁,把数字世界与用户的身体限制连接起来,让原本困难甚至不可能完成的操作,变得简单而可及。”

正常生活中我们可能要抢券、点外卖,这一切都会通过手机助手解决掉。通过赋能机器人使用手机,我们可以幻想不只是让手机助手点外卖,机器人甚至可以完成点外卖到帮你直接将外卖拿到你的身边的全流程。同时也有商业可能性,比如在小红书自动寻找商机、回复评论、找到相应帖子,这都能便利日常生活,极大减缓工作流程。“因为我们这个解决方案是全部物理接触,避开了应用本身存在的限制。”他说。

这种操作方式可以天然地保护隐私。过去用系统开发者工具,等于给机器人开了一扇后门,联系人、相册、聊天记录等一览无余。现在它只能看到屏幕,让它点啥就点啥,绝不多看一眼。

当然,目前的原型机还比较简单,只有一根手指,做不了放大和缩小这种双指操作,反应速度也有所延迟。据了解,该团队刻意使用最简单的机械臂做测试,就是为了先把最难的问题暴露出来,比如怎么在反光的屏幕上精准定位,怎么理解五花八门的 UI 设计,怎么从错误中学习。这些问题一旦解决,未来搭配更灵活的机械手、更快的本地推理芯片,也许过不了几年真的只需动动嘴就能让机器人干活了。

(来源:https://arxiv.org/pdf/2512.08629)

赵皓宇表示:“我们的愿景是通过 See-Control 这套系统,实现一个统一的解决方案。这套方案不存在任何平台限制,就是用一套纯视觉的方案,通过手机屏幕画面,让机器人像模拟人类那样去操纵手机。全部都是拟真的、物理的操作,不限于任何手机、任何平台。在未来,我们也希望这套纯视觉方案可以无缝衔接到不同的触摸设备上面,通过机械臂完成一切需要像人类一样交互的逻辑。”

在未来,其希望机器人不只是家中的扫地机器人,而是能够作为一个中枢、一个全面的助手来帮助人类生活。可以想象,未来可能有残障人士通过我们这套具身智能体来点外卖,机器人就可以去拿外卖、下订单,完全实现自动交互。

参考资料:

相关论文 https://arxiv.org/pdf/2512.08629

赵皓宇主页 https://haoyu-zhao.github.io/

排版:刘雅坤

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

“头前倾” 毁掉的是气质,“富... 你每天做得最多的一个动作是什么? 是掏出手机低头刷上几下 你每天保持最长久的一个动作是什么? 是久坐...
如何选择靠谱的不锈钢管批发厂家 不锈钢管批发厂家的行业地位 不锈钢管批发厂家在不锈钢市场中占据重要地位。它们是连接生产厂家与终端用户...
黔南耐火极限检测第三方机构排行... 黔南地区从事耐火极限检测的机构林林总总,为帮助大家精准筛选出可靠的服务商,小编特地梳理了本地具备CM...
市住建局开展预拌混凝土企业调研... 调研组先后深入安徽建工新材料科技有限公司、安徽恒力新型建材科技有限公司生产现场,实地察看企业试验室、...
装修前必看:门窗十大品牌怎么选... 很多业主在装修前,都会先刷一轮“门窗十大品牌”榜单,结果越看越迷茫:每个品牌都说自己隔音好、保温强、...
木工油漆师傅私藏好物!汉林水性... 在木工油漆行业里,师傅们都有“压箱底”的好用具——不是多昂贵的工具,而是能真正解决施工难题、提升效率...
原创 今... 今日!NBA勇士VS76人,库里PK恩比德,巴特勒赛季报销,CCTV5不转,2大平台直播 北京时间2...
原创 1... NBA常规赛继续进行,勇士坐镇主场迎来了与76人的对决。库里这边依旧是因伤缺席。目前他们是排在西部积...
原创 莺... 这次全明星,莺歌基本白跑了。 库里膝盖伤了没法上,英格拉姆才勉强递补进USA Stripes,本来想...
原创 勇... 金州勇士主教练史蒂夫-科尔(Steve Kerr)在球队日常训练结束后接受了记者的采访,他也在采访中...