2026美加墨世界杯(中国) 南京大学、商汤科技等多机构纠合出品:手机AI助手的“开源转换”来了
这项由南京大学、商汤科技、南洋理工大学、上海东说念主工智能实验室、香港大学、西安交通大学纠合开展的照管,以预印本形势发布于2026年4月,论文编号为arXiv:2604.15093,有兴味真切了解的读者可通过该编号在arXiv平台查阅完整原文。
手机屏幕上那些繁琐的操作,有莫得可能交给AI来作念?灵通某个App、找到某个建树、按照你的条目完成一系列才能——这类"手机助手"的想法并不清新,但实在能用的系统,往日简直是各大科技巨头的专属领地。这篇论文要讲的,就是一群照管者怎样突破这说念壁垒,用开源的形状为频频照管者和开辟者铺平说念路。
照管者们给我方的恶果起名叫"OpenMobile"。这个名字里的"Open"不是噱头,而是一种宣言:他们把西宾AI手机助手所需的数据合成方法、代码和数据集全部公开,让任何东说念主都可以用来西宾我方的AI助手。在这之前,行业里最顶尖的AI手机助手——比如Step-GUI、MAI-UI、UI-Venus-1.5、MobileAgent-v3.5——在一个叫作念"AndroidWorld"的挨次测试上,得胜率还是接近70%。这个数字听起来不算惊东说念主,但要知说念,这些任务波及实在的手机操作,每一步都需要AI实在"看懂"屏幕、"想明晰"该何如作念。关联词,这些顶尖系统背后的西宾数据全部守密,外界皆备不知说念它们是何如练出来的。与此同期,依赖公开数据集西宾的开源模子,在相同的测试上只可达到30%傍边,差距悬殊。
OpenMobile的方针,就是填平这说念范围。
一、手机AI助手究竟在作念什么
在真切了解OpenMobile的具体作念法之前,有必要先搞明晰这类AI助手到底是何如使命的。
把AI手机助手比作一位新来的实习生草率更好相识。你把一部目生的手机交给这位实习生,告诉他"帮我在日期App里创建一个未来上昼十点的会议"。这位实习生需要先看明晰屏幕上的内容(终点于AI"读取"截图),然后判断该点那边(终点于AI决定履行什么操作),一步步完成任务。更要道的是,淌若某一步走错了,他还得能意志到出错了,并想主义改良。
这类AI系统在学术上叫作念"视觉说话模子驱动的转移端智能体",说白了就是:能看懂手机屏幕图像、又能相识东说念主类领导的AI,在手机上帮你干活。西宾这样的AI,需要多量的"脚本"——也就是每个任务对应的操作轨迹:从第一步点了那边,到终末任务完成,每一步都有记载。有了这些脚本,AI才能通过效法学习,安静掌持怎样操作手机。
问题在于,高质料的脚本很难获取。东说念主工一条一条地标注老本极高,而且东说念主工标注往往存在噪声和无理。更艰巨的是,即便有了脚本,淌若脚本里只消"一切顺利"的情况,AI在现实中际遇我方犯错的情况时就会伯仲无措——它从来没见过出错之后该何如办。
OpenMobile针对这两浩劫题,永诀想象了两个中枢科罚有策画。
二、给AI建一张"App功能舆图"
科罚第一个难题——怎样自动生成多量高质料任务领导——OpenMobile采取了一种颇具新意的方法。
现存的主流作念法,时常是让AI在App里赶快点来点去,然后左证它走过的这条旅途来编一个任务。这就像一个东说念主在城市里浮松走了一条街,然后左证这条街的见闻编一个旅游攻略。问题是,一条街的见闻太局限了,你根蒂不知说念这座城市还有几许边际、几许意旨的地方。
OpenMobile的作念法皆备不同。照管团队把这个经由拆成了两个阶段。
第一阶段,先让AI在App里平凡探索,把际遇的扫数不同页面都记载下来,就像绘画一张舆图。在这个经由中,AI每走一步,都会把现时页面的截图和它能到达的相邻页面记下来。由于不同的探索旅途会经过交流的页面,照管者用一种叫"感知哈希"的时期来识别"这两张截图其实是归并个页面",幸免重复记载。最终,扫数探索旅途被整合成一个调解的结构,照管者称之为"全局环境顾虑"。可以把它相识为一张完整的App功能舆图,标注了每个页面有哪些功能,以及页面之间怎样跳转。
第二阶段,才是生成任务领导。关于舆图上的每一个页面,照管者不仅给AI看这个页面自己的内容,还额外提供两类信息:一是"短期顾虑",也就是这个页面相邻的几个页面(你从这里能径直到那边、从那边能来到这里);二是"历久顾虑",也就是扫数这个词App里和这个页面功能预计但可能相距很远的其他页面的功能描摹。这种"历久顾虑"是通过语义相似度检索获取的,近似于你在藏书楼找书时,系统会推选主题预计的其他书目。
有了这三层信息,一个雄伟的视觉说话模子就能生成既各样又有左证的复合型任务领导——不是浮浅的"灵通建树",而是"在音频录制App里,把灌音神色改成WAV、采样率设为48kHz、声说念设为立体声,然后录一段短音频保存"这种复杂领导。生成的领导还要经过质料过滤(评分过低的删掉)和去重(语义太相似的只保留最佳的一条),最终得到一批高质料的任务领导集。
这种把"探索"和"生成"分开的想象,带来了实质性的平正。照管者作念了东说念主工评估:让有劝诫的评测者把OpenMobile生成的领导和两种基线方法作念对比,收尾发现OpenMobile的领导在"难度和复杂性"方面昭着更胜一筹,而"合感性和可履行性"相同莫得下跌。在执行西宾效果上,用交流数目(1500条)的轨迹数据西宾,OpenMobile的方法让AI在AndroidWorld测试中达到48.3%的得胜率,而另外两种基线方法永诀只消34.1%和45.3%。
三、教AI怎样从无理中爬起来
有了任务领导,接下来就要让AI执行履行这些任务,把履行经由录制成"脚本",再用来西宾AI。这就引出了第二个中枢挑战:怎样荟萃既高质料又包含"犯错与纠错"劝诫的脚本。
最常见的作念法叫"民众蒸馏",也就是让一个还是很利弊的AI(民众模子)去履行任务,把它的操作经由录下来,让待西宾的AI(学习者模子)去效法。这个方法的优点是脚本体量高,谬误是脚本里全是"教科书式"的完好操作,学习者从来看不到犯错之后该何如办。到了实在使用场景中,学习者一朝犯错,就会伯仲无措,不知说念怎样改良。
另一种作念法叫"自我进化",让学习者我方去履行任务,得胜的才留住来,然后从头西宾,日中必昃。这种方法的平正是学习者见过我方犯错的情况,谬误是跳跃相配慢,而且学习者的才智上限就是它我方现时的水平,很容易堕入瓶颈。
OpenMobile建议了一种会通两者优点的"战略切换轮转"方法。中枢想路是:让学习者去履行任务,但支配有一个"监考老诚"(由雄伟的视觉说话模子担任)及时盯着学习者的每一步。一朝监考老诚发现学习者偏离了正确轨说念——比如伙同点错、堕入轮回、皆备莫得向方针围聚——就坐窝让民众模子领受,帮学习者改良轨迹,把任务推回正轨。民众介入至少履行三步后,再把限度权还给学习者。
这个经由中,监考老诚还会把检测到的"偏差分析"见知民众模子,匡助民众更好地相识现时的失败模式,2026美加墨世界杯(中国)从而给出更有针对性的改良操作。扫数这个词纠错经由在一次任务履行中最多触发两次。
照管者荒谬指出,他们测试了多种切换战略:皆备靠民众、皆备靠学习者自我进化、赶快切换(两个模子不一致时赶快决定用谁)、以及上述的"无理介入切换"。收尾想法,无理介入切换战略在每条轨迹中平均包含1.56个"无理与纠错"片断,远高于民众蒸馏的0.42个和自我进化的0.10个。赶快切换天然包含了0.64个,但由于切换时机阑珊,脚本体量狼藉不皆,最终西宾效果(45.1%)并莫得比民众蒸馏(44.8%)好几许,而无理介入切换则达到了48.3%。
西宾之后,照管者还特地测试了模子在执行履行中"发现无理、分析无理、改良无理"三个维度的才智。收尾标明,用OpenMobile数据西宾后的模子,在这三个维度上都昭着优于基础模子,尤其是改良无理的才智普及最为显贵——普及幅度达到了66%。
四、数据集长什么样,效果何如样
按照上述两大方法,照管团队在AndroidWorld提供的安卓模拟器环境上,针对20个安卓App,生成了约2800条任务领导,对应34000个操作才能。每条履行轨迹平均包含12.2个才能,每步附带平均129个词的"想维链推理"——也就是AI在作念每一步操作之前,先用笔墨解说我方为什么这样作念。这部分想维链由民众模子从头撰写,以保证质料。
照管者用这批数据永诀微调了两个基础模子:Qwen2.5-VL-7B(70亿参数)和Qwen3-VL-8B(80亿参数)。前者莫得经过特地针对图形界面的大范围预西宾,用来锤真金不怕火数据自己的价值;后者自己还是是更强的基础模子,用来探索性能上限。
在AndroidWorld测试上,Qwen2.5-VL基础版块的得胜率是25.5%,经过OpenMobile数据微调后跃升到51.7%,普及了高出25个百分点。Qwen3-VL基础版块底本还是有47.6%,微调后达到64.7%,与Step-GUI-8B(67.7%)、MAI-UI-8B(70.7%)等行业顶尖闭源系统比较还是终点接近。
更能证实问题的是泛化才智。OpenMobile的数据是在AndroidWorld的环境里荟萃的,但照管者还在另外两个皆备不同的测试平台上评估了模子。AndroidLab包含9个App的138个任务,Qwen3-VL版块达到51.5%,而同类开源数据方法的最佳收获(ScaleCUA)只消30%。MobileWorld是一个更难的测试,特地覆按需要跨越多个App、长达数十步的复杂任务,Qwen2.5-VL版块从7.7%普及到14.8%,Qwen3-VL版块从9.4%普及到17.7%,相对普及幅度高出50%。这证实OpenMobile的西宾方法让AI获取的不仅仅"背题",而是实在的通用操作才智。
照管者还测试了用更大模子(720亿参数的Qwen2.5-VL-72B)微调的效果,AndroidWorld得胜率达到59.3%,进一步考据了"数据质料好、模子越大效果越强"的规定。此外,他们也尝试了强化学习方法——包括单步奖励的强化学习和完整轨迹级别的强化学习——但发现这些方法在动态测试环境下的普及并不踏实,最终发达未能超越挨次的监督微调。照管者以为,这可能与现时环境的各样性截至和强化学习框架的踏实性预计,留待改日照管科罚。
五、这是真武艺照旧"背了谜底"
每当一个开源模子在某个测试集上取得好收获,总会有东说念主问:它是真实变强了,照旧仅仅暗暗"背了谜底"?这个疑虑在OpenMobile这里尤其合理,因为西宾数据就是在AndroidWorld同款环境里生成的。
照管者对此作念了相配透明的分析。他们用一个专科的语义相似度模子,计较了每一条合成西宾领导和AndroidWorld测试集里每一条测试领导之间的相似度,然后和两个公开数据集(AndroidControl和AMEX)作念了对比。收尾是:OpenMobile的合成领导如实比公开数据集更接近测试领导,这是相宜预期的,毕竟都是在归并个App环境里生成的。但是,相似度高出0.7的领导只占全部合成领导的3.5%,大多数领导仅仅在功能层面有些重迭,而不是字面上的重复或改写。
更有劝服力的是底下这个实验:淌若把最相似的那部分西宾数据删掉,望望模子收获会何如变化,再对比赶快删除同等数目数据的情况。删掉10%最相似的数据,收获仅仅轻细下跌,证实性能并不是脆弱地依赖于少数几条"近似题目"。但当删除比例增多到40%以上时,性能驱动昭着下滑,况且比赶快删除下滑得更快。照管者对此给出了合相识释:删掉相似领导,同期也删掉了笼罩某些中枢App功能的西宾样本,终点于把某项技巧的锻练材料全删了,天然会影响发达。
这引出了照管者对"为什么OpenMobile数据有用"的中枢解说:功能笼罩率。他们用一个说话模子把每个测试任务瓦解成所需的原子功能(比如"在日期App里创建举止"瓦解为"灵通日期"、"创建新事件"、"设定日期"、"设定标题"等),然后统计西宾数据中笼罩了几许比例的这些原子功能。跟着合成领导数目增多,功能笼罩率稳步上涨,而且OpenMobile永久高于同等数目的耦合基线方法。进一步的分析还发现,任务需要的功能越多(任务越复杂),得胜率越低;而西宾数据笼罩了越多预计功能,得胜率越高。这证实OpenMobile的西宾价值不在于"见过近似的题目",而在于"笼罩了弥漫多的操作技巧"。
说到底,OpenMobile的孝顺是多档次的。在时期层面,它提供了一套可以被任何东说念主复现和使用的数据合成框架,把"全局环境顾虑"和"战略切换轮转"这两个创新想象系统地结合在沿途。在实验层面,它在三个寥寂的动态基准测试上全面考据了方法的有用性,况且对数据混浊风险作念了贫瘠一见的透明分析,这在扫数这个词领域都属于独特的严谨作风。在社区价值层面,它公开了数据和代码,让路源社区有了一个可以链接迭代的坚实来源。
天然,OpenMobile也有它坦承的局限。当今的西宾数据只笼罩20个App,环境各样性有限。强化学习地点的尝试尚未取得一致性突破,原因可能和模拟器环境的广度不够预计。此外,即即是64.7%这个收获,和最顶尖的73.7%比较仍有差距,证实数据质料和基础模子才智两者不行偏废,仅凭开放数据合成还不及以皆备追平顶尖闭源系统。
手机里那位实在懂你、帮你干活的AI助手,距离频频东说念主的日常糊口正在变得越来越近。而让这一切变得愈加公说念、愈加透明的死力,草率恰是扫数这个词领域永久跳跃的底气所在。
Q&A
Q1:OpenMobile和其他手机AI助手比较,上风在那边?
A:OpenMobile最大的上风在于它是皆备开源的——数据、代码和合成方法全部公开。以前发达好的手机AI助手,比如Step-GUI和MAI-UI,西宾数据全部守密,外界无法复现或改进。OpenMobile让任何照管者都能用相同的方法西宾我方的模子,同期在AndroidWorld测试上,它西宾出的模子得胜率从约30%跃升到64.7%,还是相配接近顶尖闭源系统,而且在其他两个测试平台上也展示出了可以的泛化才智。
Q2:OpenMobile的西宾数据会不会是靠"背谜底"得高分的?
A:照管者对此作念了特地的考据。他们计较了西宾数据和测试题目之间的语义相似度,发现只消3.5%的西宾领导与测试领导相似度高出0.7,不存在大范围照搬测试题的情况。而且当把最相似的一小部分西宾数据删掉时,模子收获仅仅小幅下跌,证实性能靠的是平凡的功能笼罩而非少数几条近似题目。
Q3:频频用户什么时期能用上OpenMobile西宾出来的手机助手?
A:OpenMobile当今是一个照管框架2026美加墨世界杯(中国),西宾出的模子需要在安卓模拟器或实在确立上部署,还不是一个开箱即用的阔绰级产物。不外由于代码和数据全部公开,开辟者社区可以在此基础上链接开辟,改日集成进实在手机助手欺诈的可能性是存在的。当今距离频频用户径直使用还需要更多工程化使命。
赛马投注中国app官方版下载