首頁(yè)|必讀|視頻|專(zhuān)訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車(chē)|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 終端 >> 正文

AI手機(jī):光明的前景和布滿(mǎn)荊棘的路途丨端側(cè)AI戰(zhàn)事

2025年1月9日 08:41  21世紀(jì)經(jīng)濟(jì)報(bào)道  

文/ Rainbow主流終端廠商合規(guī)負(fù)責(zé)人

塑造一個(gè)智能體作為人類(lèi)的助手,在AI時(shí)代具有光明的前景。

這也是智能手機(jī)、智能設(shè)備,甚至軟件廠商都在嘗試的布局。

2024年,榮耀發(fā)布首款搭載AI Agent的榮耀Magic7,推出YOYO智能體;小米15搭載澎湃OS 2,并升級(jí)“小愛(ài)”為“超級(jí)小愛(ài)”;vivo也發(fā)布了PhoneGPT。

大模型走進(jìn)端側(cè)讓設(shè)備具備了“大腦”,智能體則具象化成為鏈接用戶(hù)的最佳入口。

但是,智能體作為一個(gè)“新興物種”,落地應(yīng)用有很多問(wèn)題仍需厘清,什么稱(chēng)得上智能體?其如何實(shí)現(xiàn)人類(lèi)助手的功能?在處理龐大的數(shù)據(jù)量的情況下,如何保障數(shù)據(jù)合規(guī)?終端AI智能體可能沖擊第三方應(yīng)用流量乃至App生態(tài)模式,接下來(lái)如何促進(jìn)健康的產(chǎn)業(yè)發(fā)展?

本文將就此展開(kāi)討論。

一、AI Agents 的崛起與未來(lái)趨勢(shì)

(一)從自動(dòng)化到通用智能:AI Agents 的演進(jìn)脈絡(luò)

人工智能(Artificial Intelligence)經(jīng)過(guò)數(shù)十年的發(fā)展,已從早期注重邏輯推理、專(zhuān)家系統(tǒng),逐步演進(jìn)到基于深度學(xué)習(xí)、大規(guī)模預(yù)訓(xùn)練模型(LLMs)的時(shí)代。隨著模型規(guī)模的指數(shù)級(jí)擴(kuò)張以及多模態(tài)技術(shù)的興起,AI Agents(也可稱(chēng)為智能體)開(kāi)始具備更強(qiáng)的交互與決策能力,不再局限于單一任務(wù)的自動(dòng)化,而是能夠在更復(fù)雜的環(huán)境下自主地進(jìn)行規(guī)劃、執(zhí)行、糾錯(cuò)。

近年來(lái),OpenAI、DeepMind、谷歌、微軟、Meta、智譜AI等研究機(jī)構(gòu)和企業(yè),紛紛在智能體技術(shù)上取得顯著突破。多數(shù)智能體都強(qiáng)調(diào)對(duì)環(huán)境的感知與操作,既包括文字、語(yǔ)音,也涵蓋了視覺(jué)、甚至物理環(huán)境。部分學(xué)者將這類(lèi)增強(qiáng)能力的系統(tǒng)稱(chēng)為具身智能AI(Embodied AI),而其中的GUI(Graphical User Interface) Agent即專(zhuān)門(mén)針對(duì)人機(jī)圖形交互界面進(jìn)行理解和操作的智能體。

(二)AI智能體對(duì) AGI 實(shí)現(xiàn)的價(jià)值

1. 近未來(lái)場(chǎng)景:2025 年的預(yù)測(cè)

●Sam Altman 對(duì) 2025 年“AI智能體員工”上崗的預(yù)言

OpenAI首席執(zhí)行官山姆·奧特曼(Sam Altman)周日晚發(fā)表題為《反思》的新年博客文章,其中預(yù)言,“在2025年,我們可能會(huì)看到第一批人工智能智能體“加入勞動(dòng)力市場(chǎng)”,并實(shí)質(zhì)性地改變公司的產(chǎn)出。”【1】

●斯坦福 HAI 專(zhuān)家對(duì)于“協(xié)作AI”大范圍發(fā)展的預(yù)期

斯坦福大學(xué)人類(lèi)中心 AI(HAI)的一些研究者亦指出,2025 年左右,協(xié)作型 AI 智能體將在醫(yī)療、金融、教育、政務(wù)等多個(gè)行業(yè)大規(guī)模鋪開(kāi)。這些智能體不僅能與人類(lèi)合作,還可以相互協(xié)作以完成更復(fù)雜的任務(wù)。其根本意義在于:AI 從單一工具上升為“合作者”,人機(jī)協(xié)同與多AI智能體協(xié)同將成為常態(tài)。【2】

2. 終端AI智能體對(duì)通用智能(AGI)的啟示

AGI(Artificial General Intelligence)即通用人工智能,旨在讓 AI 擁有類(lèi)似人類(lèi)的廣泛認(rèn)知能力和自適應(yīng)能力。當(dāng)前在終端設(shè)備上進(jìn)行跨應(yīng)用操作的 AI智能體,雖稱(chēng)不上 AGI,卻為AGI提供了重要試驗(yàn)場(chǎng):

1. 多模態(tài)交互:GUI 智能體通過(guò)視覺(jué)理解屏幕元素,文本識(shí)別文字內(nèi)容,甚至可能結(jié)合語(yǔ)音來(lái)進(jìn)行命令執(zhí)行,這讓 AI 更加接近人類(lèi)的多感官信息獲取方式。

2. 自主規(guī)劃與執(zhí)行:能夠“看屏幕”并模擬點(diǎn)擊或調(diào)用官方接口完成任務(wù),意味著 AI 真正具備一定的“動(dòng)手能力”,而不只是“動(dòng)口”或“動(dòng)腦”。

3. 自我糾錯(cuò)(反思能力):一些方案引入“反思智能體”,使得系統(tǒng)可以根據(jù)執(zhí)行結(jié)果進(jìn)行評(píng)估和修正。這正是走向通用智能必經(jīng)的“自我反饋回路”。

總之,終端AI智能體的快速發(fā)展,為 AGI 帶來(lái)了更豐富的場(chǎng)景實(shí)踐,也為后續(xù)更高層次智能的落地奠定了基礎(chǔ)。

二、當(dāng)前終端 AI Agent的主要技術(shù)方案

終端 AI智能體的趨勢(shì)愈發(fā)顯著,主要體現(xiàn)在手機(jī)和電腦上對(duì)智能理解和自動(dòng)化操作能力的渴望。核心思路是讓 AI 像人類(lèi)一樣,不僅能“理解”屏幕,還能“點(diǎn)擊”或“調(diào)用”各種應(yīng)用功能,從而完成復(fù)雜任務(wù)。概括而言,行業(yè)中有兩大主流方案:

(一)屏幕識(shí)別 + 模擬點(diǎn)擊

利用光學(xué)字符識(shí)別(OCR)和圖像檢測(cè),系統(tǒng)可以識(shí)別當(dāng)前屏幕上的文字、圖標(biāo)和控件,并通過(guò)模擬用戶(hù)點(diǎn)擊或鍵盤(pán)輸入完成操作。例如,智譜AI的CogAgent-Chat支持高分辨率圖像輸入,配合多智能體協(xié)作來(lái)執(zhí)行任務(wù)【3】;Mobile-Agent-v2也通過(guò)“規(guī)劃、決策、反思”三部分智能體,在移動(dòng)端實(shí)現(xiàn)了更高成功率的跨應(yīng)用執(zhí)行。【4】

(二)屏幕識(shí)別+意圖框架執(zhí)行官方接口(或類(lèi)API)調(diào)用

另一種思路是由平臺(tái)(如iOS)提供官方API或意圖框架,讓AI可以直接調(diào)取應(yīng)用功能而無(wú)須模擬點(diǎn)擊。蘋(píng)果便是借助Onscreen Awareness功能讓Siri理解屏幕內(nèi)容,再通過(guò)開(kāi)發(fā)者配置的Assistant Schemas查詢(xún)數(shù)據(jù)類(lèi)型以及可執(zhí)行功能,整體由Apple Intelligence來(lái)理解任務(wù)、規(guī)劃行動(dòng)并進(jìn)行執(zhí)行!5】

微軟提供的UFO (UI-Focused Agent for Windows OS Interaction) 采用了多種方式來(lái)操作Windows應(yīng)用程序,包括模擬點(diǎn)擊和API調(diào)用:

1. UI控制:UFO可以通過(guò)模擬鼠標(biāo)點(diǎn)擊和鍵盤(pán)輸入來(lái)操作應(yīng)用程序的用戶(hù)界面。它使用Microsoft提供的UI自動(dòng)化工具來(lái)檢測(cè)應(yīng)用程序界面上可用的UI控件,并為每個(gè)控件分配編號(hào)。智能體觀察這些編號(hào)和控件截圖后,可以選擇特定控件進(jìn)行點(diǎn)擊或輸入操作。

2. 原生API:UFO能夠利用應(yīng)用程序提供的原生API來(lái)執(zhí)行操作。這種方法可能比模擬UI操作更高效和可靠。

3. AI工具:UFO還可以使用如"Copilot"等AI工具來(lái)完成某些任務(wù)。

4. 代碼API:對(duì)于某些應(yīng)用程序,UFO可以利用它們提供的代碼API來(lái)執(zhí)行操作!6】

三、多角度思考與綜合治理的路徑

AI技術(shù)發(fā)展帶來(lái)的影響復(fù)雜而深遠(yuǎn),如何在終端 AI Agent浪潮中實(shí)現(xiàn)技術(shù)發(fā)展與法律合規(guī)、創(chuàng)新與安全、效率與公平之間的動(dòng)態(tài)平衡,正是我們當(dāng)下需要面對(duì)和解決的問(wèn)題。本節(jié)我們將從幾個(gè)核心維度切入,并最終提出一個(gè)“綜合思考象限”或“多主體、多維度”的分析框架,以便在法律層面給出可行的治理思路。

(一)多角度思考

1. 技術(shù)與AI進(jìn)化

模擬點(diǎn)擊更貼近人類(lèi)使用方式,覆蓋度更廣;官方接口則更安全高效。二者都在推動(dòng)AI向多模態(tài)和更高自主性的方向前進(jìn)。

2. 用戶(hù)體驗(yàn)與隱私安全

用戶(hù)可通過(guò)跨應(yīng)用操作獲得便利,同時(shí)也要明白在哪些場(chǎng)合下共享了屏幕信息。平臺(tái)須建立完善的權(quán)限與授權(quán)機(jī)制,緩解用戶(hù)對(duì)隱私泄露的顧慮。

3. 法律合規(guī)與監(jiān)管

屏幕識(shí)別和API調(diào)用都可能涉及個(gè)人信息保護(hù)與數(shù)據(jù)安全。各國(guó)個(gè)人信息保護(hù)法等均強(qiáng)調(diào)知情同意與最小化收集原則,要求平臺(tái)或AI服務(wù)需對(duì)潛在風(fēng)險(xiǎn)做好管控。

4. 競(jìng)爭(zhēng)與生態(tài)

終端AI智能體可能沖擊了第三方應(yīng)用流量乃至于App生態(tài)模式。需要重新梳理AI介入后的產(chǎn)業(yè)鏈變化,形成新的產(chǎn)業(yè)格局,促進(jìn)更健康的產(chǎn)業(yè)發(fā)展。

5. 社會(huì)與未來(lái)影響

隨著更多智能體承擔(dān)任務(wù),必然帶來(lái)新的就業(yè)模式或職業(yè)配置;倫理規(guī)范、行業(yè)標(biāo)準(zhǔn)也需要同步跟進(jìn),避免技術(shù)被不當(dāng)利用。

(二)綜合思考象限:多主體、多維度的平衡

若要將上述維度融為一體,可采用“多主體—多維度交叉”的分析框架。主體包括用戶(hù)、開(kāi)發(fā)者、平臺(tái)/系統(tǒng)廠商、監(jiān)管機(jī)構(gòu)、AI 技術(shù)提供方;維度則涵蓋技術(shù)進(jìn)化、用戶(hù)體驗(yàn)/隱私、安全/合規(guī)、競(jìng)爭(zhēng)/生態(tài)以及社會(huì)影響。

通過(guò)這張矩陣,我們不僅能看到單一維度的沖突與協(xié)同,也能發(fā)現(xiàn)各主體在不同維度的潛在需求或矛盾,從而尋求平衡方案。

(三)從具體方案到綜合治理

從智譜CogAgent-Chat、微軟UFO、Mobile-Agent-v2 到蘋(píng)果的 Onscreen Awareness + App Intents,這些技術(shù)路線看似各不相同,卻都在解決同一個(gè)核心問(wèn)題:“如何讓AI真正模仿人類(lèi)在操作系統(tǒng)或應(yīng)用中的各種復(fù)雜點(diǎn)擊、輸入、跨應(yīng)用切換等動(dòng)作?”

1. 多智能體、分工協(xié)作:在技術(shù)架構(gòu)上,不少方案都導(dǎo)入規(guī)劃/決策/反思這類(lèi)思路,提升可控性與成功率。

2. 接口與模擬點(diǎn)擊兩條路徑并存:有的傾向“模擬點(diǎn)擊”,有的強(qiáng)調(diào)“官方意圖框架”;這是對(duì)現(xiàn)實(shí)生態(tài)和長(zhǎng)尾需求的妥協(xié)。

3. 安全合規(guī)與生態(tài)平衡是關(guān)鍵:不管是哪種技術(shù)實(shí)現(xiàn),都繞不開(kāi)隱私保護(hù)、授權(quán)機(jī)制、數(shù)據(jù)安全、生態(tài)競(jìng)爭(zhēng)等現(xiàn)實(shí)問(wèn)題。

4. 對(duì)未來(lái)AGI的意義:讓AI真正“能看到、能思考、能操作”,把理論研究與真實(shí)操作環(huán)境結(jié)合起來(lái),這正是 AGI 路上的重要實(shí)踐之一。

終端AI智能體既帶來(lái)技術(shù)與效率上的提升,也在用戶(hù)體驗(yàn)、法律合規(guī)和行業(yè)競(jìng)爭(zhēng)中提出新課題。要實(shí)現(xiàn)更健康的發(fā)展,有必要從多個(gè)層面著手。

AI產(chǎn)業(yè)鏈中的主體應(yīng)繼續(xù)加強(qiáng)系統(tǒng)級(jí)權(quán)限管理與數(shù)據(jù)最小化收集。無(wú)論是屏幕識(shí)別還是API調(diào)用,都需盡量為用戶(hù)提供可理解的操作界面和授權(quán)提示,讓用戶(hù)在使用AI執(zhí)行自動(dòng)化功能時(shí)更有安全感。對(duì)平臺(tái)與開(kāi)發(fā)者而言,可以考慮建立“官方接口+模擬點(diǎn)擊”兩條路徑并存的方式:一方面為用戶(hù)提供通用化體驗(yàn),另一方面也讓?xiě)?yīng)用開(kāi)發(fā)者有機(jī)會(huì)更好地控制其核心功能或敏感數(shù)據(jù)。

與此同時(shí),也應(yīng)看到,AI技術(shù)進(jìn)步在帶來(lái)便利的同時(shí),也會(huì)引發(fā)較為深遠(yuǎn)的社會(huì)變革。隨著更多AI智能體逐漸走向日常應(yīng)用,產(chǎn)業(yè)分工可能會(huì)因自動(dòng)化程度的提高而發(fā)生新的調(diào)整,部分行業(yè)和崗位的工作內(nèi)容可能需要重新定位。如何在技術(shù)變革的同時(shí),兼顧個(gè)人權(quán)益和產(chǎn)業(yè)活力,將是長(zhǎng)期議程。

AI時(shí)代,生態(tài)格局將有哪些變化?軟硬件廠商如何尋求最大公約數(shù)?我們將持續(xù)推出報(bào)道,敬請(qǐng)期待......

注:

【1】郝博陽(yáng) 無(wú)忌:《奧特曼新年發(fā)文:OpenAI周活破3億,我們已找到通往AGI之路》,載于公眾號(hào)騰訊科技。

【2】Stanford HAI:《Predictions for AI in 2025: Collaborative Agents, AI Skepticism, and New Risks》

【3】Wenyi Hong等:《CogAgent: A Visual Language Model for GUI Agents》

【4】Junyang Wang等:《Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration》

【5】Apple:《Bring your app to Siri-WWDC24》

【6】Chaoyun Zhang等:《UFO: A UI-Focused Agent for Windows OS Interaction》

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
中國(guó)信通院湯立波:“5G+工業(yè)互聯(lián)網(wǎng)”已進(jìn)入規(guī);l(fā)展新階段
精彩專(zhuān)題
2024通信業(yè)年終盤(pán)點(diǎn)
2024數(shù)字科技生態(tài)大會(huì)
2024年度中國(guó)光電纜優(yōu)質(zhì)供應(yīng)商評(píng)選活動(dòng)
2024全球6G發(fā)展大會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱(chēng): 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像