首頁 分類 排行榜 閱讀記錄 我的書架

第229章 智譜開源autoGLM:全球首個“會玩手機”的AI

2026-02-22 作者:巴蜀魔幻俠

在AI圈,我們見多了能說會道的聊天機器人——能陪你嘮嗑、幫你查資料、給你寫文案,但這些AI大多停留在“嘴炮”階段,真要讓它們動手做點實際事,比如點個外賣、訂張機票,往往就卡殼了。而最近智譜正式開源的核心AI Agent模型autoGLM,徹底打破了這個僵局——它被業界認定為全球首個具備手機操作能力的智慧體,真正實現了AI從“對話響應”到“執行落地”的關鍵突破。

簡單說,autoGLM不是一,而是一個能住在你手機裡、替你跑腿幹活的“隱形助手”。它不用你手把手指揮,只要你說一句需求,就能像真人一樣滑動螢幕、點選圖示、輸入文字,把任務從頭到尾幹完。現在它已經適配了淘寶、抖音、美團、微信、釘釘等超50個高頻中文應用,不管是生活服務還是辦公場景,都能輕鬆hold住。更貼心的是,它支援本地和雲端雙部署模式,資料安全自己說了算,還能給智慧眼鏡、家電等裝置賦能,讓AI真正走進物理世界。下面就用大白話,帶你全方位看懂這個“AI打工人”有多靠譜。

一、autoGLM是甚麼?——AI從“只會說”到“親手做”的飛躍

在聊autoGLM的神奇功能之前,我們先搞明白它到底是甚麼。簡單來說,autoGLM是一個“能自主操作手機的AI智慧體”,這裡的“智慧體”可以理解為“有獨立思考和行動能力的數字助手”。以前的AI,更像是一個“問答機器”——你問它“怎麼點外賣”,它會告訴你“開啟美團、搜尋餐廳、選菜品、下單”,但不會真的幫你動手;而autoGLM是一個“行動機器”——你說“幫我點一份番茄炒蛋蓋飯,不要香菜”,它就會自己,一步步完成所有操作,最後告訴你“訂單已提交,預計30分鐘送達”。

這個突破有多重要?就像以前的AI是“紙上談兵的軍師”,只能出主意;現在的autoGLM是“能征善戰的將軍”,既能出主意又能親自上陣。它解決了AI行業一個長期的痛點:很多AI模型看起來很聰明,但始終被困在“數字世界”裡,無法落地到真實的手機操作場景。而autoGLM第一次把AI的“思考能力”和“操作能力”結合起來,讓AI真正成為能幫你解決實際問題的幫手。

舉個很直觀的例子:以前你開會開到一半,突然想起要給客戶訂明天去上海的機票,還得順便點個外賣當午餐。放在以前,你要麼暫停會議自己操作,要麼記下來會後再弄,很容易耽誤事。但有了autoGLM,你只需要對著手機說一句“幫我訂明天上午10點從北京到上海的機票,選經濟艙,再點一份番茄炒蛋蓋飯,送到公司前臺”,然後繼續開會就行。它會在後臺自己,篩選符合時間的航班,幫你填好身份資訊(當然,支付需要你最後確認,避免誤操作);同時,搜尋附近評分高的餐廳,選好菜品下單,全程不用你操心。

這種“一句話搞定複雜任務”的體驗,以前只在科幻電影裡見過,現在autoGLM把它變成了現實。而且它不是隻能做一兩件事,而是能完成數十步的複雜流程——比如跨平臺發帖,你說“把這張旅行照片發到抖音、小紅書和微博,抖音配活潑的文案,小紅書加旅行攻略標籤,微博@旅遊官微”,它會分別,根據不同平臺的風格編輯內容,一一發布,最後還會給你反饋“所有平臺都已發帖,連結已儲存到你的雲文件”。

二、背後的“黑科技”:“大腦”+“眼睛”,讓AI像人一樣操作手機

autoGLM能這麼厲害,核心是靠兩個“神器”——GLM 4.5語言模型和GLM 4.5視覺推理模型(你說的“福特”應該是筆誤,正確是“視覺推理模型”)。這兩個模型一個管“思考”,一個管“看見”,配合起來就像人的“大腦”和“眼睛”,讓AI能精準理解需求,還能看懂手機螢幕,模擬真人操作。

1. GLM 4.5語言模型:AI的“超級大腦”,能聽懂、會規劃

GLM 4.5語言模型就是autoGLM的“大腦”,它的核心能力是“理解需求”和“規劃步驟”。你可別小看這個“大腦”,它可是目前業界頂尖的語言模型,不僅能聽懂你說的話,還能拆解複雜需求,制定詳細的執行計劃。

比如你說“幫我整理一下今天的工作,把微信裡客戶的需求、釘釘上的會議紀要、WPS裡的文件內容整合起來,生成一份工作週報,下午5點前發給領導”,這個需求,還要做整合和撰寫,步驟很繁瑣。但GLM 4.5語言模型能快速拆解成清晰的步驟:第一步,開啟微信,提取所有客戶聊天記錄裡的需求關鍵詞;第二步,開啟釘釘,匯出今天的會議紀要,提取核心任務;第三步,開啟WPS,檢視相關文件的關鍵資料;第四步,把這些資訊整合起來,按照週報的格式撰寫;第五步,檢查無誤後,透過企業微信發給領導。

而且這個“大腦”還很靈活,能根據實際情況調整計劃。比如提取微信客戶需求時,發現有個客戶的需求不明確,它不會硬著頭皮繼續,而是會給你發提示“客戶A提到的‘專案進度加快’,沒有明確具體時間節點,是否需要我詢問客戶確認?”,等你回覆後再繼續操作。這種“遇到問題會溝通”的能力,讓它不像一個冰冷的機器,更像一個靠譜的同事。

另外,GLM 4.5語言模型還有個厲害之處——能處理長鏈路任務。比如你讓它做一份“全球元宇宙遊戲市場”的行業分析報告,它會先開啟瀏覽器搜尋最新資料,再開啟Excel整理表格,然後開啟WPS撰寫報告,最後傳送到你的郵箱,整個過程涉及十幾個步驟,耗時可能幾十分鐘,但它能一步步有條不紊地完成,不會中途忘記或出錯。這得益於它強大的邏輯推理能力和記憶能力,能把複雜任務的每個環節都記在“腦子裡”,確保執行連貫。

2. GLM 4.5視覺推理模型:AI的“火眼金睛”,能看懂、會定位

如果說語言模型是“大腦”,那GLM 4.5視覺推理模型就是autoGLM的“眼睛”,它的核心能力是“看懂手機螢幕”。很多人可能會疑惑:AI沒有眼睛,怎麼知道哪裡是按鈕、哪裡是輸入框?這就全靠視覺推理模型了。

這個“眼睛”能精準識別手機螢幕上的所有元素—圖示、按鈕、輸入框,還是文字、圖片、圖表,它都能一一辨認。比如,它能一眼認出“搜尋框”在頂部,“購物車”圖示在右上角,“我的訂單”在底部導航欄裡,它能區分“外賣”“團購”“買菜”三個入口,還能看懂菜品的名稱、價格、評分,甚至能識別“已售罄”“免配送費”這樣的標籤。

更厲害的是,它還能理解螢幕上的邏輯關係。比如你讓它“在淘寶上找一雙男士運動鞋,價格在500元以內,評分4.8分以上,銷量前10名”,它會先點選淘寶的搜尋框,輸入“男士運動鞋”,然後在篩選欄裡找到“價格”選項,輸入“0-500”,再找到“評分”選項,勾選“4.8分以上”,最後按“銷量”排序,篩選出符合條件的商品。整個過程中,它需要看懂篩選欄裡的各個選項,知道“價格”“評分”“銷量”的位置和操作方式,這就像人看書一樣,不僅能看到文字,還能理解文字的意思和邏輯。

而且這個“眼睛”還能適應不同的手機介面——不管你用的是安卓還是蘋果手是豎屏還是橫屏,不管字型大小有沒有調整,它都能準確識別。這得益於它在訓練時接觸了大量的手機螢幕截圖和介面資料,已經能應對各種複雜的介面情況。就像我們人類不管看甚麼手機,都能很快找到自己需要的功能一樣,autoGLM的“眼睛”也具備這種通用的識別能力。

正是“大腦”和“眼睛”的完美配合,讓autoGLM能像真人一樣操作手機。語言模型負責想“要做甚麼、怎麼做”,視覺推理模型負責看“在哪裡做、怎麼點”,兩者協同工作,就能完成各種任務。

三、50+高頻應用全覆蓋:生活、辦公,AI全幫你搞定

autoGLM的厲害之處,不僅在於能操作手機,還在於它覆蓋了我們日常最常用的應用場景。目前它已經適配了超過50個高頻中文應用,涵蓋生活服務和辦公場景兩大領域,不管是吃穿住行,還是上班幹活,它都能成為你的“得力助手”。

1. 生活服務場景:解放雙手,讓生活更省心

生活裡的很多瑣事,現在都能交給autoGLM來做,不用之間來回切換,省出更多時間做自己想做的事。

外賣點單&生鮮採購:這是最常用的功能之一。你可以說“幫我點一份麥當勞的麥辣雞腿堡套餐,不要可樂,換成雪碧”,它會開啟美團,找到對應的餐廳和套餐,修改飲品後下單;也可以說“幫我在盒馬鮮生上買一斤草莓、兩斤西紅柿、一瓶牛奶,明天早上送到家”,它會,選好商品,設定配送時間,完成下單。如果你有忌口或偏好,比如“不吃香菜”“喜歡微辣”,只要提前告訴它,它會每次都自動避開,比自己下單還貼心。

交通出行&票務預訂:不管是訂機票、火車票,還是打車、查路線,它都能搞定。你說“幫我訂後天下午3點從上海到廣州的高鐵票,選二等座,靠窗的位置”,,搜尋車次,篩選靠窗座位,幫你填好乘車人資訊,最後提醒你支付;你要出門時,說“幫我叫一輛滴滴快車,從公司到家裡,現在出發”,它會,自動定位你的位置,設定目的地,叫車成功後告訴你司機資訊和預計到達時間;甚至你去陌生地方,說“幫我查一下從這裡到故宮的地鐵線路,避開早高峰”,它會開啟高德或百度地圖,搜尋最優路線,還會提醒你哪個時間段人少。

娛樂休閒&本地生活:週末想出去玩?autoGLM能幫你做攻略、訂門票。你說“幫我找北京朝陽區人均150元以內、適合拍照的網紅餐廳,選3家評分最高的,在高德地圖上標註出來”,它會開啟大眾點評搜尋,篩選符合條件的餐廳,再同步到高德地圖,方便你導航;你說“幫我訂本週末北京歡樂谷的門票,兩張成人票,選週六上午的場次”,它會開啟攜程或,找到對應的場次,完成預訂。甚至你想追綜藝、看電影,說“幫我在騰訊影片上搜尋《乘風2025》最新一期,快取下來,我路上看”,它也能精準操作。

2. 辦公場景:告別繁瑣,讓工作更高效

對於上班族來說,autoGLM更是“摸魚神器”,能幫你搞定很多重複、繁瑣的工作,讓你專注於核心任務。

跨平臺內容創作&釋出:做新媒體、市場或運營的朋友,經常需要在多個平臺發內容,現在不用一個個手動操作了。你說“把這篇產品推廣文案,配上這張圖片,發到抖音、小紅書、微博和微信公眾號,抖音加#科技好物 #AI助手 標籤,小紅書寫一篇種草筆記,微博@官方賬號,公眾號設定為原創”,autoGLM會分別打,根據每個平臺的風格調整文案和排版,一一發布,最後還會給你彙總釋出結果,方便你後續檢視資料。

文件處理&資料整理:寫報告、做表格是很多人的痛點,autoGLM能幫你減負。你說“幫我把這份PDF裡的資料提取出來,整理成Excel表格,按銷售額排序,突出顯示top5的產品”,它會開啟WPS或Off,提取PDF裡的資料,製作表格,完成排序和標註;你說“幫我根據這份會議紀要,寫一份工作總結,重點突出完成的任務、未完成的事項和下週計劃,用簡潔的語言”,它會提煉會議紀要的核心資訊,按照你的要求撰寫總結,不用你再逐字逐句梳理。

工作溝通&任務跟進:在微信、釘釘上溝通工作時,autoGLM能幫你整理資訊、跟進任務。你說“幫我整理今天微信裡客戶的所有需求,按緊急程度分類,生成一個待辦清單,同步到釘釘的任務管理裡”,它會提取微信聊天記錄裡的需求,分類整理後同步到釘釘,還會設定提醒時間;你說“幫我給客戶發一封郵件,主題是‘產品合作方案跟進’,內容用之前的模板,附件加上最新的方案文件”,它會,填寫主題、正文,新增附件,提醒你確認後傳送。

四、本地+雲端雙部署:資料安全自己說了算,隱私有保障

很多人用AI工具,最擔心的就是資料隱私問題——比如聊天記錄、工作檔案、個人資訊會不會洩露?autoGLM早就考慮到了這一點,支援本地部署和雲端部署兩種模式,讓你根據自己的需求選擇,確保資料和隱私的控制權始終在自己手裡。

1. 本地部署:資料不上雲,安全級別拉滿

本地部署,簡單說就是把autoGLM的模型安裝在你自己的手機、電腦或伺服器上,所有操作和資料都在本地執行,不會上傳到任何雲端伺服器。這種模式適合對資料安全要求高的使用者,比如企業使用者、處理敏感資訊的上班族,或者注重隱私的普通人。

比如你是金融行業的從業者,需要用autoGLM處理客戶的財務資料、合同資訊,這些都是高度敏感的內容,不能洩露。選擇本地部署後,所有資料都儲存在公司的內部伺服器上,autoGLM的所有操作都在內部網路完成,不會和外部網路互動,從根源上避免了資料洩露的風險。而且本地部署還能自定義功能,比如企業可以根據自己的業務需求,修改autoGLM的操作流程,適配內部系統,讓它更符合工作場景。

可能有人會擔心,本地部署是不是需要很高的硬體配置?其實不用——autoGLM的蒸餾版模型,只要你的電腦有RTX 4060顯示卡、手機是近兩年的中高階機型,就能流暢執行。當然,如果你需要處理更復雜的任務,比如大規模資料整理、長影片處理,可以選擇更高配置的裝置,或者部署在公司的伺服器上,效能會更穩定。

2. 雲端部署:即開即用,方便快捷無門檻

如果你只是日常使用,比如點外賣、訂機票、發朋友圈,對資料安全的要求沒那麼高,那麼雲端部署會更方便。雲端部署就是把autoGLM的模型放在智譜的雲端伺服器上,你不用下載安裝,只要或網頁就能使用,零技術門檻,即開即用。

雲端部署的優勢在於不用佔用你本地的儲存空間和算力,不管你用的是舊手機還是普通電腦,都能流暢使用所有功能。而且雲端部署能實時更新模型,只要智譜最佳化了autoGLM的功能,比如新增、提升了操作準確率,你不用手動升級,就能直接體驗到。另外,雲端部署還支援跨裝置同步,比如你在手機上讓autoGLM開始整理文件,後來換成電腦,登入同一個賬號就能繼續操作,不用重複勞動。

可能有人會問,雲端部署的資料安全嗎?放心,autoGLM的雲端部署採用了高強度的資料加密技術,你的所有運算元據都會被加密儲存,只有你自己能檢視和使用。而且智譜不會主動收集你的敏感資訊,比如支付密碼、身份證號等,這些資訊只會在你操作時臨時使用,操作完成後就會加密刪除,不會留存。

簡單總結一下兩種部署模式的區別:本地部署適合注重隱私、處理敏感資料的使用者,安全但需要一定的硬體支援;雲端部署適合日常使用、追求便捷的使用者,方便但安全級別相對較低。你可以根據自己的需求選擇,也可以在不同場景下切換使用,比如處理工作檔案用本地部署,點外賣用雲端部署,靈活又安全。

五、賦能終端裝置:讓AI走進物理世界,不止於手機

autoGLM的價值,不止於操作手機——它還能為智慧眼鏡、智慧家電等終端裝置賦能,讓AI從手機螢幕裡走出來,走進真實的物理世界,加速AI與物理世界的深度互動。

1. 智慧眼鏡:解放雙手,實現“無感操作”

智慧眼鏡是autoGLM的重要應用場景之一。當autoGLM賦能智慧眼鏡後,你不用再掏手機,透過語音指令就能讓眼鏡幫你完成操作。比如你戴著智慧眼鏡出門,說“幫我查一下附近的咖啡店,選評分最高的那家,導航過去”,眼鏡會透過內建的攝像頭“看到”周圍的環境,結合autoGLM的操作能力,搜尋咖啡店,然後在眼鏡的顯示屏上顯示導航路線,實時提醒你“前方50米左轉”“到達目的地”。

再比如你在開會時,戴著智慧眼鏡說“幫我記錄會議紀要,提取核心任務,同步到釘釘”,眼鏡會錄製會議內容,autoGLM會提取關鍵資訊,生成會議紀要,自動同步到你的工作軟體,不用你再手動記錄。甚至你在超市購物時,說“幫我查一下這款牛奶的營養成分,對比一下旁邊那款的價格”,眼鏡會掃描牛奶的包裝,autoGLM會查詢相關資訊,在顯示屏上顯示對比結果,幫你做出更明智的選擇。

這種“無感操作”的模式,讓AI真正融入你的生活,不用再依賴手機,操作更自然、更便捷。就像哈佛大學研發的人機共融智慧系統一樣,autoGLM賦能的智慧眼鏡,能讓AI成為你的“隨身助手”,與你實時協作。

2. 智慧家電:互聯互通,打造“智慧生活”

現在很多家庭都有智慧家電,比如智慧冰箱、智慧洗衣機、智慧空調,但這些家電大多是“各自為戰”,沒有真正互聯互通。autoGLM能成為它們的“連線中樞”,讓不同品牌、不同型別的智慧家電協同工作,打造真正的智慧生活。

比如你下班回家前,說“幫我開啟家裡的空調,溫度調到25度,讓洗衣機開始清洗上午的衣服,同時在冰箱裡找一下有沒有晚上能吃的食材,沒有的話在美團買菜上訂一些”,autoGLM會同時操作多個智慧裝置:給空調傳送開機指令,設定溫度;讓洗衣機開始工作;開啟智慧冰箱的攝像頭,檢視食材情況;如果食材不夠,就開啟下單。等你回到家,空調已經調好溫度,衣服在洗衣機裡清洗,食材也已經送到,直接就能做飯,幸福感滿滿。

再比如你出門時,說“幫我檢查家裡的家電有沒有關好,門窗有沒有鎖上”,autoGLM會聯動智慧門鎖、智慧攝像頭和各種家電,確認門窗已鎖、空調、燈光、電視都已關閉,如果發現有未關閉的裝置,會提醒你“客廳的燈沒有關,是否需要遠端關閉”,讓你出門更安心。

未來,autoGLM還能賦能更多終端裝置,比如智慧機器人、智慧汽車、工業裝置等,讓AI在更多場景下發揮作用。比如智慧機器人可以藉助autoGLM的操作能力,自主完成家庭清潔、物品搬運等任務;智慧汽車可以透過autoGLM,幫你預訂充電樁、查詢路況、控制車內裝置,讓駕駛更便捷。

六、開源的意義:降低門檻,讓更多人受益於AI

智譜選擇開源autoGLM的核心模型,這在行業內是一件大事。開源,簡單說就是把autoGLM的核心程式碼和技術公開,讓全球的開發者、企業和個人都能免費使用、修改和二次開發。這不僅能降低AI技術的使用門檻,還能推動整個行業的創新和發展。

對於普通開發者來說,以前想要開發一個能操作手機的AI智慧體,需要投入大量的時間和資金訓練模型,還需要積累大量的運算元據,門檻很高。現在有了autoGLM的開源模型,開發者可以直接在這個基礎上進行修改和最佳化,不用從零開始,大大降低了開發成本。比如你想開發一個針對老年人的AI助手,專門幫老年人操作手機、訂藥、叫救護車,就可以基於autoGLM的模型,最佳化語音識別(支援方言)、簡化操作流程,快速開發出適合老年人使用的產品。

對於企業來說,開源的autoGLM能幫助它們快速落地AI應用,提升效率。比如手機廠商可以把autoGLM整合到自己的手機系統裡,打造“AI手機”,讓使用者不用下,就能直接使用AI操作功能,提升手機的競爭力;家電廠商可以基於autoGLM,開發更智慧的家電控制系統,讓家電之間的協作更流暢;政務、金融、教育等行業的企業,也可以根據自己的業務需求,定製化開發AI助手,提升服務質量和工作效率。

對於整個AI行業來說,開源能促進技術交流和創新。不同的開發者和企業可以分享自己的最佳化方案和應用案例,讓autoGLM的模型越來越完善,適配更多的場景和裝置。就像飛致雲的開源AI助手MaxKB一樣,透過開源吸引了大量使用者和開發者,不斷迭代最佳化,最終成為企業級AI應用的標杆產品。autoGLM的開源,也能形成這樣的良性迴圈,推動AI技術從“少數企業壟斷”走向“全民共創”,讓AI真正普惠大眾。

總結:AI的未來,是“能動手”的未來

智譜開源的autoGLM,不僅是一個“會操作手機的AI智慧體”,更是AI技術從“對話響應”到“執行落地”的重要里程碑。它用“大腦+眼睛”的組合,讓AI像人一樣理解需求、操作裝置;用50+高頻應用的適配,覆蓋生活和辦公的方方面面;用本地+雲端雙部署,解決了使用者的隱私顧慮;用對終端裝置的賦能,讓AI走進物理世界。

以前我們總說“AI改變生活”,但大多是停留在概念層面;現在有了autoGLM,我們真正看到了AI改變生活的具體場景——不用再為繁瑣的手機操作煩惱,不用再為重複的工作任務焦慮,不用再擔心資料隱私洩露,AI真正成為了我們生活和工作中的“得力助手”。

未來,隨著autoGLM的不斷最佳化和開源生態的發展,它會適配更多的應用和裝置,操作會更精準、更智慧,能完成的任務也會更多樣。或許用不了多久,我們就能習慣“一句話搞定所有事”的生活:早上說一句“幫我準備早餐、規劃上班路線、檢視今天的工作安排”,AI就會聯動家電、導航、工作軟體,幫你把一切都安排妥當;晚上說一句“幫我整理今天的工作、訂好明天的機票、選一部好看的電影”,AI就會高效完成所有操作,讓你能安心休息。

AI的未來,不再是“只會說”的未來,而是“能動手”的未來。而autoGLM的開源,正是這個未來的起點——它讓更多人能參與到AI的發展中來,讓AI技術真正落地到每個普通人的生活裡,讓智慧變得更實用、更安全、更普惠。

A−
A+
護眼
目錄