第194章 LongCat－Video：分鐘級影片生成，普通人也能玩明白

2025-11-22 作者：巴蜀魔幻俠

在AI生成內容（AIGC）的賽道里，短影片生成早就不是新鮮事了，但“長影片生成”一直是塊難啃的硬骨頭——要麼生成的影片片段不連貫，要麼只能做幾秒的短內容，很難滿足大家對“分鐘級”長影片的需求。而美團這次開源的模型，直接把這塊硬骨頭啃了下來，還把模型免費開放給所有人用。下面咱們就拆成一個個小問題，用最接地氣的話把它說清楚。

一、先搞懂核心：到底是個啥？

咱們先拋開“模型”“開源”這些專業詞，用大白話給它下個定義：是美團開發的一款AI工具，能根據文字、圖片生成分鐘級的長影片，還能給 existing影片續上內容，關鍵是它免費開放，任何人都能拿來用。

舉個生活裡的例子：你想做一個“週末露營vlog”，但沒素材也不會剪輯，只要在這個模型裡輸入文字“陽光明媚的湖邊，有人搭帳篷、煮咖啡，鏡頭慢慢掃過湖面的波光”，它就能直接生成1分鐘甚至更久的連貫影片；要是你拍了一段露營開頭的影片，想接著往下做，把這段影片傳給它，它能順著開頭的風格、內容，自動續出後面的畫面，不用你手動一點點剪。

它和咱們平時刷到的“AI生成短影片”最大的區別，就在於“長”和“連貫”。以前很多AI生成影片只能做10秒、20秒，而且前一秒是湖邊，後一秒可能突然跳到樹林，邏輯斷了；但能做到1分鐘以上，整個影片的場景、人物動作、畫面風格都是順的，就像真人精心剪輯出來的一樣。

二、三大核心功能：文生、圖生、影片續寫，覆蓋大多數影片需求

最實用的地方，就是把三種常見的影片生成需求“打包”了，不管你是沒素材、有素材想拓展，還是想用圖片當藍本，它都能搞定。咱們一個個說清楚每個功能咋用、適合啥場景。

1. 文生影片：“你說我做”，文字描述直接變影片

這是最“懶人友好”的功能——不用拍任何素材，只要把你腦子裡的畫面用文字寫出來，AI就幫你把文字變成影片。

（1）具體咋操作？

舉個簡單的步驟：

- 第一步：開啟模型（後面會說在哪找），找到“文生影片”入口；

- 第二步：輸入文字描述，比如“秋天的公園，金黃的銀杏葉飄落，一個小女孩穿著紅色外套在樹下撿葉子，鏡頭跟著她的腳步移動，背景有老人在打太極”；

- 第三步：選一下影片時長（比如1分鐘）、畫面清晰度，點“生成”；

- 第四步：等一會兒，AI就生成好完整的影片了，要是不滿意，還能調整文字描述再生成。

（2）適合啥場景？

- 自媒體博主：想做“治癒系風景影片”“情感文案短片”，不用扛著相機拍素材，文字描述就能出片，省時間又省力氣；

- 學生黨：做課件、演講稿需要影片素材，比如講“四季變化”，輸入文字就能生成對應影片，比找現成素材更貼合內容；

- 普通人記錄生活：想給家人做一個“生日祝福影片”，但沒來得及拍素材，輸入“生日蛋糕上插著蠟燭，家人圍在一起唱生日歌，畫面暖色調”，就能生成專屬影片。

（3）為啥比其他文生影片工具好？

以前很多工具生成的影片，要麼時長短（最多30秒），要麼畫面“跳戲”——比如前半段是小女孩撿葉子，後半段突然出現別的公園，邏輯不連貫；但能做到1分鐘以上，而且畫面裡的“銀杏葉”“紅色外套”“老人打太極”這些元素會一直連貫出現，鏡頭移動也自然，就像真人拍的一樣。

2. 圖生影片：“以圖為藍本”，一張圖片變動態影片

要是你有一張喜歡的圖片，想讓它“動”起來變成影片，這個功能就派上用場了——AI會根據圖片的風格、內容，生成一段和圖片匹配的動態影片。

（1）具體咋操作？

比如你有一張“海邊日落”的圖片：

- 第一步：在模型裡選“圖生影片”，上傳這張日落圖；

- 第二步：可以補充一句文字描述（可選），比如“讓海浪慢慢拍打著沙灘，夕陽慢慢下沉，天空從橙色變成粉色”；

- 第三步：選時長，點生成；

- 第四步：生成的影片裡，海邊、日落的風格和原圖一致，還會加上“海浪波動”“夕陽移動”的動態效果，不是簡單的圖片迴圈播放。

（2）適合啥場景？

- 攝影師：想給靜態照片做“動態延展”，比如一張靜物照，能生成“物品慢慢旋轉、光影變化”的影片，讓作品更有層次感；

- 設計師：做海報、宣傳圖時，需要配套的短影片素材，比如一張產品圖，能生成“產品360度展示、背景漸變”的影片，不用再單獨做動畫；

- 普通人曬圈：拍了一張好看的旅行照，想發個更特別的朋友圈，用這個功能把照片變成動態影片，比靜態圖更吸睛。

（3）核心優勢：風格不跑偏

很多圖生影片工具會“篡改”原圖風格——比如原圖是清新的海邊日落，生成的影片可能變成濃豔的色彩；但能精準匹配原圖的色調、構圖，動態效果是在原圖基礎上“延伸”，不是“重構”，保證影片和圖片的風格統一。

3. 影片續寫：“無縫銜接”，給現有影片加長度

這個功能對經常做影片的人來說太實用了——要是你拍了一段影片，但覺得不夠長，或者想接著前面的內容拓展，不用再手動拍素材、剪輯，AI直接幫你“續上”，而且銜接得特別自然。

（1）具體咋操作？

比如你拍了一段“貓咪在陽臺曬太陽”的10秒影片，想續成1分鐘：

- 第一步：選“影片續寫”，上傳這段10秒的影片；

- 第二步：補充描述（可選），比如“貓咪伸了個懶腰，走到貓抓板旁邊磨爪子，然後跳上窗臺看窗外的小鳥”；

- 第三步：選續寫後的總時長（比如1分鐘），點生成；

- 第四步：生成的1分鐘影片裡，前10秒是你拍的內容，後面50秒是AI續的，貓咪的動作、陽臺的場景和前面完全銜接，不會出現“突然換背景”“貓咪變樣子”的情況。

（2）適合啥場景？

- 短影片創作者：拍了一段開頭影片，沒靈感接著拍，AI幫你續內容，不用中斷創作；

- vlog博主：旅行時只拍了部分片段，想做完整vlog，用續寫功能補全內容，不用回頭再拍；

- 企業做宣傳：已有一段產品介紹影片，想加一段“使用者使用場景”，AI直接續寫，不用再組織拍攝團隊。

（3）關鍵亮點：連貫不生硬

以前的影片續寫工具，很容易出現“銜接斷層”——比如前面是貓咪在陽臺，續寫的部分突然變成客廳；但能“記住”原影片的場景、人物（或動物）、畫面風格，續寫的內容和原影片就像“無縫焊接”，普通人根本看不出哪段是原影片、哪段是AI續的。

三、背後的“黑科技”：統一架構+強化學習，為啥能做到“長且連貫”？

可能有人會好奇：為啥別的模型做不到分鐘級連貫影片，能做到？這背後靠兩個核心技術——“統一架構”和“強化學習最佳化”。咱們不用懂專業術語，用生活裡的例子把它講明白。

1. 統一架構：相當於“一個團隊幹三件事”，效率高還不混亂

咱們先理解“非統一架構”的問題：以前很多AI模型，文生影片、圖生影片、影片續寫是三個分開的“小團隊”，各自有自己的工作邏輯——文生影片團隊只懂“文字變畫面”，圖生影片團隊只懂“圖片變動態”，續寫團隊只懂“接尾巴”。這樣一來，不僅效率低，還容易出問題：比如用圖生影片再續寫，兩個團隊的邏輯不一樣，生成的影片就會不連貫。

而用的是“統一架構”，相當於把這三個“小團隊”合併成一個“大團隊”，有統一的工作邏輯——不管是文字、圖片還是影片輸入，這個團隊都用一套“方法論”處理，能精準銜接不同任務。

舉個例子：你先用圖片生成一段“咖啡製作”的影片，再讓AI續寫這段影片。統一架構下，AI能“記住”圖片的風格（比如復古風）、咖啡製作的步驟（磨豆、煮咖啡），續寫時會順著這個風格和步驟往下做（比如倒咖啡、加奶泡）；要是非統一架構，續寫團隊可能不知道圖片的風格，直接生成現代風的畫面，就會不連貫。

這種統一架構，不僅讓三個功能的生成效果更穩定，還讓模型體積更小、執行更快——以前三個團隊要佔三個辦公室，現在一個團隊佔一個辦公室，空間省了，效率還高了。

2. 強化學習最佳化：相當於“讓AI不斷練手，越做越好”

“強化學習”簡單說就是“AI透過不斷嘗試，找到最好的方法”，就像咱們學做飯——第一次炒青菜可能炒糊，第二次調整火候，第三次調整時間，慢慢就知道“怎麼炒才好吃”，AI也是這麼學的。

在正式釋出前，經過了大量的“練習”：

- 第一步：AI先生成一段影片，比如根據“湖邊露營”生成1分鐘影片；

- 第二步：系統會給這段影片“打分”，比如“場景連貫打90分，人物動作自然打80分，畫面清晰度打85分”；

- 第三步：AI根據打分結果調整，比如下次生成時最佳化人物動作；

- 第四步：反覆重複這個過程，直到生成的影片在“連貫度、自然度、清晰度”上都拿到高分。

而且這個“強化學習”專門針對“長影片”最佳化——以前的AI練的是“怎麼做好10秒影片”，現在練的是“怎麼做好1分鐘影片”，重點解決“長時間影片裡的邏輯連貫問題”。比如生成1分鐘露營影片，AI會提前“規劃”好：0-10秒搭帳篷，10-30秒煮咖啡，30-60秒湖邊聊天，每個環節銜接自然，不會出現“剛搭完帳篷突然跳去聊天”的情況。

正是這兩個“黑科技”，讓既能生成“分鐘級”的長影片，又能保證畫面連貫、風格統一，比很多同類模型更實用。

四、“開源”是啥意思？普通人也能用上這個模型嗎？

提到“開源至HuggingFace”，很多人可能不懂“開源”和“HuggingFace”是啥，咱們一個個拆，重點說“普通人能不能用”。

1. 先搞懂：“開源”=免費開放，誰都能拿來用、改

“開源”的全稱是“開放原始碼”，簡單說就是美團把這個模型的“底層程式碼”免費開放給所有人——你可以直接用它生成影片，也可以根據自己的需求改程式碼（比如讓它生成更有個人風格的影片），不用花錢買授權，也沒有使用限制。

舉個例子：就像有人做了一個“萬能麵包機”，不僅免費給你用，還把麵包機的“製作圖紙”給你——你可以直接用它烤麵包，也可以根據圖紙改一改，讓它能烤蛋糕、烤餅乾，完全自由。

以前很多AI影片模型是“閉源”的，要麼收費才能用，要麼只能用平臺給的固定功能，不能改；但開源後，不管是普通人、自媒體博主，還是小公司，都能免費用上，甚至還能自己最佳化功能，門檻低多了。

2. HuggingFace：AI領域的“免費工具庫”，找模型就像逛超市

HuggingFace是一個全球知名的AI開源平臺，相當於AI領域的“免費工具庫”——上面有各種開源的AI模型，比如生成文字的、生成圖片的、生成影片的，任何人都能免費下載、使用。

你可以把它理解成“AI版的應用商店”，只不過上面的“應用”（模型）都是免費的開源到HuggingFace，就相當於把這個“影片生成工具”放到了這個“應用商店”裡，任何人只要去這個平臺，搜“”，就能找到它，然後下載下來用。

3. 普通人能不能用？分兩種情況，新手也能上手

可能有人擔心：“我不懂程式碼，能用上這個模型嗎？”答案是“能”，分兩種情況：

（1）不懂程式碼：用“現成工具一樣簡單

現在很多AI開發者會在HuggingFace上給開源模型做“視覺化介面”，就像給“底層程式碼”外殼”——你不用敲程式碼，只要點滑鼠、輸文字，就能用功能。

比如你想文生影片，開啟這個視覺化介面，輸入文字描述，選時長，點“生成”，等一會兒就出結果，一樣簡單。現在已經有不少開發者在做的視覺化工具，普通人搜一下就能找到，不用懂技術也能操作。

（2）懂程式碼：可以自己改模型，玩出更多花樣

要是你懂一點Python程式碼，就能直接下載的原始碼，然後根據自己的需求改——比如讓它生成“動漫風格”的長影片，或者讓它支援“多圖生成影片”，甚至可以把它整合到自己的專案裡（比如做一個專屬的影片生成小程式）。

簡單說：不懂程式碼，能用“現成的簡易工具”；懂程式碼，能玩出更多自定義功能，不管哪種情況，普通人都能用上。

五、的意義：不止是“生成影片”，還能幫到這些領域

美團開源這個模型，不只是給大家多了一個“影片生成工具”，更給很多行業和人群帶來了便利，咱們看看它能幫到哪些人、哪些事。

1. 對普通人：降低影片創作門檻，“零經驗也能做影片”

以前做一段1分鐘的影片，要拍素材、剪畫面、加音樂，沒經驗的人可能要花幾小時，甚至做不出來；但有了，只要會打字、會上傳圖片，就能生成高質量影片，真正實現“零經驗創作”。

比如你想給朋友做生日祝福影片，不用拍素材，輸入文字就能生成；想發旅行朋友圈，拍一張照片，就能生成動態影片；甚至想給孩子做“睡前故事影片”，輸入故事內容，就能生成帶畫面的影片，比單純講故事更生動。

2. 對自媒體/內容創作者：省時間、省成本，專注“創意”

對博主、自媒體人來說，最頭疼的就是“找素材、剪輯影片”，有時候花一天時間剪一段1分鐘的影片，還不一定滿意能幫他們省去這些麻煩：

- 省時間：不用拍素材、不用手動剪輯，文字/圖片輸入就能出片，一天能多做幾個影片；

- 省成本：不用買素材、不用請剪輯師，免費就能用，小博主也能負擔；

- 專注創意：創作者可以把精力放在“想內容、想文案”上，不用糾結“怎麼拍、怎麼剪”，創意能更好地落地。

比如美食博主想做“家常菜教程影片”，不用自己拍做菜過程，輸入“番茄炒蛋步驟：打雞蛋、炒雞蛋、炒番茄、混合翻炒”，就能生成教程影片；情感博主想做“文案短片”，輸入文案，就能生成匹配的畫面，效率高多了。

3. 對中小企業/商家：低成本做營銷影片，不用依賴專業團隊

很多中小企業、小商家想做宣傳影片（比如產品介紹、活動推廣），但請專業拍攝團隊要花幾千甚至幾萬，成本太高；用就能低成本解決：

- 比如奶茶店想做“新品宣傳影片”，輸入“一杯珍珠奶茶，珍珠Q彈，奶茶顏色奶白，背景是奶茶店裝修”，就能生成宣傳影片，發在朋友圈、抖音上，不用花一分錢；

- 比如服裝店想做“穿搭影片”，上傳衣服圖片，輸入“模特穿著這件連衣裙，在公園散步，搭配小白鞋”，就能生成穿搭影片，比拍真人模特更省事。

4. 對AI行業：推動長影片生成技術進步，大家一起“把蛋糕做大”

開源的意義不止是“免費使用”，更在於“共同最佳化”——以前很多長影片模型閉源，大家只能用現成的，沒法一起改進；但開源後，全球的AI開發者都能研究它的程式碼，然後提出最佳化建議，甚至自己開發新功能。

比如有人可能會最佳化它的“畫面清晰度”，有人可能會讓它支援“多語言文字生成影片”，有人可能會讓它生成“3D風格影片”——慢慢的，這個模型會越來越強，長影片生成技術也會越來越成熟，最終受益的是所有人。

六、目前的小侷限：理性看待，它不是“萬能的”

雖然很厲害，但它不是“完美的”，目前還有一些小侷限，咱們得理性看待，避免用的時候踩坑：

1. 生成時間可能有點長，尤其是長影片

生成1分鐘的影片，不像發訊息那麼快，可能需要等幾分鐘（具體看你的電腦配置和網路），要是電腦配置低，時間可能更長。不過這是所有長影片生成模型的通病，後續隨著技術最佳化，時間會越來越短。

2. 複雜場景可能生成不精準，細節有瑕疵

比如你輸入“一群人在操場打籃球，每個人的動作不一樣，背景有觀眾歡呼”，這種複雜場景裡，AI可能會把“人物動作”做得不夠自然，或者“觀眾”的細節比較模糊。目前它對簡單、單一的場景生成效果最好，複雜場景還需要進一步最佳化。

3. 不能直接生成帶聲音的影片，需要自己加

目前只能生成“畫面”，不能生成聲音（比如背景音樂、人聲），要是你需要帶聲音的影片，得自己用剪映之類的工具加聲音，稍微有點麻煩，但好在加聲音的操作很簡單，新手也能上手。

4. 對電腦配置有一定要求，低配電腦可能卡頓

雖然有視覺化工具，但要是你的電腦配置太低（比如老電腦、記憶體小的電腦），執行模型時可能會卡頓，甚至生成不了影片。不過現在大部分普通家用電腦都能滿足基本需求，不用特意買高階電腦。

七、總結：是“普通人的影片生成神器”

總的來說，美團開源的，是一款“接地氣”的AI影片工具——它解決了普通人“想做影片但不會拍、不會剪”的痛點，也幫創作者、商家省了時間和成本，還透過開源推動了AI技術的進步。

雖然它現在還有一些小侷限，但對於大多數人來說，已經足夠用了：你可以用它做朋友圈影片、生日祝福影片，自媒體博主可以用它做內容，商家可以用它做宣傳——關鍵是它免費、門檻低，只要你有“想做影片”的想法，就能用它實現。

要是你想試試，直接去HuggingFace搜“”，就能找到它，不懂程式碼的話，搜一下“ 視覺化工具”，就能找到簡單易操作的版本，趕緊去試試，說不定能做出讓你驚喜的影片呢！