當(dāng)前,“人工智能+”服務(wù)千行百業(yè)。作為人工智能技術(shù)應(yīng)用的最前端,大模型正在為產(chǎn)業(yè)發(fā)展提供有力支撐。在視頻大模型應(yīng)用賽道,國產(chǎn)大模型正在深度融入產(chǎn)業(yè)。視頻大模型能做什么?未來發(fā)展趨勢怎么樣?快手人工智能專家接受了采訪。
“簡單來說,人工智能大模型就是利用海量數(shù)據(jù)和巨大算力,通過深度學(xué)習(xí)算法訓(xùn)練出來的超大規(guī)模人工神經(jīng)網(wǎng)絡(luò),可以看成是人工智能技術(shù)應(yīng)用的‘能量塊’或‘基礎(chǔ)設(shè)施’?!笨焓指呒壐笨偛?、可靈AI事業(yè)部負(fù)責(zé)人兼社區(qū)科學(xué)線負(fù)責(zé)人蓋坤說。
基于側(cè)重不同應(yīng)用領(lǐng)域,大模型可以分為不同類型。例如DeepSeek是語言大模型,磐石屬于基礎(chǔ)科學(xué)大模型,快手可靈則是典型的視頻大模型。各種國產(chǎn)大模型憑借各自優(yōu)勢在政務(wù)、醫(yī)療、教育等領(lǐng)域大顯身手。
“可靈作為視頻大模型,服務(wù)AI時代的視頻內(nèi)容創(chuàng)作,致力于推動內(nèi)容產(chǎn)業(yè)邁向智能化、高效率、低門檻?!鄙w坤介紹,使用視頻大模型的創(chuàng)作者,可以通過算法驅(qū)動生成想拍攝的內(nèi)容,而不完全依賴攝像鏡頭。
視頻大模型用起來、用得好,關(guān)鍵在于其生成效果和可控能力。蓋坤舉例說,基于自主研發(fā)的高效模型架構(gòu)以及流匹配算法,快手可靈有效提升了對物理規(guī)律的模擬能力,以及對用戶復(fù)雜輸入的響應(yīng)能力,讓角色運動更符合真實邏輯,畫面表現(xiàn)更具時間連貫性與結(jié)構(gòu)完整性。
目前,AI視頻生成技術(shù)已在廣告、電商、短劇、教育等領(lǐng)域融合應(yīng)用,幫助提升制作效率、降低成本。蓋坤說,以一部人工智能生成內(nèi)容(AIGC)短劇為例,快手可靈輔助制作后,整體劇集制作時間大概只相當(dāng)于傳統(tǒng)制作時間的1/3。視頻生成技術(shù)實現(xiàn)真正落地,需要以被市場驗證的真實付費為前提,2025年第二季度可靈收入超過2.5億元,其中近70%由專業(yè)創(chuàng)作者貢獻(xiàn)。海外創(chuàng)意平臺Freepik接入10個以上全球各地的視頻生成大模型,全球用戶選擇使用快手可靈生成的視頻數(shù)量,超過使用其他模型加起來的總和,反映出中國技術(shù)團隊在場景理解、用戶體驗等方面的優(yōu)勢。
前不久,《人工智能全球治理行動計劃》發(fā)布,強調(diào)推動人工智能向善發(fā)展、普惠應(yīng)用。蓋坤表示,目前人工智能視頻生成仍面臨一致性、合理性等技術(shù)挑戰(zhàn),也要警惕版權(quán)歸屬、虛假內(nèi)容傳播等問題。同步提升模型能力與治理能力,不斷完善治理機制,才能讓技術(shù)更安全、更可靠地服務(wù)產(chǎn)業(yè)發(fā)展。