千問(wèn)APP圖片能力升級(jí):中文生成編輯更精準(zhǔn)、人像一致性更強(qiáng)觀點(diǎn)
12月2日,阿里巴巴發(fā)布了圖片生成及編輯模型Qwen-Image的重磅更新。
12月2日,阿里巴巴發(fā)布了圖片生成及編輯模型Qwen-Image的重磅更新。新模型在圖像編輯中維持了更高的一致性,并在多視角轉(zhuǎn)換、多圖像融合、多模態(tài)推理等方面取得突破進(jìn)展,可廣泛用于概念創(chuàng)意、工業(yè)設(shè)計(jì)、日常修圖等諸多場(chǎng)景。目前,新版本Qwen-Image已首發(fā)接入千問(wèn)APP,用戶可無(wú)限次免費(fèi)使用。
Qwen-Image-Edit 基于20B的 Qwen-Image 模型進(jìn)一步訓(xùn)練,相較于上個(gè)版本,新的Qwen-Image-Edit模型還進(jìn)行多項(xiàng)關(guān)鍵性能增強(qiáng):在圖片編輯中,新模型大幅減輕了主體偏移問(wèn)題,生圖不模糊、更穩(wěn)定;同時(shí)提升了主體一致性,使得多張圖片中的人物可順暢融合為一張合照。Qwen-Image-Edit新模型在工業(yè)設(shè)計(jì)場(chǎng)景著重進(jìn)行了優(yōu)化,輕松實(shí)現(xiàn)變顏色、變視角、局部修改、材質(zhì)替換等常用功能;新模型的推理能力也有大幅提升,特別是在幾何推理方面,可直接在幾何圖上生成新的輔助線等效果。
此前,Qwen-Image基礎(chǔ)版在用于通用圖像生成的GenEval、DPG和OneIG-Bench,以及用于圖像編輯的GEdit、ImgEdit和GSO等多個(gè)基準(zhǔn)測(cè)試中均取得了最先進(jìn)的性能,展現(xiàn)出其在圖像生成與圖像編輯方面的強(qiáng)大能力。此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的結(jié)果表明,Qwen-Image在文本渲染方面表現(xiàn)尤為出色。

Qwen-Image系列模型自開(kāi)源發(fā)布以來(lái),即刻成為全球AI社區(qū)最火熱的開(kāi)源視覺(jué)基礎(chǔ)模型,當(dāng)前總下載量已突破300萬(wàn)次。在全球最大的AI開(kāi)源社區(qū)HuggingFace的“圖生圖”榜單前15中,有13個(gè)都是Qwen-Image的原生或衍生模型,網(wǎng)友們紛紛基于Qwen-Image魔改出各種新版本等,比如鏡頭控制lora效果,可實(shí)現(xiàn)圖片的多角度重新編輯,目前仍高居HuggingFace的演示空間(Space)榜單第一。如今,開(kāi)源社區(qū)的優(yōu)秀創(chuàng)意也已吸納到新改版的Qwen-Image-Edit模型中,基模上就可實(shí)現(xiàn)打光、換視角等特色效果。

Qwen-Image衍生模型霸榜開(kāi)源社區(qū)
目前,Qwen-Image-Edit最新模型已經(jīng)在千問(wèn)App全面上線,普通用戶也可免費(fèi)使用這一新模型。用戶只需在千問(wèn)APP對(duì)話界面輸入指令,即可自動(dòng)調(diào)用Qwen-Image系列模型的強(qiáng)大能力,實(shí)現(xiàn)生圖、修圖、多圖融合等操作。例如,輸入“生成圖1和圖2的人物合照”,模型能高效、精準(zhǔn)地生成符合語(yǔ)義的圖像,效果直觀且富有創(chuàng)意。

此外,結(jié)合千問(wèn)App上接入的萬(wàn)相Wan2.5視頻生成能力,用戶還可實(shí)現(xiàn)生圖、生視頻的無(wú)縫串聯(lián):先生成人物圖像,再一鍵實(shí)現(xiàn)“一張照片就跳舞”或“對(duì)口型唱歌”等功能,瞬間將靜態(tài)畫面轉(zhuǎn)化為動(dòng)態(tài)視頻,真正實(shí)現(xiàn)從圖像生成到創(chuàng)意表達(dá)的全新創(chuàng)作方法。
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。
