目前很流行的是讓ai形成文本圖畫,我試了試
目前來看常用的Stable?Diffusion?和?DALLE-2?還沒有特意做文字生成這方面的訓練,即使提出了類似要求,也很容易生成亂碼或者扭曲的文字。但是使用圖像編輯軟件(如Adobe?Photoshop、GIMP等),在生成的圖片上添加文字。打開AI生成的圖片,在編輯模式下,選擇適當的工具(如文本工具),設置字體、大小、顏色等參數,然後在圖片上添加指定的文本。就可以有效避免這個問題,新手黨可以保存速沖。
不過已經有很多人提出類似的需求了,比如想要在牌子、衣服上印特定的字,或者制作特定的文身、水印等等,這的確是有實際意義的。據說?Google?的?AI?會好壹點,而且?NVIDIA?公開的?eDiff-I?已經有比較可用的結果了。
我覺得大概思路是使用文字生成模型,將需要顯示的文本輸入模型中,然後生成對應的圖像。有壹些開源的文字生成模型(如AttnGAN、StackGAN等)可以用於這個任務。
比如網友曬處的例子,常見的普通文本可以直接使用?wearing?a?T-shirt?reads?"some?words"?嘗試生成但是即便是使用這種方式,也很難定向設置字體/字號/樣式等,如果是?Logo或者文身,最好還是用類似?PS?正片疊底疊加的方式,能整合
在?Stable?Diffusion?裏自動生成最好,整合不了也可以等大佬們直接做類似的插件功能。這種方法需要相關的算法和訓練數據,機器學習技術可以幫助實現圖像和文本之間的關聯
。其實現在遊戲捏人的時候有很多類似的做法,我印象很深的就是寅子的「忠義」,其實就是壹個圖片的疊加,綁定在人物建模上。至於有人提到用?controlNet?做,我初步想了想可能控制不了這麽精細(也可能我鉆研的還不夠透徹…)。
目前?controlNet?提供的預處理模型及功能看模型描述最有希望的是?mlsd?但那玩意主要是用來檢測建築邊緣的吧…還是得試試總之,我的想法是,對大佬們或者煉模型的人應該不難,我試著加入文字的訓練,不過中文可能就不是很好了。
將來提?issue?的人多了可能會有更簡便的模型或插件來實現,現在硬要找壹些奇技淫巧有點太強求了。