在攝影大約200年的歷史中,大多數情況下,要說服性地修改照片需要暗房技術、Photoshop 專業知識,或者至少是用剪刀和膠水的穩定手。 然而,在週二,OpenAI 推出了一款工具,將這一過程簡化為只需輸入一句話。
雖然 OpenAI 自 2024 年以來一直在開發一種對話式圖像編輯模型 GPT-4o,但 Google 在三月份率先推出了他們的 Nano Banana 圖像模型的公開原型,隨後是其改良版本 Nano Banana Pro。Google 模型在 AI 社區中受到熱烈歡迎,這一點沒有被 OpenAI 忽視。
OpenAI 的最新创新,GPT Image 1.5,是一种 AI 图像合成模型,据说它可以比以前的版本快四倍生成图像,并通过其 API 将成本降低约 20%。這款模型於週二向所有 ChatGPT 用戶開放,標誌著又一個進步,使得照片真實感的圖像處理變得輕松而不需要特定的視覺技能。
使用 GPT Image 1.5,用戶可以輕鬆地將「宇宙銀河女王」這樣的特徵合成到照片中,例如室內有一張沙發的場景,這一切都可以在 ChatGPT 中完成。
值得注意的是,GPT Image 1.5 是一款“原生多模態”圖像模型,這意味著圖像生成是在與處理語言提示相同的神經網絡中進行的。不像早期的 OpenAI 圖像生成器 DALL-E 3,它依賴於擴散技術,這個新模型將圖像和文本視為同一類型的數據:需要預測的標記和需要完成的模式。例如,如果你上傳一張人的照片並要求“把他放在婚禮上穿著燕尾服”,這個模型會在統一空間內整合語言和圖像數據,以生成新像素輸出,類似於預測下一個句子的詞。
通過利用這種方法,GPT Image 1.5 比早期的 AI 模型更有效地促進了視覺的變更,使得修改如改變人的姿勢、調整場景的角度或改變物體和衣物變得可能, 同時在多次編輯中保持面部一致性。用戶可以與 AI 模型就照片進行互動,就像在 ChatGPT 中完善一個草稿一樣,參與一個動態的修訂過程。