OpenAI 推出 GPT Image 1.5：用 AI 革新圖像編輯

在攝影大約200年的歷史中，大多數情況下，要說服性地修改照片需要暗房技術、Photoshop 專業知識，或者至少是用剪刀和膠水的穩定手。然而，在週二，OpenAI 推出了一款工具，將這一過程簡化為只需輸入一句話。

雖然 OpenAI 自 2024 年以來一直在開發一種對話式圖像編輯模型 GPT-4o，但 Google 在三月份率先推出了他們的 Nano Banana 圖像模型的公開原型，隨後是其改良版本 Nano Banana Pro。Google 模型在 AI 社區中受到熱烈歡迎，這一點沒有被 OpenAI 忽視。

OpenAI 的最新创新，GPT Image 1.5，是一种 AI 图像合成模型，据说它可以比以前的版本快四倍生成图像，并通过其 API 将成本降低约 20%。這款模型於週二向所有 ChatGPT 用戶開放，標誌著又一個進步，使得照片真實感的圖像處理變得輕松而不需要特定的視覺技能。

使用 GPT Image 1.5，用戶可以輕鬆地將「宇宙銀河女王」這樣的特徵合成到照片中，例如室內有一張沙發的場景，這一切都可以在 ChatGPT 中完成。

值得注意的是，GPT Image 1.5 是一款“原生多模態”圖像模型，這意味著圖像生成是在與處理語言提示相同的神經網絡中進行的。不像早期的 OpenAI 圖像生成器 DALL-E 3，它依賴於擴散技術，這個新模型將圖像和文本視為同一類型的數據：需要預測的標記和需要完成的模式。例如，如果你上傳一張人的照片並要求“把他放在婚禮上穿著燕尾服”，這個模型會在統一空間內整合語言和圖像數據，以生成新像素輸出，類似於預測下一個句子的詞。

通過利用這種方法，GPT Image 1.5 比早期的 AI 模型更有效地促進了視覺的變更，使得修改如改變人的姿勢、調整場景的角度或改變物體和衣物變得可能，同時在多次編輯中保持面部一致性。用戶可以與 AI 模型就照片進行互動，就像在 ChatGPT 中完善一個草稿一樣，參與一個動態的修訂過程。