OpenAI 在與作者的法律糾紛中因刪除數據集遭受審查

OpenAI 很快可能需要澄清刪除兩個由盜版書籍組成的爭議性數據集的理由，因為正在進行的集體訴訟關乎重大利害。

這場由作者發起的法律戰的核心是他們聲稱 ChatGPT 非法基於他們的作品進行訓練，OpenAI 刪除數據集的決定可能會在此案中傾向於作者一方。

已經確認的是，這些稱為「Books 1」和「Books 2」的數據集，在 ChatGPT 於 2022 年發布前已被刪除。這些數據集由 OpenAI 前員工於 2021 年創建，主要通過從一個名為 Library Genesis (LibGen) 的影子庫中提取數據。

OpenAI 堅持認為那些數據集於同年不再使用，因此內部決定刪除它們。

然而，作者懷疑可能存在其他潛在原因。他們指出 OpenAI 的矛盾之處，該公司最初撤回了「未使用」作為刪除原因的說法，隨後聲稱所有理由包括「未使用」應受法律諮詢保護。

這種被認為的不一致性，在法院強制的信息發現請求後，提高了作者們對於解開 OpenAI 如何詳細說明「未使用」的興趣。

最近，美國地方法官王安娜指示 OpenAI 公布有關數據集刪除的所有與內部法律團隊的溝通，以及 OpenAI 在法律諮詢特權下保持的任何關於 LibGen 的內部參考。

王法官強調 OpenAI 在同時否認「未使用」作為刪除原因並聲稱其具有特權時的錯誤。