當前,人工智能技術已經(jīng)應用在我們?nèi)粘I钪械姆椒矫婷?,比如人臉識別、語音識別、虛擬數(shù)字人等。
但普遍存在的一個問題是,科研人員要想通過訓練一個機器學習模型來執(zhí)行某一特定任務(比如圖像分類),往往需要使用大量的訓練數(shù)據(jù),而這些數(shù)據(jù)(集)卻并不總是很容易獲得。
比如,如果研究人員正在訓練一輛自動駕駛汽車的計算機視覺模型,但真實數(shù)據(jù)可能不會包含一個人和他的一條狗在高速公路上奔跑的樣本,一旦遇到這種情況,模型就不知道該如何做,可能會產(chǎn)生不必要的后果。
而且,使用已有數(shù)據(jù)生成數(shù)據(jù)集,也會花費數(shù)百萬美元。
另外,即使是最好的數(shù)據(jù)集,也常常包含對模型性能產(chǎn)生負面影響的偏見。
那么,既然獲得、使用一個數(shù)據(jù)集代價這么昂貴,能不能在保證模型性能的前提下,使用人為合成的數(shù)據(jù)來訓練呢?
近日,一項來自麻省理工學院(MIT)科研團隊的研究顯示,一種使用合成數(shù)據(jù)訓練的圖像分類機器學習模型,可以與使用真實數(shù)據(jù)來訓練的模型相媲美,甚至性能更好。
相關研究論文以“Generative models as a data source for multiview representation learning”為題,以會議論文的形式發(fā)表在 ICLR 2022 上。
不輸于真實數(shù)據(jù)
這種特殊的機器學習模型被稱為生成模型(generative model),相比于數(shù)據(jù)集,存儲或共享所需的內(nèi)存要少得多,不僅可以避免一些關于隱私和使用權的問題,也不存在傳統(tǒng)數(shù)據(jù)集中存在的一些偏見和種族或性別問題。
據(jù)論文描述,在訓練過程中,生成模型首先會獲取數(shù)百萬張包含特定對象(比如汽車或貓咪)的圖像,然后學習汽車或貓咪的外觀,最后生成類似的對象。
簡單來說就是,研究人員使用一個預先訓練的生成模型,參照模型訓練數(shù)據(jù)集上的圖像,輸出大量獨特的、真實的圖像流。
(來源:Pixabay)
研究人員表示,一旦生成模型在真實數(shù)據(jù)上進行訓練,就可以生成幾乎與真實數(shù)據(jù)無法區(qū)分的合成數(shù)據(jù)。
另外,生成模型還可以基于訓練數(shù)據(jù)做進一步拓展。
如果生成模型是基于汽車圖像進行訓練的,它就可以“想象”出汽車在不同情況下是什么樣的,然后輸出具有不同顏色、大小和狀態(tài)的汽車圖像。
生成模型具備很多優(yōu)點,其中之一便是,它在理論上可以創(chuàng)建無限數(shù)量的樣本。
基于此,研究人員試圖搞清楚樣本數(shù)量如何影響模型性能。結果顯示,在某些情況下,大量的獨特樣本確實會帶來額外的改進。
而且,在他們看來,生成模式最酷的一點在于,我們可以在在線資料庫中找到并使用它們,而且不需要干預模型就可以獲得良好的表現(xiàn)。
但生成模型也有一些缺點。例如,在某些情況下,生成模型可能會揭示源數(shù)據(jù),從而帶來隱私風險,如果沒有進行適當?shù)膶徲嫞赡軙糯笏鼈兯柧殧?shù)據(jù)集中的偏差。
生成式 AI 大勢所趨?
有效數(shù)據(jù)的稀缺性,以及采樣偏差,已經(jīng)成為機器學習發(fā)展的關鍵瓶頸。
近年來,為解決這一問題,生成式 AI(Generative AI)成為了人工智能領域的熱議話題之一,被業(yè)內(nèi)給予了足夠高的期待。
去年底,Gartner 發(fā)布了 2022 年重要戰(zhàn)略技術趨勢,將生成式 AI 稱為是“最引人注目和最強大的人工智能技術之一”。
據(jù) Gartner 預測,預計到 2025 年,生成式 AI 將占所有生成數(shù)據(jù)的 10%,而目前這一比例還不到 1%。
圖|Gartner 2022 年重要戰(zhàn)略技術趨勢(來源:Gartner 官網(wǎng))
2020 年,生成式 AI 作為一個新增技術熱點,在 Gartner 發(fā)布的“Hype Cycle for Artificial Intelligence,2020”中首次被提出。
在最新的“Hype Cycle for Artificial Intelligence,2021”報告中,生成式 AI 作為 2-5 年即可成熟的技術出現(xiàn)。
(來源:Gartner Hype Cycle for Artificial Intelligence, 2021)
生成式 AI 的突破在于,它可以從現(xiàn)有數(shù)據(jù)(圖像、文本等)中學習,并生成全新、相似的原始數(shù)據(jù)。也就是說,它不僅可以做出判斷,還能夠進行創(chuàng)造,可以用于自動編程、藥物開發(fā)、視覺藝術、社交、商業(yè)服務等。
但是,生成式 AI 也會被濫用于詐騙、欺詐、政治造謠、偽造身份等,比如經(jīng)常產(chǎn)生各種負面新聞的 Deepfake。
那么問題來了,如果我們有足夠好的生成模型,還需要真實的數(shù)據(jù)集嗎?
原文鏈接:
https://openreview.net/pdf?id=qhAeZjs7dCL
https://news.mit.edu/2022/synthetic-datasets-ai-image-classification-0315
https://www.gartner.com/en/documents/4004183
延邊信息港 / 延邊廣電客戶端
標簽: 模型
數(shù)據(jù)
生成
AI
生成式