中國(guó)需要更懂中國(guó)人的ChatGPT,國(guó)內(nèi)產(chǎn)學(xué)研三方必須“組隊(duì)對(duì)抗”
作為 AIGC 的典型應(yīng)用之一,ChatGPT 正以勢(shì)不可擋的態(tài)勢(shì)席卷全球。國(guó)內(nèi)外科技互聯(lián)網(wǎng)巨頭紛紛入局。ChatGPT 爆火后,許多科技公司紛紛跟進(jìn),或?qū)⑵湔线M(jìn)自家產(chǎn)品,或嘗試開發(fā)類似的語(yǔ)言模型。

(來源:資料圖)
從短期(目前的技術(shù)水平)和長(zhǎng)期(技術(shù)成熟之后)的角度來看,ChatGPT 類的模型和產(chǎn)品到底有哪些典型應(yīng)用場(chǎng)景?美國(guó)伊利諾伊大學(xué)香檳分校計(jì)算機(jī)系教授李博表示,目前搜索是一個(gè)比較熱門的應(yīng)用場(chǎng)景。
從短期來看,她覺得 ChatGPT 作為文章寫作 Coding 生成的輔助查錯(cuò)工具還不錯(cuò),但是還不能完全依賴 ChatGPT 來做回答和搜索,因?yàn)樗幕卮鸩荒鼙WC正確性。從長(zhǎng)期角度來看,她認(rèn)為 ChatGPT 可以和不同的 AI 模型工具結(jié)合,做更友好的自動(dòng)問答系統(tǒng)、學(xué)習(xí)工具等輔助性工具。
有人認(rèn)為 ChatGPT 的影響力不亞于互聯(lián)網(wǎng)的誕生,它將帶來下一次技術(shù)革命。據(jù)介紹,ChatGPT 是依賴大量語(yǔ)料訓(xùn)練出來的,所以它從某些 Task 和場(chǎng)景下來看有很優(yōu)秀的表現(xiàn),比如 Summarization、Dialogue 之類的,所以她對(duì)這項(xiàng)技術(shù)非常看好。不過她覺得,如果要長(zhǎng)久發(fā)展并用于重要領(lǐng)域中,ChatGPT 的可信賴性保證、糾錯(cuò)能力等非常重要。
比如,ChatGPT 之類的模型目前仍存在一些根本問題,它會(huì)言之鑿鑿地給出看似準(zhǔn)確的錯(cuò)誤答案,或者在用戶的刻意引導(dǎo)下輸出本不應(yīng)該輸出的內(nèi)容。
原因在于,ChatGPT 的訓(xùn)練數(shù)據(jù)本身就是大量現(xiàn)有語(yǔ)料,所以它生成數(shù)據(jù)的 Distribution 和現(xiàn)有的其實(shí)非常接近,所以在統(tǒng)計(jì)角度上很難判斷。
不過,也可以使用一些水印的方式,但是目前水印的方式很容易被破解。所以區(qū)別 ChatGPT 生成文本還需要做更多功課,比如使用更有效的 Cryptography Based 的水印方式等。
解決這些問題是任重而道遠(yuǎn)的,畢竟 ChatGPT 是個(gè)純 Data-driven 的大模型,之前模型存在的 Vulnerabilities 等問題它也都會(huì)有,所以從長(zhǎng)遠(yuǎn)看來,我們還需要做很多事情。
比如:1)引入 Knowledge、Symbolic reasoning 等去強(qiáng)化他的邏輯性和正確性;2)設(shè)計(jì)更多好的 Supervision 使得模型可以有效學(xué)習(xí)正確的星系;3)設(shè)計(jì)更好的獎(jiǎng)勵(lì)機(jī)制;4)提出更好的數(shù)據(jù)清理整合方法;5)設(shè)計(jì)有效的解釋機(jī)制,以便人們更容易 Debug 模型的輸出。
還有一些研究指出,以 ChatGPT、Stable Diffusion 為代表的 AIGC 技術(shù)可能涉及到隱私和道德問題。由于 ChatGPT、Stable Diffusion 需要用大量數(shù)據(jù)來訓(xùn)練,所以會(huì)有泄漏訓(xùn)練數(shù)據(jù)隱私的問題等。
針對(duì)此,我們可以:1)用 Privacy-preserving 的方法來訓(xùn)練模型,但是一般會(huì)影響模型的準(zhǔn)確性,而且大模型很難用 Differentially private 的方法來訓(xùn)練;2)可以生成 Synthetic Data 來訓(xùn)練模型,但這同樣會(huì)損失一些模型準(zhǔn)確性;3)可以用一些其他方法比如加上一些擾動(dòng),使得生成的數(shù)據(jù)離元數(shù)據(jù)比較遠(yuǎn),目前已經(jīng)有人用該方法來保護(hù)藝術(shù)家的 IP。
更多關(guān)于 Privacy Protection 的方法也值得研究,預(yù)計(jì)這會(huì)是一個(gè)非常有意思的領(lǐng)域。目前,李博團(tuán)隊(duì)在 Privacy-preserving model training and data generation 方面也有一些工作,其主要專注于研究 ChatGPT 在內(nèi)的大模型的可信賴問題,包括安全問題、公平問題、以及優(yōu)化大語(yǔ)言模型不要輸出 Toxic Languages 等。
同時(shí),該團(tuán)隊(duì)還和英偉達(dá)合作了 Retrieval-Augmented Visual-Language 大模型,以讓模型可以利用 Vision 和 Language 的信息做有效的信息整合,以及 Retrieval-Augmented 9.5B 語(yǔ)言模型。
當(dāng)然,中國(guó)做 ChatGPT 之類的模型也有自己的優(yōu)勢(shì)。瀾舟科技創(chuàng)始人兼 CEO、AI 科學(xué)家周明博士認(rèn)為,在追趕 ChatGPT 上,中國(guó)需要更懂中文、更懂中國(guó)、更懂中國(guó)人的 ChatGPT,在基于中文的認(rèn)知智能賽道中,中國(guó)有換道超車的優(yōu)勢(shì),國(guó)內(nèi)產(chǎn)學(xué)研必須“組隊(duì)對(duì)抗”,“新技術(shù)、新研究一定要落到產(chǎn)業(yè)中,再通過產(chǎn)業(yè)反饋帶動(dòng)新技術(shù)、新研究的新一輪飛躍。
另?yè)?jù)悉,瀾舟科技將與中文在線共建 AIGC 技術(shù)在文學(xué)創(chuàng)作領(lǐng)域的輔助技術(shù),探索在漫畫、動(dòng)畫、視頻等 IP 衍生業(yè)務(wù)領(lǐng)域的新型內(nèi)容生產(chǎn)方式。
支持:Ren
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由財(cái)神資訊-領(lǐng)先的體育資訊互動(dòng)媒體轉(zhuǎn)載發(fā)布,如需刪除請(qǐng)聯(lián)系。