国产欧美一区二区三区另类精品 _欧美日韩中文_欧美日韩一区二区视频在线观看 _免费h精品视频在线播放_亚洲欧洲日本国产_国产精品红桃_国产精品国色综合久久_国产精品二区二区三区_亚洲一区二区三区精品视频_中文精品视频

首頁 > 熱點 > 正文

國產ChatGPT「套殼」的秘密,現在被找到了-天天熱頭條

2023-05-28 15:36:38來源:引領外匯網

國產ChatGPT「套殼」的秘密,現在被找到了,比算力更急缺的是高質量數據

比算力更急缺的是高質量數據

編者按:本文來自微信公眾號量子位(ID:QbitAI),作者:衡宇,創業邦經授權發布。

“科大訊飛套殼ChatGPT!”“百度文心一言套皮Stable Diffusion!”“商湯大模型實則抄襲!”……


【資料圖】

外界對國產大模型產生質疑已經不是一次兩次了。

業內人士對這個現象的解釋是,高質量的中文數據集實在緊缺,訓模型時只能讓采買的外文標注數據集“當外援”。訓練所用的數據集撞車,就會生成相似結果,進而引發烏龍事件。

其余辦法中,用現有大模型輔助生成訓練數據容易數據清洗不到位,重復利用token會導致過擬合,僅訓練稀疏大模型也不是長久之計。

業內漸漸形成共識:

通往AGI的道路,對數據數量和數據質量都將持續提出極高的要求。

時勢所需,近2個月來,國內不少團隊先后開源了中文數據集,除通用數據集外,針對編程、醫療等垂域也有專門的開源中文數據集發布。

高質量數據集雖有但少

大模型的新突破十分依賴高質量、豐富的數據集。

根據OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸縮法則(scaling law)可以看到,獨立增加訓練數據量,是可以讓預訓練模型效果變更好的。

這不是OpenAI的一家之言。

DeepMind也在Chinchilla模型論文中指出,之前的大模型多是訓練不足的,還提出最優訓練公式,已成為業界公認的標準。

△主流大模型,Chinchilla參數最少,但訓練最充分

不過,用來訓練的主流數據集以英文為主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最流行的Common Crawl中文數據只占據4.8%。

中文數據集是什么情況?

公開數據集不是沒有——這一點量子位從瀾舟科技創始人兼CEO、當今NLP領域成就最高華人之一周明口中得到證實——如命名實體數據集MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整體數量和英文數據集相比可謂九牛一毛。

并且,其中部分已經老舊,可能都不知道最新的NLP研究概念(新概念相關研究只以英文形式出現在arXiv上)。

中文高質量數據集雖有但少,使用起來比較麻煩,這就是所有做大模型的團隊不得不面對的慘烈現狀。此前的清華大學電子系系友論壇上,清華計算機系教授唐杰分享過,千億模型ChatGLM-130B訓練前數據準備時,就曾面臨過清洗中文數據后,可用量不到2TB的情況。

解決中文世界缺乏高質量數據集迫在眉睫。

行之有效的解決方法之一,是直接用英文數據集訓大模型。

在人類玩家打分的大模型匿名競技場Chatbot Arena榜單中,GPT-3.5在非英文排行榜位居第二(第一是GPT-4)。要知道,96%的GPT-3.5訓練數據都是英文,再刨去其他語種,用來訓練的中文數據量少到可以用“千分之n”來計算。

國內top3高校某大模型相關團隊在讀博士透露,如果采用這種方法,不嫌麻煩的話,甚至可以給模型接一個翻譯軟件,把所有語言都轉換成英語,然后把模型的輸出轉換為中文,再返回給用戶。

然而這樣喂養出的大模型始終是英文思維,當遇到成語改寫、俗語理解、文章改寫這類含有中文語言特色的內容,往往處理不佳,出現翻譯錯誤或潛在文化的偏差。

還有個解決辦法就是采集、清洗和標注中文語料,做新的中文高質量數據集,供給給大模型們。

開源數據集眾人拾柴

察覺現況后,國內不少大模型團隊決定走第二條路,著手利用私有數據庫做數據集。

百度有內容生態數據,騰訊有公眾號數據,知乎有問答數據,阿里有電商和物流數據。

積累的私有數據不一,就可能在特定場景和領域建立核心優勢壁壘,將這些數據嚴格搜集、整理、篩選、清洗和標注,能保證訓出模型的有效性和準確性。

而那些私有數據優勢不那么明顯大模型團隊,開始全網爬數據(可以預見,爬蟲數據量會非常大)。

華為為了打造盤古大模型,從互聯網爬取了80TB文本,最后清洗為1TB的中文數據集;浪潮源1.0訓練采用的中文數據集達5000GB(相比GPT3模型訓練數據集為570GB);最近發布的天河天元大模型,也是天津超算中心搜集整理全域網頁數據,同時納入各種開源訓練數據和專業領域數據集等的成果。

與此同時,近2個月來,中文數據集出現眾人拾柴火焰高的現象——

許多團隊陸續發布開源中文數據集,彌補當前中文開源數據集的不足或失衡。

其中部分整理如下:

CodeGPT:由GPT和GPT生成的與代碼相關的對話數據集;背后機構為復旦大學。

CBook-150k:中文語料圖書集合,包含15萬本中文圖書的下載和抽取方法,涵蓋人文、教育、科技、軍事、政治等眾多領域;背后機構為復旦大學。

RefGPT:為了避免人工標注的昂貴成本,提出一種自動生成事實型對話的方法,并公開我們的部分數據,包含5萬條中文多輪對話;背后是來自上海交大、香港理工大學等機構的NLP從業者。

COIG:全稱“中國通用開放指令數據集”,是更大、更多樣化的指令調優語料庫,并由人工驗證確保了它的質量;背后的聯合機構包括北京人工智能研究院、謝菲爾德大學、密歇根大學、達特茅斯學院、浙江大學、北京航空航天大學、卡內基梅隆大學。

Awesome Chinese Legal Resources:中國法律數據資源,由上海交大收集和整理。

Huatuo:通過醫學知識圖譜和GPT3.5 API構建的中文醫學指令數據集,在此基礎上對LLaMA進行了指令微調,提高了LLaMA在醫療領域的問答效果;項目開源方是哈工大。

Baize:使用少量“種子問題”,讓 ChatGPT 自己跟自己聊天,并自動收集成高質量多輪對話數據集;加州大學圣迭戈分校(UCSD)與中山大學、MSRA合作團隊把使用此法收集的數據集開源。

當更多的中文數據集被開源到聚光燈下,行業的態度是歡迎與欣喜。如智譜AI創始人兼CEO張鵬表達出的態度:

值得注意的是,除了預訓練數據,目前階段人類反饋數據同樣不可或缺。

現成的例子擺在眼前:

與GPT-3相比,ChatGPT疊加的重要buff就是利用RLHF(人類反饋強化學習),生成用于fine-tuing的高質量標記數據,使得大模型向與人類意圖對齊的方向發展。

提供人類反饋最直接的辦法,就是告訴AI助手“你的回答不對”,或者直接在AI助手生成的回復旁邊點贊或踩一踩。

先用起來就能先收集一波用戶反饋,讓雪球滾起來,這就是為什么大家都搶著發布大模型的原因之一。

現在,國內的類ChatGPT產品,從百度文心一言、復旦MOSS到智譜ChatGLM,都提供了進行反饋的選項。

但由于在大部分體驗用戶眼中,這些大模型產品最主要的還是“玩具”屬性。

當遇到錯誤或不滿意的回答,會選擇直接關掉對話界面,并不利于背后大模型對人類反饋的搜集。

So~

今后遇到AI生成回答有錯誤或遺漏時,請不要吝惜一次點擊,高舉你手中的“”或“”,讓大模型能收集更多的人類反饋。

關鍵詞:

責任編輯:hnmd004

国产欧美一区二区三区另类精品 _欧美日韩中文_欧美日韩一区二区视频在线观看 _免费h精品视频在线播放_亚洲欧洲日本国产_国产精品红桃_国产精品国色综合久久_国产精品二区二区三区_亚洲一区二区三区精品视频_中文精品视频
黄色亚洲在线| 在线成人av| 国产精品大片免费观看| 欧美日韩国产精品一卡| 在线播放亚洲| 一区二区三区欧美成人| 国产一区白浆| 欧美国产精品| 亚洲精品影院在线观看| 久久国产成人| 亚洲高清视频一区| 午夜在线视频观看日韩17c| 久久天堂成人| 136国产福利精品导航网址| 亚洲精品女人| 亚洲欧美在线网| 日韩一区二区久久| 蜜乳av另类精品一区二区| 午夜精品久久久久99热蜜桃导演 | 亚洲视频播放| 久久精品国产第一区二区三区最新章节 | 一区二区三区视频在线播放| 亚洲欧美日产图| 韩日成人在线| 欧美在线播放一区| 一区二区三区四区五区精品视频| 欧美影视一区| 国产精品欧美久久| 国产综合视频| 欧美在线看片| 奶水喷射视频一区| 亚洲伦伦在线| 黄色欧美成人| 欧美日韩18| 久久精品三级| 久久99伊人| 国产乱人伦精品一区二区| 在线免费观看欧美| 国产精品s色| 女生裸体视频一区二区三区| 亚洲一区二区三区精品视频| 99国产精品私拍| 亚洲精品乱码久久久久久蜜桃91| 国产精品theporn| 欧美日韩 国产精品| 久久精品国产第一区二区三区最新章节 | 久久久久天天天天| 国产一区二区三区免费不卡 | 亚洲一区综合| 亚洲每日在线| 亚洲日产国产精品| 黄色日韩精品| 亚洲高清视频一区二区| 亚洲一级黄色| 亚洲乱亚洲高清| 亚洲欧洲日本mm| 999亚洲国产精| 日韩一区二区久久| 亚洲美女色禁图| 99这里有精品| 先锋a资源在线看亚洲| 国产精品亚洲综合久久| 国产美女精品| 久久久久久亚洲精品不卡4k岛国| 亚洲一区二区三区欧美| 国产精品久久亚洲7777| 国产视频精品网| 国产女主播一区二区| 国产私拍一区| 噜噜噜噜噜久久久久久91| 久久久综合香蕉尹人综合网| 欧美精品七区| 亚洲精品乱码久久久久久蜜桃91| 亚洲精品1区| 国产精品婷婷| 欧美高清视频一区| 1024日韩| 性xx色xx综合久久久xx| 免费在线欧美黄色| 国内精品久久久久久久影视麻豆| 亚洲二区免费| 久久精品卡一| 亚洲性图久久| 亚洲影院在线| 国产主播精品| 午夜一区二区三区不卡视频| 欧美在线91| 亚洲高清免费| 久久精品国产综合精品| 亚洲国产精品日韩| 免费一区二区三区| 欧美精品一区二区视频 | 免费日韩av片| 黑人一区二区三区四区五区| 亚洲少妇诱惑| 国产精品多人| 久久久青草婷婷精品综合日韩| 欧美日韩综合久久| 亚洲一区日韩在线| 亚洲午夜极品| 欧美网站在线| 久久综合导航| 国产一区二区三区的电影 | 国产精品视频| 亚洲视频综合| 老司机精品福利视频| 亚洲最新在线| 伊人久久婷婷| 国产一区二区中文| 欧美成人综合一区| 久久人人超碰| 麻豆成人av| 男人的天堂成人在线| 国产精品久久久久久久免费软件| 激情视频一区二区| 欧美激情在线| 欧美国产精品| 欧美喷水视频| 欧美另类女人| 午夜综合激情| 亚洲自拍另类| 麻豆成人精品| 欧美在线播放一区二区| 玖玖玖国产精品| 久久综合伊人| 欧美精品福利| 亚洲图片在线观看| 亚洲精品四区| 亚洲一区精彩视频| 久久久久久久高潮| 欧美在线免费| 国产精品国产三级欧美二区 | 国产视频一区免费看| 国产一区二区久久久| 国产亚洲精品bv在线观看| 国产伦精品一区二区三区视频孕妇| 国产日产高清欧美一区二区三区| 亚洲一区免费| 午夜天堂精品久久久久| 国内精品久久久久久久97牛牛| 国内一区二区三区| 99综合视频| 久久久久久久尹人综合网亚洲| 欧美激情五月| 亚洲开发第一视频在线播放| 国产精品视频久久一区| 欧美精品一级| 亚洲免费久久| 久久男女视频| 亚洲精品看片| 久久久久天天天天| 亚洲精品无人区| 久久免费一区| av不卡在线看| 欧美午夜精品理论片a级大开眼界 欧美午夜精品久久久久免费视 | 欧美午夜精品理论片a级大开眼界| 国产尤物精品| 国产日韩欧美综合精品| 欧美久久九九| 亚洲欧美日产图| 伊人色综合久久天天五月婷| 亚洲一区在线直播| 很黄很黄激情成人| 午夜亚洲视频| 亚洲美女黄网| 狠狠色噜噜狠狠色综合久| 国产精品亚洲综合| 黄色日韩精品| 午夜国产精品视频免费体验区| 国产欧美91| 亚洲国产精品第一区二区三区| 久久精品日韩| 国产精品日韩一区二区 | 午夜在线一区二区| 亚洲成人在线| 欧美视频亚洲视频| 久热精品视频| 久久黄色网页| 免费在线播放第一区高清av| 一本色道久久99精品综合| 欧美日韩在线播放一区二区| 久久精品一区二区国产| 国产精品亚洲综合| 中文久久精品| 国产日韩视频| 亚洲一区二区三区高清不卡| 国产精品呻吟| 欧美专区在线| 久久久久久久久久久一区 | 亚洲午夜高清视频| 国产精品hd| 黄色在线成人| 亚洲网站视频| 伊人精品在线| 夜夜爽av福利精品导航| 91久久黄色| 99亚洲视频| 亚洲一区二区三区免费在线观看| 国产精品永久入口久久久| 国产一区二区高清不卡| 亚洲欧美日韩视频二区| 久久精品男女| 欧美系列一区| 日韩亚洲国产精品| 国产精品美女| 欧美在线资源| 激情久久一区| 国产一级一区二区| 久久久久看片| 激情综合久久| 国产偷久久久精品专区| 乱人伦精品视频在线观看| 久久资源在线| 亚洲国产99| 亚洲影音一区| 国产综合色产| 国产视频久久| 欧美一区免费视频| 亚洲国产精品一区二区第四页av| 国产精品乱看| 欧美日韩亚洲一区二区三区在线| 亚洲精品偷拍| 午夜精品婷婷| 宅男噜噜噜66一区二区| 午夜精品久久| 亚洲色诱最新| 国内在线观看一区二区三区| 国产偷自视频区视频一区二区| 欧美高清视频一区二区三区在线观看| 18成人免费观看视频| 久久久久久亚洲精品杨幂换脸| 国产主播一区二区三区四区| 亚洲影视在线| 在线观看亚洲视频啊啊啊啊| 久久久一二三| 国产精品婷婷| 亚洲激情视频| 欧美日韩一区在线观看视频| 国产亚洲福利| 亚洲国产一区二区三区高清| 欧美有码视频| 新狼窝色av性久久久久久| 亚洲福利一区| 亚洲性图久久| 国产一区清纯| 欧美区亚洲区| 久久久www| 亚洲欧美清纯在线制服| 亚洲国产91| 国内精品**久久毛片app| 老司机午夜精品视频| 国产一区二区三区久久久久久久久 | 欧美亚洲网站| 在线一区视频| 日韩香蕉视频| 亚洲日本免费| 99精品国产一区二区青青牛奶| 黄色成人在线网址| 国内精品国语自产拍在线观看| 欧美影院一区| 午夜日韩激情| 欧美激情视频一区二区三区免费| 久久精品中文| 欧美成人有码| 欧美日韩三区| 亚洲亚洲精品三区日韩精品在线视频| 欧美日韩蜜桃| 亚洲私拍自拍| 亚洲精选久久| 国产精品日韩一区二区三区| 国产精品一区亚洲| 久久久99国产精品免费| 女同一区二区| 国产精品chinese| 激情六月综合| 一本一本久久| 欧美专区一区二区三区| 久久三级视频| 狠狠综合久久av一区二区老牛| 精品91免费| 夜夜精品视频| 久久九九国产| 狠狠爱综合网| 国产日韩欧美三级| 久久久久久久久一区二区| 午夜精品剧场| 在线播放日韩| 亚洲永久在线| 欧美破处大片在线视频| 影音先锋久久精品| 国产精品美女久久久浪潮软件| 久久大逼视频| 极品av少妇一区二区| 亚洲国产婷婷香蕉久久久久久99| 国产精品日韩欧美一区二区| 久久综合影音| 亚洲欧洲三级| 老司机精品视频网站| 亚洲黄色一区| 欧美凹凸一区二区三区视频| 在线成人h网| 久久国产成人| 91久久极品少妇xxxxⅹ软件| 亚洲欧美清纯在线制服| 欧美日韩在线高清| 国产精品一区亚洲| 国模大胆一区二区三区| 欧美在线综合| 亚洲巨乳在线| 欧美视频亚洲视频| 免费h精品视频在线播放| 影音欧美亚洲| 午夜欧美视频| 免费看亚洲片| 亚洲精品视频啊美女在线直播| 女同一区二区| 免费亚洲一区| 中文网丁香综合网| 韩日午夜在线资源一区二区| 久久久蜜桃一区二区人| 国产精品久久久亚洲一区| 亚洲特色特黄| 国产精品成人观看视频免费| 久久久久看片| 男人的天堂亚洲| 亚洲视频导航| 伊人久久婷婷| 国产精品99免费看| 欧美高清视频一区| 久久精品天堂| 久久国产精品亚洲va麻豆| 99视频+国产日韩欧美| 影音先锋久久久| 狠狠色噜噜狠狠狠狠色吗综合| 欧美在线免费一级片| 久久久国产精品一区二区中文| 国产精品日韩精品欧美精品| 亚洲视频播放| 一区二区三区四区五区精品视频| 激情另类综合| 亚洲午夜av| 在线观看视频免费一区二区三区| 欧美日韩日本国产亚洲在线| 欧美精品一线| 欧美性久久久| 激情av一区| 亚洲欧洲精品一区| 日韩亚洲在线| 国产人成精品一区二区三| 国产视频亚洲| 久久福利一区| 欧美一区高清| 国产精品第十页| 在线播放不卡| 国产日韩久久| 美女尤物久久精品| 欧美精品三区| 亚洲国产午夜| 香蕉久久a毛片| 欧美激情1区2区3区| 国产精品豆花视频| 亚洲国产第一| 亚洲一区中文| 国产精品多人| 国产一区二区高清视频| 久久亚洲免费| 激情综合中文娱乐网| 国产日韩一区二区三区在线| 久久九九国产| 在线播放豆国产99亚洲| 亚洲一区二区三区欧美| 欧美破处大片在线视频| 在线观看日韩av电影| 麻豆久久精品| 黄色欧美成人| 久久本道综合色狠狠五月| 国产一区激情| 亚洲一区二区三区精品视频| 欧美日韩高清在线一区| 99国产精品私拍| 欧美区国产区| 99精品福利视频| 欧美精品一区在线发布| 99日韩精品| 欧美三区在线| 美日韩免费视频| 夜夜夜久久久| 国产精品黄色| 久久婷婷丁香| 国产精品久久久久久模特| 国内精品久久久久久久影视蜜臀| 亚洲一区二区精品在线观看| 国产精品v日韩精品v欧美精品网站 | 伊人久久大香线蕉综合热线| 欧美亚洲网站| aa国产精品| 在线精品观看| 欧美日韩三级电影在线| 亚洲影视综合| 一本色道久久综合亚洲精品婷婷|