欧美日韩国产高清一区_91视频免费观看网站_久久精品日韩无码_91福利视频导航_久久九九久精品国产免费直播_www.一区二区.com_黑人巨大精品欧美一区二区一视频 _久久人人爽人人爽人人av_日韩一区中文字幕_国产精品欧美日韩一区二区_天天操天天摸天天干_亚洲靠逼com

首頁 > 新車報道 > 新車報道 > 科學家用STEM數據集評測神經網絡模型基礎,加快人工智能實現進程

科學家用STEM數據集評測神經網絡模型基礎,加快人工智能實現進程

發布時間:2024-05-01 15:08:46

理工科 STEM 技能,是解決真實世界中諸多問題的基礎。譬如,探索蛋白質結構、證明數學定理、發現新藥物等。(編者注:STEM,即科學、技術、工程和數學四門學科英文首字母的縮寫。)

 

而對于人工智能領域來說,理解視覺-文本的多模態信息,則是掌握 STEM 技能的關鍵。

 

可是,現有的數據集主要集中在檢驗模型解決專家級別難題的能力上,難以反映模型在基礎知識方面的掌握情況。并且,其往往只考慮文本信息而忽略視覺信息,又或者只關注 STEM 中某單一學科的能力。

 

另外,由于缺少細粒度的信息,該領域的科學家也無法更好地分析與改進神經網絡模型存在的薄弱之處。

 

所以,模型在這種情況下生成的內容,既無法讓人充分信任,又不能幫助指導未來模型開發的方向。

 

更重要的是,由于缺乏和人類表現相關的數據,因此科學家也不可能獲取到更具實際意義的模型表現參考,嚴重阻礙了人工智能的健康發展。

 

為了攻克上述局限性,近期,來自北京大學和美國圣路易斯華盛頓大學的研究團隊,不僅成功完成了首個多模態 STEM 數據集的構建,還在此基礎上實現對大語言模型與多模態基礎模型的評測。

 

結果發現,即使是目前最先進的人工智能模型,其 STEM 基礎水平也存在較大的提升空間,尚不具備解決更有難度的現實問題的能力。也就是說,與人類智能相比,目前人工智能的水平還有一定差距。

 

 

圖丨綜合評測效果(來源:ICLR 2024)

 

近日,相關論文以《測量神經網絡模型的視覺-語言理工科技能》(Measuring Vision-Language STEM Skills of Neural Models)為題收錄于 2024 國際表征學習大會(ICLR 2024,International Conference on Learning Representations 2024)上[1]。

 

據悉,該會議將于今年 5 月 7 日至 5 月 11 日在奧地利的首都維也納召開。

 

STEM 數據集相關資源如下。

 

評測鏈接:
https://huggingface.co/spaces/stemdataset/stem-leaderboard

數據集頁面:
https://huggingface.co/datasets/stemdataset/STEM

代碼 GitHub:
https://github.com/stemdataset/STEM

 

北京大學博士研究生沈劍豪和袁野是共同第一作者,圣路易斯華盛頓大學王晨光助理教授和北京大學張銘教授擔任共同通訊作者。王晨光助理教授博士畢業于北京大學,導師是張銘教授。

 

圖丨相關論文(來源:ICLR 2024)

 

 

搭建 STEM 數據集,全方位評測神經網絡模型的基礎理工科能力

 

據王晨光介紹,課題組在確定研究目標和題目之后,便開始著手收集數據。

 

一向擅長于算法研究的團隊成員,在面對爬蟲編寫、數據清洗和去重等工作時不免有些犯難。盡管如此,他們還是迎難而上,設計了多種用于數據清洗和去重的規則,最終成功獲得了首個多模態 STEM 數據集。

 

圖丨左起;王晨光、張銘、沈劍豪、袁野、Srbuhi Mirzoyan(來源:課題組)

 

值得一提的是,該數據集包含 448 個 STEM 技能,共 1073146 道題目,是目前涵蓋面最廣、包含題目最多的多模態 STEM 題目數據集。

 

圖丨相關論文(來源:ICLR 2024)

 

接著,他們開始針對數據集進行評測與分析。

 

由于該數據集包含科目(科學、技術、工程、數學)、技能和年級三個維度標簽,因此研究人員選擇從這三個維度切入,對每個維度的數據數量分布、問題類型分布、問題長度分布等信息進行了詳盡分析。

 

與此同時,他們也針對每個科目,按照 6:2:2 的比例,劃分了訓練集、驗證集與未公開標簽的測試集。

 

隨后,研究人員又設計了模型評測方案。

 

其中,在選擇評測指標時,他們除了關注準確率,還重點使用全球范圍內最被認可的在線習題網站之一(https://www.ixl.com/)的考試分數。

 

后者是基于該網站千萬用戶的真實考試成績得出的,與學生對知識的掌握程度呈正相關。當分數達到 90 以上(通常是小學生水平)時,就代表學生掌握了該技能。

 

“我們讓模型模仿考生在線答題,再將得到的考試分數與真實人類的考試結果進行比較。”王晨光表示。

 

這也正是該工作的一大亮點。原因在于,過去將人類的表現與人工智能做比較時,前者都是由相對較小的樣本(例如幾百到幾千人)總結出的,而該團隊的結果卻是基于千萬量級的數據得到的,可信度更高。

 

然后,在模型評測環節,研究人員選擇使用當前主流的大基礎模型,包括 OpenAI 的多模態 CLIP 模型,以及大語言模型 ChatGPT 的 GPT3.5-Turbo 版本。

 

前者根據模型判斷問題選項與圖片的匹配程度來做出選擇,后者則利用字幕模型為圖片生成描述,并利用語言模型選擇回答。

 

“我們評測了不同規模的 CLIP 模型與 GPT3.5-Turbo 模型,發現在 0 樣本的設置下,模型的錯誤率很高。這表明現有模型無法直接真正地掌握這些知識。”王晨光表示。

 

進一步地,他們又利用劃分出的訓練數據集,對 CLIP 模型進行了微調,發現微調后的模型取得了顯著的效果提升,綜合準確率從 54.4% 提升至 76.3%。不過,這離 90 分依然有一定差距。

 

除此之外,該課題組還對模型結果的各個側面進行了分析。

 

具體來說,首先,在年級層面,他們發現模型的測驗分數隨著題目所屬年級的升高而降低,這符合年級越高的題目難度就越高的預期。

 

圖丨測驗分數隨年級變化(來源:ICLR 2024)

 

其次,通過模型在不同技能上的評測表現,他們發現模型在抽象知識與復雜推理任務上的表現欠佳。

 

另外,過去的經驗表明,模型應該對正確答案有著較高的預測置信度,這代表著模型的校準度較好。

 

“我們發現在我們的數據集上微調過的模型,表現出了良好的校準性,模型的置信度與準確率呈現清晰的相關性。”王晨光說。

 

另一方面,他們在研究模型規模與效果之間關系的過程中,也發現了清晰的正相關關系。

 

與此同時,他們還分析了模型表現與問題長度、問題類型、選項數量等其它因素之間的關系,發現隨著問題變長、選項數量變多和樣例數量變少,模型的表現都會下降。

 

除此之外,他們也評估了準確率與測驗考試分數這兩種指標的相關性,發現它們同樣呈現出顯著的正相關。

 

“最終,在整體的評價指標上,我們確認即使是微調過的模型,與人類對應年級學生水平相比也有顯著差距。基于此,我們仍然需要尋找更有效的方法,使模型掌握 STEM 知識技能。”王晨光說。

 

圖丨與人類表現比較(來源:ICLR 2024)

 

 

嘗試推出更多評測大語言模型的數據集,加快通用人工智能實現的進程

 

顯而易見,在該項研究中,STEM 數據集發揮了關鍵作用。

 

它不僅有利于模型增強 STEM 的基礎知識,還能幫助研究人員評估模型對于基礎 STEM 技能掌握的程度,并通過細粒度的數據分析有針對性地改進模型。

 

王晨光表示,他和團隊期待該數據集可以進一步推動當前多模態大模型的研究,朝著模型能夠充分理解 STEM 技能、解決真實場景下 STEM 問題的目標更進一步。

 

并且,也希望發布的測試集可以作為評測人工智能基礎模型能力的標準評測之一,得到社區的廣泛使用。

 

“更重要的是,我們提供的與大規模人類(主要是小學生)真實水平的比較,可以作為未來模型開發的目標和參考,以加快通用人工智能目標實現的進程。”他說。

 

目前,基于該數據集,該課題組已經成功評測了神經網絡模型在基礎教育中的理工科能力。

 

接下來,他們一方面計劃繼續收集數據,并嘗試推出諸如人文學科、社會學科等領域的數據集,以更好地評測大語言模型在其他關鍵學科上的能力。

 

在這方面值得關注的是,該團隊最近已經提出了一個新的社會學科數據集 Social,包含較大規模的文本評估數據,可用來評測大語言模型的社會學科基礎能力。

 

進一步地,還設計了一種多智能體交互的方法,能夠增強大語言模型在 Social 數據集上的表現。

 

相關論文以《衡量大語言模型的社會規范》(Measuring Social Norms of Large Language Models)為題收錄于計算語言學協會北美分會 2024 年年會(NAACL 2024,2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics)上[2]。

 

據悉,該會議將于今年 6 月 16 日至 6 月 21 日在墨西哥的首都墨西哥城召開。

 

另一方面,他們也打算通過研究模型在細粒度數據集上的表現,找出模型能力不足的部分,并研究如何改進。

 

此外,還希望通過結合檢索的 RAG 方法、設計特殊的模型架構和訓練方法,來進一步增強模型的基礎能力。

 

“我們相信,只有先在基礎理工科和文科領域實現突破,扎實打好基礎,人工智能才有被進一步應用的可能性。”王晨光如是說。

新車報道更多>>

又一款十萬級旅行車?吉利銀河A7旅行版曝光,競爭海豹06旅行? 對標奔馳大G,寶馬或推出一款全新硬派越野豪華SUV代號G74 “撞名”理想,東風風神L8同樣主打“家庭牌” 7月“反季”增長34.2%,上汽以“七連漲”鞏固頭部車企優勢 繼AC米蘭和皇家馬德里后,寶馬又與一家歐洲老牌俱樂部建立合作 引領越野潮向,這就是坦克的力量 獨立試駕小米SU7 Ultra:你能買到的“最快車” 19萬買240km純電續航+激光雷達,領克10 EM-P真香還是陷阱? 2025年寧德市市屬學校招聘緊缺急需及高層次人才公告 2024年黔東南臺江縣人民醫院招聘臨聘人員公告 2024年湖北省三峽大學附屬仁和醫院第二批專項招聘工作人員公告(5人) 2025年“宜昌市招才興業”教育系統事業單位校園專項招聘公告•湖南師范大學站(4人) 新款瑞虎8 PLUS插混價格大幅下探 與宋L DM-i該如何選 新一代MG5正式上市 驚爆一口價6.59萬元起 一汽豐田bZ3C前景展望:預計售價17.58萬元起 定位與宋L EV接近 預計售價16.99萬元起 星途星紀元ES增程版前瞻 2024年吉安幼兒師范高等專科學校招聘教師公告 2024年??建設職業技術學院醫務所護士招聘公告 2024年贛州市招聘綜合行政執法隊工作人員公告 2024年贛州市會昌縣人民法院招聘聘用制工作人員公告 2024年南昌市婦女兒童活動中心招聘公告 2024年吉安市吉水縣城北醫院編外工作人員招聘公告 2024年廈門市集美區杏東中學非在編教師招聘簡章 2024年廈門市集美區僑英小學非在編教師招聘簡章 一汽豐田RAV4榮放 搭載2.0L發動機+CVT無級變速箱,是否值得購入? 7座布局設計,搭載2.0L混動系統的廣汽傳祺E8,是否適合家用? 適合多孩家庭,大六座布局的東風奕派eπ008,是否值得購入? 外觀顏值在線,純電續航570km、支持800V快充的小鵬G9,適合家用 24.29萬元起售,定位中大型SUV,空間寬敞,大眾攬巡適合家用 用車成本低,空間寬敞,適合家用的SUV,傳祺GS4 MAX值得一看?
中文字幕激情小说| 国产在线视频二区| av在线播放网址| 欧美麻豆久久久久久中文| 欧美三级网站在线观看| 欧美一区二区三区免费观看| 国产精品人人妻人人爽人人牛| 天天av天天翘天天综合网色鬼国产 | 国产精品丝袜一区| 在线观看欧美日韩| 男人av资源站| 国产高清中文字幕| 国产99久久久国产精品潘金| 午夜精品福利久久久| 欧美午夜欧美| 国产一区二区久久| 8x海外华人永久免费日韩内陆视频| 动漫美女无遮挡免费| 日韩电视剧免费观看网站| 久久精品三级| 久久久久久久久久久久91| 日韩一区二区免费电影| 亚洲欧洲久久久| 91成人看片片| 国产乱子伦农村叉叉叉| 亚洲欧洲三级电影| 国产+人+亚洲| 销魂美女一区二区| 免费人成自慰网站| 狠狠色丁香婷综合久久| 日韩在线电影一区| 国产在线视频精品一区| 久久91精品国产| 成人午夜精品无码区| 热99在线视频| 亚洲一区二区四区蜜桃| 在线观看中文字幕2021| 亚洲精品无码久久久久久| 色婷婷久久综合| 欧美成人免费高清视频| 国产精品网曝门| 精品少妇人妻av免费久久洗澡| 欧美经典一区二区| 亚洲九九九在线观看| 久久久久久久9| 亚洲不卡免费视频| 亚洲一区二区三区久久| 久久久国产精品麻豆| 中文精品视频一区二区在线观看| www.亚洲精品| 欧美风情第一页| 欧美日韩免费精品| 日韩欧美国产高清91| 黄大色黄女片18免费| 欧美亚洲国产一卡| 精品少妇一区二区三区密爱| 爱福利视频一区| 日本免费新一区视频| 久久亚洲精品欧美| 麻豆精品视频在线观看免费| 亚洲精品一区二区三| 成人午夜视频网站| 成人性生生活性生交12| 国产女人高潮的av毛片| 久久这里只有精品99| 国产人妻一区二区| 欧美午夜一区二区| 国产三级小视频| 91精品久久久久久久久久另类| 激情文学综合插| 国产精品欧美在线| 日本欧美www| 精品久久久久久亚洲综合网| 成人午夜免费在线| 久久久综合视频| 九九九九九精品| jlzzjlzzjlzz亚洲人| 亚洲精品日韩欧美| 香蕉在线观看视频| 久久97超碰色| 5858s免费视频成人| 久久精品日产第一区二区三区精品版 | 日本 片 成人 在线| 孩娇小videos精品| 欧美日韩美女在线| 亚洲精品高清视频| 本田岬高潮一区二区三区| 久久精品欧美| 麻豆高清免费国产一区| 欧美成人激情在线| 国产5g成人5g天天爽| 成人av电影免费观看| 国产人妖伪娘一区91| 中文写幕一区二区三区免费观成熟| 国产成人免费在线观看不卡| 国产精品爽爽爽| 国产成人在线播放视频| 亚洲一级黄色片| 免费欧美一级片| 中文字幕av资源一区| 91免费视频网站| 精品黑人一区二区三区观看时间| 亚洲一区二区在线免费看| 无码专区aaaaaa免费视频| 国产精品久久久久久亚洲毛片| 成人午夜两性视频| 国产一区二区三区黄片| 中文字幕国产日韩| 美女被艹视频网站| 午夜一区二区三区视频| 亚洲美女爱爱视频| 欧美色播在线播放| 福利片一区二区三区| 五月天一区二区| 在线观看日本一区二区| 欧美猛男超大videosgay| 国内精品久久99人妻无码| 亚洲美女自拍视频| h狠狠躁死你h高h| 国产区一区二区| av电影在线观看一区| av之家在线观看| 欧美日韩免费观看一区三区| 中文字幕手机在线观看| 日韩av大片在线| 成人动漫在线一区| 日本免费网站在线观看| 日韩精品欧美精品| 91网站在线观看视频| 亚洲欧洲国产日韩| 欧美日韩一级黄| 欧美性猛交xxxx乱大交蜜桃| 香蕉人妻av久久久久天天| 好吊一区二区三区视频| 免费毛片小视频| 在线观看污视频| 日本电影亚洲天堂| 久久久亚洲高清| 久久久久久成人网| 精品毛片久久久久久| 日韩美女一区二区三区四区| 亚洲国产一区视频| 亚洲欧洲性图库| 国产jzjzjz丝袜老师水多| 97在线观看免费高| 天天躁日日躁狠狠躁免费麻豆| 人妻精品久久久久中文字幕| 中文字幕三级电影| 日韩欧美视频网站| 日本aⅴ大伊香蕉精品视频| 亚洲成色777777女色窝| 97国产真实伦对白精彩视频8| 在线亚洲午夜片av大片| 日韩欧美在线影院| 亚洲成人精品视频| 天天干视频在线观看| 中文字幕一区二区三区波野结| 欧美一级淫片免费视频黄| 成人激情四射网| 久久精品男人天堂av| 国产做受高潮漫动| 91国产免费观看| 国产精品xxxxxx| 亚洲自拍偷拍区| 欧美一区二区网站| 国产一本一道久久香蕉| 亚洲午夜福利在线观看| 国产成人精品久久亚洲高清不卡| 精品日本一线二线三线不卡| 夜夜狠狠擅视频| 日日摸天天爽天天爽视频| 久久久久久久久久婷婷| 午夜精品爽啪视频| 午夜精品免费观看| 国产精品wwwww| 国产欧美一区二区三区四区| 欧美日韩国产精品| 久久一区精品| 我不卡一区二区| 亚洲a在线播放| 亚洲国产99精品国自产| 久久99国产精品尤物| 日韩黄色免费观看| 在线看的黄色网址| 91在线无精精品一区二区| 欧美一区二区成人| 国产片在线播放| 免费看毛片的网站| 成人午夜影院在线观看| 91精品免费在线观看| 国产精品一区一区| 日韩欧美国产另类| 久久撸在线视频| 国产亚洲精品美女久久久m| 欧美视频一区二区| 国产一区免费电影| jizz中国女人| 亚洲国产999| 日韩在线视频不卡| 国产精品无码一区二区三| 国产精品极品尤物在线观看 | 日韩成人黄色av| 国产又粗又猛又爽又黄91| 亚洲国产三级在线| 日韩免费在线观看| 午夜免费日韩视频| 国产精品自拍偷拍| 伊人久久大香线蕉午夜av| 99精品视频网站| 日本黄色三级网站| 午夜毛片在线观看| 日韩 欧美 亚洲| 国产孕妇孕交大片孕| 91免费观看国产| 精品久久久一区二区| 亚洲国产精彩中文乱码av在线播放| 在线观看国产精品91| 国产精品久久久久久久久久东京| 成人黄色中文字幕| 五月天亚洲综合小说网| 亚洲免费不卡| 美女流白浆视频| 日本天堂在线视频| 国内一区二区视频| 亚洲女人****多毛耸耸8| 亚洲欧美精品一区二区| 性色av一区二区咪爱| 欧美日韩亚洲一区二区三区四区| 黄色片久久久久| 一级免费在线观看| 成人在线观看免费高清| 精品久久久久久久久久久国产字幕| 亚洲精品一区二区口爆| 99国产一区二区三精品乱码| 中国色在线观看另类| 中文字幕精品在线不卡| 日韩视频在线你懂得| 性做爰过程免费播放| 中文字幕第3页| 成人av综合在线| 欧美在线一级视频| 扒开jk护士狂揉免费| 亚洲精品18在线观看| 午夜视频一区二区| 国产一区二区不卡视频| 七七婷婷婷婷精品国产| 欧美巨乳美女视频| 中文字幕乱码人妻综合二区三区 | 欧美日本高清视频在线观看| 欧美日本一道本| 国产精品男女猛烈高潮激情| 国产av不卡一区二区| 妺妺窝人体色WWW精品| 亚洲AV无码一区二区三区性| 久久久亚洲综合| 亚洲免费成人av电影| 18性欧美xxxⅹ性满足| 国产日韩欧美一区二区三区四区 | 久久国产精品高清| 国a精品视频大全| 春日野结衣av| 精品无码人妻一区二区三区品| 亚洲欧美一区二区久久| 欧美精品在线第一页| 国产天堂在线播放| 国产午夜性春猛交ⅹxxx| 亚洲四区在线观看| 亚洲jizzjizz日本少妇| 极品白嫩丰满美女无套| 国产69精品久久99不卡| 精品国产91亚洲一区二区三区婷婷| 天天久久人人| 国产在线一卡二卡| 中文字幕一区二区三区四区不卡| 尤物99国产成人精品视频| 九一精品在线观看| 免费成人你懂的| 日韩在线观看视频免费| 自拍一级黄色片| 成人高清视频在线观看| 亚洲男人天堂古典| 欧美综合在线观看视频| 日本少妇做爰全过程毛片| 在线观看一区日韩| 亚洲一区尤物| 91麻豆成人精品国产免费网站| 日韩一区二区三区四区五区六区| 亚洲一区影院| 一级特黄aaa大片| 欧美精品免费视频| 宅男在线精品国产免费观看| 亚洲人视频在线观看| 一本一道久久a久久精品逆3p | 9i在线看片成人免费| 国产精品网站视频| 欧美高清69hd| 亚洲欧洲成视频免费观看| 69久久精品无码一区二区| xnxx国产精品| 97国产精品人人爽人人做| 日韩欧美不卡视频| 日韩一区二区不卡| 国产在线视频在线| 国产偷人妻精品一区二区在线| 日韩一区二区在线播放| 欧美成人三级在线视频| 国产精品午夜久久| 成人免费91在线看| 国产免费视频一区二区三区| 亚洲欧美日韩国产精品| 欧美自拍偷拍网| 777午夜精品免费视频| 无套内谢丰满少妇中文字幕 | 久久久噜噜噜| 成人在线观看视频网站| 无吗不卡中文字幕| 91文字幕巨乱亚洲香蕉| 国产男女裸体做爰爽爽| 欧美中文字幕在线播放| 在线观看av大片| 亚洲电影天堂av| 日韩中文字幕在线不卡| 美女网站色91| 国产高清在线一区二区| av免费在线观看不卡| 国产精品欧美日韩一区二区| 久久精品无码av| 久久久久久久久久久国产| 在线观看日本视频| 亚洲一区二区福利| 色噜噜在线观看| 欧美天堂在线观看| 一道本视频在线观看| 黑人巨大精品欧美一区免费视频 | 欧美三级电影在线看| 亚洲经典中文字幕| 熟女性饥渴一区二区三区| 96pao国产成视频永久免费| 亚洲精品一区二区三区区别| 日韩av在线网址| 欧美日韩久久久| 国产自产在线视频一区| 国产一区二区黄色| 亚洲乱码国产乱码精品精| 特级西西人体wwwww| 亚洲va韩国va欧美va精品| 蜜臀av粉嫩av懂色av| 欧美视频在线观看一区| 欧洲美一区二区三区亚洲| www.午夜精品| 久久精品系列| 性久久久久久久久久| av激情久久| 26uuuu精品一区二区| 国产精品91av| 久久国产色av| 欧美激情一区二区在线| 性一交一乱一伧国产女士spa| 久久综合九色欧美综合狠狠| 天天躁日日躁狠狠躁av| 91视频国产高清| 国产一区二区不卡老阿姨| 青草视频在线观看视频| 精品第一国产综合精品aⅴ| 久久久久亚洲AV成人无在| 欧美激情在线观看| 国产一区二区视频在线播放| 手机看片福利日韩| 亚洲网站在线观看| 伊人22222| 亚洲免费不卡| 精品久久久久久久中文字幕| 国产精品视频在| 国产精品久久久久久久久久小说 | 成人欧美一区二区三区在线湿哒哒 | 亚洲色在线视频| 国产精品一二三四五| 日本一本二本在线观看| 日韩视频免费观看高清完整版在线观看 | 国产高清自拍一区| 国产日本亚洲高清| 天天爽夜夜爽一区二区三区| 色偷偷噜噜噜亚洲男人的天堂| 国产一区二区三区国产| 这里只有精品66| 欧美一区二区三区在线电影| 韩国av永久免费| 一卡二卡三卡视频| 亚洲国产一区二区三区在线观看| 国产一级中文字幕| 你懂的视频在线一区二区| 欧美另类老女人| 免费高清视频精品| 欧美精品 - 色网| 欧美极度另类性三渗透| 天天操天天干天天干| 日韩一区国产在线观看| 91久久精品日日躁夜夜躁欧美| 国产成人av片| 欧美激情国产精品| 日韩毛片精品高清免费| 日韩欧美高清在线观看| 精品久久免费观看| 日韩电影中文字幕在线观看| 日本中文字幕一区| 日本中文字幕在线不卡| 国产精品久久久久久搜索| 高清在线成人网| 国产精品三区在线观看| 午夜精品美女久久久久av福利|