iVOD / 150091

葛如鈞 @ 第11屆第1會期教育及文化委員會第4次全體委員會議

Start Time End Time Text
00:00:00,309 00:00:22,621 各位委員主席有請中研院廖院長院長各位委員早
00:00:24,741 00:00:40,714 在今年2月書展的時候﹐中研院以AI社會登入中為主題﹐開啟了AI學術思辨和創新應用的討論﹐也充分展現了中研院正面迎接生成式AI浪潮的態度﹐本席表示肯定﹐
00:00:41,534 00:00:53,638 近年面對AI的突飛猛進我們可以說AI就像一個學習得很快長得很快的小孩超級成長的速度目前最常接觸到的語言可以說是英文70%以上簡體中文是2%
00:00:57,579 00:01:24,512 反體中文真的是相對的很少你覺得這個小孩長大的時候還有可能去真正的去理解我們反體中文嗎?還有可能用臺灣在地化的邏輯和詞彙來交流表述嗎?我想可想而知很可能是不容易的因此在這樣的一個時代裡頭反體中文優化跟AI生存式AI的結合一直是近來本席非常關注的議題我相信中研院院也是所以我想請教一下院長您認為強化AI反體中文的優化
00:01:25,813 00:01:51,835 對臺灣來說重要嗎?必要性是什麼?非常重要我想委員剛剛已經講得非常清楚現在繁體中文在AI這個大型語言模型的訓練方面相對的不足所以這方面這個國科委已經啟動這個臺德計畫那本院很多研究人員也都參與其中甚至在其中擔任重要的這個領導這個方向所以這方面我們會大力的推動
00:01:52,976 00:02:08,309 昨天總質詢的時候本席也跟陳院長有提到AI透過潛移默化的過程已經成為最獨裁的話語權王者目前的大型語言模型我們剛剛提到70%是英文的2%大概是簡體中文繁體中文大概是多少?低於0.1%
00:02:09,889 00:02:12,132 所以基本上簡體中文的內容在他訓練的過程裡占了20倍我想日本在去年因應這樣的一個問題可以說我們都是小魚種面對這樣的挑戰日本可以說大刀闊斧
00:02:25,402 00:02:51,778 在去年將AI學習開發階段的版權見解正式用官方說明利用版權內容進行AI模型的開發學習原則上無需經過版權所有者的授權同意除非有超過必要限度或不合理損害到版權所有者的權益時才會有侵存的問題這個做法可以說和歐盟美國目前為止的見解有點不一樣可以說是相當先進請教一下院長您如何看待日本的做法日本的經驗適合我們接近嗎?
00:02:52,506 00:03:08,112 我覺得這是非常前瞻的一個做法我們當然是需要深入的研究在裡面的利弊得失不能因為說這個太先進我們不做或者是因為抄襲我想他一定有他獨到的一面我們怎麼樣擷取他的優點來看我們台灣怎麼做
00:03:13,594 00:03:35,974 謝謝院長的開放的精神其實中研院去年就在10月上旬有個事件在釋出導入明星研究的繁中優化大型原模型生成爭議的一些內容當時引起了一些討論中研院也很謝謝因為這個爭議成立了AI風險研究小組那這個事件雖然有一些爭議或討論但更重要的是凸顯了AI學習的過程當中
00:03:39,355 00:04:05,980 本席在這裡還是要支持希望中央研究院不要怕我們不要一招被蛇咬十年怕草繩這種先進的科學研究其實真的是要放寬心放開手去讓大家去進行研究但是還是想要了解一下AI風險研究小組對於目前繁體中文資料取得的困境因為你取得越多越完整我們就越不會出現這樣的問題小組有沒有什麼樣進一步的建議小組的完整報告什麼時候會完成呢
00:04:06,837 00:04:32,778 好 這方面我們請這個相關的是 各位委員您好 我是中央法律所邱文聰那也是擔任這個小組的成員之一那我們小組總共有12位成員 院內外的專家包括法律學者不好意思 時間有限 什麼時候會完成報告我們已經有一個期中的進度報告那目前有一個盤點出來就是說可能的風險來源大概有三個那如果委員需要進一步垂詢的話我們可以來好 歡迎提供 謝謝
00:04:34,159 00:04:53,697 我想在中研院事件爭議以後我想這是一個全民一起要來努力這個是鼓勵院長我們可以更開放、更開源這件事情上不需要一肩扛旗、閉門造句而是要群策群力在這個事件以後臉書用戶甚至開設了自發性的反體中文內容的開源社團
00:04:54,458 00:05:13,425 並且提到,終究是要做台灣的資料庫:何不用開源社群來開始做呢?再次凸顯,我們應該要有自己的語言資料庫:而且越大越好:這件事,不只是政府和企業認為重要:許多一般的民眾鄉民阿宅:包括我個人也都是非常關心:單體中文優化在AI上面,可以說急起直追
00:05:14,105 00:05:38,612 任何人都在努力我認為擁抱民間開源社群的大型語言模型會是一個更進步更快的做法我在這裡還是覺得非常棒中研院資訊所的廖宏元所長所領銜的YOLO演算法其實就擁抱了這種開放的精神跟全世界的人一起協作其實也打開了台灣的這個資訊科技的一條路我相信這個語言的內容或者大型語言模型的推進
00:05:39,252 00:05:39,512 中央研究院院長
00:05:54,209 00:05:54,809 中央研究院院長李玉潔
00:06:21,412 00:06:34,529 委員你好 我是李玉潔中文院提供了言之有物的計畫至於中文院在數位人文中心裡面的資料事實上有一些是涉及著作權我們還在洽談中
00:06:36,998 00:07:00,958 我想這個希望可以再釋出更多其實中研院的各單位都有豐富多元的研究成果歷史資料以及數位典藏相信對於大型語言訓練來說都是非常珍貴的資料來源過去副師年這個校長是透過了一台一台的牛車把這些資料運回來從十一所開始從上海到南京再到雲南最後到達台灣
00:07:02,139 00:07:29,375 中研院真的有非常非常多豐富的資料希望能夠把它釋出出來讓我們一起來訓練讓這個模型的知識可以更豐富更好讓巨量的資料庫不再只是一座靜態的倉庫或孤島臺德計劃預計2024年要達到13B甚至未來70B的規模希望中研院或者國科會都不要覺得我們臺德現在7B的參數已經達標言之有物的內容是可以有幫助但是我相信中研院還有更多豐富的典藏
00:07:29,855 00:07:29,895 主席
00:07:50,353 00:07:50,753 謝謝委員的支持 這也是我們一貫努力的目標
00:08:07,225 00:08:34,248 好 那麻煩將開放的期程盤點出來交到本席辦公室我們一起來努力好 謝謝3月初故宮來教育委員會來報告業務的時候我也曾經建議故宮院長對於深層式AI圖檔的應用可以思考開放進一步的在開放和管理當中取得平衡所以除了無論是圖檔還是文本AI需要的訓練資料我們都是相同的概念不管是什麼院我們都要一起來擁抱中央院具備豐富的成果歷史資料
00:08:34,688 00:08:39,732 非常期待中文院能成為開放資料協助反體中文AI 優化訓練的領頭羊