iVOD / 150091

葛如鈞 @ 第11屆第1會期教育及文化委員會第4次全體委員會議

Index	Text
0	葛委員如鈞：（9時54分）主席，有請中研院廖院長。
1	主席：請院長。
2	廖院長俊智：葛委員早！
3	葛委員如鈞：早！在今年2月書展的時候中研院以「AI社會登入中？」為主題，開啟了AI學術思辨和創新應用的討論，也充分展現了中研院正面迎接生成式AI浪潮的態度，本席表示肯定。
4	廖院長俊智：謝謝。
5	葛委員如鈞：近年面對AI的突飛猛進，我們可以說AI就像一個學習得很快、長得很快的小孩，是超級成長的速度，目前最常接觸到的語言可以說是英文，達70%以上，簡體中文是2%，繁體中文真的是相對很少，你覺得這個小孩長大的時候還有可能去真正的理解我們的繁體中文嗎？還有可能用臺灣在地化的邏輯和詞彙來交流、表述嗎？我認為可想而知，這很可能是不容易的。因此在這樣的一個時代裡頭，繁體中文優化跟生成式AI的結合一直是近來本席非常關注的議題，我相信中研院也是，所以我想請教一下院長，您認為強化AI繁體中文的優化對臺灣來說重要嗎？必要性是什麼？
6	廖院長俊智：非常重要，我想委員剛剛已經講得非常清楚，現在繁體中文在AI這個大型語言模型的訓練方面仍然是相對的不足，所以國科會對這方面已經啟動TAIDE計畫，本院有很多研究人員也都參與其中，甚至在其中擔任重要職務來領導方向，對這方面我們會大力的推動。
7	葛委員如鈞：好，謝謝。在昨天總質詢的時候本席也跟陳院長提到，AI透過潛移默化的過程已經成為最獨裁的話語權王者，目前的大型語言模型，我剛剛提到有70%是英文，2%是簡體中文，繁體中文大概是多少？低於0.1%，所以基本上簡體中文的內容在它訓練過程裡是占了20倍。日本在去年也有因應這樣的一個問題，可以說我們都是小語種，為了面對這樣的挑戰，日本可以說是大刀闊斧，在去年將AI學習開發階段的版權見解正式提出官方說明，利用版權內容進行AI模型的開發、學習，原則上無須經過版權所有者的授權同意，除非有超過必要限度或不合理損害到版權所有者的權益時才會有侵權的問題。這個作法和歐盟、美國到目前為止的見解有點不一樣，可以說是相當的先進，請教一下院長，您如何看待日本的作法？日本的經驗適合我們借鏡嗎？
8	廖院長俊智：我覺得這是一個非常前瞻的作法，我們當然需要深入的研究這裡面的利弊得失，不能說因為這個太先進所以我們不做或者是一味的抄襲，我想他們一定有其獨到的一面，我們要擷取他們的優點來看我們臺灣怎麼做。
9	葛委員如鈞：謝謝院長開放的精神，其實中研院在去年10月上旬有一個事件，在釋出這個導入明清研究的繁中優化大型語言模型生成爭議的一些內容，當時引起了一些討論，也很謝謝中研院因為這個爭議而成立了AI風險研究小組，這個事件雖然有一些爭議或討論，但是更重要的是凸顯了AI學習的過程當中免不了跌跌撞撞，本席在這裡還是要支持，希望中研院不要怕，我們不要一朝被蛇咬、十年怕草繩，這種先進的科學研究其實真的是要放寬心、放開手去讓大家進行研究。但是我還是想要瞭解一下AI風險研究小組對於目前繁體中文資料取得的困境，因為你取得越多越完整，我們就越不會出現這樣的問題嘛！這個小組有沒有什麼進一步的建議？小組的完整報告什麼時候會完成呢？
10	廖院長俊智：好，這方面我們請相關人員說明。
11	邱處長文聰：是，葛委員您好，我是中研院法律所邱文聰，也是這個小組的成員之一，我們小組總共有12位成員，院內外的專家包括法律學者……
12	葛委員如鈞：不好意思！時間有限，什麼時候會完成報告？
13	邱處長文聰：我們已經有一個期中的進度報告，目前有盤點出來可能的風險來源大概有三個，如果委員需要進一步垂詢的話，我們可以來提供。
14	葛委員如鈞：好，歡迎提供，謝謝。在中研院這個爭議事件以後，我想這是全民要一起來努力，我真的是鼓勵院長，我們可以更開放、更開源，在這件事情上不需要一肩扛起、閉門造車，而是要群策群力啦！在這個事件以後，臉書用戶甚至是開設了自發性的繁體中文內容的開源社團，並且提到終究是要做臺灣的資料庫，何不用開源社群來開始做呢？再次凸顯我們應該要有自己的語言資料庫，而且越大越好，這件事不只是政府和企業認為重要，許多一般的民眾、鄉民、阿宅，包括我個人也都是非常關心，繁體中文優化在AI上面可以說急起直追，任何人都在努力，我認為擁抱民間開源社群的大型語言模型會是一個更進步、更快的作法。我還是覺得非常棒，中研院資訊所廖弘源所長所領銜的YOLO演算法其實就擁抱了這種開放的精神，跟全世界的人一起協作，其實也打開了臺灣資訊科技的一條路，我相信這個語言的內容或者大型語言模型的推進一定也可以擁抱這樣的一個精神。麻煩儘快將這個風險小組歷次的會議紀錄跟報告送到本席的辦公室，中研院是中華民國最高的學術研究機關，你們動見觀瞻，大家都在看，也希望你們可以帶領大家儘量地更開放，有更前瞻的見解。
15	最後，我透過網路查詢資訊，也想要瞭解一下這個TAIDE計畫，中研院李育杰研究員有一些相關的研究成果，我也非常景仰他，我想要瞭解一下中研院對這個計畫投入了多少、是不是有不夠的地方，我們希望可以一起來爭取，中研院有沒有釋出相關的資料來協助TAIDE計畫的訓練？
16	李研究員育杰：委員你好，我是李育杰，中研院提出「研之有物」的計畫，至於中研院在數位人文中心裡面的資料，事實上有一些是涉及著作權，我們還在洽談中。
17	葛委員如鈞：好，我希望可以再釋出更多，其實中研院的各單位都有豐富多元的研究成果、歷史資料以及數位典藏，相信對於大型語言訓練來說都是非常珍貴的資料來源，過去傅斯年校長是用一臺一臺的牛車把這些資料運回來，從史語所開始，從上海到南京、再到雲南、最後到達臺灣，中研院真的有非常非常多豐富的資料，希望能夠把它釋出來，讓我們一起來訓練，讓這個模型的知識可以更豐富、更好，讓巨量的資料庫不再只是一座靜態的倉庫或孤島。TAIDE計畫預計2024年要達到13 B甚至在未來達到70 B的規模，希望中研院或者國科會都不要覺得我們TAIDE現在7B的參數已經達標，「研之有物」的內容是可以有幫助，但是我相信中研院還有更多豐富的典藏或者相關的歷史資料，不管是圖片還是文件，都希望能夠擁抱開放、擁抱開源，如果中研院能夠帶頭，我們的民間或政府的機關就會願意大量的釋出，我們的TAIDE計畫一定可以讓我們這個所謂的AI小朋友馬上就從幼稚園跳大學了，好不好？
18	所以我做一個結語，不過我好像應該要確認一下你們同不同意，就是院長是否願意承諾未來會積極釋出中研院內的各類資料庫來供AI訓練？我這邊會幫忙爭取資源，但是能不能承諾一下會有開放的態度？
19	廖院長俊智：當然，謝謝委員的支持，這也是我們一貫努力的目標。
20	葛委員如鈞：好，那麻煩將開放的期程盤點出來並交到本席的辦公室，我們一起來努力。
21	廖院長俊智：好，謝謝。
22	葛委員如鈞：3月初故宮來教文委員會報告業務的時候，我也曾經建議故宮院長對於生成式AI圖檔的應用可以思考開放，進一步在開放和管理當中取得平衡。所以無論是圖檔還是文本，對AI需要的訓練資料我們都是相同的概念，不管是什麼院，我們都要一起來擁抱，中研院具備豐富的成果、歷史資料，非常期待中研院能夠成為開放資料協助繁體中文AI優化訓練的領頭羊。
23	廖院長俊智：好，謝謝，這是我們一貫的目標。
24	葛委員如鈞：謝謝。
25	廖院長俊智：謝謝委員的支持。
26	主席：好，謝謝。我們現在接著請林宜瑾委員。

公報詮釋資料

page_end	392
meet_id	委員會-11-1-22-4
speakers	["柯志恩","洪孟楷","羅廷瑋","吳沛憶","葛如鈞","林宜瑾","陳秀寳","郭昱晴","萬美玲","張雅琳","吳春城","陳培瑜","謝衣鳯","范雲","吳思瑤","葉元之","林倩綺"]
page_start	341
meetingDate	["2024-03-20"]
gazette_id	1131701
agenda_lcidc_ids	["1131701_00006"]
meet_name	立法院第11屆第1會期教育及文化委員會第4次全體委員會議紀錄
content	邀請中央研究院院長廖俊智列席報告業務概況，並備質詢
agenda_id	1131701_00005