iVOD / 150091

Field Value
IVOD_ID 150091
IVOD_URL https://ivod.ly.gov.tw/Play/Clip/1M/150091
日期 2024-03-20
會議資料.會議代碼 委員會-11-1-22-4
會議資料.會議代碼:str 第11屆第1會期教育及文化委員會第4次全體委員會議
會議資料.屆 11
會議資料.會期 1
會議資料.會次 4
會議資料.種類 委員會
會議資料.委員會代碼[0] 22
會議資料.委員會代碼:str[0] 教育及文化委員會
會議資料.標題 第11屆第1會期教育及文化委員會第4次全體委員會議
影片種類 Clip
開始時間 2024-03-20T09:54:40+08:00
結束時間 2024-03-20T10:03:27+08:00
影片長度 00:08:47
支援功能[0] ai-transcript
支援功能[1] gazette
video_url https://ivod-lyvod.cdn.hinet.net/vod_1/_definst_/mp4:1MClips/b8deaa01a2e7f192e2c6b6a2c40552d32577149e9af75248f8ba9b0039caa7a6c153fc20d1be5a3b5ea18f28b6918d91.mp4/playlist.m3u8
委員名稱 葛如鈞
委員發言時間 09:54:40 - 10:03:27
會議時間 2024-03-20T09:00:00+08:00
會議名稱 立法院第11屆第1會期教育及文化委員會第4次全體委員會議(事由:邀請中央研究院院長廖俊智列席報告業務概況,並備質詢。(3月18日、20日及21日三天一次會))
gazette.lineno 226
gazette.blocks[0][0] 葛委員如鈞:(9時54分)主席,有請中研院廖院長。
gazette.blocks[1][0] 主席:請院長。
gazette.blocks[2][0] 廖院長俊智:葛委員早!
gazette.blocks[3][0] 葛委員如鈞:早!在今年2月書展的時候中研院以「AI社會登入中?」為主題,開啟了AI學術思辨和創新應用的討論,也充分展現了中研院正面迎接生成式AI浪潮的態度,本席表示肯定。
gazette.blocks[4][0] 廖院長俊智:謝謝。
gazette.blocks[5][0] 葛委員如鈞:近年面對AI的突飛猛進,我們可以說AI就像一個學習得很快、長得很快的小孩,是超級成長的速度,目前最常接觸到的語言可以說是英文,達70%以上,簡體中文是2%,繁體中文真的是相對很少,你覺得這個小孩長大的時候還有可能去真正的理解我們的繁體中文嗎?還有可能用臺灣在地化的邏輯和詞彙來交流、表述嗎?我認為可想而知,這很可能是不容易的。因此在這樣的一個時代裡頭,繁體中文優化跟生成式AI的結合一直是近來本席非常關注的議題,我相信中研院也是,所以我想請教一下院長,您認為強化AI繁體中文的優化對臺灣來說重要嗎?必要性是什麼?
gazette.blocks[6][0] 廖院長俊智:非常重要,我想委員剛剛已經講得非常清楚,現在繁體中文在AI這個大型語言模型的訓練方面仍然是相對的不足,所以國科會對這方面已經啟動TAIDE計畫,本院有很多研究人員也都參與其中,甚至在其中擔任重要職務來領導方向,對這方面我們會大力的推動。
gazette.blocks[7][0] 葛委員如鈞:好,謝謝。在昨天總質詢的時候本席也跟陳院長提到,AI透過潛移默化的過程已經成為最獨裁的話語權王者,目前的大型語言模型,我剛剛提到有70%是英文,2%是簡體中文,繁體中文大概是多少?低於0.1%,所以基本上簡體中文的內容在它訓練過程裡是占了20倍。日本在去年也有因應這樣的一個問題,可以說我們都是小語種,為了面對這樣的挑戰,日本可以說是大刀闊斧,在去年將AI學習開發階段的版權見解正式提出官方說明,利用版權內容進行AI模型的開發、學習,原則上無須經過版權所有者的授權同意,除非有超過必要限度或不合理損害到版權所有者的權益時才會有侵權的問題。這個作法和歐盟、美國到目前為止的見解有點不一樣,可以說是相當的先進,請教一下院長,您如何看待日本的作法?日本的經驗適合我們借鏡嗎?
gazette.blocks[8][0] 廖院長俊智:我覺得這是一個非常前瞻的作法,我們當然需要深入的研究這裡面的利弊得失,不能說因為這個太先進所以我們不做或者是一味的抄襲,我想他們一定有其獨到的一面,我們要擷取他們的優點來看我們臺灣怎麼做。
gazette.blocks[9][0] 葛委員如鈞:謝謝院長開放的精神,其實中研院在去年10月上旬有一個事件,在釋出這個導入明清研究的繁中優化大型語言模型生成爭議的一些內容,當時引起了一些討論,也很謝謝中研院因為這個爭議而成立了AI風險研究小組,這個事件雖然有一些爭議或討論,但是更重要的是凸顯了AI學習的過程當中免不了跌跌撞撞,本席在這裡還是要支持,希望中研院不要怕,我們不要一朝被蛇咬、十年怕草繩,這種先進的科學研究其實真的是要放寬心、放開手去讓大家進行研究。但是我還是想要瞭解一下AI風險研究小組對於目前繁體中文資料取得的困境,因為你取得越多越完整,我們就越不會出現這樣的問題嘛!這個小組有沒有什麼進一步的建議?小組的完整報告什麼時候會完成呢?
gazette.blocks[10][0] 廖院長俊智:好,這方面我們請相關人員說明。
gazette.blocks[11][0] 邱處長文聰:是,葛委員您好,我是中研院法律所邱文聰,也是這個小組的成員之一,我們小組總共有12位成員,院內外的專家包括法律學者……
gazette.blocks[12][0] 葛委員如鈞:不好意思!時間有限,什麼時候會完成報告?
gazette.blocks[13][0] 邱處長文聰:我們已經有一個期中的進度報告,目前有盤點出來可能的風險來源大概有三個,如果委員需要進一步垂詢的話,我們可以來提供。
gazette.blocks[14][0] 葛委員如鈞:好,歡迎提供,謝謝。在中研院這個爭議事件以後,我想這是全民要一起來努力,我真的是鼓勵院長,我們可以更開放、更開源,在這件事情上不需要一肩扛起、閉門造車,而是要群策群力啦!在這個事件以後,臉書用戶甚至是開設了自發性的繁體中文內容的開源社團,並且提到終究是要做臺灣的資料庫,何不用開源社群來開始做呢?再次凸顯我們應該要有自己的語言資料庫,而且越大越好,這件事不只是政府和企業認為重要,許多一般的民眾、鄉民、阿宅,包括我個人也都是非常關心,繁體中文優化在AI上面可以說急起直追,任何人都在努力,我認為擁抱民間開源社群的大型語言模型會是一個更進步、更快的作法。我還是覺得非常棒,中研院資訊所廖弘源所長所領銜的YOLO演算法其實就擁抱了這種開放的精神,跟全世界的人一起協作,其實也打開了臺灣資訊科技的一條路,我相信這個語言的內容或者大型語言模型的推進一定也可以擁抱這樣的一個精神。麻煩儘快將這個風險小組歷次的會議紀錄跟報告送到本席的辦公室,中研院是中華民國最高的學術研究機關,你們動見觀瞻,大家都在看,也希望你們可以帶領大家儘量地更開放,有更前瞻的見解。
gazette.blocks[14][1] 最後,我透過網路查詢資訊,也想要瞭解一下這個TAIDE計畫,中研院李育杰研究員有一些相關的研究成果,我也非常景仰他,我想要瞭解一下中研院對這個計畫投入了多少、是不是有不夠的地方,我們希望可以一起來爭取,中研院有沒有釋出相關的資料來協助TAIDE計畫的訓練?
gazette.blocks[15][0] 李研究員育杰:委員你好,我是李育杰,中研院提出「研之有物」的計畫,至於中研院在數位人文中心裡面的資料,事實上有一些是涉及著作權,我們還在洽談中。
gazette.blocks[16][0] 葛委員如鈞:好,我希望可以再釋出更多,其實中研院的各單位都有豐富多元的研究成果、歷史資料以及數位典藏,相信對於大型語言訓練來說都是非常珍貴的資料來源,過去傅斯年校長是用一臺一臺的牛車把這些資料運回來,從史語所開始,從上海到南京、再到雲南、最後到達臺灣,中研院真的有非常非常多豐富的資料,希望能夠把它釋出來,讓我們一起來訓練,讓這個模型的知識可以更豐富、更好,讓巨量的資料庫不再只是一座靜態的倉庫或孤島。TAIDE計畫預計2024年要達到13 B甚至在未來達到70 B的規模,希望中研院或者國科會都不要覺得我們TAIDE現在7B的參數已經達標,「研之有物」的內容是可以有幫助,但是我相信中研院還有更多豐富的典藏或者相關的歷史資料,不管是圖片還是文件,都希望能夠擁抱開放、擁抱開源,如果中研院能夠帶頭,我們的民間或政府的機關就會願意大量的釋出,我們的TAIDE計畫一定可以讓我們這個所謂的AI小朋友馬上就從幼稚園跳大學了,好不好?
gazette.blocks[16][1] 所以我做一個結語,不過我好像應該要確認一下你們同不同意,就是院長是否願意承諾未來會積極釋出中研院內的各類資料庫來供AI訓練?我這邊會幫忙爭取資源,但是能不能承諾一下會有開放的態度?
gazette.blocks[17][0] 廖院長俊智:當然,謝謝委員的支持,這也是我們一貫努力的目標。
gazette.blocks[18][0] 葛委員如鈞:好,那麻煩將開放的期程盤點出來並交到本席的辦公室,我們一起來努力。
gazette.blocks[19][0] 廖院長俊智:好,謝謝。
gazette.blocks[20][0] 葛委員如鈞:3月初故宮來教文委員會報告業務的時候,我也曾經建議故宮院長對於生成式AI圖檔的應用可以思考開放,進一步在開放和管理當中取得平衡。所以無論是圖檔還是文本,對AI需要的訓練資料我們都是相同的概念,不管是什麼院,我們都要一起來擁抱,中研院具備豐富的成果、歷史資料,非常期待中研院能夠成為開放資料協助繁體中文AI優化訓練的領頭羊。
gazette.blocks[21][0] 廖院長俊智:好,謝謝,這是我們一貫的目標。
gazette.blocks[22][0] 葛委員如鈞:謝謝。
gazette.blocks[23][0] 廖院長俊智:謝謝委員的支持。
gazette.blocks[24][0] 主席:好,謝謝。我們現在接著請林宜瑾委員。
gazette.agenda.page_end 392
gazette.agenda.meet_id 委員會-11-1-22-4
gazette.agenda.speakers[0] 柯志恩
gazette.agenda.speakers[1] 洪孟楷
gazette.agenda.speakers[2] 羅廷瑋
gazette.agenda.speakers[3] 吳沛憶
gazette.agenda.speakers[4] 葛如鈞
gazette.agenda.speakers[5] 林宜瑾
gazette.agenda.speakers[6] 陳秀寳
gazette.agenda.speakers[7] 郭昱晴
gazette.agenda.speakers[8] 萬美玲
gazette.agenda.speakers[9] 張雅琳
gazette.agenda.speakers[10] 吳春城
gazette.agenda.speakers[11] 陳培瑜
gazette.agenda.speakers[12] 謝衣鳯
gazette.agenda.speakers[13] 范雲
gazette.agenda.speakers[14] 吳思瑤
gazette.agenda.speakers[15] 葉元之
gazette.agenda.speakers[16] 林倩綺
gazette.agenda.page_start 341
gazette.agenda.meetingDate[0] 2024-03-20
gazette.agenda.gazette_id 1131701
gazette.agenda.agenda_lcidc_ids[0] 1131701_00006
gazette.agenda.meet_name 立法院第11屆第1會期教育及文化委員會第4次全體委員會議紀錄
gazette.agenda.content 邀請中央研究院院長廖俊智列席報告業務概況,並備質詢
gazette.agenda.agenda_id 1131701_00005
transcript.pyannote[0].speaker SPEAKER_00
transcript.pyannote[0].start 0.03096875
transcript.pyannote[0].end 0.84096875
transcript.pyannote[1].speaker SPEAKER_00
transcript.pyannote[1].start 15.08346875
transcript.pyannote[1].end 17.15909375
transcript.pyannote[2].speaker SPEAKER_01
transcript.pyannote[2].start 17.36159375
transcript.pyannote[2].end 17.71596875
transcript.pyannote[3].speaker SPEAKER_00
transcript.pyannote[3].start 21.96846875
transcript.pyannote[3].end 23.38596875
transcript.pyannote[4].speaker SPEAKER_00
transcript.pyannote[4].start 24.68534375
transcript.pyannote[4].end 87.12284375
transcript.pyannote[5].speaker SPEAKER_03
transcript.pyannote[5].start 87.12284375
transcript.pyannote[5].end 112.21596875
transcript.pyannote[6].speaker SPEAKER_00
transcript.pyannote[6].start 107.49096875
transcript.pyannote[6].end 107.87909375
transcript.pyannote[7].speaker SPEAKER_00
transcript.pyannote[7].start 109.58346875
transcript.pyannote[7].end 109.81971875
transcript.pyannote[8].speaker SPEAKER_00
transcript.pyannote[8].start 112.30034375
transcript.pyannote[8].end 172.10534375
transcript.pyannote[9].speaker SPEAKER_03
transcript.pyannote[9].start 172.45971875
transcript.pyannote[9].end 193.18221875
transcript.pyannote[10].speaker SPEAKER_00
transcript.pyannote[10].start 193.18221875
transcript.pyannote[10].end 246.15284375
transcript.pyannote[11].speaker SPEAKER_03
transcript.pyannote[11].start 246.81096875
transcript.pyannote[11].end 250.08471875
transcript.pyannote[12].speaker SPEAKER_01
transcript.pyannote[12].start 250.43909375
transcript.pyannote[12].end 262.58909375
transcript.pyannote[13].speaker SPEAKER_00
transcript.pyannote[13].start 261.23909375
transcript.pyannote[13].end 263.51721875
transcript.pyannote[14].speaker SPEAKER_01
transcript.pyannote[14].start 262.97721875
transcript.pyannote[14].end 272.54534375
transcript.pyannote[15].speaker SPEAKER_00
transcript.pyannote[15].start 272.14034375
transcript.pyannote[15].end 379.48221875
transcript.pyannote[16].speaker SPEAKER_02
transcript.pyannote[16].start 381.32159375
transcript.pyannote[16].end 396.01971875
transcript.pyannote[17].speaker SPEAKER_00
transcript.pyannote[17].start 396.01971875
transcript.pyannote[17].end 396.03659375
transcript.pyannote[18].speaker SPEAKER_00
transcript.pyannote[18].start 396.67784375
transcript.pyannote[18].end 483.43221875
transcript.pyannote[19].speaker SPEAKER_03
transcript.pyannote[19].start 483.43221875
transcript.pyannote[19].end 486.99284375
transcript.pyannote[20].speaker SPEAKER_00
transcript.pyannote[20].start 487.19534375
transcript.pyannote[20].end 520.97909375
transcript.pyannote[21].speaker SPEAKER_01
transcript.pyannote[21].start 491.36346875
transcript.pyannote[21].end 492.03846875
transcript.pyannote[22].speaker SPEAKER_03
transcript.pyannote[22].start 492.03846875
transcript.pyannote[22].end 492.22409375
transcript.pyannote[23].speaker SPEAKER_03
transcript.pyannote[23].start 521.21534375
transcript.pyannote[23].end 524.64096875
transcript.whisperx[0].start 0.309
transcript.whisperx[0].end 22.621
transcript.whisperx[0].text 各位委員主席有請中研院廖院長院長各位委員早
transcript.whisperx[1].start 24.741
transcript.whisperx[1].end 40.714
transcript.whisperx[1].text 在今年2月書展的時候﹐中研院以AI社會登入中為主題﹐開啟了AI學術思辨和創新應用的討論﹐也充分展現了中研院正面迎接生成式AI浪潮的態度﹐本席表示肯定﹐
transcript.whisperx[2].start 41.534
transcript.whisperx[2].end 53.638
transcript.whisperx[2].text 近年面對AI的突飛猛進我們可以說AI就像一個學習得很快長得很快的小孩超級成長的速度目前最常接觸到的語言可以說是英文70%以上簡體中文是2%
transcript.whisperx[3].start 57.579
transcript.whisperx[3].end 84.512
transcript.whisperx[3].text 反體中文真的是相對的很少你覺得這個小孩長大的時候還有可能去真正的去理解我們反體中文嗎?還有可能用臺灣在地化的邏輯和詞彙來交流表述嗎?我想可想而知很可能是不容易的因此在這樣的一個時代裡頭反體中文優化跟AI生存式AI的結合一直是近來本席非常關注的議題我相信中研院院也是所以我想請教一下院長您認為強化AI反體中文的優化
transcript.whisperx[4].start 85.813
transcript.whisperx[4].end 111.835
transcript.whisperx[4].text 對臺灣來說重要嗎?必要性是什麼?非常重要我想委員剛剛已經講得非常清楚現在繁體中文在AI這個大型語言模型的訓練方面相對的不足所以這方面這個國科委已經啟動這個臺德計畫那本院很多研究人員也都參與其中甚至在其中擔任重要的這個領導這個方向所以這方面我們會大力的推動
transcript.whisperx[5].start 112.976
transcript.whisperx[5].end 128.309
transcript.whisperx[5].text 昨天總質詢的時候本席也跟陳院長有提到AI透過潛移默化的過程已經成為最獨裁的話語權王者目前的大型語言模型我們剛剛提到70%是英文的2%大概是簡體中文繁體中文大概是多少?低於0.1%
transcript.whisperx[6].start 129.89
transcript.whisperx[6].end 132.132
transcript.whisperx[6].text 所以基本上簡體中文的內容在他訓練的過程裡占了20倍我想日本在去年因應這樣的一個問題可以說我們都是小魚種面對這樣的挑戰日本可以說大刀闊斧
transcript.whisperx[7].start 145.402
transcript.whisperx[7].end 171.778
transcript.whisperx[7].text 在去年將AI學習開發階段的版權見解正式用官方說明利用版權內容進行AI模型的開發學習原則上無需經過版權所有者的授權同意除非有超過必要限度或不合理損害到版權所有者的權益時才會有侵存的問題這個做法可以說和歐盟美國目前為止的見解有點不一樣可以說是相當先進請教一下院長您如何看待日本的做法日本的經驗適合我們接近嗎?
transcript.whisperx[8].start 172.506
transcript.whisperx[8].end 188.112
transcript.whisperx[8].text 我覺得這是非常前瞻的一個做法我們當然是需要深入的研究在裡面的利弊得失不能因為說這個太先進我們不做或者是因為抄襲我想他一定有他獨到的一面我們怎麼樣擷取他的優點來看我們台灣怎麼做
transcript.whisperx[9].start 193.594
transcript.whisperx[9].end 215.974
transcript.whisperx[9].text 謝謝院長的開放的精神其實中研院去年就在10月上旬有個事件在釋出導入明星研究的繁中優化大型原模型生成爭議的一些內容當時引起了一些討論中研院也很謝謝因為這個爭議成立了AI風險研究小組那這個事件雖然有一些爭議或討論但更重要的是凸顯了AI學習的過程當中
transcript.whisperx[10].start 219.355
transcript.whisperx[10].end 245.98
transcript.whisperx[10].text 本席在這裡還是要支持希望中央研究院不要怕我們不要一招被蛇咬十年怕草繩這種先進的科學研究其實真的是要放寬心放開手去讓大家去進行研究但是還是想要了解一下AI風險研究小組對於目前繁體中文資料取得的困境因為你取得越多越完整我們就越不會出現這樣的問題小組有沒有什麼樣進一步的建議小組的完整報告什麼時候會完成呢
transcript.whisperx[11].start 246.837
transcript.whisperx[11].end 272.778
transcript.whisperx[11].text 好 這方面我們請這個相關的是 各位委員您好 我是中央法律所邱文聰那也是擔任這個小組的成員之一那我們小組總共有12位成員 院內外的專家包括法律學者不好意思 時間有限 什麼時候會完成報告我們已經有一個期中的進度報告那目前有一個盤點出來就是說可能的風險來源大概有三個那如果委員需要進一步垂詢的話我們可以來好 歡迎提供 謝謝
transcript.whisperx[12].start 274.159
transcript.whisperx[12].end 293.697
transcript.whisperx[12].text 我想在中研院事件爭議以後我想這是一個全民一起要來努力這個是鼓勵院長我們可以更開放、更開源這件事情上不需要一肩扛旗、閉門造句而是要群策群力在這個事件以後臉書用戶甚至開設了自發性的反體中文內容的開源社團
transcript.whisperx[13].start 294.458
transcript.whisperx[13].end 313.425
transcript.whisperx[13].text 並且提到,終究是要做台灣的資料庫:何不用開源社群來開始做呢?再次凸顯,我們應該要有自己的語言資料庫:而且越大越好:這件事,不只是政府和企業認為重要:許多一般的民眾鄉民阿宅:包括我個人也都是非常關心:單體中文優化在AI上面,可以說急起直追
transcript.whisperx[14].start 314.105
transcript.whisperx[14].end 338.612
transcript.whisperx[14].text 任何人都在努力我認為擁抱民間開源社群的大型語言模型會是一個更進步更快的做法我在這裡還是覺得非常棒中研院資訊所的廖宏元所長所領銜的YOLO演算法其實就擁抱了這種開放的精神跟全世界的人一起協作其實也打開了台灣的這個資訊科技的一條路我相信這個語言的內容或者大型語言模型的推進
transcript.whisperx[15].start 339.252
transcript.whisperx[15].end 339.512
transcript.whisperx[15].text 中央研究院院長
transcript.whisperx[16].start 354.209
transcript.whisperx[16].end 354.809
transcript.whisperx[16].text 中央研究院院長李玉潔
transcript.whisperx[17].start 381.412
transcript.whisperx[17].end 394.529
transcript.whisperx[17].text 委員你好 我是李玉潔中文院提供了言之有物的計畫至於中文院在數位人文中心裡面的資料事實上有一些是涉及著作權我們還在洽談中
transcript.whisperx[18].start 396.998
transcript.whisperx[18].end 420.958
transcript.whisperx[18].text 我想這個希望可以再釋出更多其實中研院的各單位都有豐富多元的研究成果歷史資料以及數位典藏相信對於大型語言訓練來說都是非常珍貴的資料來源過去副師年這個校長是透過了一台一台的牛車把這些資料運回來從十一所開始從上海到南京再到雲南最後到達台灣
transcript.whisperx[19].start 422.139
transcript.whisperx[19].end 449.375
transcript.whisperx[19].text 中研院真的有非常非常多豐富的資料希望能夠把它釋出出來讓我們一起來訓練讓這個模型的知識可以更豐富更好讓巨量的資料庫不再只是一座靜態的倉庫或孤島臺德計劃預計2024年要達到13B甚至未來70B的規模希望中研院或者國科會都不要覺得我們臺德現在7B的參數已經達標言之有物的內容是可以有幫助但是我相信中研院還有更多豐富的典藏
transcript.whisperx[20].start 449.855
transcript.whisperx[20].end 449.895
transcript.whisperx[20].text 主席
transcript.whisperx[21].start 470.353
transcript.whisperx[21].end 470.753
transcript.whisperx[21].text 謝謝委員的支持 這也是我們一貫努力的目標
transcript.whisperx[22].start 487.225
transcript.whisperx[22].end 514.248
transcript.whisperx[22].text 好 那麻煩將開放的期程盤點出來交到本席辦公室我們一起來努力好 謝謝3月初故宮來教育委員會來報告業務的時候我也曾經建議故宮院長對於深層式AI圖檔的應用可以思考開放進一步的在開放和管理當中取得平衡所以除了無論是圖檔還是文本AI需要的訓練資料我們都是相同的概念不管是什麼院我們都要一起來擁抱中央院具備豐富的成果歷史資料
transcript.whisperx[23].start 514.688
transcript.whisperx[23].end 519.732
transcript.whisperx[23].text 非常期待中文院能成為開放資料協助反體中文AI 優化訓練的領頭羊