iVOD / 152917

羅廷瑋 @ 第11屆第1會期教育及文化委員會第13次全體委員會議

Index Text
0 羅委員廷瑋:(11時38分)謝謝主席,有請吳主委。
1 主席:好,有請吳主委。
2 吳主任委員誠文:委員好。
3 羅委員廷瑋:吳主委好,恭喜上任,歡迎加入我們教文的大家庭,叫你吳主委,感覺很親切,因為上一個也是吳主委。我今年年初才來立法院就職,跟吳政忠主委相處時間比較短,相信接下來我們會有一段很長的合作時間,本席感到非常的期待。
4 為什麼開頭要聊到政忠主委?因為今年3月的時候,吳主委進行了業務報告,2個月後你新上任,也做了業務報告,當然我們有共同關注到幾個重要的科學議題,但是我想民眾會更想知道的一件事情是,您接任國科會主委,您跟吳政忠主委有什麼差別?在業務執行上有什麼風格不同?未來有什麼特別要處理的政策?可不可以簡單說明一下?
5 吳主任委員誠文:我們過去非常注重經濟的發展,因為經濟發展好的話,我們才有足夠的能力協助整個社會文化的提升,所以我想在我的任內除了延續原來在科技產業很努力的研發、產業的推動之外,我們也會努力的協助整個社會文化的提升,利用我們科技的優勢來協助各行各業。
6 羅委員廷瑋:好,我們一起努力,各行各業,我希望不管是從上到下,基層很多行業也需要幫忙,不要讓他們覺得國科會很遠,不要讓他們不知道有國科會的存在。
7 本席想要向主委詢問一下晶創方案,回到我們施政的主軸上,這個方案目前加速推動四大布局,也就是推動生成式AI、幫助百工百業、強化國內的培育環境、吸納全球頂尖人才,你本身有在用生成式AI嗎?
8 吳主任委員誠文:坦白講,我個人有用過,但還不是很滿意。
9 羅委員廷瑋:有用過?
10 吳主任委員誠文:是,個人用。
11 羅委員廷瑋:對生成式AI不是很滿意,還是你使用的過程不是很滿意?
12 吳主任委員誠文:以生成式AI來講,我們要知道它的能力、它的限制,因為它使用了AI統計式的方法,它不可能達到百分之百準確,符合你要的答案……
13 羅委員廷瑋:當然,但是你有研究我們年輕人說的,生成式AI有所謂的魔咒咒語,你會使用相關的咒語嗎?
14 吳主任委員誠文:我目前沒有。
15 羅委員廷瑋:所謂的咒語就是它的指令,我想這個是瞭解生成式AI可能需要的一個先期目的。經濟部合作推動加速異質整合以及先進的技術開發,最後就是要推動矽島的實力,我們更希望能夠在國內外新創的同時吸引投資來臺,這個計畫預計10年內要投資3,000億,今年第一年就投入120億,之前國科會期許5年會有多家IC的新創在國內誕生,半年過去了,具體執行狀況如何?有沒有進展?
16 吳主任委員誠文:我可以請我們負責的同仁……
17 羅委員廷瑋:可以,請說。
18 楊執行秘書佳玲:關於IC新創,因為剛開始執行,我們已經正式開始launch一個全球call案的競賽規劃……
19 羅委員廷瑋:對。
20 楊執行秘書佳玲:也因為剛開始,所以我們未來幾個月,在年底之前會再跟委員報告,update整個狀態。
21 羅委員廷瑋:因為已經半年了,所以就只是目前這樣子?主委,您覺得呢?聽完他剛剛說的。
22 吳主任委員誠文:我們加速、加速……
23 涂副處長君怡:我們5月14號有一個Grand Challenge開始啟動,6月30號會結案,目前我們有在跟相關的SEMI還有半導體領域去促案。
24 羅委員廷瑋:聽起來好像有做事,但是主軸具體好像也看不出來半年了大概做了些什麼,但沒關係……
25 吳主任委員誠文:我會關注一下。
26 羅委員廷瑋:這個過程我相信有努力,剛剛你講了很多的這個算是日程嗎?或者是你們的一些會議,OK,但是我們希望的是,半年了,有沒有準備要做什麼?有沒有進展的一個具體的方向?讓我們能夠更確定的知道。我想問主委,在ChatGPT剛問世的時候,你有沒有使用過?你剛剛有說。
27 吳主任委員誠文:有沒有什麼?使用過?
28 羅委員廷瑋:對。
29 吳主任委員誠文:有,有使用過。
30 羅委員廷瑋:現在可以說是LLM的世代,為什麼這樣說?因為目前國科會有TAIDE模型;聯發科有自己的模型;台智雲有福爾摩沙大模型;群創光電有白龍模型,大家都致力於在打造繁體中文模組的AI模型。上個月(4月)15日,國科會才釋出了TAIDE-LX-7B的模型,說是結合臺灣文化,擁有70億參數的大型語言模組;緊接著Meta又釋出自己一個相關的模組;國科會立馬在4月29號又發表了Llama 3 Alpha 的模型,這個研發速度可以說是AI的軍備競賽,令人感受到你們的積極度。但我想詢問一下,包括你們的資料庫來源,目前可以提供你們的資料庫來源,大概都來自哪一國嗎?
31 吳主任委員誠文:我們的資料庫來源應該都是臺灣的。
32 羅委員廷瑋:都是臺灣自己的?
33 吳主任委員誠文:是,在臺灣本土收集的。
34 羅委員廷瑋:所以70億全數都來自臺灣?好。我想我不敢說自己是專家,我也不敢在你們面前說我多瞭解,但我自己有去稍微瞭解一下,我們目前發展的基礎是以Meta開發的Llama 2模型,也就是我們現在使用的是開源的資料,它在prerational的過程中就已經有簡體中文的資料,我們頂多可以給它看繁體資料,但不能避免這個開源模型已經有簡體資料,對吧?
35 吳主任委員誠文:這個可能會存在的,對。
36 羅委員廷瑋:如果我們想要完全避免簡體資料,進而開發一個全面的繁體資料,應該會遇到兩個問題。第一個問題就是本土的資料庫不足,跟全世界來比,數據量遠遠不足。第二個更大的問題就是,如果是只有繁體的資料,就需要重新訓練,對吧?
37 吳主任委員誠文:是。
38 羅委員廷瑋:就本席自己查的資料瞭解到,重新訓練沒有幾萬片H100的GPU辦不到,目前臺灣國家隊大概只有72片,遠遠低於國外的新創團隊與大企業,請問要如何重新訓練?
39 吳主任委員誠文:我們正在努力加速建置我們的運算資源。
40 羅委員廷瑋:我剛剛說的GPU數量有錯嗎?
41 吳主任委員誠文:我請國網中心主任來回答。
42 羅委員廷瑋:OK。不好意思,因為我看到您不是很肯定的,我想說給你回答都沒關係,我們可以互相的……
43 張主任朝亮:報告委員,去年TAIDE計畫展開的時候,我們購置了72片H100的GPU……
44 羅委員廷瑋:對嘛,72片。
45 張主任朝亮:就是您剛剛提的,但是我們的臺灣杉二號本來就有2,000片的V100,在國網掌控裡面的有1,000片。
46 羅委員廷瑋:所以我剛剛說的要重新訓練,我們估計要幾萬片的GPU,目前我們只有72片。如果我們只能基於還是有簡體資料的前提下,多加入了繁體資料,只能做到繁體中文的微調。本席想瞭解,就這樣的基礎所開發的AI模型與OpenAI的ChatGPT也好,或是和Google的具體落差在哪裡?目前繁體中文與所謂簡體中文的資料,在訓練數據中比例各占多少?是否有具體的數據可以提供一下?
47 張主任朝亮:簡體跟繁體的比例其實並沒有精確的統計,但是Llama釋出的時候,有提到它的中文的比例是多少,可以拿來作為參考,但並不是說本來是簡體,它就一定會,你如果餵很多的繁體中文,事實上會改變它的參數,繁體中文的表現會越來越好。
48 羅委員廷瑋:好。所以我剛剛問說,以我們的AI模型跟OpenAI的ChatGPT以及Google的相較,具體落差在哪?
49 張主任朝亮:他們的模型是非常大的模型,是從頭訓練起,我們是fine-tuning和continuous pretraining,所以當然是有其差距在。
50 羅委員廷瑋:這樣聽起來,我想我們的差距不是微幅,是非常的巨大,因為畢竟我們要跟國外相比,我們也要看使用者到底未來想使用的,他具體希望得到的成效是什麼。他當然會希望不管是語言模組或者是後續的資料庫,能夠有龐大的資料去支撐生成式AI所生成的東西,才可以加大它生成式出來的資料是有確定性或者是穩定性,甚至是我們說的準確性能夠提高,這是一個使用者希望能夠追求的嘛。本席目前有看到國科會定調,希望作為一個資助開源模型的資助產業,例如工研院電光所可以運用TAIDE結合相關的技術,或是針對鋼鐵的產業知識提供智慧化的問答檢索,詢問高爐或電弧爐的相關產業知識。除了這些,我們還計劃將TAIDE 7B運用在哪些具體的產業上?
51 楊執行秘書佳玲:跟委員報告,對於協助產業的部分,現在我們有公開釋出,然後他們可以使用的,目前像醫療體系有表達使用TAIDE的興趣。
52 羅委員廷瑋:好,我想就是公開,大家各自使用啦!
53 吳主任委員誠文:是,因為不同的專業,要用不同的資料來訓練。
54 羅委員廷瑋:對不起,我覺得,主委,討論到這樣子,我們不覺得很奇怪嗎?國科會真的有具體瞭解到臺灣產業的需求嗎?我們對於百工百業未來在使用生成式AI上,到底能夠提供什麼樣的具體幫助?我認為發展本土化繁體中文LLM模型我們支持,我們也不希望看到簡體中文,但是在本土化的過程中,到底能不能期待我們的資料能夠更多元,能夠跟國外相關的,比如說OpenAI的ChatGPT的資料庫相互比擬?我想如果臺灣發展的是一個只能搜尋少量英文、繁體中文本土資訊的搜尋引擎,其商業價值我相信是比較低的,為什麼?因為我認為還是要回歸到AI工具實不實用。所以,講白了,OpenAI的ChatGPT如果沒有大量全球的知識去擴充,只有臺灣本土的知識,主委,你個人覺得它實用嗎?
55 吳主任委員誠文:通用型的AI跟比較專業的AI是不一樣的,這是訓練資料的差異,所以我們在臺灣要發展各行各業用的AI,它的訓練資料就要用各行各業的資料。生成式AI的好處就是說,你的資料量不足,但是廣度夠的話,它可以產生非常多的訓練資料,幫它做得很好。
56 羅委員廷瑋:我想國科會應該要實事求是,我們應該要去擴充發展自己的LLM的工具,讓企業廣泛來使用。本席具體要求國科會研議企業LLM訓練方案,臺灣需要的不是那種很簡單的搜尋引擎,我想臺灣需要的是發展適合中小企業,可以訓練LLM的一個簡易工具,主委能夠答應我們來研議嗎?
57 吳主任委員誠文:我們會鼓勵學界努力做這個事情。
58 羅委員廷瑋:好,我們大家一起來努力,好不好?謝謝。
59 吳主任委員誠文:是。
60 主席:謝謝羅廷瑋委員,主委請回。接下來請陳培瑜委員。
公報詮釋資料
page_end 216
meet_id 委員會-11-1-22-13
speakers ["林宜瑾","柯志恩","洪孟楷","葛如鈞","郭昱晴","萬美玲","林倩綺","陳秀寳","張雅琳","吳沛憶","吳春城","葉元之","羅廷瑋","陳培瑜","賴士葆","范雲","蔡易餘","楊瓊瓔","何欣純","邱志偉"]
page_start 155
meetingDate ["2024-05-23"]
gazette_id 1135001
agenda_lcidc_ids ["1135001_00004"]
meet_name 立法院第11屆第1會期教育及文化委員會第13次全體委員會議紀錄
content 一、邀請國家科學及技術委員會主任委員吳誠文列席報告業務概況,並備質詢;二、審查113年 度中央政府總預算有關國家科學及技術委員會主管預算(公務預算)解凍案7案
agenda_id 1135001_00003