0 |
羅委員廷瑋:(11時38分)謝謝主席,有請吳主委。 |
1 |
主席:好,有請吳主委。 |
2 |
吳主任委員誠文:委員好。 |
3 |
羅委員廷瑋:吳主委好,恭喜上任,歡迎加入我們教文的大家庭,叫你吳主委,感覺很親切,因為上一個也是吳主委。我今年年初才來立法院就職,跟吳政忠主委相處時間比較短,相信接下來我們會有一段很長的合作時間,本席感到非常的期待。 |
4 |
為什麼開頭要聊到政忠主委?因為今年3月的時候,吳主委進行了業務報告,2個月後你新上任,也做了業務報告,當然我們有共同關注到幾個重要的科學議題,但是我想民眾會更想知道的一件事情是,您接任國科會主委,您跟吳政忠主委有什麼差別?在業務執行上有什麼風格不同?未來有什麼特別要處理的政策?可不可以簡單說明一下? |
5 |
吳主任委員誠文:我們過去非常注重經濟的發展,因為經濟發展好的話,我們才有足夠的能力協助整個社會文化的提升,所以我想在我的任內除了延續原來在科技產業很努力的研發、產業的推動之外,我們也會努力的協助整個社會文化的提升,利用我們科技的優勢來協助各行各業。 |
6 |
羅委員廷瑋:好,我們一起努力,各行各業,我希望不管是從上到下,基層很多行業也需要幫忙,不要讓他們覺得國科會很遠,不要讓他們不知道有國科會的存在。 |
7 |
本席想要向主委詢問一下晶創方案,回到我們施政的主軸上,這個方案目前加速推動四大布局,也就是推動生成式AI、幫助百工百業、強化國內的培育環境、吸納全球頂尖人才,你本身有在用生成式AI嗎? |
8 |
吳主任委員誠文:坦白講,我個人有用過,但還不是很滿意。 |
9 |
羅委員廷瑋:有用過? |
10 |
吳主任委員誠文:是,個人用。 |
11 |
羅委員廷瑋:對生成式AI不是很滿意,還是你使用的過程不是很滿意? |
12 |
吳主任委員誠文:以生成式AI來講,我們要知道它的能力、它的限制,因為它使用了AI統計式的方法,它不可能達到百分之百準確,符合你要的答案…… |
13 |
羅委員廷瑋:當然,但是你有研究我們年輕人說的,生成式AI有所謂的魔咒咒語,你會使用相關的咒語嗎? |
14 |
吳主任委員誠文:我目前沒有。 |
15 |
羅委員廷瑋:所謂的咒語就是它的指令,我想這個是瞭解生成式AI可能需要的一個先期目的。經濟部合作推動加速異質整合以及先進的技術開發,最後就是要推動矽島的實力,我們更希望能夠在國內外新創的同時吸引投資來臺,這個計畫預計10年內要投資3,000億,今年第一年就投入120億,之前國科會期許5年會有多家IC的新創在國內誕生,半年過去了,具體執行狀況如何?有沒有進展? |
16 |
吳主任委員誠文:我可以請我們負責的同仁…… |
17 |
羅委員廷瑋:可以,請說。 |
18 |
楊執行秘書佳玲:關於IC新創,因為剛開始執行,我們已經正式開始launch一個全球call案的競賽規劃…… |
19 |
羅委員廷瑋:對。 |
20 |
楊執行秘書佳玲:也因為剛開始,所以我們未來幾個月,在年底之前會再跟委員報告,update整個狀態。 |
21 |
羅委員廷瑋:因為已經半年了,所以就只是目前這樣子?主委,您覺得呢?聽完他剛剛說的。 |
22 |
吳主任委員誠文:我們加速、加速…… |
23 |
涂副處長君怡:我們5月14號有一個Grand Challenge開始啟動,6月30號會結案,目前我們有在跟相關的SEMI還有半導體領域去促案。 |
24 |
羅委員廷瑋:聽起來好像有做事,但是主軸具體好像也看不出來半年了大概做了些什麼,但沒關係…… |
25 |
吳主任委員誠文:我會關注一下。 |
26 |
羅委員廷瑋:這個過程我相信有努力,剛剛你講了很多的這個算是日程嗎?或者是你們的一些會議,OK,但是我們希望的是,半年了,有沒有準備要做什麼?有沒有進展的一個具體的方向?讓我們能夠更確定的知道。我想問主委,在ChatGPT剛問世的時候,你有沒有使用過?你剛剛有說。 |
27 |
吳主任委員誠文:有沒有什麼?使用過? |
28 |
羅委員廷瑋:對。 |
29 |
吳主任委員誠文:有,有使用過。 |
30 |
羅委員廷瑋:現在可以說是LLM的世代,為什麼這樣說?因為目前國科會有TAIDE模型;聯發科有自己的模型;台智雲有福爾摩沙大模型;群創光電有白龍模型,大家都致力於在打造繁體中文模組的AI模型。上個月(4月)15日,國科會才釋出了TAIDE-LX-7B的模型,說是結合臺灣文化,擁有70億參數的大型語言模組;緊接著Meta又釋出自己一個相關的模組;國科會立馬在4月29號又發表了Llama 3 Alpha 的模型,這個研發速度可以說是AI的軍備競賽,令人感受到你們的積極度。但我想詢問一下,包括你們的資料庫來源,目前可以提供你們的資料庫來源,大概都來自哪一國嗎? |
31 |
吳主任委員誠文:我們的資料庫來源應該都是臺灣的。 |
32 |
羅委員廷瑋:都是臺灣自己的? |
33 |
吳主任委員誠文:是,在臺灣本土收集的。 |
34 |
羅委員廷瑋:所以70億全數都來自臺灣?好。我想我不敢說自己是專家,我也不敢在你們面前說我多瞭解,但我自己有去稍微瞭解一下,我們目前發展的基礎是以Meta開發的Llama 2模型,也就是我們現在使用的是開源的資料,它在prerational的過程中就已經有簡體中文的資料,我們頂多可以給它看繁體資料,但不能避免這個開源模型已經有簡體資料,對吧? |
35 |
吳主任委員誠文:這個可能會存在的,對。 |
36 |
羅委員廷瑋:如果我們想要完全避免簡體資料,進而開發一個全面的繁體資料,應該會遇到兩個問題。第一個問題就是本土的資料庫不足,跟全世界來比,數據量遠遠不足。第二個更大的問題就是,如果是只有繁體的資料,就需要重新訓練,對吧? |
37 |
吳主任委員誠文:是。 |
38 |
羅委員廷瑋:就本席自己查的資料瞭解到,重新訓練沒有幾萬片H100的GPU辦不到,目前臺灣國家隊大概只有72片,遠遠低於國外的新創團隊與大企業,請問要如何重新訓練? |
39 |
吳主任委員誠文:我們正在努力加速建置我們的運算資源。 |
40 |
羅委員廷瑋:我剛剛說的GPU數量有錯嗎? |
41 |
吳主任委員誠文:我請國網中心主任來回答。 |
42 |
羅委員廷瑋:OK。不好意思,因為我看到您不是很肯定的,我想說給你回答都沒關係,我們可以互相的…… |
43 |
張主任朝亮:報告委員,去年TAIDE計畫展開的時候,我們購置了72片H100的GPU…… |
44 |
羅委員廷瑋:對嘛,72片。 |
45 |
張主任朝亮:就是您剛剛提的,但是我們的臺灣杉二號本來就有2,000片的V100,在國網掌控裡面的有1,000片。 |
46 |
羅委員廷瑋:所以我剛剛說的要重新訓練,我們估計要幾萬片的GPU,目前我們只有72片。如果我們只能基於還是有簡體資料的前提下,多加入了繁體資料,只能做到繁體中文的微調。本席想瞭解,就這樣的基礎所開發的AI模型與OpenAI的ChatGPT也好,或是和Google的具體落差在哪裡?目前繁體中文與所謂簡體中文的資料,在訓練數據中比例各占多少?是否有具體的數據可以提供一下? |
47 |
張主任朝亮:簡體跟繁體的比例其實並沒有精確的統計,但是Llama釋出的時候,有提到它的中文的比例是多少,可以拿來作為參考,但並不是說本來是簡體,它就一定會,你如果餵很多的繁體中文,事實上會改變它的參數,繁體中文的表現會越來越好。 |
48 |
羅委員廷瑋:好。所以我剛剛問說,以我們的AI模型跟OpenAI的ChatGPT以及Google的相較,具體落差在哪? |
49 |
張主任朝亮:他們的模型是非常大的模型,是從頭訓練起,我們是fine-tuning和continuous pretraining,所以當然是有其差距在。 |
50 |
羅委員廷瑋:這樣聽起來,我想我們的差距不是微幅,是非常的巨大,因為畢竟我們要跟國外相比,我們也要看使用者到底未來想使用的,他具體希望得到的成效是什麼。他當然會希望不管是語言模組或者是後續的資料庫,能夠有龐大的資料去支撐生成式AI所生成的東西,才可以加大它生成式出來的資料是有確定性或者是穩定性,甚至是我們說的準確性能夠提高,這是一個使用者希望能夠追求的嘛。本席目前有看到國科會定調,希望作為一個資助開源模型的資助產業,例如工研院電光所可以運用TAIDE結合相關的技術,或是針對鋼鐵的產業知識提供智慧化的問答檢索,詢問高爐或電弧爐的相關產業知識。除了這些,我們還計劃將TAIDE 7B運用在哪些具體的產業上? |
51 |
楊執行秘書佳玲:跟委員報告,對於協助產業的部分,現在我們有公開釋出,然後他們可以使用的,目前像醫療體系有表達使用TAIDE的興趣。 |
52 |
羅委員廷瑋:好,我想就是公開,大家各自使用啦! |
53 |
吳主任委員誠文:是,因為不同的專業,要用不同的資料來訓練。 |
54 |
羅委員廷瑋:對不起,我覺得,主委,討論到這樣子,我們不覺得很奇怪嗎?國科會真的有具體瞭解到臺灣產業的需求嗎?我們對於百工百業未來在使用生成式AI上,到底能夠提供什麼樣的具體幫助?我認為發展本土化繁體中文LLM模型我們支持,我們也不希望看到簡體中文,但是在本土化的過程中,到底能不能期待我們的資料能夠更多元,能夠跟國外相關的,比如說OpenAI的ChatGPT的資料庫相互比擬?我想如果臺灣發展的是一個只能搜尋少量英文、繁體中文本土資訊的搜尋引擎,其商業價值我相信是比較低的,為什麼?因為我認為還是要回歸到AI工具實不實用。所以,講白了,OpenAI的ChatGPT如果沒有大量全球的知識去擴充,只有臺灣本土的知識,主委,你個人覺得它實用嗎? |
55 |
吳主任委員誠文:通用型的AI跟比較專業的AI是不一樣的,這是訓練資料的差異,所以我們在臺灣要發展各行各業用的AI,它的訓練資料就要用各行各業的資料。生成式AI的好處就是說,你的資料量不足,但是廣度夠的話,它可以產生非常多的訓練資料,幫它做得很好。 |
56 |
羅委員廷瑋:我想國科會應該要實事求是,我們應該要去擴充發展自己的LLM的工具,讓企業廣泛來使用。本席具體要求國科會研議企業LLM訓練方案,臺灣需要的不是那種很簡單的搜尋引擎,我想臺灣需要的是發展適合中小企業,可以訓練LLM的一個簡易工具,主委能夠答應我們來研議嗎? |
57 |
吳主任委員誠文:我們會鼓勵學界努力做這個事情。 |
58 |
羅委員廷瑋:好,我們大家一起來努力,好不好?謝謝。 |
59 |
吳主任委員誠文:是。 |
60 |
主席:謝謝羅廷瑋委員,主委請回。接下來請陳培瑜委員。 |