iVOD / 152917

羅廷瑋 @ 第11屆第1會期教育及文化委員會第13次全體委員會議

Index	Text
0	羅委員廷瑋：（11時38分）謝謝主席，有請吳主委。
1	主席：好，有請吳主委。
2	吳主任委員誠文：委員好。
3	羅委員廷瑋：吳主委好，恭喜上任，歡迎加入我們教文的大家庭，叫你吳主委，感覺很親切，因為上一個也是吳主委。我今年年初才來立法院就職，跟吳政忠主委相處時間比較短，相信接下來我們會有一段很長的合作時間，本席感到非常的期待。
4	為什麼開頭要聊到政忠主委？因為今年3月的時候，吳主委進行了業務報告，2個月後你新上任，也做了業務報告，當然我們有共同關注到幾個重要的科學議題，但是我想民眾會更想知道的一件事情是，您接任國科會主委，您跟吳政忠主委有什麼差別？在業務執行上有什麼風格不同？未來有什麼特別要處理的政策？可不可以簡單說明一下？
5	吳主任委員誠文：我們過去非常注重經濟的發展，因為經濟發展好的話，我們才有足夠的能力協助整個社會文化的提升，所以我想在我的任內除了延續原來在科技產業很努力的研發、產業的推動之外，我們也會努力的協助整個社會文化的提升，利用我們科技的優勢來協助各行各業。
6	羅委員廷瑋：好，我們一起努力，各行各業，我希望不管是從上到下，基層很多行業也需要幫忙，不要讓他們覺得國科會很遠，不要讓他們不知道有國科會的存在。
7	本席想要向主委詢問一下晶創方案，回到我們施政的主軸上，這個方案目前加速推動四大布局，也就是推動生成式AI、幫助百工百業、強化國內的培育環境、吸納全球頂尖人才，你本身有在用生成式AI嗎？
8	吳主任委員誠文：坦白講，我個人有用過，但還不是很滿意。
9	羅委員廷瑋：有用過？
10	吳主任委員誠文：是，個人用。
11	羅委員廷瑋：對生成式AI不是很滿意，還是你使用的過程不是很滿意？
12	吳主任委員誠文：以生成式AI來講，我們要知道它的能力、它的限制，因為它使用了AI統計式的方法，它不可能達到百分之百準確，符合你要的答案……
13	羅委員廷瑋：當然，但是你有研究我們年輕人說的，生成式AI有所謂的魔咒咒語，你會使用相關的咒語嗎？
14	吳主任委員誠文：我目前沒有。
15	羅委員廷瑋：所謂的咒語就是它的指令，我想這個是瞭解生成式AI可能需要的一個先期目的。經濟部合作推動加速異質整合以及先進的技術開發，最後就是要推動矽島的實力，我們更希望能夠在國內外新創的同時吸引投資來臺，這個計畫預計10年內要投資3,000億，今年第一年就投入120億，之前國科會期許5年會有多家IC的新創在國內誕生，半年過去了，具體執行狀況如何？有沒有進展？
16	吳主任委員誠文：我可以請我們負責的同仁……
17	羅委員廷瑋：可以，請說。
18	楊執行秘書佳玲：關於IC新創，因為剛開始執行，我們已經正式開始launch一個全球call案的競賽規劃……
19	羅委員廷瑋：對。
20	楊執行秘書佳玲：也因為剛開始，所以我們未來幾個月，在年底之前會再跟委員報告，update整個狀態。
21	羅委員廷瑋：因為已經半年了，所以就只是目前這樣子？主委，您覺得呢？聽完他剛剛說的。
22	吳主任委員誠文：我們加速、加速……
23	涂副處長君怡：我們5月14號有一個Grand Challenge開始啟動，6月30號會結案，目前我們有在跟相關的SEMI還有半導體領域去促案。
24	羅委員廷瑋：聽起來好像有做事，但是主軸具體好像也看不出來半年了大概做了些什麼，但沒關係……
25	吳主任委員誠文：我會關注一下。
26	羅委員廷瑋：這個過程我相信有努力，剛剛你講了很多的這個算是日程嗎？或者是你們的一些會議，OK，但是我們希望的是，半年了，有沒有準備要做什麼？有沒有進展的一個具體的方向？讓我們能夠更確定的知道。我想問主委，在ChatGPT剛問世的時候，你有沒有使用過？你剛剛有說。
27	吳主任委員誠文：有沒有什麼？使用過？
28	羅委員廷瑋：對。
29	吳主任委員誠文：有，有使用過。
30	羅委員廷瑋：現在可以說是LLM的世代，為什麼這樣說？因為目前國科會有TAIDE模型；聯發科有自己的模型；台智雲有福爾摩沙大模型；群創光電有白龍模型，大家都致力於在打造繁體中文模組的AI模型。上個月（4月）15日，國科會才釋出了TAIDE-LX-7B的模型，說是結合臺灣文化，擁有70億參數的大型語言模組；緊接著Meta又釋出自己一個相關的模組；國科會立馬在4月29號又發表了Llama 3 Alpha 的模型，這個研發速度可以說是AI的軍備競賽，令人感受到你們的積極度。但我想詢問一下，包括你們的資料庫來源，目前可以提供你們的資料庫來源，大概都來自哪一國嗎？
31	吳主任委員誠文：我們的資料庫來源應該都是臺灣的。
32	羅委員廷瑋：都是臺灣自己的？
33	吳主任委員誠文：是，在臺灣本土收集的。
34	羅委員廷瑋：所以70億全數都來自臺灣？好。我想我不敢說自己是專家，我也不敢在你們面前說我多瞭解，但我自己有去稍微瞭解一下，我們目前發展的基礎是以Meta開發的Llama 2模型，也就是我們現在使用的是開源的資料，它在prerational的過程中就已經有簡體中文的資料，我們頂多可以給它看繁體資料，但不能避免這個開源模型已經有簡體資料，對吧？
35	吳主任委員誠文：這個可能會存在的，對。
36	羅委員廷瑋：如果我們想要完全避免簡體資料，進而開發一個全面的繁體資料，應該會遇到兩個問題。第一個問題就是本土的資料庫不足，跟全世界來比，數據量遠遠不足。第二個更大的問題就是，如果是只有繁體的資料，就需要重新訓練，對吧？
37	吳主任委員誠文：是。
38	羅委員廷瑋：就本席自己查的資料瞭解到，重新訓練沒有幾萬片H100的GPU辦不到，目前臺灣國家隊大概只有72片，遠遠低於國外的新創團隊與大企業，請問要如何重新訓練？
39	吳主任委員誠文：我們正在努力加速建置我們的運算資源。
40	羅委員廷瑋：我剛剛說的GPU數量有錯嗎？
41	吳主任委員誠文：我請國網中心主任來回答。
42	羅委員廷瑋：OK。不好意思，因為我看到您不是很肯定的，我想說給你回答都沒關係，我們可以互相的……
43	張主任朝亮：報告委員，去年TAIDE計畫展開的時候，我們購置了72片H100的GPU……
44	羅委員廷瑋：對嘛，72片。
45	張主任朝亮：就是您剛剛提的，但是我們的臺灣杉二號本來就有2,000片的V100，在國網掌控裡面的有1,000片。
46	羅委員廷瑋：所以我剛剛說的要重新訓練，我們估計要幾萬片的GPU，目前我們只有72片。如果我們只能基於還是有簡體資料的前提下，多加入了繁體資料，只能做到繁體中文的微調。本席想瞭解，就這樣的基礎所開發的AI模型與OpenAI的ChatGPT也好，或是和Google的具體落差在哪裡？目前繁體中文與所謂簡體中文的資料，在訓練數據中比例各占多少？是否有具體的數據可以提供一下？
47	張主任朝亮：簡體跟繁體的比例其實並沒有精確的統計，但是Llama釋出的時候，有提到它的中文的比例是多少，可以拿來作為參考，但並不是說本來是簡體，它就一定會，你如果餵很多的繁體中文，事實上會改變它的參數，繁體中文的表現會越來越好。
48	羅委員廷瑋：好。所以我剛剛問說，以我們的AI模型跟OpenAI的ChatGPT以及Google的相較，具體落差在哪？
49	張主任朝亮：他們的模型是非常大的模型，是從頭訓練起，我們是fine-tuning和continuous pretraining，所以當然是有其差距在。
50	羅委員廷瑋：這樣聽起來，我想我們的差距不是微幅，是非常的巨大，因為畢竟我們要跟國外相比，我們也要看使用者到底未來想使用的，他具體希望得到的成效是什麼。他當然會希望不管是語言模組或者是後續的資料庫，能夠有龐大的資料去支撐生成式AI所生成的東西，才可以加大它生成式出來的資料是有確定性或者是穩定性，甚至是我們說的準確性能夠提高，這是一個使用者希望能夠追求的嘛。本席目前有看到國科會定調，希望作為一個資助開源模型的資助產業，例如工研院電光所可以運用TAIDE結合相關的技術，或是針對鋼鐵的產業知識提供智慧化的問答檢索，詢問高爐或電弧爐的相關產業知識。除了這些，我們還計劃將TAIDE 7B運用在哪些具體的產業上？
51	楊執行秘書佳玲：跟委員報告，對於協助產業的部分，現在我們有公開釋出，然後他們可以使用的，目前像醫療體系有表達使用TAIDE的興趣。
52	羅委員廷瑋：好，我想就是公開，大家各自使用啦！
53	吳主任委員誠文：是，因為不同的專業，要用不同的資料來訓練。
54	羅委員廷瑋：對不起，我覺得，主委，討論到這樣子，我們不覺得很奇怪嗎？國科會真的有具體瞭解到臺灣產業的需求嗎？我們對於百工百業未來在使用生成式AI上，到底能夠提供什麼樣的具體幫助？我認為發展本土化繁體中文LLM模型我們支持，我們也不希望看到簡體中文，但是在本土化的過程中，到底能不能期待我們的資料能夠更多元，能夠跟國外相關的，比如說OpenAI的ChatGPT的資料庫相互比擬？我想如果臺灣發展的是一個只能搜尋少量英文、繁體中文本土資訊的搜尋引擎，其商業價值我相信是比較低的，為什麼？因為我認為還是要回歸到AI工具實不實用。所以，講白了，OpenAI的ChatGPT如果沒有大量全球的知識去擴充，只有臺灣本土的知識，主委，你個人覺得它實用嗎？
55	吳主任委員誠文：通用型的AI跟比較專業的AI是不一樣的，這是訓練資料的差異，所以我們在臺灣要發展各行各業用的AI，它的訓練資料就要用各行各業的資料。生成式AI的好處就是說，你的資料量不足，但是廣度夠的話，它可以產生非常多的訓練資料，幫它做得很好。
56	羅委員廷瑋：我想國科會應該要實事求是，我們應該要去擴充發展自己的LLM的工具，讓企業廣泛來使用。本席具體要求國科會研議企業LLM訓練方案，臺灣需要的不是那種很簡單的搜尋引擎，我想臺灣需要的是發展適合中小企業，可以訓練LLM的一個簡易工具，主委能夠答應我們來研議嗎？
57	吳主任委員誠文：我們會鼓勵學界努力做這個事情。
58	羅委員廷瑋：好，我們大家一起來努力，好不好？謝謝。
59	吳主任委員誠文：是。
60	主席：謝謝羅廷瑋委員，主委請回。接下來請陳培瑜委員。

公報詮釋資料

page_end	216
meet_id	委員會-11-1-22-13
speakers	["林宜瑾","柯志恩","洪孟楷","葛如鈞","郭昱晴","萬美玲","林倩綺","陳秀寳","張雅琳","吳沛憶","吳春城","葉元之","羅廷瑋","陳培瑜","賴士葆","范雲","蔡易餘","楊瓊瓔","何欣純","邱志偉"]
page_start	155
meetingDate	["2024-05-23"]
gazette_id	1135001
agenda_lcidc_ids	["1135001_00004"]
meet_name	立法院第11屆第1會期教育及文化委員會第13次全體委員會議紀錄
content	一、邀請國家科學及技術委員會主任委員吳誠文列席報告業務概況，並備質詢；二、審查113年度中央政府總預算有關國家科學及技術委員會主管預算（公務預算）解凍案7案
agenda_id	1135001_00003