iVOD / 152917

羅廷瑋 @ 第11屆第1會期教育及文化委員會第13次全體委員會議

Start Time End Time Text
00:00:00,509 00:00:05,793 我再宣告一下等陳佩玉委員諮詢完之後我們來處理臨時提案跟解凍案好謝謝主席有請吳主委好有請吳主委
00:00:19,759 00:00:45,049 吳主委好恭喜上任歡迎加入我們教文的大家庭叫你吳主委感覺很親切因為上一個也是吳主委我今年年初才來立法院就職跟吳正宗主委相處時間比較短相信接下來時間我們有很長的一段時間會合作那本期感到非常的期待那為什麼開頭要聊到這個正宗主委因為今年3月的時候吳主委進行了業務報告兩個月後
00:00:46,770 00:01:09,876 您新上任也做了業務報告當然我們有共同關注到幾個重要的科學議題但是我想民眾會想更知道的一件事情是您接任國科會主委您跟吳正宗主委有什麼差別在業務上的執行上有什麼風格不同未來有什麼特別要處理的政策可不可以簡單說明一下
00:01:10,919 00:01:37,726 我想我們過去非常注重經濟的發展因為經濟發展好的話我們才有足夠的能力來協助我們整個社會文化的提升所以我想在我的任內除了延續我們原來在科技產業很努力的做研發做產業的推動之外我們也會努力的來協助整個社會文化提升各行各業利用我們科技的優勢來協助他們
00:01:38,806 00:02:06,815 好,我們一起努力各行各業我希望不管是從上到下基層的很多行業也需要幫忙不要讓他們覺得國科會很遠不要讓他們不知道有國科會的存在本期想要向主委詢問一下精創方案回到我們施政的主軸上這個方案目前加速推動了四大佈局也就是所謂推動生成式AI幫助百工百業強化國內培育環境吸納全球頂尖人才
00:02:07,535 00:02:36,143 那你本身自己有在用生成式AI嗎?坦白講我個人有用過但是還不是很滿意有用過是對生成式AI不是很滿意還是你使用的過程不是很滿意對生成式AI來講我們要知道它的能力然後它的限制是因為它使用了這個AI統計式的方法它是不可能達到100%準確你要的答案
00:02:36,323 00:03:01,888 但是你有研究我們所謂年輕人說的深圳市AI有所謂的這個魔咒咒語你會使用相關的咒語嗎我目前沒有所謂的咒語就是他的指令我想這個是要去了解深圳市AI可能需要掀起的一個先前目的那我想經濟部合作推動加速一直整合以及先進的技術開發最後就是要推動系導的一個實力我想
00:03:02,628 00:03:03,669 我可以請我們負責同仁
00:03:30,938 00:03:51,421 請說關於IC新創其實我們因為開始執行我們已經正式那個開始弄取一個那個全球公安的一個競賽的規劃那因為剛開始嘛所以我們在未來幾個月在年底之前會再跟委員報告整個的狀態因為已經半年了那所以就只是目前這樣子主委你覺得呢聽完他剛剛說的
00:03:57,283 00:04:01,185 聽起來就是好像有做事但是
00:04:18,635 00:04:46,918 主軸具體好像也看不出來是半年了大概做些什麼但沒關係我會關注一下這過程我相信有努力啦剛剛你講了很多的這個算是日程嗎或者是你們的一些會議OK但是我們希望的是半年了有沒有具體有沒有準備要做什麼那有沒有進展的一個具體方向讓我們能夠更確定的知道我想想問問主委在CHAP GPT剛問事的時候你有沒有試問過
00:04:48,373 00:05:11,538 剛才有說有沒有什麼使用過對有使用過那現在可以說是一個世代為什麼這樣說因為目前國科會的泰的模型聯發科有自己的模型台智雲有福爾摩沙大模型群創光電有白龍模型大家都致力於在打造繁體中文模組的一個AI模型那因為上個月
00:05:12,478 00:05:36,931 四月十五國科會才釋出了Tide 7B的模型說是結合台灣文化擁有70億參數的大型語言模組我想緊接著呢Meta又釋出了自己的一個相關的模組國科會立馬又在四月二十九號又發表了Lama3 Alpha的一個模組
00:05:40,020 00:05:54,874 請問這個研發速度可以說是AI的軍備競賽感受到你們的積極度但我想請問一下包括你們的這個資料庫的來源目前可以提供說大概來源資料庫來源大概都來自哪一國嗎?
00:05:56,454 00:06:12,477 我們資料庫的來源應該都是台灣的都是台灣自己是在台灣本土收集的所以70億全數都來自台灣我想我不敢說自己是專家我也不敢在你們面前說我多了解
00:06:13,038 00:06:38,067 但我想有自己去稍微了解一下我們目前發展的基礎以META開發的一個LM2的一個模組模型也就是我們現在使用是用開源的一個資料他在pressuring的過程中就已經有簡體資料的一個簡體中文的資料我們頂多可以給他看繁體資料但不能避免這個開源模型已經有簡體資料對吧
00:06:41,433 00:07:06,728 這個可能會存在的對如果我們想要完全避免檢體資料進而開發一個全面的繁體資料應該會遇到兩個問題第一個問題就是本體的資料不足數據量遠遠不足我想跟全世界來比第二個更大的問題就是如果是只有繁體的資料就需要重新訓練是對吧是就本期
00:07:07,688 00:07:27,678 自己查了資料去了解重新訓練沒有幾萬片H100的GPU辦不到目前台灣國家隊大概只有72片遠遠低於國外的新創團隊與大企業請問要如何重新訓練我們正在努力在加速建置我們的運算的資源我剛說GPU數量有錯嗎那個國王我請國王中心主任來回答
00:07:36,513 00:07:55,363 不好意思因為我看到您不是很肯定的我想說給你回答都沒關係我們可以互相的報告委員去年台德計劃展開的時候我們構置了72片的H100的GPU但是我們台灣32號本來就有2000片的V100在國王掌控裡面有1000片
00:07:56,610 00:08:20,669 所以我剛說的重新訓練我們估計要幾萬片的一個GPU那目前我們只有72片如果我們只能基於還是有簡體資料的前提下多加入了繁體資料只能做到繁體中文的微調本席想了解那麼就這樣的基礎所開發的AI模型與OpenAI、ChapGPT也好Google的具體落差在哪裡
00:08:21,109 00:08:29,538 目前繁體中文與所謂的簡體中文資料在訓練數據中比例各佔多少?是否具體的數據可以提供一下?
00:08:32,006 00:08:58,505 這個簡體跟繁體的比率其實沒有一個精確的統計但是拉瑪事出的時候他有提到他的中文的比率是多少那可以拿來做參考但是並不是說本來是簡體他就一定會你如果為很多的繁體中文他事實上說會改變他的參數繁體中文的表現會越來越好好所以我說剛剛以我們的AI模型跟openAI、chip、gpt、google的具體落差在哪?
00:09:00,421 00:09:28,150 他們的模型是非常大的模型是從頭訓練起我們是fine tuning和continuous retraining所以當然是有他的差距在我想那聽出來我們的差距不是微幅是非常的巨大因為畢竟我們要跟國外相比我們也要看使用者到底未來想使用的他的具體希望得到的成效是什麼他當然會希望不管是語言模組或者是後續的資料庫
00:09:29,150 00:09:56,975 他能夠有龐大的資料去支撐生成式AI所生成式的東西才可以加大他的生成式出來的資料是有確定性或者是穩定性甚至是我們說的準確性能夠提高這是一個使用者他希望能夠追求的那本席目前有看到國科會定調希望作為一個資助開源模型的資助產業例如工研院電光所可以運用的
00:09:58,215 00:10:06,206 結合相關的技術或是針對鋼鐵的產業知識提供智慧化的問答檢索詢問高爐或電弧爐的相關產業知識除了這些我們還計畫將泰德7B運用在哪些具體的產業上
00:10:18,325 00:10:30,281 對於產業的協助我們是以公開釋出他們可以去來使用的目前表達興趣的像醫療體系他們有表達興趣來使用這個type
00:10:31,477 00:10:54,782 我想就是公開大家各自使用啦是因為不同的專業要用不同的車來訓練主委討論到這樣子我們不覺得很奇怪嗎國科會的會真的有具體了解到台灣產業的需求嗎我們到底要提供百工百業在生成式AI未來能夠使用上有什麼樣的具體幫助我認為發展本土化翻體中文LM
00:10:55,822 00:11:14,637 模型我們支持我們也不希望看到簡體中文但是在本土化的過程中到底我們的資料能不能期待他能夠有更多元能夠納到跟國外的相關的我們說的chip gpt open ai的資料庫
00:11:15,698 00:11:44,187 來做一個比擬。我想台灣如果發展了一個只能搜尋少量英文、繁體中文、本土資訊的搜尋引擎。這個其價值、商業價值我相信是比較低的。為什麼?因為我認為還是要回歸到AI工具實不實用。所以我想講白了OpenAI、ChapGVT如果沒有大量全球的知識去擴充只有台灣本土的知識。主委你個人覺得它實用嗎?
00:11:45,127 00:12:03,144 通用型AI跟比較專業的AI是不一樣的這是訓練資料的差異所以我們在台灣我們要發展各行各業用的AI它的訓練資料就要用各行各業的資料甚至是AI的好處就是說你的資料量不足但是廣度夠的話它可以產生非常多的訓練資料幫它做得很好
00:12:03,840 00:12:31,715 我想國科會應該要實事求是我們應該要去擴充發展自己的LLM的一個工具讓企業廣泛來使用本席具體的要求國科會研議企業LLM訓練方案台灣需要的不是那種很簡單的手續引擎我想台灣需要的是發展適合中小企業可以訓練LLM的一個簡易工具主委能夠答應我們來研議嗎我們會鼓勵學界努力做這個事情我們大家一起來努力好不好 謝謝
00:12:33,612 00:12:33,893 羅廷瑋主席