iVOD / 152917

Field Value
IVOD_ID 152917
IVOD_URL https://ivod.ly.gov.tw/Play/Clip/1M/152917
日期 2024-05-23
會議資料.會議代碼 委員會-11-1-22-13
會議資料.會議代碼:str 第11屆第1會期教育及文化委員會第13次全體委員會議
會議資料.屆 11
會議資料.會期 1
會議資料.會次 13
會議資料.種類 委員會
會議資料.委員會代碼[0] 22
會議資料.委員會代碼:str[0] 教育及文化委員會
會議資料.標題 第11屆第1會期教育及文化委員會第13次全體委員會議
影片種類 Clip
開始時間 2024-05-23T11:37:59+08:00
結束時間 2024-05-23T11:50:39+08:00
影片長度 00:12:40
支援功能[0] ai-transcript
支援功能[1] gazette
video_url https://ivod-lyvod.cdn.hinet.net/vod_1/_definst_/mp4:1MClips/d339c8d1909fa453cca13d3657b8058e5d1368e7b3a1940ed34e896d657c5e832418cf11d8ba20085ea18f28b6918d91.mp4/playlist.m3u8
委員名稱 羅廷瑋
委員發言時間 11:37:59 - 11:50:39
會議時間 2024-05-23T09:00:00+08:00
會議名稱 立法院第11屆第1會期教育及文化委員會第13次全體委員會議(事由:一、邀請國家科學及技術委員會主任委員吳誠文列席報告業務概況,並備質詢。 二、審查113年度中央政府總預算有關國家科學及技術委員會主管預算(公務預算)解凍案7案。 【5月22日及23日二天一次會】)
gazette.lineno 676
gazette.blocks[0][0] 羅委員廷瑋:(11時38分)謝謝主席,有請吳主委。
gazette.blocks[1][0] 主席:好,有請吳主委。
gazette.blocks[2][0] 吳主任委員誠文:委員好。
gazette.blocks[3][0] 羅委員廷瑋:吳主委好,恭喜上任,歡迎加入我們教文的大家庭,叫你吳主委,感覺很親切,因為上一個也是吳主委。我今年年初才來立法院就職,跟吳政忠主委相處時間比較短,相信接下來我們會有一段很長的合作時間,本席感到非常的期待。
gazette.blocks[3][1] 為什麼開頭要聊到政忠主委?因為今年3月的時候,吳主委進行了業務報告,2個月後你新上任,也做了業務報告,當然我們有共同關注到幾個重要的科學議題,但是我想民眾會更想知道的一件事情是,您接任國科會主委,您跟吳政忠主委有什麼差別?在業務執行上有什麼風格不同?未來有什麼特別要處理的政策?可不可以簡單說明一下?
gazette.blocks[4][0] 吳主任委員誠文:我們過去非常注重經濟的發展,因為經濟發展好的話,我們才有足夠的能力協助整個社會文化的提升,所以我想在我的任內除了延續原來在科技產業很努力的研發、產業的推動之外,我們也會努力的協助整個社會文化的提升,利用我們科技的優勢來協助各行各業。
gazette.blocks[5][0] 羅委員廷瑋:好,我們一起努力,各行各業,我希望不管是從上到下,基層很多行業也需要幫忙,不要讓他們覺得國科會很遠,不要讓他們不知道有國科會的存在。
gazette.blocks[5][1] 本席想要向主委詢問一下晶創方案,回到我們施政的主軸上,這個方案目前加速推動四大布局,也就是推動生成式AI、幫助百工百業、強化國內的培育環境、吸納全球頂尖人才,你本身有在用生成式AI嗎?
gazette.blocks[6][0] 吳主任委員誠文:坦白講,我個人有用過,但還不是很滿意。
gazette.blocks[7][0] 羅委員廷瑋:有用過?
gazette.blocks[8][0] 吳主任委員誠文:是,個人用。
gazette.blocks[9][0] 羅委員廷瑋:對生成式AI不是很滿意,還是你使用的過程不是很滿意?
gazette.blocks[10][0] 吳主任委員誠文:以生成式AI來講,我們要知道它的能力、它的限制,因為它使用了AI統計式的方法,它不可能達到百分之百準確,符合你要的答案……
gazette.blocks[11][0] 羅委員廷瑋:當然,但是你有研究我們年輕人說的,生成式AI有所謂的魔咒咒語,你會使用相關的咒語嗎?
gazette.blocks[12][0] 吳主任委員誠文:我目前沒有。
gazette.blocks[13][0] 羅委員廷瑋:所謂的咒語就是它的指令,我想這個是瞭解生成式AI可能需要的一個先期目的。經濟部合作推動加速異質整合以及先進的技術開發,最後就是要推動矽島的實力,我們更希望能夠在國內外新創的同時吸引投資來臺,這個計畫預計10年內要投資3,000億,今年第一年就投入120億,之前國科會期許5年會有多家IC的新創在國內誕生,半年過去了,具體執行狀況如何?有沒有進展?
gazette.blocks[14][0] 吳主任委員誠文:我可以請我們負責的同仁……
gazette.blocks[15][0] 羅委員廷瑋:可以,請說。
gazette.blocks[16][0] 楊執行秘書佳玲:關於IC新創,因為剛開始執行,我們已經正式開始launch一個全球call案的競賽規劃……
gazette.blocks[17][0] 羅委員廷瑋:對。
gazette.blocks[18][0] 楊執行秘書佳玲:也因為剛開始,所以我們未來幾個月,在年底之前會再跟委員報告,update整個狀態。
gazette.blocks[19][0] 羅委員廷瑋:因為已經半年了,所以就只是目前這樣子?主委,您覺得呢?聽完他剛剛說的。
gazette.blocks[20][0] 吳主任委員誠文:我們加速、加速……
gazette.blocks[21][0] 涂副處長君怡:我們5月14號有一個Grand Challenge開始啟動,6月30號會結案,目前我們有在跟相關的SEMI還有半導體領域去促案。
gazette.blocks[22][0] 羅委員廷瑋:聽起來好像有做事,但是主軸具體好像也看不出來半年了大概做了些什麼,但沒關係……
gazette.blocks[23][0] 吳主任委員誠文:我會關注一下。
gazette.blocks[24][0] 羅委員廷瑋:這個過程我相信有努力,剛剛你講了很多的這個算是日程嗎?或者是你們的一些會議,OK,但是我們希望的是,半年了,有沒有準備要做什麼?有沒有進展的一個具體的方向?讓我們能夠更確定的知道。我想問主委,在ChatGPT剛問世的時候,你有沒有使用過?你剛剛有說。
gazette.blocks[25][0] 吳主任委員誠文:有沒有什麼?使用過?
gazette.blocks[26][0] 羅委員廷瑋:對。
gazette.blocks[27][0] 吳主任委員誠文:有,有使用過。
gazette.blocks[28][0] 羅委員廷瑋:現在可以說是LLM的世代,為什麼這樣說?因為目前國科會有TAIDE模型;聯發科有自己的模型;台智雲有福爾摩沙大模型;群創光電有白龍模型,大家都致力於在打造繁體中文模組的AI模型。上個月(4月)15日,國科會才釋出了TAIDE-LX-7B的模型,說是結合臺灣文化,擁有70億參數的大型語言模組;緊接著Meta又釋出自己一個相關的模組;國科會立馬在4月29號又發表了Llama 3 Alpha 的模型,這個研發速度可以說是AI的軍備競賽,令人感受到你們的積極度。但我想詢問一下,包括你們的資料庫來源,目前可以提供你們的資料庫來源,大概都來自哪一國嗎?
gazette.blocks[29][0] 吳主任委員誠文:我們的資料庫來源應該都是臺灣的。
gazette.blocks[30][0] 羅委員廷瑋:都是臺灣自己的?
gazette.blocks[31][0] 吳主任委員誠文:是,在臺灣本土收集的。
gazette.blocks[32][0] 羅委員廷瑋:所以70億全數都來自臺灣?好。我想我不敢說自己是專家,我也不敢在你們面前說我多瞭解,但我自己有去稍微瞭解一下,我們目前發展的基礎是以Meta開發的Llama 2模型,也就是我們現在使用的是開源的資料,它在prerational的過程中就已經有簡體中文的資料,我們頂多可以給它看繁體資料,但不能避免這個開源模型已經有簡體資料,對吧?
gazette.blocks[33][0] 吳主任委員誠文:這個可能會存在的,對。
gazette.blocks[34][0] 羅委員廷瑋:如果我們想要完全避免簡體資料,進而開發一個全面的繁體資料,應該會遇到兩個問題。第一個問題就是本土的資料庫不足,跟全世界來比,數據量遠遠不足。第二個更大的問題就是,如果是只有繁體的資料,就需要重新訓練,對吧?
gazette.blocks[35][0] 吳主任委員誠文:是。
gazette.blocks[36][0] 羅委員廷瑋:就本席自己查的資料瞭解到,重新訓練沒有幾萬片H100的GPU辦不到,目前臺灣國家隊大概只有72片,遠遠低於國外的新創團隊與大企業,請問要如何重新訓練?
gazette.blocks[37][0] 吳主任委員誠文:我們正在努力加速建置我們的運算資源。
gazette.blocks[38][0] 羅委員廷瑋:我剛剛說的GPU數量有錯嗎?
gazette.blocks[39][0] 吳主任委員誠文:我請國網中心主任來回答。
gazette.blocks[40][0] 羅委員廷瑋:OK。不好意思,因為我看到您不是很肯定的,我想說給你回答都沒關係,我們可以互相的……
gazette.blocks[41][0] 張主任朝亮:報告委員,去年TAIDE計畫展開的時候,我們購置了72片H100的GPU……
gazette.blocks[42][0] 羅委員廷瑋:對嘛,72片。
gazette.blocks[43][0] 張主任朝亮:就是您剛剛提的,但是我們的臺灣杉二號本來就有2,000片的V100,在國網掌控裡面的有1,000片。
gazette.blocks[44][0] 羅委員廷瑋:所以我剛剛說的要重新訓練,我們估計要幾萬片的GPU,目前我們只有72片。如果我們只能基於還是有簡體資料的前提下,多加入了繁體資料,只能做到繁體中文的微調。本席想瞭解,就這樣的基礎所開發的AI模型與OpenAI的ChatGPT也好,或是和Google的具體落差在哪裡?目前繁體中文與所謂簡體中文的資料,在訓練數據中比例各占多少?是否有具體的數據可以提供一下?
gazette.blocks[45][0] 張主任朝亮:簡體跟繁體的比例其實並沒有精確的統計,但是Llama釋出的時候,有提到它的中文的比例是多少,可以拿來作為參考,但並不是說本來是簡體,它就一定會,你如果餵很多的繁體中文,事實上會改變它的參數,繁體中文的表現會越來越好。
gazette.blocks[46][0] 羅委員廷瑋:好。所以我剛剛問說,以我們的AI模型跟OpenAI的ChatGPT以及Google的相較,具體落差在哪?
gazette.blocks[47][0] 張主任朝亮:他們的模型是非常大的模型,是從頭訓練起,我們是fine-tuning和continuous pretraining,所以當然是有其差距在。
gazette.blocks[48][0] 羅委員廷瑋:這樣聽起來,我想我們的差距不是微幅,是非常的巨大,因為畢竟我們要跟國外相比,我們也要看使用者到底未來想使用的,他具體希望得到的成效是什麼。他當然會希望不管是語言模組或者是後續的資料庫,能夠有龐大的資料去支撐生成式AI所生成的東西,才可以加大它生成式出來的資料是有確定性或者是穩定性,甚至是我們說的準確性能夠提高,這是一個使用者希望能夠追求的嘛。本席目前有看到國科會定調,希望作為一個資助開源模型的資助產業,例如工研院電光所可以運用TAIDE結合相關的技術,或是針對鋼鐵的產業知識提供智慧化的問答檢索,詢問高爐或電弧爐的相關產業知識。除了這些,我們還計劃將TAIDE 7B運用在哪些具體的產業上?
gazette.blocks[49][0] 楊執行秘書佳玲:跟委員報告,對於協助產業的部分,現在我們有公開釋出,然後他們可以使用的,目前像醫療體系有表達使用TAIDE的興趣。
gazette.blocks[50][0] 羅委員廷瑋:好,我想就是公開,大家各自使用啦!
gazette.blocks[51][0] 吳主任委員誠文:是,因為不同的專業,要用不同的資料來訓練。
gazette.blocks[52][0] 羅委員廷瑋:對不起,我覺得,主委,討論到這樣子,我們不覺得很奇怪嗎?國科會真的有具體瞭解到臺灣產業的需求嗎?我們對於百工百業未來在使用生成式AI上,到底能夠提供什麼樣的具體幫助?我認為發展本土化繁體中文LLM模型我們支持,我們也不希望看到簡體中文,但是在本土化的過程中,到底能不能期待我們的資料能夠更多元,能夠跟國外相關的,比如說OpenAI的ChatGPT的資料庫相互比擬?我想如果臺灣發展的是一個只能搜尋少量英文、繁體中文本土資訊的搜尋引擎,其商業價值我相信是比較低的,為什麼?因為我認為還是要回歸到AI工具實不實用。所以,講白了,OpenAI的ChatGPT如果沒有大量全球的知識去擴充,只有臺灣本土的知識,主委,你個人覺得它實用嗎?
gazette.blocks[53][0] 吳主任委員誠文:通用型的AI跟比較專業的AI是不一樣的,這是訓練資料的差異,所以我們在臺灣要發展各行各業用的AI,它的訓練資料就要用各行各業的資料。生成式AI的好處就是說,你的資料量不足,但是廣度夠的話,它可以產生非常多的訓練資料,幫它做得很好。
gazette.blocks[54][0] 羅委員廷瑋:我想國科會應該要實事求是,我們應該要去擴充發展自己的LLM的工具,讓企業廣泛來使用。本席具體要求國科會研議企業LLM訓練方案,臺灣需要的不是那種很簡單的搜尋引擎,我想臺灣需要的是發展適合中小企業,可以訓練LLM的一個簡易工具,主委能夠答應我們來研議嗎?
gazette.blocks[55][0] 吳主任委員誠文:我們會鼓勵學界努力做這個事情。
gazette.blocks[56][0] 羅委員廷瑋:好,我們大家一起來努力,好不好?謝謝。
gazette.blocks[57][0] 吳主任委員誠文:是。
gazette.blocks[58][0] 主席:謝謝羅廷瑋委員,主委請回。接下來請陳培瑜委員。
gazette.agenda.page_end 216
gazette.agenda.meet_id 委員會-11-1-22-13
gazette.agenda.speakers[0] 林宜瑾
gazette.agenda.speakers[1] 柯志恩
gazette.agenda.speakers[2] 洪孟楷
gazette.agenda.speakers[3] 葛如鈞
gazette.agenda.speakers[4] 郭昱晴
gazette.agenda.speakers[5] 萬美玲
gazette.agenda.speakers[6] 林倩綺
gazette.agenda.speakers[7] 陳秀寳
gazette.agenda.speakers[8] 張雅琳
gazette.agenda.speakers[9] 吳沛憶
gazette.agenda.speakers[10] 吳春城
gazette.agenda.speakers[11] 葉元之
gazette.agenda.speakers[12] 羅廷瑋
gazette.agenda.speakers[13] 陳培瑜
gazette.agenda.speakers[14] 賴士葆
gazette.agenda.speakers[15] 范雲
gazette.agenda.speakers[16] 蔡易餘
gazette.agenda.speakers[17] 楊瓊瓔
gazette.agenda.speakers[18] 何欣純
gazette.agenda.speakers[19] 邱志偉
gazette.agenda.page_start 155
gazette.agenda.meetingDate[0] 2024-05-23
gazette.agenda.gazette_id 1135001
gazette.agenda.agenda_lcidc_ids[0] 1135001_00004
gazette.agenda.meet_name 立法院第11屆第1會期教育及文化委員會第13次全體委員會議紀錄
gazette.agenda.content 一、邀請國家科學及技術委員會主任委員吳誠文列席報告業務概況,並備質詢;二、審查113年 度中央政府總預算有關國家科學及技術委員會主管預算(公務預算)解凍案7案
gazette.agenda.agenda_id 1135001_00003
transcript.pyannote[0].speaker SPEAKER_05
transcript.pyannote[0].start 0.03096875
transcript.pyannote[0].end 7.43909375
transcript.pyannote[1].speaker SPEAKER_00
transcript.pyannote[1].start 9.80159375
transcript.pyannote[1].end 11.55659375
transcript.pyannote[2].speaker SPEAKER_05
transcript.pyannote[2].start 12.14721875
transcript.pyannote[2].end 13.21034375
transcript.pyannote[3].speaker SPEAKER_00
transcript.pyannote[3].start 18.55971875
transcript.pyannote[3].end 46.23471875
transcript.pyannote[4].speaker SPEAKER_00
transcript.pyannote[4].start 46.69034375
transcript.pyannote[4].end 70.06221875
transcript.pyannote[5].speaker SPEAKER_02
transcript.pyannote[5].start 70.85534375
transcript.pyannote[5].end 73.97721875
transcript.pyannote[6].speaker SPEAKER_02
transcript.pyannote[6].start 74.26409375
transcript.pyannote[6].end 88.48971875
transcript.pyannote[7].speaker SPEAKER_02
transcript.pyannote[7].start 88.70909375
transcript.pyannote[7].end 91.89846875
transcript.pyannote[8].speaker SPEAKER_02
transcript.pyannote[8].start 92.13471875
transcript.pyannote[8].end 98.74971875
transcript.pyannote[9].speaker SPEAKER_00
transcript.pyannote[9].start 98.74971875
transcript.pyannote[9].end 129.88409375
transcript.pyannote[10].speaker SPEAKER_02
transcript.pyannote[10].start 131.28471875
transcript.pyannote[10].end 136.68471875
transcript.pyannote[11].speaker SPEAKER_00
transcript.pyannote[11].start 136.68471875
transcript.pyannote[11].end 137.62971875
transcript.pyannote[12].speaker SPEAKER_02
transcript.pyannote[12].start 137.62971875
transcript.pyannote[12].end 137.78159375
transcript.pyannote[13].speaker SPEAKER_00
transcript.pyannote[13].start 137.78159375
transcript.pyannote[13].end 137.81534375
transcript.pyannote[14].speaker SPEAKER_02
transcript.pyannote[14].start 137.81534375
transcript.pyannote[14].end 138.03471875
transcript.pyannote[15].speaker SPEAKER_00
transcript.pyannote[15].start 138.03471875
transcript.pyannote[15].end 143.46846875
transcript.pyannote[16].speaker SPEAKER_02
transcript.pyannote[16].start 139.09784375
transcript.pyannote[16].end 139.65471875
transcript.pyannote[17].speaker SPEAKER_02
transcript.pyannote[17].start 143.46846875
transcript.pyannote[17].end 156.31034375
transcript.pyannote[18].speaker SPEAKER_00
transcript.pyannote[18].start 152.83409375
transcript.pyannote[18].end 152.88471875
transcript.pyannote[19].speaker SPEAKER_00
transcript.pyannote[19].start 155.12909375
transcript.pyannote[19].end 155.44971875
transcript.pyannote[20].speaker SPEAKER_00
transcript.pyannote[20].start 156.31034375
transcript.pyannote[20].end 164.71409375
transcript.pyannote[21].speaker SPEAKER_02
transcript.pyannote[21].start 165.57471875
transcript.pyannote[21].end 166.33409375
transcript.pyannote[22].speaker SPEAKER_00
transcript.pyannote[22].start 166.33409375
transcript.pyannote[22].end 200.03346875
transcript.pyannote[23].speaker SPEAKER_00
transcript.pyannote[23].start 200.23596875
transcript.pyannote[23].end 200.75909375
transcript.pyannote[24].speaker SPEAKER_00
transcript.pyannote[24].start 202.00784375
transcript.pyannote[24].end 202.61534375
transcript.pyannote[25].speaker SPEAKER_02
transcript.pyannote[25].start 203.08784375
transcript.pyannote[25].end 205.19721875
transcript.pyannote[26].speaker SPEAKER_02
transcript.pyannote[26].start 207.89721875
transcript.pyannote[26].end 209.06159375
transcript.pyannote[27].speaker SPEAKER_02
transcript.pyannote[27].start 209.55096875
transcript.pyannote[27].end 209.97284375
transcript.pyannote[28].speaker SPEAKER_03
transcript.pyannote[28].start 209.97284375
transcript.pyannote[28].end 227.13471875
transcript.pyannote[29].speaker SPEAKER_00
transcript.pyannote[29].start 219.22034375
transcript.pyannote[29].end 219.57471875
transcript.pyannote[30].speaker SPEAKER_00
transcript.pyannote[30].start 226.61159375
transcript.pyannote[30].end 227.86034375
transcript.pyannote[31].speaker SPEAKER_00
transcript.pyannote[31].start 228.70409375
transcript.pyannote[31].end 231.30284375
transcript.pyannote[32].speaker SPEAKER_03
transcript.pyannote[32].start 233.10846875
transcript.pyannote[32].end 233.12534375
transcript.pyannote[33].speaker SPEAKER_02
transcript.pyannote[33].start 233.12534375
transcript.pyannote[33].end 233.24346875
transcript.pyannote[34].speaker SPEAKER_00
transcript.pyannote[34].start 233.24346875
transcript.pyannote[34].end 234.23909375
transcript.pyannote[35].speaker SPEAKER_02
transcript.pyannote[35].start 233.26034375
transcript.pyannote[35].end 233.49659375
transcript.pyannote[36].speaker SPEAKER_03
transcript.pyannote[36].start 233.49659375
transcript.pyannote[36].end 233.54721875
transcript.pyannote[37].speaker SPEAKER_00
transcript.pyannote[37].start 234.45846875
transcript.pyannote[37].end 235.55534375
transcript.pyannote[38].speaker SPEAKER_02
transcript.pyannote[38].start 236.93909375
transcript.pyannote[38].end 238.10346875
transcript.pyannote[39].speaker SPEAKER_00
transcript.pyannote[39].start 238.37346875
transcript.pyannote[39].end 238.89659375
transcript.pyannote[40].speaker SPEAKER_04
transcript.pyannote[40].start 240.11159375
transcript.pyannote[40].end 253.03784375
transcript.pyannote[41].speaker SPEAKER_00
transcript.pyannote[41].start 254.48909375
transcript.pyannote[41].end 257.66159375
transcript.pyannote[42].speaker SPEAKER_00
transcript.pyannote[42].start 258.55596875
transcript.pyannote[42].end 276.81471875
transcript.pyannote[43].speaker SPEAKER_02
transcript.pyannote[43].start 265.10346875
transcript.pyannote[43].end 265.33971875
transcript.pyannote[44].speaker SPEAKER_00
transcript.pyannote[44].start 276.96659375
transcript.pyannote[44].end 287.51346875
transcript.pyannote[45].speaker SPEAKER_00
transcript.pyannote[45].start 288.37409375
transcript.pyannote[45].end 288.91409375
transcript.pyannote[46].speaker SPEAKER_02
transcript.pyannote[46].start 289.65659375
transcript.pyannote[46].end 292.55909375
transcript.pyannote[47].speaker SPEAKER_00
transcript.pyannote[47].start 292.55909375
transcript.pyannote[47].end 335.40471875
transcript.pyannote[48].speaker SPEAKER_00
transcript.pyannote[48].start 336.18096875
transcript.pyannote[48].end 337.42971875
transcript.pyannote[49].speaker SPEAKER_00
transcript.pyannote[49].start 337.91909375
transcript.pyannote[49].end 338.64471875
transcript.pyannote[50].speaker SPEAKER_00
transcript.pyannote[50].start 339.25221875
transcript.pyannote[50].end 348.58409375
transcript.pyannote[51].speaker SPEAKER_00
transcript.pyannote[51].start 349.37721875
transcript.pyannote[51].end 355.33409375
transcript.pyannote[52].speaker SPEAKER_02
transcript.pyannote[52].start 356.36346875
transcript.pyannote[52].end 361.08846875
transcript.pyannote[53].speaker SPEAKER_02
transcript.pyannote[53].start 361.29096875
transcript.pyannote[53].end 363.02909375
transcript.pyannote[54].speaker SPEAKER_00
transcript.pyannote[54].start 363.02909375
transcript.pyannote[54].end 398.82096875
transcript.pyannote[55].speaker SPEAKER_00
transcript.pyannote[55].start 399.58034375
transcript.pyannote[55].end 399.90096875
transcript.pyannote[56].speaker SPEAKER_00
transcript.pyannote[56].start 400.93034375
transcript.pyannote[56].end 402.88784375
transcript.pyannote[57].speaker SPEAKER_00
transcript.pyannote[57].start 402.92159375
transcript.pyannote[57].end 427.23846875
transcript.pyannote[58].speaker SPEAKER_00
transcript.pyannote[58].start 427.52534375
transcript.pyannote[58].end 437.07659375
transcript.pyannote[59].speaker SPEAKER_00
transcript.pyannote[59].start 437.31284375
transcript.pyannote[59].end 442.03784375
transcript.pyannote[60].speaker SPEAKER_02
transcript.pyannote[60].start 442.27409375
transcript.pyannote[60].end 446.42534375
transcript.pyannote[61].speaker SPEAKER_00
transcript.pyannote[61].start 446.45909375
transcript.pyannote[61].end 447.96096875
transcript.pyannote[62].speaker SPEAKER_00
transcript.pyannote[62].start 448.36596875
transcript.pyannote[62].end 448.88909375
transcript.pyannote[63].speaker SPEAKER_02
transcript.pyannote[63].start 451.52159375
transcript.pyannote[63].end 452.11221875
transcript.pyannote[64].speaker SPEAKER_02
transcript.pyannote[64].start 452.55096875
transcript.pyannote[64].end 454.96409375
transcript.pyannote[65].speaker SPEAKER_00
transcript.pyannote[65].start 454.13721875
transcript.pyannote[65].end 454.27221875
transcript.pyannote[66].speaker SPEAKER_00
transcript.pyannote[66].start 456.46596875
transcript.pyannote[66].end 462.54096875
transcript.pyannote[67].speaker SPEAKER_01
transcript.pyannote[67].start 462.84471875
transcript.pyannote[67].end 475.95659375
transcript.pyannote[68].speaker SPEAKER_00
transcript.pyannote[68].start 468.16034375
transcript.pyannote[68].end 468.68346875
transcript.pyannote[69].speaker SPEAKER_00
transcript.pyannote[69].start 468.86909375
transcript.pyannote[69].end 469.15596875
transcript.pyannote[70].speaker SPEAKER_00
transcript.pyannote[70].start 476.49659375
transcript.pyannote[70].end 509.72346875
transcript.pyannote[71].speaker SPEAKER_01
transcript.pyannote[71].start 511.15784375
transcript.pyannote[71].end 532.89284375
transcript.pyannote[72].speaker SPEAKER_00
transcript.pyannote[72].start 530.53034375
transcript.pyannote[72].end 530.63159375
transcript.pyannote[73].speaker SPEAKER_00
transcript.pyannote[73].start 532.89284375
transcript.pyannote[73].end 538.68096875
transcript.pyannote[74].speaker SPEAKER_01
transcript.pyannote[74].start 540.35159375
transcript.pyannote[74].end 550.56096875
transcript.pyannote[75].speaker SPEAKER_00
transcript.pyannote[75].start 550.62846875
transcript.pyannote[75].end 597.49034375
transcript.pyannote[76].speaker SPEAKER_00
transcript.pyannote[76].start 597.91221875
transcript.pyannote[76].end 611.46284375
transcript.pyannote[77].speaker SPEAKER_03
transcript.pyannote[77].start 615.46221875
transcript.pyannote[77].end 630.61596875
transcript.pyannote[78].speaker SPEAKER_00
transcript.pyannote[78].start 623.74784375
transcript.pyannote[78].end 624.38909375
transcript.pyannote[79].speaker SPEAKER_00
transcript.pyannote[79].start 624.40596875
transcript.pyannote[79].end 624.43971875
transcript.pyannote[80].speaker SPEAKER_00
transcript.pyannote[80].start 628.70909375
transcript.pyannote[80].end 629.01284375
transcript.pyannote[81].speaker SPEAKER_00
transcript.pyannote[81].start 631.34159375
transcript.pyannote[81].end 632.65784375
transcript.pyannote[82].speaker SPEAKER_00
transcript.pyannote[82].start 633.48471875
transcript.pyannote[82].end 636.13409375
transcript.pyannote[83].speaker SPEAKER_02
transcript.pyannote[83].start 636.13409375
transcript.pyannote[83].end 638.95221875
transcript.pyannote[84].speaker SPEAKER_00
transcript.pyannote[84].start 637.12971875
transcript.pyannote[84].end 655.52346875
transcript.pyannote[85].speaker SPEAKER_00
transcript.pyannote[85].start 655.64159375
transcript.pyannote[85].end 656.55284375
transcript.pyannote[86].speaker SPEAKER_00
transcript.pyannote[86].start 656.78909375
transcript.pyannote[86].end 694.23471875
transcript.pyannote[87].speaker SPEAKER_00
transcript.pyannote[87].start 694.47096875
transcript.pyannote[87].end 704.52846875
transcript.pyannote[88].speaker SPEAKER_02
transcript.pyannote[88].start 704.76471875
transcript.pyannote[88].end 709.77659375
transcript.pyannote[89].speaker SPEAKER_02
transcript.pyannote[89].start 709.94534375
transcript.pyannote[89].end 712.71284375
transcript.pyannote[90].speaker SPEAKER_02
transcript.pyannote[90].start 713.06721875
transcript.pyannote[90].end 723.36096875
transcript.pyannote[91].speaker SPEAKER_00
transcript.pyannote[91].start 723.63096875
transcript.pyannote[91].end 747.57659375
transcript.pyannote[92].speaker SPEAKER_00
transcript.pyannote[92].start 747.71159375
transcript.pyannote[92].end 748.38659375
transcript.pyannote[93].speaker SPEAKER_02
transcript.pyannote[93].start 748.38659375
transcript.pyannote[93].end 749.02784375
transcript.pyannote[94].speaker SPEAKER_00
transcript.pyannote[94].start 749.02784375
transcript.pyannote[94].end 752.09909375
transcript.pyannote[95].speaker SPEAKER_05
transcript.pyannote[95].start 753.56721875
transcript.pyannote[95].end 759.43971875
transcript.whisperx[0].start 0.509
transcript.whisperx[0].end 5.793
transcript.whisperx[0].text 我再宣告一下等陳佩玉委員諮詢完之後我們來處理臨時提案跟解凍案好謝謝主席有請吳主委好有請吳主委
transcript.whisperx[1].start 19.759
transcript.whisperx[1].end 45.049
transcript.whisperx[1].text 吳主委好恭喜上任歡迎加入我們教文的大家庭叫你吳主委感覺很親切因為上一個也是吳主委我今年年初才來立法院就職跟吳正宗主委相處時間比較短相信接下來時間我們有很長的一段時間會合作那本期感到非常的期待那為什麼開頭要聊到這個正宗主委因為今年3月的時候吳主委進行了業務報告兩個月後
transcript.whisperx[2].start 46.77
transcript.whisperx[2].end 69.876
transcript.whisperx[2].text 您新上任也做了業務報告當然我們有共同關注到幾個重要的科學議題但是我想民眾會想更知道的一件事情是您接任國科會主委您跟吳正宗主委有什麼差別在業務上的執行上有什麼風格不同未來有什麼特別要處理的政策可不可以簡單說明一下
transcript.whisperx[3].start 70.919
transcript.whisperx[3].end 97.726
transcript.whisperx[3].text 我想我們過去非常注重經濟的發展因為經濟發展好的話我們才有足夠的能力來協助我們整個社會文化的提升所以我想在我的任內除了延續我們原來在科技產業很努力的做研發做產業的推動之外我們也會努力的來協助整個社會文化提升各行各業利用我們科技的優勢來協助他們
transcript.whisperx[4].start 98.806
transcript.whisperx[4].end 126.815
transcript.whisperx[4].text 好,我們一起努力各行各業我希望不管是從上到下基層的很多行業也需要幫忙不要讓他們覺得國科會很遠不要讓他們不知道有國科會的存在本期想要向主委詢問一下精創方案回到我們施政的主軸上這個方案目前加速推動了四大佈局也就是所謂推動生成式AI幫助百工百業強化國內培育環境吸納全球頂尖人才
transcript.whisperx[5].start 127.535
transcript.whisperx[5].end 156.143
transcript.whisperx[5].text 那你本身自己有在用生成式AI嗎?坦白講我個人有用過但是還不是很滿意有用過是對生成式AI不是很滿意還是你使用的過程不是很滿意對生成式AI來講我們要知道它的能力然後它的限制是因為它使用了這個AI統計式的方法它是不可能達到100%準確你要的答案
transcript.whisperx[6].start 156.323
transcript.whisperx[6].end 181.888
transcript.whisperx[6].text 但是你有研究我們所謂年輕人說的深圳市AI有所謂的這個魔咒咒語你會使用相關的咒語嗎我目前沒有所謂的咒語就是他的指令我想這個是要去了解深圳市AI可能需要掀起的一個先前目的那我想經濟部合作推動加速一直整合以及先進的技術開發最後就是要推動系導的一個實力我想
transcript.whisperx[7].start 182.628
transcript.whisperx[7].end 183.669
transcript.whisperx[7].text 我可以請我們負責同仁
transcript.whisperx[8].start 210.938
transcript.whisperx[8].end 231.421
transcript.whisperx[8].text 請說關於IC新創其實我們因為開始執行我們已經正式那個開始弄取一個那個全球公安的一個競賽的規劃那因為剛開始嘛所以我們在未來幾個月在年底之前會再跟委員報告整個的狀態因為已經半年了那所以就只是目前這樣子主委你覺得呢聽完他剛剛說的
transcript.whisperx[9].start 237.283
transcript.whisperx[9].end 241.185
transcript.whisperx[9].text 聽起來就是好像有做事但是
transcript.whisperx[10].start 258.635
transcript.whisperx[10].end 286.918
transcript.whisperx[10].text 主軸具體好像也看不出來是半年了大概做些什麼但沒關係我會關注一下這過程我相信有努力啦剛剛你講了很多的這個算是日程嗎或者是你們的一些會議OK但是我們希望的是半年了有沒有具體有沒有準備要做什麼那有沒有進展的一個具體方向讓我們能夠更確定的知道我想想問問主委在CHAP GPT剛問事的時候你有沒有試問過
transcript.whisperx[11].start 288.373
transcript.whisperx[11].end 311.538
transcript.whisperx[11].text 剛才有說有沒有什麼使用過對有使用過那現在可以說是一個世代為什麼這樣說因為目前國科會的泰的模型聯發科有自己的模型台智雲有福爾摩沙大模型群創光電有白龍模型大家都致力於在打造繁體中文模組的一個AI模型那因為上個月
transcript.whisperx[12].start 312.478
transcript.whisperx[12].end 336.931
transcript.whisperx[12].text 四月十五國科會才釋出了Tide 7B的模型說是結合台灣文化擁有70億參數的大型語言模組我想緊接著呢Meta又釋出了自己的一個相關的模組國科會立馬又在四月二十九號又發表了Lama3 Alpha的一個模組
transcript.whisperx[13].start 340.02
transcript.whisperx[13].end 354.874
transcript.whisperx[13].text 請問這個研發速度可以說是AI的軍備競賽感受到你們的積極度但我想請問一下包括你們的這個資料庫的來源目前可以提供說大概來源資料庫來源大概都來自哪一國嗎?
transcript.whisperx[14].start 356.454
transcript.whisperx[14].end 372.477
transcript.whisperx[14].text 我們資料庫的來源應該都是台灣的都是台灣自己是在台灣本土收集的所以70億全數都來自台灣我想我不敢說自己是專家我也不敢在你們面前說我多了解
transcript.whisperx[15].start 373.038
transcript.whisperx[15].end 398.067
transcript.whisperx[15].text 但我想有自己去稍微了解一下我們目前發展的基礎以META開發的一個LM2的一個模組模型也就是我們現在使用是用開源的一個資料他在pressuring的過程中就已經有簡體資料的一個簡體中文的資料我們頂多可以給他看繁體資料但不能避免這個開源模型已經有簡體資料對吧
transcript.whisperx[16].start 401.433
transcript.whisperx[16].end 426.728
transcript.whisperx[16].text 這個可能會存在的對如果我們想要完全避免檢體資料進而開發一個全面的繁體資料應該會遇到兩個問題第一個問題就是本體的資料不足數據量遠遠不足我想跟全世界來比第二個更大的問題就是如果是只有繁體的資料就需要重新訓練是對吧是就本期
transcript.whisperx[17].start 427.688
transcript.whisperx[17].end 447.678
transcript.whisperx[17].text 自己查了資料去了解重新訓練沒有幾萬片H100的GPU辦不到目前台灣國家隊大概只有72片遠遠低於國外的新創團隊與大企業請問要如何重新訓練我們正在努力在加速建置我們的運算的資源我剛說GPU數量有錯嗎那個國王我請國王中心主任來回答
transcript.whisperx[18].start 456.513
transcript.whisperx[18].end 475.363
transcript.whisperx[18].text 不好意思因為我看到您不是很肯定的我想說給你回答都沒關係我們可以互相的報告委員去年台德計劃展開的時候我們構置了72片的H100的GPU但是我們台灣32號本來就有2000片的V100在國王掌控裡面有1000片
transcript.whisperx[19].start 476.61
transcript.whisperx[19].end 500.669
transcript.whisperx[19].text 所以我剛說的重新訓練我們估計要幾萬片的一個GPU那目前我們只有72片如果我們只能基於還是有簡體資料的前提下多加入了繁體資料只能做到繁體中文的微調本席想了解那麼就這樣的基礎所開發的AI模型與OpenAI、ChapGPT也好Google的具體落差在哪裡
transcript.whisperx[20].start 501.109
transcript.whisperx[20].end 509.538
transcript.whisperx[20].text 目前繁體中文與所謂的簡體中文資料在訓練數據中比例各佔多少?是否具體的數據可以提供一下?
transcript.whisperx[21].start 512.007
transcript.whisperx[21].end 538.505
transcript.whisperx[21].text 這個簡體跟繁體的比率其實沒有一個精確的統計但是拉瑪事出的時候他有提到他的中文的比率是多少那可以拿來做參考但是並不是說本來是簡體他就一定會你如果為很多的繁體中文他事實上說會改變他的參數繁體中文的表現會越來越好好所以我說剛剛以我們的AI模型跟openAI、chip、gpt、google的具體落差在哪?
transcript.whisperx[22].start 540.421
transcript.whisperx[22].end 568.15
transcript.whisperx[22].text 他們的模型是非常大的模型是從頭訓練起我們是fine tuning和continuous retraining所以當然是有他的差距在我想那聽出來我們的差距不是微幅是非常的巨大因為畢竟我們要跟國外相比我們也要看使用者到底未來想使用的他的具體希望得到的成效是什麼他當然會希望不管是語言模組或者是後續的資料庫
transcript.whisperx[23].start 569.15
transcript.whisperx[23].end 596.975
transcript.whisperx[23].text 他能夠有龐大的資料去支撐生成式AI所生成式的東西才可以加大他的生成式出來的資料是有確定性或者是穩定性甚至是我們說的準確性能夠提高這是一個使用者他希望能夠追求的那本席目前有看到國科會定調希望作為一個資助開源模型的資助產業例如工研院電光所可以運用的
transcript.whisperx[24].start 598.215
transcript.whisperx[24].end 606.206
transcript.whisperx[24].text 結合相關的技術或是針對鋼鐵的產業知識提供智慧化的問答檢索詢問高爐或電弧爐的相關產業知識除了這些我們還計畫將泰德7B運用在哪些具體的產業上
transcript.whisperx[25].start 618.325
transcript.whisperx[25].end 630.281
transcript.whisperx[25].text 對於產業的協助我們是以公開釋出他們可以去來使用的目前表達興趣的像醫療體系他們有表達興趣來使用這個type
transcript.whisperx[26].start 631.477
transcript.whisperx[26].end 654.782
transcript.whisperx[26].text 我想就是公開大家各自使用啦是因為不同的專業要用不同的車來訓練主委討論到這樣子我們不覺得很奇怪嗎國科會的會真的有具體了解到台灣產業的需求嗎我們到底要提供百工百業在生成式AI未來能夠使用上有什麼樣的具體幫助我認為發展本土化翻體中文LM
transcript.whisperx[27].start 655.822
transcript.whisperx[27].end 674.637
transcript.whisperx[27].text 模型我們支持我們也不希望看到簡體中文但是在本土化的過程中到底我們的資料能不能期待他能夠有更多元能夠納到跟國外的相關的我們說的chip gpt open ai的資料庫
transcript.whisperx[28].start 675.698
transcript.whisperx[28].end 704.187
transcript.whisperx[28].text 來做一個比擬。我想台灣如果發展了一個只能搜尋少量英文、繁體中文、本土資訊的搜尋引擎。這個其價值、商業價值我相信是比較低的。為什麼?因為我認為還是要回歸到AI工具實不實用。所以我想講白了OpenAI、ChapGVT如果沒有大量全球的知識去擴充只有台灣本土的知識。主委你個人覺得它實用嗎?
transcript.whisperx[29].start 705.127
transcript.whisperx[29].end 723.144
transcript.whisperx[29].text 通用型AI跟比較專業的AI是不一樣的這是訓練資料的差異所以我們在台灣我們要發展各行各業用的AI它的訓練資料就要用各行各業的資料甚至是AI的好處就是說你的資料量不足但是廣度夠的話它可以產生非常多的訓練資料幫它做得很好
transcript.whisperx[30].start 723.84
transcript.whisperx[30].end 751.715
transcript.whisperx[30].text 我想國科會應該要實事求是我們應該要去擴充發展自己的LLM的一個工具讓企業廣泛來使用本席具體的要求國科會研議企業LLM訓練方案台灣需要的不是那種很簡單的手續引擎我想台灣需要的是發展適合中小企業可以訓練LLM的一個簡易工具主委能夠答應我們來研議嗎我們會鼓勵學界努力做這個事情我們大家一起來努力好不好 謝謝
transcript.whisperx[31].start 753.612
transcript.whisperx[31].end 753.893
transcript.whisperx[31].text 羅廷瑋主席