iVOD / 165392

本逐字稿內容由 AI 自動生成,可能包含錯誤、遺漏或誤譯之處。請使用者務必與原始影片音訊內容交叉比對,以確保資訊正確性。另可參考立法院日後釋出的正式公報以取得最終權威版本。

林宜瑾 @ 第11屆第4會期教育及文化委員會第6次全體委員會議

Start Time End Time Text
00:00:02,859 00:00:09,885 謝主席有請廖院長請廖院長林委員長
00:00:11,198 00:00:32,865 院長早首先本席想要跟院長討論一下主權AI現在速發部正在推動台灣的主權AI各部會也要盤點適合的資料上架到台灣的AI訓練語言資料庫後續會開放民間跟政府機關來申請使用
00:00:33,425 00:00:54,857 那速發部林部長說AI模型的訓練需要大量的資料那希望政府跟民間把擁有著作權的資料釋放出來以訓練出台灣觀點的AI模型那先前我有初步跟中研院詢問就是上架相關資料到台灣AI
00:00:56,178 00:01:19,874 主權AI的訓練語言資料庫的情形那你們回覆的資料是說中研院目前已經有古漢語近代漢語跟敏克語當代華語的這個語料庫那除了這個古漢語的文獻資料已經沒有著作財產權那其他多數的文獻都需要一一去確認著作權跟智慧財產權
00:01:21,355 00:01:49,867 而當代出版的包裝雜誌跟兒童讀物也要經過確認原始的著作權跟智慧財產權才可以考慮上架台灣的AI語言資料庫而口語的語料因為當初跟發音人簽授權的範圍只限於學術研究所以這個部分就沒有辦法開放上架AI語言資料庫院長我理解這樣對嗎
00:01:52,145 00:02:11,945 大致正确但是我们目前是至少我个人是鼓励所有的研究人员在法规许可的范围内尽量开放这些语料供我们主权AI训练那我们有各种不同的方式那我们的专家一堆专家后面都请他们解释
00:02:12,586 00:02:33,386 沒關係 院長 我先跟你再繼續探討下去喔因為我 就是說因為中研院擁有跟收錄這個全台灣最豐富的這個學術研究資源所以也是國內最高的研究單位所以我想歷年來建置很多很多的資料庫也很努力
00:02:33,906 00:02:52,325 就像剛剛院長說很努力在致力於資料的開放那要開放供大眾研究的同時我覺得就是應該要將各項珍貴的資料來可以提供給台灣主權AI的資料庫所以如果能解決著作權
00:02:53,166 00:03:14,139 跟智慧財產的問題那將這個豐富的資料文本可以上傳到台灣主權AI的語言資料庫我想勢必對這個這個主權AI的訓練一定有很大的幫忙所以請教院長中研院擁有這些文本的資料後續
00:03:15,560 00:03:36,851 怎麼樣盡可能盡可能來上架到台灣主權AI的訓練語言資料庫特別是發音人的口語資料的問題有沒有辦法進一步來開放提供訓練台灣主權AI來使用因為要上傳所有的文本資料來提供台灣主權AI的使用
00:03:37,811 00:03:52,282 是有沒有辦法跟原作的這個授權來脫鉤啦這個可能要來努力解決這個侵權的疑慮好委員好 我是制裁處處長邱文聰
00:03:52,742 00:04:11,194 那針對委員的詢問如果說著作權是歸屬本院的部分的話我們願意沒有條件的來提供只要他目的是做訓練的話沒有問題但是委員提到如果他的來源的授權是受到限制也就是說權力不在本院不在眾院的話
00:04:11,974 00:04:36,753 那要去突破可能就必须透过立法的方式或者是在个案上面法院去判定它是否构成合理使用那个人认为说这样子的途径其实是对于训练主权来讲确实是比较不足的但是要突破的话可能还是需要大院透过立法的方式比如说透过强制授权或者像是日本
00:04:37,353 00:04:59,123 他们在助纣权法上面直接用立法的方式去明定为了这种训练的目的那这样的使用是属于合理使用才能够去解套不然的话我们自行在后端在未经权利人的同意下拿来做训练使用的话仍然是有可能会构成是一个违法的重置甚至违法的利用以上谢谢
00:05:00,263 00:05:27,181 那另外先前中研院有提过就是说我们目前中研院自己的资料库虽然大部分有开放给民众使用可是还没有做到文字化的阶段那中研院之前是说人文组的运用人工智慧解锁历史文献这个计划已经审核通过了那我们正积极在推动最新的AI技术来加速这个资料的数位文字化
00:05:31,463 00:05:54,991 訓練 所以想要請教院長的是這項計畫的工作進度如何那歷史文獻全文數位化的這個成果會上架到台灣主權AI的資料庫嗎那像是清嶺時代或者日治時代的一些文獻那應該早就沒有這個版權的問題那這些可以上架到台灣主權AI語言資料庫嗎
00:05:57,507 00:06:16,910 這個部分 現在這位委員所秀 我是資訊所廖鴻元所長這個計畫就是我們連玲玲副所長她的計畫下面有四個我們綜藝院院長特別交代的專案計畫她有四個 目前有四個紙計畫在做
00:06:17,290 00:06:33,798 那最主要像地籍古時候日治時代的那種地籍圖它需要經過因為它的字是用手寫的然後有很多蓋章所以我們需要經過影像處理一些處理然後再把它變成數位化那在這個狀況之下我們現在還在
00:06:36,679 00:06:55,391 今年是第二年它的速度就增快非常多一开始的时候技术不足但是现在已经变得非常有技术所以这个部分在进行中然后我想这个部分呢至于它的那个因为它时代已经久远应该没有所谓的版权的问题是是是所以应该是可以纳入而且进行的相当好
00:06:55,931 00:07:10,135 然后另外的还有台思索他们也有一个计划也是在做这是我们院长极力在推的这个怎么样把我们的这些文本资料有关于历史的文本资料能够把它数位化然后把它处理
00:07:10,663 00:07:33,186 好謝謝那我再簡單再追問一個問題就是說中研院有個數位文化中心那大約有131個資料庫跟工具平台還有主題網站這些數位化的成果可是有些網站已經失效那需要轉置也需要這個重新檢視那資料那現在資料庫的數量有
00:07:33,806 00:08:01,806 就現在需要重新檢視的資料庫有107個那看起來有做盤點下架那不過本席是發現還有少數的網站是失效的那另外本席之前也有說過就是說關鍵字的這個搜尋功能目前只能針對個別的網站來提供簡短的說明內容做搜尋那沒有辦法跨資料庫的檢索那這部分似乎好像還沒有改善
00:08:02,566 00:08:30,208 整體來說就是說雖然中研院有數位典藏平台當作入口的網站可是匯整大部分的這個數位資源跟成果的網站跟實際操作起來還是難以實現跨資料庫的這個解鎖那使用者還是要就是要進到不同的網站然後反覆輸入關鍵字那以上本席所提到的中研院在改善經濟上覺得還有哪些的挑戰院長
00:08:32,053 00:08:59,606 我想这方面网页失联部分我们会请数位文化中心可以改进好委员好上次委员提醒之后我们其实是在院长指示之下我们做各所的一个统整当然因为我们过去承接了过去国家数位典藏计划里面的一些资料所以包括了一些不只应该算100多个网站其实有300多个网站正在维运当中尤其有很多因为系统的部分也停摆了
00:09:00,046 00:09:17,206 那这就是过去国家气候检查人员留下来的资产我们也希望能够火化现在我们注像是兵分两路一个是我们众议院既有的各个所他们所维运的系统是不是能透过您所提到的这种跨国户检索来进行那这东西涉及到整个网络架构的问题我们还在盘点之中
00:09:17,867 00:09:45,212 另外一个就是国家数位典藏留下来这个300多个网页我们进行维聚当然也涉及到一个资安的问题那我们现在希望能够这东西提供一个联合目录的重新的整形和再并那这个情节上就会使得我们大家同仁在使用所谓过去国安建制的这些资料的时候能够继续使用和活化所以谢谢委员指导我们会进一步能够提供您的了解好 再努力再加油好 谢谢院长谢谢主席
00:09:47,066 00:09:50,495 謝謝林益菁委員請院長回座