iVOD / 167570

本逐字稿內容由 AI 自動生成,可能包含錯誤、遺漏或誤譯之處。請使用者務必與原始影片音訊內容交叉比對,以確保資訊正確性。另可參考立法院日後釋出的正式公報以取得最終權威版本。

李昆澤 @ 第11屆第5會期交通委員會第2次全體委員會議

Start Time End Time Text
00:00:03,656 00:00:07,351 謝謝林俊憲召委 請一下林部長我們邀請蘇澳部林部長
00:00:14,318 00:00:33,894 委員長 部長好 在網路以及數位快速發展的時代我們一直有一個擔憂就是資訊安全的架構跟不上這樣一個網路數據的快速的這樣的一個流動的狀況 是 那近期我們看到有
00:00:34,995 00:01:01,511 跨境電商以及政黨的各自外洩引起國人的這個相關的擔憂那我們看到在這樣一個狀況之下在技術的這樣的一個發展的過程裡面大家都急迫追求這樣一個商品短期開發的速度但是相關的技術的資安的這樣的一個配備
00:01:02,472 00:01:19,663 以及準備是跟不上這樣的一個開發的速度所以我們看到有很多資安外洩的各自外洩的嚴重狀況那當然有兩個問題我們必須要去重視第一個都沒有辦法去及時發現這樣一個風險就是說都是透過這樣一個駭客
00:01:23,786 00:01:47,079 警示或者是駭客已經提出勒索相關的這樣一個狀況才發覺治安有這樣的一個狀況另外一個就是在於我們這樣一個跨境電商他們的這個母公司都是在其他地方例如新加坡等等那我們這樣的一個跨境電商各自外洩
00:01:48,467 00:01:58,895 全球總共有3370萬筆的資料會受到影響那確認台灣大概有20萬左右的用戶啊有遭到非法的一個接觸
00:02:01,977 00:02:21,213 跨境電商號稱只有一名的台灣用戶資料遭到竊取或是儲存我們請數位部有加緊速度來瞭解這樣的一個狀況來保障民眾的個資我要請教一下部長 相關的這樣的一個調查狀況進度是如何
00:02:23,115 00:02:48,286 是 這個事情那個就是之前我們發現這個案子以後我們就馬上去調查那剛開始就是這您所說的這個跨境電商跟我們講都沒有台灣的資料受到那個就是被存取那事實上後來我們那個經過我們庶產署不斷的努力之後我們請第三方的機構去認證就發現是說事實上的確是有超過20萬筆的資料被
00:02:52,762 00:03:16,761 被存取那這邊想說所謂只有一名台灣用戶這個我必須說明這個是在那個犯案者的電腦上後面只找到一筆剩下一筆那個資料其他是被刪除了我們不知道但是其實我們據我們所知不只一筆不是只有一筆台灣的個資遭到那個遭到那個駭客的那個閱讀這個是必須跟委員說明
00:03:17,321 00:03:36,931 那相關蘇華部對這件事情後續處理的態度是如何原則是如何對我們一切依法辦理那這件事情已經進入了這個法律的程序那我們會依照這個相關的法律那我們是不是請那個素產署蘇長說明是那檢調說明一下我們3月4號已經送行政院各支署
00:03:37,771 00:03:53,300 然後我們把我們行政檢查的結果請這個那家跨境電商進行說明所以我們一切都在程序當中當然我們等行政院這邊召開會議來在會中說明保障民眾的個資這也是蘇衛部一個重要的責任
00:03:54,761 00:04:18,516 必須要加緊相關的督促的工作另外我一再的提醒林部長我們對於數位主權的開發以及重視當然數化部現在已經建立了台灣主權AI的訓練餘料庫那大概規模大概是11億的2 case的這樣的一個資料的集中那來源大概涵蓋是200個政府機關
00:04:21,980 00:04:44,625 我要請教部長說11億的2case相較於國際的這種主流模型動輒都是塑造的這樣的2case那差距是數千倍以上而且更關鍵的我們的羽料的這些來源是政府機關我想我們對於量少是一個問題
00:04:46,585 00:05:14,573 偏差更是一個嚴重的問題因為你都集中在政府機關那我們量少又偏重在政府機關我們有什麼競爭力來部長說明一下首先要講說我們通常那種大型語料庫像Chad GP像Cloud這種語料庫他用的訓練資料量非常大但是裡面中文的資料量並沒有那麼多那我們現在遇到最大的困難是他大量使用中國的簡體中文的資料量那都是他們的那個觀點
00:05:15,553 00:05:41,951 所以我們現在要加入繁體中文的資料量我們希望做一個平衡那11億個token聽起來很多但是其實相較起來我們當然覺得還不夠多所以我們接下來我們希望說在一直擴大我們現在是先從那個最簡單處理就是政府有著作權的資料包含中研院等資料我們放進來接下來我們希望民間也能提供一些資料那這個就是我們設計一個那個標準的授權條款讓民間
00:05:46,514 00:05:59,088 能夠訓練出有獨立判斷的模型另外目前在3000多筆的資料集之中絕大部分都是政府的這種
00:06:00,889 00:06:26,759 重複性很高低品質的這樣一個行政公報這樣對於台灣的數位主權提升還是有很大的一段距離我們有什麼改善的方式我們跟民間團體有進一步的合作嗎我們是否會編列預算像民間團體或是文學出版單位來採購或是武藏這樣的一個高品質的語料來說明一下
00:06:27,600 00:06:43,799 這件事情我們之前跟這些大型語言模型的公司像Google等跟他們討論問他們說為什麼你都不用台灣的這個繁體中文語料他就跟我們講說兩個原因第一個是中國的簡體中文語料量比較大第一個量比較大
00:06:44,019 00:07:05,584 第二個是因為中國那邊比較不注重著作財產權所以他們用那邊的語料去訓練就是很安全的不會有被告不會有任何的糾紛但是台灣是一個注重著作財產權的國家然後他們在乎的其實不是錢而是談判的成本因為他必須去跟每一家的那個每一個作者去談部長你現在就提到重點了
00:07:06,244 00:07:32,744 相關於著作權我們對於數位主權未來的開發及訓練的過程裡面這是一個很嚴肅而且是一個很麻煩的議題那樹花不好在114年8月已經有提出相關的促進資料創新利用的發展條例它是一個草案那這項草案的核心就是在於開放資料跟共享資料
00:07:33,464 00:07:53,361 那而且啊是引用一種概念叫資料利他的這樣的一個概念那鼓勵民間啊無償的提供相關的資料但是啊著作權法我們現行的草案沒有去處理到著作權法裡面啊從治權的一個爭議啊是沒錯就是說
00:07:54,722 00:08:16,532 因為我們目前都是依賴這個很模糊的第65條有關於合理使用的這個條款那這個會讓主權AI的開發跟訓練面臨高風度的法律風險就是說住宿權法沒有提供
00:08:17,577 00:08:32,224 明確的這樣的一個資料探勘的豁免那很容易我們國家花了數十億數十億開發的這種台版的大語言模型啊或是相關主權的模型啊
00:08:33,605 00:08:59,945 他的訓練過程裡面會很容易陷入這種非法重製的這樣的一個灰色地帶如果民間團體他們集體來提告如果這種集體訴訟法院判定我們是侵權問題很嚴重因為國家級花了幾十億所建立的模型很容易就被法院下令要永久封存
00:09:00,325 00:09:22,271 是或是所謂的銷毀權重就是刪除大量的相關內容是那這會陷入一個窘境啊是沒錯美處長你們要怎麼處理啊是事實上跟委員報告基本上這種由科技創新對著作財產權帶來的衝擊通常要少則要三五年才會塵埃落定因為現在有兩方都各
00:09:22,811 00:09:49,188 各有道理一方面這個我們剛才講的AI產業希望能有大量的資料但是對於這個出版業還有文化界等等他們認為說這些AI模型不能無償的使用這些資料這在法律上會有一些爭議這個還在討論應該講說是討論那因為這是著作財產權是經濟部智慧財產局他們的主責那我們會密切的跟他們合作那我們在這個過程當中我們沒辦法處理
00:09:50,188 00:09:59,805 因為這個整個討論要結束真的要三五年那我們現在先處理的就是比較沒有爭議的就是政府有鑄作財產權的部分這個就是我們現在在做的事情
00:10:01,852 00:10:27,686 部長我們現在國際AI的競爭非常的快速主流都是已經進入到快速擴張起這個階段但是我們的數位主權在相關的訓練不管是資料來源或是相關著作權法裡面相關的爭議到現在都還沒有辦法進一步的處理這個數位部必須要加緊速度是 OK 謝謝委員提醒