iVOD / 160907

陳培瑜 @ 第11屆第3會期交通、教育及文化委員會第1次聯席會議

Index Text
0 陳委員培瑜:(12時12分)謝謝主席,我可以直接請數發部的林次長嗎?
1 主席:好,請林次長。
2 陳委員培瑜:謝謝。
3 林次長宜敬:委員好。
4 陳委員培瑜:次長午安。我想就這個新聞媒體議價法直接跟你討論,其實就是四個字叫做「內容有價」,因為不管是在過去新聞媒體時代,或是現在所謂的大型語言模型,也就是大家現在日常用得非常習慣的ChatGPT,其實這些語料模型背後都需要有意義的資料。
5 林次長宜敬:是。
6 陳委員培瑜:我們來看一下現在的狀態,在臺灣,2025年1月20日雜誌公會推「內容有價、侵權有罪」這件事情,而且有相關的訴訟正在進行,我相信你是清楚的……
7 林次長宜敬:是。
8 陳委員培瑜:我就不再贅述。其實不只新聞媒體的內容有價,過去傳統出版產業的內容也是有價的。
9 在訓練這些語料模型上,我們看到加拿大,他們有這個負面的例子,就是跟臺灣一樣,他們控告OpenAI在未經許可而且沒有付費的情況下,盜取新聞機構數以百萬計受版權保護的文章,於是這5個新聞機構就對OpenAI提起訴訟,目前訴訟正在進行中,這個是比較負面的例子,跟臺灣一樣。可是我們也看到正面的例子,ChatGPT花錢跟很多英國媒體合作,從大型的衛報媒體集團開始,他們用付費的方法取得授權使用這個資料,尤其在ChatGPT的Search版,我們看到他們都是用這些我們認為非常精緻的語料資料餵給這個模型,於是產出的內容就變得相對有意義,其實很多使用者也都大聲叫好!我要說有訴訟的部分,也有付錢取得合理合法授權的部分,所以看起來這件事情此時此刻正在世界上發生。
10 我看到數發部在3月3日有這個新聞稿,我相信這應該是數發部主動提供的。次長,在相關的媒體報導中,您說將建立臺灣主權AI訓練語料庫,鬆綁著作權法,而且要免費提供訓練語料給國內、國外的大型語言模型,讓他們使用臺灣的資料,減少AI廠商與內容擁有者的著作權糾紛。我一路講到現在,這個意思就是臺灣的數發部看起來知道世界的趨勢……
11 林次長宜敬:是。
12 陳委員培瑜:就是有訴訟的部分,也有合法合理授權的部分,看起來數發部現在在這件事情上想要採一個角色,就是協助內容擁有者與語料廠商、AI廠商找到一個合作的可能性,而不要踩進訴訟這件事情,所以您在這個新聞稿當中說要免費提供訓練語料。我想要問一下,這個idea是怎麼來的?
13 林次長宜敬:因為我們在於要拿資料去訓練AI model的時候,到底這些AI model的廠商要不要付費來取得這些資料……
14 陳委員培瑜:給這些內容擁有者。
15 林次長宜敬:這件事情本身是一個兩難,一方面是內容的擁有者覺得絕對要收錢,可是對於這些大型的AI模型來講,其實我也跟他們溝通過,對於使用臺灣的資料來訓練模型,事實上,他們是很有疑慮的,不是因為他們付不起錢,而是他們擔心會侵權,而且他們覺得要花很多的時間跟臺灣的內容擁有者去做negotiation……
16 陳委員培瑜:談判,對。
17 林次長宜敬:去跟他談判,他們擔心的是這個部分,結果造成的狀況是,像ChatGPT,或者是Llama,或者是這種外國的模型,在選擇中文語料庫的時候,常常是拿中國的語料庫,因為中國比較不注重知識財產權……
18 陳委員培瑜:智慧財產權,對。
19 林次長宜敬:所以那個變得比較容易,比較沒有法律風險,結果最後的結果是很不好的,就是這些大型的……
20 陳委員培瑜:就是當我們用中文問問題的時候,可能就會產出garbage in, garbage out的問題……
21 林次長宜敬:對。
22 陳委員培瑜:所以我先肯定數發部在這件事情上先踩住了一個立場,就是要協助所謂的內容擁有者與國內外的AI廠商,但問題也就來了,當你喊出想辦法先找到免費授權或者是沒有著作權的各式各樣語料為優先,我覺得這是很重要的一步,但是我自己來自於所謂的內容產業界,我必須要說,臺灣生產內容的這些創作者,不管是楊双子(他最近得了美國國家圖書獎),或者是很棒的動畫廠商,或者是我們在波隆那得大獎的插畫家,這些都還只是我簡單的舉例,這些有意義而且高品質的素材可能才是下一步數發部的挑戰……
23 林次長宜敬:沒錯,是。
24 陳委員培瑜:也就是我們剛開始先促成了這個合作的橋梁,可是當這些語料廠商、AI廠商說他們想要更多很棒的資料,來產出有意義的內容,讓公司的發展是有價值的,數發部未來要如何協同文化部協助這些內容擁有者真的可以找到一個合理的對談模式對這些AI廠商?
25 林次長宜敬:首先,在政策上面,我們是主張,如果沒有經過正式授權的話,這些語言模型不能隨便拿臺灣的這些語料去……
26 陳委員培瑜:當然,這個非常非常重要,免得遇到像加拿大那個訴訟一樣。
27 林次長宜敬:對,我們剛剛講,除了我們提供免費的以外,我們認為高品質的這些語料應該要正式取得授權,而且付費,在法律上面,我們與文化部一起合作想辦法建立出一個規則、一個計價的方法,降低這個negotiation的成本,這樣子的話,不管是臺灣或者是國外的大型語言模型(LLM),會更方便、更快速的取得這些語料,就如同我們剛才所講的,其實他們真正在乎的不是付多少錢,因為對他們來講,這些錢不是很大的金額,他們在乎的是協商的成本以及法律侵權的可能性……
28 陳委員培瑜:還有就是跨國文化之間的不同……
29 林次長宜敬:是。
30 陳委員培瑜:我必須要這麼說,讓像OpenAI這些廠商到臺灣來找到這些內容擁有者直接對話其實是困難的,但如果透過數發部與文化部合作的平臺,假以時日,真的希望在臺灣我們也可以聽到很棒的case,就是像他們跟衛報買相關內容一樣,作為繁中語料,在整個OpenAI的模型或是其他廠商的模型當中,是有意義的,雖然你在新聞稿上說這個其實需要花一些時間……
31 林次長宜敬:是。
32 陳委員培瑜:最後我的建議是我們有沒有機會請數發部與專家學者、受到影響的產業代表、智財局、國科會、文化部等相關單位共同研擬相關的進度,我希望有機會在3個月內召開會議,6個月內提供相關規劃報告,是有機會的嗎?
33 林次長宜敬:報告委員,我們會朝這個方向努力。
34 陳委員培瑜:好,我想所有內容業者及所謂的AI廠商都非常期待,在部會的協調之下,真的幫他們找到一個合理而且合法的對話窗口,好嗎?
35 林次長宜敬:是,好。
36 陳委員培瑜:好,謝謝次長,謝謝主席。
37 林次長宜敬:謝謝委員。
38 主席:謝謝陳培瑜委員。
39 現在請黃國昌總召質詢。
公報詮釋資料
page_end 148
meet_id 聯席會議-11-3-23,22-1
speakers ["林國成","王鴻薇","張啓楷","洪孟楷","林宜瑾","伍麗華Saidhai‧Tahovecahe","葛如鈞","范雲","林俊憲","蔡其昌","許智傑","郭昱晴","徐富癸","李昆澤","何欣純","陳素月","邱若華","廖先翔","魯明哲","陳培瑜","黃國昌","楊瓊瓔","羅廷瑋","吳沛憶","葉元之","游顥","林楚茵","蔡易餘","張雅琳","柯志恩","萬美玲","黃健豪","劉書彬","翁曉玲"]
page_start 61
meetingDate ["2025-05-01"]
gazette_id 1144501
agenda_lcidc_ids ["1144501_00003"]
meet_name 立法院第11屆第3會期交通、教育及文化委員會第1次聯席會議紀錄
content 一、審查委員林楚茵等17人擬具「新聞媒體與數位平台議價法草案」案;二、審查委員羅廷瑋等 16人擬具「新聞媒體與數位平臺強制議價法草案」案;三、審查委員王鴻薇等20人擬具「新聞媒 體與數位平臺強制議價法草案」案;四、審查台灣民眾黨黨團擬具「新聞媒體與數位科技平台公 平發展法草案」案;五、審查委員林宜瑾等21 人擬具「數位新聞發展與民主韌性法草案」案; 六、審查委員范雲等21人擬具「數位新聞發展與民主韌性法草案」案【僅進行詢答】
agenda_id 1144501_00002