全球要闻：OpenAI被指控偷窃数据?数据安全成大模型产品“阿克琉斯之踵”

2023-06-30 07:01:43 来源： 21世纪经济报道

南方财经全媒体记者冯恋阁 21世纪经济报道记者王俊北京、广州报道

“尽管制定了购买和使用个人信息的协议，但被告采取了不同的方法：窃取。”近日，一批匿名人士以此为理由，向OpenAI，以及其投资方之一的微软公司发起集体诉讼。

(资料图片)

起诉书称，OpenAI从互联网上窃取了3000亿个单词，它们来自“书籍、文章、网站和帖子——包括未经同意获得的个人信息”。

目前这些指控仍是一面之词。不过，这已经不是这家公司第一次陷入数据安全、个人信息泄露相关的指控了。

“OpenAI是否按照其隐私政策合法合理地收集并利用用户个人信息，以及是否有效识别并剔除其训练数据来源中‘偶然’包含的个人信息。可能是该起诉讼的争议焦点所在。”北京大成律师事务所高级合伙人邓志松表示。

以大模型原理构建的生成式人工智能产品，是算力与数据加持下的“暴力美学”，数据是门槛，语料库海量数据存在高度的数据合规风险。拥有1亿用户、数十亿访问量的ChatGPT因为“树大”其问题首当其冲，但以数据为基石的大模型，数据安全问题正变得越来越重要，甚至可能成为产品的“阿克琉斯之踵”。

AI新秀变“数据小偷”？

根据ChatGPT的开发者OpenAI提供的信息，ChatGPT的三个主要信息来源是互联网上的公开信息、从第三方处通过许可获取的信息以及用户或模型训练者提供的信息（如用户与ChatGPT的聊天记录）。

这份将近160页的起诉书声称，OpenAI 秘密从互联网上窃取了 3000 亿个单词，窃听了“书籍、文章、网站和帖子——包括未经同意获得的个人信息”。

具体而言，该集体诉讼的原告认为，为了赢得“人工智能军备竞赛”，OpenAI从ChatGPT的交互对话以及集成ChatGPT的应用程序中“收集、存储、跟踪、共享和披露”数百万人的个人信息，包括产品详细信息、帐户信息、姓名、联系方式、登录凭据、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天日志、使用数据、分析、cookie、搜索和其他在线活动。

原告认为，此举违反了服务协议条款以及州和联邦的隐私和财产法。起诉书指出，这一数据窃取行为的受害人预计有数百万，潜在损失达 30 亿美元。原告诉求则是，要求法院暂时冻结 OpenAI 产品的商业访问和进一步开发。

邓志松告诉21世纪经济报道记者，ChatGPT运行的原理通过“阅读”大量现有文本并学习词语在上下文中的出现方式来预测可能出现在回应中的最可能的词语。此前，OpenAI方面声称不会“主动”收集个人信息用于模型训练，但各渠道训练数据可能“偶然”包含个人信息，人工智能模型可能会从中了解如何在回应用户时正确使用人名、地址等信息，同时它们坚称这些信息不会被用于建立用户画像、广告推广等商业用途。

“OpenAI是否按照其隐私政策合法合理地收集并利用用户个人信息，以及是否有效识别并剔除其训练数据来源中‘偶然’包含的个人信息。这两个问题可能是该起诉讼的争议焦点所在。”邓志松分析，未经用户许可擅自抓取并利用其个人信息，可能涉嫌违反所在司法辖区的个人信息保护法律法规，并构成民事侵权。

不过，受访专家也指出，目前“窃取”暂时仍是原告方的一面之词，还不能据此贸然将OpenAI所实施的个人信息收集活动定性为违法行为。

如何理解数据“窃取”

综合来看，合规、知情-同意成为这起诉讼的风暴眼。

“第一是信息的来源，尤其是训练用的物料是否能说得清、是否合规；第二，在与用户交互的过程中是否涉及到了用户的隐私信息。”数安信CTO崔维友也指出，“窃取”很可能是在用户没有充分知情的情况下拿到了用户的个人数据。

“尽管 OpenIAI对其数据收集和做法 ‘绝对保密’，但就我们了解，该公司使用（至少）5个不同的数据集来训练ChatGPT。”根据起诉书陈述，OpenAI使用的数据集中有部分数据的抓取并不合规。

以WebTex2这一OpenAI "专有 "人工智能语料库为例。原告指出，为了构建这一语料库，OpenAI抓取了社交媒体网站Reddit上所有获得至少3个 "喜欢"（在Reddit上被称为 "Karma "投票）的帖子所链接的所有网页，以及Reddit帖子和相关评论。而Reddit中受欢迎的内容除了来自其网站本身，还包括大量来自YouTube、Facebook、TikTok和Instagram等社交媒体的链接。这些链接及与之关联的个人信息在没有通知相关方获得同意的情况下被大量抓取。

值得注意的是，公开资料显示，今年4月，Reddit官方宣布将对调用其API的公司收费，原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。

袁立志指出，当前人工智能大模型训练数据主要有应用存量数据、商业和开放数据、公共互联网数据和用户使用数据等几大来源，而不同的数据源的使用则各有不同优劣。“要做到完全合规，并不容易。”他直言。

数据安全——大模型产品的“必答题”

人工智能发展的突破得益于高质量数据的发展。大模型的最新进展依赖于更高质量、更丰富的训练数据集。如何判断数据收集行为以及留存的数据内容是否合规，已成为当前相关技术发展亟待解决的问题，更是大模型产品未来健康发展的关键。

“虽然ChatGPT表示，存储训练和运行模型所需的数据会严格遵守隐私和安全政策，但在未来可能出现网络攻击和数据爬取等现象，仍存在不可忽视的数据安全隐患。特别是涉及国家核心数据、地方和行业重要数据以及个人隐私数据的抓取、处理以及合成使用等过程，需平衡数据安全保护与流动共享。”南开大学法学院副院长、中国新一代人工智能发展战略研究院特约研究员陈兵说。

大成律师事务所高级合伙人肖飒则强调了AI技术“文本数据挖掘功能”潜藏的合规风险。她表示，该功能不仅可以“主动”搜集和存储数据，并且能在不断的数据处理过程中形成自己的处理模式。若其所搜集的数据(含个人信息)并未取得合法授权，相关的处理活动就可能涉嫌违法违规。

这已经不是ChatGPT第一次陷入数据泄露的风波。今年3月，其Redis 开源库中的错误导致本 ChatGPT 服务中暴露了其他用户的个人信息和聊天标题。在ChatGPT被接连发现意外泄露用户聊天记录后，意大利数据保护局（Garante per la Protezione dei Dati Personali）于3月底宣布将暂时禁用ChatGPT并对该工具涉嫌违反隐私规则展开调查。加拿大也对OpenAI“未经同意收集、使用和披露个人信息”的投诉进行调查。

但这并不是OpenAI这家公司、ChatGPT这个产品的个例，其暴露出的隐私泄露、存储敏感信息、未授权访问等数据安全问题是大模型产品落地应用后可能普遍面临的问题。

CCIA数据安全工作委员会指出，大模型使用来自互联网的公开文本数据作为预训练数据，这些数据可能包含一些用户的个人信息，这些信息可能被LLM无意中学习和记忆，并在后续的应用中泄露出来。预训练和微调过程中需要对数据进行收集、存储、分析和处理，这些操作可能会侵犯用户的个人信息权利，如知情权、选择权、删除权等。用户可能没有充分的意识和能力来保护自己的个人信息，也没有足够的透明度和监督机制来确保数据处理方遵守相关的法律法规和伦理规范。

并且，由于参数量巨大，大模型需要借助分布式计算和云服务等技术来进行训练和部署，这就增加了数据被窃取、篡改、滥用或泄露的风险。

自ChatGPT发布后，中国企业目前已经发布了超70个基础大模型。雨后春笋般的大模型，在接下来商用过程中如何做到数据合规，已经成为每一个产品需要面对的“必答题”。

在袁立志看来，未来，针对不同的数据来源，企业应采取不同手段保证训练数据合规。原有业务的存量数据，如果用以大模型训练，属于变更使用，需要再次得到用户同意；如果爬取互联网公开数据，则需做好数据清理、匿名化等处理，同时注意爬虫技术本身的法律风险；如果购买商用数据或者使用开源数据，则需要企业内做好相关合规审查，保障安全。至于用户使用过程中产生的数据，如与大模型对话的聊天记录，C端数据在事前告知用户获得同意后使用；接入API使用的B端数据，由于与企业高度相关，模型默认不会收集和使用。

“合规确实是后发的大模型训练者需要面对的棘手问题。”袁立志坦言，从业者只能参照自身现实情况，选择尽可能安全透明、成本可控的方法。

AI的浪潮不会停歇，如何掌好前行的船舵，在企业生存与合规生产间找到平衡向前，或许已经成为第四次工业革命下的时代命题。

标签：

上一篇 : 芝加哥农产品期价29日涨跌不一_时快讯

下一篇 : 最后一页

推荐阅读

全球要闻：OpenAI被指控偷窃数据?数据安全成大模型产品“阿克琉斯之踵”

“尽管制定了购买和使用个人信息的协议，但被告采取了不同的方法：窃取

06-30 07:01:43

芝加哥农产品期价29日涨跌不一_时快讯

芝加哥期货交易所玉米、小麦和大豆期价29日涨跌不一。当天，芝加哥期货

06-30 06:10:12

全球热点！花小一万考PMP项目管理到底值不值

白板板：某大型信息安全平台型产品经理，产品从业3年+，转行做的产品，

06-30 04:59:20

6月29日2年期国债期货主力合约TS2309上行0.04%

6月29日，2年期国债期货主力合约TS2309上行0 04%至101 305，对应期货收

06-30 01:53:42

乔任梁追思会全程回顾乔任梁追悼会

hello大家好，我是大学网网小航来为大家解答以上问题，乔任梁追思会全

06-30 00:37:17

北京朝阳国际人才创业大会启动奖金总额超5千万元_热闻

中新网北京6月29日电(记者杜燕)作为服务国际人才创新创业的“朝阳品牌

06-29 22:43:50

烈士王成龙结婚了吗_烈士英雄王成龙是怎么牺牲的

hello大家好，我是大学网网小航来为大家解答以上问题，烈士王成龙结婚

06-29 21:50:56

搜狗小说app（搜狗小说）|环球关注

来为大家解答以下的问题，狗小说app，搜狗小说这个很多人还不知道,现在

06-29 20:38:58

赞比亚气候适合种植什么水果_赞比亚气候

hello大家好，我是价值网小科来为大家解答以上问题，赞比亚气候适合种

06-29 19:48:26

每日快报!比预计的更热？天津升级高温预警！又要冲39℃

昨天一场降雨如期而至气温下降明显让大家暂时告别了高温天气今天开始津

06-29 18:56:05

深圳鹏达高级中学高三复读部2023年招生简章

2023年6月19日，深圳鹏达高级中学发布了高三复读部2023年招生简章。招

06-29 17:56:16

党的标志简笔画大全_党的标志简笔画图片环球今日讯

你们好，最近小活发现有诸多的小伙伴们对于党的标志简笔画大全，党的标

06-29 17:13:17

生态环境部：力争年内尽早启动全国温室气体自愿减排交易市场

生态环境部：力争年内尽早启动全国温室气体自愿减排交易市场---在今天

06-29 16:54:03

全球今日报丨消息称国产特斯拉Model3电池升级基础款电量将从60kWh升级为66kWh

66kWh的电池包不仅供改款Model3使用，还可作为平台方案供此后的ModelY

06-29 16:29:47

今日聚焦!港媒曝郑欣宜失踪原因：处于放假养病中

港媒曝郑欣宜失踪原因今日，据港媒报道，郑欣宜失踪原因与经纪公司不

06-29 15:47:27

今亮点！世界关注：新时代检察好故事|山东莘县：支持起诉+督促履职解决被遗弃女孩的监护问题

小石榴终于有了好归宿支持起诉+督促履职解决被遗弃女孩的监护问题王先

06-29 15:48:18

天天快看点丨全国“十大最美农村路”：爱尚沂南红色之旅环线

图片：人民网“人人都说沂蒙山好，沂蒙山上好风光。”伴随着那首传唱大

06-29 14:57:57

【天天新视野】ESPN晒特效合成图：想像一下詹姆斯、特雷-杨、布朗尼老鹰三巨头

ESPN官方Instagram今日发文&晒合成图：“布朗尼在我们最新一期2024年NB

06-29 14:42:54

洛克王国屎壳郎怎么得视频_洛克王国屎壳郎怎么得

1、洛克王国屎壳郎不可以捕捉的！屎壳郎第一次出现是在“黑暗边缘的宠

06-29 13:52:34

Modem是什么 mockmodem是什么

Modem是什么Modem是什么？常说的Modem，其实是Modulator(调制器)与Demo

06-29 13:09:54

【时快讯】法国大学世界排名2023完整版_法国大学世界排名

1、法国拥有大量的一流的大学可供大家选择，并且这些大学在国际排名中

06-29 12:59:39

红字装备能强化吗_红字装备怎么强化

1、1 在NPC克伦特处购买“异界气息净化书设计图”，金色小晶块可以分解

06-29 12:11:46

怎么添加网络共享打印_添加网络共享打印机步骤

1、共享打印是指打印机通过数据线连接某一台电脑（主机）设置共享后，

06-29 12:01:13

合庆这里征地，即将开始！_世界独家

合庆这里征地，即将开始！,征地,征收,跃进村,益民村,合庆镇

06-29 11:10:25

人口普查数据分析发现：我国女性终身不育率为5.16%|环球头条

中国青年报客户端北京6月28日电(中青报·中青网记者刘昶荣)国家卫

06-29 10:47:58

6月29日丰宁街道丰宁北区社区卫生服务中心九价HPV疫苗预约指南天天日报

昆明市五华区丰宁街道丰宁北区社区卫生服务中心预约时间：2023-06-2909

06-29 10:22:33

全球消息！腌青菜的做法大全视频_腌青菜的做法大全

1、首先将芥菜清洗干净，然后在阳光下暴晒1-2天。当芥菜的含水量在50%

06-29 10:12:50

【环球新视野】美农生物(301156.SZ)：公司目前已开启宠物市场的探索获得好侣、福贝等标杆客户

格隆汇6月29日丨美农生物301156SZ近期在接待机构调研时表示公司目前已

06-29 09:51:29

开评：三大指数集体低开算力概念开盘走低

证券时报e公司讯，6月29日，三大指数集体低开，沪指低开0 12%，深成指

06-29 09:26:14

广州宝马撞人案二审维持死刑，被告人辩称撞人前无意识未被采信|环球即时看

6月28日上午，广东省高院对广州天河“1·11”宝马撞人案作出终审判决，

06-29 08:50:41

黑龙江省讷河市发布暴雨黄色预警

讷河市气象台2023年6月29日05时17分发布暴雨黄色预警信号：目前讷河市

06-29 08:11:26

线上线下共创生鲜烟火气-焦点热文

线上线下共创生鲜烟火气---经济日报日前携手京东发布的数据显示，当前

06-29 07:54:45

辽宁高速通行费开启电子发票时代|环球时讯

辽宁省高速公路联网收费省级ETC电子发票平台（以下简称“电子发票平台

06-29 06:53:24

胶东故事：招远罗山，鲜为人知的传说|世界观察

罗山远眺老家的村后是一座大山，名曰罗山，是胶东半岛为数不多的高山，

06-29 06:07:44

昇辉科技（300423）：6月28日北向资金增持43.85万股|视点

6月28日北向资金增持43 85万股昇辉科技。近5个交易日中，获北向资金减

06-29 05:04:44

天天热头条丨怎么样才能怀孕双胞胎_怎么样才能怀孕

1、怀孕是一个简单又复杂的过程。2、只有夫妻双方条件都合适，才能达到

06-29 02:43:24

东营市交通违章查询东营交通违章查询官方网站

一、查询流程1 首先打开东营市公安局交警支队官网（http: dysjzd dysg

06-29 00:48:00

【天天聚看点】聚焦信息不对称等问题北京打造数智化养老“新生态”中新社北京分社

中新网北京新闻6月28日电(记者徐婧)针对养老服务信息不对称、供需匹配

06-28 22:52:58

支付宝申请刷掌支付专利：用手机就能实现环球焦点

如今我们在线上可以使用支付和身份识别的方式只有两种，一种则是指纹识

06-28 22:01:01

【关注】4.5万“新员工”瑟瑟发抖！瑞士金融巨头将裁员三轮，人数超过一半，下个月就开始-观速讯

瑞银集团已完成对瑞士信贷的收购，结束了数月来瑞士最大金融机构之一的

06-28 21:17:58

任子行：拟向激励对象146人授予限制性股票1500万股微动态

任子行：拟向激励对象146人授予限制性股票1500万股

06-28 20:54:58

文件打不开了如何恢复_文件打不开了怎么办

1、【问题描述】:突然发现电脑中Word文档图标全部不能正常显示了，而且

06-28 20:11:36

顾问话发展书记谈振兴全球时讯

三秦都市报-三秦网讯（杨天琦记者李杰）树高千尺不忘根，水流万里总思

06-28 19:34:12

二十多岁买什么保险合适（35岁买什么保险合适）_全球看点

来为大家解答以上的问题。二十多岁买什么保险合适，35岁买什么保险合适

06-28 19:00:31

高质量发展调研行|渔民上平台 “沉船”入海底——海南乐东探索建设现代化海洋牧场见闻|天天关注

从海南省乐东黎族自治县龙栖湾向外约8海里，可以看到“普盛海洋牧场3号

06-28 18:22:20

环球今日报丨迈凯轮720S Track Pack美国定价公布

美国是英国制造商迈凯轮(McLaren)的最大市场，迈凯轮在不到十年的时间

06-28 18:05:24

印江法院上演执行“加速度”—20天执行到位830余万元-焦点短讯

接连几天，印江自治县人民法院执行局多次收到当事人的致谢锦旗，为执行

06-28 17:32:39

热点在线丨又一新势力倒闭，还把富士康告上法庭

编者按：本文来自微信公众号超电实验室（ID：SuperEV-Lab），作者：楚

06-28 17:03:53

投资2.6亿！洮南市生活垃圾焚烧发电项目成功并网发电

投资2 6亿！洮南市生活垃圾焚烧发电项目成功并网发电北极星电力网获悉

06-28 16:58:31

创造的“西湘记”何以唱响？

水，是杭州的灵魂。奔腾如龙的钱塘江给了杭州父亲般的澎湃血脉，隔江相

06-28 16:03:03

精彩推送

芝加哥农产品期价29日涨跌不一_时快讯

全球热点！花小一万考PMP项目管理到底值不值

6月29日2年期国债期货主力合约TS2309上行0.04%

乔任梁追思会全程回顾乔任梁追悼会

北京朝阳国际人才创业大会启动奖金总额超5千万元_热闻

烈士王成龙结婚了吗_烈士英雄王成龙是怎么牺牲的

搜狗小说app（搜狗小说）|环球关注

赞比亚气候适合种植什么水果_赞比亚气候

每日快报!比预计的更热？天津升级高温预警！又要冲39℃

深圳鹏达高级中学高三复读部2023年招生简章

党的标志简笔画大全_党的标志简笔画图片环球今日讯

生态环境部：力争年内尽早启动全国温室气体自愿减排交易市场

全球今日报丨消息称国产特斯拉Model3电池升级基础款电量将从60kWh升级为66kWh

今日聚焦!港媒曝郑欣宜失踪原因：处于放假养病中

今亮点！世界关注：新时代检察好故事|山东莘县：支持起诉+督促履职解决被遗弃女孩的监护问题

天天快看点丨全国“十大最美农村路”：爱尚沂南红色之旅环线

【天天新视野】ESPN晒特效合成图：想像一下詹姆斯、特雷-杨、布朗尼老鹰三巨头

洛克王国屎壳郎怎么得视频_洛克王国屎壳郎怎么得

Modem是什么 mockmodem是什么

【时快讯】法国大学世界排名2023完整版_法国大学世界排名

红字装备能强化吗_红字装备怎么强化

怎么添加网络共享打印_添加网络共享打印机步骤

合庆这里征地，即将开始！_世界独家

人口普查数据分析发现：我国女性终身不育率为5.16%|环球头条

6月29日丰宁街道丰宁北区社区卫生服务中心九价HPV疫苗预约指南天天日报

全球消息！腌青菜的做法大全视频_腌青菜的做法大全

【环球新视野】美农生物(301156.SZ)：公司目前已开启宠物市场的探索获得好侣、福贝等标杆客户

开评：三大指数集体低开算力概念开盘走低

广州宝马撞人案二审维持死刑，被告人辩称撞人前无意识未被采信|环球即时看

黑龙江省讷河市发布暴雨黄色预警

线上线下共创生鲜烟火气-焦点热文

辽宁高速通行费开启电子发票时代|环球时讯

胶东故事：招远罗山，鲜为人知的传说|世界观察

昇辉科技（300423）：6月28日北向资金增持43.85万股|视点

天天热头条丨怎么样才能怀孕双胞胎_怎么样才能怀孕

东营市交通违章查询东营交通违章查询官方网站

【天天聚看点】聚焦信息不对称等问题北京打造数智化养老“新生态”中新社北京分社

支付宝申请刷掌支付专利：用手机就能实现环球焦点

【关注】4.5万“新员工”瑟瑟发抖！瑞士金融巨头将裁员三轮，人数超过一半，下个月就开始-观速讯

任子行：拟向激励对象146人授予限制性股票1500万股微动态

文件打不开了如何恢复_文件打不开了怎么办

顾问话发展书记谈振兴全球时讯

二十多岁买什么保险合适（35岁买什么保险合适）_全球看点

高质量发展调研行|渔民上平台 “沉船”入海底——海南乐东探索建设现代化海洋牧场见闻|天天关注

环球今日报丨迈凯轮720S Track Pack美国定价公布

印江法院上演执行“加速度”—20天执行到位830余万元-焦点短讯

热点在线丨又一新势力倒闭，还把富士康告上法庭

投资2.6亿！洮南市生活垃圾焚烧发电项目成功并网发电

创造的“西湘记”何以唱响？

A股三大指数集体收涨，人民币对美元汇率强势反弹

X 广告

行业动态

行业资讯

植物科普

植物收藏

园林景观

绿色生活