多家科技巨头提醒员工：不要泄露！不要泄露！

在OpenAI开放测试后，ChatGPT风靡全球，用户仅两个月就达到1亿。这是基于GPT-3.5的AI驱动的聊天机器人，已经成为互联网发展20年来增长最快的消费者应用。然而，随着它的普及，ChatGPT也面临着数据安全的争议。

南都大数据研究所注意到，微软、亚马逊等一些企业也提醒员工不要与ChatGPT分享敏感数据，同时科技巨头整合ChatGPT或布局“ChatGPT”产品应用。

ChatGPT培训数据的安全性引起了各方的高度关注。例如，从互联网上获取大量数据进行模型培训是否合法？生成的文本是否会被恶意使用？如何防止人工智能在不良数据上构建和培训？OpenAI在个人要求时能否完全从模型中删除数据？一些法人甚至呼吁加强对更多潜在问题的人工智能监督。

亚马逊和微软提醒员工不要泄露数据

自今年年初以来，在发现ChatGPT生成的文本中存在疑似商业秘密后，许多科技巨头开始提醒员工在使用ChatGPT时不要输入敏感信息数据。

据硅谷媒体报道，亚马逊的律师表示，他们在ChatGPT生成的内容中发现了与公司秘密“非常相似”的文本，这可能是因为一些亚马逊员工在使用ChatGPT生成代码和文本时输入了内部数据信息，律师担心输入的信息可能被用作ChatGPT迭代的培训数据。

巧合的是，一些微软员工在内部论坛上询问ChatGPT或开发商OpenAI在工作中推出的产品是否可以使用。微软首席技术官（CTO）办公室的一位高级工程师回应说，只要员工不与ChatGPT分享机密信息，他们就可以在工作中使用，但不要向OpenAI终端发送敏感数据，因为OpenAI可能会用于未来模型的培训。

复旦大学计算机科学技术学院教授韩伟力表示，人们不应该分享个人敏感数据和企业敏感数据。

ChatGPT训练数据集作为一种大型语言模型，包括TB级的大量互联网文本数据、代码、诗歌、法律文件和自然对话。许多软件开发工程师试图使用ChatGPT作为他们的代码助手。ChatGPT可以根据用户提供的代码片段或描述生成代码规范甚至完整的实现方法。在提供描述的过程中，数据泄露可能成为一个问题。

ChatGPT收集的训练数据合法吗？

像ChatGPT这样的大型语言模型需要大量的自然语言数据，其训练数据的来源主要是互联网，但开发人员OpenAI并没有详细说明数据来源。由于ChatGPT提供商业服务并从中获利，许多人认为开发人员在收集培训数据时需要面临更多的限制 ChatGPT 还需要披露数据的方法。

从互联网上获取大量数据合法吗？如今，随着基于transformer的ChatGPT和许多大语言模型的出现，训练数据的法律问题引起了人们的关注。

欧洲数据保护委员会（EDPB）Alexander成员 Hanff质疑ChatGPT是一种商业产品。虽然互联网上有很多可访问的信息，但从禁止第三方爬行数据条款的网站上收集大量数据可能违反相关规定，不合理使用。此外，还应考虑GDPR保护的个人信息。爬行这些信息是不合规的，此外，使用大量原始数据可能违反GDPR的“最小数据”原则。

一些网络安全从业者告诉南都大数据研究所，虽然网站可以设置，包括robots.txt根文件、嗅探访问者信息等软方法可以防止网站内容随意爬行。目前，没有100%可靠的方法可以防止可访问的网页内容被爬行。

相关专家还承认，包括OpenAI在内的公司可以使用“合理使用”条款，避免收集互联网数据产生的法律责任，包括收集科研、教学、新闻报道、批评等公共事业的数据。然而，OpenAI提供的类似ChatGPT的模型调用服务是否适用“合理使用”条款仍存在争议。

北京志德律师事务所合伙人兼合规部主任王毅表示，从互联网上获取数据并不当然是违法的，但要确保爬虫技术不应侵犯个人和平台的权利，也不应破坏互联网的公共管理秩序。建议从三个方面划定合法使用数据爬虫技术的边界：

一是网络爬虫应局限于开放数据的获取；

二是合法使用的数据爬虫技术不应具有侵入性；

第三，数据爬取应以正当目的为基础。

OpenAI能否遵循数据删除权？

根据OpenAI官方网站发布的隐私政策，OpenAI没有提到欧盟GDPR等数据保护法规。在“使用数据”条款中，OpenAI承认用户在使用服务时会收集输入的数据，但没有进一步解释数据的使用。

根据GDPR第17条，个人有权要求删除其个人数据，即“被遗忘权”或“删除权”。然而，ChatGPT等大语言模型的一个问题是，深度神经网络能否“忘记”用于训练自己的数据？业内人士认为，OpenAI在个人要求时是否能从模型中完全删除数据，这类模型很难删除个人信息的所有痕迹。此外，这种模型的培训成本很高，人工智能公司不太可能在个人要求删除一些敏感数据后重新培训整个模型。

在技术层面，深度神经网络的黑箱特性也大大增加了类似ChatGPT的大语言模型中跟踪和追溯敏感数据的难度。

北京师范大学网络法治国际中心执行主任吴沈括认为，从数据安全的角度来看，无论是数据采集、收集、处理还是计算结果输出，各环节都存在风险，在高智能、高自动化的新应用场景中，也存在更高的数据安全风险。

随着大语言模型的发展，相关人士也担心它可能会被恶意使用。例如，使用大语言模型，攻击者可以在输入少量文本后生成大量文本，可以用来实施各种恶意活动，包括攻击数据库用户名+密码、编写恶意软件代码、发布大量假新闻、诽谤文章或仇恨内容。

声音：关注新法律、新规定对生成人工智能的监管

采访专家表示，ChatGPT的数据安全值得关注。包括培训数据是否保护个人信息，收集个人敏感信息是否单独同意，收集和使用过程中是否会侵犯企业商业秘密，以及隐藏的算法歧视是生成人工智能模型需要注意的数据安全问题；此外，使用ChatGPT编写恶意软件代码，类似的使用不仅会威胁网络安全，还会对国家安全造成隐患。

律师王毅表示，如何有效监督人工智能技术的应用，有效防范相关风险是世界各国关注的焦点。人工智能技术应用的监督已从理论讨论转向立法和执法实践阶段。对于更多的潜在问题，我们需要始终关注新法律和新法规对生成人工智能的监管。

对于平台，首先要保证获取培训数据的合法性，包括爬虫技术的合法使用和个人信息的合法处理；对于用户，企业信息和个人信息应在使用过程中得到保护，敏感信息应按要求承诺或单独同意，不得使用类似的生成人工智能进行刑事犯罪，危害网络和社会安全。

今年年初大火的ChatGPT和前段时间引起热烈讨论的AIGC都属于生成AI。国内巨头也在开发类似的产品，实现声音、图像甚至视频的生成，同时提供互动生成文本产品。目前，我国人工智能技术应用监督相关立法仍处于起步阶段，主要发布了互联网信息服务算法推荐管理规定、互联网信息服务深度合成管理规定等部门规定，人工智能技术应用监督相关执法仍属于九龙水模式，加快构建完善的人工智能监督法律框架，明确监管机构具有重要意义。

吴沈括表示，在当前数据所有权定义不明的历史过渡阶段，数据捕获和数据集成的合规问题必然更加突出。目前，ChatGPT的商业实施尚未完全显示，矛盾并不尖锐，但随着商业应用的推广，各方之间的利益纠纷将更加突出，数据安全问题将更加明显和频繁。在开发过程中，平台应注意法律和伦理要求，用户也应提高筛选意识。目前，ChatGPT的计算和输出结果尚不可验证和绝对可靠。

原标题：“多家科技巨头提醒员工：不要泄露！不要泄露！”

多家科技巨头提醒员工：不要泄露！不要泄露！

相关推荐

芝士加速公众号