21世纪经济报道记者钟雨欣徐倩宜
南方财经全媒体记者冯恋阁北京、广州报道
【资料图】
生成式AI再次“引爆”全球舆论关注。3月15日凌晨,OpenAI 发布多模态预训练大模型 GPT-4.据官方介绍,GPT-4支持图像和文本输入,以文本形式输出;文字输入限制提升,能处理超过25000个单词的文本;更具创造力和准确性。
AI浪潮席卷之下,国内大厂奋起直追,一天后,百度发布国内首款对标ChatGPT的产品“文心一言”,并在文学创作、商业文案创作、数理推算、中文理解、多模态生成等多个场景中展现了产品能力。
毫无疑问,AIGC(人工智能生成内容)正在给人类社会带来一场深刻的变革。而剥开其令人眼花缭乱的华丽外表,运行的核心离不开海量的数据支持。多位受访专家表示,ChatGPT等AI技术在数据收集、处理、输出等各环节都可能存在伴生风险,如未经授权收集信息、提供虚假信息、侵害个人隐私等等。监管方和相关企业亟需从制度和技术方面共同发力,加强AIGC领域数据安全保护。
数据泄露、隐私侵害成隐忧
ChatGPT通过大量文本语料库进行训练,其深度学习能力很大程度上依赖于背后的数据。21世纪经济报道记者梳理发现,出于对信息泄露的担忧,目前已有多家公司和机构发布“ChatGPT禁令”。
近日,软银、日立等日本企业已开始限制在商业运营中使用ChatGPT等互动人工智能服务。软银就使用ChatGPT和其他类似应用警告员工称:“不要输入公司的可识别信息或机密数据”。日立则将考虑制定新的道德规则,以规范交互式人工智能的使用。
今年2月,摩根大通成为第一家在工作场所限制使用ChatGPT的华尔街投行。花旗集团和高盛集团紧随其后,前者禁止员工在整个公司范围内访问ChatGPT,后者则限制员工在交易大厅使用该产品。而在更早些时候,亚马逊和微软为防备员工在使用ChatGPT的过程中泄密,禁止他们向其分享敏感数据,因为这些信息可能会被用作进一步迭代的训练数据。
北京师范大学法学院博士生导师、中国互联网协会研究中心副主任吴沈括在接受21世纪经济报道记者采访时表示,ChatGPT作为大语言模型,它的核心逻辑事实上是海量数据的收集、加工、处理和运算结果的输出。“总的来说,这几个环节可能会在技术要素、组织管理、数字内容三个方面伴生相关风险。”
北京航空航天大学法学院副教授赵精武分析,在数据安全和个人信息保护领域,ChatGPT等AI技术的风险主要表现为用户输入的数据存在泄露风险,倘若用户为了完成工作任务,输入了敏感个人信息、商业秘密等信息,这些信息有可能被AI服务提供者留存。
南开大学法学院副院长、中国新一代人工智能发展战略研究院特约研究员陈兵教授进一步指出,根据ChatGPT相关隐私政策可以看到,用户在使用ChatGPT时,会被采集有关用户访问、使用或互动的信息。这意味着,包含用户隐私以及用户对话的数据可能会被OpenAI采集并存储在其数据中心。
“虽然,ChatGPT表示,存储训练和运行模型所需的数据会严格遵守隐私和安全政策,但在未来可能出现网络攻击和数据爬取等现象,仍存在不可忽视的数据安全隐患。特别是涉及国家核心数据、地方和行业重要数据以及个人隐私数据的抓取、处理以及合成使用等过程,需平衡数据安全保护与流动共享。”陈兵说。
除了数据与隐私泄露隐患外,同济大学法学院副教授、上海市人工智能社会治理协同创新中心研究员陈吉栋指出,AI技术还存在着数据偏见、虚假信息、模型的难解释性等问题,可能会导致误解和不信任。
大成律师事务所高级合伙人肖飒则强调了AI技术“文本数据挖掘功能”潜藏的合规风险。她表示,该功能不仅可以“主动”搜集和存储数据,并且能在不断的数据处理过程中形成自己的处理模式。若其所搜集的数据(含个人信息)并未取得合法授权,相关的处理活动就可能涉嫌违法违规。
国内企业引入ChatGPT需注意数据跨境合规
随着生成式AI受到科技界“热捧”,不少企业试图在自身业务中引入和使用ChatGPT服务。而根据ChatGPT运作原理,用户在输入端提问后,信息会传输到OpenAI服务器上进行运算,随后得到相应回答。
记者在手机应用商店搜索发现,不少App打着“AI聊天机器人”“基于GPT提供AI写作”的口号提供服务,有的直称“可接入ChatGPT接口”。
肖飒指出,由于ChatGPT本身具备收集、存储和使用数据的功能,且用户与其对话的数据也会被记录,国内企业若引入ChatGPT服务,可能被认定为数据出境活动。
她介绍,在数据跨境合规方面,我国已经初步形成了相关的法律体系,主要存在三种合规出境方式,即安全评估、个人信息保护认证和个人信息出境标准合同。“相关企业必须依据《数据安全法》《个人信息保护法》等相关规定,管理数据出境活动,依法办事。”
在赵精武看来,如果国内企业试图引入ChatGPT服务,其合规要点在于:一是输入输出数据应当留存于境内;二是需要经由工信部等主管部门审核,获得相应的信息服务资质认证;三是若对用户个人信息权益产生实质性影响,需要进行个人信息安全影响评估;四是如果国内企业属于关键信息基础设施运营者,其引入ChatGPT服务还需要进行网络安全审查。
另外,在执法方面,陈兵表示,对于AIGC涉及的数据跨境流通问题,应当在考虑国际通行标准和做法的基础上,制定合理的跨境数据安全执法规则,加强与其他国家和地区规则的衔接,促进数据安全跨境执法合作。
加强全流程数据合规管理
面对前述潜藏风险,监管方和相关企业如何从制度和技术层面加强AIGC领域的数据安全保护?
吴沈括建议监管侧关注三方面规则。“一是市场的准入和资质规则,确保优良主体进入该市场领域。二是业务监管规则,确保主体的运行符合既定的监管框架要求。三是责任规则,要划定行为红线、责任红线,明确各方主体的责任范围,规范市场秩序。”
“相较于直接针对用户终端采取限制使用等监管措施,明确要求AI技术研发企业遵循科技伦理原则会更具成效,因为这些企业能够在技术层面限定用户的使用范围。”赵精武说。
肖飒表示,对于监管方而言,针对AI这种独特的数据处理方式,最好在现行法律体系之下制定特别的规章制度,以规制企业运用AI各类场景下的数据处理行为。
陈兵认为,在制度层面,需要结合AIGC底层技术所需数据的特性和作用,建立健全数据分类分级保护制度。例如,可根据数据主体、数据处理程度、数据权利属性等方面对训练数据集中的数据进行分类管理,根据数据对于数据权利主体的价值,以及数据一旦遭到篡改、破坏等对数据主体的危害程度进行分级。在数据分类分级的基础上,建立与数据类型和安全级别相配套的数据保护标准与共享机制。
目光投向企业,陈兵建议加快推动“隐私计算”技术在AIGC领域的应用。“这类技术能够让多个数据拥有者在不暴露数据本身的前提下,通过共享SDK或者开放SDK权限的方式,在进行数据的共享、互通、计算、建模,在确保AIGC能够正常提供服务的同时,保证数据不泄露给其他参与方。”
此外,多位专家在采访中强调了“全流程合规管理”的重要性。
“企业首先应关注其所运用的数据资源是否符合法律法规要求,其次要确保算法和模型运作的全流程合规,另外,企业的创新研发应最大限度地满足社会公众的伦理期待。”吴沈括说。
陈吉栋建议企业从数据收集、生产到应用的全生命周期展开制度设计。“同时,技术是法律监管的核心工具,能够确保监管的穿透性,需要用技术守住数据合规底线。”
肖飒也表达了相似看法。她指出,企业应制定内部管理规范,设立相关的监督部门,对AI技术应用场景的各个环节进行数据监督,确保数据来源合法、处理合法、输出合法,从而保障自身的合规性。
(文章来源:21世纪经济报道)