利用私人和个性化系统的基础模型

原文链接:https://hazyresearch.stanford.edu/blog/2023-04-18-personalization

机器学习的一个关键承诺是帮助用户完成个性化任务的能力,这些任务可以是普通任务,比如电子邮件分类,也可以是利基任务,比如“根据我的短信写一首歌”。因为我们的个人数据,例如我们的电子邮件和短信往往是私人的,我们的个人系统需要提供强大的隐私保障,高质量,易于使用/低成本。在过去的几年里,基础模型是如何改变隐私和个性化之间的经典分界线的,我们对此感到非常兴奋。

image.png

隐私与质量之间的紧张关系

低训练数据环境。 由于大多数用户缺乏足够的数据在本地从零开始训练健壮的个人模型,因此构建私人-个人系统的大部分努力集中在以下方面:

  • 跨多个对同一任务感兴趣的各方的私人数据进行训练,称为联邦机器学习(FL)。FL通常是由诸如短信自动补全之类的常见任务驱动的,而不是难以组建用户群体的小众任务。直观地说,由于多个方分享信息以训练模型,用户在FL下需要牺牲一定的隐私。

  • 利用现成的公共资源(即模型和数据),并在本地针对个人设置进行修改。从直观上看,这些解决方案是完全私密的——用户使用公共资源,但不泄露任何私人信息——但是更新公共资源的经典机制,即在少量可用的私有数据上进行训练,相当脆弱。

在推理时获取相关知识。 除了对本地或汇集数据进行训练外,许多ML系统还设计为在推理时整合大量动态变化的信息。例如,问答和个人助手系统以及检索增强型语言模型必须处理广泛的用户输入,因此在推理时从数据存储中明确检索相关信息的方法往往大大优于不使用检索的ML方法。不幸的是,现有关于开放式检索的研究假设信息是从单个数据存储中检索的,而不是从私有(如公司代码库、电子邮件、医疗记录)和公共(如Stack Overflow、维基百科和PubMed)资源的现实混合中检索的。在处理多个隐私范围的隐私-质量权衡时,我们缺乏有效的方法。例如,Github Copilot等系统正被广泛采用——为了使用这些,用户牺牲了隐私!当用户在其私人存储库中编写私有代码时,数据被发送至提供代码完成辅助的第三方设备。

image.png

用户拥有不同的资源,并且许多用户的资源有限。 一些用户是拥有丰富资源的大型组织,而另一些则是拥有笔记本电脑和手机的个人。我们越是减小模型大小、训练和推理成本以及通信需求,系统就越容易使用。与此同时,用户设备的硬件性能正在快速提升!

基础模型用于私密和个人系统!

我们非常兴奋地看到基础模型在开发下一代个性化机器学习系统方面的潜力。基础模型是在广泛的网络数据上以自监督方式训练的大型机器学习模型。最近的基础模型表现出一种称为上下文学习的新兴能力,通过简单的自然语言描述或任务提示,可以在推理时适应新任务。

在低训练数据环境中的个人任务。 在 AAAI 2023年隐私保护AI会议上发表的《基础模型能帮助我们实现完全保密吗?》一文中,我们首次将上下文学习与联邦学习等流行的隐私保护方法进行基准测试,这是隐私社区中经典的个性化机器学习基准测试。在这项工作中,我们发现在推理时进行上下文学习与经过训练的基线在各种语言和视觉任务中具有竞争力。此外,基于在本地执行上下文学习以完成个人任务的系统架构不需要泄露任何个人信息,提供了比带有差分隐私的联邦学习更强的隐私保证。

然而,当我们提出这个愿景时,它是一个相当有争议的观点,与联邦机器学习和差分隐私等方法相比,在隐私领域仍然探索不足。例如,《关于大规模公共预训练与差分隐私学习的考虑》一文指出:“Arora和Ré AR22进一步认为,通过利用预训练模型的‘零射击’能力,大型语言模型可以在不损害隐私的情况下(即ϵ=0)为每个个人的个人和敏感数据进行个性化。这一研究方向表明我们已经接近‘解决’隐私学习的问题。确实,随着网络抓取数据集的不断扩大,预训练模型在隐私适应(‘免费’)新任务的能力将会得到进一步提升。我们质疑这种观点,并批判公共预训练和私有微调范式。”

我们的愿景面临的主要挑战和批判是什么?

  • 像斯坦福大学基础模型研究中心的HELM这样的大规模基准测试项目表明,在上下文学习中表现最好的基础模型是庞大且闭源的。有多少组织和用户可以在本地私密地训练和使用基础模型?
  • 基础模型是否只能在与预训练分布相似的个人任务上发挥作用?
  • 用于训练基础模型的训练数据真的是私密的吗?

我们为这些挑战得到社区快速解决而充满活力!在我们的研究中:

解决资源瓶颈以提高可访问性。 首先,我们研究了如何提高小型开源LLM在上下文学习中的有效性以提高可访问性。在我们的ICLR 2023 重点工作《问我任何问题:提示语言模型的简单策略》中,我们开发了一种名为AMA的方法,使开源模型家族(如 EleutherAI,BLOOM,OPT 和 T0)和模型大小(125M-175B 参数)的平均性能提高了10.2%,超过了之前的在上下文学习基线。这种简单策略(在这篇文章中详细介绍)使开源 GPT-J-6B 模型能够在原始 GPT3 论文中用于评估的 20 个热门基准测试中的 15 个上达到并超过少量示例 GPT3-175B(OpenAI 的热门专有模型)的性能。在这些任务中,GPT-J-6B 模型的平均表现优于少量示例 GPT3-175B。

同时,在 Evaporate 中,我们展示了如何将处理数据的基础模型在生成异构半结构化数据存储(例如网页、电子邮件、FDA 和医学报告)的结构化视图的任务中所需的代价渐近地降低。在 16 个实际数据存储中,每个存储有 1 万个文档,我们的方法在完成任务时,基础模型需要对代币进行推断的数量减少了 110 倍。

在我们的 AMA 研究中,我们将注意力集中在了5个在20个任务中没有超过 GPT-175B 的小型开源模型上,我们发现这些任务都需要模型记住大量关于广泛主题的事实(随时间变化)知识。我们同时关注解决这一瓶颈:

在推理时检索相关知识并支持需要超出预训练分布的信息的任务。 在我们与 Meta AI 合作的 TACL 2023 论文《基于检索的系统中公共和私有数据的推理》中,我们首次研究了(1)在多个隐私范围内检索和(2)在多个数据分布(直观地说,公共和私有数据来自不同的数据分布)中检索的开放领域应用问题。我们确定并定义了隐私问题,构建了第一个文本开放领域 QA 基准,以研究两个提出的检索问题,并在所提出的设置中评估了最先进的检索器。

最后,一个重要问题是基础模型预训练数据是否经过合法合规的过程收集。 这是头等大事,研究界正在汇集数据资源以改进未来模型版本 - 请查看 Together's Red-PajamaStanford's Human Preferences 数据集。这些工作进一步补充了关于差分隐私预训练的研究方向

在我们最初提议之后,我们开始看到更广泛的对基础模型在隐私和个性化方面的兴趣和可行性,但仍有很多工作要做。我们很乐意听到您对这些研究方向的想法和反馈。请随时通过 [email protected] 与我们联系!