搞好了电脑版soul，总结一下前一阵看过的工作： # Parameter-Efficient Fine-Tuning �

作者: Freddy发布时间: 2024-10-28 12:24:22 浏览:19 次发布地: 天气: 晴

搞好了电脑版soul，总结一下前一阵看过的工作： # Parameter-Efficient Fine-Tuning 预训练语言模型具有很低的“内在维度”（intrinsic dimensionaltiy），仅通过更新少量参数就可以实现full fine-tuning相同的效果。Facebook AI的ACL'21 paper在低维空间学习参数并通过确定的随机变换投影到原维度，作为模型参数的更新值。定义“内在维度”为：使得微调效果可以媲美full fine-tuning的最低参数空间维度。这篇文章提出一个很有意思的观点：语言模型的预训练在降低模型的内在维度，使得模型更容易推广到其它领域。虽然auto-regressive pre-training并不涉及下游任务，预训练仍然可以看成是在学习对下游任务的压缩。这篇文章从compression的角度给出generalization bound，说明预训练模型的泛化性能并不取决于本身的参数量，而取决于对下游任务的压缩效果，即intrinsic dimensionality。由此衍生的应用：Prefix-tuning, Prompt-tuning, (IA)3, LoRA。最近的研究热点：如何同时支持多个下游任务。方法一：Task-specific adaptor。需要通过activation-modifying methods实现，每个task绑定专属activation，可以在一个batch内包含不同任务的样本。方法二：Model-merging。综合不同adaptor学到的东西实现multi-tasking：ICLR'24, ACL'24的Mixture-of-LoRAs。 # In-Context Learning GPT-3开始，预训练模型可以直接从context中的样本学习，不需要调整模型参数。有些工作试图从理论解释为什么in-context learning会发生。ICML'23的一篇文章提供了一个meta-learning的视角：Auto-regressive pre-training作为outer loop学习一套模型参数，使得模型在inference time的一个forward pass中执行了某种基于in-context样本的梯度下降。文章构造了一套参数使得，一层linear self-attention执行一次梯度下降，多层self-attention执行iterative curvature correction（没看懂），MLPs作为kernel function引入非线性。有一些很有意思的发现，比如softmax layer具有copy mechansim，可以把多个token的信息整合到一个token（效果不同于linear attention中对value的加权和）。 # LLM Alignment AI Agent需要把LLM对齐到人类的价值观。RLHF涉及PPO-based online RL所以不稳定，DPO提出了一种reparameterization，把reward用该reward下最优policy代替，带入到Bradley-Terry Model做极大似然估计，直接得到policy。 #LLM #MachineLearning #AI 第二弹可能总结一下LLM Agent相关的工作，欢迎subscribe。

评论：
🦁: 虽然看不懂但是还是点个赞
落日海盐巫女: 看不懂但我感觉你能给它重新编程或者在你那个端口给它做改动
Souler: 做sys的路过……

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！