搞好了电脑版soul,总结一下前一阵看过的工作:
# Parameter-Efficient Fine-Tuning
预训练语言模型具有很低的“内在维度”(intrinsic dimensionaltiy),仅通过更新少量参数就可以实现full fine-tuning相同的效果。Facebook AI的ACL'21 paper在低维空间学习参数并通过确定的随机变换投影到原维度,作为模型参数的更新值。定义“内在维度”为:使得微调效果可以媲美full fine-tuning的最低参数空间维度。这篇文章提出一个很有意思的观点:语言模型的预训练在降低模型的内在维度,使得模型更容易推广到其它领域。虽然auto-regressive pre-training并不涉及下游任务,预训练仍然可以看成是在学习对下游任务的压缩。这篇文章从compression的角度给出generalization bound,说明预训练模型的泛化性能并不取决于本身的参数量,而取决于对下游任务的压缩效果,即intrinsic dimensionality。
由此衍生的应用:Prefix-tuning, Prompt-tuning, (IA)3, LoRA。
最近的研究热点:如何同时支持多个下游任务。
方法一:Task-specific adaptor。需要通过activation-modifying methods实现,每个task绑定专属activation,可以在一个batch内包含不同任务的样本。
方法二:Model-merging。综合不同adaptor学到的东西实现multi-tasking:ICLR'24, ACL'24的Mixture-of-LoRAs。
# In-Context Learning
GPT-3开始,预训练模型可以直接从context中的样本学习,不需要调整模型参数。有些工作试图从理论解释为什么in-context learning会发生。ICML'23的一篇文章提供了一个meta-learning的视角:Auto-regressive pre-training作为outer loop学习一套模型参数,使得模型在inference time的一个forward pass中执行了某种基于in-context样本的梯度下降。文章构造了一套参数使得,一层linear self-attention执行一次梯度下降,多层self-attention执行iterative curvature correction(没看懂),MLPs作为kernel function引入非线性。有一些很有意思的发现,比如softmax layer具有copy mechansim,可以把多个token的信息整合到一个token(效果不同于linear attention中对value的加权和)。
# LLM Alignment
AI Agent需要把LLM对齐到人类的价值观。RLHF涉及PPO-based online RL所以不稳定,DPO提出了一种reparameterization,把reward用该reward下最优policy代替,带入到Bradley-Terry Model做极大似然估计,直接得到policy。
评论:
🍎🦔🍪🐿: 虽然看不懂但是还是点个赞
爱吃锅包肉的冷艳小姨: 看不懂 但我感觉你能给它重新编程或者在你那个端口给它做改动
Hyxz: 做sys的路过……