ChatGPT说谎竟然是故意的？哈佛大学提出ITI：模型真实性翻倍，计算开销基本为零环球今日报

发布日期： 2023-06-25 08:43:57 来源：手机网易网

新智元报道

(资料图片仅供参考)

编辑：LRS

【新智元导读】GPT内部表征确实存在真实信息，哈佛学者提出ITI引导输出走向事实方向。

大型语言模型，比如ChatGPT经常会在答案中输出错误信息，可能会对用户造成误导，这种现象也被称为模型幻觉（hallucination）。

从直觉上看，语言模型上在训练中肯定是见过正确答案的，只不过在推理过程中丢失了事实信息。

最近，哈佛大学的研究人员提出了推理-时间干预（Inference-Time Intervention，ITI）技术，在推理阶段对模型激活进行变换（shift），将模型输出引导到事实的方向上，干预结果显著提高了LLaMA模型在TruthfulQA基准测试中的性能，将Alpaca模型的真实性从32.5%提高到65.1%

论文链接：https://arxiv.org/pdf/2306.03341.pdf

代码链接：https://github.com/likenneth/honest_llama

研究人员用此技术开发并开源了一个「诚实的LLaMA」模型。

ITI还可以通过控制超参数来调整干预强度，平衡模型的真实性和有用性；ITI没有修改原始模型，也基本没有计算开销；并且ITI也不需要大量的标注数据，只需要几百个样本即可确定事实的真实性方向。

研究结果表明，语言模型内部表征中确实存在事实信息，不过有时在生成时选择了错误事实。

ITI让答案更真实

已经有相关工作在「理解LLMs的内部运作机制」方面取得了进展，其中一个重要的主题是，语言模型的激活空间似乎包含可解释的方向，在推理过程中会发挥因果作用。

研究人员基于这个想法提出了一种增强语言模型事实性的方法，即推理-时间干预，其基本思想是确定激活空间中与事实正确的语句相关的方向，然后在推理过程中向该方向变换激活。

这篇论文主要探索了如何控制模型行为，并在实验中使用开源的LLaMA、Alpaca和Vicuna模型，不过该思想适用于所有GPT风格的系统，但必须可以获得模型的内部激活和计算。

ITI方法还需要一组有标注的问答对，用以确定与模型讲真话有关的注意头和方向。

基本设置

在数据集选择上，研究人员选择了TruthfulQA，可以衡量语言模型在生成答案时是否真实。

数据集中总共包含817个问题，横跨38个类别（例如，逻辑错误、阴谋和常见的混淆点），每个问题平均有3.2个真实的答案，4.1个虚假的答案，以及一个由可信的在线来源支持的金标准答案；然后将TruthfulQA的答案重新编排，总共得到5918个问答对，每个数据样本都有一个二元真实性标签。

需要强调的是，该数据集并没有涵盖「真实」（truth）一词的全部含义，想全部覆盖也不大可能，研究人员主要关注如何避免「常见的人类误解」，未来的研究方向会考虑扩展真实性的概念及评估。

在模型架构上，大型语言模型主要是Transformer层，每层内的主要机制为多头注意力（MHA）和多层感知器（MLP）。

在推理过程中，每个token首先被嵌入到一个高维空间中，该向量作为残差流的起点，最终每个token解码为对下一个token分布的预测；在每一层中，MHA由多个独立的线性运算组成，MLP则容纳了模型中所有非线性运算。

探测真实性

想要提升神经网络的真实性，首先需要判断模型的激活空间内是否存在能真实性或事实性。

识别网络内部表征的一个常用工具是探测（probe），即在网络激活上训练一个分类器作为探测器以区分特定类型的输入或输出。

在事实性检测上，探测器主要检查可以区分真、假答案的注意力头输出值。

于TruthfulQA中的每个样本，研究人员将问题/答案串联在一起，并在最后一个token处取出头部激活作为探测数据集；然后将数据集按4 : 1随机分成训练集和验证集，在训练集上拟合一个二元线性分类器，并使用验证精度来衡量每个头与基准数据性能之间的关系。

实验结果展现了跨注意力头的专用模式，对于每层的多个头，线性探测可以达到基线模型的准确性，不过还是显示出强大性能的潜力，比如准确率最高的是由第14层的第18个头实现的，验证准确性为83.3%

此外，还可以看到各层之间的差异：信息主要是在前面的层中处理的，每层内部都有一小部分注意力头脱颖而出。

通过类似主成分分析（PCA）的方法，可以将激活空间内的维度降低到2，并进行可视化，可以观察到「真实」的概念不止存在于一个方向，而是存在于一个子空间内。

推理-时间干预

上述探测实验描述LLM如何在其注意头之间和内部处理与事实有关的信息，还提出了一种改善基准数据集性能的技术。

如果在推理过程中进行干预，使激活向「真实」的方向转变，那么网络就有可能对基准问题提供更真实的答案。

首先，研究人员并没有选择对所有注意力头进行干预，因为只有一部分注意力头与真实性密切相关，而是只对前K个头的结果进行干预，以使其具有最小的侵略性。

第二个问题在于如何确定用于变换特定头部输出的激活的矢量，因为真、假语句的几何形状都很复杂，在选择变换激活的方向时，可以选择与探测学到的分离超平面正交的向量，他也可以选择连接真假分布的平均值的向量，下表中列出了不同干预方向的比较实验。

Probe weight方向是通过线性探针找到的方向，在这个方向上进行干预，相当于对头部激活做梯度下降，使其被预测为真实的概率最大化。

Mass Mean Shift的工作原理是首先计算真实和虚假激活的平均值，然后使用从虚假平均值指向真实平均值的向量进行干预。

对比一致搜索（CCS）为在只知道内部激活成对信息的情况下找到的方向。

研究人员在TruthfulQA上训练CCS，对每个问题抽取一个真实的和一个错误的答案，由于CCS不接受有标签的输入，所以发现的方向有同等的机会成为真实和虚假的方向，然后使用标签来识别真实的方向以进行干预。

研究人员首先通过验证集上的探测精度对所有注意力头的真假相关度进行排序。把前K个头作为目标集合；然后利用训练集和验证集的激活，估计沿真实方向的激活的标准偏差。

ITI是MHA的一种替代形式，对于未被选中的注意头，θ是一个零向量，相当于将激活沿真实方向移动α倍的标准差。

整个过程对每次next token预测都是自回归地重复的，并且与解码算法的选择是正交的。

公式中有两个关键参数，即干预的注意力头数量K和干预强度α，不过目前还没有关于最佳值的理论论证，只能通过实验探索参数的影响，并通过标准的超参数扫描确定最佳值。

从计算效率角度来看，无论干预了多少个注意力头，ITI只会在每一层增加一个常数向量，可以认为干预措施的计算开销接近于零。

实验部分

用于对比的基线方法如下：

1. 有监督微调（SFT）

SFT是RLHF的第一阶段，研究人员用问题作为提示，用交叉熵损失促使模型生成真实的答案，并惩罚错误的答案。

但如果只用上述操作，交叉熵损失和KL散度会急剧上升，所以还需要交替对问答进行有监督训练和对开放网络文本进行预训练。

2. 少样本提示（FSP）

有研究人员发现，与上下文蒸馏和RLHF相比，indistribution 50-shot提示在TruthfulQA上也是一个有竞争力的基线方法。

但由于提示策略的选择与推理时间控制方法是正交的，研究人员对比了有ITI和无ITI的少样本提示。

3. 指令微调（IFT）

为了了解ITI如何使IFT模型更加真实，研究人员主要选择了两个基于LaMA-7B的模型（Alpaca和Vicuna）执行ITI操作。

研究人员首先寻找控制干预强度的超参数最佳值，最后确定K=48和α=15

从结果来看，少样本提示与ITI的结合取得了最佳结果。

将ITI应用于指令微调模型，寻找并干预其真实性方向的实验中可以看到，ITI明显比基线提高了真实性，还可以被应用在少样本提示或指令微调之上，不过代价是CE损失和KL散度提升相对较低

参考资料：

https://the-decoder.com/honest-llama-new-method-could-make-chatgpt-more-truthful/

标签：

新闻资讯

本月热门新闻

24小时热点

被单位辞退当天不结清工资怎么解决?被公司辞退最多会赔偿几个月的工资?

从什么时候起算商标保护期限?商标权无效的情况有哪些?

工人在工地意外死亡是如何赔偿的?工人在工地意外死亡多久能拿到赔偿金?

单位解除劳动合同必须提前多久通知?解除劳动合同赔偿金单位是如何计算的?

职工办理社保的具体流程是什么?不签劳动合同能不能办理社保?

赔不起违约金会不会坐牢?如何计算合同滞纳金?

精彩推送

当前短讯！为什么选择英语专业(为什么学专业英语?不能吗?)

csgo开箱爆率比较高能秒提入库的网站有哪些?csgo开箱用的钥匙贵吗?

csgo每周能掉落多少个箱子?csgo新手开箱的具体步骤是什么?

ChatGPT说谎竟然是故意的？哈佛大学提出ITI：模型真实性翻倍，计算开销基本为零环球今日报

注册公司没有选好地址能不能注册?更改公司注册地址需要几个工作日?

成立子公司需要准备的材料是什么?子公司和分公司有什么区别?

合伙协议产生纠纷常见的解决方式有哪些?合伙人协议与股东协议有哪些不同?

如何成立一家股份有限公司?设立股份有限公司需要符合什么条件?

企业利润率一般在多少合适?公司利润达到100万要交几个点的税?

列车“掌勺人”的“端午”假期

单位解除劳动合同必须提前多久通知?解除劳动合同赔偿金单位是如何计算的?

工人在工地意外死亡是如何赔偿的?工人在工地意外死亡多久能拿到赔偿金?

从什么时候起算商标保护期限?商标权无效的情况有哪些?

被单位辞退当天不结清工资怎么解决?被公司辞退最多会赔偿几个月的工资?

职工办理社保的具体流程是什么?不签劳动合同能不能办理社保?

云南检察机关严打毒品犯罪推进溯源治理_世界观速讯

【“作风革命效能革命”在云南·典型引路系列报道】陇川县推进桑蚕茧丝绸全产业链发展——培植特色优势富裕一方百姓

假期3天杭州接待游客243.9万人次：据杭州日报，昨日，杭州市文化广电旅游局发布客流量统计数据

全球最新：普里戈任接受白俄缓和局势建议其刑事立案将获撤销

环球速递！红河彝乡垤玛的变与不变

端午假期有多热？飞往成都的机票预订量同比增长3.8倍

塞尔达传说荒野之息dlc黄昏之冠位置图解 dlc黄昏之冠在哪？

俄媒：瓦格纳集团车队开始自俄南部军区司令部建筑附近撤离

官方：切尔西与17岁牙买加国脚理查兹签约，下赛季成年后正式加盟_微资讯

首届俄联邦萨哈（雅库特）共和国与中国地方合作论坛举行

【化学制药】医药生物：降糖减肥双线开花，GLP-1RA开启新成长周期

柳家庄志愿服务队_关于柳家庄志愿服务队概略

佩斯科夫：将撤销对普里戈任的刑事立案

普里戈任称瓦格纳集团车队停止行进调转方向返回营地_全球报资讯

世界今热点：中国和尼泊尔首都间直飞航班复航

白俄罗斯称普里戈任同意停止在俄领土行动_天天快报

世界新资讯：甘肃兰州一企业发生闪爆事故

火影系统类小说完结推荐_火影系统类小说

爱营销电信版下载苹果最新爱营销系统登录-环球滚动

小姨子打理家务，前妻提议再婚

苹果大战（关于苹果大战的基本详情介绍）世界今亮点

司组词语和部首（司组词语）|每日看点

金民灿烤肉_金民灿环球最新

阿尔忒弥斯协定（阿尔忒弥斯）

阿彼察邦《记忆》

每日焦点！花镜

全球速递！俄罗斯卡卢加州关闭该州与周边多州交界地带的公路通行

俄罗斯联邦储蓄银行：今日照常营业现金或外币需求没有增加

资讯：水泥标准规范175-2007_水泥标准规范

Afamasaga Lepuier Rico Tupai

世界消息！主力持仓比例多少适合买入具体分析如下

联合国工业发展组织龚维希：智能制造将为发展带来更多机遇焦点快播

她是禁毒路上“最美志愿者”

每日速讯：保福满屋是什么保险保福满屋保险介绍

全球热点！台式电脑是品牌电脑好还是组装电脑好_买台台式电脑是品牌机好还是组装机好

学生平安险怎么购买有这些方法微速讯

股票大盘黄线和白线怎么看股票大盘黄线和白线是什么

商业贷款转公积金贷款怎么转流程是什么世界即时

云南大学体育学院举办端午浆板比赛

当前短讯！2023年河南省普通高校招生录取控制分数线公布

日本原子能规制委员会委员长：6月28日开始对排海综合设备进行使用前检查环球热资讯

热议：原油基金和南方原油有什么区别原油基金与南方原油的区别是什么

外媒：“瓦格纳叛乱”之际俄军称在顿涅茨克前线击退乌军9次袭击

北交所有哪些交易规则北交所交易规则有哪些

精选！北京：未来三天最高气温略降，但气温仍较高

当前热讯：定期存款时间越久利息越多吗定期存款期限越长利率越高吗

前沿资讯!为什么说存款三年不如存一年款三年不如存一年是什么原因

贴息存款是正常存款吗银行贴息存款有什么风险

当前关注：足协杯｜上海海港淘汰广州队

“边检+边管”执法协作推行2年，昆明边检查获毒品96.011公斤

C视觉·每日一图丨“蓉火”相传谱写成渝“双城故事”新篇（2023年6月24日）

2023全国原野射箭比赛昆明石林落幕体育赛事带动旅游蓬勃发展

云南文旅青年志愿者助力旅游金牌工程

炎炎夏日遇见首尔东航云南新开昆明首尔往返航线天天快资讯

昆明海关1至5月破获毒品走私案件15起、缴毒47.44公斤焦点热文

孩子王加盟费_孩子王加盟吗

地外生命新证据卡西尼号探测器传回惊人发现人类可能并不孤独

俄罗斯顿河畔罗斯托夫市中心交通已恢复

借呗关闭后无法开通了怎么回事？无法开通原因汇总！

俄罗斯别尔哥罗德州州长：将加强对进入该州的管制

信用卡不办理激活手续会怎样？后果十分严重！

住房公积金能救急提取吗？可以救急提取的情况有哪些？当前热文

蚂蚁花呗额度过低怎么办？这些提额方法也许能帮到你！-焦点热议

热头条丨端午假期避暑旅游火热昆明民宿预订量同比增长超35倍

瓦格纳集团强硬回应普京讲话具体是什么情况？每日热议

当前速讯：要是什么就什么造句一年级简单（要是什么就什么造句子一年级简介介绍）

车臣领导人：车臣部队已出发平叛

世界快看：百万医疗险有受益人吗怎么规定的

莫斯科等地实行反恐行动制度俄对瓦格纳组织创始人刑事立案

“瓦格纳”上传创始人和俄副防长谈判录像时间不详|动态焦点

20万房贷怎么还款划算呢？20万房贷提前还贷技巧分享！

双色球开奖时间结果玩法_双色球开奖时间玩法和获奖规则实时焦点

金条逾期一个月会怎么样？逾期一个月的后果严重吗？

大额存单没到期不是本人可以取吗答案是这样的

房贷逾期一个月严重吗？盘点逾期后的严重后果！

还不上借呗了怎么办？协商延期技巧有哪些？

厦门社保余额查询个人账户余额查询_厦门市社会保障卡个人帐户查询|当前简讯

福岛第一核电站将于7月起向普通旅行团开放

欧盟和Meta同意在7月对欧盟在线内容规则实施压力测试-世界通讯

世界今头条！剪不断理还乱，拜仁多特之间的交易：免签莱万，格策狐媚去而复返

微速讯：运能强跑得顺停得稳青藏铁路将迈入动车时代

啥叫经前综合症_什么是经前综合征

竹笋的正确焯水方法,热水焯水不超过5分钟

快讯：昆明江尾村迎来最美荷花季

俄罗斯总统普京发表电视讲话