定制加工
IE(关键词)—通过T5验证提示如何设计,细节原文阅读:A Preliminary Study on Prompt-based Unsupervised Keyphrase Extraction
2025-01-03 05:51

A Preliminary Empirical Study on prompt-based Unsupervised Keyphrase Extraction

基于提示的无监督关键词提取初步实证研究

paper:https://arxiv.org/abs/2405.16571

github

本文探索的是基于提示的LLM在关键词抽取中的效果,也就是说,通过实验不同提示下的性能,从而分析提示工程的设计效果。主要方法是通过传统的方法获取候选关键词,然后将文档和候选关键词输入到T5中,候选关键词模版输入到decoder中,判断每个候选关键词的序列输出概率来作为其重要性指标,选择k个概率最高的作为最终的关键词,从而评估提示模版的设计。

介绍LLM中的基于提示的学习

基于提示的学习是一种新的范式,它取代了在下游任务中对大型预训练语言模型进行微调的做法。在本文中,我们利用编码器-解码器架构的大型预训练语言模型的能力,分析了用于无监督关键词提取的不同提示。

介绍本文主要的工作

在本文中,从原始文档中提取候选关键词后,将输入文档输入编码器,并计算解码器通过设计的提示生成候选关键词的概率。概率越高,候选关键词就越重要。实验结果表明

  • 设计复杂的提示不一定比设计简单的提示更有效
  • 设计的提示中个别关键词的变化会影响整体性能
  • 面对长文档时,设计复杂的提示比设计简单的提示性能更好。

本文设计的具体流程

  • 通过启发式规则从文档中提取候选词。
  • 获得候选词后,我们首先将文档纳入设计好的提示语,作为编码器的输入,然后将候选词输入解码器计算候选词的生成概率,作为设计好的提示语的重要性得分。
  • 最后,利用重要性得分对关键词进行排序和提取。

1.首先是候选关键词的抽取(利用以前的做法,即基于统计的方法

在本文中,使用常见做法,使用正则表达式 提取候选关键词。

2.重要性评估

用原始输入文档填充编码器模板,获得解码器模板与候选词的序列概率 ,计算一个候选词的概率如下

其中, 是每个候选关键词的长度。在这里,我们使用(其值为正)来评估候选关键词的重要性。然后,选择得分最高的 候选关键词作为最终的关键词集。

预训练的大型语言模型可以通过人类设计的提示条件执行自然语言处理下游任务。然而,基于提示的方法往往需要 "提示工程 "来设计不同的提语,这些提示主要是通过费力的试错手工制作而成,需要人工干预和专业知识。在构建基于提示的关键词提取方法时,这是一个具有挑战性的问题。因此,我们调查并研究了不同提示在关键词提取任务中的有效性,以验证精挑细选的提示语对关键词提取性能的影响。在六个基准关键词提取数据集和不同的预训练大语言模型上的广泛实验结果表明(1)设计复杂的提示不一定比设计简单的提示更有效(2)设计的提示中个别关键词的变化会影响整体性能(3)面对长文档时,设计复杂的提示比设计简单的提示语性能更好。

关键词提取的目的是从输入文档中自动提取一组短语,以概括其核心主题和主要信息 Hasan 和 Ng (2014);Song 等人 (2023)。一般来说,关键词抽取模型是在许多文档-关键词数据对上进行训练的,Sun 等人(2021;Song 等人(2021;2023b, 2022a)。这些模型展示了从给定文档中获取关键词的卓越提取能力,尤其是基于大语言模型(LLM)的关键词提取系统。然而无论是在无监督还是有监督的情况下,基于提示的关键词提取模型所提取的关键词质量都取决于输入提示的质量。为基于大型预训练语言模型的关键词提取模型设计适当的提示语具有挑战性,Wu 等人(2022;Song 等人(2023;Kong 等人(2023)。

介绍LLM中的基于提示的学习

在自然语言处理领域,基于提示的学习是一种新的范式,它取代了在下游任务中对大型预训练语言模型进行微调的做法。与微调不同,自然语言的提示形式更符合模型的预训练任务。基于提示的学习已被广泛应用于许多自然语言处理任务中。在本文中,我们利用编码器-解码器架构的大型预训练语言模型的能力分析了用于无监督关键词提取的不同提示

如图 1 所示,提取关键字词的一般过程使用基于编码器-解码器的大型预训练语言模型。这意味着提示的设计直接影响到基于提示语的关键词提取模型的性能。通常情况下,有效提取关键词的提示主要是通过费力的试错手工制作的,需要人工干预和专业知识 Kong 等人(2023;Song 等人(2023,e)。然而,以往关于关键词提取的研究并没有系统地尝试和分析是复杂的提示还是简单的提示更有效。

介绍本文主要的工作

在本文中,我们直接利用具有编码器-解码器架构的大型预训练语言模型来测量相似度,而无需进行微调。具体来说,从原始文档中提取候选关键词后,我们将输入文档输入编码器,并计算解码器通过设计的提示生成候选关键词的概率。概率越高,候选关键词就越重要。在六个基准关键词提取数据集和不同模型上的实验结果表明(1)设计复杂的提示不一定比设计简单的提示更有效(2)设计的提示中个别关键词的变化会影响整体性能(3)面对长文档时,设计复杂的提示比设计简单的提示性能更好。

一般来说,无监督关键词提取方法分为三类基于统计的模型、基于图的模型和基于嵌入的模型。基于统计的模型 Jones(2004;Campos 等人(2018)通过利用每个候选关键词的统计特征,如频率、位置、大小写和其他捕捉上下文信息的特征,来估算其重要性得分。基于图的模型 Mihalcea 和 Tarau(2004 年;Bougouin 等人(2013 年;Boudin(2018 年)首先由 TextRank Mihalcea 和 Tarau(2004 年)提出,该模型将每个候选关键词视为一个顶点,根据候选关键词的共现情况构建边,并通过 PageRank 算法确定顶点的权重。

基于嵌入的模型 Saxena 等人(2020 年;Sun 等人(2020 年;Bennani-Smires 等人(2018 年;Song 等人(2022 年;Zhang 等人(2022 年)已经实现了 SOTA 性能,这得益于最近预训练语言模型的发展,如 BERT Devlin 等人(2019 年)和 RoBERTa Liu 等人(2019 年)。然而,由于文档和候选文本的长度不匹配,这些算法在长文本上的表现不佳。Zhang 等人(2022 年)通过用屏蔽文档的嵌入替换候选文档的嵌入解决了这一问题,但如果不进行充分微调,就无法利用 PLM。为了解决这些问题,Kong 等人(2023 年)利用基于提示的学习方法进行无监督关键词提取。

在本文中,与现有模型不同的是,我们研究了提示设计在无监督关键词提取任务中的意义,利用了具有编码器-解码器架构的预训练语言模型的能力,如 T5 Raffel 等人(2020 年)。

提示大型语言模型进行无监督关键词提取的主要流程如图 1 所示。根据最近的工作,我们通过启发式规则从文档中提取候选词。获得候选词后,我们首先将文档纳入设计好的提示语,作为编码器的输入,然后通过解码器计算候选词的生成概率,作为设计好的提示语的重要性得分。最后利用重要性得分对关键词进行排序和提取。本文在分析不同提示语的影响时,没有为公平性引入额外的参数设计。

3.1.Candidate Extraction

1.首先是候选关键词的抽取(利用以前的做法,即基于统计的方法

在本文中,我们效仿前人的研究,利用 Song 等人(2023 年)、Zhang 等人(2022 年)的常见做法,在标记化和 POS 标记之后,使用正则表达式 提取候选关键词。

3.2.importance Estimation

2.重要性评估

确切地说,我们用原始输入文档填充编码器模板,每次用一个候选文档填充解码器模板。然后,我们根据预先训练好的语言模型,如 T5 Raffel 等人(2020 年,获得解码器模板与候选词的序列概率 。长度归一化对数似然因其卓越的性能而被广泛使用,Brown 等人(2020)。因此,我们计算一个候选词的概率如下

其中, 是每个候选关键词的长度。在这里,我们使用(其值为正)来评估候选关键词的重要性。然后,选择得分最高的 候选关键词作为最终的关键词集。

我们将介绍所使用的数据集和评估指标、实施细节和结果。

4.1 Datasets

在本文中,我们在六个广泛使用的关键词提取基准数据集上进行了实验,例如 Inspec(Hulth,2003 年)、DUC2001(Wan 和 Xiao,2008 年)、Semeval2010(Kim 等人,2010 年)、Se- meval2017(Augenstein 等人,2017 年)、Nus(Nguyen 和 Kan,2007 年)以及 Krapivin(Krapivin 和 March- ese,2009 年)。

4.2 evaluation Metrics

根据之前的研究(Song 等人,2023d,f,i,g;Kong 等人,2023,本文采用F1对排名前 5、10 和 15 的候选关键词进行评估。在计算 F1 分数时,我们删除了重复的候选关键词,并应用了词干处理。

4.3 Implementation Details

我们采用预训练的语言模型 T5(Raf- fel 等人,2020 年)作为骨干,由其预训练的权重初始化。其中,本文使用了两个版本,如 "T5-base "和 “T5-3B”。此外,我们还使用预训练好的语言模型 Flan-T5-base (Chung 等,2022 年)作为骨干进行实验。与最近的工作类似,为了与 BERT(Devlin 等,2019 年)的设置相匹配,编码器输入的最大长度设置为 512。此外,我们还使用了 Kong 等人(2023 年)的代码来完成本文的实验。不同之处在于,我们没有引入任何可调参数。更多详情,请参阅 Kong 等人 (2023)。

4.4.Results

如前所述,我们在本文中主要侧重于调查和研究不同提示语对关键词提取任务的有效性,以验证筛选出的提示语对提取关键词性能的影响。因此,我们设计了三种适合提取关键词的提示(从简单到复杂)。然后,我们在不同的大型预训练语言模型上进行实验,进一步替换提示语中的关键词,并分析筛选提示语的必要性。所有结果如表 1、表 2 和表 3 所示。接下来,我们将详细分析实验结果。

许多现有方法都试图构建各种提示,例如修改提示中的不同关键词,以获得更好的性能。因此,我们也分析了修改提示中不同关键词对结果的影响。借鉴现有方法(Kong 等人,2023;Song 等人,2023c,e,我们修改了本文使用的三个提示中的关键词,并验证了它们的性能。结果如表 2 所示。从结果中我们可以发现,所设计的提示语(p1,3 , p2,6 , p3,3 )分别获得了最好的结果。但我们发现,在大多数情况下,改变不同的关键词对结果影响不大,这间接说明了构建精炼提示语的有效性,但需要大量的实验。

    以上就是本篇文章【IE(关键词)—通过T5验证提示如何设计,细节原文阅读:A Preliminary Study on Prompt-based Unsupervised Keyphrase Extraction】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/news/19637.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多   
最新文章
手机电量校准教程:解决电量显示不准确问题华为手机电池校正「手机电量校准教程:解决电量显示不准确问题」
如何校准手机电量?校准手机电量主要分为两个步骤:充电操作和软件校准。下面是详细的操作步骤:第一步:充电操作确保手机电量在
转给那些不疼老婆的男人
“曹雪芹在《好了歌》里说‘世人都晓神仙好,只有娇妻忘不了’,可多少人把婚姻过成了坟头的纸钱——活着时争吵算计,失去了才烧
索尼 Xperia 微单手机降至 3879 元,首发价 10999 元,还会再降价吗?ipro手机「索尼 Xperia 微单手机降至 3879 元,首发价 10999 元,还会再降价吗?」
索尼 Xperia PRO-I 微单手机降至 3879 元,首发价 10999 元 11 月 4 日消息,索尼 Xperia PRO-I 微单手机于 2021 年底上市,搭载
旧的手机膜怎么撕下来手机膜怎么撕下来「旧的手机膜怎么撕下来」
随着智能手机的普及,手机膜也成为了我们日常生活中不可或缺的一部分。然而,随着时间的推移,旧的手机膜可能会因为磨损、划痕或
“治未病”理念升温 中医为健康护航
乍暖还寒之际,气候变幻莫测,给体质较弱的人带来了身体上的困扰。 近日,记者在榆次区中医院治未病科看到,前来做按摩、针灸、
手机充电,到底是低于10%充还是用完再充?看完总算不纠结了手机电池充电「手机充电,到底是低于10%充还是用完再充?看完总算不纠结了」
随着科技的发展,手机在日常生活中也非常常见,现在大部分人都是人手一部手机,而且现在手机的功能也是越来越多,除了可以用来通
拳皇97风云再起 v4.3.0安卓免费版拳皇97手机版下载「拳皇97风云再起 v4.3.0安卓免费版」
《拳皇97:风云再起》是拳皇系列作品之一,是一款经典的街机游戏,相信不少朋友都曾经在街机厅中玩过这款游戏,里面的草薙京、八
手机游戏盒子排行榜第一 目前最好用的游戏盒子推荐手机游戏盒子「手机游戏盒子排行榜第一 目前最好用的游戏盒子推荐」
,手机游戏盒子排行榜第一是什么?游戏盒子通常包含了海量的游戏资源,从热门大作到小众独立游戏,涵盖了各种类型,如动作、冒险
腾讯手机管家官方版 v16.1.21安卓版腾讯手机管家官网下载「腾讯手机管家官方版 v16.1.21安卓版」
《腾讯手机管家app》送给大家,让你的手机享受最安全的极致体验,腾讯出品的手机管家软件,操作简单,功能齐全,安全防护手机。
霍山县凡冲村:茶旅融合绘就乡村振兴新画卷
茶旅融合绘就乡村振兴新画卷。霍山县委宣传部春和景明,茶山叠翠。霍山县与儿街镇凡冲村层层叠叠的茶园错落有致,从山下望去,茶