NLP上分方法:用ChatGPT进行数据增强

ChatGPT数据增强方法

NLP数据增强是指使用各种技术和方法来扩大训练数据集,从而提高自然语言处理(NLP)模型的性能和鲁棒性。

NLP数据增强可以通过多种方式实现,这些技术可以单独或组合使用,下面展示部分常见的方法:

  • 同义词替换:将原始文本中的某些单词替换为其同义词,例如将“好”替换为“优秀”。
  • 随机插入:在文本中随机插入一些单词或短语,例如在句子中插入“有时候”或“通常情况下”。
  • 随机删除:从文本中随机删除一些单词或短语,例如删除一些限定词或形容词。
  • 随机交换:交换句子中相邻的两个单词或短语,例如将“我很喜欢吃巧克力”变成“我巧克力很喜欢吃”。
  • 文本合成:使用不同的句子或段落来生成新的文本,例如将两个句子合并成一个,或将多个段落合并成一个。
  • 增加噪音:向文本中添加噪音,例如添加拼写错误或词汇错误。

ChatGPT中只需要的输入下面的Prompt就可以完成相似的功能:

  • 对句子中单词进行随机同义词替换;
  • 对句子中单词进行随机反义词替换;
  • 对句子中单词进行随机同音词替换;
  • 对句子中单词进行随机错别字替换;
  • 对句子中单词进行随机位置交换;
  • 生成和下面句子含义相似的句子;
  • 对句子先翻译为英文,然后返回为德语,然后翻译为中文;

使用时Prpmpt需要注意:

  • 需要变换的方法
  • 变换为维度(字还是单词)
  • 变换的次数(产生句子的个数)

ChatGPT数据增强案例

文本生成

输入ChatGPT内容:

对每个句子进行改写,输出2份和他含义相近的。

1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频

ChatGPT输出结果:

1.

请问13号是否还有从双鸭山到淮阴的汽车票?

有没有13号从双鸭山到淮阴的汽车票?

2.

随便放一首阁楼里的佛里专辑里的歌曲。

播放阁楼里的佛里专辑中的一首歌曲。

3.

帮我找一下S686在团队竞技中挑战的游戏视频。

我想观看S686在团队竞技中挑战的游戏视频。

回译

输入ChatGPT内容:

对下面的每个句子进行翻译为英文,然后翻译为德语,然后翻译为中文。

1. 还有双鸭山到淮阴的汽车票吗13号的

2. 随便播放一首专辑阁楼里的佛里的歌

3. 我想看挑战两把s686打突变团竞的游戏视频

ChatGPT输出结果:

英文:Is there still a bus ticket from Shuangyashan to Huaiyin on the 13th?

德语:Ist noch ein Busticket von Shuangyashan nach Huaiyin am 13. verfügbar?

中文:还有从双鸭山到淮阴的巴士票吗,日期是13号的?

英文:Play a random song by Buddha in the album Attic.

德语:Spiel ein zufälliges Lied von Buddha im Album Attic ab.

中文:随机播放《阁楼》专辑里的佛里的歌曲。

英文:I want to watch a game video of playing two s686s in Mutation Team Battle.

德语:Ich möchte ein Spielvideo sehen, in dem zwei s686 in Mutation Team Battle gespielt werden.

中文:我想观看在《绝地求生》突变团队竞技模式中使用两把S686进行挑战的游戏视频。

同义词替换

输入ChatGPT内容:

对下面的每个句子中的单词进行同义词替换,分别替换生成3个句子。

1. 还有双鸭山到淮阴的汽车票吗13号的

2. 随便播放一首专辑阁楼里的佛里的歌

3. 我想看挑战两把s686打突变团竞的游戏视频

ChatGPT输出结果:

1.

还有双鸭山到淮阴的巴士票吗13号的

还有双鸭山到淮阴的交通票吗13号的

2.
随便播放一首专辑阁楼里的佛里的音乐
随便播放一首专辑阁楼里的佛里的曲子

3.
我想看挑战两把s686打突变团竞的游戏影片
我想看挑战两把s686打突变团竞的游戏录像

随机删除

输入ChatGPT内容:

对下面的每个句子中的单词进行随机删除,分别生成2个句子。

1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频

ChatGPT输出结果:

1.
还有淮阴的汽车票吗13号的
还有到淮阴的汽车票吗13号的

2.
随便播放一首专辑佛里的歌
随便播放阁楼里的佛里的歌

3.
我想看两把s686打突变竞的游戏视频
我想看挑战s686打团竞的游戏视频

随机插入

输入ChatGPT内容:

对下面的每个句子中的随机添加一些单词,分别生成2个句子。

1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频

ChatGPT输出结果:

1.
还有双鸭山到淮阴的绿色的便宜的汽车票吗13号的吗?
还有双鸭山到淮阴的汽车站的窗口买13号的票可以吗?

2.
随便播放一首专辑阁楼里的佛里的经典老歌吧。
可以在阁楼里专辑里随意挑选一首佛里的歌曲播放。

3.
我想看挑战两把s686打突变团竞的游戏视频,请给我找一些最好的。
你能给我推荐一些s686在突变团竞中的挑战视频吗?

随机交换

输入ChatGPT内容:

对下面的每个句子中的单词进行随机交换,分别生成2个句子。

1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频

ChatGPT输出结果:

1. 
汽车票的双鸭山还有到淮阴13号吗?
淮阴到双鸭山还有13号的汽车票吗?

2.
随便里播放阁一首专辑佛楼的歌
一首随便播放阁楼里的佛专辑的歌

3.
两把s686打挑战想我看突变团竞的游戏视频
突变团竞的游戏视频我想看挑战两把s686打

错别字替换

输入ChatGPT内容:

对下面的每个句子中的字进行替换为错别字,分别生成2个句子。

1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频

ChatGPT输出结果:

1.
还有双鸭衫到淮阴的汽车票吗13号的
还有双鸭山到淮阴的汽车飘吗13号的

2.
随便剖开一首专辑阁楼里的佛里的歌
随便波动一首专辑阁楼里的佛里的歌

3.
我想看挑战两把s686打突遍团竞的游戏视频
我想看挑战两把s686打突变团警的游戏视频

同音词替换

输入ChatGPT内容:

对下面的每个句子中单词随机替换为同音词,分别生成2个句子。

1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频

ChatGPT输出结果:

1.
还有数鸭山道淮阴的汽车票吗13号的
还有双雅闪达淮音的汽车票吗13号的

2.
随便播放一首专辑阁楼里的佛里的歌
随便播放一首专辑隔楼里的佛理的狗

3.
我想看挑战两把S686打突变团竞的游戏视频
我想看挑战两把S686打图变团精的游戏视频

反义词替换

输入ChatGPT内容:

对下面的每个句子中单词随机替换为反义词,分别生成2个句子。

1. 还有双鸭山到淮阴的汽车票吗13号的
2. 随便播放一首专辑阁楼里的佛里的歌
3. 我想看挑战两把s686打突变团竞的游戏视频

ChatGPT输出结果:

1.
还有深圳到上海的航班票吗3号的
没有长春到南京的高铁票吗12号的

2.
随便静音一张单曲酒馆内的死寂的诗
随便跳舞一首专辑森林里的飞蛾扑火的歌

3.
我想玩坚持一把p92打突变模式的游戏视频
我不想看放弃两把akm打团队模式的游戏视频

使用注意事项

通过多次实验我们发现,ChatGPT并不擅长进行复杂或者组合的数据增强,否则生成的效果比较差。

对于每种增强方法,ChatGPT输出的速度也存在明显差异。比如插入同义词或反义词比较慢,但随机单词替换比较快。

ChatGPT本质还是GPT网络,擅长生成文本。因此使用ChatGPT生成相似的句子,可以为分类模型增加精度。

NLP上分方法:用ChatGPT进行数据增强

https://arxiv.org/pdf/2302.13007.pdf

【竞赛报名/项目咨询请加微信:mollywei007】

上一篇

2023 中美生物奥林匹克(BIO USACN)介绍

下一篇

专科生毕业后想要到美国继续深造有哪些途径?

你也可能喜欢

  • 暂无相关文章!

评论已经被关闭。

插入图片
返回顶部