楼主: 李柏呈

2022搜狐校园算法大赛 NLP赛道第一名方案分享

20
回复
236
查看
[复制链接]

微信扫一扫 分享朋友圈

2

主题

16

帖子

29

积分

新手上路

Rank: 1

积分
29
发表于 2022-9-22 09:26:21 | 显示全部楼层
你们在什么机器上训练的呢?用kaggle的免费gpu来做这个比赛是不是不够?
回复

使用道具 举报

0

主题

8

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2022-9-22 09:27:15 | 显示全部楼层
嗯就是看到你说你不认为这是prompt的解释感觉很强行……但是idea是很不错的,学习一个[赞同]
回复

使用道具 举报

2

主题

14

帖子

26

积分

新手上路

Rank: 1

积分
26
发表于 2022-9-22 09:27:34 | 显示全部楼层
我们比赛用的机器是24G的3090 稍微差一点的gpu也能跑得起来
回复

使用道具 举报

2

主题

18

帖子

31

积分

新手上路

Rank: 1

积分
31
发表于 2022-9-22 09:27:48 | 显示全部楼层
模型设计上挺有趣的
回复

使用道具 举报

3

主题

11

帖子

24

积分

新手上路

Rank: 1

积分
24
发表于 2022-9-22 09:28:10 | 显示全部楼层
学到了
回复

使用道具 举报

1

主题

16

帖子

29

积分

新手上路

Rank: 1

积分
29
发表于 2022-9-22 09:28:30 | 显示全部楼层
总的来说,sep之后的第二句话广义上也算是prompt吧(楼上评论也说了)。感觉比灵境组强的地方,还是在MLP层的模型参数量,减少许多无用功。话说NLP里面对情感这类有序标签的分类,没有一些特殊的做法吗[思考]?感觉拿mask直接过MLP得到5维的标签概率有点普通(另外天少马牛逼[机智])
回复

使用道具 举报

1

主题

8

帖子

15

积分

新手上路

Rank: 1

积分
15
发表于 2022-9-22 09:28:59 | 显示全部楼层
胡老师竟然也看到了而且还发现了盲点[doge]这题情感标签确实应该是有大小的,所以比赛过程中使用过回归目标(-2到2的实数值+MSE Loss)来代替分类,预测的时候设置几个阈值,但是线上效果比较差推测一方面是这个回归做得太糙了,另一方面主要原因是这题的线上指标是macro-f1,体现不出大小的差别,对于f1还是分类目标更有效
回复

使用道具 举报

6

主题

12

帖子

24

积分

新手上路

Rank: 1

积分
24
发表于 2022-9-22 09:29:04 | 显示全部楼层
方案比较优雅,感觉实质上也是prompt,学习了
回复

使用道具 举报

1

主题

11

帖子

19

积分

新手上路

Rank: 1

积分
19
发表于 2022-9-22 09:29:28 | 显示全部楼层
做过这个比赛,甚至大佬你提到的trick都试过,也跟不少朋友讨论过,你们复赛score能拉那么高感觉不仅仅是这些trick的原因吧?同时,这个比赛的线上线下分布极其不一致,想问下你们当时的线下f1能到多少呢?(取前90%训练我是没想到的)
回复

使用道具 举报

2

主题

14

帖子

25

积分

新手上路

Rank: 1

积分
25
发表于 2022-9-22 09:29:49 | 显示全部楼层
初赛单模线下77-79 复赛单模线下80-82初赛用随机10%相比后10%验证线上会掉0.5%甚至更多复赛的上分路径是:其他trick+初赛和复赛训练单模75.4--复赛训练单模78.2--四模型融合80.2--伪标签单模80.5--伪标签融合81.7
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表