2022搜狐校园算法大赛 NLP赛道第一名方案分享

胡来财 · 发表于 2022-9-22 09:26:21

你们在什么机器上训练的呢？用kaggle的免费gpu来做这个比赛是不是不够？

稀粥甜米酒 · 发表于 2022-9-22 09:27:15

嗯就是看到你说你不认为这是prompt的解释感觉很强行……但是idea是很不错的，学习一个[赞同]

人间天堂 · 发表于 2022-9-22 09:27:34

我们比赛用的机器是24G的3090 稍微差一点的gpu也能跑得起来

胸毛在燃烧 · 发表于 2022-9-22 09:27:48

模型设计上挺有趣的

焚芸辟蠹 · 发表于 2022-9-22 09:28:10

学到了

海中波涛 · 发表于 2022-9-22 09:28:30

总的来说，sep之后的第二句话广义上也算是prompt吧（楼上评论也说了）。感觉比灵境组强的地方，还是在MLP层的模型参数量，减少许多无用功。话说NLP里面对情感这类有序标签的分类，没有一些特殊的做法吗[思考]？感觉拿mask直接过MLP得到5维的标签概率有点普通（另外天少马牛逼[机智]）

万嘉福朱砂饰品有限公司 · 发表于 2022-9-22 09:28:59

胡老师竟然也看到了而且还发现了盲点[doge]这题情感标签确实应该是有大小的，所以比赛过程中使用过回归目标（-2到2的实数值+MSE Loss）来代替分类，预测的时候设置几个阈值，但是线上效果比较差推测一方面是这个回归做得太糙了，另一方面主要原因是这题的线上指标是macro-f1，体现不出大小的差别，对于f1还是分类目标更有效

盗草仁 · 发表于 2022-9-22 09:29:04

方案比较优雅，感觉实质上也是prompt，学习了

啊我 · 发表于 2022-9-22 09:29:28

做过这个比赛，甚至大佬你提到的trick都试过，也跟不少朋友讨论过，你们复赛score能拉那么高感觉不仅仅是这些trick的原因吧？同时，这个比赛的线上线下分布极其不一致，想问下你们当时的线下f1能到多少呢？(取前90%训练我是没想到的)

白沙洲 · 发表于 2022-9-22 09:29:49

初赛单模线下77-79 复赛单模线下80-82初赛用随机10%相比后10%验证线上会掉0.5%甚至更多复赛的上分路径是：其他trick+初赛和复赛训练单模75.4--复赛训练单模78.2--四模型融合80.2--伪标签单模80.5--伪标签融合81.7