其他
2021年总结
写在前面
大家好,我是刘聪NLP。
2021年转瞬即逝,在这一年中,有过欢笑,有过悲伤,有时努力,有时躺平,不仅在学习上有所收获,也在生活上认识了更多的朋友。2021-12-31,留下这一篇总结一下今年。
学习
2021年,做了许多的论文分享以及开源代码的整理,其中,针对SIGIR2020会议、ACL2021会议以及EMNLP2021会议进行了论文分类,并且附上了对应的论文链接;对部分感兴趣的论文进行论文精读;开源一些代码及项目,并且分享了自己的一些经验。
论文集合
SIGIR 2021论文筛选 ACL2021主会议论文汇总及分类 ACL2021 Findings论文汇总及分类 EMNLP2021会议PaperList EMNLP2021主会议-656篇长文分类-附论文链接 EMNLP2021主会议191篇短文、Findings305篇长文及119篇短文分类-附论文链接
论文精读
SIGIR2021之IDCM模型: 文档内部级联选择段落服务于文档排序 SIGIR2021之DvBERT模型:双视图蒸馏的句向量BERT模型 SIGIR2021论文:基于Text-to-Text多视图学习的段落重排序 难负例如何影响向量检索模型? ACL2021论文之ChineseBERT:融合字形与拼音信息的中文预训练模型 回顾BART模型 常用预训练语言模型(PTMs)总结 EMNLP2021之AEDA:一种更简单的文本分类数据增强技术 EMNLP 2021之SF:一种预训练语言模型的片段微调(Span Fine-tuning)方法
开源
超详细中文注释的GPT2新闻标题生成项目 中文摘要数据集汇总 Unilm对话生成之夸夸式闲聊机器人 授人以鱼不如授人以渔 小布助手对话短文本语义匹配-周周星分享 LM-MLC 一种基于完型填空的多标签分类算法 中文机器阅读理解(片段抽取)数据集整理 带有详细注释的PaddlePaddle的情绪识别项目 一个使模型训练速度提升20%的Trick-BlockShuffle
虽然做了很多分享,但是没有达到自己「年初立的Flag」目标,并且感觉论文精度分享还是少了一些(很多论文读了就读了,放一放就忘记了)。
比赛
2021年,算是打了三个比赛吧,第一个是「小布助手对话短文本语义匹配」,第二个是代表公司打的一个「电网设备技术标准精准检索与智能问答技术验证」,第三个是「对话式AI算法评测」。
小布助手对话短文本语义匹配,获得了一次周周星,初赛11名,复赛本来有机会冲进前十,拿个奖的,但是最终由于预测超时,插肩而过(自测时没超时,可能还是全流程测试次数不够吧)。但是依然收获满满,例如:如何模型加速、如何更好地预训练、模型trick魔改等等。 电网设备技术标准精准检索与智能问答技术验证,算是代表公司,打的一个电力行业内部比赛,经过三个月的努力,最终获得了问答、检索双赛道双冠军,但是这中间离不开很多小伙伴的支持,也从中学到了很多。 对话式AI算法评测,初赛第8,复赛第13。不够通过这个比赛,也让本人对对话改写任务有了新的认识,并将其应用到工作上,感觉算是对自己的交代吧。
可能是自己是「获奖绝缘体」吧,在打开放的比赛时,总是有很多外界的干扰因素,导致最终不尽人意。
生活
2021年,又是变胖的一年,体重直线上升。因为前半年的工作压力和自己给自己的压力太大,在9、10月份的时候,一直觉得自己很累,丝毫没有任何的激情。于是给自己放了假,11月份和12月份,除了应有的工作外,其余时间在看动漫、看视频、看小说、打游戏,现在又变成了一个激情四射的少年~~~
人生不如意十之八九,也许你在负载前行,也许离开是一种解脱,但是请记住那些爱你的人们,或者说总会有爱你的人儿。
大家在工作、学习之余,记得给自己充电呦~
2022年的Flag
平均每周一次分享(一年52篇) 打一次可以得奖的比赛(希望大佬可以带带我~) 打牢基础,整理NLP入门的相关知识,从头再学习一边(半路出家的我,时而觉得自己有些浮躁) 更加深入了解其他NLP领域的内容(其实之前更加专注的是问答、匹配、预训练的相关内容,对于抽取、图谱等都停留在表面)