原标题:阿水大佬聊赛事:这是“IMDB评论剧透检测”的正确打开方式
来源:AI 研习社 链接:https://www.yanxishe.com/blogDetail/17551
更多大佬经验,点击↓↓↓↓ 加入比赛交流小组吧 (https://www.yanxishe.com/development/69)
AI 研习社 ID:阿水阿水
“IMDB 评论剧透检测”赛事链接:https://god.yanxishe.com/20
AI 研习社:“IMDB 评论剧透检测”赛题一放出,可以明显感知社群的讨论热度比之前的赛事要高,作为 AI 竞赛圈的“老炮”,这个赛题有没有给到你一些触动?
阿水:“IMDB 评论剧透检测”与之前 AI 研习社的题目相比,相对更加复杂,难度更大,所以讨论的人也更多一些。整体而言,这个题目既包含结构化信息,也包含文本信息,所以可玩性很强。
AI 研习社:你认为这个赛题可以有哪几个方向的解题思路?
阿水:有两个可行的解题思路,一个是按结构化数据挖掘的思路做;一个是按 NLP 文本的角度处理。
AI 研习社:从赛事小白的角度追问一句,从提高自身能力而言,你会更推崇哪一种解题思路?
阿水:如果是小白,可以先从结构化角度入手,尝试构建特征加上GBDT等树模型即可。后序再可以加入NLP的相关特征。
AI 研习社:往下走,像你这种水平的选手会开始考虑哪些进阶元素?
阿水:可能会开始思考文本的 TFIDF、本文相似度等等。
AI 研习社:今天你在群里分享的 baseline,有哪些值得学习之处?(baseline 链接:https://github.com/datawhalechina/competition-baseline/commit/8637fd82bedd21583e285e419c4bb0be4db092a3)
阿水:该 baseline 由 AI 研习社社员胡云飘(AI 研习社 ID: yphacker)所写,其核心思路是通过 review_text 的 TFIDF 特征使用 LR 得到的,思路其实很简单。
AI 研习社:你认为正确用好“baseline”的方式是什么?
阿水:baseline 不是为了获得分数,而是通过 baseline 能够正确的读取数据、处理数据、训练模型,从而走完整个流程,并借此了解一类问题的解决思路。
AI 研习社:这也是你最终决定做 baseline 开源项目的原因吗?(项目链接:https://github.com/datawhalechina/competition-baseline)
阿水:baseline 项目最开始是我在个人整理代码时候发起的,现在这个项目在 Datawhale 组织下运行。baseline 项目主要的目的是通过比赛分享一些解决方案,同时也帮助初学者入门数据竞赛。
AI 研习社:最后问个鸡汤点的问题,你认为什么才是“打比赛的正确姿势”?
阿水:从比赛中学习知识,认识更多的小伙伴。
一THE END一
免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。
合作及投稿邮箱:E-mail:editor@tusaishared.com