原标题:复旦大学邱锡鹏教授做客达观NLP研讨会:自然语言处理中的多任务学习
来源:机械之心 链接:https://www.jiqizhixin.com/articles/2019-08-13-8
1. auto-sklearn 能 auto 到什么地步?
在机器学习中的分类模型中:
● 常规 ML framework 如下图灰色部分:导入数据-数据清洗-特征工程-分类器-输出预测值
● auto部分如下图绿色方框:在ML framework 左边新增 meta-learning,在右边新增 build-ensemble,对于调超参数,用的是贝叶斯优化。
● 自动学习样本数据: meta-learning,去学习样本数据的模样,自动推荐合适的模型。比如文本数据用什么模型比较好,比如很多的离散数据用什么模型好。
● 自动调超参:Bayesian optimizer,贝叶斯优化。
● 自动模型集成: build-ensemble,模型集成,在一般的比赛中都会用到的技巧。多个模型组合成一个更强更大的模型。往往能提高预测准确性。
● CASH problem: AutoML as a Combined Algorithm Selection and Hyperparameter optimization (CASH) problem
也就是说,一般的分类或者回归的机器学习模型即将或者已经实现了低门槛或者零门槛甚至免费建模的程度。
其实机器学习的每个步骤都可以向着自动化方向发展,而且自动化的方式又有很多种。
机器学习自动化的难点还是在数据清洗和特征工程这些技巧,至于模型筛选、模型集成和超参数调参已经有比较成熟可用的代码了。
我们的愿景是 人人都可以用得起机器学习系统