从代码建模到全自动建模,如何不做昼夜加班的“调参工”

日期: 2019-03-21

来源:AI前线

不可否认,机器学习作为人工智能的实现方式,可以称得上是 AI 皇冠上一颗璀璨的明珠。

但必须承认,作为近年来一直保有技术热度的人工智能,其在众多领域得到广泛应用的同时,大部分技术仍然处在不成熟的研发阶段。

对于开发者而言,在给定的数据集上实现最优的结果,是十分困难的。这往往需要进行繁杂的数据预处理、正确的特征工程方式选择、精挑细选的算法模型结构确定,当然,还有让人无比头疼的调参问题。这套流程怎么走并没有一个经验上的固定方向。比如超参数的调试,往往需要在可能的超参数空间遍历尽可能多的选择,在数据量巨大的情况下,几乎不可能尝试所有参数;即便花费大量时间尝试,也不能保证建立的模型是最优的。因此,许多机器学习从业者成为了昼夜加班的“调参工”。

其中,在给定的数据集中实现当前最佳模型性能通常要求数据科学家进行数据清洗、挑选合适的特征工程方法、选择具体的算法模型结构及其中涉及的超参数调试,这个端到端的过程通常被称为机器学习工作流 ( Machine Learning Pipeline)。

由于数据的多样性,传统的经验法则无法一直告诉数据科学家正确的建模方向,而随着越来越多的模型算法种类的开发,如何选择最优模型的工作也变得越来越困难。况且超参数调优,人工调试遍历所有可能的值或对其进行抽样、测试将耗费大量时间和精力。

在数据量及数据维度呈几何级数增长的大数据时代,传统的建模方式,无论是模型算法的选择还是建模系统的架构都已经逐渐无法应对处理这些巨型数据的需求。为了使得机器学习变得非常容易、快捷、同时保证高质,其技术演变经历了一个复杂的过程。早期,开发人员的建模方式仍需大量的代码书写,在此之后的建模方式进化到所谓拖拉拽式的建模,再到近期的半自动建模(让机器学习做大部分建模流程),最后逐步转变为现在的全程自动机器学习建模。而全程自动机器学习的建模方式,其终极目标就是让初级建模工程师,甚至不具备工程师背景的数据商务分析人员,都能轻松建立精准的大数据预测和分析模型。

为此,人工智能公司 R2.ai, Inc 发布的自动化机器学习建模 R2 Learn 解决方案(www.r2ai.com.cn/pricing)通过算法集成、步骤引导,将整个建模过程交由机器处理,完全实现了建模过程的自动化、规范化和可视化,全程帮助企业创建模型。同时,通过算法与特征工程相匹配的流程化调参建模方式,解决了人工编程往往无法解决的高维数据处理与模型搭建。为了保证建模质量,经过多个行业的测试和反复打磨,自动化机器学习建模方式在大部分的测试中表现都由于传统建模方式。

建模种类丰富 

面向“数据挖掘″、“问题求解”、“专家系统″等难题,以及数据针对商业业务中的疑问,R2 Learn 可以提供分类、回归等多种求解方式。R2 Learn 平台几乎囊括了当前市面上流行的所有机器学习算法,并且在这些算法的基础上进行“再集成”,对建模结果不断优化,同时也丰富了模型种类,解决用户在不同应用场景下的方案需求。

建模速度迅速

不仅如此,R2 Learn 依靠并行运算架构以及 R2 Learn 独有的优化引擎和自学习技术,百万行数据建模时间可以提升至分钟级别,这是人工调试建模根本无法比拟的。使用 R2 Learn2.0 特有的算法包,在保证建模准确率的前提下,建模平均速度比之前提高 5 倍;若采用 GPU 加速,建模平均速度相较于使用 GBDT 模型可以提升近 20 倍;除了 CSV,SQL 导入外,新增加压缩文件格式数据上传,使文件加载更加便捷;R2 Learn2.0 还完善了更加强大的数据自定义特征转换功能,满足数据科学家针对个人的数据转换需求。

操作便捷

R2 Learn 机器学习建模流程和人工建模流程基本一致,拥有友好的交互式用户界面和清晰的建模指引,用户能很快熟悉并上手使用。可视化的操作步骤引导,让整个建模过程清晰明确。相较于大多数“黑盒”式的自动建模系统,R2 Learn 的高透明度使用户可以更加清楚地了解整个建模流程与其中涉及的具体细节,使用户对最终建立的模型有着更加全面的理解与掌握。同时,详细的细节展示和流程选择也为想进行人工建模调试的用户提供了明确的指引与参考。

针对非数据科学家,系统提供了一键式自动建模功能,在不需要任何专业数据挖掘知识的前提下,就可以轻松建立出优化的机器学习模型。而高级建模模式则为数据科学家等专业人士提供了更多数据挖掘(特征工程)、模型选择、参数设定等高级功能,大大提高了建模的灵活度和掌控度。两种建模模式可以满足不同知识层面的用户使用。

此外,R2 Learn 自动化机器学习建模也同时具备以下优势:

  • 端到端解决方案:一站式服务完成数据清洗到模型搭建所有步骤

  • 优化引擎功能:用最少算力快速高效地建立最优机器学习模型

  • 自我学习能力:比肩人类数据科学家,不断自学习改进建模流程

  • 易用性: 提供针对非专家的自动建模模式和 AI 专家的高级建模模式

  • 可解释性:透明且可解释的建模过程和逐步建模指南

  • 高效率: 建模速度最快可达分钟级

  • 高质量: 模型质量稳定有保障


英国首屈一指的管理咨询公司 Ovum Consulting 的资深分析师 Roy Illsley 近期和 R2.ai 的创始人和首席执行官黄一文进行深度访谈时提出:“目前最现实最广泛的人工智能应用在接下来的几年仍然会在机器学习在大数据挖掘方面的应用。同时,由于应用场景和数据的多样性,让企业拥有自主开发 AI 应用的能力也变得越来越重要。R2.ai 应用自动机器学习对大数据的深度挖掘分析在目前是解决问题的重要途径。尤其是将这一技术通过 SaaS 推向所有用户,将加快机器学习技术的推广。R2.ai 的技术非常符合市场需求,其解决方案是更明智和务实的。”


提交失败

确定

提交成功

确定