Menu

文档

DeepSQL:库内AI算法

可获得性

本特性自opengauss1.1.0版本开始引入

特性简介

数据库DeepSQL特性实现DB4AI功能,即在数据库内实现AI算法,以更好的支撑大数据的快速分析和计算。这里提供了一整套基于SQL的机器学习、数据挖掘以及统计学的算法,用户可以直接使用SQL进行机器学习工作。Deep SQL能够抽象出端到端从数据到模型的研发过程,配合底层的引擎及自动优化,具备基础SQL知识的技术人员即可完成大部分的机器学习模型训练及预测任务。整个分析和处理都运行在数据库引擎中,用户可以直接分析和处理数据库内的数据,不需要在数据库和其它平台之间进行数据传递,避免在多个环境之间进行不必要地数据移动。

客户价值

客户可以在数据库内部直接使用AI算法,避免了大量数据的迁移带来的额外代价,同时模型可以由数据库统一管理,使用十分方便。

特性描述

DeepSQL是对openGauss DB4AI能力的增强。DeepSQL将常用的机器学习算法封装为UDF,支持60多个常用算法。其中包括回归算法(例如线性回归,逻辑回归,随机森林等)、分类算法(比如KNN等)、聚类算法(比如K-means)等。除了基础的机器学习算法之外,还包括图相关的算法,比如最短路径,图形直径等等算法;此外还支持数据处理(比如PCA),稀疏向量,统计学常用算法(比如协方差,Pearson系数计算等),训练集测试集分割方法,交叉验证方法等。

特性增强

特性约束

  • 环境中安装python2.7.12以上版本Python。
  • 数据库需要开启对PL/Python存储过程的支持。
  • 安装算法库需要拥有管理员权限的用户。

依赖关系

本文档遵循知识共享许可协议CC 4.0 (http://creativecommons.org/Licenses/by/4.0/)。