技术支持 昆明网站建设,网站建设湖南,阿里云网站开发服务器,为什么网站不见了如今#xff0c;在数据湖三剑客#xff08;delta lake、hudi、iceberg#xff09;之上#xff0c;又新出一派#xff1a; apache paimon。我们恰好在工作中遇到#xff0c;以下介绍在 dataworks 上#xff0c;使用 maxcompute odps sql 创建 apache paimon 外部表的一些… 如今在数据湖三剑客delta lake、hudi、iceberg之上又新出一派 apache paimon。我们恰好在工作中遇到以下介绍在 dataworks 上使用 maxcompute odps sql 创建 apache paimon 外部表的一些操作和注意事项。参考创建MaxCompute Paimon外部表_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心
1、前提条件 当前执行操作的账号已具备创建MaxCompute表CreateTable的权限。更多表权限信息请参见MaxCompute权限。 已创建MaxCompute项目。具体操作请参见创建MaxCompute项目。 已创建存储空间Bucket以及对应的文件目录。具体操作请参见创建存储空间。
2、注意事项 当前MaxCompute仅支持对Paimon外部表的读取操作。要创建Paimon外部表您可以使用阿里云实时计算Flink版或开源大数据平台E-MapReduce。 Paimon当前暂时不支持开启了Schema操作的MaxCompute项目。 Paimon外部表不支持cluster属性。
3、步骤
步骤一在MaxCompute项目中上传Paimon插件
选择以下其中一种方式在已创建的MaxCompute项目中上传Paimon插件。
方法一在 dataworks 上创建 方法二在 odpscmd 客户端创建 步骤二通过Flink创建MaxCompute Paimon外部表 登录实时计算控制台创建自定义Catalog类型。创建自定义Catalog类型操作详情请参见创建自定义Catalog类型。 说明 创建自定义Catalog类型需要上传Paimon自定义catalog插件。Paimon自定义catalog插件的下载链接请参见下载链接。 在创建完自定义Catalog类型后在自定义Catalog页签单击刚创建好的自定义Catalog类型 paimon-06-1然后单击下一步。 填写Catalog代码信息及参数值后单击确定。
CREATE CATALOG catalog name WITH (type paimon-06-1,metastore maxcompute,warehouse warehouse,fs.oss.endpoint oss endpoint,fs.oss.accessKeyId oss access key id,fs.oss.accessKeySecret oss access key secret,maxcompute.endpoint maxcompute endpoint,maxcompute.accessid maxcompute access id,maxcompute.accesskey maxcompute access key,maxcompute.project maxcompute project,maxcompute.oss.endpoint maxcompute oss endpoint
);
4.创建Paimon外部表。 在云数据管理页面选择paimon-06-1 default然后单击创建表如下图所示。 在添加表对话框选择Apache Paimon连接器然后单击下一步。 执行以下语句单击确定。本文以创建test_tbl为例。 CREATE TABLE catalogname.default.test_tbl (dt STRING,id BIGINT,data STRING,PRIMARY KEY (dt, id) NOT ENFORCED
) PARTITIONED BY (dt); 在SQL 开发页面创建包含如下语句的SQL作业部署并运行作业。关于如何创建并运行SQL作业详情请参见SQL作业开发。 INSERT INTO catalogname.default.test_tbl VALUES (2023-04-21, 1, AAA), (2023-04-21, 2, BBB), (2023-04-22, 1, CCC), (2023-04-22, 2, DDD); 说明 请确认SQL作业的引擎版本为vvr-8.0.1-flink-1.17及以上版本。 若SQL作业有限流作业例如执行INSERT INTO ... VALUES ...语句需要在作业运维页面编辑运行参数配置在其他配置设置execution.checkpointing.checkpoints-after-tasks-finish.enabled: true代码。关于如何配置作业的运行参数详情请参见配置作业部署信息。
步骤三通过MaxCompute读取Paimon外部表 通过使用本地客户端odpscmd连接或其他可以运行MaxCompute SQL的工具执行以下命令。 SET odps.sql.common.table.planner.ext.hive.bridge true;
SET odps.sql.hive.compatible true; 执行以下命令查询MaxCompute Paimon外部表test_tbl。 SELECT * FROM test_tbl WHERE dt 2024-02-21; 返回结果如下。 ------------------------------------
| id | data | dt |
------------------------------------
| 1 | AAABB | 2024-02-21 |
| 2 | BBBCC | 2024-02-21 |
------------------------------------