Apache Pig Distinct运算符
Admin 2022-09-29 群英技术资讯 625 次浏览
DISTINCT 运算符用于从关系中删除冗余(重复)元组。
下面给出了 DISTINCT 运算符的语法。
grunt> Relation_name2 = DISTINCT Relatin_name1;
假设在HDFS目录 /pig_data/ 中有一个名为 student_details.txt 的文件,如下所示。
student_details.txt
001,Rajiv,Reddy,9848022337,Hyderabad 002,siddarth,Battacharya,9848022338,Kolkata 002,siddarth,Battacharya,9848022338,Kolkata 003,Rajesh,Khanna,9848022339,Delhi 003,Rajesh,Khanna,9848022339,Delhi 004,Preethi,Agarwal,9848022330,Pune 005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar 006,Archana,Mishra,9848022335,Chennai 006,Archana,Mishra,9848022335,Chennai
通过关系 student_details 将此文件加载到Pig中,如下所示。
grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',') as (id:int, firstname:chararray, lastname:chararray, phone:chararray, city:chararray);
现在,让我们使用 DISTINCT 运算符从 student_details 关系中删除冗余(重复)元组,并将其另存在一个名为 distinct_data 的关系 如下所示。
grunt> distinct_data = DISTINCT student_details;
使用 DUMP 运算符验证关系 distinct_data ,如下所示。
grunt> Dump distinct_data;
它将产生以下输出,显示关系 distinct_data 的内容如下。
(1,Rajiv,Reddy,9848022337,Hyderabad) (2,siddarth,Battacharya,9848022338,Kolkata) (3,Rajesh,Khanna,9848022339,Delhi) (4,Preethi,Agarwal,9848022330,Pune) (5,Trupthi,Mohanthy,9848022336,Bhuwaneshwar) (6,Archana,Mishra,9848022335,Chennai)
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
我们在Apache Pig中有以下Math(数学)函数:S.N.函数 & 描述1ABS(expression)获取表达式的绝对值。2ACOS(expression)获得表达式的反余弦值。3ASIN(expression)获取表达式的反正弦值。
大数据剖析技能有哪些?大数据时代,每天都有海量的数据产生,我们想要从中获取到对我们有用处的信息,大数据剖析有很大的帮助。因此这篇文章就给大家来简单的介绍一下大数据剖析技能,感兴趣的朋友就继续往下看吧。
除了内置函数之外,Apache Pig还为 User Defined Function(UDF:用户定义函数)提供广泛的支持。使用这些UDF,可以定义我们自己的函数并使用它们。UDF支持六种编程语言,即Java,Jython,Python,JavaScript,Ruby和Groovy。
大数据是什么?对于大数据想必大家都有听过,但是很多对于大数据是什么其实并不清楚,下面小编就给大家简单介绍下,如何大数据?感兴趣的朋友可以看看。
配置hadoop之前做好准备工作1.修改主机名称,我这里创建了三个虚拟主机,分别命名node-1,node-2,node-3,进入 network 文件删掉里面的内容直接写上主机名就可以了vi /etc/sysconfig/network2.映射 IP 和主机名,之后 reboot 重启主机
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008