RDD转换算子:【filter】

news/2024/11/5 5:57:50 标签: spark, RDD, filter, RDD转换算子

功能:

过滤数据
RDD集合中的每个元素调用一次参数中的表达式对数据进行过滤,符合条件就保留,不符合就去除

语法:

 def filter(self, f: T -> bool ) -> RDD[T]

f:代表参数是一个函数
T:代表RDD中的每个元素
U:代表RDD中每个元素转换的结果

举例:

需求:去除不一样的数据(第三行和第五行数据为不一样的数据):

1 周杰伦 0 夜曲/发如雪/东风破/七里香
2 陈奕迅 0 十年/爱情转移/你的背包
3 1 日不落/舞娘/倒带
4 赵雷 0 鼓楼/成都/吉姆餐厅/无法长大
5 凤凰传奇 -1 月亮之上/荷塘月色

代码:

如何构造sc对象并创建RDD 参考文章:
【Spark中创建RDD的两种方式】Spark中如何获取sc对象、以及创建RDD的两种方式

# 读取数据,并将读取到的数据转换为RDD
fileRdd = sc.textFile("../datas/b.txt",2)
# 使用正则切割,其中 r 表示 \ 不转义,切割完判断
filterRdd = fileRdd.filter(lambda line: re.split(r"\s",line)[2] != '-1' and len(re.split("\\s",line)) == 4)
# foreach为触发算子,用于打印
filterRdd.foreach(lambda x: print(x))

http://www.niftyadmin.cn/n/5739035.html

相关文章

【JAVA】Java基础—Java开发环境搭建:安装JDK与IDE(如IntelliJ IDEA、Eclipse)

Java是一种强大的编程语言,广泛应用于各种领域,包括企业级应用、移动应用(如Android)、Web应用和大数据处理等。Java的“编写一次,到处运行”(Write Once, Run Anywhere, WORA)特性使得它在跨平…

HTMLCSS:呈现的3D树之美

效果演示 这段代码通过HTML和CSS创建了一个具有3D效果的树的图形&#xff0c;包括分支、树干和阴影&#xff0c;通过自定义属性和复杂的变换实现了较为逼真的立体效果。 HTML <div class"container"><div class"tree"><div class"…

【C++】-fPIC 编译参数有啥用?

目录 1.什么是PIC? 2.示例 3.优势 4.总结 1.什么是PIC? 在 GCC 编译器选项中&#xff0c;-f 是一个前缀&#xff0c;用于指示这是一个与编译器特性 (feature) 相关的选项。-f 后面跟着的标识符通常是英文单词的缩写&#xff0c;用来描述这个选项所涉及的具体特性。PIC 全…

读书笔记#深入理解Java虚拟机(第三版)# Java内存模型与线程

深入理解Java虚拟机&#xff08;第三版&#xff09;# 高效并发 chap12 Java内存模型与线程 概述 在许多场景下&#xff0c;让计算机同时去做几件事情&#xff0c;不仅是因为计算机的运算能力强大了&#xff0c;还有一个很重要的原因是计算机的运算速度与它的存储和通信子系统的…

【大数据学习 | kafka】简述kafka的消费者consumer

1. 消费者的结构 能够在kafka中拉取数据进行消费的组件或者程序都叫做消费者。 这里面要涉及到一个动作叫做拉取。 首先我们要知道kafka这个消息队列主要的功能就是起到缓冲的作用&#xff0c;比如flume采集数据然后交给spark或者flink进行计算分析&#xff0c;但是flume采用的…

JavaFx -- chapter06(UDPSocket)

chapter06(UDPSocket) UPD的特点 UDP有独立的套接字&#xff08;IP PORT&#xff09;&#xff0c;与TCP使用相同端口号不会冲突。UDP在使用前不需要进行连接&#xff0c;没有流的概念。UDP通信类似于邮件通信&#xff1a;不需要实时连接&#xff0c;只需要目的地址。UDP通信…

OceanBase 安装使用详细说明

OceanBase 安装使用详细说明 一、系统环境要求二、安装OceanBase环境方案一:在线下载并安装all-in-one安装包方案二:离线安装all-in-one安装包安装前的准备工作三、配置OceanBase集群编辑配置文件部署和启动集群连接到集群集群状态和管理四、创建业务租户和数据库创建用户并赋…

Python 单元测试中的 Mocking 与 Stubbing:提高测试效率的关键技术

在软件开发过程中&#xff0c;单元测试是确保代码质量的重要环节。为了实现高效的单元测试&#xff0c;我们常常需要隔离待测试的代码与其外部依赖。这时候&#xff0c;Mocking&#xff08;模拟&#xff09;和 Stubbing&#xff08;桩&#xff09;技术就显得尤为重要。这两种技…