首页 > 资讯 > > 正文

Kafka-基础

2023-08-31 12:17:52 来源:博客园
1. 简介

Kafka(Apache Kafka)是一种分布式流数据平台,最初由LinkedIn开发,并于后来捐赠给Apache软件基金会,成为了一个Apache顶级项目。它被设计用于处理大规模、实时的数据流,并为构建高吞吐量、容错性强的数据流应用程序提供支持。Kafka的特点使得它在日志收集、实时处理、事件驱动架构、监控等领域得到广泛应用。

以下是Kafka的一些关键特点和概念:

发布-订阅模型:Kafka采用发布-订阅模型。数据生产者将数据发布到称为“主题(Topics)”的逻辑通道中,而消费者可以订阅这些主题以读取数据。分布式架构:Kafka是一个分布式系统,允许横向扩展以应对大量数据。它将数据分布在多个服务器节点上,实现高吞吐量和高可用性。持久性:Kafka可以将数据持久化到磁盘上,确保即使在数据被消费后,仍然保留数据,以便进行后续的分析和处理。分区:主题可以分为多个分区,每个分区是消息的有序序列。分区允许数据水平扩展和并行处理。复制:Kafka支持将分区的副本分布在不同的节点上,提供数据冗余和容错性。高性能:Kafka的设计优化使得它能够处理高吞吐量的数据流,适用于实时数据处理需求。流式处理:Kafka可用于构建流式处理应用程序,可以实时地处理和分析数据流。生态系统:Kafka的周边生态系统丰富,包括流处理框架(如Apache Flink、Spark Streaming)、数据存储系统(如Hadoop、Cassandra)等。

总的来说,Kafka在大数据、实时处理和数据流领域具有重要地位,其强大的分布式架构和丰富的功能使其成为许多企业处理实时数据的首选平台。


(资料图片仅供参考)

2. 可以干什么?

Kafka是一个非常灵活和功能强大的分布式流数据平台,适用于多种业务场景。以下是一些Kafka常见的用途和业务场景:

日志和事件流处理:Kafka在日志收集和事件流处理方面表现出色。它可以收集分布在不同系统和应用程序中的日志和事件数据,供后续分析、监控和故障排除使用。实时数据分析:Kafka可用于构建实时数据分析系统,将数据从不同源传输到分析平台,使得企业能够实时了解业务状况,进行实时的数据挖掘和洞察。指标和监控:Kafka能够收集和传输系统指标和监控数据,用于监测应用程序和基础设施的性能,支持实时的告警和反应。事件驱动架构:Kafka的发布-订阅模型使得它非常适合实现事件驱动的架构。各个微服务或组件可以通过Kafka传递事件和消息,实现解耦和高度可扩展的系统。流式处理:Kafka可用于构建流式处理应用程序,实时地处理和分析数据流。流处理框架(如Flink、Spark Streaming)与Kafka结合,可以进行复杂的实时数据处理。数据管道和ETL:Kafka可以作为数据管道,将数据从源传输到目标,支持ETL(Extract, Transform, Load)过程。这对于数据仓库、数据湖等大数据方案非常有用。实时推送:Kafka可以用于实现实时推送服务,如新闻订阅、实时聊天等。数据更新后即时将信息传递给订阅者。物联网(IoT)数据处理:对于物联网应用,Kafka可以接收和处理大量的设备数据,使得数据从边缘设备传输到后端分析和存储系统。数据解耦和削峰填谷:Kafka可以将数据生产者和消费者解耦,允许异步处理和降低系统之间的耦合性。同时,Kafka还可以平滑地处理数据流量的峰值和波动。

哪些行业都在用kafka:

实时处理支付和金融交易,例如在证券交易所、银行和保险中。实时跟踪和监控汽车、卡车、车队和货运,例如物流和汽车行业。持续捕获和分析来自物联网设备或其他设备(例如工厂和风电场)的传感器数据。收集客户互动和订单并立即做出反应,例如零售、酒店和旅游业以及移动应用程序。监测医院护理中的患者并预测病情变化,以确保在紧急情况下及时得到治疗。连接、存储并提供公司不同部门生成的数据。作为数据平台、事件驱动架构和微服务的基础。3. 基础组件

broker: kafka节点, 就是安装的每一个kafka服务

producer: 生产者, 发消息的

consumer: 消费者, 读消息的

zookeeper: 信息中心, 记录kafka的各种信息的地方

controller: 其中的一个broker, 作为leader身份来负责管理整个集群. 如果挂掉, 借助zk进行重新选主

4. 逻辑组件4.1 topic & partitiontopic: 主题, 一个消息的通道, 收发消息总得知道消息往哪里投送partition: 分区, 每个主题可以有多个分区 分担数据的传递, 多条路并行, 提高吞吐量consumer group: 消费组, 消费者监听topic时可以指定group通常建议保持同一组内的消费者的数量等于或小于分区的数量, 因为每个分区只能被一个消费者组内的一个消费者消费如果消费者的数量大于分区的数量,一些消费者将会是空闲的,无法获得分区来消费,导致资源浪费.当然也可以保证 消费者数量 = 分区数量 + 1, 这样可以保证 当有消费者宕机后, kafka消费者组协调器会找出空闲的消费者并重新分配已失效消费者的分区并继续消费4.2 replicasreplicas: 副本, 每个分区可以设置多个副本, 副本之间数据一致. 相当于备份, 提高数据可靠性(如下图)replicas: leader & follower: 副本中有一个身份为leader, 其他均为follower. leader处理所有的读和写请求, follower只负责数据备份, 如果主分区挂了, follower会顶上来

副本分类:

AR(Assigned Replicas)是指为每个分区分配的副本集合。在Kafka中,每个分区可以有多个副本,其中一个副本被选举为leader,其他副本为follower。AR是指包括leader副本在内的所有副本的集合。

ISR(In-Sync Replicas):ISR是指与主副本保持同步的副本集合。在Kafka中,一个主题分区通常有多个副本,但只有与主副本保持同步的副本才能被认为是ISR中的成员。在正常情况下,ISR中的所有副本都已经同步了高水位之前的消息,因此可以确保消息的一致性和可靠性。

OSR(Out-of-Sync Replicas):OSR指的是已经落后于主副本的副本。这些副本的同步进度较慢,可能由于网络延迟或其他原因。当副本变得不再与主副本同步时,它将被移出ISR。这是为了确保ISR中的副本始终保持高水位之前消息的同步状态。

这些概念在Kafka中用于管理副本的分配和同步,以确保数据的可靠性和一致性。

AR = ISR + OSR

5. 消息标记

offset:偏移量(索引),消息消费的具体位置,每个消费者都有自己的偏移量

HW(High Watermark):高水位是一个标记,表示已被确认和提交的消息的位置。HW之前的所有消息都被认为是已经被处理并且已经提交的。在消费者的视角中,只有高水位之后的消息是尚未被处理的。高水位只记录在ISR(In-Sync Replicas)中,用于确保消息的一致性和可见性。在一组ISR中,每个Follower同步消息的速度可能不同,HW指向的始终是所有ISR中最慢的消息位置。

LEO(Log End Offset):日志末尾偏移量是一个指示,表示当前分区的下一条消息的偏移量。LEO是分区中所有副本中最大的偏移量,包括ISR和OSR(Out-of-Sync Replicas)中的副本。LEO指示了分区中尚未被消费的消息的位置。

总结一下,HW是已被确认和提交的消息的位置,用于消息的一致性和可见性。LEO是分区中下一条消息的偏移量,用于指示尚未被消费的消息的位置。这两个偏移量在Kafka中起到了重要的作用,影响了消息的处理和消费。

那么这三者有什么关系呢?

比如在副本数等于3的情况下,消息发送到Leader A之后会更新LEO的值,Follower B和Follower C也会 实时拉取Leader A中的消息来更新自己,HW就表示A、B、C三者同时达到的日志位移,也就是A、B、 C三者中LEO最小的那个值。由于B、C拉取A消息之间延时问题,所以HW一般会小于LEO,即 LEO>=HW。

6. 消息存储

kafka每个主题可以有多个分区, 每个分区在它所在的broker上创建一个文件夹, 每个分区又分为多个段(Segment 相当于把海量消息拆分到了多个文件中, 防止消息文件过大导致检索速度缓慢), 每个段两个文件 log & index, log文件里顺序存消息, index文件里存消息的索引 段的命名直接以当前段的第一条消息的offset为名

日志(Log):Kafka使用日志来持久化存储消息,每个分区都有一个对应的日志。日志是一个有序的、不可变的消息序列。每当有新的消息到达,它们会被追加到分区的日志末尾,形成一个逐渐增长的日志段(Log Segment)。每个日志段都有一个固定的大小,一旦达到大小限制,就会被关闭并创建新的日志段。

日志的追加操作是高效的,因为它只需要将新的消息附加到日志段的末尾,不需要移动现有数据。由于日志是不可变的,一旦消息被写入,就不能更改或删除。这种特性使得Kafka的数据持久性和不变性得到了保证。

消息索引(Index):消息索引是一个用于加速消息查找的关键组件。每个日志段都有一个对应的消息索引,它存储了一些重要的消息偏移量和物理偏移量的映射关系。索引使得Kafka能够快速定位特定偏移量的消息,而不需要逐个扫描整个日志。

消息索引通常存储在内存中,它分为两部分:内存索引和磁盘索引。内存索引包含了一部分消息偏移量和其在日志中的物理位置的映射,它使得最常见的消息查找可以在内存中完成,非常快速。磁盘索引包含了完整的索引信息,它使得整个索引数据不需要全部加载到内存中,而是按需加载,节省了内存空间。

通过消息索引,Kafka可以迅速定位消息,以便进行消费、回溯和处理。这对于支持高吞吐量的数据处理和实时消费非常重要。

6.1 索引定位

Consumer获取offset = 6的Message

通过请求的offset就能判断出消息在00000000000000000000的分段中通过00000000000000000000.index中找到offset = 6的Position值到00000000000000000000.log中直接找到字节偏移量为150的位置开始读取消息直到读取到下条消息的开始位置, 即当前消息读取完毕, 返回消息给Consumer6.2 存储分段策略日志大小限制(默认策略 1GB):Kafka的日志段有一个预先设定的大小,通常是以字节为单位的数值(例如1GB)。一旦一个日志段的大小达到了这个限制,它会被关闭,并创建一个新的日志段来接收新的消息。时间限制:另一种分段策略是基于时间的。Kafka允许设置一个日志段的最大存活时间,即使这个日志段没有达到大小限制,如果超过了指定的时间,它也会被关闭。这有助于清理过期的数据,以防止过多的历史数据堆积。6.3 日志删除策略基于日志段大小的删除:当一个日志段的大小达到预设的阈值(segment.bytes参数配置的大小)时,这个日志段会被关闭并被认为是"不活跃的"。不活跃的日志段会在不影响正在进行的写入的情况下,被删除。这样,旧的消息将会被清除,释放磁盘空间。基于日志段保留时间的删除:每个日志段都有一个保留时间限制,称为segment.ms参数。当一个日志段被关闭后,如果它的创建时间超过了这个保留时间,它将会被删除。这样可以确保不再需要的旧数据会被及时清理。基于消息保留时间的删除:每个主题可以设置一个保留时间,称为retention.ms参数。如果一个主题被设置了保留时间,并且消息的时间戳早于这个保留时间,那么这些消息将会被删除。这个策略确保了主题中不再需要的消息会被自动清理。基于消息压缩的删除(Log Compaction):如果启用了消息压缩(通过cleanup.policy参数设置为compact),Kafka会保留每个键的最新消息,而旧的消息将被删除。这个策略保留了每个键的最新状态,适用于存储状态信息。删除策略的联合使用:您可以同时使用多种删除策略,根据不同的主题和需求来管理存储。例如,某些主题可以采用基于时间的保留策略,而其他主题可以采用基于消息大小的策略。

在Kafka中,删除策略的最小单位是日志段(Log Segment)。当满足某个删除条件时,Kafka会删除整个不再需要的日志段,包括其中的消息数据和对应的索引数据。

标签:

Kafka-基础

1 简介**Kafka(ApacheKafka)**是一种分布式流数据平台,最初由Link

2023-08-31 12:17:52

高质量发展在申城|长宁区:聚力“最虹桥” 深耕“数字化” 打造“生活圈”

今天上午,“高质量发展在申城”系列主题市政府新闻发布会第八场来到长

2023-08-31 10:59:08

治安管理处罚法修订草案首次提请审议

新华社“新华视点”记者熊丰、任沁沁、冯家顺治安管理处罚法修订草案日

2023-08-31 10:13:49

故字组词造句一年级下册 故字组词

1、故的组词有什么:故乡、故友、故宫、故事、故国、故障、故意、缘故

2023-08-31 09:14:59

幼儿园班主任保教工作计划

乐乐学教研网精心为你收集整理了幼儿园班主任保教工作计划(集锦12篇)

2023-08-31 08:12:15

240米,浮山湾畔这座超高楼规划建筑方案公示

8月30日,青岛市自然资源和规划局官方网站正式发布航运贸易金融总部大

2023-08-31 06:10:16

市场消息:英特尔将在未来两年内在哥斯达黎加投资12亿美元。

市场消息:英特尔将在未来两年内在哥斯达黎加投资12亿美元

2023-08-31 01:50:55

美股三大指数集体高开纳指涨0.13% VinFast涨逾15%

美股三大指数集体高开纳指涨0 13%VinFast涨逾15%,纳指,美股,道指,标普5

2023-08-30 21:58:43

艾迪精密:上半年净利润1.64亿元 同比增长33.58%

【艾迪精密:上半年净利润1 64亿元同比增长33 58%】8月30日电,艾迪精

2023-08-30 20:50:33

再打赢一个上甘岭!雷蒙多访华,却没料到自己被华为新机灭了威风

在没有预告的情况下,华为突然开始销售使用麒麟9000s的Mate60PRO手机,

2023-08-30 19:18:22

普瑞眼科上半年净利增358% 销售费用增36%

中国经济网北京8月30日讯普瑞眼科(301239 SZ)今日收报107 95元,涨幅2

2023-08-30 18:13:54

广州“认房不认贷”落地!一图看清首付能降多少 利好哪些人群

8月30日,广州正式官宣首套房执行“认房不认贷”。居民家庭(包括借款

2023-08-30 16:57:38

社区资讯丨非遗体验、健康义诊……丰富社区活动绘就幸福生活!

为了更好地服务辖区群众,提升居民获得感和幸福感,锦江各社区开展了内

2023-08-30 16:06:21

山东省社科联聚焦以学促干 做好调查研究“后半篇文章”

齐鲁网·闪电新闻8月30日讯学习贯彻习近平新时代中国特色社会主义思想

2023-08-30 14:52:56

金石资源:公司没有动机和本事打压股价

关于“是否存在打压股价协助高管增持的行为”的问题,金石资源在互动平

2023-08-30 13:25:00

新研究揭示龟壳可记录放射性污染 可储存数十年放射性污染记录

新研究揭示龟壳可记录放射性污染 【 海龟陆龟龟壳可储存数十年放射性

2023-08-30 11:55:32

调四钓二最准确的方法(调四钓二图解)

大家好,最近小红发现有诸多的小伙伴们对于调四钓二最准确的方法,调四

2023-08-30 10:49:29

汉阴交通运输局管养出实招公路焕新颜

本报讯(通讯员黄姣姣胡悦)近年来,汉阴县交通运输局紧盯“有路必管、有

2023-08-30 09:42:08

无问西东五年才上映的电影 锐评无问西东一部佳片假象包裹的平庸之作

环球汽车7月消息小杨来为大家解答以上问题,无问西东五年才上映的电影

2023-08-30 08:40:18

焦炭首轮提降终落地,“金九银十”可期

周二,黑色系总体偏弱,双焦跌幅大于铁矿、钢材。  “上周铁水产量环

2023-08-30 07:31:22

莫提墨(关于莫提墨简述)

,你们好,今天0471房产来聊聊一篇提墨,提墨简述的文章,网友们对这件

2023-08-30 05:16:23

星光股份股东户数增加21.79%,户均持股7.92万元

星光股份最新股东户数3 23万户,低于行业平均水平。公司户均持有流通股

2023-08-29 23:57:49

主动撤单!老乡鸡IPO终止!

8月28日,安徽老乡鸡餐饮股份有限公司(简称“老乡鸡”)沪市主板IPO审

2023-08-29 21:54:47

我的歌声里的歌词(我的歌声里歌词曲婉婷)

导读1、没有一点点防备,也没有一丝顾虑你就这样出现在我的世界里,带

2023-08-29 19:57:08

8月29日长青科技(001324)龙虎榜数据:游资北京中关村上榜

沪深交易所2023年8月29日公布的交易公开信息显示长青科技001324因日换

2023-08-29 18:40:43

文明消夏从你我做起

OPPO Watch 4 Pro体验:续航、操作、生态必须全要!

格林精密8月29日盘中涨幅达5%

秋收季 如何减损增产保丰收?专家来支招→

湖南省重拳治理教育乱收费

中马“铁兄弟”:遇山一起爬,遇沟一起跨

长春火车站是什么区

胡贺波主持召开专题会议 研究创新推进基础设施建设工作

罗马诺:两家意大利俱乐部有意卡斯蒂列霍,球员将离开瓦伦西亚

美白食谱排行榜 让你由内而外白起来)

魔兽8m局域网补丁1.24e(g网补丁)

南威软件股东户数下降18.90%,户均持股24.51万元

组件10GW,逆变器10GW!国家电投第五十批光伏组件、逆变器招标

滴滴向小鹏汽车出售智能电动汽车相关资产和研发能力,双方建立战略合作关系

赛钛客鼠标不能设置(赛钛客 鼠标)

东湖评论:疏通城市发展“毛细血管”,借势“City Walk”打造品牌

食品饮料板块震荡回落,洽洽食品创3年半新低

茅台集团与华为签署深化战略合作协议

“王炸利好”!A股三大股指集体跳空暴涨超5%,券商股几乎全线涨停

线下职场体验&线上直播带岗~

多项活跃资本市场、提振投资者信心相关政策出台,非银板块受益

当聊城新青年音乐节遇上下雨天:一杯姜糖水,温暖乐迷心

win7关不了机还会蓝屏(win7关不了机)

勐海镇是哪里(勐海县简介)

沙特减产延长,而美放松对伊朗石油限制,油价还能否看多?

x 广告
x 广告

Copyright @  2015-2022 海峡家电网版权所有  备案号: 皖ICP备2022009963号-10   联系邮箱:396 029 142 @qq.com