Spark kafka Streaming 拉取更多消息 | 珊瑚贝

Spark kafka Streaming pull more messages


我正在使用 Kafka 0.9 和 Spark 1.6。 Spark Streaming 应用程序通过直接流 API(版本 2.10-1.6.0)从 Kafka 流式传输消息。

我有 3 个工作人员,每个工作人员都有 8 GB 内存。每分钟我收到 4000 条消息到 Kafka,并且在 spark 中每个工作人员正在流式传输 600 条消息。我总是看到 Kafka 偏移到 Spark 偏移的滞后。

我有 5 个 Kafka 分区。

有没有办法让 Spark 为每次从 Kafka 拉取的消息流式传输更多消息?

我的串流频率是 2 秒

应用程序中的火花配置

1
2
3
4
“maxCoresForJob”: 3,
“durationInMilis”: 2000,
“auto.offset.reset”:”largest”,
“autocommit.enable”:”true”,

  • 请提供更多详细信息,包括 API 版本和配置。


你能解释一下吗?您是否检查了哪一段代码需要更长的时间才能执行?从 cloudera manager-> Yarn–> Application -> 选择您的应用程序–> Application master –> Streaming,然后选择一批并单击。尝试找出需要较长时间执行的任务。你使用了多少个执行器?对于 5 个分区,最好有 5 个执行器。

您可以发布您的转换逻辑,可能有一些方法可以调整。

谢谢


来源:https://www.codenong.com/48288616/

微信公众号
手机浏览(小程序)

Warning: get_headers(): SSL operation failed with code 1. OpenSSL Error messages: error:14090086:SSL routines:ssl3_get_server_certificate:certificate verify failed in /mydata/web/wwwshanhubei/web/wp-content/themes/shanhuke/single.php on line 57

Warning: get_headers(): Failed to enable crypto in /mydata/web/wwwshanhubei/web/wp-content/themes/shanhuke/single.php on line 57

Warning: get_headers(https://static.shanhubei.com/qrcode/qrcode_viewid_9141.jpg): failed to open stream: operation failed in /mydata/web/wwwshanhubei/web/wp-content/themes/shanhuke/single.php on line 57
0
分享到:
没有账号? 忘记密码?