be/src/load/routine_load/data_consumer.cpp - doris - Git at Google

 // Licensed to the Apache Software Foundation (ASF) under one
 // or more contributor license agreements.  See the NOTICE file
 // distributed with this work for additional information
 // regarding copyright ownership.  The ASF licenses this file
 // to you under the Apache License, Version 2.0 (the
 // "License"); you may not use this file except in compliance
 // with the License.  You may obtain a copy of the License at
 //
 //   http://www.apache.org/licenses/LICENSE-2.0
 //
 // Unless required by applicable law or agreed to in writing,
 // software distributed under the License is distributed on an
 // "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 // KIND, either express or implied.  See the License for the
 // specific language governing permissions and limitations
 // under the License.

 #include "load/routine_load/data_consumer.h"

 #include <absl/strings/str_split.h>
 #include <gen_cpp/Types_types.h>
 #include <gen_cpp/internal_service.pb.h>
 #include <librdkafka/rdkafkacpp.h>

 // AWS Kinesis SDK includes
 #include <aws/core/client/ClientConfiguration.h>
 #include <aws/core/utils/Outcome.h>
 #include <aws/kinesis/KinesisClient.h>
 #include <aws/kinesis/model/GetRecordsRequest.h>
 #include <aws/kinesis/model/GetRecordsResult.h>
 #include <aws/kinesis/model/GetShardIteratorRequest.h>
 #include <aws/kinesis/model/GetShardIteratorResult.h>
 #include <aws/kinesis/model/ListShardsRequest.h>
 #include <aws/kinesis/model/ListShardsResult.h>
 #include <aws/kinesis/model/Record.h>
 #include <aws/kinesis/model/ShardIteratorType.h>

 #include <algorithm>
 // IWYU pragma: no_include <bits/chrono.h>
 #include <chrono> // IWYU pragma: keep
 #include <string>
 #include <thread>
 #include <utility>
 #include <vector>

 #include "common/config.h"
 #include "common/metrics/doris_metrics.h"
 #include "common/status.h"
 #include "load/routine_load/consumer_helpers.h"
 #include "load/routine_load/kinesis_conf.h"
 #include "runtime/aws_msk_iam_auth.h"
 #include "runtime/exec_env.h"
 #include "runtime/small_file_mgr.h"
 #include "service/backend_options.h"
 #include "util/blocking_queue.hpp"
 #include "util/debug_points.h"
 #include "util/defer_op.h"
 #include "util/s3_util.h"
 #include "util/stopwatch.hpp"
 #include "util/string_util.h"
 #include "util/uid_util.h"

 namespace doris {

 static const std::string PROP_GROUP_ID = "group.id";
 // init kafka consumer will only set common configs such as
 // brokers, groupid
 Status KafkaDataConsumer::init(std::shared_ptr<StreamLoadContext> ctx) {
     std::unique_lock<std::mutex> l(_lock);
     if (_init) {
         // this consumer has already been initialized.
         return Status::OK();
     }

     RdKafka::Conf* conf = RdKafka::Conf::create(RdKafka::Conf::CONF_GLOBAL);

     // conf has to be deleted finally
     Defer delete_conf {[conf]() { delete conf; }};

     std::string errstr;
     auto set_conf = [&conf, &errstr](const std::string& conf_key, const std::string& conf_val) {
         RdKafka::Conf::ConfResult res = conf->set(conf_key, conf_val, errstr);
         if (res == RdKafka::Conf::CONF_UNKNOWN) {
             // ignore unknown config
             return Status::OK();
         } else if (errstr.find("not supported") != std::string::npos) {
             // some java-only properties may be passed to here, and librdkafak will return 'xxx' not supported
             // ignore it
             return Status::OK();
         } else if (res != RdKafka::Conf::CONF_OK) {
             std::stringstream ss;
             ss << "PAUSE: failed to set '" << conf_key << "', value: '" << conf_val
                << "', err: " << errstr;
             LOG(WARNING) << ss.str();
             return Status::InternalError(ss.str());
         }
         VLOG_NOTICE << "set " << conf_key << ": " << conf_val;
         return Status::OK();
     };

     RETURN_IF_ERROR(set_conf("metadata.broker.list", ctx->kafka_info->brokers));
     RETURN_IF_ERROR(set_conf("enable.partition.eof", "true"));
     RETURN_IF_ERROR(set_conf("enable.auto.offset.store", "false"));
     // TODO: set it larger than 0 after we set rd_kafka_conf_set_stats_cb()
     RETURN_IF_ERROR(set_conf("statistics.interval.ms", "0"));
     RETURN_IF_ERROR(set_conf("auto.offset.reset", "error"));
     RETURN_IF_ERROR(set_conf("socket.keepalive.enable", "true"));
     RETURN_IF_ERROR(set_conf("reconnect.backoff.ms", "100"));
     RETURN_IF_ERROR(set_conf("reconnect.backoff.max.ms", "10000"));
     RETURN_IF_ERROR(set_conf("api.version.request", config::kafka_api_version_request));
     RETURN_IF_ERROR(set_conf("api.version.fallback.ms", "0"));
     RETURN_IF_ERROR(set_conf("broker.version.fallback", config::kafka_broker_version_fallback));
     RETURN_IF_ERROR(set_conf("broker.address.ttl", "0"));
     if (config::kafka_debug != "disable") {
         RETURN_IF_ERROR(set_conf("debug", config::kafka_debug));
     }

     for (auto& item : ctx->kafka_info->properties) {
         _custom_properties.emplace(item.first, item.second);

         // AWS properties (aws.*) are Doris-specific for MSK IAM authentication
         // and should not be passed to librdkafka
         if (starts_with(item.first, "aws.")) {
             LOG(INFO) << "Skipping AWS property for librdkafka: " << item.first;
             continue;
         }

         if (starts_with(item.second, "FILE:")) {
             // file property should has format: FILE:file_id:md5
             std::vector<std::string> parts =
                     absl::StrSplit(item.second, ":", absl::SkipWhitespace());
             if (parts.size() != 3) {
                 return Status::InternalError("PAUSE: Invalid file property of kafka: " +
                                              item.second);
             }
             int64_t file_id = std::stol(parts[1]);
             std::string file_path;
             Status st = ctx->exec_env()->small_file_mgr()->get_file(file_id, parts[2], &file_path);
             if (!st.ok()) {
                 return Status::InternalError("PAUSE: failed to get file for config: {}, error: {}",
                                              item.first, st.to_string());
             }
             RETURN_IF_ERROR(set_conf(item.first, file_path));
         } else {
             RETURN_IF_ERROR(set_conf(item.first, item.second));
         }
     }

     // if not specified group id, generate a random one.
     // ATTN: In the new version, we have set a group.id on the FE side for jobs that have not set a groupid,
     // but in order to ensure compatibility, we still do a check here.
     if (!_custom_properties.contains(PROP_GROUP_ID)) {
         std::stringstream ss;
         ss << BackendOptions::get_localhost() << "_";
         std::string group_id = ss.str() + UniqueId::gen_uid().to_string();
         RETURN_IF_ERROR(set_conf(PROP_GROUP_ID, group_id));
         _custom_properties.emplace(PROP_GROUP_ID, group_id);
     }
     LOG(INFO) << "init kafka consumer with group id: " << _custom_properties[PROP_GROUP_ID];

     if (conf->set("event_cb", &_k_event_cb, errstr) != RdKafka::Conf::CONF_OK) {
         std::stringstream ss;
         ss << "PAUSE: failed to set 'event_cb'";
         LOG(WARNING) << ss.str();
         return Status::InternalError(ss.str());
     }

     // Set up AWS MSK IAM authentication if configured
     _aws_msk_oauth_callback = AwsMskIamOAuthCallback::create_from_properties(
             _custom_properties, ctx->kafka_info->brokers);
     if (_aws_msk_oauth_callback) {
         // Enable SASL queue to support background callbacks
         if (conf->enable_sasl_queue(true, errstr) != RdKafka::Conf::CONF_OK) {
             LOG(WARNING) << "PAUSE: failed to enable SASL queue: " << errstr;
             return Status::InternalError("PAUSE: failed to enable SASL queue: " + errstr);
         }

         if (conf->set("oauthbearer_token_refresh_cb", _aws_msk_oauth_callback.get(), errstr) !=
             RdKafka::Conf::CONF_OK) {
             LOG(WARNING) << "PAUSE: failed to set OAuth callback: " << errstr;
             return Status::InternalError("PAUSE: failed to set OAuth callback: " + errstr);
         }
         LOG(INFO) << "AWS MSK IAM authentication enabled successfully";
     }

     // create consumer
     _k_consumer = RdKafka::KafkaConsumer::create(conf, errstr);
     if (!_k_consumer) {
         LOG(WARNING) << "PAUSE: failed to create kafka consumer: " << errstr;
         return Status::InternalError("PAUSE: failed to create kafka consumer: " + errstr);
     }

     // If AWS MSK IAM auth is enabled, inject initial token and enable background refresh
     if (_aws_msk_oauth_callback) {
         RETURN_IF_ERROR(_aws_msk_oauth_callback->refresh_now(_k_consumer));

         std::unique_ptr<RdKafka::Error> bg_err(_k_consumer->sasl_background_callbacks_enable());
         if (bg_err) {
             return Status::InternalError("Failed to enable SASL background callbacks: " +
                                          bg_err->str());
         }
         LOG(INFO) << "AWS MSK IAM: initial token set, background refresh enabled";
     }

     VLOG_NOTICE << "finished to init kafka consumer. " << ctx->brief();

     _init = true;
     return Status::OK();
 }

 Status KafkaDataConsumer::assign_topic_partitions(
         const std::map<int32_t, int64_t>& begin_partition_offset, const std::string& topic,
         std::shared_ptr<StreamLoadContext> ctx) {
     DCHECK(_k_consumer);
     // create TopicPartitions
     std::stringstream ss;
     std::vector<RdKafka::TopicPartition*> topic_partitions;
     for (auto& entry : begin_partition_offset) {
         RdKafka::TopicPartition* tp1 =
                 RdKafka::TopicPartition::create(topic, entry.first, entry.second);
         topic_partitions.push_back(tp1);
         _consuming_partition_ids.insert(entry.first);
         ss << "[" << entry.first << ": " << entry.second << "] ";
     }

     LOG(INFO) << "consumer: " << _id << ", grp: " << _grp_id
               << " assign topic partitions: " << topic << ", " << ss.str();

     // delete TopicPartition finally
     Defer delete_tp {[&topic_partitions]() {
         std::for_each(topic_partitions.begin(), topic_partitions.end(),
                       [](RdKafka::TopicPartition* tp1) { delete tp1; });
     }};

     // assign partition
     RdKafka::ErrorCode err = _k_consumer->assign(topic_partitions);
     if (err) {
         LOG(WARNING) << "failed to assign topic partitions: " << ctx->brief(true)
                      << ", err: " << RdKafka::err2str(err);
         _k_consumer->unassign();
         return Status::InternalError("failed to assign topic partitions");
     }

     return Status::OK();
 }

 Status KafkaDataConsumer::group_consume(BlockingQueue<RdKafka::Message*>* queue,
                                         int64_t max_running_time_ms) {
     int64_t left_time = max_running_time_ms;
     LOG(INFO) << "start kafka consumer: " << _id << ", grp: " << _grp_id
               << ", max running time(ms): " << left_time;

     int64_t received_rows = 0;
     int64_t put_rows = 0;
     RetryPolicy retry_policy(3, 200);
     Status st = Status::OK();
     MonotonicStopWatch consumer_watch;
     MonotonicStopWatch watch;
     watch.start();

     while (true) {
         {
             std::unique_lock<std::mutex> l(_lock);
             if (_cancelled) {
                 break;
             }
         }

         if (left_time <= 0) {
             break;
         }

         bool done = false;
         // consume 1 message at a time
         consumer_watch.start();
         std::unique_ptr<RdKafka::Message> msg(_k_consumer->consume(1000 /* timeout, ms */));
         consumer_watch.stop();

         DorisMetrics::instance()->routine_load_get_msg_count->increment(1);
         DorisMetrics::instance()->routine_load_get_msg_latency->increment(
                 consumer_watch.elapsed_time() / 1000 / 1000);

         DBUG_EXECUTE_IF("KafkaDataConsumer.group_consume.out_of_range", {
             done = true;
             std::stringstream ss;
             ss << "Offset out of range"
                << ", consume partition " << msg->partition() << ", consume offset "
                << msg->offset();
             LOG(WARNING) << "kafka consume failed: " << _id << ", msg: " << ss.str();
             st = Status::InternalError<false>(ss.str());
             break;
         });

         switch (msg->err()) {
         case RdKafka::ERR_NO_ERROR:
             retry_policy.reset();
             if (_consuming_partition_ids.count(msg->partition()) <= 0) {
                 _consuming_partition_ids.insert(msg->partition());
             }
             DorisMetrics::instance()->routine_load_consume_bytes->increment(msg->len());
             if (msg->len() == 0) {
                 // ignore msg with length 0.
                 // put empty msg into queue will cause the load process shutting down.
                 break;
             } else if (!queue->controlled_blocking_put(msg.get(),
                                                        config::blocking_queue_cv_wait_timeout_ms)) {
                 // queue is shutdown
                 done = true;
             } else {
                 ++put_rows;
                 msg.release(); // release the ownership, msg will be deleted after being processed
             }
             ++received_rows;
             DorisMetrics::instance()->routine_load_consume_rows->increment(1);
             break;
         case RdKafka::ERR__TIMED_OUT:
             // leave the status as OK, because this may happened
             // if there is no data in kafka.
             LOG(INFO) << "kafka consume timeout: " << _id;
             break;
         case RdKafka::ERR__TRANSPORT:
             LOG(INFO) << "kafka consume Disconnected: " << _id
                       << ", retry times: " << retry_policy.retry_count();
             if (retry_policy.should_retry()) {
                 retry_policy.retry_with_backoff();
                 break;
             }
             [[fallthrough]];
         case RdKafka::ERR__PARTITION_EOF: {
             VLOG_NOTICE << "consumer meet partition eof: " << _id
                         << " partition offset: " << msg->offset();
             _consuming_partition_ids.erase(msg->partition());
             if (!queue->controlled_blocking_put(msg.get(),
                                                 config::blocking_queue_cv_wait_timeout_ms)) {
                 done = true;
             } else if (_consuming_partition_ids.size() <= 0) {
                 LOG(INFO) << "all partitions meet eof: " << _id;
                 msg.release();
                 done = true;
             } else {
                 msg.release();
             }
             break;
         }
         case RdKafka::ERR_OFFSET_OUT_OF_RANGE: {
             done = true;
             std::stringstream ss;
             ss << msg->errstr() << ", consume partition " << msg->partition() << ", consume offset "
                << msg->offset();
             LOG(WARNING) << "kafka consume failed: " << _id << ", msg: " << ss.str();
             st = Status::InternalError<false>(ss.str());
             break;
         }
         default:
             LOG(WARNING) << "kafka consume failed: " << _id << ", msg: " << msg->errstr();
             done = true;
             st = Status::InternalError<false>(msg->errstr());
             break;
         }

         left_time = max_running_time_ms - watch.elapsed_time() / 1000 / 1000;
         if (done) {
             break;
         }
     }

     LOG(INFO) << "kafka consumer done: " << _id << ", grp: " << _grp_id
               << ". cancelled: " << _cancelled << ", left time(ms): " << left_time
               << ", total cost(ms): " << watch.elapsed_time() / 1000 / 1000
               << ", consume cost(ms): " << consumer_watch.elapsed_time() / 1000 / 1000
               << ", received rows: " << received_rows << ", put rows: " << put_rows;

     return st;
 }

 Status KafkaDataConsumer::get_partition_meta(std::vector<int32_t>* partition_ids) {
     // create topic conf
     RdKafka::Conf* tconf = RdKafka::Conf::create(RdKafka::Conf::CONF_TOPIC);
     Defer delete_conf {[tconf]() { delete tconf; }};

     // create topic
     std::string errstr;
     RdKafka::Topic* topic = RdKafka::Topic::create(_k_consumer, _topic, tconf, errstr);
     if (topic == nullptr) {
         std::stringstream ss;
         ss << "failed to create topic: " << errstr;
         LOG(WARNING) << ss.str();
         return Status::InternalError(ss.str());
     }

     Defer delete_topic {[topic]() { delete topic; }};

     // get topic metadata
     RdKafka::Metadata* metadata = nullptr;
     RdKafka::ErrorCode err =
             _k_consumer->metadata(false /* for this topic */, topic, &metadata, 5000);
     if (err != RdKafka::ERR_NO_ERROR) {
         std::stringstream ss;
         ss << "failed to get partition meta: " << RdKafka::err2str(err);
         LOG(WARNING) << ss.str();
         return Status::InternalError(ss.str());
     }

     Defer delete_meta {[metadata]() { delete metadata; }};

     // get partition ids
     RdKafka::Metadata::TopicMetadataIterator it;
     for (it = metadata->topics()->begin(); it != metadata->topics()->end(); ++it) {
         if ((*it)->topic() != _topic) {
             continue;
         }

         if ((*it)->err() != RdKafka::ERR_NO_ERROR) {
             std::stringstream ss;
             ss << "error: " << err2str((*it)->err());
             if ((*it)->err() == RdKafka::ERR_LEADER_NOT_AVAILABLE) {
                 ss << ", try again";
             }
             LOG(WARNING) << ss.str();
             return Status::InternalError(ss.str());
         }

         RdKafka::TopicMetadata::PartitionMetadataIterator ip;
         for (ip = (*it)->partitions()->begin(); ip != (*it)->partitions()->end(); ++ip) {
             partition_ids->push_back((*ip)->id());
         }
     }

     if (partition_ids->empty()) {
         return Status::InternalError("no partition in this topic");
     }

     return Status::OK();
 }

 // get offsets of each partition for times.
 // The input parameter "times" holds <partition, timestamps>
 // The output parameter "offsets" returns <partition, offsets>
 //
 // The returned offset for each partition is the earliest offset whose
 // timestamp is greater than or equal to the given timestamp in the
 // corresponding partition.
 // See librdkafka/rdkafkacpp.h##offsetsForTimes()
 Status KafkaDataConsumer::get_offsets_for_times(const std::vector<PIntegerPair>& times,
                                                 std::vector<PIntegerPair>* offsets, int timeout) {
     // create topic partition
     std::vector<RdKafka::TopicPartition*> topic_partitions;
     for (const auto& entry : times) {
         RdKafka::TopicPartition* tp1 =
                 RdKafka::TopicPartition::create(_topic, entry.key(), entry.val());
         topic_partitions.push_back(tp1);
     }
     // delete TopicPartition finally
     Defer delete_tp {[&topic_partitions]() {
         std::for_each(topic_partitions.begin(), topic_partitions.end(),
                       [](RdKafka::TopicPartition* tp1) { delete tp1; });
     }};

     // get offsets for times
     RdKafka::ErrorCode err = _k_consumer->offsetsForTimes(topic_partitions, timeout);
     if (UNLIKELY(err != RdKafka::ERR_NO_ERROR)) {
         std::stringstream ss;
         ss << "failed to get offsets for times: " << RdKafka::err2str(err);
         LOG(WARNING) << ss.str();
         return Status::InternalError(ss.str());
     }

     for (const auto& topic_partition : topic_partitions) {
         PIntegerPair pair;
         pair.set_key(topic_partition->partition());
         pair.set_val(topic_partition->offset());
         offsets->push_back(std::move(pair));
     }

     return Status::OK();
 }

 // get latest offsets for given partitions
 Status KafkaDataConsumer::get_latest_offsets_for_partitions(
         const std::vector<int32_t>& partition_ids, std::vector<PIntegerPair>* offsets,
         int timeout) {
     DBUG_EXECUTE_IF("KafkaDataConsumer.get_offsets_for_partitions.timeout", {
         // sleep 61s
         std::this_thread::sleep_for(std::chrono::seconds(61));
     });
     MonotonicStopWatch watch;
     watch.start();
     for (int32_t partition_id : partition_ids) {
         int64_t low = 0;
         int64_t high = 0;
         auto timeout_ms = timeout - static_cast<int>(watch.elapsed_time() / 1000 / 1000);
         if (UNLIKELY(timeout_ms <= 0)) {
             return Status::InternalError("get kafka latest offsets for partitions timeout");
         }

         RdKafka::ErrorCode err =
                 _k_consumer->query_watermark_offsets(_topic, partition_id, &low, &high, timeout_ms);
         if (UNLIKELY(err != RdKafka::ERR_NO_ERROR)) {
             std::stringstream ss;
             ss << "failed to get latest offset for partition: " << partition_id
                << ", err: " << RdKafka::err2str(err);
             LOG(WARNING) << ss.str();
             return Status::InternalError(ss.str());
         }

         PIntegerPair pair;
         pair.set_key(partition_id);
         pair.set_val(high);
         offsets->push_back(std::move(pair));
     }

     return Status::OK();
 }

 Status KafkaDataConsumer::get_real_offsets_for_partitions(
         const std::vector<PIntegerPair>& offset_flags, std::vector<PIntegerPair>* offsets,
         int timeout) {
     DBUG_EXECUTE_IF("KafkaDataConsumer.get_offsets_for_partitions.timeout", {
         // sleep 61s
         std::this_thread::sleep_for(std::chrono::seconds(61));
     });
     MonotonicStopWatch watch;
     watch.start();
     for (const auto& entry : offset_flags) {
         PIntegerPair pair;
         if (UNLIKELY(entry.val() >= 0)) {
             pair.set_key(entry.key());
             pair.set_val(entry.val());
             offsets->push_back(std::move(pair));
             continue;
         }

         int64_t low = 0;
         int64_t high = 0;
         auto timeout_ms = timeout - static_cast<int>(watch.elapsed_time() / 1000 / 1000);
         if (UNLIKELY(timeout_ms <= 0)) {
             return Status::InternalError("get kafka real offsets for partitions timeout");
         }

         RdKafka::ErrorCode err =
                 _k_consumer->query_watermark_offsets(_topic, entry.key(), &low, &high, timeout_ms);
         if (UNLIKELY(err != RdKafka::ERR_NO_ERROR)) {
             std::stringstream ss;
             ss << "failed to get latest offset for partition: " << entry.key()
                << ", err: " << RdKafka::err2str(err);
             LOG(WARNING) << ss.str();
             return Status::InternalError(ss.str());
         }

         pair.set_key(entry.key());
         if (entry.val() == -1) {
             // OFFSET_END_VAL = -1
             pair.set_val(high);
         } else if (entry.val() == -2) {
             // OFFSET_BEGINNING_VAL = -2
             pair.set_val(low);
         }
         offsets->push_back(std::move(pair));
     }

     return Status::OK();
 }

 Status KafkaDataConsumer::cancel(std::shared_ptr<StreamLoadContext> ctx) {
     std::unique_lock<std::mutex> l(_lock);
     if (!_init) {
         return Status::InternalError("consumer is not initialized");
     }

     _cancelled = true;
     LOG(INFO) << "kafka consumer cancelled. " << _id;
     return Status::OK();
 }

 Status KafkaDataConsumer::reset() {
     std::unique_lock<std::mutex> l(_lock);
     _cancelled = false;
     _k_consumer->unassign();
     // reset will be called before this consumer being returned to the pool.
     // so update _last_visit_time is reasonable.
     _last_visit_time = time(nullptr);
     return Status::OK();
 }

 Status KafkaDataConsumer::commit(std::vector<RdKafka::TopicPartition*>& offset) {
     // Use async commit so that it will not block for a long time.
     // Commit failure has no effect on Doris, subsequent tasks will continue to commit the new offset
     RdKafka::ErrorCode err = _k_consumer->commitAsync(offset);
     if (err != RdKafka::ERR_NO_ERROR) {
         return Status::InternalError("failed to commit kafka offset : {}", RdKafka::err2str(err));
     }
     return Status::OK();
 }

 // if the kafka brokers and topic are same,
 // we considered this consumer as matched, thus can be reused.
 bool KafkaDataConsumer::match(std::shared_ptr<StreamLoadContext> ctx) {
     if (ctx->load_src_type != TLoadSourceType::KAFKA) {
         return false;
     }
     if (_brokers != ctx->kafka_info->brokers || _topic != ctx->kafka_info->topic) {
         return false;
     }
     // check properties
     return PropertyMatcher::properties_match(_custom_properties, ctx->kafka_info->properties);
 }

 // ==================== AWS Kinesis Data Consumer Implementation ====================

 KinesisDataConsumer::KinesisDataConsumer(std::shared_ptr<StreamLoadContext> ctx)
         : _region(ctx->kinesis_info->region),
           _stream(ctx->kinesis_info->stream),
           _endpoint(ctx->kinesis_info->endpoint) {
     VLOG_NOTICE << "construct Kinesis consumer: stream=" << _stream << ", region=" << _region;
 }

 KinesisDataConsumer::~KinesisDataConsumer() {
     VLOG_NOTICE << "destruct Kinesis consumer: stream=" << _stream;
     // AWS SDK client managed by shared_ptr, will be automatically cleaned up
 }

 Status KinesisDataConsumer::init(std::shared_ptr<StreamLoadContext> ctx) {
     std::unique_lock<std::mutex> l(_lock);
     if (_init) {
         return Status::OK(); // Already initialized (idempotent)
     }

     // Store custom properties (AWS credentials, etc.)
     _custom_properties.insert(ctx->kinesis_info->properties.begin(),
                               ctx->kinesis_info->properties.end());

     // Create KinesisConf and configure it
     _kinesis_conf = std::make_unique<KinesisConf>();
     std::string errstr;

     // Parse and categorize aws.kinesis.* properties into three types
     for (auto& item : _custom_properties) {
         if (starts_with(item.first, "aws.kinesis.")) {
             std::string conf_key = item.first.substr(12); // Remove "aws.kinesis." prefix

             // Type 2: Frequently-used parameters (explicit members)
             if (conf_key == "shards") {
                 std::vector<std::string> parts =
                         absl::StrSplit(item.second, ",", absl::SkipWhitespace());
                 _explicit_shards = std::move(parts);
                 VLOG_NOTICE << "Set explicit shards: " << item.second;
             } else if (conf_key == "default.pos") {
                 _default_position = item.second;
                 VLOG_NOTICE << "Set default position: " << item.second;
             } else if (starts_with(conf_key, "shards.pos.")) {
                 std::string shard_id = conf_key.substr(11); // Remove "shards.pos." prefix
                 _shard_positions[shard_id] = item.second;
                 VLOG_NOTICE << "Set shard position: " << shard_id << " = " << item.second;
             }
             // Type 3: Less-frequently-used API parameters (KinesisConf determines which API)
             else {
                 KinesisConf::ConfResult res = _kinesis_conf->set(conf_key, item.second, errstr);
                 if (res == KinesisConf::CONF_INVALID) {
                     return Status::InternalError("Failed to set '{}': {}", conf_key, errstr);
                 }
                 // CONF_UNKNOWN is acceptable (parameter will be ignored)
             }
         }
     }

     // Create AWS Kinesis client
     RETURN_IF_ERROR(_create_kinesis_client(ctx));

     VLOG_NOTICE << "finished to init Kinesis consumer. stream=" << _stream << ", region=" << _region
                 << ", " << ctx->brief();
     _init = true;
     return Status::OK();
 }

 Status KinesisDataConsumer::_create_kinesis_client(std::shared_ptr<StreamLoadContext> ctx) {
     // Reuse S3ClientFactory's credential provider logic
     // This supports all AWS authentication methods:
     // - Simple AK/SK
     // - IAM instance profile (EC2)
     // - STS assume role
     // - Session tokens
     // - Environment variables
     // - Default credential chain

     S3ClientConf s3_conf;
     s3_conf.region = _region;
     s3_conf.endpoint = _endpoint;

     auto get_property = [this](const char* key) -> std::string {
         auto it = _custom_properties.find(key);
         if (it != _custom_properties.end() && !it->second.empty()) {
             return it->second;
         }
         return "";
     };

     // Keep one naming convention aligned with FE-side Kinesis properties.
     s3_conf.ak = get_property("aws.access_key");
     s3_conf.sk = get_property("aws.secret_key");
     s3_conf.token = get_property("aws.session_key");
     s3_conf.role_arn = get_property("aws.role_arn");
     s3_conf.external_id = get_property("aws.external.id");

     const std::string provider = get_property("aws.credentials.provider");
     if (!provider.empty()) {
         // Map provider type string to enum
         if (provider == "instance_profile") {
             s3_conf.cred_provider_type = CredProviderType::InstanceProfile;
         } else if (provider == "env") {
             s3_conf.cred_provider_type = CredProviderType::Env;
         } else if (provider == "simple") {
             s3_conf.cred_provider_type = CredProviderType::Simple;
         }
     }

     // Create AWS ClientConfiguration
     Aws::Client::ClientConfiguration aws_config = S3ClientFactory::getClientConfiguration();
     aws_config.region = _region;

     if (!_endpoint.empty()) {
         aws_config.endpointOverride = _endpoint;
     }

     std::string ca_cert_file_path =
             get_valid_ca_cert_path(doris::split(config::ca_cert_file_paths, ";"));
     if (!ca_cert_file_path.empty()) {
         aws_config.caFile = ca_cert_file_path;
     }

     auto parse_timeout_ms = [](const std::string& timeout_value, const std::string& property_name,
                                long* timeout_ms) -> Status {
         try {
             *timeout_ms = std::stol(timeout_value);
         } catch (const std::exception&) {
             return Status::InternalError("Invalid value for {}: {}", property_name, timeout_value);
         }
         return Status::OK();
     };

     // Set timeouts from properties or use defaults
     auto it_request_timeout = _custom_properties.find("aws.request.timeout.ms");
     if (it_request_timeout != _custom_properties.end()) {
         RETURN_IF_ERROR(parse_timeout_ms(it_request_timeout->second, "aws.request.timeout.ms",
                                          &aws_config.requestTimeoutMs));
     } else {
         aws_config.requestTimeoutMs = 30000; // 30s default
     }

     auto it_conn_timeout = _custom_properties.find("aws.connection.timeout.ms");
     if (it_conn_timeout != _custom_properties.end()) {
         RETURN_IF_ERROR(parse_timeout_ms(it_conn_timeout->second, "aws.connection.timeout.ms",
                                          &aws_config.connectTimeoutMs));
     }

     // Get credentials provider (reuses S3 infrastructure)
     auto credentials_provider = S3ClientFactory::instance().get_aws_credentials_provider(s3_conf);

     // Create Kinesis client
     _kinesis_client =
             std::make_shared<Aws::Kinesis::KinesisClient>(credentials_provider, aws_config);

     if (!_kinesis_client) {
         return Status::InternalError(
                 "Failed to create AWS Kinesis client for stream: {}, region: {}", _stream, _region);
     }

     LOG(INFO) << "Created Kinesis client for stream: " << _stream << ", region: " << _region;
     return Status::OK();
 }

 Status KinesisDataConsumer::assign_shards(
         const std::map<std::string, std::string>& shard_sequence_numbers,
         const std::string& stream_name, std::shared_ptr<StreamLoadContext> ctx) {
     DORIS_CHECK(_kinesis_client);

     std::stringstream ss;
     ss << "Assigning shards to Kinesis consumer " << _id << ": ";

     for (auto& entry : shard_sequence_numbers) {
         const std::string& shard_id = entry.first;
         const std::string& sequence_number = entry.second;

         // Get shard iterator for this shard
         std::string iterator;
         RETURN_IF_ERROR(_get_shard_iterator(shard_id, sequence_number, &iterator));

         _shard_iterators[shard_id] = iterator;
         _consuming_shard_ids.insert(shard_id);

         ss << "[" << shard_id << ": " << sequence_number << "] ";
     }

     LOG(INFO) << ss.str();
     return Status::OK();
 }

 Status KinesisDataConsumer::_get_shard_iterator(const std::string& shard_id,
                                                 const std::string& sequence_number,
                                                 std::string* iterator) {
     Aws::Kinesis::Model::GetShardIteratorRequest request;

     // Apply all configurations through KinesisConf
     DCHECK(_kinesis_conf != nullptr);
     Status st = _kinesis_conf->apply_to_get_shard_iterator_request(request, _stream, shard_id,
                                                                    sequence_number);
     if (!st.ok()) {
         return Status::InternalError(
                 "Failed to apply Kinesis config to GetShardIteratorRequest: {}", st.to_string());
     }

     auto outcome = _kinesis_client->GetShardIterator(request);
     if (!outcome.IsSuccess()) {
         auto& error = outcome.GetError();
         return Status::InternalError("Failed to get shard iterator for shard {}: {} ({})", shard_id,
                                      error.GetMessage(), static_cast<int>(error.GetErrorType()));
     }

     *iterator = outcome.GetResult().GetShardIterator();
     VLOG_NOTICE << "Got shard iterator for shard: " << shard_id;
     return Status::OK();
 }

 Status KinesisDataConsumer::group_consume(
         BlockingQueue<std::shared_ptr<Aws::Kinesis::Model::Record>>* queue,
         int64_t max_running_time_ms) {
     static constexpr int INTER_SHARD_SLEEP_MS = 10;            // Small sleep between shards
     static constexpr int MIN_INTERVAL_BETWEEN_ROUNDS_MS = 200; // Min 200ms between rounds

     int64_t left_time = max_running_time_ms;
     LOG(INFO) << "start Kinesis consumer: " << _id << ", grp: " << _grp_id
               << ", stream: " << _stream << ", max running time(ms): " << left_time;

     int64_t received_rows = 0;
     int64_t put_rows = 0;
     RetryPolicy retry_policy(3, 200);
     ThrottleBackoff throttle_backoff(1000, 10000);
     Status st = Status::OK();
     bool done = false;

     MonotonicStopWatch consumer_watch;
     MonotonicStopWatch watch;
     watch.start();

     while (true) {
         // Check cancellation flag
         {
             std::unique_lock<std::mutex> l(_lock);
             if (_cancelled) {
                 break;
             }
         }

         if (left_time <= 0) {
             break;
         }

         // Round-robin through all active shards
         for (auto it = _consuming_shard_ids.begin(); it != _consuming_shard_ids.end() && !done;) {
             const std::string& shard_id = *it;
             auto iter_it = _shard_iterators.find(shard_id);

             if (iter_it == _shard_iterators.end() || iter_it->second.empty()) {
                 // Shard exhausted (closed due to split/merge), remove from active set
                 LOG(INFO) << "Shard exhausted: " << shard_id;
                 it = _consuming_shard_ids.erase(it);
                 continue;
             }

             consumer_watch.start();

             Aws::Kinesis::Model::GetRecordsRequest request;

             DCHECK(_kinesis_conf != nullptr);
             st = _kinesis_conf->apply_to_get_records_request(request, iter_it->second);
             if (!st.ok()) {
                 LOG(WARNING) << "Failed to apply Kinesis config to GetRecordsRequest: " << st;
                 done = true;
                 break;
             }

             auto outcome = _kinesis_client->GetRecords(request);
             consumer_watch.stop();

             // Track generic routine load metrics and Kinesis-specific metrics.
             DorisMetrics::instance()->routine_load_get_msg_count->increment(1);
             DorisMetrics::instance()->routine_load_get_msg_latency->increment(
                     consumer_watch.elapsed_time() / 1000 / 1000);
             DorisMetrics::instance()->routine_load_kinesis_get_records_count->increment(1);
             DorisMetrics::instance()->routine_load_kinesis_get_records_latency->increment(
                     consumer_watch.elapsed_time() / 1000 / 1000);

             if (!outcome.IsSuccess()) {
                 auto& error = outcome.GetError();

                 // Handle throttling (ProvisionedThroughputExceededException)
                 if (error.GetErrorType() ==
                     Aws::Kinesis::KinesisErrors::PROVISIONED_THROUGHPUT_EXCEEDED) {
                     DorisMetrics::instance()->routine_load_kinesis_throttle_count->increment(1);
                     LOG(INFO) << "Kinesis rate limit exceeded for shard: " << shard_id
                               << ", throttle_count: " << throttle_backoff.throttle_count()
                               << ", backing off";
                     throttle_backoff.backoff_and_sleep();
                     ++it; // Move to next shard, will retry this one next round
                     continue;
                 }

                 // Handle retriable errors
                 if (_is_retriable_error(error)) {
                     DorisMetrics::instance()->routine_load_kinesis_retriable_error_count->increment(
                             1);
                     LOG(INFO) << "Kinesis retriable error for shard " << shard_id << ": "
                               << error.GetMessage()
                               << ", retry times: " << retry_policy.retry_count();
                     if (retry_policy.should_retry()) {
                         retry_policy.retry_with_backoff();
                         continue;
                     }
                 }

                 // Fatal error
                 LOG(WARNING) << "Kinesis consume failed for shard " << shard_id << ": "
                              << error.GetMessage() << " (" << static_cast<int>(error.GetErrorType())
                              << ")";
                 st = Status::InternalError("Kinesis GetRecords failed for shard {}: {}", shard_id,
                                            error.GetMessage());
                 done = true;
                 break;
             }

             // Reset retry counter on success
             retry_policy.reset();
             throttle_backoff.reset();

             // Process records - move result to allow moving individual records
             auto result = outcome.GetResultWithOwnership();
             auto millis_behind = result.GetMillisBehindLatest();
             std::string next_iterator = result.GetNextShardIterator();
             size_t record_count = result.GetRecords().size();
             RETURN_IF_ERROR(_process_records(shard_id, std::move(result), queue, &received_rows,
                                              &put_rows));

             // Track MillisBehindLatest for this shard (used by FE for lag monitoring & scheduling)
             _millis_behind_latest[shard_id] = millis_behind;

             // Update shard iterator for next call
             if (next_iterator.empty()) {
                 // Shard is closed (split/merge), mark as closed and remove from active set
                 LOG(INFO) << "Shard closed: " << shard_id << " (split/merge detected)";
                 DorisMetrics::instance()->routine_load_kinesis_closed_shard_count->increment(1);
                 _closed_shard_ids.insert(shard_id);
                 _shard_iterators.erase(shard_id);
                 it = _consuming_shard_ids.erase(it);
             } else {
                 // Update iterator for next consumption
                 _shard_iterators[shard_id] = next_iterator;

                 if (record_count == 0) {
                     // No records in this batch - shard has caught up with latest data
                     // Remove from active set for this round (similar to Kafka PARTITION_EOF)
                     // but keep iterator and progress for next task execution
                     LOG(INFO) << "Shard has no new data: " << shard_id
                               << " (MillisBehindLatest=" << millis_behind << ")";
                     it = _consuming_shard_ids.erase(it);
                 } else {
                     ++it;
                 }
             }

             // Check if all shards are exhausted
             if (_consuming_shard_ids.empty()) {
                 LOG(INFO) << "All shards exhausted for consumer: " << _id;
                 done = true;
                 break;
             }

             // Small sleep to avoid tight loop
             std::this_thread::sleep_for(std::chrono::milliseconds(INTER_SHARD_SLEEP_MS));
         }

         // Ensure minimum interval between rounds to respect Kinesis rate limits (5 GetRecords/sec per shard)
         std::this_thread::sleep_for(std::chrono::milliseconds(MIN_INTERVAL_BETWEEN_ROUNDS_MS));

         left_time = max_running_time_ms - watch.elapsed_time() / 1000 / 1000;
         if (done) {
             break;
         }
     }

     LOG(INFO) << "Kinesis consumer done: " << _id << ", grp: " << _grp_id
               << ". cancelled: " << _cancelled << ", left time(ms): " << left_time
               << ", total cost(ms): " << watch.elapsed_time() / 1000 / 1000
               << ", consume cost(ms): " << consumer_watch.elapsed_time() / 1000 / 1000
               << ", received rows: " << received_rows << ", put rows: " << put_rows;

     return st;
 }

 Status KinesisDataConsumer::_process_records(
         const std::string& shard_id, Aws::Kinesis::Model::GetRecordsResult result,
         BlockingQueue<std::shared_ptr<Aws::Kinesis::Model::Record>>* queue, int64_t* received_rows,
         int64_t* put_rows) {
     // result is owned by value, safe to get mutable access to its records
     auto records =
             std::move(const_cast<Aws::Vector<Aws::Kinesis::Model::Record>&>(result.GetRecords()));
     for (auto& record : records) {
         DorisMetrics::instance()->routine_load_consume_bytes->increment(
                 record.GetData().GetLength());

         if (record.GetData().GetLength() == 0) {
             // Skip empty records
             continue;
         }

         // Track the last sequence number for this shard
         _committed_sequence_numbers[shard_id] = record.GetSequenceNumber();

         // Move record into shared_ptr to avoid expensive copy
         auto record_ptr = std::make_shared<Aws::Kinesis::Model::Record>(std::move(record));

         if (!queue->controlled_blocking_put(record_ptr,
                                             config::blocking_queue_cv_wait_timeout_ms)) {
             // Queue shutdown
             return Status::InternalError("Queue shutdown during record processing");
         }

         (*put_rows)++;
         (*received_rows)++;
         DorisMetrics::instance()->routine_load_consume_rows->increment(1);
     }

     return Status::OK();
 }

 bool KinesisDataConsumer::_is_retriable_error(
         const Aws::Client::AWSError<Aws::Kinesis::KinesisErrors>& error) {
     auto error_type = error.GetErrorType();

     return error_type == Aws::Kinesis::KinesisErrors::PROVISIONED_THROUGHPUT_EXCEEDED ||
            error_type == Aws::Kinesis::KinesisErrors::SERVICE_UNAVAILABLE ||
            error_type == Aws::Kinesis::KinesisErrors::INTERNAL_FAILURE ||
            error_type == Aws::Kinesis::KinesisErrors::NETWORK_CONNECTION || error.ShouldRetry();
 }

 Status KinesisDataConsumer::reset() {
     std::unique_lock<std::mutex> l(_lock);
     _cancelled = false;
     _consuming_shard_ids.clear();
     _shard_iterators.clear();
     _millis_behind_latest.clear();
     _committed_sequence_numbers.clear();
     _closed_shard_ids.clear();
     _last_visit_time = time(nullptr);
     LOG(INFO) << "Kinesis consumer reset: " << _id;
     return Status::OK();
 }

 Status KinesisDataConsumer::cancel(std::shared_ptr<StreamLoadContext> ctx) {
     std::unique_lock<std::mutex> l(_lock);
     if (!_init) {
         return Status::InternalError("Kinesis consumer is not initialized");
     }
     _cancelled = true;
     LOG(INFO) << "Kinesis consumer cancelled: " << _id << ", " << ctx->brief();
     return Status::OK();
 }

 bool KinesisDataConsumer::match(std::shared_ptr<StreamLoadContext> ctx) {
     if (ctx->load_src_type != TLoadSourceType::KINESIS) {
         return false;
     }

     if (_region != ctx->kinesis_info->region || _stream != ctx->kinesis_info->stream ||
         _endpoint != ctx->kinesis_info->endpoint) {
         return false;
     }

     // Check that properties match
     return PropertyMatcher::properties_match(_custom_properties, ctx->kinesis_info->properties);
 }

 Status KinesisDataConsumer::get_shard_list(std::vector<std::string>* shard_ids) {
     DORIS_CHECK(_kinesis_client);

     // If user specified explicit shards, return those
     if (!_explicit_shards.empty()) {
         *shard_ids = _explicit_shards;
         LOG(INFO) << "Using " << shard_ids->size() << " explicit shards for stream: " << _stream;
         return Status::OK();
     }

     // Discover all shards
     Aws::Kinesis::Model::ListShardsRequest request;

     DCHECK(_kinesis_conf != nullptr);
     Status st = _kinesis_conf->apply_to_list_shards_request(request, _stream);
     if (!st.ok()) {
         return Status::InternalError("Failed to apply Kinesis config to ListShardsRequest: {}",
                                      st.to_string());
     }

     // Only return OPEN shards here. FE will keep recently retired parent shards in its
     // closed list until they are fully drained, then remove them permanently. Returning
     // CLOSED shards from ListShards would make already-drained parents look newly discovered
     // and cause them to restart from TRIM_HORIZON.
     std::vector<std::string> discovered_shard_ids;
     bool saw_any_shard = false;
     while (true) {
         auto outcome = _kinesis_client->ListShards(request);
         if (!outcome.IsSuccess()) {
             auto& error = outcome.GetError();
             return Status::InternalError("Failed to list shards for stream {}: {} ({})", _stream,
                                          error.GetMessage(),
                                          static_cast<int>(error.GetErrorType()));
         }

         const auto& result = outcome.GetResult();
         if (!result.GetShards().empty()) {
             saw_any_shard = true;
         }
         for (const auto& shard : result.GetShards()) {
             const auto& ending_sequence_number =
                     shard.GetSequenceNumberRange().GetEndingSequenceNumber();
             if (!ending_sequence_number.empty()) {
                 continue;
             }
             discovered_shard_ids.emplace_back(shard.GetShardId());
         }

         const Aws::String& next_token = result.GetNextToken();
         if (next_token.empty()) {
             break;
         }

         Aws::Kinesis::Model::ListShardsRequest next_request;
         // AWS requires paginated ListShards requests to use NextToken instead of StreamName.
         next_request.SetNextToken(next_token);
         if (request.MaxResultsHasBeenSet()) {
             next_request.SetMaxResults(request.GetMaxResults());
         }
         request = std::move(next_request);
     }

     if (discovered_shard_ids.empty() && !saw_any_shard) {
         return Status::InternalError("No shards found in Kinesis stream: {}", _stream);
     }

     *shard_ids = std::move(discovered_shard_ids);
     LOG(INFO) << "Found " << shard_ids->size() << " open shards in stream: " << _stream;
     return Status::OK();
 }

 } // end namespace doris