拉普实验室独特的数据平台成为AI本土组织最强大的基础。
: 我们正在寻找一位数据工程师来参与这个激动人心的任务!
[让我介绍一下您将加入的组织 🚀]
随着人工智能时代的到来,“良好数据”的价值大大提高。特别是由于拉普实验室的目标是成为一个AI本土组织,所有成员对此价值深感认同。拉普实验室的数据工程团队的任务是持续生产、管理和提供这些良好的数据。因此,我们在设计数据管道时,深刻考虑每个数据的物理特性、领域上下文以及利用这些数据的同事的需求。目前,数据作为奎尼特和帕尔多喀姆的增长引擎而运作,我们正在寻找能够将支持数据平台推向更高水平的人。您将经历不断的思考和发展,以确保在快速发展的商业平台中,在最需要的时刻以最准确的形式提供数据。
[拉普实验室的技术栈 🚀]
• 数据仓库:BigQuery
• 工作流:Airflow
• 流媒体:Kafka、Kafka Connect、Debezium
• 语言:Python
• 基础设施:Kubernetes、Terraform
• 云:AWS、GCP
• 数据质量:Dataform
[如果您加入,我们将一起从事这些工作 🚀]
• 设计、构建和操作管道,以分析奎尼特和帕尔多喀姆生成的海量数据。
• 通过CDC实时将来自数十个微服务的数据加载到BigQuery,并利用Kafka和Debezium改进流处理管道。
• 改善表查找逻辑,以提高基于AI的数据代理的准确性,并建立答案评估管道以监控质量。
• 构建一个新的Mart系统,以表格形式提供整个公司的核心业务逻辑,并将核心Mart从现有的遗留系统迁移。
• 创建一个治理结构,使数据生产者也生成元数据,并建立一个元数据平台,使公司成员更容易探索数据。
• 通过对表的紧急性分类、定义质量标准以及建立和运营问题响应流程,建立数据质量管理体系。
[拉普实验室正在寻找这样的候选人 🚀]
• 拥有5年以上的数据工程经验或相应的经验和能力。
• 熟练掌握SQL,并能够熟练操作至少一种编程语言,例如Python。
• 有建立和运营基于云的数据基础设施(如BigQuery和Airflow)的经验。
• 利用开源数据处理系统(如Kafka和Spark)构建大规模数据管道的经验。
• 在实际服务或内部系统中引入和运营AI代理或基于LLM的功能的经验。
[拥有以下经验的人更好! 🚀]
• 在Kubernetes环境中建立和管理数据基础设施的经验。
• 利用Dataform管理数据质量或构建数据目录的经验。
• 利用CDC(变更数据捕获)构建实时数据管道的经验。
• 在快速增长的商业或平台环境中扩展数据基础设施的经验。
[加入拉普实验室的旅程 🚀]
• 申请流程:文件筛选 > 第一轮实践面试 > 第二轮文化面试 > 条件协商 > 最终接受
◦ 该流程可能会根据时间表和具体情况进行更改或增加,并在事前通知。
◦ 无论各轮结果(通过/未通过)如何,所有申请者将在1-2周内收到单独联系。
◦ 对于全职职位,适用三个月的试用期。在此期间,将支付100%的薪水,试用期可以根据评估被延长或终止。
◦ 如果在提交的简历和证明文件中发现虚假信息或不实信息,接受资格可能会被取消。
[您可以在数据工程团队中得到这样的成长 🚀]
• 向适合AI时代的数据平台演变。从AI数据代理到元数据平台,您将直接参与设计和构建。
• 在消除遗留基础设施和过渡到新系统的过程中,您将获得从头重新设计数据架构的经验。
• 您将直接创建快速增长商业平台的数据治理,实现全公司的数据文化。
• 从数据质量管理到实时流,您将体验数据工程的整个领域,成长为一名高级工程师。
[与您共事同事的话 🚀]
我们团队目前正在完全重建数据平台。我们正在构建基于AI的数据代理,消除遗留系统,同时创建新的Mart系统和元数据平台。在这样的环境中,没有预定的答案,我们必须快速验证并大胆丢弃,以寻找真正产生影响的东西。因此,我们正在寻找希望共同定义数据平台方向的人,而不仅仅是维护现有的管道。让我们共同挖掘AI时代“良好数据”的意义,真正创造它。