使用我们的数据验证框架平衡质量和覆盖范围(译文-来自: Dropbox)
热门文章
0
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
蒲公英互联 2023-02-21 11:27 ・河北 在 Dropbox,我们将有关人们如何使用我们的产品和服务的数据存储在基于 Hadoop 的数据湖中。各种团队都依赖这个数据湖中的信息来实现各种业务目的――例如,分析、计费和开发新功能――我们的工作是确保只有高质量的数据才能到达湖中。我们的数据湖大小超过 55 PB,在处理这种规模的数据时,质量始终是一个大问题。我们构建的功能、我们做出的决策以及我们报告的财务结果都取决于我们的数据是否准确无误。但是由于要筛选的数据如此之多,质量问题可能会非常难以发现――即使我们一开始就知道它们存在的话。这相当于在黑暗的房间里寻找黑猫的数据工程。过去,Dropbox 的不同团队采用不同的方法来验证数据,采用不同的标准和不同的管道。不可避免地,当我们在数据中发现错误时,我们知道可能还有更多的人没有被发现。这就是为什么 Dropbox 在 2018 年创建了一个专门的数据工程团队来监督我们数据湖中数据的验证,并试图在这些问题发生之前发现它们。所有以我们规模运营的组织都必须考虑这些数据验证问题。事实上,数据验证并不是一个可以直接解决的问题。有些系统没有数据质量检查,而其他系统则尝试在使用数据之前检查所有内容。两者都有他们的问题。如果我们的检查过于宽松,Dropbox 用户可以更快地使用数据,但质量可能会很差。另一方面,如果我们的检查过于严格,数据的质量会更好,但需要更多的时间和资源来处理――当数据准备好时,它可能已经过时而不再有用了。在 Dropbox,我们的数据验证框架介于两者之间。这个故事将详细介绍我们如何在我们的大数据管道中实施新的质量检查系统,以实现简单性和覆盖范围的正确平衡――提供高质量的数据,而不会造成不必要的困难或昂贵的维护。覆盖范围、代码和配置决策数据质量问题可以有多种形式。查询是否返回重复数据?必填字段中是否缺少数据?预期美元金额为负数吗?如果一条数据上的时间戳在未来或过去太远怎么办?我们知道我们想要一个不仅易于配置,而且能够在需要时执行各种质量检查的系统。我们查看了 GitHub 上的开源项目,也考虑了商业产品。Great Expectation s和dbt是我们考虑的两个选项。两者都支持 NOT NULL、上限/下限和 UNIQUE 等简单检查,并将这些检查存储在 YAML 文件中。但是对于更复杂的检查,例如百分比或复杂的业务逻辑,我们仍然需要编写 SQL。Great Expectations 和 dbt 也是独立的服务而不是库,这使得它们很难与我们的编排系统 Airflow 集成。例如,虽然我们可以从 Airflow 中调用 dbt,获取结果并将其返回给 Airflow,但任何失败都需要我们使用 dbt 的接口进行调查。我们还查看了广泛使用的库Evidently,但觉得它对于我们想要交付的东西来说太复杂了,而且需要大量的 Python。当我们找不到完全满足我们需求的任何东西时,我们决定从头开始构建一个解决方案。我们必须做出的第一个决定是关于覆盖范围。换句话说,我们的测试要涵盖哪些类型的问题?一方面,我们希望我们的系统能够验证任何复杂的数据。另一方面,我们知道我们无法面面俱到。所以我们决定采用 80/20 的方法。这一原则表明,给定场景中 80% 的所有输出仅来自 20% 的输入,我们推断我们可以仅通过少量测试来解决最常见的数据质量问题。我们的方法未涵盖的问题可能永远不会出现,而那些确实出现的问题可以根据具体情况进行处理。接下来,我们必须决定使用哪种编程语言来编写我们的验证框架。我们的数据工程师在 SQL、Java、Scala、SchemaPLT、Python 和 C 等语言方面拥有丰富的经验,并且各有利弊。但是经过多方讨论,我们选择了SQL。为什么选择这么原始的语言?好吧,每个人都知道 SQL!它足够灵活,可以处理简单和复杂的验证,并且相对于其他语言,任何级别的工程师都可以轻松地进行开发和维护。最后,我们需要决定在哪里存储定义数据验证检查的规则。在这里我们没有太多选择。数据库被广泛用于此目的,并且具有易于访问和配置的优点。但是将我们的规则存储为代码将使审查更改和查看我们的修订历史变得更加容易。最后我们选择将所有验证作为代码存储在 Git 中――因为只有数据工程师才知道数据库会导致多少问题。够简单吗?是的。够有效吗?是的!执行我们的验证 SQL我们使用 Airflow 编排系统将新数据放入湖中。为了实施我们的框架,我们向 Airflow 添加了一个验证运算符,用于在摄取新数据后执行我们的验证 SQL。出于性能原因,我们对所有验证使用一个查询。这个查询的结果只有一行很多列,每一列代表一次数据校验操作。如果一列包含零,则表示验证通过。任何其他值表示验证失败。Airflow 还允许我们将多个源表组合成一个表,验证结果,然后将该结果与其他表组合以进行进一步验证。这个逻辑让我们可以开始收集更多关于验证失败的细节――例如,有问题的行的百分比――而无需任何额外的步骤。我们的框架收集所有非零值,将 Airflow 任务标记为失败,并通过 Airflow 抛出异常。然后我们向任何待命的人发送 PagerDuty 警报。例如,如果我们为another_column得到了意外数量的 NULL和可疑的低数据,我们将得到以下异常:根据异常消息,数据工程师可以了解失败的原因以及应该检查哪些数据。通过对该框架进行微小的更改,我们甚至可以在必要时返回字符串――例如,意外的枚举值或电子邮件域。以下是这些检查在实践中的一些示例。上游数据问题检查“user”表中是否有任何数据:检查我们在强制列中没有 NULL:检查重复的 ID:分析警报检查剩余的 NULL 是否低于可接受的阈值:业务逻辑检查检查用户是否有负账户余额:为“user”表准备最终验证结果:只有好东西我们的方法有一个很大的缺点:一旦数据进入数据湖,技术上任何人都可以使用它。因为我们的检查可能需要数小时才能完成――特别是如果有大量数据需要验证,或者需要运行大量验证――这意味着,在此期间,用户将能够访问未经验证的数据。我们本可以让我们的下游管道等待我们的验证任务完成,但这很难随着规模的扩大而维持。那么我们如何让别人知道哪些数据已经过验证,哪些还没有经过验证呢?我们的解决方案是将我们的数据验证框架与 Airflow 中现有的 SQL 执行运算符合并,从而将新数据添加到我们的数据湖中。现在填充特定表的运算符执行两个查询:填充和验证。首先,操作员创建一个临时表,用填充查询填充该表,然后对临时表调用验证查询。然后,如果数据通过,操作员将经过验证的数据移至生产表。此过程可以是可选的或强制的,具体取决于数据,这在需要时为我们提供了更大的灵活性。访问未经验证的数据对于非关键检查很有用,而强制验证会阻止任何下游对业务关键数据的使用。通过这种方式,我们保证只有正确的数据可供使用。 打开网易新闻 查看精彩图片 简单的系统,大的结果像这样的系统最大的风险是我们不能立竿见影。通过设计,该系统可以防止使用不正确的数据――并且由于收集有关下游数据质量问题的统计数据需要数月时间,因此了解我们的框架是否正常工作的唯一方法就是拭目以待。发布一年多后,我们终于可以说我们的验证框架取得了巨大的成功。与前一年相比,我们发现数据质量事件减少了 95%,我们称之为 SEV(如 SEVerity)。鉴于我们的 80/20 方法,对于这样一个简单的系统,这些结果非常好。多亏了我们的框架,我们能够发现质量问题,例如……意外多次发送相同邮件的电子邮件活动一组仍然活跃的账户被错误地标记为流失,因此不计入收入Dropbox 和 Dropbox Sign 的新订阅包被错误地计为标准 Dropbox 订阅六个月内我们可能会错过的 24 个重复数据案例系统的简单性不仅使其易于维护,而且易于修改和扩展其功能。接下来,在我们的路线图上,我们计划为遗留管道和没有严格验证要求但仍会从我们的质量检查中受益的管道添加验证。我们还计划进一步构建我们的分析能力,这将使我们能够分析现有的管道并推荐可能的验证,并在我们向数据湖添加更多数据时监控验证覆盖范围的变化。作者:Alexey Sanko出处:https://dropbox.tech/infrastructure/balancing-quality-and-coverage-with-our-data-validation-framework 特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
周知养老待遇资格认证有多种方式 养老待遇认证如何操作
养老待遇资格认证有什么用,养老资格待遇认证是什么意思,办理养老待遇资格认证,养老待遇资格认证制度原标题:便捷!养老待遇领取资格认证多样化 人社局服务大厅内办理业务的市民 养老保险待遇领取资格认证是保障各类人员按时足额领取养老金的重要举措,也是维护社保基金安全的有力手段。退休人员只有通过养老待遇领取资格认证之后,才能在退休之后每月按时足额领到退休金。以往退休人员只能在人社部门规定的时间内进行集中认证。如今,市民只需动动手指,就可以完成养老待遇领取资格认证,甚至人社部门工作人员还可以上门认证,极大地方便了广大市民。 “你好,我下个月退休,想问一下退休金怎么发放?我们需要办理哪些手续?”2月20日,在市人力资源和社会保障局服务大厅内,市民郭先生前来咨询养老待遇领取资格相关事宜。郭先生介绍,他在一家企业上班,今年3月份到达退休年龄,听以前的同事说,退休后需要到人社部门进行养老待遇领取资格认证,所以他提前来咨询一下,看看需要办理哪些手续。“刚刚工作人员帮我在手机上下载了一个‘内蒙古人社’App,我通过手机就能完成资格认证,不需要再到大厅排队认证了。” 郭先生说。 今年养老保险待遇领取资格认证一开始,市民温先生就通过智能手机刷脸完成了认证。“特别简单,不需要提交任何材料,而且整个过程只要按照语音提示就可以完成,这对于我们老年人来说,真的是太方便了。”温先生说。 市社会保险事业服务中心副科长贺志天介绍,养老待遇资格认证是防范养老金被恶意冒领、防止社保基金流失的重要措施。除了退休人员自主认证之外,人社部门还通过定期数据比对,实现对养老待遇领取人员免打扰的“静默认证”。“2022年,为全面准确掌握本年度未认证的65293名企业退休人员生存状况,我们积极与市卫健委联系,采取退休人员养老金发放系统数据与全市全员核酸检测人员数据库核实比对,发现57094名未认证企业退休人员进行了核酸检测,据此确认了57094名企业退休人员的生存状况。”贺志天说,通过大数据比对,在不影响退休人员的静默服务中完成领取待遇资格认证,对于退休人员来说更为便利。截至2022年底,全市企业退休人员25.3万人,已完成认证24.79万人,认证率达98.0%;全市机关事业单位退休人员4.9万人已全部完成认证,认证率达100%。 据了解,除了通过手机App可以实现养老待遇领取资格认证之外,对于不会使用手机App 认证人员以及行动不便且子女和亲属又无法协助用手机认证的退休人员,市人社部门还开辟“绿色通道”,打破服务“界限”,提供上门认证。而对于退休后在外省市异地居住,不会或不能使用手机App认证人员,还可以通过微信视频或电话联系完成认证。 丨来源:呼和浩特市融媒体中心 记者 王英 丨本期编辑:霍文睿 丨校读:霍文睿 丨监制:张耀 封斌 丨总监制:赵敏 声明: 未经授权,禁止转载、使用本公众号原创文章。转载请注明来源于呼和浩特晚报官方微信;本平台转载内容 部分 来源网络,涉及侵权请联系删除。 新闻热线:0471-6564013 广告热线:0471-6564037 6564013返回搜狐,查看更多 责任编辑:
健友股份:尊敬投资者,2020.4作为第一期两条线,现在完成验证状态,进入了试产和部分商业化状态
健友股份是干什么的,健友股份诊股,健友股份怎么样,健友股份官网健友股份(603707)08月25日在投资者关系平台上答复了投资者关心的问题。投资者:董秘你好,我想了解一下公司经营情况,请问公司经营目前是否正常,集采通过对公司业绩会造成不利影响吗?公司存货周转700多天是什么原因?存货周转天数这么长正常吗?健友股份董秘:尊敬投资者,公司作为制剂出口、制剂国内以及肝素原料药企业运作相当正常,三张表的现在和历史资料,都已经证明这些。医药企业,特别是原料药制剂一体化,以及制剂出口自营企业,运作周期有一个时长,同时对于原料药有一定时长,12-24个月的库存属于正常。在实际中,会根据产品不同的进行调整。投资者:你好,公司有稳定的原料业务,也有新增的制剂业务,制剂业务发展迅速,但我看不到制剂业务里面国内市场和国外市场占比,最近集采挺恐怖的,如果公司国内制剂占比较小公司估值就会更好,另外方便透露公司中标品种中标前后降价幅度吗?可以列出几个主要品种用数字说话吗?我只看到中标,查不到降价幅度,健友股份董秘:尊敬的投资者,感谢你的关注和问题。我们的年报中对于分布说明,基本上可以推算出基本逻辑:原料药基本上是出口为主,所以国内销售多为国内市场制剂;国外部分扣除原料药就是国外制剂。大数基本如此。归结可以看出:原料药部分正常稳定,国内制剂、国外制剂增长速度都比较快,出口国外制剂部分迅速(所以,有的投资者称赞我们是注射剂出口的领先者,我们也悄悄地答应下来了,继续努力)。虽然,我们在相当长时间内,我们收入部分中国际规范市场的制剂会大于国内制剂,但是我们其实并不同意你的观点:国内制剂份额少一点,估值就会高一些,作为高质量制剂的代表者,我们其实对服务于国内患者有极大的信心和决心。从宏观上来说,20年前中国还是缺医少药,现在一致性评价的竞争者多了,证明较高质量的药品,中国可供给选择高了,降低医保服务,更好支持老龄化的现实到来。虽然,在质量方面,我们更加领先,但是有机会我们还是要努力、积极参加国内市场。这也是我们的使命。中标价格可以在公告以及许多网网站中查到,至于降价幅度,由于我们参加多是新品,所以不涉及到和自己比较,至于和限价的比较,可以查下相关集采官方公告,可以算出来。不过呢,这个对比意义也不是特别大,因为毕竟集采后基本上销售市场费用降低了很多,也许利润不会受到很大损失。中国的医药,在中国经济中是一个重要支持,即要看质量,又要看效率,还要看医保承受,这是面向未来的举措。二级市场的投资者也在其中,作默默贡献。投资者:您好,请问公司2020年4月发行的可转债投向的两个项目:高端制剂预灌封生产线项目和抗肿瘤产品技改项目,目前进展怎样,之前公司可行性研究报告中提到建设期为24个月,请问该项目在2022年1季度报贡献的收益吗?健友股份董秘:尊敬投资者,2020.4作为第一期两条线,现在完成验证状态,进入了试产和部分商业化状态。按当时的计划正常实施。作为公司产能的重要组成部分,在2022年将逐步贡献业绩。公司由于ANDA数目报批和获批速度非常快,所有产线都处于相对满产状态下,产能及时加强和扩展,有利于公司方面的顺利展开研发、生产活动。投资者:公司有没有考虑未来在南京成都以外的地方成立研发中心,分部之类的打算呢?个人认为,公司人才梯队建设方面,硕博人员还是比较的少的。研发团队,是不是需要加大人才的吸引。还是认为,本科生就够公司用的了?健友股份董秘:尊敬投资者,随着公司业务扩展,我们的研发中心除了南京、成都,在海外陆续也有一些基地设定,这有赖于我们的能力(管理能力、协同能力以及技术路线拓展),相信在未来几年中,会看到各个研发基地的快速扩展。研发团队,需要各类型的人才,但是更重要的专业产业化的研究人才,这是一个挑战。投资者:公司业绩一直稳健。就是这两年股价让人捉急,当然这与医药面临的大环境有关。不过从公司角度考虑,有没有内部一个目标或者一个美丽的期许,就是实现千亿市值?我认为,未来两年非常有希望触碰到这目标。另外,一个问题,公司每年十送三,股本是不是太大了,公司每年十送三的考虑在哪里?健友股份董秘:尊敬投资者,您好。你说的两件事:一为业绩,一为市值。对于公司而言,更多的影响是业绩,当然市值如果解读为更好和投资者沟通,公司方面也应有所作为。即使,回到业绩部分,教科书也会给你很多答案。我们的路径是:走最踏实的路线,即提高各方面能力,如研发、注册、质量、营销各个维度,效率和能力将是根本,这个也许会慢些,但是更踏实,能走得更远。(也许收购啥的,也很好,但是如果只是临时业绩,不能带来长久融合和提升,这对于长久并不是一个有利的安排,所以:收购、兼并,要审慎)。至于千亿市值,这是一个良好愿望,在大势很好时,可能是迅捷的;在平稳时,更显得踏实的重要性,用业绩和能力说话,会到的,努力吧,当作一个期待。投资者:董秘您好。限制性授予股票价格确定,有说20日,60日,120日均价之一的一半,就是说董事会可以从上述三个日期,任意选择合适的日期的均价的一半作为授予价格的确定咯?健友股份董秘:尊敬的投资者,限制性授予股票价格确定方案请见公司在上交所官方披露的公告。投资者:问候各位大股东,请问公司经营是否正常?公司与投资者互动是否出现了不和谐?健友股份董秘:尊敬的投资者您好,感谢您对公司的关注。公司目前生产经营正常,公司会继续积极维护和投资者的关系,谢谢!投资者:黄总好:今天国内第七次国家带量采购的明细已经发布,健友的米力农注射液、磺达肝癸钠注射液均在集采目录里面。请问这两个药目前在国内的市场份额如何,公司对于这次集采有什么样的应对和预期?健友股份董秘:尊敬的投资者,集采的中标情况详见公司公告,谢谢您的支持!投资者:董秘好,公司近年来经营性现金流量净额为负,公司经营性现金流数据为何相比同行而言表现较差?是否存在现金流断裂风险?健友股份董秘:尊敬的投资者,公司不存在资金断裂的风险,生产经营正常。感谢您的关注!投资者:为什么最近股价下跌的这么凶,别人涨的时候你不涨,或涨一点点,跌的时候是全市场最凶的。请问是不是公司出了问题或者有内慕交易。健友股份董秘:尊敬的投资者您好,感谢您的提问。非常感谢您对公司的关注和支持,股价涨跌受多种因素影响。公司目前生产经营正常,希望您继续支持,感谢。投资者:董秘您好,请问贵公司2022年三季报中财务费用具体是什么?为何较去年同期变化这么大?为何未在三季报之“主要会计数据、财务指标发生变动的情况、原因”中做出解释?谢谢健友股份董秘:您好!谢谢关注公司,公司是严格按照监管机构的相关要求履行信息披露义务的,您要了解公司财务数据和分析情况,敬请查阅公司定期报告。投资者:尊敬的董秘,你好。请问贵公司是否开通微博?如有开通,请问微博开通时间和微博名是什么?健友股份董秘:尊敬的投资者您好!公司没有开通微博。谢谢您的关注!投资者:您好,请问贵公司是否建立财务共享中心,如建立,请问具体是在哪一年?如果按照1-5分对财务共享相关的组织人员、业务流程、运营管理以及信息系统的运行水平进行评分(1代表水平较差,5代表水平极高)您对这四项分别打多少分?如果按照初建期,提升期,稳定期,成熟期,卓越期和衰退期来描述财务共享实施的阶段,您认为是在哪一阶段?如果没有建立,请问贵公司是否有使用大数据等信息技术进行财务集中核算处理?期待您的回答,感谢健友股份董秘:尊敬的投资者,您好!公司已建立规范的财务管理制度和流程,使用统一的财务信息系统开展工作。感谢您的关注!投资者:请问贵公司是否是芬太尼及其原料(N-苯基氨基)哌啶化合物的主要供应商?销量多少健友股份董秘:尊敬的投资者,本公司不涉及相关业务,谢谢!投资者:董秘你好!健友股份截止到目前股东数量是多少?广发证券上显示的还是一季度的1.22万健友股份董秘:尊敬的投资者,股东人数请见公司在定期报告中披露截止年度和季度末股东数量数据。投资者:请问:1、公司医药业务、研发主要有哪些方面的布局?2、公司如何看待全球人口老龄化机会?健友股份董秘:尊敬的投资者,公司主营药品原料药、制剂的研发、生产和销售,产品涵盖肝素原料药(包括标准肝素原料药和低分子肝素原料药)、肝素制剂(包括标准肝素制剂和低分子肝素制剂)、非肝素制剂(抗肿瘤制剂等)。目前国内肝素渗透率较低,随着人口老龄化、心血管疾病发病率的增加、新用途的不断发现,国内肝素产品渗透率将持续提高,为未来肝素类药品市场规模带来新增量。同时受人口老龄化、环境污染加重及新疗法出现等因素影响,全球抗肿瘤药物市场规模也会持续增长。公司将积极把握人口结构变化带来的市场变化,拓展市场,为社会和人类健康努力奋斗!健友股份2022三季报显示,公司主营收入28.51亿元,同比上升2.55%;归母净利润9.07亿元,同比上升7.38%;扣非净利润9.0亿元,同比上升9.25%;其中2022年第三季度,公司单季度主营收入8.76亿元,同比下降14.88%;单季度归母净利润2.93亿元,同比上升1.33%;单季度扣非净利润2.84亿元,同比下降0.72%;负债率39.11%,投资收益2463.2万元,财务费用-1.74亿元,毛利率52.44%。该股最近90天内共有3家机构给出评级,买入评级2家,增持评级1家。近3个月融资净流出3724.43万,融资余额减少;融券净流出1067.6万,融券余额减少。根据近五年财报数据,证券之星估值分析工具显示,健友股份(603707)行业内竞争力的护城河良好,盈利能力一般,营收成长性良好。可能有财务风险,存在隐忧的财务指标包括:货币资金/总资产率、有息资产负债率、应收账款/利润率、应收账款/利润率近3年增幅、存货/营收率。该股好公司指标2.5星,好价格指标3星,综合指标2.5星。(指标仅供参考,指标范围:0 ~ 5星,最高5星)健友股份(603707)主营业务:涵盖医药领域研发、生产、营销全产业链,建立涵盖心血管、神经类、麻醉剂、抗肿瘤制剂、手术辅助类及其他高附加值无菌注射剂的研发、生产、销售,成为全球市场的制剂研发、生产和服务的厂家。由证券之星根据公开信息整理,与本站立场无关。证券之星力求但不保证该信息(包括但不限于文字、视频、音频、数据及图表)全部或者部分内容的的准确性、完整性、有效性、及时性等,如存在问题请联系我们。本文为数据整理,不对您构成任何投资建议,投资有风险,请谨慎决策。
版权声明:除非特别标注原创,其它均来自互联网,转载时请以链接形式注明文章出处。