× 快速导航
新闻资讯
分类
必威官方入口星尘数据举办春季媒体开放日暨Rosetta30平台上线发布会打破标注产业“人力工厂”认知
发布日期:2023-03-16 20:18:50

  3月1日,星尘数据在京举办春季媒体开放日暨Rosetta3.0平台上线发布会。星尘数据创始人、CEO章磊宣布Rosetta3.0平台正式上线。

  发布会上,章磊提出了标注行业认知天梯,即初级认知是标注行业是“人力工厂”,服务商用相对初级的标注工具、项目管理和海量人力就能干活,招标时低价者中标,存在交付风险;中级认知是,对项目管理的难度和标注工具的复杂度有一定认知,投入工具研发和项目管理成本,研发周期长,管理难度大,数据迭代效率低;高级认知是,重视平台的技术实力,使用高度自动化的标注平台,且与数据服务商一起迭代数据闭环和数据策略。

  星尘数据拥有行业内自动化水平最高的标注平台Rosetta平台,在算法种类、算法效率、算法接入能力、算法交互能力等方面均具领先优势,其数据闭环系统打通数据采集标注、数据预处理、自动化质检、人工质检、多轮质检、客户验收系统、数据管理、数据检索、数据可视化、场景挖掘等全链路,同时为客户提供数据策略专家服务,能够支持人机交互、主动学习、强化学习等主流数据策略。

  Rosetta3.0 提升了算法加持能力,新增 20+ 自研算法,点云标注效率较纯人工标注提升 5倍+,支持机器人标注及质检,支持交互式标注以及算法实时反馈;增强了自动驾驶数据标注能力,3D 渲染 50帧/秒以上,支持超长连续帧 2000+ 流畅标注,支持 2000W 点点云平滑标注,支持 BEV标注、3D 重建标注、4D 标注、毫米波标注;增强数据闭环支持能力,打通 DataOps 和 MLOps 链路,通过 API 对接实时发现难例,帮助客户实现主动学习和强化学习;通过架构模式全面升级提升平台能力,采用微服务架构模式,系统具备更高扩展性和可用性,可支持数万人同时作业,并引入流式计算等大数据技术,提升平台数据实时处理能力;提供面向第三方的开放服务能力,通过 OpenAPI 方式,和客户建立灵活的数据通路和算法服务通路,加速客户算法迭代速度;构建 5A 数据安全保障体系,从产品、技术双层面落地 5A 数据安全架构,实现端到端存储传输使用安全、信息隐私保护、数据隔离等;持续增强全方位、精细化质检能力,提供上百个行业通用质检规则服务和自研质检算法,为数据质量保驾护航,标注准确率可达 99.9%;强化数据管理能力,支持多源异构数据管理、版本管理、标签管理、场景管理,支持数据可视化、数据场景挖掘、多模态检索等。

  除Rosseta 数据标注平台外,星尘数据还为客户提供Rosseta标注软件基础版、Rosseta标注软件高级版、Rosseta标注软件旗舰版、Rosseta App、Rosseta独立标注工具、开放平台Open API等众多产品形态,支持私有化部署和定制化软件,满足客户多样性需求。

  近年来,随着人工智能技术的发展,数据标注行业成为一个新兴产业,在短短数年间迎来了爆发式的发展。根据Grand View Research的数据,全球数据标注市场未来十年将以年复合增长率约25%的速度增长,市场规模将达百亿美金。此外,随着AI+垂直场景相结合的趋势以及垂直行业自身必威官网的蓬勃发展,数据标注行业将迎来更大的增量市场空间。2021年国务院印发的《“十四五”数字经济发展规划》明确指出,支持市场主体依法合规开展数据采集,聚焦数据的标注、清洗、脱敏、脱密、聚合、分析等环节,提升数据资源处理能力,培育壮大数据服务产业。

  与此同时,数据标注行业也面临一系列挑战:标注难度和标注质量要求提升,多场景和复杂化的需求对标注平台和工具要求越来越高;数据量爆发,人力标注无法实现规模化,给标注产能带来挑战;行业从一般性数据标注走向难例发现、数据挖掘,需要从海量数据中识别真正有价值的数据;MLOps、DataOps对平台的端到端闭环能力提出挑战;4D融合等前沿标注对大规模标注基础设施建设提出挑战;智能汽车数据安全引发公众担忧。

  2022年Tesla AI Day让更多人知道了自动化标注的存在,也让星尘数据这类“数据标注行业的技术专家”走到台前。星尘数据成立于2017年,总部位于北京,2022年底公布A轮融资5000万人民币。星尘横向服务全场景AI数据标注能力,纵向深耕自动驾驶行业,目前覆盖90%头部自动驾驶客户,此外还服务智能家居、智慧城市、智能机器人、智慧医疗、智慧教育、智能零售、智能遥感、智慧金融等众多数据场景。

  星尘数据从创立之初就确立了三个目标:首先,通过自动化标注提高标注效率;其次,通过提供数据策略专家服务,为客户创造更多的价值;最后,通过数据闭环让客模型训练效果更好,数据标注量更少,提高标注性价比。

  基于战略目标和企业定位,星尘数据推出国内首个自动化标注平台Rosetta平台,平台提供数百个标注功能,可支持图像、点云、文本、语音、采集等在内的 100+ 种主流标注场景。

  Rosetta命名来源于埃及金字塔旁发现的石碑Rosetta Stone。这块石碑刻有古埃及法老托勒密五世诏书的三种不同语言版本,让近代的考古学家得以有机会对照各语言版本的内容后,解读出已经失传千余年的埃及象形文之意义与结构。星尘数据Rosetta平台解决了人类语言和机器语言之间的转译鸿沟,让大规模训练数据的机器学习成为可能。

  星尘数据开发了上百种辅助标注算法,为预标注、标注、质检环节提供多样化的算法辅助。以激光雷达点云标注为例,平台在渲染、自动贴合、自动映射、连续补间等功能上具备行业领先的性能,具备无延时切帧特点。

  算法的加入让平台自动化水平逐年提升,目前平台自动化率达到60%。高自动化率让标注效率和标注产能显著提升,相比其他平台,标注员在Rosetta平台能标得更快,获得更多收入。

  算法也让复杂标注需求得以解决。星尘算法团队密切关注前沿技术动向,会提前做好技术储备和产品沉淀。目前平台可支持BEV、3D重建、4D融合等自动驾驶前沿算法的数据标注。

  传统的数据标注流程中,算法人员制定数据标注规则,标注公司消化后再提供给标注团队。然而,执行过程中,算法的思路并不能一次性达到最优化;其次,数据标注人员仅仅是一个“干活儿的”角色,并不能帮助更好地迭代算法效果。因此,算法侧时常会有一些不合理的规则导致成本飙升或难度大增导致难以执行。有些企业提出了不合理的标注规则,例如要求1/20的遮挡比例或在没有基础模型的前提下提出“一个点起标”。

  数据管理也是企业头痛的问题。例如,数据通过硬盘传输,效率低且无法管理。此外,还存在数据批次多、脏数据多、清洗后有效数据少、同类型数据重复标注的问题。同一批数据,虽然L2和L4模型训练都用得上,但企业缺乏数据策略意识,数据复用性低,无形中增加了成本。

  在服务90%头部自动驾驶客户、经历上千个项目打磨后,星尘不仅沉淀出了行业领先的标注平台和工具,还培养出了经验丰富的数据策略专家。星尘一些资深员工在谈到自家工具时十分自信,更让他们自豪的是,他们能够基于丰富的项目经验为客户提供更好的建议。

  章磊表示,数据策略中涉及大量前沿技术,既包括算法中和数据相关的技术,如领域迁移、时空融合、数据增强、弱监督学习等等,也包括以数据为中心的反馈迭代技术,如主动学习、强化学习、数据检索、Human-in-the-loop、数据安全、场景化数据生成、模型测试等。数据策略专家既要了解相关技术也要熟悉产品,以专业性来服务客户。一个典型的例子是,客户在感知算法中因为没有做运动补偿,需要对相机信号和雷达信号逐一进行人工确认。星尘的数据策略专家在和算法沟通后,提出通过2DOD算法和3D映射联合计算,通过IoU筛选候选样本的方案,并将多个算法直接以人机交互的方式嵌入标注流程中,节省了50%以上的标注时间。

  在发布会上,章磊介绍了星尘数据的数据闭环解决方案,这是Rosetta3.0平台的一大亮点。章磊表示,全流程闭环式AI数据系统将成为主流,星尘数据为此提早进行研发布局。

  在一个完整的数据闭环训练中,客户可使用星尘提供的离线数据包进行基础版模型训练,星尘标注系统通过API与客户算法系统进行交互,动态感知客户模型效果,基于模型各版本迭代的效果,动态检索不确定性最大、信息量最大、损失最大、稀疏场景等有效数据。几次迭代后,不仅沉淀了有效数据,还节省了数据成本。同时,星尘还可以在海量数据中找到真正有价值的数据帮助客户训练模型,并利用自有数据集评测模型效果。模型上线后,行车数据可用于模型迭代,形成数据闭环。

  以ChatGPT语言模型为例,通过星尘的Rosetta3.0数据标注系统,客户可以将模型快速接入系统,通过API实时将结果显示在标注平台上,星尘专属基地的NLP标注员可以快速给出反馈。同时,奖励强化模型实时接收到反馈并进行训练,可以实现模型的高效训练并及时发现难例和缺陷。该解决方案目前已进入与某深度客户的POC测试环节。

  章磊表示,未来星尘数据将专注AI数据服务,通过Autolabeling 技术、数据策略专家服务和数据闭环系统服务,为全球人工智能企业特别是自动驾驶行业提供“燃料”,最终实现AI的平民化。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  张兰境外家族信托被击穿 资产隔离失败背后原因几何?

  欧豪和马思纯分手以后,欧豪的这条微博之前一直没删。

  在香港偶遇张嘉译!52岁脸发福变圆胖了得有20斤,有老人线

  无语!中超冠军3人被带走调查,面临解散,8冠王退出中超悬念揭晓

  争议!球迷赛后批评哈姆:知道为什么之前森林狼放弃拉塞尔了吧?

  大震将要发生?日本迎来“深海来客”,或是大震预兆!

  张文宏预测:第二波疫情高峰期确定,提醒早做准备,两类人易感染

  芬兰姑娘到中国留学,刚进学校就崩溃了:芬兰人的悲伤你永远不懂

  甲流最怕的四种水果蔬菜!多吃这些,让甲流绕道走。

  他贪污上百亿,别墅藏40位美女,1天开销500万,竟然是大家熟悉的他!

  小学女老师和校长小树林偷情被抓?老公现场捉奸:有那么舒服吗…

  孩子将超市杂粮混合玩,妈妈花1214元全买下:分了10多家也吃不完

  再次决裂,欧文或不出席剩余常规赛,独行侠无主将可用

  刚刚,央行、外汇局召开重磅会议!关乎金融稳定…

  北京一女子花520万买了一辆劳斯莱斯,结果没开多久出现问题

  美财长要求中方减债,秦刚外长严厉驳斥,发言充满大国智慧

  人到中年的我,越来越反感亲戚来家里做客,也不喜欢走亲戚了!

  给多名高官当共享情妇,45天狂赚2亿,一本日记将两名高官拉下水

  李彦宏:文心一言确实不完美 发布是因为有市场需求

  李彦宏:对标ChatGPT门槛很高,百度第一个做出来

  或将再次捅破天!华为官宣:有去有回的重大升级

  马斯克要赔数亿美元?特斯拉遭车主集体起诉

  记者亲测GPT-4实际能力 围观10种职业“受虐”现场

  阿迪还在为12亿美元库存椰子发愁 捐赠销毁都非最优解

  行长挪用243万存款 银行拒赔:储户未尽审慎注意义务

  美媒:美军公布俄战机与美无人机黑海“相撞”画面

  韩国纪录片引争议背后:有教主超百名女大学生

  尹锡悦顶一片骂声赴日会见岸田 双方同意重启穿梭外交

  阿迪还在为12亿美元库存椰子发愁 捐赠销毁都非最优解

  行长挪用243万存款 银行拒赔:储户未尽审慎注意义务

  美媒:美军公布俄战机与美无人机黑海“相撞”画面

  韩国纪录片引争议背后:有教主超百名女大学生

  尹锡悦顶一片骂声赴日会见岸田 双方同意重启穿梭外交

  王楚钦/孙颖莎3-1张本组合 卫冕WTT大满贯混双冠军

  WTT大满贯张本智和爆冷0-3惨败出局 非洲霸主怒吼

  欧冠8强诞生:皇马强势,意甲3队狂飙,英超2队

  韩媒:韩国出局都怪中国队 他们粗暴搞伤了U20核心

  11岁女儿参加香港花滑公开赛 奥莉失误摔倒

  爷青回!汪涵和欧弟再同框,回顾他们的恩怨始末

  马伊琍晒生活日常与小猫互动 46岁近况安逸自在

  国家统计局:2月份商品住宅销售价格环比总体上涨

  东方甄选CEO致歉:有问题公司承担 不要攻击主播

  收评:沪指跌1.12% 两市超4300只个股下跌

  颜值狂飙保时捷 腾势N7刷新颜值天花板?

  宝马i5年内首发 6款新世代车型将2025年投产

  配置升级 唐DM-i/汉EV冠军版将于今日上市

  大众ID.2 ALL概念车首发 致敬高尔夫的电动车

  出现5类情形之一 可启动医保基金飞行检查

  北京、深圳发出重要通知,教师或将于4月1日迎新规?喜忧参半

  既有钱又幸福,这些专业简直是为女生量身打造!

  各省最好的大学名单以及最适合上大学的8大城市

  高考艺考将进入“统考时代”,文化课要求将逐步提高

  让赞达亚从土妞变顶流的幕后功臣 现在不干了!

  看展览|彼时红颜:19世纪中国女性影像收藏展

  “苏派山水”惊艳北京,画家高云背后的笔墨故事

  浅析抽象派艺术的发展对后代艺术和社会的影响

  慕达建筑卢昀:于急速变化的世界,重返“在地”