AI数据标注和合成数据专区聚焦AI训练核心资源——高质量标注数据与合规合成数据,赋能大模型开发与产业智能化升级。核心服务包括标注数据和合成数据。标注数据覆盖多模态(文本/图像/语音)标注数据集,支持自动驾驶、医疗、低空经济等垂直场景,严控质量与隐私合规。合成数据提供AI生成的稀缺场景数据,规避敏感信息泄露风险,填补真实数据缺口。
JoinAI FactoryRisk-Mix 是由卓印智能(JoinAI)出品的一套专注于工业生产与施工环境下危险行为识别与安全合规检测任务的合成数据集。数据由 Simulaix 合成引擎生成,重现高风险作业现场中的关键动作、违规行为与安全要素分布,具备真实感、强可控性与高多样性。 数据涵盖焊接、打磨、切割、吊装等典型动火作业与吊装作业场景,完整模拟工人在复杂条件下的行为与状态,包括未佩戴防护装备的高危行为、现场存在的安全隐患物体(如气瓶、灭火器、接火盆等)及其位置变化。适用于工业AI安全系统的模型训练与验证。
JoinAI FisheyeAVM-Mix 是卓印智能(JoinAI)出品的一套面向近距离目标识别与泊车辅助感知任务的高质量合成数据集。图像部分由 Simulaix 引擎生成,拼接AVM图像与视频内容由 Terra 世界建模引擎生成,重构典型道路与停车场环境下的复杂交通元素与动态交互行为。 数据模拟了住宅区、商业区、工业区、道路边与多种类型停车场等真实使用场景,具备多样的目标类别、多角度视野、多天气与多时段条件,特别适用于智能驾驶系统的哨兵模式、泊车辅助与近域目标检测任务。
JoinAI RoadCN-Mix 是由卓印智能(JoinAI)出品的一套中国典型道路交通场景的高质量合成数据集,由旗下两大自主生成引擎协同生成:图像部分由 Simulaix 合成引擎 输出,视频部分由 Terra 世界建模引擎 驱动生成。该数据集聚焦于中国城市、高速、城乡结合部等多类型路况,并模拟真实环境下的多种交通参与行为、气候条件与视角变化。 所有数据均为合成生成,不包含任何真实地理信息或现实世界标识,既具备高度还原的视觉特征,又保持数据的可控性与合规性,适用于智能感知系统、自动驾驶、城市交通分析、多模态AI模型训练等多类应用场景。
JoinAI CabinSense-Mix 是由卓印智能(JoinAI)出品的一套高质量合成数据集,聚焦车舱内行为感知任务,支持图像与视频双模态。图像部分由 Simulaix 精准标签引擎生成,视频部分由 Terra 世界建模引擎生成,涵盖驾驶员、乘客(含儿童)、宠物的多种典型行为与交互,以及舱内常见物品的多位置分布。 数据构建模拟了白天、夜晚、逆光等不同光照环境,以及多人物组合、多摄像头视角、多种舱内布局,支持 RGB、IR、NIR 等模态输出,具备标签完备、行为清晰、时序一致等特性。特别设计了大量 corner case 情境(如异常睡姿、遮挡干扰、儿童误触等),用于强化模型鲁棒性训练。 所有数据均为可控仿真生成,不涉及任何真实人物或车舱采集信息,适用于驾驶员监控系统(DMS)、高级驾驶辅助(ADAS)、智能舱内行为识别、交互分析与预警系统的感知模型训练与测试任务。
(一)数据治理产品:动态知识库与AI搜索引擎 1、动态知识库:动态知识挖掘与语境建模中枢。为大语言模型(LLM)定制构建可持续进化的知识体系,提供从数据挖掘、知识建模(语境图谱技术)、到智能检索(AI搜索引擎)的全流程产品与服务,具体包括: (1)数据挖掘:从多元异构多模态的数据格式中提取信息,基于核心自研的数据清洗自动化工具,输出标准格式的数据。 (2)知识建模:基于自研的语境图谱技术(Context Graph),提取“知识点”构建知识脉络,构建会 "思考" 的知识网络。 (3)智能检索(AI搜索引擎):自然语言驱动的数据检索引擎。集合SQL-R1(适用于SQL数据库的精准找数需求)、思维图谱ToG(适用于多跳问题、宏观信息)和检索增强RAG(适用于普通问题、细节信息)的强大检索能力,识别用户提问,提供精准回答 (二)合成数据平台 1、数据合成:数据合成服务:提供低成本、高质量合成数据服务,解决模型训练与应用中数据稀缺与高定制成本的问题,可服务于模型的预训练、后训练环节。以原始数据为基础,服务于用户的垂类场景需求,实现数十倍的数据增量(同时避免“近期繁殖”和“同质化”的问题)。合成效果相较行业标杆案例(EntiGraph)全面提升25%以上,成本节约85%以上。
(一)数据治理产品:动态知识库与AI搜索引擎 1、动态知识库:动态知识挖掘与语境建模中枢。为大语言模型(LLM)定制构建可持续进化的知识体系,提供从数据挖掘、知识建模(语境图谱技术)、到智能检索(AI搜索引擎)的全流程产品与服务,具体包括: (1)数据挖掘:从多元异构多模态的数据格式中提取信息,基于核心自研的数据清洗自动化工具,输出标准格式的数据。 (2)知识建模:基于自研的语境图谱技术(Context Graph),提取“知识点”构建知识脉络,构建会 "思考" 的知识网络。 (3)智能检索(AI搜索引擎):自然语言驱动的数据检索引擎。集合SQL-R1(适用于SQL数据库的精准找数需求)、思维图谱ToG(适用于多跳问题、宏观信息)和检索增强RAG(适用于普通问题、细节信息)的强大检索能力,识别用户提问,提供精准回答 (二)合成数据平台 1、数据合成:数据合成服务:提供低成本、高质量合成数据服务,解决模型训练与应用中数据稀缺与高定制成本的问题,可服务于模型的预训练、后训练环节。以原始数据为基础,服务于用户的垂类场景需求,实现数十倍的数据增量(同时避免“近期繁殖”和“同质化”的问题)。合成效果相较行业标杆案例(EntiGraph)全面提升25%以上,成本节约85%以上。
Copyright © 2022 海南国际知识产权交易所有限责任公司. All Rights Reserved. 琼B1.B2-20190505