2025语料数据智能创意大赛项目征集

发布时间:2025-06-26      截稿时间:2025-06-30      阅读量:51次     

  01
  参赛条件
  本届CICC大赛围绕“创意数据集建设方案”,面向金融、医疗、具身智能、科学智能等11个领域的技术人才与创新团队发布具有挑战性的赛题;本届竞赛面向中国及境内外高等学校在读学生(含本科、硕博研究生等)。
  02
  奖项设置
  一等奖1名,5万元;二等奖1名,3万元;三等奖2名,1万元。
  03
  报名截止时间
  2025年6月30日
  2025语料数据智能创意大赛
  本次大赛锚定前沿领域,以深度挖掘高价值语料数据处理方案与场景应用路径为核心任务,全力助推“模塑申城”语料普惠计划落地生根,为人工智能产业筑牢语料数据根基。同时,大赛积极搭建产学研用协同创新平台,以开放包容的姿态广纳各地顶尖团队投身语料数据开源生态建设,让多元知识与先进技术在此碰撞交融,激发无限创新活力。
  划重点
  01
  赛程安排
  报名启动
  2月22日GDC大会语料分论坛正式启动“语料筑基智生时代”2025语料数据创意大赛,符合参赛条件的团队报名参赛。赛事注册报名和参赛项目提交截止时间为2025年6月30日。
  初赛评审
  初赛采取线上评审方式进行,评审专家依据报名阶段各参赛队伍提交的项目申报书等资料,参照评分规则要求,各赛道择优选拔进入决赛项目。
  决赛评审
  决赛通过项目路演等方式进行,各决赛参赛队伍需自行准备参赛项目答辩资料。决赛现场由参赛选手对参赛项目进行介绍,可搭配视频演示,评委进行现场提问、打分,最终评出每个赛道的获奖名次。决赛具体组织方式另行发布。
  02
  领域范围
  本届CICC大赛围绕“创意数据集建设方案”,面向金融、医疗、具身智能、科学智能等11个领域的技术人才与创新团队发布具有挑战性的赛题,要求参赛选手围绕明确需求、特定场景进行数据处理,构建具有创新思路、技术先进与广泛应用能力的数据解决方案。
  围绕模塑申城5个关键领域、6大重点行业,构建对应的行业特色语料数据集建设方案,并提交相应的数据样本。
  03
  报名要求
  本届竞赛面向中国及境内外高等学校在读学生(含本科、硕博研究生等)、创业团队、个人、公司等,具体要求如下:
  1、参赛队员不限年龄、专业;
  2、可单人参赛或自由组队,允许跨专业、跨学校、跨公司组队;同一参赛队员只允许报名一个赛道参加一个队伍;报名只有一个主体单位;
  3、参赛队员报名须保证个人信息准确并真实有效;
  04
  作品要求
  一、智能终端
  1.围绕智能学习机等智能终端应用上,结合基础学科能力,构建一套基于以下某一学科的推理数据集:语文、数据,物理,化学、历史、地理等。
  2.围绕智能安防终端,建立一套基于外形,情绪,声音等多模态的数据集,作为模型预判风险的依据。
  3.以科学强国为主题,构建一套基于AR,VR场景的多模态数据集,使用户能在生成数据中感受到科技发展进步。
  4.以健康为目的,提供基于心率、睡眠、运动、作息习惯等数据,并给出健康改善建议的数据集。
  二、科学智能
  1.围绕科学文献与实验数据设计结构化提取方案,如化学分子式、生物基因序列的自动标注。
  2.围绕多模态一致性验证进行方案设计,警如知识图谱、公式、图表及分子式与文本描述一致性、逻辑性验证。
  3.为提高撰写科研专题综述所需的文献检索精准度与内容提取效率,设计原始文献的标注方案、不同模态的结构化数据高质量语料化方案、以及基于思维链的综述生成数据集。
  三、在线新经济
  1.围绕互联网用户的评论和用户行为数据,探索一套基于正确价值观体系的数据审核数据集。
  2.围绕电商商品信息,用户评论,销售量等信息,组建一套具有高可用性的优质商品推荐数据集,供个性化推荐模型进行优质商品推荐。
  3.基于在线虚拟好友陪聊业务,构建健康,有不同人物标签,贴近生活,口语化的陪聊对话数据集,面向不同年龄层次,不同性别,不同文化程度,不同性格等。
  4.基于工业互联网业务,在以下某一行业:钢铁,水务,电力等上,建立一套语料的标准,综合考虑数据的可用性、结构的统一性、数据的安全性等因素。
  四、自动驾驶
  1.多模态驾驶场景语料数据集,基于激光雷达、摄像头等多传感器数据,构建涵盖复杂路况(如雨雪、夜间)的跨模态语料库,实现多源数据清洗、对齐与标注,提升自动驾驶系统感知鲁棒性。
  2.稀缺场景动态决策思维链数据集,针对突发障碍物、极端天气等长尾场景,生成包含感知-决策-控制全链路的思维链数据集,优化大模型在低资源条件下的推理能力。
  3.高精度BEV(鸟瞰视图)语料数据集,对城市道路BEV数据进行语义分割标注(车道线、交通参与者等),生成高精度、低噪声的稀缺数据集,推动BEV感知算法迭代。
  五、具身智能
  1.构建人形机器人数据质量评价数据集,围绕基础能力测评“单模态、多模态”、场景能力测评"服务场景、生活场景”、专业认知能力测评“大脑、小脑”等测评框架,加强具身智能大脑软硬一体发展的评估和认定。
  2.围绕生产伴随式物理采集场景,提供创新具身语料数据采集方案,建设商超、办公场景的语料数据库,旨在提升机器人在真实物理环境中的感知能力和决策能力。
  3.构建遥操作模式下的合成数据语料库,包含视觉、触觉、语音等多模态数据的合成数据集。数据集需满足机器人在多场景任务执行中的需求,支持机器人自我学习与任务执行能力的提升。
  4.围绕生活、服务、工业、实验室四大类,设计和规划多元化的应用场景,生成具身智能机器人动作指令语料方案,如家庭服务场景中的“整理-收纳-避障”多任务指令集。
  5.构建具身智能多模态感知语料数据集方案,需融合视觉、触觉、语音等交互数据,数据集需满足机器人在家庭、工业、服务等多场景的任务执行与自我学习能力需要。
  六、金融
  1.基金投研助手场景:基金投研助手旨在为投资者、基金经理和研究分析师提供智能化支持,帮助其高效完成基金分析、市场研究、投资决策等工作。能够快速提取并分析基金的历史业绩、持仓信息、风险指标等,满足用户基金数据分析的要求。这其中涉及到行业知识、基金相关数据、新闻与公告数据等。针对基金投研助手场景,以优化落地效果为目标,设计出对应的数据集制作方案,以包含“需求分析-数据准备-测试与验证-迭代与更新为佳”。
  2.投资顾问助手场景:能够为用户提供专业、个性化的投资建议和服务,帮助用户识别投资风险,提供风险预警和应对策略;能通过自然语言交互解答用户问题,并提供投资知识普及服务等。关于投资顾问助手数据设计方案,可以制定该场景“为用户提供智能化、个性化的投资服务,帮助用户实现财富增值目标”的高质量数据集方案,以包含“需求分析-数据准备-测试与验证-迭代与更新为佳”。
  3.风险合规助手场景:金融风险合规助手旨在帮助金融机构(如银行、证券公司、保险公司等)高效管理风险、确保合规运营,同时降低人工成本。期望达到风险监管评估功能,如实时监控交易、客户行为和市场动态,识别潜在风险;合规检查与报告功能,自动检查业务操作是否符合法律法规,生成合规报告;政策4.解读与更新:及时解读最新监管政策,并提供合规建议。可以围绕该场景训练以及落地效果优化制定相关高质量数据集。
  5.市场资讯与宏观政策解读助手场景:市场资讯与宏观政策解读助手旨在为投资者、金融机构和企业提供实时、精准的市场动态和宏观政策解读,帮助用户快速理解市场趋势和政策影响,辅助决策制定。该功能需满足实时资讯推送与解读,对宏观政策进行深入解读,同时可以分析其对行业、市场和企业的影响。针对该场景,制定数据集构建方案。
  七、制造
  1.工业生产流程优化:整合生产设备运行数据、工艺流程图纸、质量检测报告等跨模态数据,构建生产流程优化模型,挖掘生产环节中的潜在问题与优化路径。
  2.工业安全风险防控:收集工业生产中的安全事故案例、安全规范文档、风险监测数据,标注事故原因、风险防控要点与应急处理流程。
  八、教育
  1.高等教育数理学科思维链:收集从数学、物理、化学等数理学科的基础概念解析到复杂问题求解过程的详细步骤,包括学生的思考过程记录、解题思路推导过程的批注,构建涵盖从基础到高阶知识体系的思维链推理数据集合。
  2.围绕智慧教育中个性化学习方案的制定:基于多模态语料数据,结合学生学习行为数据、课程评价数据、知识图谱数据等多源信息,设计整体构建方案。方案需包含语料数据库构建,且要保证数据在学生隐私保护前提下的安全性与可用性,实现对学生学习情况的精准分析,为个性化学习路径规划提供支撑。
  3.智能化教育数据质控:针对来自不同渠道(如在线课程平台、学校管理系统)的学生作业、考试成绩、课堂参与度等多模态数据,设计一种统一的数据整合与质量控制方案。提高教师对学生学习情况的全面了解以及教学质量评估的准确性,利用数据分析提高学生学习成果的预测精度,为个性化学习提供支持。
  4.教育内容跨模态转换对齐:围绕教材、教学视频、课后练习等教育资源的跨模态转换,设计一套教育内容精准关联标注方案。要求包括:①如何利用自然语言处理(NLP)和计算机视觉(CV)技术实现文本与图像、视频间的精准匹配。②开发一个能够自动推荐相关学习资源、辅助教师备课及学生自学的智能助手。
  九、医疗
  1.围绕医疗影像、病理、诊断文本等医疗报告跨模态转换对齐,设计医疗影像与诊断报告精准关联标注方案,需包含技术实现路径及智能体设计应用。
  2.围绕智能电子病历质控,设计多模态多来源数据的统一与对齐,实现智能化的病历质控提高医生病历质量以及病历质量管理的效率。
  3.在机构养老和居家养老的场景下,利用智能体,对基础数据与实时交互数据,提高风险预测与老年人照护水平。
  十、文旅
  1.文化遗产多模态语料集,整合古籍文本、文物影像、历史事件时间轴等跨模态数据,构建可推理的文化传承关系网络,支持大模型生成历史脉络解析与虚拟修复方案。
  2.全域旅游语义交互语料集,覆盖自然景观、人文地标、民俗活动等场景的多语言指令库,包含游客意图识别、多模态问答逻辑链标注,适配AR导游、智能客服等生成式应用。
  3.非物质文化遗产语料集,记录非遗技艺操作流程、传承人口述史料、工艺演变图谱,标注技艺关键步骤与现代化改良逻辑,用于大模型驱动的非遗数字化传播与创新设计。
  4.上海方言传承数据集,涵盖上海方言中的流行语和谚语,包含现代年轻人对这些词汇的解读与使用,研究方言在当代语境下的创新和变迁,包括买菜、乘车、就医、餐饮等日常生活场景的上海方言对话,帮助方言适配智能语音助手、AI客服等实际应用。
  十一、城市治理
  1.公共空间行为模式语料集,基于视频与WiF热力图的市民活动轨迹数据,标注聚集密度、行为类型(休闲/通行/商业)及时空分布规律,用于预测公共设施使用负荷。
  2.城市治理决策知识图谱,融合政策文本、市民诉求的因果关联网络,标注事件处置路径与多部门协同规则,支撑大模型生成决策建议。
  3.跨模态市政设施状态语料集,整合维修工单文本、传感器异常信号、上报图片的多模态对齐数据,标注故障因果链与处置优先级,训练大模型实现设施健康度自诊断。
  4.城市规划设计语料库,涵盖地形地貌、土地利用、、人口分布、交通流量模式、公共设施服务半径、生态环境指标等信息,并融合历史规划案例、政策法规库等非结构化文本。为空间格局优化、基础设施配置、生态安全屏障建设提供量化决策依据。
  05
  奖项设置
  各赛道分设一、二、三等奖,拟以证书、奖金等形式发放。
  一等奖1名,5万元;
  二等奖1名,3万元;
  三等奖2名,1万元。
  06
  报名咨询
  赛事咨询联系人:杨女士联系电话:邮箱:baibing@bjultra.com点击文末“阅读原文”查看更多科创机会。
  大家都在看

  智能视觉+航空航天全球大赛项目征集