2025语料数据智能创意大赛项目征集

您的位置：首页 > 最新大赛 > 工业设计大赛 > 文创设计

2025语料数据智能创意大赛项目征集

发布时间：2025-06-26 截稿时间：2025-06-30 阅读量：2616次

01
参赛条件
本届CICC大赛围绕“创意数据集建设方案”，面向金融、医疗、具身智能、科学智能等11个领域的技术人才与创新团队发布具有挑战性的赛题；本届竞赛面向中国及境内外高等学校在读学生（含本科、硕博研究生等）。
02
奖项设置
一等奖1名，5万元；二等奖1名，3万元；三等奖2名，1万元。
03
报名截止时间
2025年6月30日
2025语料数据智能创意大赛
本次大赛锚定前沿领域，以深度挖掘高价值语料数据处理方案与场景应用路径为核心任务，全力助推“模塑申城”语料普惠计划落地生根，为人工智能产业筑牢语料数据根基。同时，大赛积极搭建产学研用协同创新平台，以开放包容的姿态广纳各地顶尖团队投身语料数据开源生态建设，让多元知识与先进技术在此碰撞交融，激发无限创新活力。
划重点
01
赛程安排
报名启动
2月22日GDC大会语料分论坛正式启动“语料筑基智生时代”2025语料数据创意大赛，符合参赛条件的团队报名参赛。赛事注册报名和参赛项目提交截止时间为2025年6月30日。
初赛评审
初赛采取线上评审方式进行，评审专家依据报名阶段各参赛队伍提交的项目申报书等资料，参照评分规则要求，各赛道择优选拔进入决赛项目。
决赛评审
决赛通过项目路演等方式进行，各决赛参赛队伍需自行准备参赛项目答辩资料。决赛现场由参赛选手对参赛项目进行介绍，可搭配视频演示，评委进行现场提问、打分，最终评出每个赛道的获奖名次。决赛具体组织方式另行发布。
02
领域范围
本届CICC大赛围绕“创意数据集建设方案”，面向金融、医疗、具身智能、科学智能等11个领域的技术人才与创新团队发布具有挑战性的赛题，要求参赛选手围绕明确需求、特定场景进行数据处理，构建具有创新思路、技术先进与广泛应用能力的数据解决方案。
围绕模塑申城5个关键领域、6大重点行业，构建对应的行业特色语料数据集建设方案，并提交相应的数据样本。
03
报名要求
本届竞赛面向中国及境内外高等学校在读学生（含本科、硕博研究生等）、创业团队、个人、公司等，具体要求如下：
1、参赛队员不限年龄、专业；
2、可单人参赛或自由组队，允许跨专业、跨学校、跨公司组队；同一参赛队员只允许报名一个赛道参加一个队伍；报名只有一个主体单位；
3、参赛队员报名须保证个人信息准确并真实有效；
04
作品要求
一、智能终端
1.围绕智能学习机等智能终端应用上，结合基础学科能力，构建一套基于以下某一学科的推理数据集：语文、数据，物理，化学、历史、地理等。
2.围绕智能安防终端，建立一套基于外形，情绪，声音等多模态的数据集，作为模型预判风险的依据。
3.以科学强国为主题，构建一套基于AR，VR场景的多模态数据集，使用户能在生成数据中感受到科技发展进步。
4.以健康为目的，提供基于心率、睡眠、运动、作息习惯等数据，并给出健康改善建议的数据集。
二、科学智能
1.围绕科学文献与实验数据设计结构化提取方案，如化学分子式、生物基因序列的自动标注。
2.围绕多模态一致性验证进行方案设计，警如知识图谱、公式、图表及分子式与文本描述一致性、逻辑性验证。
3.为提高撰写科研专题综述所需的文献检索精准度与内容提取效率，设计原始文献的标注方案、不同模态的结构化数据高质量语料化方案、以及基于思维链的综述生成数据集。
三、在线新经济
1.围绕互联网用户的评论和用户行为数据，探索一套基于正确价值观体系的数据审核数据集。
2.围绕电商商品信息，用户评论，销售量等信息，组建一套具有高可用性的优质商品推荐数据集，供个性化推荐模型进行优质商品推荐。
3.基于在线虚拟好友陪聊业务，构建健康，有不同人物标签，贴近生活，口语化的陪聊对话数据集，面向不同年龄层次，不同性别，不同文化程度，不同性格等。
4.基于工业互联网业务，在以下某一行业：钢铁，水务，电力等上，建立一套语料的标准，综合考虑数据的可用性、结构的统一性、数据的安全性等因素。
四、自动驾驶
1.多模态驾驶场景语料数据集，基于激光雷达、摄像头等多传感器数据，构建涵盖复杂路况（如雨雪、夜间）的跨模态语料库，实现多源数据清洗、对齐与标注，提升自动驾驶系统感知鲁棒性。
2.稀缺场景动态决策思维链数据集，针对突发障碍物、极端天气等长尾场景，生成包含感知-决策-控制全链路的思维链数据集，优化大模型在低资源条件下的推理能力。
3.高精度BEV（鸟瞰视图）语料数据集，对城市道路BEV数据进行语义分割标注（车道线、交通参与者等），生成高精度、低噪声的稀缺数据集，推动BEV感知算法迭代。
五、具身智能
1.构建人形机器人数据质量评价数据集，围绕基础能力测评“单模态、多模态”、场景能力测评"服务场景、生活场景”、专业认知能力测评“大脑、小脑”等测评框架，加强具身智能大脑软硬一体发展的评估和认定。
2.围绕生产伴随式物理采集场景，提供创新具身语料数据采集方案，建设商超、办公场景的语料数据库，旨在提升机器人在真实物理环境中的感知能力和决策能力。
3.构建遥操作模式下的合成数据语料库，包含视觉、触觉、语音等多模态数据的合成数据集。数据集需满足机器人在多场景任务执行中的需求，支持机器人自我学习与任务执行能力的提升。
4.围绕生活、服务、工业、实验室四大类，设计和规划多元化的应用场景，生成具身智能机器人动作指令语料方案，如家庭服务场景中的“整理-收纳-避障”多任务指令集。
5.构建具身智能多模态感知语料数据集方案，需融合视觉、触觉、语音等交互数据，数据集需满足机器人在家庭、工业、服务等多场景的任务执行与自我学习能力需要。
六、金融
1.基金投研助手场景：基金投研助手旨在为投资者、基金经理和研究分析师提供智能化支持，帮助其高效完成基金分析、市场研究、投资决策等工作。能够快速提取并分析基金的历史业绩、持仓信息、风险指标等，满足用户基金数据分析的要求。这其中涉及到行业知识、基金相关数据、新闻与公告数据等。针对基金投研助手场景，以优化落地效果为目标，设计出对应的数据集制作方案，以包含“需求分析-数据准备-测试与验证-迭代与更新为佳”。
2.投资顾问助手场景：能够为用户提供专业、个性化的投资建议和服务，帮助用户识别投资风险，提供风险预警和应对策略;能通过自然语言交互解答用户问题，并提供投资知识普及服务等。关于投资顾问助手数据设计方案，可以制定该场景“为用户提供智能化、个性化的投资服务，帮助用户实现财富增值目标”的高质量数据集方案，以包含“需求分析-数据准备-测试与验证-迭代与更新为佳”。
3.风险合规助手场景：金融风险合规助手旨在帮助金融机构（如银行、证券公司、保险公司等）高效管理风险、确保合规运营，同时降低人工成本。期望达到风险监管评估功能，如实时监控交易、客户行为和市场动态，识别潜在风险；合规检查与报告功能，自动检查业务操作是否符合法律法规，生成合规报告；政策4.解读与更新：及时解读最新监管政策，并提供合规建议。可以围绕该场景训练以及落地效果优化制定相关高质量数据集。
5.市场资讯与宏观政策解读助手场景：市场资讯与宏观政策解读助手旨在为投资者、金融机构和企业提供实时、精准的市场动态和宏观政策解读，帮助用户快速理解市场趋势和政策影响，辅助决策制定。该功能需满足实时资讯推送与解读，对宏观政策进行深入解读，同时可以分析其对行业、市场和企业的影响。针对该场景，制定数据集构建方案。
七、制造
1.工业生产流程优化：整合生产设备运行数据、工艺流程图纸、质量检测报告等跨模态数据，构建生产流程优化模型，挖掘生产环节中的潜在问题与优化路径。
2.工业安全风险防控：收集工业生产中的安全事故案例、安全规范文档、风险监测数据，标注事故原因、风险防控要点与应急处理流程。
八、教育
1.高等教育数理学科思维链：收集从数学、物理、化学等数理学科的基础概念解析到复杂问题求解过程的详细步骤，包括学生的思考过程记录、解题思路推导过程的批注，构建涵盖从基础到高阶知识体系的思维链推理数据集合。
2.围绕智慧教育中个性化学习方案的制定：基于多模态语料数据，结合学生学习行为数据、课程评价数据、知识图谱数据等多源信息，设计整体构建方案。方案需包含语料数据库构建，且要保证数据在学生隐私保护前提下的安全性与可用性，实现对学生学习情况的精准分析，为个性化学习路径规划提供支撑。
3.智能化教育数据质控：针对来自不同渠道（如在线课程平台、学校管理系统）的学生作业、考试成绩、课堂参与度等多模态数据，设计一种统一的数据整合与质量控制方案。提高教师对学生学习情况的全面了解以及教学质量评估的准确性，利用数据分析提高学生学习成果的预测精度，为个性化学习提供支持。
4.教育内容跨模态转换对齐：围绕教材、教学视频、课后练习等教育资源的跨模态转换，设计一套教育内容精准关联标注方案。要求包括：①如何利用自然语言处理（NLP）和计算机视觉（CV）技术实现文本与图像、视频间的精准匹配。②开发一个能够自动推荐相关学习资源、辅助教师备课及学生自学的智能助手。
九、医疗
1.围绕医疗影像、病理、诊断文本等医疗报告跨模态转换对齐，设计医疗影像与诊断报告精准关联标注方案，需包含技术实现路径及智能体设计应用。
2.围绕智能电子病历质控，设计多模态多来源数据的统一与对齐，实现智能化的病历质控提高医生病历质量以及病历质量管理的效率。
3.在机构养老和居家养老的场景下，利用智能体，对基础数据与实时交互数据，提高风险预测与老年人照护水平。
十、文旅
1.文化遗产多模态语料集，整合古籍文本、文物影像、历史事件时间轴等跨模态数据，构建可推理的文化传承关系网络，支持大模型生成历史脉络解析与虚拟修复方案。
2.全域旅游语义交互语料集，覆盖自然景观、人文地标、民俗活动等场景的多语言指令库，包含游客意图识别、多模态问答逻辑链标注，适配AR导游、智能客服等生成式应用。
3.非物质文化遗产语料集，记录非遗技艺操作流程、传承人口述史料、工艺演变图谱，标注技艺关键步骤与现代化改良逻辑，用于大模型驱动的非遗数字化传播与创新设计。
4.上海方言传承数据集，涵盖上海方言中的流行语和谚语，包含现代年轻人对这些词汇的解读与使用，研究方言在当代语境下的创新和变迁，包括买菜、乘车、就医、餐饮等日常生活场景的上海方言对话，帮助方言适配智能语音助手、AI客服等实际应用。
十一、城市治理
1.公共空间行为模式语料集，基于视频与WiF热力图的市民活动轨迹数据，标注聚集密度、行为类型（休闲/通行/商业）及时空分布规律，用于预测公共设施使用负荷。
2.城市治理决策知识图谱，融合政策文本、市民诉求的因果关联网络，标注事件处置路径与多部门协同规则，支撑大模型生成决策建议。
3.跨模态市政设施状态语料集，整合维修工单文本、传感器异常信号、上报图片的多模态对齐数据，标注故障因果链与处置优先级，训练大模型实现设施健康度自诊断。
4.城市规划设计语料库，涵盖地形地貌、土地利用、、人口分布、交通流量模式、公共设施服务半径、生态环境指标等信息，并融合历史规划案例、政策法规库等非结构化文本。为空间格局优化、基础设施配置、生态安全屏障建设提供量化决策依据。
05
奖项设置
各赛道分设一、二、三等奖，拟以证书、奖金等形式发放。
一等奖1名，5万元；
二等奖1名，3万元；
三等奖2名，1万元。
06
报名咨询
赛事咨询联系人：杨女士联系电话：邮箱：baibing@bjultra.com点击文末“阅读原文”查看更多科创机会。
大家都在看

智能视觉+航空航天全球大赛项目征集

上一篇：欧美同学会第四届“双创”大赛航空航天卫星产业赛区（河南郑州航空港）持续报名中

下一篇：第十届创客中国视觉智能中小企业创新创业大赛项目持续征集

2025语料数据智能创意大赛项目征集

相关资讯