时间:2023-05-17 17:04:23
北京市于 5 月 12 日发布了关于对《北京市促进通用人工智能创新发展的若干措施(2023-2025 年)(征求意见稿)》(下称《征求意见稿》)公开征集意见的公告,拟对 AI 训练所需的算力推行统筹供给。
《征求意见稿》提出,加强算力资源统筹供给能力,加强与头部公有云厂商等市场主体合作,实施算力伙伴计划,并确定首批伙伴计划成员,明确供给技术标准、软硬件服务要求、算力供给规模、优惠策略等,向在京高校院所和中小企业公布一批优质算力供应商。
《征求意见稿》称,利用政府统一入口,降低公有云采购成本,普惠中小企业,同时减少企业分别面对不同云厂商的沟通成本。针对弹性算力需求,建设统一的多云算力调度平台,实现异构算力环境统一管理、统一运营,方便企业在不同云环境上无缝、经济、高效地运行各类人工智能计算任务。建设北京与河北、天津、山西、内蒙古等省(市)算力集群的直连基础光传输网络,进一步提升平台对四地算力资源感知能力,探索开展算力交易。
《征求意见稿》还表示,针对目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用的问题,整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源,建设合规安全的中文、图文对、音频、视频等大模型预训练语料库,通过北京国际大数据交易所社会数据专区进行定向有条件开放。
什么是 AI 训练所需的算力?
AI 训练所需的算力是指用于训练深度学习模型的计算资源。深度学习模型通常需要大量的计算资源才能训练出高精度的模型,包括 CPU、GPU、TPU 等。算力的提升可以帮助深度学习模型更快的训练出更加准确的模型。
什么是大模型中文语料库?
大模型中文语料库是指大规模的中文文本数据集,用于训练深度学习模型,比如语言模型、文本分类器等。大模型中文语料库可以包括各种类型的中文文本,比如新闻、社交媒体、论文等,规模通常在数十亿到数百亿级别。
为什么需要推行统筹供给?
推行统筹供给可以帮助优化算力的配置和使用,提高算力的利用率,从而降低深度学习模型训练的成本。此外,统筹供给还可以促进不同机构之间的合作,共同建设更大规模的中文语料库,提高深度学习模型的训练效果。
针对以上问题,我们可以从以下几个方面来回答:
AI 训练所需的算力
深度学习模型通常需要大量的计算资源才能训练出高精度的模型,包括 CPU、GPU、TPU 等。GPU 是深度学习训练中最常用的计算设备之一,因为它可以在并行计算方面提供出色的性能。TPU 是 Google 开发的一种专门用于加速深度学习训练的 ASIC,它可以在训练速度和功耗方面提供更好的性能。
大模型中文语料库
大模型中文语料库是指大规模的中文文本数据集,用于训练深度学习模型,比如语言模型、文本分类器等。大模型中文语料库可以包括各种类型的中文文本,比如新闻、社交媒体、论文等,规模通常在数十亿到数百亿级别。建设大规模的中文语料库可以提高深度学习模型的训练效果,尤其是在中文自然语言处理领域。
推行统筹供给的意义
推行统筹供给可以帮助优化算力的配置和使用,提高算力的利用率,从而降低深度学习模型训练的成本。此外,统筹供给还可以促进不同机构之间的合作,共同建设更大规模的中文语料库,提高深度学习模型的训练效果。
《北京拟对 AI 训练所需的算力推行统筹供给 实施算力伙伴计划》不代表本网站观点,如有侵权请联系我们删除
精彩推荐