欢迎访问智慧医疗网 | 网站首页
 
当前位置:首页 > 研究 > 行情

北数所发布100个AI大模型高质量训练数据集,涉及医疗健康、医药研发20余个

发布时间:2024-04-02 来源:大健康派 浏览量: 字号:【加大】【减小】 手机上观看

打开手机扫描二维码
即可在手机端查看

3月29日,2024北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会在京举行。会上,北京国际大数据交易所(下称“北数所”)牵头,正式发布了首批100个人工智能大模型高质量训练数据集。


本批数据集首次汇聚了来自中科院大气物理所、北京市科学技术研究院、中国知网、中汽智联、北方健康、中文在线、中国搜索、牡丹集团、瑞莱智慧等36家机构及企业提供的非公开数据集作为大模型语料训练数据。

640.jpg640 (1).jpg
数据集内容覆盖科技创新、金融服务、医疗健康、医药研发、自动驾驶、气象服务、商业航天、影视创作等20多个应用场景,共计100余个语料数据,数据总量逾150PB,涵盖了专业知识问答、中外论文期刊、古今文化书籍、互联网舆情资讯、知识产权与专利、多语种音视频、教学资源题库、科研数据、驾驶环境场景数据、高清图片等多领域、多模态数据语料。
其中,涉及医疗健康、医药研发场景的约20个数据集,具体包括:

单细胞代谢、转录组数据
多肽药物库
二型糖尿病人群队列基因位点
核酸适配数据库
基于医保数据构建药物平价替代智能推荐算法模型
就近购药、就诊智能推荐模型
就诊医生、医院信息智能推荐模型
临床知识数据集
脑电预训练数据
匿名化健康医疗大数据
骗保行为AI自动识别算法模型
生物医药研发质量控制与精准
小分子药物库
药店评价智能推荐模型
药物化合物结构式及ADMET数据
医学大模型监督微调数据集
用于反向虚拟筛选的蛋白质数据库
中医药消费趋势判断
中医知识数据集
医药卫生科技(期刊、报纸、论文

                    

北数所表示,通过北数所进行人工智能数据集进场交易,将更好的为模型训练提供更加合规可靠、便捷化、规模化的数据服务,进一步提高数据来源合规性,降低数据交易成本。北京金控集团董事长、北数所董事长范文仲表示,建议积极推动高价值数据训练集和智能算力进场交易,不断提高人工智能模型训练的合规性,增加透明度,共同推动数据要素的开放利用,推动北京数字经济高质量发展。

会上,北京亦庄发布了《北京经济技术开发区关于加快打造AI原生产业创新高地的若干政策》,提出到2026年,培育性能达到国际先进水平的通用大模型,打造人工智能标杆应用场景10个,集聚人工智能产业链企业100家,实现园区营业收入1000亿元,建成人工智能算力10000 PFlops。

文件明确了一系列补贴和奖励政策,例如:

  • 每年将发放1亿元的算力券
  • 支持企业深耕垂直领域,重点围绕AI+新药研发等领域进行技术攻关,打造行业垂直领域大模型;
  • 采取“揭榜挂帅”机制,鼓励重点围绕“大模型+”医疗等领域,打造一批可复制、可推广的标杆型示范应用场景
  • 每年发放1亿元模型券
  • 推动“大模型+医药研发”,加强数字生物学、计算机药物发现、实验室自动化、AI辅助临床试验等领域研发,鼓励大模型在药物发现、设计、合成和生产全过程应用。

......

与此同时,北京亦庄人工智能公共算力平台3000PFlops规模的算力设备正式点亮并投入使用,这也是北京最大规模的高性能人工智能计算集群,可以帮助企业推动开展大模型训练,推广行业应用,进一步夯实了北京大模型研发创新与行业应用的算力底座。


智慧医疗网 © 2022 版权所有   ICP备案号:沪ICP备17004559号-5