会员登录 立即注册

搜索

[切换城市]

99%算力用于洗数据?AI下一步之争:高质量数据

新资讯 2023-10-21 18:51 文汇报 12 0

在全球科技创新空前活跃的当下,以人工智能(AI)为代表的前沿科技正在重构全球创新版图、重塑全球经济结构。由上海图书馆主办的“2023竞争情报上海论坛”1019日开幕,多位专家在论坛上提出要重视高质量数据相关技术的布局与发展,在AI的未来发展之路上,继算法之后的兵家必争之地就是以数据清洗为代表的数据处理技术。



从新药研发到核聚变


几乎所有行业都在追赶AI脚步


传统新药研发周期长达10年、投入超过20亿美元,利用自主开发的生成式人工智能平台,成立不过十年的AI制药企业英矽智能只用了短短18个月、260万美元就找到了罕见病特发性肺纤维化的靶点,确定了活性强、毒副作用小的新药候选分子,目前已进入临床Ⅱ期。


这一巨大的反差,仅是AI赋能千行百业的冰山一角,这让几乎所有行业都渴望追赶AI的脚步。对一个3万人规模的企业来说,哪怕用聊天机器人来处理请假这么一件小事,也可使工作效率提升12%。在广东智用人工智能应用研究院院长管震看来,AI给所有行业,尤其是制造业,带来了折叠空间的创新机会。跨领域融合其实非常难,但现在的AI几乎懂所有学科,而且可以达到研究生水平。他认为,这就给了所有人一个机会,可以跨过漫长艰难的学习过程,从另一个领域中获取所需。



哪怕核聚变这样的顶尖前沿领域,也对AI寄予厚望。美国物理学会会士、能量奇点聚变能源开发公司联合创始人郭后扬表示,AI的加入可加速核聚变领域的技术突破和商业化进程。一方面,先进磁约束核聚变装置托卡马克反应堆就像一个充满极度灼热气体的大轮胎,AI技术可以预测爆胎风险并发出预警,提高装置运行的安全系数;另一方面,AI与先进制造业相结合,可从原子层面设计出超级材料,满足托卡马克反应堆长期运行的需求,无需三五年一次的频繁更换。


99%算力用于洗数据


数据质量成大模型角逐焦点


角逐AI大模型,目前的竞争焦点是算法和算力。上海人工智能实验室领军科学家、香港中文大学交叉学科人工智能研究所所长林达华坦言,构建高质量的语料数据将成为大模型研发中最具有挑战性的环节。


事实上,训练一个大模型极其昂贵,需要巨大而稳定的算力支撑。林达华透露,一个千亿参数大模型训练两个月,系统就因高负荷运算崩溃重启了35次,而99%的算力都用在了预训练上,主要用于数据收集与清洗。数据质量是大模型竞争的基石,大规模、高质量的数据清洗需要投入大量人力和算力,分门别类进行精细化处理,目前没有捷径可走。


英矽智能联合首席执行官兼首席科学官任峰对此高度认同,该公司强大的AI制药平台背后的数据库,拥有1000万条组学数据、200万个化合物信息、4000万条文献专利数据,这些都是我们从公开数据中清洗出来的。据了解,英矽智能常年保持一支2040人的数据挖掘团队,每天保持相关数据的更新。


明年,爱思唯尔集团将推出爱思唯尔的ChatGPT”Scopus AI系统。爱思唯尔大中华区研究分析部主管周鹰鹰透露:我们的模型是基于爱思唯尔旗下经过同行评议的高质量内容和数据训练的,可以避免一本正经胡说八道的弊病——可能有些提问无法给出反馈,但不会瞎说。


公共数据缺乏深度的行业知识,而规?;幸凳莸幕袢∏烙质窒∪薄?span lang="EN-US">”林达华认为,这将可能成为未来行业大模型的竞争壁垒。


模型也刷题


防范新技术风险需监管体系创新


面对愈演愈烈的大模型竞争,裁判必不可少。目前相对单一、静态的大模型评价手段,无法恰如其分地给大模型打分。林达华透露,眼下不少大模型采取定向刷题的方式,来博取高分评价,从而让不少高分低能书呆子模型流入市场,未来要发展综合、动态、智能的评测方法,才能更好暴露出模型弱点,推动大模型产品整体水平的提升。



针对大模型的评测,尚处于科技前沿。美国政府与公共转型学院决策科学特聘教授史蒂文·波普尔在报告中表达了对前沿技术应用的担忧。根据他和团队的研究,社会风险最大的往往是那些旧瓶装新酒的新技术——看似非常熟悉,实则完全不同,比如无人驾驶技术。


波普尔认为,对于全新技术,人们完全接受会有较长过程,防范心理也较强;而对于那些普通人自以为熟知的创新技术,公众和社会更容易掉以轻心。他表示,更大更完整的数据集的确有助于规避风险,在新旧技术的过渡期,监管机构如何管理和评估风险,也需要及时创新,以保持在新环境中的有效运作。


作者:许琦敏


摄影:许琦敏


责任编辑:任荃


来源:文汇报


声明:发布此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请联系我们,确认后马上更正或删除,谢谢!
新资讯(www.bbbfeiibyy.cn)致力于为用户提供高效、便捷的资讯获取与信息服务,打造一个有影响力的多元化资讯平台。
关于我们
公司介绍
发展历程
联系我们
本站站务
服务协议
本站义务
友情链接
业务合作
广告服务
商家入驻
我要投稿

手机APP

官方微博

官方微信

新资讯:www.bbbfeiibyy.cn (盛世汇新旗下网站) 陇ICP备17005351号-5|甘公网安备 62012102000363号 客服邮箱:sshxqy@163.com 投稿邮箱:sshxqy@126.com
QQ|Powered by Discuz! X3.5 © 2001-2024 Discuz! Team.
返回顶部
丰满多毛的大隂户毛茸茸| 久久五月丁香激情综合| 国产高清国内精品福利色噜噜|