作者 | 邓咏仪
编辑 | 苏建勋
“谈卡伤感情,没卡没感情。”在2024年的IDEA大会上,IDEA创院理事长、美国国家工程院外籍院士沈向洋用这样一句幽默而现实的话,描绘出AI时代的新景象。
虽然大语言模型的迭代速度已有所放缓,但沈向洋对未来AI时代却保持着鲜明的乐观情绪。他认为,虽然GPT-5尚未亮相,但算力的增长趋势依然乐观——根据EPOCH AI的数据统计,大模型对算力的需求每年都在呈现四倍多的增长。如果按照这种速度,传统的摩尔定律可能不再适用,但黄仁勋的“黄氏定律”却突显了模型训练对算力的需求。十年可能会见证100万倍的算力需求增长,但这一定律还需要时间来验证。
“大模型要往前走,不单是参数的扩大和模型规模的增加,对训练的要求和数据量也在增长。在某种程度上,对算力的需求与参数的平方关系成正比,这将是惊人的算力需求。”沈向洋解释道。
沈向洋在大会上花了3个小时,围绕“算法、算力、数据”这三个方向,介绍了IDEA的全新进展。
视觉模型仍然是IDEA的研究重点。他们发布的最新通用视觉大模型DINO-X,真正实现了物体级别的理解能力。这意味着,不同于普通的视觉模型受限于训练数据,DINO-X可以在开放世界中实现目标检测——无需用户提示,即可检测所有物体,包括罕见的长尾物体。
这种能力将极大地拓展模型的落地场景。例如,在视障人士服务、服务类机器人等高难度场景中,以往非常依赖大量的高质量数据标注,但DINO-X可以帮助标注公司快速完成大批量的高质量图像标注,或为标注员提供自动化的辅助结果,从而降低手工标注的工作量。
在自动驾驶、智能安防、工业检测等领域,DINO-X也能成为一个有力的补充,系统能够应对各种复杂场景,识别出传统模型难以检测的物体。
此外,IDEA团队还推出了行业平台架构,通过一个大模型基座和通用识别技术的结合,使得模型可以在使用过程中边用边学,支撑多种多样的B端应用需求。
不同于主流的“全图理解”方法,IDEA通过在物体级别的理解上加入语言模块,来优化大模型的幻觉问题。结合自研的“视觉提示优化”方法后,无需更改模型结构,即可实现小样本下的场景化定制。
然而,随着模型体量的不断增大,高质量数据已经成为桎梏。合成数据成为了解决这一问题的新途径。IDEA团队此次发布的语境图谱技术,解决了过去文本数据合成方案的多样性匮乏等问题。这一技术相当于为合成数据提供了“指导手册”,以图谱为纲,指导用于合成的语境采样。
从实验结果显示,IDEA团队的方案能持续为大模型带来能力提升,表现超过目前的最佳实践(SOTA);从token消耗来看,平均节约成本85.7%。目前,该技术内测平台已开放,通过API提供服务。
在2024年,IDEA在AI应用落地层面明显提速。相较于去年的科研论文阅读平台,今年IDEA公布了更多垂直领域的应用探索。在预测方面,IDEA研发了多个化学领域专家大模型,在分子属性预测和化学反应预测能力上,都可以达到业界领先水平。
AI模型也可以应用在科研数据上,加快科研数据的处理速度。IDEA新发布的化学文献多模态大模型,就联合晶泰科技发布了专利数据挖掘平台PatSight。这一模型将药物领域的专利化合物数据挖掘时间,从数周缩短至1小时。
而今年的一大热门方向——AI编程,正是因为模型智力水平不断提升,而成为下一个热门的应用方向。IDEA研究院的MoonBit团队,展示了其开发平台的编程模块MoonBit。这个云原生AI编程工具,已具备完备的多后端支持和跨平台能力,可在硬件上直接运行,支持RISC-V架构,并将于12月正式开放。
此外,坐落在大湾区的IDEA,借助其得天独厚的硬件产业基础和优势,与多家企业达成合作,以推动AI技术在现实世界的应用。
2024年,已经是IDEA大会的第四届大会。在这四年中,AI已经从以视觉识别为主的1.0时代,跨越到以生成式AI为主的2.0时代,并带来了AI治理等下一个时代的重要命题。如今的人类社会或许需要更多思考:我们与AI该如何更好地共存?
“AI的发展,能否从经济的最大增长,转化为人类的最大福祉?这是IDEA研究院从事技术研发的同事,以及产业落地的同事,在人工智能发展的道路上必须要去思考的问题。”沈向洋说。
沈向洋的讲话为IDEA的未来发展提供了清晰的指导,也为整个AI行业带来了新的思考。随着AI技术的不断发展,我们期待未来更多创新性的应用落地,以及人类与AI的和谐共存。