上海人工智能实验室联合商汤科技与高校共同发布通用视觉技术体系“书生”


原标题:上海人工智能实验室联合商汤科技与高校共同发布通用视觉技术体系“书生”
上海人工智能实验室联合商汤科技与高校共同发布的通用视觉技术体系“书生”(INTERN),是人工智能领域的一项重要成果。以下是对该技术体系的详细介绍:
一、发布背景与目的
发布时间:该体系于2024年(具体日期可能为11月17日,但请注意此信息可能随时间有所更新)正式发布。
联合发布方:上海人工智能实验室、商汤科技SenseTime、香港中文大学、上海交通大学。
目的:旨在系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。
二、技术特点与优势
任务通用性:
一个“书生”基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。
在ImageNet等26个最具代表性的下游场景中,书生模型展现了极强的通用性,显著提升了这些视觉场景中长尾小样本设定下的性能。
数据效率:
相较于当前最强开源模型(如OpenAI发布的CLIP),“书生”在数据使用效率上取得大幅提升。例如,在同样的下游场景数据中,“书生”的平均错误率显著降低。
仅需1/10的下游数据,就能超过CLIP基于完整下游数据的准确度。在特定任务上,如花卉种类识别,每一类只需两个训练样本,就能实现极高的准确率。
技术创新:
“书生”技术体系由七大模块组成,包括通用视觉数据系统、通用视觉网络结构、通用视觉评测基准三个基础设施模块,以及区分上下游的四个训练阶段模块。
采用阶梯式学习模式,通过前三个阶段的“基础能力”、“专家能力”和“通用能力”培养,最终实现“迁移能力”,使模型能够灵活应用于各种特定领域的不同任务。
三、应用前景与意义
降低数据依赖:在自动驾驶、智能制造、智慧城市等长尾场景中,数据获取通常困难且昂贵。“书生”通用视觉技术体系的推出,有助于降低对大量数据的依赖,促进这些领域的快速发展。
推动AI规模化落地:通过提升模型的通用泛化能力和数据效率,“书生”将助力AI技术更广泛地应用于各种实际场景中,推动AI技术的规模化落地。
产学研合作:“书生”的发布体现了产学研合作在通用视觉领域的全新探索,为走向通用人工智能迈出了坚实的一步。
四、开源与生态构建
基于“书生”的通用视觉开源平台OpenGVLab计划在明年年初正式开源,向学术界和产业界公开预训练模型及其使用范式、数据系统和评测基准等。
OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab、OpenDILab一道,共同构筑开源体系OpenXLab,助力通用人工智能的基础研究和生态构建。
综上所述,“书生”通用视觉技术体系是人工智能视觉领域的一项重要创新成果,其任务通用性、数据效率和技术创新性均处于行业领先地位。未来,“书生”有望在多个领域发挥重要作用,推动人工智能技术的进一步发展。
责任编辑:David
【免责声明】
1、本文内容、数据、图表等来源于网络引用或其他公开资料,版权归属原作者、原发表出处。若版权所有方对本文的引用持有异议,请联系拍明芯城(marketing@iczoom.com),本方将及时处理。
2、本文的引用仅供读者交流学习使用,不涉及商业目的。
3、本文内容仅代表作者观点,拍明芯城不对内容的准确性、可靠性或完整性提供明示或暗示的保证。读者阅读本文后做出的决定或行为,是基于自主意愿和独立判断做出的,请读者明确相关结果。
4、如需转载本方拥有版权的文章,请联系拍明芯城(marketing@iczoom.com)注明“转载原因”。未经允许私自转载拍明芯城将保留追究其法律责任的权利。
拍明芯城拥有对此声明的最终解释权。