绿洲对谈武宇教授:推动每一毫米

我们今天邀请到了武汉大学计算机学院的武宇教授。武教授从跨专业读博到获得 Google PhD Fellowship,仅仅用了两年时间。从机械专业到 CV,他的选择路径,或许是拥抱变化的典型例证。Enjoy

绿洲:能否介绍一下您最近以及未来研究的重点关注领域和方向?
武教授: 我最近主要的研究方向集中在生成类。之前的研究工作更多集中在 Detection,Segmentation 的分割识别类任务。随着研究的进展,大家逐渐意识到生成类的方向似乎更有前景,而且这一两年也的确出现了较大突破。我主要研究生成,也做多模态,比如 Vision Language,Audio V isual 这类跨模态的关联。
绿洲:Facebook 最近开放了 SAM、DINO,这些模型是否偏判别式?您的科研方向,是从判别式转向生成式么?
武教授: SAM 和 DINO 是判别式的。12-13 年开启的 AI 热潮主要在做“判别式”任务,用 AI 模型解决现实问题,譬如人的检测、人的跟踪、人脸识别等等,经过多年发展,应用和科研已经相对成熟了。SAM 的确是计算机视觉(CV)中最出圈的工作,引发了一股热潮。不过和 ChatGPT 和其他 LLM 相比,SAM 的影响力明显不足。一开始很多人认为 SAM 的出现将会是 CV 届的 ChatGPT 时刻,实操中发现,SAM 在解决分割和边缘问题后,如何真正解决真实世界的复杂视觉任务,还有待进一步研究。从我们的研究体验而言,SAM 不能解决 CV 中的全部问题,只是一个比较好的辅助知识模型。
至于我做生成类任务的原因,是在于判别类在应用层已经相对成熟,生成类更需要突破。生成类的 Demo 虽然都很惊艳,但到实际应用总是差一口气。比如 AI 画册或者 AI 画像,乍一看很真实,仔细观察细节,便会发现很多错误。另外,我们也不能直接使用生成式工具完成生产力规划,因此我们最近的研究就侧重如何在生成类任务上,将学术界的前沿研究进一步往生产力工具上推进。
绿洲:您觉得学术界可以帮助工业界实现哪些探索和突破?当前阶段,哪些研究性质的工作是应该和工业界尽快结合落地的?哪些是学术界需要加速去解决的?
武教授: 这是最近大家比较关注的问题。基于 LLM 的工作,很难界定学术界是否能主导做大模型,目前看来学术界也的确没有足够的资源,因此无论国内还是海外,都是公司和工业界在推出大模型。工业界不可否认是这波大模型的主力军,但学术界依然起着重要的作用,未来两界需要融合发展。工业界近期的工作,在底层算法上的创新比较少,如果不考虑训练的工程 Trick,可以说模型的创新性微乎其微。如果未来 AI 一直停留在堆参数的思考模式,很快就会饱和,会变成 AI 泡沫,未来就没有新的发展方向了。学术界存在着重要的使命——如何结合大模型,脚踏实地的做出上规模之后依然能真正落地 的论文。这是对学术界的挑战,更是学术界的责任所在。
比如生成式领域,Diffusion 是学术界提的,但真正发扬光大的可能是工业界的 Stable Diffusion。工业界做的模型复杂度不高,通过大量数据和训练策略,就可以收获良好的效果。但下一步往哪里走?若只靠堆参数数据,还会不会有下一个“Diffusion”类型的革新?这个“下一步”,就需要学术界的参与。比如最近我们的一项工作,就是将完全自由生成的 Stable Diffusion 转成可定制化的生成。已有的模型可以输入语言文本来生成图片,譬如描述“一个人在沙滩上晒太阳”,现实中人类在图片生成结果上通常是有具体目标的,并非随意的一个人躺在随意的一个沙滩上都可以。因此,定制化图像生成有着广阔空间。我们最近做了一篇工作,基于工业界 Stable Diffusion 引入创新的做法——不需要额外训练,不需要微调的定制化生成。根据用户提供的任意一张图像(例如人物、物体、logo),用语言引导,生成同时符合语言和视觉的图片。相当于学术界基于工业界大模型算力进行二次开发。
绿洲:您觉得当前 AIGC 领域有没有一些值得去做的子方向呢?
武教授: 有的。第一个是可控(定制化)生成。从 AIGC 的随机生成步入精细化生成。也有同行在做类似的工作,但需要微调。之前 CVPR2023 Best Paper Candidate 有个著名的工作叫“Dreambooth”。与之相比,我们工作的特点是视觉特征的保留程度比 Dreambooth 好,而且不需要微调,也不需要训练,速度也快。业界的整体研究思路都是从整体生成变为更具体、更可控的生成。
第二个子方向是图像修改。AIGC 是纯生成。实际应用是基于已经存在的图片,如何进行修改,比如让人笑得更灿烂,去掉不相关的人,去掉阴影,替换物体等等。很多人也在往这个方向探索。
第三个是生成图像检测。生成的图像会存在侵权和误导,如何完成对生成图像或者篡改图像的检测,是有价值的子方向。
以上的工作,不是用粗暴大模型就可以直接解决的,都需要在各个子领域进行思考。
绿洲:这几个方向上最近有没有值得关注的论文呢?
武教授: 定制化生成有 2022 年推出的 Dreambooth,已经有 300 个引用了。检测方向最近有微软的 DIRE for Diffusion-Generated Image Detection,用于判断是真实图像还是假图片,研究思路上还值得商榷。图像修改工作就更复杂了。
绿洲:您也关心 Detection 领域,是不是认为原创保护是个挺头痛的问题?
武教授: 大家在这个方向的意识在逐渐增强。我之前做过音乐生成,版权是很大的问题。虽然只是学术研究,但用了歌曲数据,没有版权,工作就无法发布。现在有一类研究是专门看 AIGC 模型是否侵权的。
绿洲:您研究方向的变化是平滑的过程,还是存在瓶颈?
武教授: 一般而言,大方向的转换还是有点吃力的。相对而言,转变都是在一个领域稍作修改,逐步迁移到变化较小的方向。我从 17 年开始做多模态,和 AIGC 也算一脉相承。因为一开始做多模态也是做图像描述生成,只不过生成的不是图片,而是文本。Stable Diffusion 也是多模态生成,输入语言描述,获得视觉表达图像。所以方向上变化并不大,变化比较大的是底层技术改变。几年前,大家都在用 VAE,LSTM,GAN,最近都在用 Diffusion 和 Transformer。我们从 21 年就开始做 Diffusion 了。这种转变并非断臂求生,而是逐渐发现更有趣的方向,从而进行偏移,直到新的技术出现,花足时间学习后,继续往下做。
绿洲:您觉得 3-5 年内,多模态落地的场景在哪里?譬如电影?
武教授: 生成类的而言,一键生成电影应该比较快能落地。已经有一些研究者也做了类似的工作。与其说是一部电影,可能说简短有剧情的视频更贴切。用 LLM 写剧本,用 AIGC 对每一帧每一幕生成后串起来。效果和现实中上亿成本的电影肯定存在差距,生成一段 Demo 视频是比较现实的。
第二,音频、视频、图像实现综合生成的方向,目前还没有相关工作。我们在尝试去做更统一更综合的多模态生成。相比纯图像生成必然更具挑战性,因为需要考虑其中各个模态的相关性。电影生成当前效果上不敢保证,比如每个场景切换是否平滑等等,都需要逐步改进。将来可以做到给引导就能做出电影。一开始效果不会很理想,但最终会达到近似的程度。学术界的同仁都在朝这个方向努力,估计三年之内应该可以落地。
(绿洲:看来您在生成式落地方向还是充满信心的。)
绿洲:您觉得未来生成多模态内容,是一个模型可以直出,还是需要几个模型相互配合?
武教授: 我主观感觉需要几个模型配合,每个模态模型各有所长,在经济上是更合理的。同等参数量下,严格划分每个模型负责不同的模态,用中枢控制各个小模型,效果应该比较好。除非算力实现重大突破,才可能出现一个足够大的模型自行完成工作内容。
绿洲:有很多传言说 GPT-4 是个 MOE,从工程角度而言,不像 GPT-3 和 GPT-3.5 就是一个模型,它其实不是“一个”,背后可能有 16 个小模型?
武教授: 仅靠堆模型参数实现相对 GPT-3 有量级差别的提升,对于 OpenAI 来说成本也过高了。如果 GPT-3 成本翻了几百倍,而效果提升甚微,当下看就没有商业价值。
绿洲:从上一波 AI 到这一波 AI,学术界和工业界的区分边界越来越模糊。您也经历过跨界,这次您会如何选择呢?
武教授: 两边都有优势。工业界有大量资源支持你做事,从纯科研角度很有吸引力。但和学术界相比,工业界不够自由,不太容易坚持一个方向。譬如最近大模型火爆,在工业界,假设之前我的领域是视频理解,现在可能就要被迫去做 NLP 大模型。我最终选择学术界,是想更自由地探索,去推动科研探索边界的每一毫米。工业界最终落地的是产品的应用性、实用性和业务价值,而非模型算法和技术的突破。
绿洲:李飞飞提出的具身智能(Embodied AI)方向,您如何看待呢?
武教授: 我在 18 年做过一段时间 Embodied AI,最近感觉发展更具体了。一开始 Embodied AI 有点像吹概念,和实际应用特别远,只能做一点点智能。不过,Embodied AI 利用最近这波大模型做决策大脑,也算水到渠成。所以最近具身智能的发展向上走了一个台阶。我师兄浙江大学王文冠老师,就主攻具身智能,最近有很多出彩的新工作。但 Embodied AI 也同样面临转化业务场景尚需时间的问题。将来有实体 AI 普及的前提下,具身智能会有更大发展。如果变成真实世界中的机器人,大家会觉得是有落地价值的,比较智能 的方向。
绿洲:马斯克做了人形机器人之后,大家的关注度很高,也存在很多争议。LLM 对机器人的提升度如何?还是在炒作概念?
武教授: LLM 有帮助,但不是决定性的。机器人需要先解决本身的问题,其次才是 AI 算法问题。因为机器人存在于真实世界,没有软件世界那么理想化。纯软件场景比较简单可控,硬件就存在很多误差。比如传感器,在训练仿真机器人时,我们一般会提供精准力学数据。但真实场景下,力学传感器存在误差,导致反馈系统有误差。问题不在软件算法,而是真实世界太复杂,每个东西都有噪声,噪声累加,机器人就难以自由行走。
绿洲:您在招募学生和合作者的时候,主要看重的是什么特质?
武教授: 招学生主要看学生的想法。尤其在面本科生时,并不是看他们做过什么,有什么经历就下判断。一般我会抛出科研中遇到的挫折难题,比如这个方法不行,你会如何尝试思考和行动?这才是有价值的。如果类比 AI 算法,就是 Meta learning,Learning to learn——遇到新问题如何进行反应和快速学习新知识,这也正是做研究的核心能力。我们也发现,有些同学可能过往论文很好,但进一步深入合作会发现做研究的习惯和模式并不太科学。观察对方在面对难题时的思考模式,比已有的成就或许更为重要。
绿洲:就您的个人经历而言,在选择发展方向上有什么值得借鉴之处呢?
武教授: 有变化是好事,人要拥抱变化。我之前从机械方向退学转行,主要是觉得机械技术发展太成熟,用的是几百年前的东西,不适合做研究。相较而言,去做发展较快的方向也是我的兴趣所在。大模型时代的应接不暇,意味着学科在快速发展,对学术界来说是挑战,更是机遇。回头来看,过往的转行还算顺利,能快速适应新的方向,在 AI 领域感受到兴趣和热情,更贴近自己的爱好和工作,内心感到很满足。
参赞生命力
你觉得什么是科技生命力?
拥抱变化,并充满好奇。
—— 武宇教授 ,武汉大学计算机学院
本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。
相关知识
12.8 对谈
园林遗产如何融入当代生活美学?古猗园举行跨界学术对谈
上海应用技术大学中国花卉协会花文化分会会长周武忠教授到生态学院助力中国上海萱草文化节开幕
构建学术共同体 推动学术繁荣
北大教授张颐武:七夕非情人节 是真正的女儿节
人工智能时代,文学教育何为?这场讲座探索答案
陈武光教授分享风姿绰约开花睡莲
设计学院周武忠教授团队服务花博会成果丰硕
【视频】“花地”育精品,致敬文学之光:2024花地文学榜年度盛典·深圳隆重举行
京领日报|世界顶尖大学资讯:牛津大学邀请诺奖得主莫言教授出席文学与戏剧创作对话活动
网址: 绿洲对谈武宇教授:推动每一毫米 https://www.huajiangbk.com/newsview2481921.html
| 上一篇: 贝司乐曲谱网 |
下一篇: 再造一片“歌剧绿洲”(“杜鹃花开 |
推荐分享
- 1君子兰什么品种最名贵 十大名 4012
- 2世界上最名贵的10种兰花图片 3364
- 3花圈挽联怎么写? 3286
- 4迷信说家里不能放假花 家里摆 1878
- 5香山红叶什么时候红 1493
- 6花的意思,花的解释,花的拼音 1210
- 7教师节送什么花最合适 1167
- 8勿忘我花图片 1103
- 9橄榄枝的象征意义 1093
- 10洛阳的市花 1039
