清华航空张亚勤:预训练和生成大模型将带来自动驾驶技术范式的新变化
日期:2023-10-17 14:09:09 / 人气:141
2023年10月11日,中国工程院院士、清华大学教授、清华智能产业研究院(AIR)院长张亚勤出席了由Mimo知行举办的第九届墨豪AI日,并发表了题为《智能驾驶新进展——大模型、生成式与智能驾驶》的演讲,分享了他对生成式AI大模型应用于自动驾驶技术的最新思考,并介绍了清华AIR在搭建Real2Sim2Real基础模型平台和自动驾驶仿真平台方面的最新成果。
以下是张亚勤院士的演讲全文:
这是如此美丽的天气和地方。我很高兴参加墨豪艾日。我也感谢张凯主席和郝伟的邀请。
今天是第九个墨豪艾日。首先祝贺咪咕在不到四年的时间里取得了巨大的成就,尤其是在自己的道路上。我的印象是第一次发布自动驾驶中的生成式大规模模型DriveGPT,很快就上了规模,能在这么短的时间内成为自动驾驶领域的领军企业。
今天,我想谈谈智能驾驶的新进展。多年来一直在用同一个话题,但每次都发现里面的内容完全不一样,尤其是最近出现了生成式AI之后,对自动驾驶有了很大的推动。
我们一直在讲新“四化”——网络化、智能化、共享化、电气化,其中最重要的是电气化、智能化。电气化可以理解为一种新能源。现在中国是全球最活跃、最大的新能源市场,无论是用户规模还是出口规模都位居第一。这是新车的前半部分。下半场最重要的是智能驾驶,未来5-10年全球竞争的热点和制高点是自动驾驶。人工智能是自动驾驶核心的技术驱动力。自成立以来,米莉一直将人工智能作为公司的技术引擎,因此墨豪人工智能日非常重要。
为什么这么多公司都在做智能驾驶?包括传统汽车厂商,新势力,高科技企业,都在进军自动驾驶市场?事实上,存在许多技术挑战。首先,从AI的角度来看,自动驾驶高度复杂,需要大量的计算能力和新算法,是AI垂直领域最具挑战性的问题。其次,自动驾驶也是聚合智能、边缘智能、自主智能的交集。在刚才的测试视频中,可以看到自动驾驶面临这么多复杂的场景和变化,确实有很多挑战。
但我认为自动驾驶是完全可以实现的,有一些关键问题,有些是市场因素,有些是非市场力量。市场因素包括技术是否可行?用户有真实需求吗?产业生态和商业模式。非市场因素也很重要,需要行业的技术突破,需要政府行业的支持,需要政策法规的突破。
技术方面,一开始很多人都在讨论无人驾驶是否可行,尤其是L4以上是否可行。我一开始就觉得可行。最近看到一些数据,无人驾驶比有人驾驶安全10倍左右。去年还在说3倍,今年已经到了10倍。这说明技术突破已经完成。在商业化的路线图上,目前有各种方式。有基于自行车智能的,有车路协同的,有渐进式和跳跃式的,有开源式的,也有封闭式的。不同的企业在探索不同的路线图,但没有说哪一个是完全正确的。该行业正在以不同的方式尝试自动驾驶。我知道我选择了循序渐进,我觉得这些都很好。我们用不同的方式探索它们。
最近人工智能有很多新的突破。我们看到新的算法和新的框架,尤其是预训练、多模式、多监督学习和大规模模型已经成为主流。在Transformer之前,ResNeT曾经是一个应用非常广泛的可视化算法框架。我之所以特别提到ResNeT,是因为这个算法实际上是中国的年轻科学家在中国完成的,所以中国的科学家对人工智能做出了很大的贡献。我听过很多说法,认为AI的核心主要来自欧洲,基础理论来自那里,但中国科学家在人工智能领域也做出了很多贡献。
大模型突破技术限制很重要。在过去的六七十年里,有三个重要的理论:摩尔定律、冯诺依曼框架和香农三定律。现在这三个理论都被打破了。如果不突破,大模型是无法实现的,这就需要新的传感方式,新的传感方法,计算机架构的新突破,包括芯片的新框架。现在主流的Transformer和CNN卷积神经网络也不一样。目前数字科技产业主要是以硅计算为主,未来可能还有生物科学、光计算、量子计算。
目前很重要的一点是,大模型带来的是生成式AI。以前AI讲分类,也就是判别AI。现在你完全可以在场景中产生新的内容创意,数据创意,以及很多新的创意。我来简单介绍一下这个作品。
大模型已经朝着新的方向发展。首先,多模态,不仅是自然语言、图像和视频,还包括所有车辆的物理和生物传感信号,比如传感信号和激光雷达。大家可以看到,GPT-4模型是多模态的,功能很强大,但是效率很低,比人脑的计算和决策效率至少低1000倍,所以需要新的算法。我认为五年后会有新算法出现。其次是自主智能,可以自动完成任务,包括边缘计算,如何把非常复杂的大型模型放到手机、汽车、机器人的边缘,以及具身智能与物理世界的连接,我觉得自动驾驶是具身智能最重要的场景。未来是脑机智能的阶段,大模型将面临如何利用生物和生命的世界,如何更好地用大脑连接人。
新的技术架构将使用大型模型,就像新的AI操作系统一样,它将有许多垂直模型,包括自动驾驶或其他类似生命科学的垂直模型。
我简单说一下清华智能产业研究院(AIR),是我从百度退休后创办的。三年发展很快,我很幸运的找到了一批有深厚行业背景和深厚学术造诣的科学家和企业CTO。现在博士后差不多300人,自动驾驶是其中一个方向,100人左右。
每次说到空气研究院,我都会想起25年前我回国创办微软亚洲研究院。下个月将庆祝微软亚洲研究院成立25周年,该研究院本身就相当成功。我刚才说的大模型是在微软研究院开发的,希望打造一个面向中国产业的研究院。
我们在从事各种研究的时候希望有一个大的框架,比如在智能驾驶方面首先要确定一些技术路线。首先,我觉得多模态感知很重要,来自原始的多尺度、多维度的数据很重要。因为无人驾驶和智能驾驶,机器人的优势是首先需要更多的数据,这个数据优势不能丢,所以我不同意马斯克说我们只用摄像头,我们需要用更多的数据源。其次,现在很多自动驾驶会使用很多高精地图,但是我们认为未来是光地图,不能完全依赖地图。
自动驾驶最终的安全可靠阶段必须以端到端的方式实现,这也是非常困难的。还有更细致的技术因素,包括生成式AI、强化学习、大语言模型。我们有两个平台:数据大模型平台和仿真平台。
AIR也提出了自己的自动驾驶基本模型。首先,模型提出了如何获取不同的数据,包括真实数据和仿真数据。数据必须通过受控的管道进行清洗,然后经过两大模型:感知模型和决策模型,包括在云端和车内的一些关键地方进行决策。一些模块提供信息,一些是统计的,一些是基于规则的模块。
我特意在里面拿出“强化学习”,因为强化学习从百度开始就有了,但是很难用。因为自动驾驶的安全性非常重要,使用起来也相当困难,但我认为这是我们真正达到更高安全性的唯一途径。我们可以通过强化学习来学习新的东西。现在广义的方式是靠强化学习,最近有很多新的发展。如何将强化学习应用于许多模拟和决策,以及真实的驾驶行为。左边的模型是垂直大数据。如何用强化学习调整模型?
另一个是生成式AI如何用于仿真和决策?这里有个小例子。大模型和深度学习都有透明度问题,所以我们也做了这方面的研究。我到底为什么要做这个决定?左转,右转,刹车。说说我看到了什么,为什么做这个决定。它可以指导如何做决定。这是一个由真实数据、仿真数据、垂直模型和大模型生成的语义深度场景,包括交通和行人信息。
另一个是人脑和机器的融合。我们需要研究人们如何开车。人们有时会做出好的决定,有时会做出坏的决定。通过传感器收集这些信息。一方面,很长一段时间,人和机器都要一起驾驶,无人驾驶要慢慢理解人的驾驶。另一方面,在算法中使用该模型来提高算法的效率。
最后,我们很高兴能与米莉进行深入的技术合作。这个合作是关于如何将强化学习应用到认知决策中。如何通过强化学习将其与真实数据和真实汽车场景融合?目前强化学习有很多问题,包括函数定义的问题,策略模糊的问题,所以我们做了很多这样的研究。一年多来,在国际峰会上发表了很多论文,也有专利。最重要的是它们现在已经用在汽车上了。刚刚看到物流车已经开始用这些算法了。
综上所述,如果从智能驾驶和自动驾驶的不同阶段来看,一开始更多的是激光雷达和硬件驱动,更多的是基于人工规则。2.0是由软件和算法驱动的。这个阶段传感器比较多,也要看机器学习和规则。现在3.0时代是由大模式驱动的。现阶段有很多传感器采用端到端的算法和强化学习,可以更大程度上实现现实世界中的自动驾驶。"
以下是张亚勤院士的演讲全文:
这是如此美丽的天气和地方。我很高兴参加墨豪艾日。我也感谢张凯主席和郝伟的邀请。
今天是第九个墨豪艾日。首先祝贺咪咕在不到四年的时间里取得了巨大的成就,尤其是在自己的道路上。我的印象是第一次发布自动驾驶中的生成式大规模模型DriveGPT,很快就上了规模,能在这么短的时间内成为自动驾驶领域的领军企业。
今天,我想谈谈智能驾驶的新进展。多年来一直在用同一个话题,但每次都发现里面的内容完全不一样,尤其是最近出现了生成式AI之后,对自动驾驶有了很大的推动。
我们一直在讲新“四化”——网络化、智能化、共享化、电气化,其中最重要的是电气化、智能化。电气化可以理解为一种新能源。现在中国是全球最活跃、最大的新能源市场,无论是用户规模还是出口规模都位居第一。这是新车的前半部分。下半场最重要的是智能驾驶,未来5-10年全球竞争的热点和制高点是自动驾驶。人工智能是自动驾驶核心的技术驱动力。自成立以来,米莉一直将人工智能作为公司的技术引擎,因此墨豪人工智能日非常重要。
为什么这么多公司都在做智能驾驶?包括传统汽车厂商,新势力,高科技企业,都在进军自动驾驶市场?事实上,存在许多技术挑战。首先,从AI的角度来看,自动驾驶高度复杂,需要大量的计算能力和新算法,是AI垂直领域最具挑战性的问题。其次,自动驾驶也是聚合智能、边缘智能、自主智能的交集。在刚才的测试视频中,可以看到自动驾驶面临这么多复杂的场景和变化,确实有很多挑战。
但我认为自动驾驶是完全可以实现的,有一些关键问题,有些是市场因素,有些是非市场力量。市场因素包括技术是否可行?用户有真实需求吗?产业生态和商业模式。非市场因素也很重要,需要行业的技术突破,需要政府行业的支持,需要政策法规的突破。
技术方面,一开始很多人都在讨论无人驾驶是否可行,尤其是L4以上是否可行。我一开始就觉得可行。最近看到一些数据,无人驾驶比有人驾驶安全10倍左右。去年还在说3倍,今年已经到了10倍。这说明技术突破已经完成。在商业化的路线图上,目前有各种方式。有基于自行车智能的,有车路协同的,有渐进式和跳跃式的,有开源式的,也有封闭式的。不同的企业在探索不同的路线图,但没有说哪一个是完全正确的。该行业正在以不同的方式尝试自动驾驶。我知道我选择了循序渐进,我觉得这些都很好。我们用不同的方式探索它们。
最近人工智能有很多新的突破。我们看到新的算法和新的框架,尤其是预训练、多模式、多监督学习和大规模模型已经成为主流。在Transformer之前,ResNeT曾经是一个应用非常广泛的可视化算法框架。我之所以特别提到ResNeT,是因为这个算法实际上是中国的年轻科学家在中国完成的,所以中国的科学家对人工智能做出了很大的贡献。我听过很多说法,认为AI的核心主要来自欧洲,基础理论来自那里,但中国科学家在人工智能领域也做出了很多贡献。
大模型突破技术限制很重要。在过去的六七十年里,有三个重要的理论:摩尔定律、冯诺依曼框架和香农三定律。现在这三个理论都被打破了。如果不突破,大模型是无法实现的,这就需要新的传感方式,新的传感方法,计算机架构的新突破,包括芯片的新框架。现在主流的Transformer和CNN卷积神经网络也不一样。目前数字科技产业主要是以硅计算为主,未来可能还有生物科学、光计算、量子计算。
目前很重要的一点是,大模型带来的是生成式AI。以前AI讲分类,也就是判别AI。现在你完全可以在场景中产生新的内容创意,数据创意,以及很多新的创意。我来简单介绍一下这个作品。
大模型已经朝着新的方向发展。首先,多模态,不仅是自然语言、图像和视频,还包括所有车辆的物理和生物传感信号,比如传感信号和激光雷达。大家可以看到,GPT-4模型是多模态的,功能很强大,但是效率很低,比人脑的计算和决策效率至少低1000倍,所以需要新的算法。我认为五年后会有新算法出现。其次是自主智能,可以自动完成任务,包括边缘计算,如何把非常复杂的大型模型放到手机、汽车、机器人的边缘,以及具身智能与物理世界的连接,我觉得自动驾驶是具身智能最重要的场景。未来是脑机智能的阶段,大模型将面临如何利用生物和生命的世界,如何更好地用大脑连接人。
新的技术架构将使用大型模型,就像新的AI操作系统一样,它将有许多垂直模型,包括自动驾驶或其他类似生命科学的垂直模型。
我简单说一下清华智能产业研究院(AIR),是我从百度退休后创办的。三年发展很快,我很幸运的找到了一批有深厚行业背景和深厚学术造诣的科学家和企业CTO。现在博士后差不多300人,自动驾驶是其中一个方向,100人左右。
每次说到空气研究院,我都会想起25年前我回国创办微软亚洲研究院。下个月将庆祝微软亚洲研究院成立25周年,该研究院本身就相当成功。我刚才说的大模型是在微软研究院开发的,希望打造一个面向中国产业的研究院。
我们在从事各种研究的时候希望有一个大的框架,比如在智能驾驶方面首先要确定一些技术路线。首先,我觉得多模态感知很重要,来自原始的多尺度、多维度的数据很重要。因为无人驾驶和智能驾驶,机器人的优势是首先需要更多的数据,这个数据优势不能丢,所以我不同意马斯克说我们只用摄像头,我们需要用更多的数据源。其次,现在很多自动驾驶会使用很多高精地图,但是我们认为未来是光地图,不能完全依赖地图。
自动驾驶最终的安全可靠阶段必须以端到端的方式实现,这也是非常困难的。还有更细致的技术因素,包括生成式AI、强化学习、大语言模型。我们有两个平台:数据大模型平台和仿真平台。
AIR也提出了自己的自动驾驶基本模型。首先,模型提出了如何获取不同的数据,包括真实数据和仿真数据。数据必须通过受控的管道进行清洗,然后经过两大模型:感知模型和决策模型,包括在云端和车内的一些关键地方进行决策。一些模块提供信息,一些是统计的,一些是基于规则的模块。
我特意在里面拿出“强化学习”,因为强化学习从百度开始就有了,但是很难用。因为自动驾驶的安全性非常重要,使用起来也相当困难,但我认为这是我们真正达到更高安全性的唯一途径。我们可以通过强化学习来学习新的东西。现在广义的方式是靠强化学习,最近有很多新的发展。如何将强化学习应用于许多模拟和决策,以及真实的驾驶行为。左边的模型是垂直大数据。如何用强化学习调整模型?
另一个是生成式AI如何用于仿真和决策?这里有个小例子。大模型和深度学习都有透明度问题,所以我们也做了这方面的研究。我到底为什么要做这个决定?左转,右转,刹车。说说我看到了什么,为什么做这个决定。它可以指导如何做决定。这是一个由真实数据、仿真数据、垂直模型和大模型生成的语义深度场景,包括交通和行人信息。
另一个是人脑和机器的融合。我们需要研究人们如何开车。人们有时会做出好的决定,有时会做出坏的决定。通过传感器收集这些信息。一方面,很长一段时间,人和机器都要一起驾驶,无人驾驶要慢慢理解人的驾驶。另一方面,在算法中使用该模型来提高算法的效率。
最后,我们很高兴能与米莉进行深入的技术合作。这个合作是关于如何将强化学习应用到认知决策中。如何通过强化学习将其与真实数据和真实汽车场景融合?目前强化学习有很多问题,包括函数定义的问题,策略模糊的问题,所以我们做了很多这样的研究。一年多来,在国际峰会上发表了很多论文,也有专利。最重要的是它们现在已经用在汽车上了。刚刚看到物流车已经开始用这些算法了。
综上所述,如果从智能驾驶和自动驾驶的不同阶段来看,一开始更多的是激光雷达和硬件驱动,更多的是基于人工规则。2.0是由软件和算法驱动的。这个阶段传感器比较多,也要看机器学习和规则。现在3.0时代是由大模式驱动的。现阶段有很多传感器采用端到端的算法和强化学习,可以更大程度上实现现实世界中的自动驾驶。"
作者:鼎点娱乐
新闻资讯 News
- 这位37岁的女演员在拍戏时突然死...12-04
- 达尼痛苦地抱怨被欺骗:友谊破裂,...12-04
- 从默默无闻到亿万影帝!85后一代...12-04
- 结婚27年,吃软饭被打死,上了17...12-04