|
시장보고서
상품코드
1660087
자동차 분야의 AI 기반 모델과 적용 사례(2024-2025년)Research Report on AI Foundation Models and Their Applications in Automotive Field, 2024-2025 |
||||||
추론 능력이 기반 모델의 성능을 밀어 올립니다.
2024년 후반 이후 중국 내외의 기반 모델 기업은 추론 모델을 발표하고 Chain-of-Thought(CoT)와 같은 추론 프레임워크를 사용하여 기반 모델이 복잡한 작업을 처리하고 독립적으로 의사결정을 할 수 있는 능력을 강화하고 있습니다.
추론 모델의 집중적인 릴리스는 복잡한 시나리오를 처리하기 위한 기반 모델의 능력을 강화하고 Agent 용도에 대한 기초를 구축하는 것을 목표로 합니다. 예를 들면, 복잡한 시맨틱스에 있어서의 콕핏 어시스턴트의 의도 인식의 강화나, 자동 운전 계획·결정에 있어서의 시공간 예측의 정밀도 향상 등입니다.
2024년 자동차에 탑재된 주류 기반 모델의 추론 기술은 주로 CoT와 그 변종, 예를 들어 ToT(Tree-of-Thought), GoT(Graph-of-Thought), FoT(Forest-of-Thought)를 중심으로 전개되어 생성 모델(예를 들면 확산 모델), 지식 그래프, 인과 추론 모델, 누적 추론 및 다중 모드 추론 체인과 결합되었습니다.
예를 들어, Geely가 제안한 Modularized Thinking Language Model(MeTHanol)은 기반 모델이 인간의 사고를 합성하여 LLM의 숨겨진 레이어를 감독할 수 있게 하고, 인간과 같은 사고 행동을 생성해, 일상 대화나 개인화된 프롬프트에 적응하는 것에 의해 대규모
2025년 추론기술의 초점은 멀티모달 추론으로 전환됩니다. 일반적인 트레이닝 기술은 명령 미세 조정, 멀티모달 컨텍스트 학습, 멀티모달 CoT(M-CoT)를 포함하며, 많은 경우 멀티모달 융합 정렬과 LLM 추론 기술을 결합하여 가능합니다.
설명 가능성은 AI와 사용자의 신뢰 관계를 교차시킵니다.
사용자는 AI의 "유용성"을 경험하기 전에 AI를 신뢰해야합니다. 2025년 AI 시스템의 설명 가능성은 자동차 AI 사용자를 늘리는 데 중요한 요소입니다. 이 과제는 긴 CoT를 입증함으로써 해결할 수 있습니다.
AI 시스템의 설명 가능성은 데이터 설명 가능성, 모델 설명 가능성, 사후 설명 가능성의 세 가지 수준에서 달성될 수 있습니다.
Li Auto의 경우 L3 자율주행은 'AI 추론 시각화 기술'을 사용하여 엔드 투 엔드 VLM 모델의 사고 프로세스를 직관적으로 제시하고, 물리 세계의 지각 입력에서 기반 모델에 의해 출력되는 운전 판단까지의 전체 프로세스를 커버하고, 지능형 드라이빙 시스템에 대한 사용자의 신뢰를 높이고 있습니다.
Li Auto의 "AI 추론 시각화 기술"에서는
주의 시스템은 차량이 인식한 교통 및 환경 정보를 표시하고, 실시간 비디오 스트림에서 교통 참가자의 행동을 평가하며, 히트맵에서 평가 대상을 표시합니다.
엔드 투 엔드(E2E) 모델은 주행 궤적 출력 뒤에 있는 사고 과정을 보여줍니다. 이 모델은 다양한 주행 궤적에 대해 생각하고 10개의 출력 후보 결과를 제시하며 궁극적으로 가장 가능성이 높은 출력 결과를 주행 궤적으로 채택합니다.
시각 언어 모델(VLM)은 지각, 추론 및 의사 결정 과정을 대화식으로 표시합니다.
다양한 추론 모델의 상호 작용 인터페이스는 유사하게 추론 프로세스를 분해하기 위해 긴 CoT를 채택합니다. 예를 들어, DeepSeek R1에서는 사용자와의 대화에서 먼저 CoT가 각 노드에서 결정을 제시한 다음 자연어로 설명합니다.
또한 Zhipu의 GLM-Zero-Preview, Alibaba의 QwQ-32B-Preview, Skywork 4.0 o1 등 대부분의 추론 모델은 긴 CoT 추론 프로세스의 시연을 지원합니다.
이 보고서는 중국의 자동차 산업에 대해 조사했으며, AI 기반 모델의 개요, 유형, 공통 기술, 기업, 자동차에의 적용 사례 등의 정보를 제공합니다.
Research on AI foundation models and automotive applications: reasoning, cost reduction, and explainability
Reasoning capabilities drive up the performance of foundation models.
Since the second half of 2024, foundation model companies inside and outside China have launched their reasoning models, and enhanced the ability of foundation models to handle complex tasks and make decisions independently by using reasoning frameworks like Chain-of-Thought (CoT).
The intensive releases of reasoning models aim to enhance the ability of foundation models to handle complex scenarios and lay the foundation for Agent application. In the automotive industry, improved reasoning capabilities of foundation models can address sore points in AI applications, for example, enhancing the intent recognition of cockpit assistants in complex semantics and improving the accuracy of spatiotemporal prediction in autonomous driving planning and decision.
In 2024, reasoning technologies of mainstream foundation models introduced in vehicles primarily revolved around CoT and its variants (e.g., Tree-of-Thought (ToT), Graph-of-Thought (GoT), Forest-of-Thought (FoT)), and combined with generative models (e.g., diffusion models), knowledge graphs, causal reasoning models, cumulative reasoning, and multimodal reasoning chains in different scenarios.
For example, the Modularized Thinking Language Model (MeTHanol) proposed by Geely allows foundation models to synthesize human thoughts to supervise the hidden layers of LLMs, and generates human-like thinking behaviors, enhances the thinking and reasoning capabilities of large language models, and improves explainability, by adapting to daily conversations and personalized prompts.
In 2025, the focus of reasoning technology will shift to multimodal reasoning. Common training technologies include instruction fine-tuning, multimodal context learning, and multimodal CoT (M-CoT), and are often enabled by combining multimodal fusion alignment and LLM reasoning technologies.
Explainability bridges trust between AI and users.
Before users experience the "usefulness" of AI, they need to trust it. In 2025, the explainability of AI systems therefore becomes a key factor in increasing the user base of automotive AI. This challenge can be addressed by demonstrating long CoT.
The explainability of AI systems can be achieved at three levels: data explainability, model explainability, and post-hoc explainability.
In Li Auto's case, its L3 autonomous driving uses "AI reasoning visualization technology" to intuitively present the thinking process of end-to-end + VLM models, covering the entire process from physical world perception input to driving decision outputted by the foundation model, enhancing users' trust in intelligent driving systems.
In Li Auto's "AI reasoning visualization technology":
Attention system displays traffic and environmental information perceived by the vehicle, evaluates the behavior of traffic participants in real-time video streams and uses heatmaps to display evaluated objects.
End-to-end (E2E) model displays the thinking process behind driving trajectory output. The model thinks about different driving trajectories, presents 10 candidate output results, and finally adopts the most likely output result as the driving path.
Vision language model (VLM) displays its perception, reasoning, and decision-making processes through dialogue.
Various reasoning models' dialogue interfaces also employ a long CoT to break down the reasoning process as well. Examples include DeepSeek R1 which during conversations with users, first presents the decision at each node through a CoT and then provides explanations in natural language.
Additionally, most reasoning models, including Zhipu's GLM-Zero-Preview, Alibaba's QwQ-32B-Preview, and Skywork 4.0 o1, support demonstration of the long CoT reasoning process.
DeepSeek lowers the barrier to introduction of foundation models in vehicles, enabling both performance improvement and cost reduction.
Does the improvement in reasoning capabilities and overall performance mean higher costs? Not necessarily, as seen with DeepSeek's popularity. In early 2025, OEMs have started connecting to DeepSeek, primarily to enhance the comprehensive capabilities of vehicle foundation models as seen in specific applications.
In fact, before DeepSeek models were launched, OEMs had already been developing and iterating their automotive AI foundation models. In the case of cockpit assistant, some of them had completed the initial construction of cockpit assistant solutions, and connected to cloud foundation model suppliers for trial operation or initially determined suppliers, including cloud service providers like Alibaba Cloud, Tencent Cloud, and Zhipu. They connected to DeepSeek in early 2025, valuing the following:
Strong reasoning performance: for example, the R1 reasoning model is comparable to OpenAI o1, and even excels in mathematical logic.
Lower costs: maintain performance while keeping training and reasoning costs at low levels in the industry.
By connecting to DeepSeek, OEMs can really reduce the costs of hardware procurement, model training, and maintenance, and also maintain performance, when deploying intelligent driving and cockpit assistants:
Low computing overhead technologies facilitate high-level autonomous driving and technological equality, which means high performance models can be deployed on low-compute automotive chips (e.g., edge computing unit), reducing reliance on expensive GPUs. Combined with DualPipe algorithm and FP8 mixed precision training, these technologies optimize computing power utilization, allowing mid- and low-end vehicles to deploy high-level cockpit and autonomous driving features, accelerating the popularization of intelligent cockpits.
Enhance real-time performance. In driving environments, autonomous driving systems need to process large amounts of sensor data in real time, and cockpit assistants need to respond quickly to user commands, while vehicle computing resources are limited. With lower computing overhead, DeepSeek enables faster processing of sensor data, more efficient use of computing power of intelligent driving chips (DeepSeek realizes 90% utilization of NVIDIA A100 chips during server-side training), and lower latency (e.g., on the Qualcomm 8650 platform, with computing power of 100TOPS, DeepSeek reduces the inference response time from 20 milliseconds to 9-10 milliseconds). In intelligent driving systems, it can ensure that driving decisions are timely and accurate, improving driving safety and user experience. In cockpit systems, it helps cockpit assistants to quickly respond to user voice commands, achieving smooth human-computer interaction.
Definitions