ChatBI:基于文心一言的生成式数据分析技术探索
来源:
时间:2025-01-11 22:22导读 本文节选自百度技术沙龙 115 期:《百度数据中台技术沙龙—探索 AI 时代的数据中台》主题分享( https://space.bilibili.com/274861493 )。本文将深入剖析商业智能(BI)与生成式模型结合带来的业务价值和技术实践经验。重点从三个视角和大家进行了交流分享。第一,从技术趋势和业务需求视角,论证了生成式智能 BI 必然技术趋势和带来的巨大业务价值;第二,从系统设计视角,介绍了百度数据中台 ChatBI 设计思路和关键点。第三,从新技术实践实践视角,介绍了 Chat BI 在百度落地过程中遇到的问题和解决思路。
主要内容包括以下几个部分:1. BI 技术的发展与大模型带来的新机遇
2. ChatBI 的设计理念和平台介绍
3. ChatBI 背后的技术内幕
4. 落地效果
分享嘉宾|百度移动生态数据研发部
编辑整理|吕晶
内容校对|李瑶
出品社区|DataFun
01BI 技术的发展与大模型带来的新机遇
1. 技术视角
从技术视角看,不管是什么新的技术,想要成为新的趋势,本质是要做到技术的普惠,让更多的人可以更低成本地使用从而产生更多的价值,BI 的技术趋势也是一样的。我们先来回顾下 BI 在这么多年的发展过程中经历的几个阶段: 第一阶段(报表式 BI 产品):随着大数据技术的产生,HDFS 技术和 MR 技术开始在各个公司流行,产生了此类 BI 产品。其往往需要按需开发,由分析师或经营者提出数据需求,再由专业的数据研发同学进行取数开发。需求开发成本和周期长,边际成本高,限制了其广泛应用。 第二阶段(自助式 BI 产品):近些年随着计算机底层硬件的不断发展以及数据查询技术的迭代(如 MPP 架构、向量化、内存化技术等),和早期 MR 时代对比,取数效率有了 10 倍以上的提升。量变带来质变,在多数场景下,在宽数据集上进行动态查询就能满足性能需求,这减少了对数据的开发依赖,用户可通过 BI 平台进行自助化、可视化查询,使得 BI 技术更为普及。 当前第三阶段 BI 技术展现出明显的技术趋势,即智能化的发展。随着大模型技术的出现和快速发展,笔者认为现有 BI 产品可以通过和其结合,更具智能化,做到更好的技术普惠。 第三阶段(智能式 BI 产品):借助大模型强大的理解、推理能力,屏蔽更多的底层细节。用户无需再考虑使用哪个平台、数据从哪里来以及查询方言等问题,只需要自然语言对话,即可完成取数、洞察分析等流程。极大地降低了使用门槛,人人都可以是分析师。2. 业务视角
从业务视角看,核心在于新的技术是否能带来足够的业务价值: 首先,从业界近些年对 NL2SQL(自然语言转化 SQL)的研究看,LLM-base 的解决方案在各个评测集上都取得了更好的分数,这降低了问数场景的使用门槛;其次大模型的超强理解能力使其能够总结背后数据报表的本质,并进行多轮交互式沟通,提高效率。记忆能力和推理能力使其能够在数据分析中执行逻辑推理,解决问题,为用户提供更为深入的数据分析支持。 大模型对业务带来的价值主要体现在两个方面: (1)降低新手门槛:chat 交互、AI 解读、数据洞察等能力的建设,实现数据分析的普及,使得全员都能够轻松进行数据分析; (2)存量用户提效:通过智能化 BI 技术(例如:自动化纠错 SQL、生成周报等),对于已经使用 BI 产品的同学,可以帮助提升效率。02
ChatBI 的设计理念和平台介绍
1. NL2SQL 需要具备的能力
目前开源的 NL2SQL 的工具一抓一大把,但是想要落地到真实工程上,往往还有很长一段路要走: (1)需要具备完备 BI 能力:比如丰富的图表能力、复杂的 BI 计算(例如:留存率、周日均、同环比),对 SQL 的生成提出了更高的要求; (2)需要具备极速的交互速度:交互耗时包含推理耗时和查询耗时,对话式交互需要及时的响应,如何基于 PB 级的数据进行秒级的 Chat 交互挑战很大。 (3)需要保证结果的正确性:数据分析是一个严肃的场景,结果要尽可能得正确,以满足实际生产环境的需求。2. ChatBI 的实现
下面开始介绍一下我们实现的 ChatBI 平台,当前平台核心设计思路关键点聚焦在解决如下两个问题: 使运营人员能够通过自然语言提出问题,平台能够及时作出取数应答; 如果运营人员发现了数据异常波动,可以通过平台进行波动归因分析。 下面截图展示百度的 Chat BI 的核心能力,以进一步说明平台的实际效果。 首先,用户可以通过自然语言对话进行数据分析。例如,用户可以查询最近 3 天内女性用户的 DAU 波动情况,系统会自动识别用户的意图,并在相应的数据集中选择指标和维度,生成相应的图表结果。这些结果可以被保存到仪表盘来进行复用。03
ChatBI 背后的技术内幕
1. 完成的解决方案
我们首先面临的挑战是 BI 的完整性。一个真实可用的 BI 平台,不仅包括生成基本 SQL,还需能够产生丰富的图表,并与平台实现联动。解决这一问题的思路有两种: 方案一:BI 平台对接在 NL2SQL 模型下游,进行 SQL 的查询和可视化操作。 方案二:让大型语言模型与现有 BI 平台结合,模型不仅返回 SQL,而且返回 BI 平台的操作指令集,实现模型对平台的控制。 方案一的问题在于模型和 BI 并没有打通,只传递一个 SQL 给到 BI 平台,会导致大量BI特有功能缺失。例如应该选择什么图表样式进行展示、结果修改保存能力等。方案二的思路类似于让大语言模型执行生成 PPT 或打游戏的任务,通过模型控制 BI 平台,可以做到更加灵活优雅。例如由模型确定数据展示图表样式、由模型确定是否在展示当期数据的同时也展示同环比信息。2. 端到端性能
第二个挑战是产品的端到端性能,其中主要包含了模型的推理性能和数据的查询性能两个耗时: 推理性能方面,现在的文心一言模型性能可以达到秒级的实时推理,且在持续优化中; 查询性能方面,数据存储基于百度内部强大的 MPP 引擎基座,业务平均查询能够做到 2-3s 内完成。3. 准确性
第三个挑战是产品的准确性,因为数据平台提供的数据往往要求百分百的准确性,而大模型则是基于概率生成的,这成为了数据平台和模型结合中最关键的一点。在此背景下,我们在优化模型本身的基础上,还尝试了在产品层面做了大量设计,来提升准确性。 先来说下模型本身的优化,这里主要是通过 prompt 优化和 SFT 微调两个手段进行的。 首先是 prompt 优化,一个良好的 prompt 应当包含三个关键元素: 在 prompt 中明确定义模型的角色,使其能够在特定领域完成任务; 对任务的描述要清晰见解,避免歧义,确保模型不会理解错误; 提供一些 few shot,可以让模型更好地学习范式。 此外,在 BI 场景下,prompt 中还需要添加相关的表结构和一些业务私域的增强知识,以确保模型能够理解一些业务黑话。 而 SFT 微调则是在模型预训练完成后,通过补充业务场景的样例数据,对模型本身进行二次训练,让模型更加擅长解答该业务场景的手段。对于 SFT 来说,训练样本集尤为重要。从我们微调的踩坑经验来看:样本的质量一定要高,样本中出现的 bad case 会导致模型学习到不正确的模式;数据要充足,要尽可能覆盖更多场景,才能得到更高的泛化能力。 我们在 ChatBI 的冷启动阶段让用户标注少量数据,然后在平台转动起来时,依赖用户反馈的数据飞轮(用户在使用过程中会提供踩或赞的反馈),进行进一步微调,从而形成一个闭环的反馈机制,提升模型的准确度。 这里额外介绍下我们 SFT 训练使用的百度云?千帆平台,平台提供了模型开发的一站式解决方案,其集成了样本数据管理、模型调优(含 SFT)、模型部署等功能。不需要使用者具备模型训练、部署的专业知识和 GPU 资源,极大地提升了我们的模型迭代效率。04
落地效果
该平台已经在线运行了相当一段时间,得到了多个业务线的使用,累计用户数量达到了数百人,用户的评价也普遍较好。 用户认为智能查询和智能分析方面表现出色,其中两个主要优势受到用户青睐: 首先,该平台降低了用户的门槛。特别是对于一线运营销售等用户,他们无需学习复杂的技术,只需提出一个问题,即可获得结果。这有效地降低了他们的操作难度,解决了实际工作中的问题。 其次,老用户发现使用 chat 的效率比传统的拖拽方式更高。以前制作仪表盘可能需要查找数据集、资料等多个步骤,而现在只需通过提问即可生成报表,用户只需保存即可。即便在生成结果不理想的情况下,也可以进行二次修改,这比从零拖拽要方便不少。
往期推荐
万亿数据的电商平台,如何做存储? Apache Spark在小米的生产实践 Al Agent--大模型时代重要落地方向 技术分享|揭秘第三代指标平台的查询加速技术 基于因果推断的推荐系统:回顾和前瞻 AIOps的新机会 指标平台加速零售数字化转型--Kyligence Zen 智能一站式指标平台 大数据架构与大模型没有关系? 面向2026年的推荐算法前瞻用户画像算法:历史、现状与未来

点个在看你最好看
SPRING HAS ARRIVED

相关知识
基于生成对抗网络的植物景观生成设计——以花境平面图生成为例
基于AI技术的花境设计应用分析.pdf
生成式AI技术如何提升花卉市场的客户体验?
文心兰的花期调控
基于Python实现交互式数据可视化的工具(用于Web)
百度AI,终究在实战面前露了怯
工商银行:打造基于大数据的智能化风控体系
JavaScript实现的风飓风数据可视化分析
基于AI技术的花境设计应用分析
基于Landsat数据的城市热岛效应分析与预测
网址: ChatBI:基于文心一言的生成式数据分析技术探索 https://www.huajiangbk.com/newsview1544884.html
上一篇: 全国首笔!来自丰台,事关花卉和大 |
下一篇: 虹科分享丨一个高尔夫球用品制造商 |
推荐分享

- 1君子兰什么品种最名贵 十大名 4012
- 2世界上最名贵的10种兰花图片 3364
- 3花圈挽联怎么写? 3286
- 4迷信说家里不能放假花 家里摆 1878
- 5香山红叶什么时候红 1493
- 6花的意思,花的解释,花的拼音 1210
- 7教师节送什么花最合适 1167
- 8勿忘我花图片 1103
- 9橄榄枝的象征意义 1093
- 10洛阳的市花 1039
分享热点排名