构建企业专属大模型知识库，解决企业知识管理与应用难点

以下文章来源于爱分析ifenxi ，作者数字化服务平台

大部分企业的知识管理有三个不足：缺乏长期规划、缺乏组织机制和文化、缺乏智能化，大模型+知识库的体系建设，从知识管理的底层切入，帮助企业探索多场景的知识应用形态，提升企业知识应用价值。

本文从知识库建设的挑战、AI+知识库建设框架与路径、4个不同场景的知识库落地案例，三个部分详细展开。

分享嘉宾｜沈盛宇 ，Aloudata 南京云问算法组负责人

知识库建设背景

企业目前在建设知识库过程中会遇到非常多困难，主要总结有以下三个部分。

1、知识管理比较分散

企业无论有无构建知识库，大都采取纸质化办公方式，很多的数字甚至还处于非电子化版本，企业需要去做更多的工作完成这个电子的转换。且不同部门之间会存在信息孤岛的情况，不同的管理方式，就有不同的建库方式，相互之间无法打通，知识管理相对来说会比较分散。

2、知识的可用性较差

在知识构建时，可能只是将一个简单的文库，丢到相应知识库或平台里，在搜索、检验、使用阶段，整体会有较大的问题。结合某业务场景，比如一个设备维修人员，要去查询某设备维修的相关参数，可能只是返回一篇完整的维修手册，再做相应的查找，会非常复杂且浪费时间。

3、专家知识难以沉淀

这也是目前企业用户反馈较多的问题。很多企业其实是具备专家支持的，无论是在客服、营销、金融、设备管理，或者是一些传统行业，都有一些具备很多经验的老师傅，但他的经验都存在大脑里，没有办法用较好的方式呈现出来。所以我们需要一个平台，能够提供给企业用户做相应的使用。且能在相应平台去抽取或完成相应的任务，找到答案，这是我们目前主要面临的问题。

对于企业知识管理的发展脉络，我们希望打造三种场面。

第一个是知识资产化，企业在构建知识库或打造知识平台的时候，必须形成一套有效的资产，资产可以是打造出来的知识平台，可以是知识库，可以是未来给用户在推广运营阶段可以使用的产品。那知识资产化能帮助企业提升相应的效率。

第二个是知识场景化，也是我们目前较关注的点。当前的知识库，或者说知识智能引擎产品，是一个具象的、满足企业用户日常在知识消费阶段要使用的场景，包括做业务查询，或案例寻找。可以用企业现在的知识搭建平台，完成运营服务、考试培训等。具体到特定场景，可以给企业用户打造当前场景上使用的知识底座。

结合知识底座，用场景反推或倒逼当前知识构建的维度，要维护起知识体系，超越了以前纯知识图谱构建的以实体或以关系为关联的知识库，也超过了单纯从文档角度查询的知识库。

第三个是知识智能化。无论是在大模型时代，还是在大模型时代之前，都会给客户打造智能化产品。以前没有大模型的时候，我们也会做搜索上的优化，做整个知识运营平台的加强。比如在检索阶段时，可以借助召回，在检索阶段对搜索引擎做一些优化，完成深度语义表征。我们可以做向量表征结合当前的模型如 Bert 对向量做优化，提升向上召回的水平，比Locance、 EH 传到 ES 效果会更好。

在知识运营阶段时，也可以运用一些小模型，比如之前有 GPT 2、 T5 等等，完成相应数据的生成，或者相似问题的生成，也可以借助工具完成数据的生成和运营水平的提升。

包括知识运营的图谱，也可以有很多技术完成知识图谱相应组的抽取，完成搭建。在创新平台上也需要当前的智能化做创新提升，重新提升使用方式。

从企业服务的角度上来说，以前推荐强调用户画像，对于相应客户管理的知识平台做权限管理。在大模型时代，用RAG 方式完成知识召回与问答，一步就能把答案得出。

在运营阶段用得更多，无论是知识获取还是未来的推理和判别上，可以借助当前语言模型的能力完成推理、问题的发现。持续运营阶段，还可以借助大模型的 Agent 场景，或者 Long chain 的使用，提升例如工单的的更多服务。

企业如何打造一个全链路智能化的知识管理平台？

在整个知识交互阶段，共分为了三个部分：知识构建、知识存储和知识消费，把应用叫做消费场景。

关于知识管理的底座，可以构建统一的AI 底座，提供传统的NLP的能力。比如说分词、抽取、生成、判别、情感识别等等。结合当前大模型的引擎，无论是企业内部自研的通过信任数据去 SFT 的模型，还是调用开放的API，如 OpenAI 或文心一言等其他大模型的接口，都可以做相应的使用，把各个引擎接入到整个系统中做使用。

知识构建阶段。我们把知识分成很多种模式，比如说一个文档要完成相应的文档拆解，要调用知识加工的工具去完成文档知识的拆解。如果要完成段落的版面分析，分析出当前文档可能是扫描件或PDF，就要通过知识加工体系查找出当前文档中的段落，其中所包含的图片、公式、表格信息，都需要完成解析。关于知识图谱的工具，如果在企业内部构建知识图谱，需要调用相应的工具完成三元组的抽取，帮助图谱的构建，提升效率。

知识存储阶段，当前知识存储分成几大部分。

首先针对较多的文档信息存储，要建立一个文档库完成整个文档的抽取，在解析过程中，不但要保证文档是可被向量化的，还要可以被查询、编辑，企业用户也有相应的诉求。

因为有大模型，还需要提升 RAG 的质量与召回的能力，还会在支持存储阶段的时候，打造向量库，用来存储相应的向量知识，也就是文档的表征。如果储存在知识图库中，还需要图数据库存储向量知识。

在存储知识前，还需要较大的方式做融合，在一次检索时，要展示出对应的文档信息与案例。比如在能源行业，现在要搜索“某个设备变压器起火了，我应该怎么去做处理？”，需要展现出来的内容包括变压器的图谱信息、生产厂商等等，这些可能来自于结构化的信息。还有生命周期的管理，什么时候进行的维修和保养，这是另一部分信息的展示。同时还要展示出处理方式。这些信息可能来源于操作手册、行业标准等等，当然还有非常重要一块是经验案例。

要在平台或页面上在企业内部做好展示，这些信息都要做好有效的知识存储和融合，融合之后，才能在一次检索当中把这些信息都召回来，这是知识存储。

知识消费阶段包含许多消费场景，包括搜索、推理、问答、生成等等，都支持消费的各种场景。我们可以借助当前 AI 底座和引擎完成相应的能力，也可以结合图谱与大模型做相应的知识消费和使用。在消费阶段，企业比较在乎可视化展示，可以用图谱的方式展示知识的关联关系，也可以用案例、视频做相应的展示。

为了进一步提升交互的质量，还需要更多的推理分析，比如说在遇到某些问题的时候，如何处置？因为不同区域有不同的情况，采取的策略是不一样的，需要和图谱做相关的推理分析。

这是全链路的知识管理，包括知识构建、知识存储和知识消费三大阶段。

打造AI+知识服务体系

结合 AI 场景给企业用户打造的知识服务体系分为几块：底座都是统一的 AI 底座，上层有各个 AI 组件，无论来自大模型还是小模型，包括图片生成、以图搜图、 OCR 等场景。

结合当前 AI 底座提供的能力，有三款产品， AI galaxy 是 AIGC 平台，让大模型生成一封邮件、文案、代码等等，通常调用 AI galaxy 或AIGC平台使用的场景。

这样的能力，无论是自研的模型，还是外面的模型，让用户在平台上都可以做相应使用。企业用户如需从对话中抽取关键信息完成摘要，可以通过该平台搭建，把单组或几轮对话传到平台中，完成抽取和概要生成。

第二个是知识智能，重点是给企业打造统一的知识服务。底座有知识中心、知识图谱，前期构建阶段，需要知识工程的介入。在存储阶段，用知识图谱做存储，也可以用其他方式存储知识，构建知识中心平台做相应的使用。

最后是 AI +知识的智慧营服，可以结合实际场景做相应的知识消费。

云问科技是以智慧客服起家的，结合当前 AIGC 或大模型的能力给企业提供智慧营服，无论在营销还是客服阶段，都可以通过文本机器人、电话机器人、虚拟人、在线客服呼叫中心等，使用统一知识。当完成知识构建时，无论是企业提供搜索引擎完成知识搜索，还是跟文本机器人进行交互，亦或是给客服或营销人员提供平台使用，都可以在当前底座下完成。

在知识构建环节，首先是知识工程，很多都是工程化的东西。面临的主要问题是知识边界难以界定，需要很多人力做处理。

在该阶段，要做到知识抽取、段落拆解，把文档还原成可编辑的信息，包括表格、公式、图片都要做到检索、使用和消费。

完成构建后会有人工审核阶段，表示知识工程未来可做相应的使用，问答机器人做知识中心，完成搜索和交互的使用。

知识相关的项目若没有知识图谱非常难立项。知识图谱在当时非常火热，因为逻辑自洽而受到所有人的推崇。无论是前期使用阶段，还是用户交互阶段，整个知识交流的体系，在搜索某个信息时，同时能知道关联的信息，再做图片上的交互，超越了之前搜索引擎展现的简单信息。还打造了推理场景，例如用 protege 等工具，完成知识推理。比如说在实际应用场景做查询，“南京地区的电价是多少？”可能当地并没有存南京的电价信息，但江苏省有统一执行标准，知道了南京属于江苏省，就能推理出南京的电价是多少。

随着时间的推移，大家开始做图谱交互的时候，会发现图谱构建阶段花费的人力非常多，为此打造出了图谱构建的流程，从本体构建、框架制定，完成图谱生成等等，完成搜索。

随着大模型时代的到来，无论是在知识构建阶段，还是在知识消费阶段，结合图谱信息做相应的展示呈现，会有更好的模式。知识图谱是知识的重要承载形式，我们给企业用户推出的智能知识中心，打造统一的搜索，完成整个交互，呈现模式有图谱与知识的呈现。

当然还有大模型交互，生成结果类似于 Copilot 模式，在去年年初大模型刚刚比较火的时候，大家都在想如何做接入。当前的搜索引擎中，可以增加一个按钮，或在按钮背后增加一套逻辑，天然地使用到 IG 场景做呈现，成本偏低、交互模式顺畅，也因为大家对搜索引擎更习惯，知识交互模式结合 IG 场景，也是非常好的交互模式。

除了搜索之外，对知识还有一些消费的场景，比如企业的内部培训，无论是运营商，还是其他企业用户，企业内部培训都是非常耗费企业资源的，要花很多成本。

在以知识为核心的场景下，给企业用户搭建知识中心，可以在上面进行学习，甚至还可以结合大模型，基于上传的PPT，完成脚本生成，制作出视频。还可以根据要求，培训出了智能客服，让机器人仿造成客户去做咨询，完成练习动作。还有检测，企业需要对培训人员进行考试，结合现实场景与现有信息或知识点，生成相应的问题，人工审核完之后，导入到题库，模型自己完成评价。总结来说知识中心的能力远超搜索之外。

实际落地的经验案例

3.1 面向企业知识应用全生命周期的内部知识库

在我们企业内部使用时，打造整体的产品体系有非常多功能。企业内部会到涉及到智慧办公，无论是在教育考试、培训，还是检索等等，都会用到对知识库的需求，可以在这个阶段做相应的使用，使用统一知识库结合大模型的场景做相应的服务。知识门户、检索、搭建社区等，都是企业内部适用的场景。

3.2 电子工程设计院面向标准管理的知识库应用

该设计院所面向的场景是海量文档信息，行业文档、企业文档、行标、企标和国标等等。最主要的工作是审核，例如某家企业提交了标准，彼时非常大的开销就是业务人员的审核，当前的标准是否符合要求。想知道现在企业里的要求是否符合国家标准，要做很多的翻找和查询，有了大模型知识库的检索模式，可以完成相应的检查，快速定位信息，完成服务。

电子工程院使用到的模型有很多，要完成知识的拆解、相应信息的召回、判断信息是否符合相应的标准，会使用到较多的大模型，或者是知识工程的信息，要先完成文档的拆解，再建设企业私有化大模型知识库。

3.3 面向企业私有化大模型的知识库应用

企业在接入AIGC或大模型时，可以从哪些方面去入手？我们分几期操作，第一期做 AI 机器人，无论 ToB 还是ToC企业都有问答，第一阶段可以上文本 AI 机器人，打造 AIGC 数字助手，结合生成式机器人。首先改掉传统 AI 机器人的交互模式，以前召回的答案比较生硬，现在用大模型对答案进行改写，变得更拟人化。还可以结合大模型的上下文推理能力做更进一步的服务，这是 AIGC 的能力。还可以对接后面的知识库，我打造AIGC和 RAG 场景做数字服务。结合现有的能力，当发现有 Agent 苗头之后，优化工作流，打造更多的综合应用平台。企业内部的OpenAI，可以完成用户的申请、私有机器人的搭建等等。最后还可以扩展场景，优化 Agent 的落地，打造训练平台与应用平台等等，扩展多个场景。

3.4 面向经销商的大模型知识门户应用

在汽车经销商销售场景里面，智能辅助销售人员给客户做应答。比如在新能源车场景下，会问销售人员一些关于车辆的问题，比如续航、电池容量等信息。如果销售是个新手，就需要一些辅助信息，对上 IEG 场景，完成本地知识的召回，帮助答疑。

还有一个场景，比如顾客问到竞品如何？顾客询问跟竞品车型之间的差异信息很多， 4S 的服务人员可能不太确定信息，这时要完成知识的召回，得出答案。通过大模型交互，会直接生成话术，而不是只拉一个表格，这样交互起来较慢，会错失一些商机。

在试驾预约的Agent场景，完成试驾预约动作，要先告诉大模型该客户的姓名、所在门店、所需车型、客户联系方式、试驾车型五个要素，获取的信息来源于第一个工具——信息化系统，第二个工具是根据用户或营销人员话术的知识抽取，第三个是工单工具，完成整个信息的收集后，要提交到工单，并反馈说试驾工单已经预约好。整个场景里，非常契合 Agent 做推理、判断等，完成工作。

用户进来时先完成信息获取，老用户要获取相应的标准信息，然后根据运营商的交互模式，发现客户诉求信息。最后把信息归拢提交到工单系统当中，完成试驾工单的预约。这是大模型结合Agent 做的较好的案例。

从企业面临知识构建的困难点出发，给企业打造统一的知识服务平台。结合当前平台后，孵化出各种消费场景，例如搜索、问答，营销等。有了大模型的接入之后，可进一步扩充，无论是在知识构建阶段，还是在知识消费阶段，运营质量都会有所提升。在消费阶段，以前只能搜索交互，现在可以让它变得更加拟人，交互变得更通畅。也能结合 Agent 完成以前做不到的或需要较大人工的确认过程，结合大模型做相应任务。

首页 ꄲ 行业动态 ꄲ 研究报告 ꄲ 构建企业专属大模型知识库，解决企业知识管理与应用难点

ꄴ前一个：无

ꄲ后一个：无

创建时间：2024-04-25 10:09

浏览量：0