语言大模型(LLM)主导的生成式AI(GenAI)毫无疑问将是未来几年最重要的生产力工具,不但突破以前AI应用无法突破的极限,而且将重塑各行各业,并深刻改变企业的各个产业环节。
“未来已至,只是还没有均匀分布”。随着数据量的爆炸性增长、高度可扩展的算力的普及、算法的突破,以及机器学习技术与工具等的不断进步,生成式AI登上了时代的舞台。那么企业如何开启GenAI的新征程呢?
7月6日,2023世界人工智能大会(WAIC)在上海隆重开幕。作为2023世界人工智能大会的战略合作伙伴,第六次参加的星环科技发挥大数据基础软件方面的优势,在大会上展出了大模型应用开发全周期的技术和产品,在算力及基础软件层,包括星环分布式向量数数据库Hippo、分布式图数据库StellarDB、大数据开发工具TDS等众多的基础软件与工具;在开发者工具层,提供了大模型统一运营管理平台Sophon LLMOps等,实现对模型训练、调优;在应用层则是面向用户的领域大模型,如星环无涯Infinity和星环SoLar求索。
同时,7月7日,星环科技还将在WAIC上举办“大模型时代的未来数据技术”论坛,让大数据智能化、多模态、平民化,将拥有广阔前景的GenAI技术提交给每一个企业用户手中,让企业开启大模型和生成式AI应用的新征程!
企业自有大模型应用构建流程图
金融、能源、交通等每个行业都会有自己的领域大模型
星环科技创始人、CEO孙元浩在大会上表示,未来在金融、政府、能源、交通等每一个行业与领域,都会诞生领域或者行业的大模型,这些大模型具有专家的能力,可以在上面构造复杂的应用。
在特定领域,领域大模型将会成为发展的主流。比如金融行业,会出现金融量化大模型,为基金经理投资提供决策辅助支持;在传统行业比如冶金领域,基于大模型驱动的控制技术应用将得到快速发展等。
在领域大模型落地和发展中,不仅需要长期积累高质量的数据、经验、流程和知识,利用行业积累对领域模型调优,利用业务反馈持续提升大模型,而且需要拥有基础领域模型、基础开发软件、基础工具软件,以保证行业领域大模型的持续提升。
由于大模型反馈的结果是基于对训练语料的学习而产生的答案,因此行业大模型在具体的落地过程中,需要学习大量行业的专精语料和经验知识,才能确保返回结果的精准性和专业度。
在大模型应用的实际业务工作中,往往会因为新发布的政策法规、新发生的行业重大事件,以及最新的生产经营情况变化等,需要做出快速响应。相应地,基于历史语料和经验知识训练的领域大模型要想对瞬息万变的经营环境做出及时的策略调整和反馈,就需要不断通过新增训练语料和实时信息来进行反馈结果的调优。
大模型提出了一种新的人机交互范式,但“一招鲜吃遍天”的大一统解决方案较难实现,围绕大模型在完成对已有业务的增值和创新中,需要使用向量数据库、图数据库、知识图谱、大模型编排和构建工具等,弥补大模型本身的实时性、幻觉缺陷或者长输入难题,组合、串联、增强各业务零散方案,统一到大模型的交互范式中去。
孙元浩认为,在现有数字化和智能化转型中,我国应该构建供应链安全的、自主可控的、丰富的、可信的大模型生态,并直接对业务的增强、融合、创新做出价值贡献。
星环科技作为一家大数据基础软件供应商,依然会专注在基础软件领域,将致力于做好两点:一是为行业提供一系列基础软件和工具,结合客户资深的行业知识、行业积累,让客户、合作伙伴能够打造出自己的行业领域大模型,并在大模型上开发出AI应用;二是在擅长的领域研发领域基础大模型,使得大数据取数分析等这一专业过程变得更加平民化。
星环无涯Infinity和星环SoLar求索两大领域大模型亮相
目前通用大模型商业化落地面临不少问题,如大模型虽然在理解人类自然语言、归纳生成文本、图像生成上等有惊人的表现,但是它依然无法理解行业术语,也不能够执行行业的特定任务,还不能像专家一样,针对行业做分析、推理和决策。
另一方面,企业要构建行业大模型,需要投资算力、基础大模型、LLMOps工具链、语料库、训练指令集,还需进行上层应用的开发。同时,大模型训练的成本很高,导致其生成的内容中数据没能及时更新,同时大模型还会存在幻觉问题,需要知识库校正结果。在具体场景中的商业化落地,通用大模型还不能满足准确、可信、安全、可溯等高需求,还会存在数据安全、伦理等问题。
在今年的WAIC上,星环科技的两大领域大模型——金融领域大模型“无涯”(Infinity)和大数据分析大模型“求索”(SoLar)成功化解以上挑战,开始投入应用,受到用户的欢迎。
其中,星环无涯Transwarp Infinity支持股票、债券、基金、商品等市场事件的全面复盘、总结及演绎推理,以及政策研报的深度分析,为基金经理提供决策辅助。
具体而言,星环无涯Transwarp Infinity金融大模型是业界首款面向金融智能量化投研的领域大模型,将在金融投研、量化投资和智能推理领域大显身手,有力辅助分析师、研究员和投资经理的日常工作,帮助企业更好地应对复杂的市场环境和业务需求,持续促进整体行业的降本增效与科技创新。
星环无涯融合了舆情、资金、人物、空间、上下游等多模态信息,具备强大的理解和生成能力,支持股票、债券、基金、商品等市场事件的全面复盘、总结及演绎推理,以及政策研报的深度分析。基于事件驱动与深度图引擎,星环无涯支持事件语义刻画、定价因子挖掘、时序编码、异构关系图卷积传播,进而构建包含事件冲击、时序变化、截面联动和决策博弈等多个维度的量化投研新范式。
从应用上看,无涯Infinity金融大模型拥有海量金融专业语料和舆情工商产业链大宗卫星等多源数据,可溯因的标准化因子和归因解释体系,高精准、强逻辑的事理分析与推断力,专注于金融领域的大语言模型架构,背靠大数据全生命周期技术栈等优势。
而Transwarp SoLar具备大数据行业需求理解、推理、各类(含多模型)结构化查询语言和OpenCypher代码生成、文本生成、嵌入向量生成、知识推理等能力。
借助这一领域大模型,企业的业务人员、数据分析人员以及业务管理者只需使用自然语言,就能利用Transwarp SoLar大模型获取所需的数据分析、展示和报告,轻松地应对各种复杂的数据分析挑战,并快速获得有价值的数据洞察,为企业的业务增长提供原动力。
星环求索大模型基于通用大语言模型,通过对大数据分析领域语料的重新训练微调而产生,相较于通用大语言模型,可以更好地理解大数据分析领域的专业术语、缩写、常见词汇和语法,更适合用于大数据分析领域的自然语言处理任务。星环求索让非专业用户在无需掌握数据库编程语言的前提下,能够通过自然语言进行自由的数据查询、分析和展示。
星环求索大数据分析大模型拥有众多优势,包括行业基因,在大数据分析领域拥有超过10年的积累,深刻了解该行业的需求和挑战;性能优异,基于Sophon LLMOps大模型开发工具进行大模型的微调,性能表现远胜开源模型;迭代提升,自主研发了SQL众包工具,持续根据数据驱动来提升模型性能;支持多模,产品支持TDH多模型查询语法,可以查询一切可查询的数据等。
大模型基础开发软件与工具让企业便捷构建领域大模型
在WAIC上星环科技另一个吸睛的地方就是为领域大模型发展提供的一系列基础软件和工具,不仅包括模型持续提升和持续开发工具Sophon LLMOps,可以对大模型进行微调,也包括向量数据库、图数据库、知识图谱等软件,让客户、合作伙伴能够打造出自己的行业领域大模型,并在大模型上开发出AI应用。
作为星环科技自主研发的一款综合性大模型统一运营管理平台,Sophon LLMOps为用户打通从数据接入和开发、提示工程、大模型微调、大模型上架部署到大模型应用编排和业务效果对齐的全链路流程,从而实现针对大模型的数据和分析的持续提升。
针对智能问答系统在各个业务环节中的应用需求,Sophon LLMOps提供了领域智能问答解决方案。借助星环 Sophon LLMOps ,用户可以轻松完成数据采集、知识沉淀、大模型迭代提升的完整闭环。通过跨领域知识的学习和调优,大语言模型能更好地理解不同领域的专业术语、缩写、常见词汇和语法,承担统一的语义理解功能,解决业务领域性问题。
作为一款企业级云原生分布式向量数据库,星环分布式向量数据库Hippo支持存储、索引以及管理海量的向量式数据集,提供向量相似度检索、高密度向量聚类等能力,有效地解决了大模型在知识时效性低、输入能力有限、准确度低等问题,让大模型更高效率地存储和读取知识库,降低训练和推理成本,激发更多的AI应用场景。
在赋予大模型拥有“长期记忆”的同时,Hippo还可以协助企业解决目前最担忧的大模型数据隐私泄露问题。通过建立垂直领域的知识库,对大模型输出结果进行校正,可以提高结果的精准度,在一定程度上解决“AI幻觉”问题。此外,通过星环Hippo对向量数据进行存储,有效解除大模型对输入的限制,并且大模型在安全机制下访问向量数据库中的隐私数据,可以充分保证数据安全,杜绝隐私泄露风险。
星环分布式图数据库StellarDB和知识图谱平台Sophon KG联合,与大模型可视化端到端构建工具一起,提供了知识抽取融合、知识建模、知识图谱生成存储、基于大模型的知识问答等闭环功能。客户以知识图谱作为大语言模型提示即可发起模型微调,以较低代价就可获得行业的专属大语言模型问答应用。
将向量数据库Hippo、图数据库StellarDB等与大语言模型结合,可以更低成本、更高效地构建特定领域的大模型应用,可以解决大模型目前存在的三大问题:一是能够把实时的知识、变化的信息放到大模型中;二是能够校正结果的准确性,极大地提升精准度;三是构建相应的知识图谱,增强大模型的能力。
另外,针对目前各行业用户在落地广泛业务需求分析、处理多重数据模态对接、跟进高度定制场景问题解决、运营多源多框架AI模型等方面的问题,星环科技自主研发的一站式智能分析工具平台Sophon提供“六易三仓两中心”的功能服务,能够保障企业数据到智能应用的落地,实现AI能力平民化、AI价值最大化。
例如某制造业客户通过Sophon的AI技术以及视频、图像、时序等多模态数据的联合分析技术,对其生产的钢管材进行缺陷检测识别,支持夹渣、未焊透、未熔合、气孔、裂纹5类基本缺陷类型的识别,并支持新增和识别随着日常的生产不断涌现的新缺陷。
某德国汽车品牌基于Sophon的多模态数据分析能力,盘活了监管机构、来源网站、法规条款(PDF等)等多模态的存量数据,并且通过文本分析、词法分析、纠错和统一转换等文本理解和意图识别模型,实现了数据知识沉淀,以及行业法规条款的自动语义检索和问答,帮助内部员工快速触达监管条款细节,提升效率。
利用星环科技的基础开发软件与工具,企业都可以便捷构建领域大模型,让生成式AI应用服务企业业务创新。
7月7日-8日,2023WAIC-星环科技精彩继续。