📰 来源: 博客园
多模态 AI 是具备全感官交互能力的智能系统,集感知、理解、内容生成于一体,全面支持文本、图片、音频、视频等多类型信息的输入输出。
喜欢看视频的,请看《16. LangChain ChatPromptTemplate多模态应用实战》
在实际开发过程中,LangChain框架为多模态交互提供了便捷的支持,其中ChatPromptTemplate组件就原生具备多模态消息格式化的能力,无需额外进行复杂的配置,就能轻松对接多类型输入,大大降低了多模态应用的开发门槛。
实际使用时,我们可以以图片模态为例熟悉具体用法,需要说明的是,图片模态的调用逻辑和写法,与其他模态完全一致,掌握一种就能举一反三,无需重复学习不同模态的调用方式。
该模板在参数注入上也具备很高的灵活性,支持将图片的URL链接、Base64编码,以及本地文件路径等多种形式,作为参数动态注入到模板中,适配不同的开发场景需求,无论是在线图片还是本地图片,都能轻松处理。
prompt_template = ChatPromptTemplate.from_messages([ {"role": "system", "content": "你是专业的多模态内容分析助手"}, {"role": "user", "content": [ {"type": "text", "text": "用中文简短描述图片内容"}, {"type": "image_url", "image_url": {"url": "{image_url}"}} ]} ]) prompt_value = prompt_template.invoke( { "image_url": "图片地址" } )
了解完基础用法后,就进入实战环节,我
🔗 原文链接: 点击阅读原文
文章评论