最新动态
2023年开源中文医疗大模型概览
2025-01-01 20:12

12)BianQue —— 中文医疗对话模型扁鹊(BianQue)

项目简介 

基于主动健康的主动性、预防性、精确性、个性化、共建共享、自律性六大特征,华南理工大学未来技术学院-广东省数字孪生人重点实验室开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT,包括

  • 经过千万规模中文健康对话数据指令微调的生活空间健康大模型扁鹊(BianQue
  • 经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心(SoulChat

项目的目标是生活空间主动健康大模型基座ProactiveHealthGPT 可以帮助学术界加速大模型在慢性病、心理咨询等主动健康领域的研究与应用。

项目 生活空间健康大模型扁鹊(BianQue 是其中专注于中文医疗健康对话的大模型。 

项目于2023年4月发布,发布了1.0版本及2.0版本。

论文及源码

尚未看到相关论文。 

源码: 

https://github.com/scutcyr/BianQue

scutcyr/BianQue-2 · Hugging Face

scutcyr/BianQue-1.0 · Hugging Face

数据集构建

项目组研究发现在健康领域,用户通常不会在一轮交互当中清晰地描述自己的问题,而当前常见的开源医疗问答模型(例如:ChatDoctor、本草(HuaTuo,原名华驼 )、DoctorGLM、MedicalGPT-zh)侧重于解决单轮用户描述的问题,而忽略了“用户描述可能存在不足”的情况。哪怕是当前大火的ChatGPT也会存在类似的问题:如果用户不强制通过文本描述让ChatGPT采用一问一答的形式,ChatGPT也偏向于针对用户的描述,迅速给出它认为合适的建议和方案。

然而,实际的医生与用户交谈往往会存在“医生根据用户当前的描述进行持续多轮的询问”。并且医生在最后根据用户提供的信息综合给出建议,如下图所示。可以把医生不断问询的过程定义为 询问链(CoQ, Chain of Questioning ,当模型处于询问链阶段,其下一个问题通常由对话上下文历史决定。

项目组结合当前开源的中文医疗问答数据集MedDialog-CNIMCS-V2CHIP-MDCFNPCMedDGcMedQA2Chinese-medical-dialogue-data分析其中的单轮/多轮特性以及医生问询特性,结合实验室长期自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus。对话数据通过“病人:xxx 医生:xxx 病人:xxx 医生:”的形式统一为一种指令格式,如下图所示。

训练数据当中混合了大量target文本为医生问询的内容而非直接的建议,这将有助于提升AI模型的问询能力。

模型训练

扁鹊2.0是基于扁鹊健康大数据BianQueCorpus, 在ChatGLM-6B基础上经过全量参数的指令微调训练得到了新一代BianQue【BianQue-2.0】( 扁鹊1.0采用了ClueAI/ChatYuan-large-v2作为基准模型)。扁鹊-2.0扩充了药品说明书指令、医学百科知识指令以及ChatGPT蒸馏指令等数据,强化了模型的建议与知识查询能力。以下为两个测试样例。

项目中并没有给出模型训练的训练脚本,但给出了已训练好的模型,并且给出了如何运用已训练好的模型进行推理infer测试的程序及依赖环境。 

与其它项目相比,项目给出了如何在Windows环境下,进行模型推理应用的配置说明。 

开放程度

项目仅给出了已微调的扁鹊模型及如何使用的代码,对于所使用的BianQueCorpus数据集及如何进行模型微调训练,并没有给出具体的代码,是一种应用层面的开放。

与其它医疗大模型一样,相关资料仅用于非商业研究使用。 

项目简介

如BianQue项目所介绍,该项目是生活空间主动健康大模型基座ProactiveHealthGPT 的一部分,是经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调后,得到的心理健康大模型灵心(SoulChat

项目于2023年6月初初次发布。

论文及源码

项目尚未公开发布技术报告或者论文,虽然项目作者提到会后续发布。 

项目源码

https://github.com/scutcyr/SoulChat

scutcyr/SoulChat · Hugging Face

项目同时给出了内测网址

灵心

数据构建

项目组调研了当前常见的心理咨询平台,发现,用户寻求在线心理帮助时,通常需要进行较长篇幅地进行自我描述,然后提供帮助的心理咨询师同样地提供长篇幅的回复(见https://github.com/scutcyr/SoulChat/blob/main/figure/single_turn.png,缺失了一个渐进式的倾诉过程。但是,在实际的心理咨询过程当中,用户和心理咨询师之间会存在多轮次的沟通过程,在该过程当中,心理咨询师会引导用户进行倾诉,并且提供共情,例如:“非常棒”、“我理解你的感受”、“当然可以”等等。

   考虑到当前十分欠缺多轮共情对话数据集,项目组一方面构建了超过15万规模的 单轮长文本心理咨询指令与答案(SoulChatCorpus-single_turn ,回答数量超过50万(指令数是当前的常见的心理咨询数据集 PsyQA 的6.7倍,并利用ChatGPT与GPT4,生成总共约100万轮次的 多轮回答数据(SoulChatCorpus-multi_turn 。

   特别地,项目组在预实验中发现,纯单轮长本文驱动的心理咨询模型会产生让用户感到厌烦的文本长度,而且不具备引导用户倾诉的能力,纯多轮心理咨询对话数据驱动的心理咨询模型则弱化了模型的建议能力,因此,项目组混合SoulChatCorpus-single_turn和SoulChatCorpus-multi_turn构造成超过120万个样本的 单轮与多轮混合的共情对话数据集SoulChatCorpus 。所有数据采用“用户:xxx 心理咨询师:xxx 用户:xxx 心理咨询师:”的形式统一为一种指令格式。

 模型训练及效果

项目选择了 ChatGLM-6B 作为初始化模型,进行了全量参数的指令微调,旨在提升模型的共情能力、引导用户倾诉能力以及提供合理建议的能力。

项目开源库中并没有相关的模型微调训练脚本或者具体操作方法,仅给出了微调后的模型,以及如何进行推理测试的脚本。 

项目给出了可进行内测的网址: 

灵心

开放程度

项目并没有给出模型训练的全过程、所用的数据集及脚本,仅给出了微调训练后的模型以及如何使用模型进行推理测试的脚本。Demo脚本采用的Streamlit快速web框架。 

项目参与了PULSE团队的Elo评测https://github.com/openmedlab/PULSE#elo%E8%AF%84%E6%B5%8B

    以上就是本篇文章【2023年开源中文医疗大模型概览】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/news/18390.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多   
最新文章
荣耀手机数据恢复教程荣耀手机找回「荣耀手机数据恢复教程」
在使用荣耀手机的过程中,大家难免会遇到不小心删除重要照片的情况。这些照片可能包含了珍贵的回忆,一旦丢失,可能会让人感到非
手机副卡怎么注销手机副卡「手机副卡怎么注销」
随着移动通信技术的不断发展,手机副卡已成为许多家庭或企业用户的常用选择,它为用户提供了更多的便利和灵活性。然而,当不再需
三星s8怎么样值得买吗 64G版苏宁易购4999元s8手机「三星s8怎么样值得买吗 64G版苏宁易购4999元」
  【PConline 导购】当下很多手机都有一流的硬件配置和出色的使用体验,消费者在购机时也会优先考虑这些产品。就拿三星的旗舰
马拉松赛道上的奇特造型,究竟是展示自我还是博眼球,你怎么看?
或许你会发现,每次马拉松比赛都会出现奇特造型的人物。这不,2025象山马拉松也有一些打扮另类的跑者,他们的出现瞬间成为赛道上
售价21万的诺基亚Vertu手机 你肯定没用过!手机超长待机「售价21万的诺基亚Vertu手机 你肯定没用过!」
人人都说知道诺基亚,但你真的通晓诺基亚吗?在诺基亚旗下奢侈手机公司VERTU(威图、纬图)相信很多人都不知道。而Vertu品牌研发
苹果11原相机自拍是反的怎么调回来苹果手机拍照怎么是反的「苹果11原相机自拍是反的怎么调回来」
  苹果iPhone11(系统版本是iOS 14)相机自拍呈现反方向是【平面镜成像】原理,可在自带的相机设置中修改拍摄方向,也可以在自
阿维塔06即将上市,1天后公布价格
06倒计时一天,实际上有必要重新认识一下这个品牌。阿维塔成立于2018年,主要大事件:2021年阿维塔科技全球品牌首发,正式亮相,
最新个人简历电子版 个人简历手机版免费(三篇)手机简历「最新个人简历电子版 个人简历手机版免费(三篇)」
无论是身处学校还是步入社会,大家都尝试过写作吧,借助写作也可以提高我们的语言组织能力。写范文的时候需要注意什么呢?有哪些
360行车记录仪,走过风景,走过你——体验G300 3K版前,我要分享一份记录仪避坑指南!360行车记录仪怎么连接手机「360行车记录仪,走过风景,走过你——体验G300 3K版前,我要分享一份记录仪
***感谢众测君翻牌,感谢品牌方信任***说起,大家应该都不陌生了。这东西除了能让你在说不清的时候说清楚,还有点其他用处。比如

loading