小落同学-3D版本:https://x.rg4.net
20240519 更新:
给小落同学加了Agent支持,后面希望每天要是记得的话就跟她说一下当天的事情,希望的未来是:只要她知道的事情多了,她就会越来越懂我。
注:
- 本项目为一个奔五的老年程序员在闲暇之余,练习各种新技术之用,暂无其他想法。
- 由于第1条,本项目的结局(会不会明天就停了)不能得到任何保证,但是如果您也是一个程序员,并且想要本项目或者本项目的代码感兴趣,请直接联系我。let’s do it together。
- 近期国内也已经出了一个《生成式人工智能服务管理暂行办法》,这也意味着大语言模型相关的应用必须要通过备案才能上线,因此,此项目仅为研发和学习之用,不要散发,更不要对外提供服务。
项目名
xiaoluo小落同学
实际的目的是学习和练习一下LLM相关的技术,没什么特别的意义,只是没想出来什么伟大的名字,随便取的一个名字。仅在下班后,周末无聊、无所事事的时候自己随便玩玩,顺便尽可能让自己不要太落后于时代。
项目地址
代码仓库:https://gitee.com/oddmeta/xiaoluo-3d
演示地址:https://x.rg4.net/
项目目标
LLM大模型
- [x] chatglm环境搭建: http://kb.rg4.net/docs/omassistant/omassistant-1epcvj9cjkcu6
- [x] chatglm-openai-api环境搭建:http://kb.rg4.net/docs/omassistant/omassistant-1eq0oooehq0pn
- [x] langchain-chatglm搭建: http://kb.rg4.net/docs/omassistant/omassistant-1eq8edh0rv7vd
- [x] 示例知识库:科达开放平台(实时音视频+音频智能转写)
- [x] 支持用户登录:http://kb.rg4.net/docs/omassistant/omassistant-1eqhppdgfq7ba
- [x] 基于gradio的版本。演示地址:http://bot.rg4.net:6005
- [x] langchain-chatglm支持多用户(管理员+普通用户)
- [x] 基于gradio的版本。演示地址:http://bot.rg4.net:6005
- [ ] ptuning微调模型:http://kb.rg4.net/docs/omassistant/omassistant-1epdetc25atjp
- [ ] 泛化学习:http://kb.rg4.net/docs/omassistant/omassistant-1epdiqudhp7lq
Speech语音服务
- [x] 侧耳倾听(ASR服务):继承某个我做了三年、但降本增效被下架的产品。
- [x] 方言
- [x] 热词
- [x] 语气词、标点、断句等等
- [x] 敏感词
- [x] 开口说话(TTS服务):百度开放平台的免费授权超期。改用paddlespeech,http://kb.rg4.net/docs/omassistant/omassistant-1eqfdn5qv0b6a
- [x] 语音合成
- [ ] 语音克隆
- [x] 合成处理:音量(volume)、语速(speed)、音调(pit)
- [x] 私有化
- [x] 集成ASR/TTS到知识库,让大家可以直接说话来提问,答案可直接TTS播放。
拟人化
- [x] 加入个性化知识库:公司介绍、产品介绍、商户介绍,定位全能客服。
- [ ] 加入拟人化知识库:虚拟老婆,虚拟老公,虚拟宝贝。
驱动数字人
- [ ] 姿态分析
- [ ] 情绪分析
- [ ] 音视同步
- [ ] 视频合成
小型化
- [ ] JittorLLMs: http://kb.rg4.net/docs/omassistant/omassistant-1epdr708arfre
环境
conda create -n omserver python==3.8
conda activate omserver
下载安装
git clone https://gitee.com/oddmeta/xiaoluo
cd xiaoluo
pip install -r requirements.txt
启动服务
python main.py
运行
打开你的浏览器,然后填入上一步启动服务时提示的地址,http://localhost:6005
支持直接文字对话,也可以直接语音对话。
注意事项:
- 文字对话:直接在文本框输入文字,手动点击“发送”按钮发送。
- 语音对话:操作同微信,鼠标长按“发语音”按钮,开始说话,说完放开,放开后自动发送。
- 语音对话网络有延时
- 查看langchain+gradio版本
- 查看flask版本
后端资源:
- LLM模型:使用的是清华大学的ChatGLM-6B,同时支持ChatGTP,通义千问,Phoenix等等模型。
- 语音转写:使用的是科达的开放平台语音智能API,支持阿里,讯飞,百度,有道,思必驰等等引擎
- 语音合成:使用的是百度的开放平台API。已替换为开源的Paddlespeech。