XIAOLUO(小落同学)


小落同学-3D版本:https://x.rg4.net

注:

  • 本项目为一个奔五的老年程序员在闲暇之余,练习各种新技术之用,暂无其他想法。
  • 由于第1条,本项目的结局(会不会明天就停了)不能得到任何保证,但是如果您也是一个程序员,并且想要本项目或者本项目的代码感兴趣,请直接联系我。let’s do it together。
  • 近期国内也已经出了一个《生成式人工智能服务管理暂行办法》,这也意味着大语言模型相关的应用必须要通过备案才能上线,因此,此项目仅为研发和学习之用,不要散发,更不要对外提供服务。

项目名

xiaoluo小落同学

实际的目的是学习和练习一下LLM相关的技术,没什么特别的意义,只是没想出来什么伟大的名字,随便取的一个名字。仅在下班后,周末无聊、无所事事的时候自己随便玩玩,顺便尽可能让自己不要太落后于时代。

项目地址

代码仓库:https://gitee.com/oddmeta/xiaoluo-3d
演示地址:https://x.rg4.net/

项目目标

LLM大模型

  • [x] chatglm环境搭建: http://kb.rg4.net/docs/omassistant/omassistant-1epcvj9cjkcu6
  • [x] chatglm-openai-api环境搭建:http://kb.rg4.net/docs/omassistant/omassistant-1eq0oooehq0pn
  • [x] langchain-chatglm搭建: http://kb.rg4.net/docs/omassistant/omassistant-1eq8edh0rv7vd
  • [x] 示例知识库:科达开放平台(实时音视频+音频智能转写)
  • [x] 支持用户登录:http://kb.rg4.net/docs/omassistant/omassistant-1eqhppdgfq7ba
    • [x] 基于gradio的版本。演示地址:http://bot.rg4.net:6005
  • [x] langchain-chatglm支持多用户(管理员+普通用户)
    • [x] 基于gradio的版本。演示地址:http://bot.rg4.net:6005
  • [ ] ptuning微调模型:http://kb.rg4.net/docs/omassistant/omassistant-1epdetc25atjp
  • [ ] 泛化学习:http://kb.rg4.net/docs/omassistant/omassistant-1epdiqudhp7lq

Speech语音服务

  • [x] 侧耳倾听(ASR服务):继承某个我做了三年、但降本增效被下架的产品。
    • [x] 方言
    • [x] 热词
    • [x] 语气词、标点、断句等等
    • [x] 敏感词
  • [x] 开口说话(TTS服务):百度开放平台的免费授权超期。改用paddlespeech,http://kb.rg4.net/docs/omassistant/omassistant-1eqfdn5qv0b6a
    • [x] 语音合成
    • [ ] 语音克隆
    • [x] 合成处理:音量(volume)、语速(speed)、音调(pit)
    • [x] 私有化
  • [x] 集成ASR/TTS到知识库,让大家可以直接说话来提问,答案可直接TTS播放。

拟人化

- [x] 加入个性化知识库:公司介绍、产品介绍、商户介绍,定位全能客服。
- [ ] 加入拟人化知识库:虚拟老婆,虚拟老公,虚拟宝贝。

驱动数字人

- [ ] 姿态分析
- [ ] 情绪分析
- [ ] 音视同步
- [ ] 视频合成

小型化

  • [ ] JittorLLMs: http://kb.rg4.net/docs/omassistant/omassistant-1epdr708arfre

环境

conda create -n omserver python==3.8
conda activate omserver

下载安装

git clone https://gitee.com/oddmeta/xiaoluo
cd xiaoluo
pip install -r requirements.txt

启动服务

python main.py

运行

打开你的浏览器,然后填入上一步启动服务时提示的地址,http://localhost:6005
支持直接文字对话,也可以直接语音对话。

注意事项:

  • 文字对话:直接在文本框输入文字,手动点击“发送”按钮发送。
  • 语音对话:操作同微信,鼠标长按“发语音”按钮,开始说话,说完放开,放开后自动发送。
  • 语音对话网络有延时
  • 查看langchain+gradio版本
  • 查看flask版本

后端资源:

  • LLM模型:使用的是清华大学的ChatGLM-6B,同时支持ChatGTP,通义千问,Phoenix等等模型。
  • 语音转写:使用的是科达的开放平台语音智能API,支持阿里,讯飞,百度,有道,思必驰等等引擎
  • 语音合成:使用的是百度的开放平台API。已替换为开源的Paddlespeech。