AI发展越来越成熟,像chatgpt可以语音聊天,还可以带眼晴的功能,所以本博文是参照chatgpt功能实现的,已实现功能,(1)语音聊天,(2)打开摄像头(视频数据已传入后台,未实现视频数据识别,后面再加)
说明:本例子APP端是使用uniapp写的一个h5页面(可以打包成APP),来模仿APP端,将APP端的语音数据、视频数据通过webrtc推流技术,推送到python后端,后端收到语音数据之后,进行语音识别转文字(使用阿里的sensevoice,本地布署),文字传给大模型(使用通信千问,本地布署),大模型推理之后的结果数据再转为语音(文字转语音使用微软的edge-tts技术,也可以使用其它的),然后将语音使用webrtc推流给APP端播放,整个流程结束
具体使用的技术如下:
uniapp:写APP端
webrtc:前后端音视频推流
fastapi:WEB框架
langchain: 集成大语言模型通义千问qwen
sensevoice:语音识别
ollama:布署qwen
qwen大模型
edge-tts:文字转语音
redis:保存用户上下文信息,用户信息记忆功能
一、先看演示效果
https://www.bilibili.com/video/BV1JUXyYYEp7
https://www.bilibili.com/video/BV1zUXyYYEim/
https://www.bilibili.com/video/BV1JUXyYYEA6/
二、环境准备
1、准备senseVoice语音识别(我是虚拟机centos7)
senseVoice对应的docker镜像在后面下载压缩包中
docker load -i sensevoice......




专注JAVA系统优化、系统结构调整、系统问题排查医治、系统升级、架构设计、SQL语句优化、小程序、APP、企业应用软件开发,请 + hekf888,欢迎关注,时常发布技术分享博文