小智Python客户端
跨平台Python稳定版本
项目简介
py-xiaozhi 是一个使用 Python 实现的小智语音客户端,旨在通过代码学习和在没有硬件条件下体验 AI 小智的语音功能。支持语音输入与识别,实现智能人机交互,提供自然流畅的对话体验。
py-xiaozhi 提供了跨平台的小智语音交互体验,不仅支持GUI界面,还提供命令行模式,适用于各种环境。通过简单易用的接口和丰富的功能,让用户能够方便地与AI进行语音和文字交流。
核心功能
AI语音交互
支持语音输入与识别,实现智能人机交互,提供自然流畅的对话体验
视觉多模态
支持图像识别和处理,提供多模态交互能力,理解图像内容
IoT 设备集成
支持智能家居设备控制,实现更多物联网功能,打造智能家居生态
联网音乐播放
基于pygame实现的高性能音乐播放器,支持歌词显示和本地缓存
语音唤醒
支持唤醒词激活交互,免去手动操作的烦恼(默认关闭需要手动开启)
自动对话模式
实现连续对话体验,提升用户交互流畅度
功能亮点
图形化界面与命令行模式
多种运行模式
- 提供直观易用的 GUI,支持小智表情与文本显示
- 支持 CLI 运行,适用于嵌入式设备或无 GUI 环境
- 跨平台支持,兼容 Windows 10+、macOS 10.15+ 和 Linux 系统
- 统一的音量控制接口,适应不同环境需求
安全稳定的连接
优化的连接体验
- 支持 WSS 协议,保障音频数据的安全性
- 首次使用时,程序自动复制验证码并打开浏览器
- 自动获取 MAC 地址,避免地址冲突
- 断线重连功能,保证连接稳定性
- 跨平台兼容性优化
系统要求
- Python: 3.8+
- 操作系统: Windows 10+, macOS 10.15+, Linux
- 依赖: PyAudio, PyQt5, pygame, websocket-client等
安装与使用
安装方法
- 克隆项目仓库:
bash
git clone https://github.com/huangjunsen0406/py-xiaozhi.git
- 安装依赖:
bash
pip install -r requirements.txt
- 运行应用:
bash
python main.py
配置说明
客户端支持多种配置选项:
- 语音输入/输出设备选择
- 音量控制
- 唤醒词设置
- 服务器连接设置
- GUI/CLI模式切换