晨的博客

大模型 RAG 本地知识库

**RAG（Retrieval-Augmented Generation）**是一种结合信息检索和生成模型的技术，通过从外部知识库中检索关键信息并传递给大模型，以提高生成质量和准确性。RAG的主要流程包括索引、检索和生成三个步骤：首先将知识库文档分割成块并编码成向量存储；然后根据用户问题的向量找到最相关的文档块；最后将这些块与用户问题一起输入到大语言模型中生成答案。 RAG相比直接使用大语言模型具有以下优势： 1. **时效数据**：利用外部知识库确保回答的时效性。 2. **私域数据**：支持特定领域的问题解答，缓解大模型幻觉。 3. **长期记忆**：通过参考知识库提高多轮交互回答的准确性。构建一个完整的RAG系统需要大语言模型（如DeepSeek-R1-Distill-Qwen-32B-Q4_K_M）、信息检索模型（如bge-m3用于语义向量表示）以及重排模型（如bge-reranker-v2-m3）等组件。此外，还需选择合适的RAG框架来连接和调度这些模块，例如轻量级的OpenWebUI或专业级的Dify。在实际部署中，可以依据项目需求选择适合的RAG架构和技术栈，对于小规模文本知识库或极简项目推荐使用OpenWebUI + Ollama组合，而大规模知识库或企业应用则更适合Dify + Ollama + Xinference方案。

智能答疑机器人

该项目基于大模型和RAG技术，构建了一个智能答疑机器人，为2000多名学员提供24小时全天候学习辅导。项目解决了教培资料管理难、学员提问模糊及讲师答疑效率低等问题。通过使用阿里云的DeepSeek-R1、Qwen3等大模型，并结合Xinference框架部署Embedding和Rerank模型，实现了高效的知识检索与匹配。多数据库联合（MySQL和Weaviate）存储结构化数据和向量信息，Dify平台则用于构建RAG应用，实现知识库管理和工作流编排。此外，还开发了批量生成扩展问、学员意图识别和多轮交互问答机制，进一步提升了答疑质量和效率。

教培数据分析与教学优化

该项目通过运用Python、MySQL、Excel等技术，构建了一套数据分析体系，旨在解决教培机构面临的学员薄弱环节识别难、财务与教学数据关联不足以及考试数据挖掘不充分等问题。具体措施包括：使用Python进行数据预处理和清洗，利用Pandas和Numpy分析学员成绩，识别共性薄弱点；借助Excel高级函数和数据透视表分析财务数据，优化课程设置；基于MySQL构建考试真题数据库，结合时间序列分析预测考点变化趋势，提高押题资料的精准度。最终，项目实现了学员通过率突破80%、押题资料精准度达92%的显著成效。此外，还涉及了PowerBI的数据建模和可视化看板搭建，进一步提升了数据分析的效率和实用性。

数理统计基础

本文详细介绍了统计学中的几个关键概念及其应用，包括集中趋势（如均值、中位数、众数、分位数）和离中趋势（如标准差、方差）。文章还讨论了数据分布的偏态与峰度分析方法，以及正态分布、卡方分布、T分布和F分布等重要概率分布。此外，文中还介绍了抽样理论及误差控制、数据分类（定类、定序、定距、定比）、单属性分析（异常值处理、对比分析、结构与分布分析）等内容。最后，文章讲解了多因子与复合分析方法，包括假设检验、方差检验、相关系数计算（皮尔逊与斯皮尔曼）、线性回归、主成分分析（PCA）及其奇异值分解（SVD）实现。这些内容对于理解和应用统计分析方法具有重要的指导意义。

MySQL基础

长文章暂无摘要，查看细分模块请点击文章内右侧目录

Python 基础

长文章暂无摘要，查看细分模块请点击文章内右侧目录