type
status
slug
date
summary
tags
category
icon
password
选题注意事项
团队规制和选题原则
团队成员组成逻辑:满队7人
题目根据先到先得原则
申请时间
申请截止日期为 2025 年 8 月 4 日星期一上午 8 点(悉尼时间),截止时间为 2025 年 8 月 5 日星期二上午 8 点(悉尼时间)
(也就是明天上午一大早就可以去抢,填那个偏好表格)
填写表格要求
1.Student name, Student ID number, and Email address of all your group members(有错误信息会导致项目选择失败)
2.客户可能会拒绝任何不符合特定技能要求的团队
3.先入先得的规则取决于在线表格的完成时间
4.每个组只需要一位小组成员填写
List题目了解 前言
在快速浏览了前40个项目后,我对不同方向的技术深度和实际意义进行了分析。以下是我对几个有意义、不会太难但具有一定挑战性和趣味的项目的整理,以及我对难度的评估和推荐。
我比较推荐的是20,可以直接翻下去看看,项目感觉还不错,但有个小问题,Arc Intelligence Lab 这个lab在网上搜不到相关信息。
07 通过众包投票的方式改进社交媒体上的虚假新闻检测
卡耐基梅隆大学的项目,梦中情校出现了
增强众包式虚假新闻检测方法
- 方向:社交媒体分析、人工智能、众包解决方案
- 描述:该项目旨在通过众包投票的方式改进社交媒体上的虚假新闻检测。该方法的关键在于除投票外,还要分析评论内容,以增强判断的准确性。项目计划扩展现有的Chrome扩展插件,引入机器学习技术和情感分析来分析非投票用户的评论。通过对投票者和评论者背景、行为及信誉的分析,系统可以更加全面地评估新闻的真实性,为虚假新闻检测提供更精确和有上下文背景的判断。
- 技术:机器学习、数据分析、情感分析、社交媒体分析、自然语言处理(NLP)、网页开发。
1. 背景与动机
网络钓鱼(phishing)通过伪装成可信主体,在邮件、短信、电话乃至视频会议中诱骗用户泄露敏感信息。随着 LLM 和 Deepfake 技术的发展,钓鱼手段愈发逼真,即便是训练有素的安全专家也难以在第一时间做出正确判断。CS7 旨在为 Android 端用户提供一个 实时、跨模态 的钓鱼监测与干预助手,帮助用户在攻击得手前及时识别并采取基本防御措施,以减少“心理操纵”带来的风险。
2. 项目目标与范围
- 多模态监测:
- 文本(Email、SMS、社交消息)
- 语音(电话呼入)
- 视频(Zoom 等视频会议)
- 两级分析架构:
- 本地轻量分析器:在用户设备上对来信/通话/视频流做快速 triage,判断钓鱼风险是否可忽略;
- 云端深度分析器:当本地判断为“可疑”时,将原始数据或特征上传到云端已有的全面分析服务,获取最终判定。
- 实时告警与干预:
- 在检测到可疑行为时,以打断式通知(Toast、弹窗、振动或语音提示)提醒用户;
- 推荐并执行基础防护操作(如阻止链接、挂断、标记垃圾邮件等)。
- 隐私配置:
- 支持用户自行排除“信任联系人”或特定应用渠道,确保隐私与误报管理。
- 用户与权限管理:
- 提供细粒度的权限设置与覆盖机制,允许用户在必要时手动覆盖拦截。
- 模块化设计:
- 本地/云端分析器可独立替换升级,未来可接入更多 AI 检测组件或新兴钓鱼模式。
3. 数据与资源
- 客户端无专门数据集,开发者需自行收集或模拟:
- 各类钓鱼邮件样本、正常邮件;
- 电话录音(vishing);
- 视频会议片段(含 Deepfake 示例);
- 云端分析器 由已有服务提供,可通过 REST/GRPC 接口调用;
- 第三方 API/库:文本 NLP(spaCy、Transformers)、语音识别(Kaldi/Google STT)、视频流处理(OpenCV/MediaPipe)。
4. 技术路线与系统架构
- 本地采集与预处理
- 拦截系统通道:SMS、邮件 Intent;电话录音 Hook;Zoom SDK 或屏幕录制抓帧;
- 对文本/音频/视频做轻量特征提取(关键字扫描、情绪基线、简单视觉异常检测)。
- 本地轻量分析器
- 文本模块:基于小型 Transformer 或规则引擎快速分类;
- 语音模块:实时转写后交给文本模块,或直接用声学模型判定语音异常;
- 视频模块:抽帧检测脸部替换痕迹或 OCR 链接检测。
- 云端深度分析器接口
- 当本地模块判定“可疑”时,打包样本与元数据发往云端;
- 云端返回更高精度的“真/假”及风险评分。
- 告警与干预
- 根据风险阈值触发多种形式通知:可配置接入系统通知、振动、语音播报;
- 调用系统 API 执行防护动作(拦截短信、挂断电话、阻断链接等)。
- 配置与管理界面
- 用户可在 App 设置中管理:信任名单、阈值灵敏度、通知方式、权限开关;
- 管理员模式下可查看告警日志与覆盖操作记录。
- 模块化与扩展
- 本地/云端分析器各自以插件形式加载,接口统一,方便未来替换或升级。
5. 预期交付成果
- Android 前端应用(可安装 APK),具备上述所有功能模块;
- 本地分析器源码(Java/Kotlin + Python/ONNX 模型);
- 调用云端分析 API 的集成示例;
- 系统设计文档:架构图、接口说明、可配置项详解;
- 用户手册:安装、配置、使用和故障排查;
- 测试报告:功能覆盖、性能(延迟/资源占用)与误报/漏报率评估。
6. 核心挑战与技能需求
核心挑战 | 技术要点 | 所需技能 |
多模态输入实时处理 | 低延迟的文本/语音/视频流拦截与预处理 | Android 开发、媒体流处理(Audio/Video) |
本地分析器轻量化 | 在移动端部署 Transformer/ML 模型,确保实时性与电量/内存可控 | ONNX/TFLite 模型优化、边缘 ML |
云端协同与切换策略 | 本地 vs 云端判定阈值设定,网络异常或延迟时的安全回退 | REST/GRPC 调用、离线容错设计 |
用户隐私与权限管理 | 动态配置信任渠道、敏感权限申请与覆盖 | Android 权限系统、UI/UX 设计 |
高可靠告警与干预逻辑 | 弹窗、振动、系统广播跨应用中断式通知;挂断、拦截动作调用 | Android 通知系统、Telephony API |
模块化与可扩展 | 插件化框架设计,分析器热插拔与版本管理 | 软件架构设计、Gradle/CI 管道 |
OreFox Ai Limited 是一家位于澳大利亚布里斯班的创新型矿业科技公司,成立于 2018 年。该公司专注于利用人工智能(AI)和机器学习技术,推动矿产资源勘探的数字化转型,特别是在关键矿产(如铜、金等)的发现和开发方面。
09-13都是他们的项目,除easymapper外都是ai项目,但是跟矿产强相关,感觉涉及到地质方面我们不够熟悉,而且要补大量课外知识,感觉不是很有用。
但是LawBot这个项目还是不错的,帮他们解读立法文件,做起来应该会比较有意思。
13 一款AI驱动的法律助手
LawBot
- 方向:人工智能、自然语言处理(NLP)、法律科技
- 描述:LawBot 是一款AI驱动的法律助手,旨在帮助个人和组织解读复杂的立法文件。通过结合自然语言处理(NLP)和机器学习模型,LawBot 能够自动分析、解读并总结法律文本,提供易于理解的合规建议和风险分析。用户可以通过上传文件获得法律条款、义务、合规要求的简洁总结,并使用问答系统进行动态法律咨询。
15 识别和解析澳大利亚的交通标志的计算机视觉模型
Australian Traffic Sign Recognition Vision Model
- 方向:计算机视觉、人工智能、城市科技
- 描述:该项目的目标是开发一个计算机视觉模型,用于识别和解析澳大利亚的交通标志,特别是停车标志。该系统将结合图像采集、数据标注和模型微调,支持智能停车或城市规划等应用。主要步骤包括数据收集和标注、对澳大利亚常见交通标志的研究和映射、模型微调和文本解析
- 理由:尽管这个项目涉及计算机视觉,但目标相对明确和简单:识别和解析澳大利亚的交通标志,特别是停车标志。系统可以基于已有的预训练模型(如YOLO)进行微调,开发出一个比较直接的目标检测系统。任务分解较为清晰,且技术路线有现成的开源工具支持(如YOLO、DETR等)。
- 技术复杂性:这个项目的主要挑战在于数据收集和标注,但相对于其他项目,技术实现较为成熟,并且在计算机视觉领域已有很多类似的解决方案。因此,相对来说难度较低。
17 agent项目,但是难度较大 开发一个结构感知的编码代理
Semantic Understanding of Code Structure and Architecture for Context-Aware Coding Agents
- 方向:人工智能、自然语言处理、软件开发
- 描述:该项目致力于开发一个结构感知的编码代理,能够理解和利用软件架构作为上下文信号来优化编码任务。项目包括构建代码结构文档智能化管道,提取文件树、函数定义和模块依赖,并结合机器学习模型进行代码上下文的理解和任务辅助
- 理由:这个项目涉及到理解和分析软件架构、代码结构以及如何将这些信息有效地传递给AI编码代理。它要求深入理解大型代码库、软件架构模式(如MVC)、以及如何结合机器学习和自然语言处理技术来生成智能的编码助手。此外,还需要设计一个能够理解代码上下文、自动提取相关代码片段并加以生成的系统,这在技术实现上非常具有挑战性。
- 技术复杂性:涉及到代码分析、知识图谱构建、LLM(大语言模型)在编码中的应用等,技术难度较大,尤其是在处理复杂的代码库和确保系统的可扩展性方面。
- 团队要求:这个项目需要具备深厚的软件工程背景、机器学习和NLP技术知识,因此较为困难。
20 agent系列,比较符合需求,而且难度适中 开发一个个性化、上下文感知的AI助手
Agentic AI Personal Assistant
- 方向:人工智能、任务自动化、对话系统
- 描述:这个项目旨在开发一个个性化、上下文感知的AI助手,超越传统的任务机器人。该助手能够处理日常任务(如日程安排、信息整理和提醒),并且能够记住用户的长期偏好和目标,提供个性化、情感丰富的对话。项目结合了长期记忆、情感适应、主动规划等功能,并可以集成多种API以执行自动化任务。
- 理由:虽然该项目涉及多个模块(如记忆建模、情感适应、任务自动化等),但是它的目标比较明确,主要聚焦于开发一个具有长期记忆和上下文感知的个人助手。可以通过已有的RAG和LLM架构来实现,且其任务更多是集成和优化现有技术。只要熟悉任务自动化、LLM和API集成的开发,就可以比较顺利地推进项目。
- 技术复杂性:尽管该项目涉及多个技术模块,但它的实现更偏向于将现有的工具和技术进行整合,技术难度相对较低,适合那些有经验进行实际系统开发的学生。
22 情感推理并生成情感共鸣的语音交互代理
Emotional Intelligence Reasoning and Response with Speech Generation and CoT Fine-tuning (CS22)
- 方向:情感计算、对话系统、语音生成
- 描述:该项目聚焦于构建一个能够进行情感推理并生成情感共鸣的语音交互代理。系统将通过LLM生成的文本与情感向量结合,利用情感驱动的语音合成技术(如TTS)来生成富有情感的语音响应。此外,项目还涉及情感记忆建模和个性化代理设计,以增强交互中的情感一致性和响应性
- 理由:这个项目的目标是开发一个具有情感推理和情感语音生成的对话代理,虽然涉及到情感计算和语音生成技术,但相对于其他项目,其任务更集中在现有技术(如TTS和情感向量)的应用和扩展。虽然它具有一定的复杂性,但与从头开发新模型或架构相比,技术实现较为成熟,因此相对容易。
- 技术复杂性:项目可以通过现有的情感计算、语音生成和LLM技术实现,技术难度适中,但挑战更多集中在如何将情感和个性化结合到语音生成中。
后续 不太推荐,感觉学校的项目不太好
往后的部分到40,基本都是学校计算机学院的项目,很多设计框架设计与改进,感觉不是很好的样子
- 推荐系统方向:CS24 和 CS25 这两个项目专注于不同技术的推荐系统(NLP和图神经网络),重点在于如何利用先进的算法和数据处理提高推荐的精确度和个性化。
- 视觉与语言结合方向:CS26 通过大规模视觉语言模型进行对话式推荐,结合计算机视觉和语言理解,开发更加智能的推荐系统。
- 基因组和单细胞数据分析:CS27、CS28 和 CS29 这些项目涉及生物医学领域,专注于高维数据分析、基因组数据建模和细胞分类,利用机器学习技术提升生物学研究中的数据处理与分析能力。
快速落地&跨学科:CS46 “Pollinator–Flower Detection” 和 CS47 “Pollen Grain ID”
- 如果你喜欢生态+AI 交叉,能快速积累数据处理与弱监督经验;
- 工程量适中、挑战在于标注与模型鲁棒性。
CS46 “Automated Detection of Pollinator–Flower Interactions from Citizen Science Images”
核心工作
- 收集并清洗公民科学(Citizen Science)照片里的「授粉者 — 花朵」对。
- 基于检测模型(如 Faster R-CNN/YOLO)识别图中昆虫与花卉实体,并做「交互关系」分类。
- 可能扩展时序或空间分析,挖掘不同物种/环境下的授粉模式。
技术亮点 & 挑战
- 数据标注量大且噪声高,需要半监督或弱监督策略。
- 如何准确区分相似物种及交互动作,模型需兼顾检测精度与推理速度。
- 后续可联动生态学分析,具有跨学科价值。
CS49比较有价值
最前沿&科研价值:CS49 “RAG-VL-ReID”
- 破界地把 RAG 多模态生成引入 ReID,不仅做检索,更能“生成解释”;
- 系统架构设计复杂,但成果可在智能交通、监控审查等场景产生较大影响。
CS49 “RAG-VL-ReID: Retrieval-Augmented Generation for Vehicle Re-Identification Using Vision-Language Models”
核心工作
- 构建一个多模态 RAG(Retrieval-Augmented Generation)系统,利用视觉-语言模型(如 CLIP/Bear)辅助车辆重识别。
- 在检索阶段用视觉检索锁定候选,再用生成式模型(LLM+Prompt)输出解释性 re-id 结果或报告。
- 设计端到端评测:检测精度、检索召回与生成质量(可解释性指标)。
技术亮点 & 挑战
- 将 RAG 思路引入 ReID,不止“说对是谁”,还能“说明为何匹配”。
- 多模态融合、系统延迟和大模型成本控制是主要难点。
- 对智能交通、执法/监控系统都有深远影响。
1. 背景与动机
- 传统车辆重识别(Re-ID)多依赖视觉特征或手工属性,易受角度、遮挡、光照变化影响;
- 视觉-语言模型(如 CLIP、BLIP)具备跨模态理解力,但现有工作仅用于静态嵌入比对,未发挥生成模型在“解释”与“增强检索”上的潜能;
- 检索增强生成(RAG)已在 NLP 知识密集型任务中取得突破,结合 VLM 有望提升 Re-ID 的准确性与可解释性。
2. 项目目标
- 构建 RAG-VL-ReID 框架:对输入的车辆图像,先从大型图库(如 VeRi-776/VehicleID/VERI-Wild)检索视觉相似样本,再由生成模型输出自描述性 caption,作为跨模态匹配的判别 representation;
- 支持零样本/跨域重识别,且能够用自然语言解释为什么将一辆车与候选样本匹配。
3. 数据集与资源
- VeRi-776:5 万+ 图像,776 个车辆 ID,含属性标注;
- VehicleID:20 万+ 监控图像;
- VERI-Wild:高场景多样性,用于跨域泛化测试;
- 预训练模型:CLIP、BLIP、LLaVA;
- 检索增强方法论文:RAG、REALM、CLIP-ReID 等。
4. 技术路线
- 视觉检索模块:利用 CLIP embedding 索引图库,快速召回 N 个最相似车辆样本;
- 生成增强模块:将检索结果拼接为 RAG 输入,调用 LLM(如 LLaVA)生成带有关键属性描述的 caption;
- 跨模态匹配:将原图与生成 caption 共同映射到联合空间,计算相似度并排序输出;
- 可解释性评估:设计评价指标(检索准确率+文本解释质量),并进行定量/定性分析。
5. 交付成果
- 完整代码库(包含检索、生成、评估三大模块);
- 技术报告+实验结果:包括各数据集上检索准确率、跨域泛化力、生成解释质量;
- 可选演示:用户界面或 Jupyter Demo。
6. 核心挑战与所需技能
- 多模态融合:高效又精确地在视觉检索与文本生成间无缝衔接;
- 系统延迟控制:RAG 与 Vision-Language 模型均较重,需优化推理流水线;
- 解释性量化:针对自然语言解释设计合理自动/人工评估标准;
- 技能要求:机器学习、NLP/RAG 框架、Python 算法实现、跨模态检索。
CS52 “Precision Agriculture 的 Open-Vocabulary 检测”
主要任务
- 以 OWL-ViT 等 OVOD(Open-Vocabulary Object Detection)为基础,在农业领域做域自适应预训练(用 ALive 数据集对比视觉-语言对齐)。
- 在 PlantDoc、Agriculture-Vision 等农业检测数据集上微调检测头,实现对病虫害、杂草、设备等“零样本”定位。
- 探索如何利用多光谱(RGB+NIR)提升在复杂环境下的检测鲁棒性。
交付成果
- 针对农业场景的 OVOD 流水线+源码
- 多光谱检测性能评测报告
技术难点
- 农业专用大规模图文对齐预训练
- 小样本/零样本检测在非自然场景的泛化
- 多光谱数据融合与标注稀缺问题
所需技能
- 计算机视觉(Object Detection、Vision-Language)
- 多模态预训练与域自适应微调
- 农业遥感/多光谱图像处理
1. 背景与动机
- 授粉者-花朵交互对生态系统和农业至关重要,但传统人工标注耗时费力;
- 公民科学平台(如 iNaturalist)已累积海量含昆虫和植物的野外照片,亟需自动化分析工具,将图像转化为科研数据。
2. 项目目标
- 开发端到端软件管线,自动从用户上传的昆虫-花朵图像中:
- 检测并分类花卉物种;
- 检测并分类授粉者类型(蜜蜂、蝴蝶、甲虫等);
- 识别两者的空间“交互”关系(如接触、距离)并输出结构化记录。
3. 数据集与资源
- iNaturalist 公开 API:地理标注的昆虫/植物观测照;
- 客户方可能提供额外标注数据集;
- 常用预训练模型:Faster-R-CNN、YOLO 系列;也可探索 Mask-RCNN 进行实例分割。
4. 技术路线
- 数据预处理:下载并清洗 iNaturalist 图片,进行初步标注清洗与增强;
- 实体检测:分别训练或微调目标检测模型,识别花朵区域与昆虫区域;
- 交互关系识别:基于检测框的空间关系(IoU、距离阈值)或引入图神经网络,判别“访问”或“非访问”状态;
- 可视化与接口:开发前端或命令行工具,支持批量上传、结果展示、导出 CSV/JSON。
5. 交付成果
- 一个可部署的软件包或 Web/桌面应用,具备图像批处理与结果可视化;
- 技术文档:安装/使用指南、模型训练与评估说明;
- (可选)交互式 Demo 或 Docker 容器。
6. 核心挑战与所需技能
- 弱标注与半监督:iNaturalist 数据标注不均且噪声大,需设计清洗或弱监督机制;
- 小物体/遮挡检测:昆虫体型小、常被花瓣遮挡,对检测精度考验高;
- 跨领域协作:项目负责人无软件背景,需自主设计友好接口并保持高文档质量;
- 技能要求:计算机视觉(目标检测、关系推理)、Python/Web 开发、用户界面设计。
CS53 “Mixture-of-LoRAs 多任务微调”
主要任务
- 在解码器-only 的 LLM 架构里,训练多个 LoRA “专家模块”(domain-specific adapters)并设计路由器,让模型根据输入动态选择合适的 LoRA。
- 提出改进路由策略(超越简单分类器,可引入无监督或元学习方法),减少任务干扰。
- 研究如何合并/聚类相似 LoRA 专家以缩减参数量并降低训练成本。
交付成果
- MoA(Mixture-of-LoRAs)改进版实现+源码
- 对比实验:多任务性能、推理速度与参数开销评估报告
技术难点
- 路由算法设计——要兼顾准确率与灵活度
- 无监督/聚类方法在 LoRA 空间的应用
- 多任务训练中的任务干扰控制
所需技能
- 深入理解 LoRA 微调原理
- 路由机制与无监督学习方法
- 大规模多任务训练与评测
CS55 “Agentic Multimodal RAG”
主要任务
- 设计一个“智能体”(agentic)框架,能主动规划多步科研检索与推理流程(如:搜论文→抽取图表→对比方法)。
- 整合多模态检索模型(CLIP/BLIP+SciBERT),分别从文本、图像与图注中抓取科学信息。
- 基于检索内容,生成结构化科研产出(mini-publication:标题、摘要、引言、假说等)。
- 构建评测:既要用自动指标检测“关联度”“新颖性”,也要做人工 in-the-loop 验证并发布基准数据集。
交付成果
- 完整的 RAG-agent 原型系统+源码
- 报告+开源 benchmark for multimodal scientific reasoning
技术难点
- Agent 级别的多步规划与调度
- 跨模态信息融合与检索精度
- 输出生成的可解释性与科学严谨性
所需技能
- LLM/RAG 系统设计、Prompt 设计
- 多模态预训练模型(CLIP/BLIP)和 SciBERT 应用
- 系统工程/框架搭建
CS56 “Explainable Fake Image Detection” 假图片检测
- CS56 “Explainable Fake Image Detection”
- 社会需求强烈:伪造内容泛滥,Explainability + 多模态是双热点;
- 工程可控:可以基于现有模型快速集成和评测。
背景与动机
随着生成式 AI 工具(如 DALL·E、Stable Diffusion)快速普及,合成图像在新闻/社交媒体中泛滥,单纯的“真/假”标签已难满足信任需求。CS56 旨在构建不仅能 检测 伪造,还能 解释 判定依据的多模态系统。
目标与范围
- 在 FakeBench 数据集(真人+AI 生成图像,附自然语言解释)上,完成二分类检测:真/假;
- 生成双向解释:
- 效应→原因(Given “假”,解释为何是假)
- 原因→效应(连贯地推理出“假”的结论);
- 深入挖掘图像纹理、阴影、透视等细微“造假痕迹”。
技术路线
- 数据预处理:加载 FakeBench,清洗图像+文本对;
- 特征提取:使用 CLIP、BLIP、Vision-Language Transformer 提取视觉–文本联合表征;
- 分类检测模块:Fine-tune多模态分类器判断真/假;
- 解释生成模块:通过 prompt-based VQA 或 LLM+视觉提示,输出两种解释范式的自然语言说明;
- 评估体系:准确率+BLEU/ROUGE+LLM-assisted 相关性评分。
交付成果
- 完整代码库(训练/推理/评估);
- 技术报告(检测效果、解释质量分析);
- (可选)Notebook Demo。
核心挑战 & 技能需求
- 多模态融合:精准对齐图像与文字线索;
- 解释质量:平衡可读性与专业度;
- 性能优化:保证推理延迟可接受;
- 必备技能:CV(目标检测/特征提取)、NLP(VQA、Prompt 设计)、PyTorch/Transformer 框架经验。
CS62 “Multilingual Over-Refusal Benchmark”
- CS62 “Multilingual Over-Refusal Benchmark”
- 安全+公平视角:与 LLM 安全研究紧密结合,可产生高影响力数据集;
- 门槛适中:标注和分析流程明确,更侧重数据工程与统计分析。
背景与动机
LLM 为安全做了“拒绝”保护,却常常 过度拒绝 无害请求(over-refusal),尤其在多语场景下更会误伤用户体验。CS62 打算从 多语言视角 系统量化这一现象,为 LLM 安全调优提供可复现的基准。
目标与范围
- 调研现有 over-refusal 研究;
- 设计并构建涵盖中/英/西/阿拉伯等 多语种 的“拒绝测试集”(含诱导性问答和正常问答);
- 调用 GPT-4.1、Gemini 2.5 Pro 等 API,测算各模型在不同语言上的拒绝率与误拒率;
- 输出可视化对比与优化建议。
技术路线
- 数据集设计:收集不同语言的常见问答与敏感场景,引入对照组与干扰组;
- 模型评测脚本:统一接口批量调用各大 LLM,记录拒绝/合规响应;
- 指标计算:拒绝率 (Reject Rate)、误拒率 (False Reject Rate);
- 分析报告:多语种间的敏感性差异及降低误拒的 prompt 设计要点。
交付成果
- 完整的 多语种 over-refusal 测试集;
- 评测脚本+可视化仪表盘;
- 优化建议文档。
核心挑战 & 技能需求
- 语言覆盖:保证多语测试数据的质量与文化适配;
- API 并发与费用:大规模调用需控制成本;
- 分析深度:找到语言/模型差异背后的机制;
- 必备技能:NLP(多语处理)、Python 脚本自动化、数据可视化。
CS63 “AI with a Better Memory”
- CS63 “AI with a Better Memory”
- 前沿性:对话与助理类 AI 核心痛点,研究空间大,能快速迭代原型;
- 落地广泛:学术和产业界都在抢这个课题,技术积累共享度高。
背景与动机
当对话变长、问题复杂时,LLM 容易“忘上下文”或“跨步思考”失效。CS63 拟为 LLM 引入外部记忆系统,提升多轮对话连贯性与多步推理能力。
目标与范围
- 调研现有记忆增强与多步推理方法;
- 设计几种记忆机制(例如:检索式记忆库、分层摘要、图数据库);
- 与 GPT-4.1/Gemini 2.5 Pro 集成,比较“加记忆”前后在长对话和链式推理任务上的表现;
- 总结记忆模块在精确度、连贯性、响应速度上的 trade-off。
技术路线
- 记忆模块原型:实现基于向量检索的短期记忆与基于图谱的长期记忆;
- 接口适配:搭建中间层,拦截对话、查询记忆、拼接 prompt;
- 基准测试:设计多轮对话集(如问答游戏、编程推理),使用自动/人工评价指标;
- 性能对比:耗时、token 成本、上下文一致性评分。
交付成果
- 记忆增强层源码与 API 接口;
- 实验报告(定量指标+对话示例);
- 技术文档(架构说明、部署指南)。
核心挑战 & 技能需求
- 系统集成:无缝衔接 LLM API 与外部存储;
- 一致性评估:设计合理的上下文保留与连贯性打分;
- 性能权衡:内存检索速度 vs. 响应延迟;
- 必备技能:NLP、向量检索、数据库/知识图谱、API 开发。
CS76
最前沿 LLM+检索/个性化 → CS76
既能深挖 RAG 系统架构,也可做端到端借口与微调,Demo 友好,创新性与可交付性兼备。
1. 背景与动机
在教育、客户服务、医疗等领域,不同用户(学生、客户、患者)有各自独特的背景知识、理解偏好和信息需求。通用 LLM 往往忽略个性化,导致回答过于泛泛或“跑题”。CS76 的核心思路是:
- 通过领域微调(Domain-Specific Fine-Tuning),让 LLM 掌握特定领域(如法律、金融、健康教育等)的专业术语与知识结构;
- 结合检索增强生成(Retrieval-Augmented Generation, RAG),在对话时动态检索领域内权威文档,为模型提供最新且精准的上下文。
2. 目标与关键问题
- 目标:构建一个“问我专业问题——我给出个性化、上下文相关的精准回答”系统,并验证其对用户理解和满意度的提升。
- 关键研究问题:
- 域内微调后,LLM 如何更好地满足不同用户的学习需求?
- RAG 在提升回答准确性与相关性中发挥何种作用?
- 个性化 LLM 干预对用户查询行为、理解深度与保留率有何影响?
3. 数据收集与预处理
- 素材来源:
- 来自目标用户群体的个性化学习资料或对话日志(讲义、FAQ、案例分析等);
- 公开或合作机构提供的领域文档库(论文、技术白皮书、标准手册)。
- 数据制作:
- 清洗:去除冗余、非结构化内容,保证可读性与标注一致性;
- 增强:设计不同难度梯度与交互场景,标签化用户背景信息(如先验知识水平)。
4. 技术路线
- 领域微调(Fine-Tuning)
- 采用 PEFT/LoRA 等轻量化微调方法,在预训练大模型(如 GPT-4.1/Claude)上注入领域语料;
- 强调“清晰简明”的解释风格与分层次支持策略。
- RAG 流水线集成
- 建立向量数据库(FAISS/Milvus)存储领域文档嵌入;
- 对用户提问动态检索 top-k 相关段落,将检索结果与原始 prompt 拼接后输入 LLM。
- 个性化上下文管理
- 维护用户档案(历史对话、偏好标签),在生成阶段注入个性化标记;
- 对多轮对话中的“遗忘”进行摘要或记忆检索,保证连贯性。
- 端到端原型与接口
- 搭建 Web 或命令行演示界面,支持上传用户资料、实时交互;
- 编写 API 文档,便于后续部署与扩展。
5. 用户研究与评价指标
- 用户实验:邀请目标群体(如专业学习者)进行 A/B 对照:
- 对照组:使用“未微调+无 RAG”模型;
- 实验组:使用“微调+RAG”系统。
- 定量指标:
- 理解提升:通过前后测题目正确率差值;
- 响应相关度:基于人工或自动化打分(如 BLEU/Rouge)。
- 定性反馈:
- 用户满意度问卷;
- 访谈洞察,收集对解释深度、交互流畅度的主观评价。
6. 交付成果
- 代码与文档:包括微调脚本、RAG 集成流水线、接口说明;
- 数据集与检索库:清洗后领域语料与向量索引;
- 实验报告:涵盖模型性能、用户实验结果及改进建议;
- Demo 系统:可在线或本地运行的交互原型。
7. 核心挑战与所需技能
挑战 | 说明 | 技能需求 |
领域适配 | 保证微调后不过拟合、且能生成高质量专业内容 | LLM 微调(PEFT/LoRA)、Prompt 设计 |
检索时效 vs. 延迟 | RAG 检索带来上下文精准度,但也增加响应延迟 | 向量检索(FAISS/Milvus)、系统优化 |
个性化上下文管理 | 多轮对话与用户档案管理,防止遗忘与信息冗余 | 对话系统设计、记忆模块开发 |
用户实验与量化评估 | 设计合理 A/B 实验并收集多维度反馈,保证结论可信度 | 实验设计、统计分析、可视化 |
- Author:盛溪
- URL:https://tangly1024.com/article/5703%E9%A1%B9%E7%9B%AE%E5%88%86%E6%9E%90
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts