type
status
slug
date
summary
tags
category
icon
password
测评集
大模型常用评估数据集介绍
‣
常规测试集 such as
中文数据集:CEval、CMMLU、GaoKao
英文数据集:MMLU、Gsm8K
1. MMLU (Massive Multitask Language Understanding)
英文 综合测试
简介: MMLU是一个涵盖57个不同学科的多任务测试基准,包括数学、历史、法律、计算机 科学等领域,旨在评估模型的多学科知识和推理能力。模型通常在零样本(zero-shot)和少样本(few-shot)设置下进行评估。
数据来源:由Dan Hendrycks等人于2020年开发,数据来源于各种学术测试、专业资格考试和标准化测试。
排行榜展示:
Arithmetic Reasoning on GSM8K
数据标注
标注工作内容
大部分标注工作就是标出一个区域或者标出一个块
我们希望要标注的数据本身是结构化的,甚至大多数实际文本案例是直接用excel的
标注工作感受到很重要的一个就是要贴合(目标检测物要和标注框尽量贴合在一起)

Semantic Segmentation 语义分割
一个是“语义”这个词本身的含义,一个是分割的目标和定位。
“语义”的真正含义 (意义归属,高层次的、可被人类理解的类别或概念)
“语义”原本是语言学术语,指的是“meaning”,也就是“意义”。在人工智能和计算机视觉领域,“语义”被用来泛指“高层次的、可被人类理解的类别或概念”。
- 比如:像素点本身只是颜色、亮度等数据,但“语义”意味着这些像素在场景中“代表了什么”,例如“马路”“人”“车”“树”等。
- 这和“识别”是两回事,识别只是判别“是什么”,但“语义”强调的是“意义归属”,强调的是每个像素背后的“类别意义”。
分割的目标是“语义区域”
“分割”指的是把图片划分为有意义的部分。而“语义分割”强调,这些分割出来的区域,不是随意的,而是有明确意义的类别归属。
举例:
- “分割”本身可以指任意划分(比如把图片切成九宫格),那就是“图像分割”。
- “语义分割”要求每一块区域有“语义”——能用自然语言描述出来,是“马路”“车辆”这种可被理解的东西。
语义分割的本质,就是让机器像人一样‘看懂’每一个像素背后的含义,而不是仅仅把图像机械地切开。人工智能和计算机有他们自己理解这个世界的方式,我们要把我们理解这个世界的方式告诉他们。
label studio
这是一个可简单在本地部署的开源平台
扩展内容
LLM入门综述推荐论文
论文题目: A Survey of Large Language Models
github: https://github.com/RUCAIBox/LLMSurvey
arxiv: https://arxiv.org/abs/2303.18223
- Author:盛溪
- URL:https://tangly1024.com/article/%E8%AF%84%E6%B5%8B%E6%95%B0%E6%8D%AE%E9%9B%86
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts