否则标记信息直接形成了簇划分:但也有例外情况,参见13.6节,亦称“有导师学习”和“无导师学习”,更确切地说,是“未见示例”(unseen instance).现实任务中样本空间的规模通常很大(例如20个属性,每个属性有10个可能取值,则样本空间的规模已达1020).(xi,tJi)表示第t个样例,其中Yi∈y是示例茁t的标记,y是所有标记的集合,亦称“标记空间”(label space)或“输出空间”.若我们欲预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为“分类”(classification);若欲预测的是连续值,例如西瓜成熟度0.95、0.37,此类学习任务称为“回归”(.regression).对只涉及两个类别的“二分类”(binary classificatiori)任务,通常称其中一个类为“正类”(positive class),另一个类为“反类”(negative class);涉及多个类别时,则称为“多分类”(multi-class classification)任务,一般地,预测任务是希望通过对训练集{(Xl,可1),(x2,Y2),…,(Xm,ym))进行学习,建立一个从输入空间石到输出空间y的映射,:X卜÷y.对二分类任务,通常令y={-1,+1)或{o,1};对多分类任务,lyl>2;对回归任务,y=R,I为实数集.学得模型后,使用其进行预测的过程称为“测试”(testing),被预测的样本称为“测试样本”(testing sample).例如在学得,后,对测试例∞,可得到其预测标记可=,@)我们还可以对西瓜做“聚类”(clustering),即将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster);这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”“深色瓜”,甚至“本地瓜”“外地瓜”.这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础,需说明的是,在聚类学习中,“浅色瓜”“本地瓜”这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。