四、Orange 中的 SVM 应用

Orange 主要从 LIBSVM 包中嵌入了 SVM 来实现。对于回归任务,SVM 使用 这一不敏感损失在高维特征空间中执行线性回归。其估计精度取决于 和核参数的良好设置。 Orange 的主要参数调节界面如图 2-8-13 所示。 2-8-13 SVM 参数调节窗口
(一)SVM 类型 SVM 和 V-SVM 都是基于误差函数的不同最小化。 SVM: ——惩罚系数,适用于分类和回归任务。 c 值大,容易过拟合; c 值小,容易欠拟合。 —— -SVR 模型的参数,适用于回归任务,定义与真实值的距离,在该距离内没有惩罚与预测值相关联。 V-SVM: ——回归惩罚系数,仅适用于回归任务。 :V-SVR 模型的参数,适用于分类和回归任务,训练误差分数的上限,支持向量分数的下限。 SVM 回归算法称为支持向量回归或 SVR。支持向量回归是一种监督学习算法,用于预测离散值。支持向量回归使用与 SVM 相同的原理。SVR 背后的基本思想是找到最佳拟合线。在 SVR 中,最佳拟合线是点数最多的超平面。
(二)核函数的调参 核函数的调参如表 2-8-4 所示。 表 2-8-4 核函数的调参
gamma 越大,支持向量越少,gamma 越小,支持向量越多。 在“数值公差(Numerical tolerance)”中设置与期望值的允许偏差。在“迭代极限(Iteration limit)”中设置允许的最大迭代次数。 【实例解析】 源数据Toolbar Image包含三个文件,adult-data.txt(训练集)、adult-test.txt(测试集)、adult-attribute.txt(数据来源及属性说明)。 数据属性及数据配置解析如下。 数据配置: Split into train-test using MLC++ GenCVFiles (2/3,1/3 random). 48842 instances,mix of continuous and discrete (train=32561,test=16281) 45222 if instances with unknown values are removed (train=30162,test=15060) Class probabilities for adult.all file Probability for the label '>50K' :23.93% / 24.78% (without unknowns) Probability for the label '<=50K' :76.07% / 75.22% (without unknowns) 特征属性(共 15 个): age:continuous. workclass:Private,Self-emp-not-inc,Self-emp-inc,Federal-gov,Local-gov,State-gov,Without-pay,Never-worked. fnlwgt:continuous. education:Bachelors,Some-college,11th,HS-grad,Prof-school,Assoc-acdm,Assoc-voc,9th,7th-8th,12th,Masters,1st-4th,10th,Doctorate,5th-6th,Preschool. education-num:continuous. marital-status:Married-civ-spouse,Divorced,Never-married,Separated,Widowed, Married-spouse-absent,Married-AF-spouse. occupation:Tech-support,Craft-repair,Other-service,Sales,Exec-managerial,Prof-specialty,Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving,Priv-house-serv,Protective-serv,Armed-Forces. relationship:Wife,Own-child,Husband,Not-in-family,Other-relative,Unmarried. race:White,Asian-Pac-Islander,Amer-Indian-Eskimo,Other,Black. sex:Female,Male. capital-gain:continuous. capital-loss:continuous. hours-per-week:continuous. native-country:United-States,Cambodia,England,Puerto-Rico,Canada,Germany,Outlying-US(Guam-USVI-etc),India,Japan,Greece,South,China,Cuba,Iran,Honduras,Philippines , Italy , Poland , Jamaica , Vietnam , Mexico , Portugal , Ireland , France ,Dominican-Republic,Laos,Ecuador,Taiwan,Haiti,Columbia,Hungary,Guatemala,Nicaragua,Scotland,Thailand,Yugoslavia,El-Salvador,Trinadad&Tobago,Peru,Hong,Holand-Netherlands. Orange 平台上机操作关键步骤如图 2-8-14所示。 ① 设置四个核函数的学习器; ② 训练集及测试集部署合理; ③ 调整惩罚项及参数设置,调优学习器; ④ 数据集在线端配属正确,不报错; ⑤ 调用可视化模块,对支持向量进行展示。

 图 2-8-14 SVM 在 Orange 平台流程

 以上所有资源下载Toolbar Image