四、Orange 中的 SVM 应用
Orange 主要从 LIBSVM 包中嵌入了 SVM 来实现。对于回归任务,SVM 使用 这一不敏感损失在高维特征空间中执行线性回归。其估计精度取决于 和核参数的良好设置。
Orange 的主要参数调节界面如图 2-8-13 所示。
2-8-13 SVM 参数调节窗口
(一)SVM 类型
SVM 和 V-SVM 都是基于误差函数的不同最小化。
SVM: ——惩罚系数,适用于分类和回归任务。 c 值大,容易过拟合; c 值小,容易欠拟合。
—— -SVR 模型的参数,适用于回归任务,定义与真实值的距离,在该距离内没有惩罚与预测值相关联。
V-SVM: ——回归惩罚系数,仅适用于回归任务。
:V-SVR 模型的参数,适用于分类和回归任务,训练误差分数的上限,支持向量分数的下限。
SVM 回归算法称为支持向量回归或 SVR。支持向量回归是一种监督学习算法,用于预测离散值。支持向量回归使用与 SVM 相同的原理。SVR 背后的基本思想是找到最佳拟合线。在 SVR 中,最佳拟合线是点数最多的超平面。
(二)核函数的调参
核函数的调参如表 2-8-4 所示。
表 2-8-4 核函数的调参

gamma 越大,支持向量越少,gamma 越小,支持向量越多。
在“数值公差(Numerical tolerance)”中设置与期望值的允许偏差。在“迭代极限(Iteration
limit)”中设置允许的最大迭代次数。
【实例解析】
源数据
包含三个文件,adult-data.txt(训练集)、adult-test.txt(测试集)、adult-attribute.txt(数据来源及属性说明)。
数据属性及数据配置解析如下。
数据配置:
Split into train-test using MLC++ GenCVFiles (2/3,1/3 random).
48842 instances,mix of continuous and discrete (train=32561,test=16281)
45222 if instances with unknown values are removed (train=30162,test=15060)
Class probabilities for adult.all file
Probability for the label '>50K' :23.93% / 24.78% (without unknowns)
Probability for the label '<=50K' :76.07% / 75.22% (without unknowns)
特征属性(共 15 个):
age:continuous.
workclass:Private,Self-emp-not-inc,Self-emp-inc,Federal-gov,Local-gov,State-gov,Without-pay,Never-worked.
fnlwgt:continuous.
education:Bachelors,Some-college,11th,HS-grad,Prof-school,Assoc-acdm,Assoc-voc,9th,7th-8th,12th,Masters,1st-4th,10th,Doctorate,5th-6th,Preschool.
education-num:continuous.
marital-status:Married-civ-spouse,Divorced,Never-married,Separated,Widowed,
Married-spouse-absent,Married-AF-spouse.
occupation:Tech-support,Craft-repair,Other-service,Sales,Exec-managerial,Prof-specialty,Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving,Priv-house-serv,Protective-serv,Armed-Forces.
relationship:Wife,Own-child,Husband,Not-in-family,Other-relative,Unmarried.
race:White,Asian-Pac-Islander,Amer-Indian-Eskimo,Other,Black.
sex:Female,Male.
capital-gain:continuous.
capital-loss:continuous.
hours-per-week:continuous.
native-country:United-States,Cambodia,England,Puerto-Rico,Canada,Germany,Outlying-US(Guam-USVI-etc),India,Japan,Greece,South,China,Cuba,Iran,Honduras,Philippines , Italy , Poland , Jamaica , Vietnam , Mexico , Portugal , Ireland , France ,Dominican-Republic,Laos,Ecuador,Taiwan,Haiti,Columbia,Hungary,Guatemala,Nicaragua,Scotland,Thailand,Yugoslavia,El-Salvador,Trinadad&Tobago,Peru,Hong,Holand-Netherlands.
Orange 平台上机操作关键步骤如图 2-8-14所示。
① 设置四个核函数的学习器;
② 训练集及测试集部署合理;
③ 调整惩罚项及参数设置,调优学习器;
④ 数据集在线端配属正确,不报错;
⑤ 调用可视化模块,对支持向量进行展示。

图 2-8-14 SVM 在 Orange 平台流程
以上所有资源下载
。
