人工智能导论极速版

zstu 浙江理工大学 2023学年第1学期人工智能开卷考试期末复习

介绍

智力是学习、理解或处理新情况或困难情况的能力；
应用知识来操纵环境或抽象思考的能力

知识表示

命题逻辑

理论

命题是一个陈述句，并且必须能判断真假

扫描件_等值式_1

题目

谓词逻辑

理论

谓词描述关系

P(x) 或 M(x) 表示一个一元谓词逻辑

扫描件_定义2_3量词是描述个体常项与个体变项之_1

扫描件_第2章一阶逻辑_1

量词不能随意调换顺序

量词的优先级比逻辑联结词高

扫描件_定理2-2否定等值式_1

扫描件_定理24量词分配律_1

扫描件_一个谓词公式可以演算成与之等值的标准形式_1

前束范式运算前先换名

题目

产生式系统

框架系统

状态空间系统

知识图谱*

搜索

理论

题目

模型评估和选择

准确率误差过拟合

评估方法

性能指标

题目

机器学习

监督学习

回归

线性回归

逻辑回归

ϵ-ball 最近邻

K 近邻

确定 k 近邻算法（k-NN）中 k 值的大小是一个重要决策，因为它直接影响到算法的性能。没有固定的规则来选择最佳的 k 值，但是可以通过以下方法来确定：

交叉验证：最常用的方法是通过交叉验证，特别是 k 折交叉验证。在这种方法中，数据集被分成 k 个小组（folds）。算法在 k-1 个小组上训练，并在剩下的一组上测试。这个过程重复进行，每次选择不同的组作为测试集，然后取平均误差率。通过比较不同 k 值的误差率，可以选择最佳的 k 值。
误差率：对于分类问题，可以计算不同 k 值对应的误差率。误差率最低的 k 值通常会被选择。对于回归问题，可以计算均方误差（MSE）。
启发式方法：通常，k 值的选择应该是一个奇数（如果类别数为偶数），以避免决策的平局。一个常见的启发式方法是选择 (\sqrt{n})，其中 n 是训练样本的数量。
距离权重：考虑距离权重可以减少更远邻居的影响，这样可以在考虑更多的邻居（较大的 k 值）的同时减少噪声数据的影响。
问题特定知识：有时，对问题的了解可以帮助确定 k 的值。例如，在高度不平衡的数据集中，较大的 k 值可能有助于防止算法过分偏向多数类。
模型复杂度：较小的 k 值会导致模型复杂度高，可能过拟合数据；较大的 k 值会导致模型简单，可能无法捕捉数据结构。因此，需要找到一个平衡点。
可视化工具：有时候，将不同的 k 值的效果可视化，例如通过绘制误差率和 k 值的关系图，可以帮助选择一个好的 k 值。
规则化方法：当数据集非常大时，可以使用规则化方法来选择 k。例如，可以将 k 设置为训练样本数量的一个小百分比。