一、提取第一页数据

打开 Power BI，点击“获取数据”，弹出“Web”窗口，在 Web 的地址 URL 中输入网址https：//book.douban.com/top250，点击确定，如图 3-4-1 所示。

图 3-4-1 输入网址

在弹出的导航器中并不能看到图书的列表数据。下面需要“使用示例添加表”，如图 3-4-2 所示。

图 3-4-2 使用示例添加表

“使用示例添加表”这个功能的含义：只要输入前面几个数据，系统会自动识别所要提取的数据类别，并自动将网页中的剩余同类数据填充进来；但如果输入的数据没有规律，或者不是该网页中存在的数据，系统将无法识别。单击左下角的“使用示例添加表”，在弹出的窗口中，上方是网页预览，把需要提取的数据的前两个输入下方的窗口中，例如输入前两本图书的名字，系统会自动将该页中的同类数据填充完成，如图 3-4-3 所示。

图 3-4-3 “使用示例添加表”对话框

这样就把第 1 页中的 25 本图书名称提取出来了。然后单击右上角“+”新增一列，依此类推，按照上述方式提取作者、出版社、出版时间、价格、评分、链接等相关信息。因为第一列图书名称已经确定，后面的列只要输入第一单元格，每本图书的同类数据会完成自动填充。由于网页数据并不都是结构化数据，有些数据是混杂在一起的，比如列 2 数据中就有作者、出版社、定价等信息，如图 3-4-4所示。

图 3-4-4 提取数据列表

在该网页中可见的数据都可以通过上述方式来提取，而不可见、但确实存在的信息如何提取呢？其实可以通过同样的方式来提取，只需在索引中找到第一本书的网址进行填充，系统就会自动将其他图书的详情页网址填充完整。数据提取完之后，导航器会创建一个新表。接下来需要对表进行整理。在 Power BI 选项卡点击“转换数据”，进入 Power Query 对数据进行清洗，整理后的数据表如图 3-4-5 所示。

图 3-4-5 整理后的数据

一、提取第一页数据

Nuevos recursos

Descubrir recursos

Descubre temas