一、提取第一页数据
打开 Power BI,点击“获取数据”,弹出“Web”窗口,在 Web 的地址 URL 中输入网址https://book.douban.com/top250,点击确定,如图 3-4-1 所示。

图 3-4-1 输入网址
在弹出的导航器中并不能看到图书的列表数据。下面需要“使用示例添加表”,如图 3-4-2
所示。
图 3-4-2 使用示例添加表
“使用示例添加表”这个功能的含义:只要输入前面几个数据,系统会自动识别所要提取的数据类别,并自动将网页中的剩余同类数据填充进来;但如果输入的数据没有规律,或者不是该网页中存在的数据,系统将无法识别。
单击左下角的“使用示例添加表”,在弹出的窗口中,上方是网页预览,把需要提取的数据的前两个输入下方的窗口中,例如输入前两本图书的名字,系统会自动将该页中的同类数据填充完成,如图 3-4-3 所示。
图 3-4-3 “使用示例添加表”对话框
这样就把第 1 页中的 25 本图书名称提取出来了。
然后单击右上角“+”新增一列,依此类推,按照上述方式提取作者、出版社、出版时间、价格、评分、链接等相关信息。因为第一列图书名称已经确定,后面的列只要输入第一单元格,每本图书的同类数据会完成自动填充。由于网页数据并不都是结构化数据,有些数据是混杂在一起的,比如列 2 数据中就有作者、出版社、定价等信息,如图 3-4-4所示。
图 3-4-4 提取数据列表
在该网页中可见的数据都可以通过上述方式来提取,而不可见、但确实存在的信息如何提取呢?其实可以通过同样的方式来提取,只需在索引中找到第一本书的网址进行填充,系统就会自动将其他图书的详情页网址填充完整。
数据提取完之后,导航器会创建一个新表。接下来需要对表进行整理。在 Power BI 选项卡点击“转换数据”,进入 Power Query 对数据进行清洗,整理后的数据表如图 3-4-5 所示。
图 3-4-5 整理后的数据