基于pagerank算法的运用Hbase的搜索引擎(2)——获得关键字篇
提取每个页面的关键字,主要思路,因为p列族下的t列数据不是很准确这里可以使用每个页面入链接标签中的内容作为每个页面的主题内容即为关键字,即 把拔取下来的数据html中的< a> xxxx< /a> 的xxx作为搜索的关键字。代码如下:import java.io.IOException;import java.util.Arrays;import java.u...