扣丁学堂大数据公开课实战

扣丁学堂大数据培训之倒排索引：

·关键字存在于一些文章或者页面中，顺序索引为这些关键字在某一文章中的数量和位置。

·倒排索引就是一关键字为单位，以关键字为主，将所有包含这些关键字的文章或者页面与该关键字关联，作为该关键字的索引。称为倒排。

·倒排索引常见思路：

·比如统计某个关键字在多个网页中存在的数量和存在的文件。

·在map中将关键字所在文件的文件名称和关键字拼接组成key，value直接使用1，使用combiner，做聚合操作，key值不变，将key_filename进行组合操作，计算出这样的组合key总数量，然后发给reduce。

·对于组合键如何发送给reduce，这里需要自定义分分区类。在分区类中不要使用默认的key_filename真个字符串hash，而是只提取key做hash.这样相同关键字就会被发送到同一个reduce。

·在reduce方，键会以key_filename方式出现，但是这个key_filename包含了来自所有map的。在reduce函数中聚合，然后将key,filename，counter拆分出来根据key输出到不同的文件中。后面可能会有相同关键字但是来自于不同网页这样的组合关键字，但是真实关键字一定会被发送到同一个reduce，所有不会存在多个reduce同时写同一个结果文件的情况。后面相同真实关键字到来后，即使与之前的相同真实关键字不连续，也会写到相同的结果文件中。

以上就是关于大数据开发倒排索引的详细介绍，希望对同学们学习大数据有所帮助，最后扣丁学堂在线为零基础学员提供从入门到精通大数据视频教程学习路线图，包含Linux&&Hadoop生态体系、大数据计算框架体系、云计算体系、机器学习&&深度学习等内容，扣丁学堂大数据学习群：209080834。

扣丁学堂大数据公开课实战

Similar Posts

发表评论取消回复

Similar Posts

发表评论 取消回复

发表评论取消回复