Python:批量提取文本中的共性部分并转化为正则表达式
前言有一种竞赛需要:有5万条html文本,是由30个模板结合一个地址库结合起来的,每个模板里都有5-7个位置可以选择插入或不插入地址,地址分为6级:province(省)、city(市)、district(区)、township(镇)、street(街)、street_num(街号)。因为模板里分为right(真实的辅助地址)、wrong(错误的干扰地址)和main(street+street_num的主要地址)三种位置,所以需要对地址进行提取。常规的做法是将地址库进行全文检索,并根据某种规则判