基于Python怎样实现索引排序和搜索,代码是什么
Admin 2022-07-06 群英技术资讯 530 次浏览
今天,我上的课,学了索引排序与搜索。让我们用Python实现,觉得有点意思就跟大家分享一波。
代码如下图:
import requests import re def News_Spider():#定义一个爬虫 url = 'https://news.sina.com.cn/'#url地址,新浪新闻 headers = {#请求头 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36' } response = requests.get(url,headers,verify=False)#针对https,采用verify=False response.encoding='utf-8'#编码方式 html = response.text#获取页面源代码 #print(html)#打印源代码 reg = 'target="_blank">(.*?)</a>'#设置规则 content = re.findall(reg,html)#从页面源代码中筛选 ls = []#定义一个空列表 for c in content: if '<' in c: continue else: if len(c) > 6 and '客户端' not in c: #print(c) ls.append(c) else: continue docu_set = {}#定义一个字典 for l in range(len(ls)): docu_set['d{}'.format(l+1)] = ls[l]#格式化方法,从1开始 return docu_set def change_set(): all_words = []#定义一个空列表用于存储 docu_set = News_Spider() for i in docu_set.values(): cut = i.split()#分词 all_words.extend(cut)#添加分词 set_all_words = set(all_words) return set_all_words #print(set_all_words) def reverse_index(): invert_index = dict()#定义空字典 set_all_words = change_set()#将返回值传递给变量 docu_set = News_Spider() for b in set_all_words: temp = [] for k in docu_set.keys(): field = docu_set[k] split_field = field.split() if b in split_field: temp.append(k) invert_index[b] = temp print(invert_index) return invert_index def Select(): docu_set = News_Spider() invert_index = reverse_index() news = [] # for i in invert_index: # print(invert_index[i]) while True: Find = str(input('请输入查找内容:')) if Find == '不查了': break for Contetnt in invert_index:#循环每一个键 if Find in Contetnt:#如果输入在键的字符串中 Result = invert_index[Contetnt]#循环出字典中每一个对应的值 #print(Result) for r in Result:#循环每一个值 if r in docu_set.keys():#如果值在字典中 news.append(docu_set[r])#列表增加字典docu_set的值 print(docu_set[r])#打印输出字典的值 else: continue else: if Find not in Contetnt: news.append('很抱歉,没有找到更多内容!!') #news = set(news) for n in news: if '很抱歉' in n: print(n) break else: print(n) def main_function():#定义一个主方法 News_Spider() change_set() reverse_index() Select() if __name__ == '__main__':#程序入口 main_function()
运行结果如下图:
关于代码的解释,我写在注释中了。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
假如有这样一个问题给你一个整数数组 coins ,表示不同面额的硬币以及一个整数 amount ,表示总金额,计算并返回可以凑成总金额所需的最少的硬币个数,接下来通过示例代码给大家介绍Python零钱兑换问题,感兴趣的朋友一起看看吧
这篇文章主要介绍了python之OpenCV的作用以及安装案例教程,本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下
这篇文章主要介绍了Python pluggy模块的用法,pluggy提供了一个简易便捷的插件系统,可以做到插件与主题功能松耦合,pluggy 是pytest,tox,devpi的核心框架文中通过代码示例演示给大家详细介绍,需要的朋友参考下吧
这篇文章主要为大家介绍了通过Python为图像添加下雪特效,文中的示例代码讲解详细,对学习Python有一定的帮助,感兴趣的小伙伴可以了解一下
路径字符串磁盘将数据写入各个扇区中,使数据分散在各个未使用的块上来储存数据。并用一套文件系统对数据进行管理,微观上,文件系统使用INode结构体来记录这些块区的地址以及数据的先后顺序,实现对这些乱序储存的数据管理。宏观上,为了方便用户的管理,使用路径字符串的方式来“描述”文件的位置,但这只是一种逻辑位置,并不存在此种数据上的层级关系,一个文件字符串在将会映射到一个的INode结构体中,再使用iN
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008