我正在尝试通过使用名称列表作为输入来在Google搜索上进行网络抓取,并在DataFame中获取数据集。之前,我曾使用selenium进行Web抓取,但在 使用循环 构建 名称列表作为输入 来获取结果并抓取每个页面的语法时,我遇到了一段艰难的时期。这是我的Python代码如下:
baseUrl = 'https://www.google.com/search?q=' pluseUrl = input('CEO: ') url = baseUrl + quote_plus(pluseUrl) browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe") browser.get(url) table = browser.find_elements_by_css_selector('div.ifM9O') df = pd.DataFrame(columns = ['ceo', 'value']) values =[] for row in table: ceo = str(([c.text for c in row.find_elements_by_css_selector('div.kno-ecr-pt.PZPZlf.gsmt.i8lZMc')])).strip('[]').strip("''") value = str(([c.text for c in row.find_elements_by_css_selector('div.Z1hOCe')])).strip('[]').strip("''") ceo = pd.Series(ceo) value = pd.Series(value) df = df.assign(**{'ceo': ceo, 'value': value}) print(df)
这是将比尔·盖茨作为输入后的结果:
CEO: Bill gates ceo value 0 Bill Gates Born: October 28, 1955 (age 64 years), Seattle...
任何建议或建议将不胜感激。
试试这个:
baseUrl = 'https://www.google.com/search?q=' browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe") input_list = ["Bill Gates", "Elon Musk", "Warren Buffet"] output = {} def scrape_ceo_list(list_of_ceo): for ceo in list_of_ceo: browser.get(baseUrl + ceo) // query selectors, dataframes etc as per original code // ... output[ceo] = df
output 现在是一个数据帧字典,CEO名称作为字典键。
output