Python作為一門面向?qū)ο蟮木幊陶Z言,簡(jiǎn)潔的語法使得編寫十幾行代碼即可實(shí)現(xiàn)爬蟲功能,獲取海量互聯(lián)網(wǎng)數(shù)據(jù)。使用Python來編寫爬蟲實(shí)現(xiàn)簡(jiǎn)單且效率高,同時(shí)爬取的數(shù)據(jù)可以使用Python強(qiáng)大的第三方數(shù)據(jù)處理庫(kù)來進(jìn)行分析,最重要的是學(xué)習(xí)成本低,如此之好的東西怎能不學(xué)習(xí)呢?
2017年,北京友萬信息科技有限公司聯(lián)合雪晴數(shù)據(jù)網(wǎng)舉辦了三期Python爬蟲與機(jī)器學(xué)習(xí)應(yīng)用案例研討會(huì),取得了非常好的效果。之后不斷有人詢問我們何時(shí)再次舉辦類似的研討會(huì),經(jīng)過我們的反復(fù)調(diào)研,對(duì)原有的培訓(xùn)內(nèi)容做全新升級(jí),定于今年11月16日至18日再次舉辦一期研討會(huì)。
2018年11月16日-- 18日 廣州市(具體地點(diǎn)報(bào)名后通知)
(時(shí)間安排:外地參會(huì)人員11月15日?qǐng)?bào)到,16日~18日正式會(huì)議)
從事金融、醫(yī)療、保險(xiǎn)、生態(tài)、衛(wèi)生、計(jì)量、統(tǒng)計(jì)、銀行、通信、環(huán)境、基金等與數(shù)據(jù)分析統(tǒng)計(jì)相關(guān)的企事業(yè)單位技術(shù)骨干、科研院所研究人員和大專院校相關(guān)專業(yè)教學(xué)人員及在校研究生、碩士、博士等相關(guān)人員,以及廣大Python愛好者。
我們會(huì)根據(jù)學(xué)員的意愿從案例庫(kù)里來選擇案例講解,學(xué)員也可以提供自己想要抓取數(shù)據(jù)的鏈接,老師現(xiàn)場(chǎng)講解
第一天:python基礎(chǔ)語法和網(wǎng)絡(luò)知識(shí)簡(jiǎn)介 |
|
第一講:Python環(huán)境的搭建 |
1. 操作系統(tǒng)的配置 2. 安裝anaconda套件 3. Jupyter Notebook的使用 |
第二講:Python基礎(chǔ)語法 |
1. 基本數(shù)據(jù)結(jié)構(gòu)(列表、字典、元組) 2. 基本語法(條件、循環(huán)、函數(shù)、類) |
第三講: 數(shù)據(jù)導(dǎo)入導(dǎo)出、數(shù)據(jù)整理與變換 |
1. 使用Pandas模塊導(dǎo)入/導(dǎo)出數(shù)據(jù) 2. 使用Pandas篩選、整理數(shù)據(jù),分組匯總 3. 數(shù)據(jù)變換,重編碼 |
第四講: 可視化與描述性統(tǒng)計(jì) | 1. 餅圖、柱形圖、折線圖、箱線圖 2. 在線可視化的工具 |
第五講: 網(wǎng)絡(luò)和網(wǎng)頁(yè)基礎(chǔ)知識(shí) | 1. 網(wǎng)絡(luò)協(xié)議 2. 網(wǎng)頁(yè)加載過程 3. 網(wǎng)頁(yè)結(jié)構(gòu) 4. HTML簡(jiǎn)介 5. CSS選擇器 6. Xpath |
第二天:靜態(tài)網(wǎng)站的抓取 |
|
第六講:相關(guān)Python模塊 |
1. 用Requests模塊獲取網(wǎng)頁(yè) 2. 用BeautifulSoup模塊解析網(wǎng)頁(yè)元素 3. 用requests和Beautiful Soup寫簡(jiǎn)單的爬蟲程序 案例: 爬取電影票房數(shù)據(jù) |
第七講: 靜態(tài)網(wǎng)站抓取的高級(jí)策略 |
1. 尋找目標(biāo)內(nèi)容的真正網(wǎng)址 2. 翻頁(yè)的處理 3. 提交表單后才能獲取內(nèi)容的網(wǎng)頁(yè)如何爬取 4. 如何下載文件 5. 偽造Cookie繞過網(wǎng)站反爬機(jī)制 案例: 抓取北京交通委公布的交通指數(shù) 案例: 批量下載上交所上市公司公告 案例: 抓取全國(guó)土地交易數(shù)據(jù) 案例:生態(tài)環(huán)境部網(wǎng)站全國(guó)城市空氣質(zhì)量日?qǐng)?bào) 案例:大眾點(diǎn)評(píng)店鋪信息的抓取 |
第三天:動(dòng)態(tài)網(wǎng)站的抓取 | |
第八講: 通過API接口獲取數(shù)據(jù) | 1. 什么是Ajax異步加載 2. 什么是JSON格式 3. API接口返回JSON數(shù)據(jù)時(shí)如何解析 4. API接口返回其他數(shù)據(jù)格式時(shí)如何解析 5. 從動(dòng)態(tài)地圖中抓取并解析數(shù)據(jù) 案例: 從東方財(cái)富網(wǎng)抓取基金數(shù)據(jù) 案例:上海醫(yī)療服務(wù)信息便民查詢系統(tǒng)網(wǎng)站 案例:財(cái)政部PPP項(xiàng)目?jī)?chǔ)備清單 案例:汽車消費(fèi)者投訴受理處置信息的抓取 |
第九講: 用Selenium模擬瀏覽器獲取數(shù)據(jù) | 1. Selenium的簡(jiǎn)介 2. 用Selenium結(jié)合Xpath Helper抓取數(shù)據(jù) 3. 模擬瀏覽器登錄網(wǎng)站、繞開驗(yàn)證碼 案例: 中國(guó)保險(xiǎn)行業(yè)協(xié)會(huì)新聞列表的抓取 案例: 抓取電商網(wǎng)站商品信息和評(píng)論 案例:抓取歷史航班信息 案例:微博數(shù)據(jù)的抓取 |
第十講: 疑難問題的應(yīng)對(duì) | 1. 網(wǎng)站內(nèi)容定時(shí)更新,要怎么自動(dòng)去抓取 2. 正則表達(dá)式的使用 3. 使用異常處理,讓程序更穩(wěn)健 4. 能定位到網(wǎng)頁(yè)元素但不知如何提取 5. 幾種反爬蟲機(jī)制的應(yīng)對(duì)策略 |
陳堰平
雪晴數(shù)據(jù)網(wǎng)創(chuàng)始人,北京友萬信息科技有限公司首席技術(shù)官,北京理工大學(xué)大數(shù)據(jù)創(chuàng)新學(xué)習(xí)中心業(yè)界導(dǎo)師團(tuán)成員,2017年1月獲“微軟最有價(jià)值專家”榮譽(yù)稱號(hào)。曾獲CQF國(guó)際數(shù)量金融認(rèn)證,先后任新華社指數(shù)中心技術(shù)總監(jiān)、SupStat Analytics中國(guó)區(qū)首席技術(shù)官。在統(tǒng)計(jì)咨詢、數(shù)據(jù)挖掘、開發(fā)數(shù)據(jù)驅(qū)動(dòng)的商業(yè)解決方案等領(lǐng)域有近十年的經(jīng)驗(yàn),曾為人保財(cái)險(xiǎn)、國(guó)家統(tǒng)計(jì)局、微軟、惠普、野村綜研、德勤咨詢、聯(lián)想、豐田、招商銀行、花旗銀行、東方航空、中國(guó)移動(dòng)、中國(guó)電信、中國(guó)聯(lián)通等機(jī)構(gòu)做過數(shù)據(jù)科學(xué)方面的培訓(xùn)和咨詢。2017 年先后兩次擔(dān)任教育部高等學(xué)校計(jì)算機(jī)類專業(yè)教學(xué)指導(dǎo)委員會(huì)主辦的“全國(guó)高校大數(shù)據(jù)系列課程高級(jí)研修班”主講老師。
不論您是想要做市場(chǎng)調(diào)查、趨勢(shì)分析、還是想要做科研,都需要從自己機(jī)構(gòu)外部找數(shù)據(jù),但是網(wǎng)站有千百種,從單純的下載文件,到整理成干凈的數(shù)據(jù)表,數(shù)據(jù)藏在哪里,要拿甚么鑰匙去敲門,都是透過每個(gè)精心設(shè)計(jì)的范例去學(xué)習(xí)的。拿到數(shù)據(jù)之后,不同的數(shù)據(jù)類型有不同的處理方式,最后怎么有能力說出一個(gè)故事,都是這堂課的學(xué)習(xí)主軸。
市場(chǎng)上真的有各種爬蟲課程,各有各的特色及優(yōu)點(diǎn),有的還是免費(fèi)的,這里我們不比較各自的不同,就說說我們有什么優(yōu)點(diǎn)吧:
優(yōu)秀的講師團(tuán)隊(duì):我們的講師不但有多年的工作經(jīng)驗(yàn),也有豐富的教學(xué)經(jīng)驗(yàn),不但技術(shù)過硬,也善于用通俗的語言講解復(fù)雜的知識(shí)點(diǎn),更有耐心為學(xué)員解答學(xué)習(xí)過程中的問題。每次課程我們都會(huì)反復(fù)研究,花大量時(shí)間準(zhǔn)備課程材料,力求用最適合的案例和方式為學(xué)員講解。
在職人員3200元,學(xué)生2500元(可開具正規(guī)發(fā)票),此價(jià)格含會(huì)議注冊(cè)費(fèi)、資料費(fèi)、午餐費(fèi)、場(chǎng)地費(fèi)。食宿費(fèi)用自理。
雪晴數(shù)據(jù)網(wǎng)、友萬科技的老學(xué)員8折優(yōu)惠
參與北理工大數(shù)據(jù)創(chuàng)新學(xué)習(xí)中心活動(dòng)9折優(yōu)惠
三人以上同時(shí)報(bào)名9折優(yōu)惠
五人以上同時(shí)報(bào)名8折優(yōu)惠
請(qǐng)前往 http://t.cn/RmyEZvz 填寫報(bào)名表(點(diǎn)擊文本左下角閱讀原文進(jìn)入表單),我們的工作人員隨后會(huì)聯(lián)系您。確認(rèn)報(bào)名后,請(qǐng)通過以下三種支付方式中的一種來繳費(fèi)(請(qǐng)保留支付憑證,拍照或截圖發(fā)給我們的工作人員 ):
方式一: 對(duì)公轉(zhuǎn)賬
開戶名 繪辰科技(北京)有限公司
開戶銀行 中國(guó)工商銀行股份公司北京大鐘寺東路支行
賬號(hào) 0200151609100034763
方式二: 支付寶
賬號(hào) pay@xueqingtv.com
戶名 繪辰科技(北京)有限公司
方式三: 現(xiàn)場(chǎng)繳費(fèi)
外地學(xué)員請(qǐng)于11月15號(hào)提前報(bào)到,廣州學(xué)員可于16號(hào)早上8點(diǎn)~8點(diǎn)半報(bào)到,繳費(fèi)并領(lǐng)取發(fā)票和紙質(zhì)邀請(qǐng)函,以及上課教材。
由于16號(hào)早上現(xiàn)場(chǎng)人比較多,鼓勵(lì)北京學(xué)員也于15號(hào)報(bào)到。
主辦方:雪晴數(shù)據(jù)網(wǎng)
協(xié)辦方:
北京友萬信息科技有限公司
北理工大數(shù)據(jù)創(chuàng)新學(xué)習(xí)中心
北京友萬信息科技有限公司,簡(jiǎn)稱:友萬科技。英文全稱:Beijing Uone Info&Tech Co.,Ltd,( Uone-Tech )是中國(guó)大陸領(lǐng)先的教育和科學(xué)軟件分銷商,已在中國(guó)300多所高校建立了可靠的分銷渠道。擁有最成功的教學(xué)資源和數(shù)據(jù)管理專家。同時(shí)作為Stata軟件在中國(guó)大陸的授權(quán)商業(yè)合作伙伴,希望能給Stata中國(guó)用戶提供更多服務(wù)與支持,并幫助中國(guó)用戶建立完善的軟件售后服務(wù)體系。初冬來臨,伴手禮相送陪您暖意濃濃,凡于本季度(2018年10-12月份)購(gòu)買軟件的新老客戶都可以參加買軟件送Stata水杯活動(dòng)。另外凡采購(gòu)一套以上者,就可以享受折上折優(yōu)惠。Stata15新版本和中文版本已經(jīng)發(fā)布,如需申請(qǐng)新版本軟件采購(gòu)及老版本更新升級(jí)請(qǐng)聯(lián)系我們,感謝您的支持與關(guān)注。聯(lián)系方式:徐經(jīng)理Tel/WeChat: 18610597626 Email: crystal@uone-tech.cn。
相關(guān)新聞鏈接:
>> Stata冬季訓(xùn)練營(yíng)—
Stata空間計(jì)量經(jīng)濟(jì)與結(jié)構(gòu)方程模型研討會(huì) 火熱報(bào)名中
>> 詳細(xì)了解 Stata軟件
>> Stata夏季訓(xùn)練營(yíng)-王群勇專場(chǎng)
>> Stata夏季訓(xùn)練營(yíng)-連玉君專場(chǎng)
>> Stata春季訓(xùn)練營(yíng)(上海站)
>>第二屆Stata中國(guó)用戶大會(huì)
>>第一屆Stata中國(guó)用戶大會(huì)
公眾號(hào):友萬軟件,歡迎掃碼關(guān)注我們
北京友萬信息科技有限公司,英文全稱:Beijing Uone Info&Tech Co.,Ltd ( Uone-Tech )是中國(guó)大陸領(lǐng)先的教育和科學(xué)軟件分銷商,已在中國(guó)300多所高校建立了可靠的分銷渠道。擁有最成功的教學(xué)資源和數(shù)據(jù)管理專家。如需申請(qǐng)軟件采購(gòu)及老版本更新升級(jí)請(qǐng)聯(lián)系我們,咨詢熱線:010-56548231 ,咨詢郵箱:info@uone-tech.cn 感謝您的支持與關(guān)注。