Python作為一門面向?qū)ο蟮木幊陶Z言,簡潔的語法使得編寫數(shù)十行代碼即可實(shí)現(xiàn)爬蟲功能,獲取海量互聯(lián)網(wǎng)數(shù)據(jù)。使用Python來編寫爬蟲實(shí)現(xiàn)簡單且效率高,同時(shí)爬取的數(shù)據(jù)可以使用Python強(qiáng)大的第三方數(shù)據(jù)處理庫來進(jìn)行分析,最重要的是學(xué)習(xí)成本低,如此之好的東西怎能不學(xué)習(xí)呢?
   
2017年6月和7月,北京友萬信息科技有限公司聯(lián)合雪晴數(shù)據(jù)網(wǎng)舉辦了兩期Python爬蟲與機(jī)器學(xué)習(xí)應(yīng)用案例研討會(huì)。本次研討會(huì)取得了非常好的效果,不斷有人詢問我們何時(shí)再次舉辦類似的研討會(huì),經(jīng)過我們的反復(fù)調(diào)研,對原有的培訓(xùn)內(nèi)容做全新升級(jí),定于今年12月9日至10日再次舉辦一期研討會(huì)。
主辦方:
雪晴數(shù)據(jù)網(wǎng)
協(xié)辦方:
北京友萬信息科技有限公司
    從事金融、醫(yī)療、保險(xiǎn)、生態(tài)、衛(wèi)生、計(jì)量、統(tǒng)計(jì)、銀行、通信、環(huán)境、基金等與數(shù)據(jù)分析統(tǒng)計(jì)相關(guān)的企事業(yè)單位技術(shù)骨干、科研院所研究人員和大專院校相關(guān)專業(yè)教學(xué)人員及在校研究生、碩士、博士等相關(guān)人員,以及廣大Python愛好者。
    陳堰平,雪晴數(shù)據(jù)網(wǎng)創(chuàng)始人,北京理工大學(xué)大數(shù)據(jù)創(chuàng)新學(xué)習(xí)中心業(yè)界導(dǎo)師團(tuán)成員,2017年1月獲“微軟最有價(jià)值專家”榮譽(yù)稱號(hào)。碩士畢業(yè)于中國人民大學(xué)統(tǒng)計(jì)學(xué)院,曾獲CQF國際數(shù)量金融認(rèn)證,先后任新華社指數(shù)中心技術(shù)總監(jiān)、SupStat Analytics中國區(qū)首席技術(shù)官。在統(tǒng)計(jì)咨詢、數(shù)據(jù)挖掘、開發(fā)數(shù)據(jù)驅(qū)動(dòng)的商業(yè)解決方案等領(lǐng)域有近十年的經(jīng)驗(yàn),曾為國家統(tǒng)計(jì)局、微軟、惠普、德勤咨詢、聯(lián)想、豐田、招商銀行、花旗銀行、東方航空、中國移動(dòng)、中國電信、中國聯(lián)通等機(jī)構(gòu)做過數(shù)據(jù)科學(xué)方面的培訓(xùn)和咨詢。
    曾有杰,人人車計(jì)算平臺(tái)架構(gòu)師及策略小組負(fù)責(zé)人,前搜狐大數(shù)據(jù)平臺(tái)研發(fā)工程師,多年數(shù)據(jù)分析與開發(fā)的工作經(jīng)驗(yàn),擅長網(wǎng)絡(luò)爬蟲技術(shù)和自然語言處理,對大數(shù)據(jù)平臺(tái)、數(shù)據(jù)挖掘有豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。
第一天 | |
案例一: 爬取電影票房數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行整理匯總,可視化展示? 案例二: 抓取各級(jí)行政區(qū)域的天氣數(shù)據(jù)? 案例三: 從東方財(cái)富網(wǎng)抓取基金數(shù)據(jù)? 案例四: 抓取土地流轉(zhuǎn)數(shù)據(jù)? 案例五: 抓取歷屆政府工作報(bào)告,并繪制詞云圖? 案例六: 抓取全國土地交易數(shù)據(jù) ?案例七: 抓取北京交通委公布的交通指數(shù)? 案例八: 批量下載上交所上市公司公告 |
|
第一講? Python環(huán)境的搭建與基礎(chǔ)語法 |
1. 安裝anaconda套件? 2. Jupyter Notebook的使用? 3. 基本數(shù)據(jù)結(jié)構(gòu)(列表、字典、元組)? 4. 基本語法(條件、循環(huán)、函數(shù)、類) |
第二講? 數(shù)據(jù)導(dǎo)入導(dǎo)出、數(shù)據(jù)整理與變換 |
1. 使用Pandas庫導(dǎo)入/導(dǎo)出數(shù)據(jù)? 2. 使用Pandas篩選、整理數(shù)據(jù),分組匯總? 3. 數(shù)據(jù)變換,重編碼 |
第三講? 可視化與描述性統(tǒng)計(jì) |
1. 餅圖、柱形圖、折線圖、箱線圖? 2. 列聯(lián)表與馬賽克圖? 3. 文本的詞云圖 |
第四講? Python爬蟲技術(shù)初步 |
1. 網(wǎng)頁結(jié)構(gòu)分析? 2. 網(wǎng)絡(luò)協(xié)議? 3. requests庫介紹? 4. Beautiful Soup庫的介紹? 5. 使用requests和Beautiful Soup寫爬蟲? 6. 定時(shí)自動(dòng)執(zhí)行爬蟲程序 |
第二天 | |
案例九? 獲取電商網(wǎng)站的商品評(píng)論文本?
案例十? 獲取微博上用戶對指定關(guān)鍵詞的評(píng)論文本 |
|
第五講? Python爬蟲技術(shù)進(jìn)階 |
1. Ajax異步加載頁面的數(shù)據(jù)提取? 2. XPath介紹? 3. 正則表達(dá)式介紹? 4. 利用scrapy框架獲取靜態(tài)頁面數(shù)據(jù)? 5. 使用scrapy結(jié)合selenium、phantomjs獲取動(dòng)態(tài)數(shù)據(jù)?6. 模擬瀏覽器登錄網(wǎng)站、繞開驗(yàn)證碼 |
不論您是想要做市場調(diào)查、趨勢分析、還是想要做科研,都需要從自己機(jī)構(gòu)外部找數(shù)據(jù),但是網(wǎng)站有千百種,從單純的下載文件,到整理成干凈的數(shù)據(jù)表,數(shù)據(jù)藏在哪里,要拿甚么鑰匙去敲門,都是透過每個(gè)精心設(shè)計(jì)的范例去學(xué)習(xí)的。拿到數(shù)據(jù)之后,不同的數(shù)據(jù)類型有不同的處理方式,最后怎么有能力說出一個(gè)故事,都是這堂課的學(xué)習(xí)主軸。
案例教學(xué)的方法:我們從2013年開始舉辦公開的技術(shù)培訓(xùn),也曾多次給企業(yè)做內(nèi)部培訓(xùn),從多年的教學(xué)實(shí)踐中,我們發(fā)現(xiàn),用傳統(tǒng)以知識(shí)點(diǎn)講解為主線,案例為輔的方式,效果并不好。學(xué)員反映,聽了后面忘前面,學(xué)了一堆東西卻不知道怎么用。經(jīng)過多次嘗試,我們摒棄了這種教學(xué)方式,采用以案例為主線,在案例中講解知識(shí)點(diǎn)的方法,在一個(gè)案例中串聯(lián)多個(gè)知識(shí)點(diǎn),利用遺忘曲線的原理,我們用多個(gè)案例重現(xiàn)數(shù)據(jù)分析的流程,學(xué)員自然會(huì)舉一反三了。
選取有實(shí)用價(jià)值的案例:iris數(shù)據(jù)集、titanic數(shù)據(jù)、NBA比賽數(shù)據(jù)跟我們的工作和科研有什么關(guān)系?基本沒關(guān)系,那我們在講課的時(shí)候就不會(huì)用這種數(shù)據(jù)。而且我們教的是如何使用數(shù)據(jù)分析技術(shù),并不是教你怎么寫代碼,我們不培養(yǎng)碼農(nóng)的。所以我們選擇的案例,都是有現(xiàn)實(shí)的商業(yè)意義,或者科研價(jià)值。在講解過程中,不但告訴你代碼怎么寫,還會(huì)教你怎么解決問題,為什么要這么做。
貼心的助教制度:我們每次開課都會(huì)有助教,因?yàn)槭鞘职咽值恼n程,助教的存在,就是為了能解答您的問題,確保您有學(xué)會(huì),滿載回家。而且我們的助教都有實(shí)戰(zhàn)經(jīng)驗(yàn),有的來自業(yè)界,有的來自前幾批的優(yōu)秀學(xué)員,我們也歡迎您以后加入我們的助教或講師團(tuán)隊(duì)。
對課程品質(zhì)的堅(jiān)持:我們在不同場合講解過課程的內(nèi)容,不斷調(diào)整打磨課程,即使是相近的主題,我們也會(huì)對課程內(nèi)容和案例進(jìn)行升級(jí),挑選出最適合市場趨勢的案例和技術(shù)來講解。比如這次Python爬蟲課程,較6月份的那次課程,我們升級(jí)了大量案例
當(dāng)然可以。我們的課程專門面向非計(jì)算機(jī)專業(yè)的學(xué)員,其實(shí)每次都有對編程一無所知的小白來參加我們的課程,他們甚至對電腦的很多知識(shí)都不甚了解,經(jīng)過兩三天的課程,不但跟下來了,還很有收獲。對python有一點(diǎn)認(rèn)識(shí)的朋友相信一定可以得心應(yīng)手,針對完全沒有碰過python的新手,報(bào)名之后我們會(huì)推薦您Python的基礎(chǔ)在線課程進(jìn)行課前的練習(xí),也可以提前一天報(bào)到,參加我們的課前輔導(dǎo)。
2017年12月9日-- 10日 ?北京理工大學(xué) (具體地點(diǎn)報(bào)名后通知)
(時(shí)間安排:外地參會(huì)人員12月8日報(bào)到,9日~10日正式會(huì)議)
在職人員2300元,學(xué)生1800元(可開具正規(guī)發(fā)票),此價(jià)格含會(huì)議注冊費(fèi)、資料費(fèi)、午餐費(fèi)、場地費(fèi)。食宿費(fèi)用自理。
針對雪晴數(shù)據(jù)網(wǎng)注冊用戶以及北京友萬信息科技有限公司的用戶,還有一定的優(yōu)惠,具體優(yōu)惠幅度請與工作人員協(xié)商。
與會(huì)者可申請工信部《數(shù)據(jù)挖掘與分析應(yīng)用高級(jí)工程師》職業(yè)技術(shù)水平證書,通過考核后即可獲得證書,需另交考試費(fèi)、證書工本費(fèi)共400元。
請發(fā)送郵件至marketing@uone-tech.cn(備注:Python培訓(xùn)),我們的工作人員隨后會(huì)聯(lián)系您。確認(rèn)報(bào)名后,請通過報(bào)名表中的匯款信息繳費(fèi)(請保留支付憑證,拍照或截圖發(fā)給我們的工作人員 ):
外地學(xué)員請于12月8號(hào)提前報(bào)到,北京學(xué)員可于9號(hào)早上8點(diǎn)~8點(diǎn)半報(bào)到,繳費(fèi)并領(lǐng)取發(fā)票和紙質(zhì)邀請函,以及上課教材。
由于9號(hào)早上現(xiàn)場人比較多,鼓勵(lì)北京學(xué)員也于8號(hào)報(bào)到。