Python作為一門面向?qū)ο蟮木幊陶Z言,簡潔的語法使得編寫數(shù)十行代碼即可實(shí)現(xiàn)爬蟲功能,獲取海量互聯(lián)網(wǎng)數(shù)據(jù)。使用Python來編寫爬蟲實(shí)現(xiàn)簡單且效率高,同時爬取的數(shù)據(jù)可以使用Python強(qiáng)大的第三方數(shù)據(jù)處理庫來進(jìn)行分析,最重要的是學(xué)習(xí)成本低,如此之好的東西怎能不學(xué)習(xí)呢?
       2017年6月2日至4日,北京理工大學(xué)聯(lián)合雪晴數(shù)據(jù)網(wǎng)舉辦了第一期Python爬蟲與機(jī)器學(xué)習(xí)應(yīng)用案例研討會。本次研討會取得了非常好的效果,不斷有人詢問我們何時再次舉辦類似的研討會,經(jīng)過我們的反復(fù)調(diào)研,對原有的培訓(xùn)內(nèi)容做全新升級,定于今年7月21日至23日再次舉辦一期研討會。
        Python爬蟲與文本分析應(yīng)用案例研討會
主辦方:雪晴數(shù)據(jù)網(wǎng)
       雪晴數(shù)據(jù)網(wǎng)是以數(shù)據(jù)科學(xué)為主題的在線社區(qū),運(yùn)營實(shí)體為繪辰科技(北京)有限公司。網(wǎng)站包含視頻課程、問答、資訊等模塊。雪晴數(shù)據(jù)網(wǎng)專注于大數(shù)據(jù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)科學(xué)技術(shù)的普及和推廣,致力于向數(shù)據(jù)科學(xué)從業(yè)者提供溝通平臺。
雪晴數(shù)據(jù)網(wǎng)已成為Microsoft高級分析培訓(xùn)團(tuán)隊(duì)的在中國大陸地區(qū)唯一的合作伙伴,也是RStudio公司在中國大陸唯一的合作伙伴。
● 企業(yè)培訓(xùn)介紹
● 線下培訓(xùn)介紹
協(xié)辦方:北京友萬信息科技有限公司,北京理工大學(xué)大數(shù)據(jù)創(chuàng)新學(xué)習(xí)中心,爬蟲俱樂部
合作出版社:清華大學(xué)出版社
       本課程將主要講解Python爬蟲技術(shù)采集數(shù)據(jù),并使用文本分析的技術(shù)來解決一些市場研究,尤其是產(chǎn)品研究中的一些具體問題,比如產(chǎn)品提及、產(chǎn)品評價、品牌形象等。本課程的授課方式是通過python和knime編程的方式,課程最終目的是實(shí)現(xiàn)各種分析的自動化流程,課程成果可以在今后工作中復(fù)用。
為什么要學(xué)爬蟲技術(shù),學(xué)了以后有什么好處?
       不論您是想要做市場調(diào)查、趨勢分析、還是想要做科研,都需要從自己機(jī)構(gòu)外部找數(shù)據(jù),但是網(wǎng)站有千百種,從單純的下載文件,到整理成干凈的數(shù)據(jù)表,數(shù)據(jù)藏在哪里,要拿甚么鑰匙去敲門,都是透過每個精心設(shè)計的范例去學(xué)習(xí)的。拿到數(shù)據(jù)之后,不同的數(shù)據(jù)類型有不同的處理方式,最后怎么有能力說出一個故事,都是這堂課的學(xué)習(xí)主軸。
網(wǎng)上有很多爬蟲課程,為什么要選我們?
       市場上真的有各種爬蟲課程,各有各的特色及優(yōu)點(diǎn),有的還是免費(fèi)的,這里我們不比較各自的不同,就說說我們有什么優(yōu)點(diǎn)吧:
       ● 優(yōu)秀的講師團(tuán)隊(duì):我們的講師不但有多年的工作經(jīng)驗(yàn),也有豐富的教學(xué)經(jīng)驗(yàn),不但技術(shù)過硬,也善于用通俗的語言講解復(fù)雜的知識點(diǎn),更有耐心為學(xué)員解答學(xué)習(xí)過程中的問題。每次課程我們都會反復(fù)研究,花大量時間準(zhǔn)備課程材料,力求用最適合的案例和方式為學(xué)員講解。
       ● 案例教學(xué)的方法:我們從2013年開始舉辦公開的技術(shù)培訓(xùn),也曾多次給企業(yè)做內(nèi)部培訓(xùn),從多年的教學(xué)實(shí)踐中,我們發(fā)現(xiàn),用傳統(tǒng)以知識點(diǎn)講解為主線,案例為輔的方式,效果并不好。學(xué)員反映,聽了后面忘前面,學(xué)了一堆東西卻不知道怎么用。經(jīng)過多次嘗試,我們摒棄了這種教學(xué)方式,采用以案例為主線,在案例中講解知識點(diǎn)的方法,在一個案例中串聯(lián)多個知識點(diǎn),利用遺忘曲線的原理,我們用多個案例重現(xiàn)數(shù)據(jù)分析的流程,學(xué)員自然會舉一反三了。
       ● 選取有實(shí)用價值的案例:iris數(shù)據(jù)集、titanic數(shù)據(jù)、NBA比賽數(shù)據(jù)跟我們的工作和科研有什么關(guān)系?基本沒關(guān)系,那我們在講課的時候就不會用這種數(shù)據(jù)。而且我們教的是如何使用數(shù)據(jù)分析技術(shù),并不是教你怎么寫代碼,我們不培養(yǎng)碼農(nóng)的。所以我們選擇的案例,都是有現(xiàn)實(shí)的商業(yè)意義,或者科研價值。在講解過程中,不但告訴你代碼怎么寫,還會教你怎么解決問題,為什么要這么做。
       ● 貼心的助教制度:我們每次開課都會有助教,因?yàn)槭鞘职咽值恼n程,助教的存在,就是為了能解答您的問題,確保您有學(xué)會,滿載回家。而且我們的助教都有實(shí)戰(zhàn)經(jīng)驗(yàn),有的來自業(yè)界,有的可能就是前幾批的優(yōu)秀學(xué)員,我們也歡迎您以后加入我們的助教或講師團(tuán)隊(duì)。
       ● 對課程品質(zhì)的堅持:我們在不同場合講解過課程的內(nèi)容,不斷調(diào)整打磨課程,即使是相近的主題,我們也會對課程內(nèi)容和案例進(jìn)行升級,挑選出最適合市場趨勢的案例和技術(shù)來講解。比如這次Python爬蟲與文本分析課程,較6月份的那次課程,我們更換了幾乎所有的案例,并在文本分析部分,引入knime軟件做為講解的平臺,整個分析過程都在可視化的環(huán)境下進(jìn)行,通過簡單的拖曳和設(shè)置就可以完成一個分析流程的開發(fā)(如下圖所示,每個節(jié)點(diǎn)都包含一段預(yù)先定義好的Python代碼,完成分析流程中的一步),這樣大大降低了學(xué)員的理解難度,提高了Python代碼的復(fù)用度。
沒有學(xué)過Python,也可以來上課嗎?
當(dāng)然可以。其實(shí)每次都有對編程一無所知的小白來參加我們的課程,他們甚至對電腦的很多知識都不甚了解,經(jīng)過三四天的課程,不少人不但跟下來了,還很有收獲。對python有一點(diǎn)認(rèn)識的朋友相信一定可以得心應(yīng)手,針對完全沒有碰過python的新手,報名之后我們會推薦您Python的基礎(chǔ)在線課程進(jìn)行課前的練習(xí),也可以提前一天報到,參加我們的課前輔導(dǎo)。
可不可以只學(xué)前兩天的Python爬蟲課程?
當(dāng)然可以,第三天的文本分析部分比較專業(yè),可能并不適合所有人,你可以只學(xué)前兩天的課程,也可以只學(xué)第三天的課程,費(fèi)用也不一樣,具體的細(xì)節(jié)請往下看
       從事金融、醫(yī)療、保險、生態(tài)、衛(wèi)生、計量、統(tǒng)計、銀行、通信、環(huán)境、基金等與數(shù)據(jù)分析統(tǒng)計相關(guān)的企事業(yè)單位技術(shù)骨干、科研院所研究人員和大專院校相關(guān)專業(yè)教學(xué)人員及在校研究生、碩士、博士等相關(guān)人員,以及廣大Python愛好者。
陳堰平,雪晴數(shù)據(jù)網(wǎng)創(chuàng)始人,北京理工大學(xué)大數(shù)據(jù)創(chuàng)新學(xué)習(xí)中心導(dǎo)師團(tuán)成員,2017年1月獲“微軟最有價值專家”榮譽(yù)稱號。畢業(yè)于中國人民大學(xué)統(tǒng)計學(xué)院,曾獲CQF國際數(shù)量金融認(rèn)證,先后任新華社指數(shù)中心技術(shù)總監(jiān)、SupStat Analytics中國區(qū)首席技術(shù)官。在統(tǒng)計咨詢、數(shù)據(jù)挖掘、開發(fā)數(shù)據(jù)驅(qū)動的商業(yè)解決方案等領(lǐng)域有近十年的經(jīng)驗(yàn),曾為國家統(tǒng)計局、微軟、惠普、德勤咨詢、聯(lián)想、豐田、招商銀行、花旗銀行、東方航空、中國移動、中國電信、中國聯(lián)通、國家檢察官學(xué)院等機(jī)構(gòu)做過數(shù)據(jù)科學(xué)方面的培訓(xùn)和咨詢。曾開發(fā)貝葉斯動態(tài)預(yù)測模型的R包ssDLM,譯作有《R語言編程藝術(shù)》、《實(shí)用數(shù)據(jù)分析》和《R語言臨床數(shù)據(jù)分析》,主講的在線公開課《R語言數(shù)據(jù)分析入門》、《R語言大規(guī)模數(shù)據(jù)分析實(shí)戰(zhàn)》已在多個平臺上發(fā)布,累積學(xué)習(xí)人數(shù)過萬人。
曾有杰,人人車計算平臺架構(gòu)師及策略小組負(fù)責(zé)人,前搜狐大數(shù)據(jù)平臺研發(fā)工程師,多年數(shù)據(jù)分析與開發(fā)的工作經(jīng)驗(yàn),擅長網(wǎng)絡(luò)爬蟲技術(shù)和自然語言處理,對大數(shù)據(jù)平臺、數(shù)據(jù)挖掘有豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。
談和,中國傳媒大學(xué)互聯(lián)網(wǎng)信息研究院博士生。中國傳媒大學(xué)大數(shù)據(jù)挖掘與社會計算實(shí)驗(yàn)室研究員,主要負(fù)責(zé)數(shù)據(jù)抓取、文本處理以及可視化開發(fā)。同時也是中國傳媒大學(xué)數(shù)據(jù)新聞專業(yè)的授課者之一,負(fù)責(zé)教授信息圖設(shè)計制作和可視化編程等技能。目前的研究方向?yàn)榛ヂ?lián)網(wǎng)群體傳播與群體行為、社會媒體研究中的自然語言處理。
第一天
案例一: 爬取電影票房數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行整理匯總,可視化展示
案例二: 抓取各級行政區(qū)域的天氣數(shù)據(jù)
案例三: 從東方財富網(wǎng)抓取基金數(shù)據(jù)
案例四: 抓取土地流轉(zhuǎn)數(shù)據(jù)
案例五: 抓取歷屆政府工作報告,并繪制詞云圖
案例六: 抓取全國土地交易數(shù)據(jù)
案例七: 抓取北京交通委公布的交通指數(shù)
案例八: 批量下載上交所上市公司公告
第一講
Python環(huán)境的搭建與基礎(chǔ)語法
1. 安裝anaconda套件
2. Jupyter Notebook的使用
3. 基本數(shù)據(jù)結(jié)構(gòu)(列表、字典、元組)
4. 基本語法(條件、循環(huán)、函數(shù)、類)
第二講
數(shù)據(jù)導(dǎo)入導(dǎo)出、數(shù)據(jù)整理與變換
1. 使用Pandas庫導(dǎo)入/導(dǎo)出數(shù)據(jù)
2. 使用Pandas篩選、整理數(shù)據(jù),分組匯總
3. 數(shù)據(jù)變換,重編碼
第三講
可視化與描述性統(tǒng)計
1. 餅圖、柱形圖、折線圖、箱線圖
2. 列聯(lián)表與馬賽克圖
3. 文本的詞云圖
第四講
Python爬蟲技術(shù)初步
1. 網(wǎng)頁結(jié)構(gòu)分析
2. 網(wǎng)絡(luò)協(xié)議
3. Beautiful Soup庫的介紹
4. 使用Beautiful Soup寫爬蟲
5. 使用requests和Beautiful Soup寫爬蟲
6. 定時自動執(zhí)行爬蟲程序
第二天
案例九:獲取電商網(wǎng)站的商品評論文本
案例十:獲取微博上用戶對指定關(guān)鍵詞的評論文本
第五講
Python爬蟲技術(shù)進(jìn)階
1. Ajax異步加載頁面的數(shù)據(jù)提取
2. XPath介紹
3. 正則表達(dá)式介紹
4. 利用scrapy框架獲取靜態(tài)頁面數(shù)據(jù)
5. 使用scrapy結(jié)合selenium、phantomjs獲取動態(tài)數(shù)據(jù)
6. 模擬瀏覽器登錄網(wǎng)站、繞開驗(yàn)證碼
第三天
案例十一:根據(jù)關(guān)鍵詞在社交網(wǎng)絡(luò)上抓取與汽車、3C產(chǎn)品的相關(guān)評論,使用自然語言處理技術(shù)做輿情分析、品牌形象評價、意見挖掘和情感分析,用于產(chǎn)品設(shè)計和營銷決策
第六講
文本挖掘入門
1. 介紹文本分詞的方法
2. 按詞性提取關(guān)鍵詞
第七講
產(chǎn)品形象分析和提及率分析
1. 提取與產(chǎn)品或品牌形象相關(guān)的描述
2. 了解自己與競品的提及率
第八講
用戶評價內(nèi)容分析
1. 構(gòu)建用戶評價指標(biāo)
2. 提取對應(yīng)指標(biāo)中的內(nèi)容
第九講
品牌形象和品牌性格分析
1. 品牌形象評價指標(biāo)的構(gòu)建
2. 從文本中自動提取出品牌形象各指標(biāo)值
第十講
意見挖掘和情感分析
1. 從用戶評價中提取用戶對事物的評價
2. 分析用戶對產(chǎn)品的態(tài)度和情感
       2017年7月21日-- 23日 北京理工大學(xué)(具體地點(diǎn)另行通知)
       (時間安排:外地參會人員7月20日報到,21日~23日正式會議,24日安排答疑)
       我們推出三種套餐,請根據(jù)自身需要選擇。以下價格含會議注冊費(fèi)、資料費(fèi)、場地費(fèi)。食宿費(fèi)用自理。
課程套餐
在職人員
學(xué)生
第一、二天:爬蟲技術(shù)
2200元/人
1700元/人
第三天:文本分析
1200元/人
900元/人
全三天課程:爬蟲技術(shù)+文本分析
3200元/人
2500元/人
       參與雪晴數(shù)據(jù)網(wǎng)獎學(xué)金計劃,更可以減免大筆學(xué)費(fèi),只要你足夠勤奮,可以免費(fèi)學(xué)!!
       針對雪晴數(shù)據(jù)網(wǎng)注冊用戶以及北京友萬信息科技有限公司的用戶,還有一定的優(yōu)惠,具體優(yōu)惠幅度請與工作人員咨詢。
       與會者可申請全國通信和信息技術(shù)創(chuàng)新人才培養(yǎng)工程《數(shù)據(jù)挖掘與分析應(yīng)用高級工程師》職業(yè)技術(shù)水平證書,通過考核后即可獲得證書,需另交考試費(fèi)、證書工本費(fèi)共400元。
       1. 為雪晴數(shù)據(jù)網(wǎng)(www.xueqing.tv)投稿的用戶(原創(chuàng)或翻譯文章),可以獲得代金券(按文章質(zhì)量,獎勵50到200元不等),以抵扣線上線下課程學(xué)費(fèi),投稿請聯(lián)系管理員 contact@xueqing.tv
       2. 注冊并登錄雪晴數(shù)據(jù)網(wǎng),進(jìn)入用戶中心,然后進(jìn)入邀請頁面(http://www.xueqing.tv/me/invite ),獲得邀請鏈接后,轉(zhuǎn)發(fā)給好友,如果對方成功注冊,雙方都可獲得獎勵,可抵扣學(xué)費(fèi)。
       3.累計五天(可不連續(xù))轉(zhuǎn)發(fā)本課程通知到自己朋友圈,并附上推薦理由,截圖發(fā)給我們的工作人員,報名可優(yōu)惠200元。
       1. 現(xiàn)場班老學(xué)員8折優(yōu)惠
       2. 三人以上同時報名9折優(yōu)惠
       3. 五人以上同時報名8折優(yōu)惠
       請?zhí)顚懕砀窈笥?月14日前,發(fā)送“報名回執(zhí)表+支付截圖”至郵箱:peixun@uone-tech.cn或直接發(fā)送給聯(lián)絡(luò)員,郵件主題為:“友萬科技python20170721+姓名+單位”。
方式一: 對公轉(zhuǎn)賬
       開戶名 繪辰科技(北京)有限公司
       開戶銀行 中國工商銀行股份公司北京大鐘寺東路支行
       賬號 0200151609100034763
方式二: 支付寶
       賬號 pay@xueqingtv.com
       戶名 繪辰科技(北京)有限公司
方式三: 現(xiàn)場繳費(fèi)
       外地學(xué)員請于7月20號提前報到,北京學(xué)員可于21號早上8點(diǎn)~8點(diǎn)半報到,繳費(fèi)并領(lǐng)取發(fā)票和紙質(zhì)邀請函,以及上課教材。
       由于21號早上現(xiàn)場人比較多,鼓勵北京學(xué)員也于20號報到。
       問:是否能開正規(guī)發(fā)票?
       —— 答:我們是正規(guī)公司,可以開具增值稅普通發(fā)票和增值稅專用發(fā)票,用戶根據(jù)需要來選擇發(fā)票類型。
       問:我是高校老師,是否可以到現(xiàn)場刷公務(wù)卡?
       —— 答:可以,我們有POS機(jī),可以打印小票。
       問:我是小白,完全不會編程,可以報名參加嗎?
       —— 答:你可以先看看我們網(wǎng)站的視頻課程入個門,再決定是否報名,另外,希望你有大學(xué)數(shù)學(xué)的基礎(chǔ),否則會很吃力。
       問:是否提供紙質(zhì)版會議邀請函?
       —— 答:提供,請與我們的工作人員聯(lián)系。
聯(lián)系人:陳潔老師
手機(jī)/微信:136-6072-3699
QQ :529698127       驗(yàn)證信息請?zhí)顚懹讶f科技Python培訓(xùn)
Email:peixun@uone-tech.cn
相關(guān)新聞鏈接:
第一屆Python爬蟲技術(shù)與機(jī)器學(xué)習(xí)實(shí)戰(zhàn)研討會圓滿落幕
                         全新升級?。ython實(shí)戰(zhàn)案例研討會:爬蟲與文本分析(雪晴數(shù)據(jù)網(wǎng))
                         Python爬蟲與文本分析應(yīng)用案例研討會報名回執(zhí)表下載
北京友萬信息科技有限公司,英文全稱:Beijing Uone Info&Tech Co.,Ltd ( Uone-Tech )是中國大陸領(lǐng)先的教育和科學(xué)軟件分銷商,已在中國300多所高校建立了可靠的分銷渠道。擁有最成功的教學(xué)資源和數(shù)據(jù)管理專家。如需申請軟件采購及老版本更新升級請聯(lián)系我們,咨詢熱線:010-56548231 ,咨詢郵箱:info@uone-tech.cn 感謝您的支持與關(guān)注。