職位描述
崗位描述:
1. 負責分布式網絡爬蟲系統的架構設計與開發;
2. 負責爬蟲核心算法的策略優化研發,優化搜索、匹配、任務調度、抓取,充分利用資源,提升程序性能及效率;
3. 研發防屏蔽規則,避免限制,提升抓取的效率和質量;
4. 能獨立解決實際開發過程碰到的各類問題,進行技術分享與培訓;
任職要求:
1. 3年以上垂直搜索爬蟲,分布式網絡爬蟲開發經驗,至少獨立負責過1個完整爬蟲項目;
2. 至少精通一門編程語言(Python或Java等);
3. 熟悉爬蟲相關技術,正則表達式/css path/xpath/驗證碼加密處理/身份限制/代理池等,能夠從結構化的和非結構化的數據中獲取信息;
4. 精通一種開源爬蟲框架,如scrapy、webmagic、nutch、heritrix等,有開發爬蟲框架經驗優先;熟悉反爬蟲、驗證碼識別技術者優先;
5. 抓取策略熟悉(深度優先遍歷策略/寬度優先遍歷策略/反向鏈接數策略/Partial PageRank策略/OPIC策略策略/大站優先策略等);
6. 善于總結,積極主動學習新技術,熱愛爬蟲工作,直面困難敢于承擔責任,有較強的溝通的能力和理解能力,有較強的抗壓能力。
企業介紹
PatSnap is a disruptive market leading provider of intellectual property
analytics, for analysing technology trends, accelerating innovation, market
planning, competitor intelligence and maximising returns on existing and new
IP assets. It is used by over 3000 organisations globally including Nasa, GE,
Lego, Vodafone, Ferrari, Siemens, Xiaomi and China Mobile. The company is
backed by world class venture capital firms such as Sequoia, Summit
Partners, Shunwei and Vertex Ventures. With an impressive revenue growth
rate of 1078% from 2014 to 2016, PatSnap was ranked 44 on “Deloitte
Technology Fast 500”.
智慧芽是一家全球領先的知識產權信息服務(SaaS)提供商,基于專利大數據,
幫助分客戶析和了解最新技術發展趨勢并加速創新、獲取競爭對手情報、科學
進行市場布局以及實現知識產權價值最大化,提高企業核心競爭力。目前全球
已有超過3000 多機構和企業成為智慧芽的客戶,如美國宇航局、通用、樂高、
沃達豐、法拉利、西門子、小米、中國移動等。智慧芽得到了包括紅杉、頂峰
投資、順為、淡馬錫祥峰基金等世界頂級風險投資機構的青睞和投資。2014~
2016 年,智慧芽的營業收入以超過1078%的增長率快速發展,被評為德勤亞太
區高科技高成長500 強企業,并獲得第44 位的優質排名。