職位描述
崗位職責:
1.負責采集任務的分析及采集方案設計;
2.負責定向網站相關渠道的數據采集;
3.負責相關數據的采集、去重、清洗、分析、轉換與入庫;
5.完成上級安排的數據采集相關工作。
崗位要求:
1.兩年以上python開發經驗,熟悉常用的信息抓取策略;
2.熟悉信息抓取和整合技術,從結構化和非結構化的數據中獲取信息;
3.熟悉正則表達式
4.熟悉Mongodb、HBase、HIVE等NoSQL數據庫、Mysql數據庫,了解關系型數據庫優先;
5.熟悉大規模網頁爬取,深度網頁爬取,熟悉Scrapy、Pyspider等工具優先考慮;
6.理解http,熟悉html, DOM, xpath優先;
7.有責任心,學習能力強,良好的團隊合作精神,對工作有熱情;
8.本科以上學歷,數學、統計學、計算機等相關專業。
企業介紹
PatSnap is a disruptive market leading provider of intellectual property
analytics, for analysing technology trends, accelerating innovation, market
planning, competitor intelligence and maximising returns on existing and new
IP assets. It is used by over 3000 organisations globally including Nasa, GE,
Lego, Vodafone, Ferrari, Siemens, Xiaomi and China Mobile. The company is
backed by world class venture capital firms such as Sequoia, Summit
Partners, Shunwei and Vertex Ventures. With an impressive revenue growth
rate of 1078% from 2014 to 2016, PatSnap was ranked 44 on “Deloitte
Technology Fast 500”.
智慧芽是一家全球領先的知識產權信息服務(SaaS)提供商,基于專利大數據,
幫助分客戶析和了解最新技術發展趨勢并加速創新、獲取競爭對手情報、科學
進行市場布局以及實現知識產權價值最大化,提高企業核心競爭力。目前全球
已有超過3000 多機構和企業成為智慧芽的客戶,如美國宇航局、通用、樂高、
沃達豐、法拉利、西門子、小米、中國移動等。智慧芽得到了包括紅杉、頂峰
投資、順為、淡馬錫祥峰基金等世界頂級風險投資機構的青睞和投資。2014~
2016 年,智慧芽的營業收入以超過1078%的增長率快速發展,被評為德勤亞太
區高科技高成長500 強企業,并獲得第44 位的優質排名。