职位要求
1.负责爬虫软件工具和爬虫技术的选取;
2.负责爬虫采集器设计、开发、优化;
3.实现各种互联网来源的数据标准化处理入库。
任职要求
1.本科及以上学历,能力优秀者可放宽到大专学历;
2.精通HTTP协议,熟悉各种WEB认证机制,掌握nutch\\\\solr\\\\lucene\\\\heritrix等工具优先考虑;
3.一年以上JAVA/PYTHON使用开发经验,熟悉数据库架构,在PDF文本化、表格提取、图像OCR、文本清理、智能识别某一方面有一定的特长;
4.工作认真负责,能够快速学习各种新技术,有强烈的专研精神和独立解决问题能力。