当前位置: 首页 > 常见问题

poi数据爬取,城市poi数据类型

  • 常见问题
  • 2023-08-22

poi数据爬取?1、首先在百度地图开发者申请开发者密匙,申请结果如图;2、在百度地图开发中找到开发-web服务API,如图;3、在web服务API中找到Place API,并进入其页面,如图;4、查阅页面中place检索示例,如图;5、其中,那么,poi数据爬取?一起来了解一下吧。

poi数据库

Github仓库地址为 https://github.com/WanZixin/SinaWeibo-LocationSignIn-spider

共有两大功能,一个功能是根据高德地图web服务API获取行政区划坐标串卜轿,写入行政区shp文件;另一个功能是根据高德地图的接口获取poi坐标串,写入aoi(area of interest)的shp文件。

lib文件夹 ,包含两个xls文件,分别是高德地图的城市编码表和POI分类编码表。

result/district_shp文件夹 ,用于存储生成的行政区shp文件颤团。

result/aoi_shp文件夹 ,用于存储生成的aoi的shp文件。

config.ini文件 ,配置文件,填写高德地图web服务的key;填写要爬取的poi的类别编型洞肆码;填写爬取城市的adcode。

getPoiShp.py文件 ,生成指定专题、指定城市的aoi的shp文件。

getDistrictShp.py文件 ,生成行政区划shp文件。

百度poi数据爬取插件

代码实例:

package edu.sjtu.erplab.poi;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.IOException;

import java.io.InputStream;

import java.text.SimpleDateFormat;

import java.util.Date;

import java.util.HashMap;

import java.util.Map;

import org.apache.poi.hssf.usermodel.HSSFCell;

import org.apache.poi.hssf.usermodel.HSSFDateUtil;

import org.apache.poi.hssf.usermodel.HSSFRow;

import org.apache.poi.hssf.usermodel.HSSFSheet;

import org.apache.poi.hssf.usermodel.HSSFWorkbook;

import org.apache.poi.poifs.filesystem.POIFSFileSystem;

/启返前**

* 操作Excel表世轿格的功能类

*/

public class ExcelReader {

private POIFSFileSystem fs;

private HSSFWorkbook wb;

private HSSFSheet sheet;

private HSSFRow row;

/**

* 读取Excel表格表头的内容

* @param InputStream

* @return String 表头内容的数组

*/

public String[] readExcelTitle(InputStream is) {

try {

fs = new POIFSFileSystem(is);

wb = new HSSFWorkbook(fs);

} catch (IOException e) {

e.printStackTrace();

}

sheet = wb.getSheetAt(0);

row = sheet.getRow(0);

// 标题总列数

int colNum = row.getPhysicalNumberOfCells();

System.out.println("colNum:" + colNum);

String[] title = new String[colNum];

for (int i = 0; i < colNum; i++) {

//title[i] = getStringCellValue(row.getCell((short) i));

title[i] = getCellFormatValue(row.getCell((short) i));

}

return title;

}

/**

* 读取Excel数据内容

* @param InputStream

* @return Map 包含单元悄清格数据内容的Map对象

*/

public Map readExcelContent(InputStream is) {

Map content = new HashMap();

String str = "";

try {

fs = new POIFSFileSystem(is);

wb = new HSSFWorkbook(fs);

} catch (IOException e) {

e.printStackTrace();

}

sheet = wb.getSheetAt(0);

// 得到总行数

int rowNum = sheet.getLastRowNum();

row = sheet.getRow(0);

int colNum = row.getPhysicalNumberOfCells();

// 正文内容应该从第二行开始,第一行为表头的标题

for (int i = 1; i <= rowNum; i++) {

row = sheet.getRow(i);

int j = 0;

while (j < colNum) {

// 每个单元格的数据内容用"-"分割开,以后需要时用String类的replace()方法还原数据

// 也可以将每个单元格的数据设置到一个javabean的属性中,此时需要新建一个javabean

// str += getStringCellValue(row.getCell((short) j)).trim() +

// "-";

str += getCellFormatValue(row.getCell((short) j)).trim() + "";

j++;

}

content.put(i, str);

str = "";

}

return content;

}

/**

* 获取单元格数据内容为字符串类型的数据

*

* @param cell Excel单元格

* @return String 单元格数据内容

*/

private String getStringCellValue(HSSFCell cell) {

String strCell = "";

switch (cell.getCellType()) {

case HSSFCell.CELL_TYPE_STRING:

strCell = cell.getStringCellValue();

break;

case HSSFCell.CELL_TYPE_NUMERIC:

strCell = String.valueOf(cell.getNumericCellValue());

break;

case HSSFCell.CELL_TYPE_BOOLEAN:

strCell = String.valueOf(cell.getBooleanCellValue());

break;

case HSSFCell.CELL_TYPE_BLANK:

strCell = "";

break;

default:

strCell = "";

break;

}

if (strCell.equals("") || strCell == null) {

return "";

}

if (cell == null) {

return "";

}

return strCell;

}

/**

* 获取单元格数据内容为日期类型的数据

*

* @param cell

*Excel单元格

* @return String 单元格数据内容

*/

private String getDateCellValue(HSSFCell cell) {

String result = "";

try {

int cellType = cell.getCellType();

if (cellType == HSSFCell.CELL_TYPE_NUMERIC) {

Date date = cell.getDateCellValue();

result = (date.getYear() + 1900) + "-" + (date.getMonth() + 1)

+ "-" + date.getDate();

} else if (cellType == HSSFCell.CELL_TYPE_STRING) {

String date = getStringCellValue(cell);

result = date.replaceAll("[年月]", "-").replace("日", "").trim();

} else if (cellType == HSSFCell.CELL_TYPE_BLANK) {

result = "";

}

} catch (Exception e) {

System.out.println("日期格式不正确!");

e.printStackTrace();

}

return result;

}

/**

* 根据HSSFCell类型设置数据

* @param cell

* @return

*/

private String getCellFormatValue(HSSFCell cell) {

String cellvalue = "";

if (cell != null) {

// 判断当前Cell的Type

switch (cell.getCellType()) {

// 如果当前Cell的Type为NUMERIC

case HSSFCell.CELL_TYPE_NUMERIC:

case HSSFCell.CELL_TYPE_FORMULA: {

// 判断当前的cell是否为Date

if (HSSFDateUtil.isCellDateFormatted(cell)) {

// 如果是Date类型则,转化为Data格式

//方法1:这样子的data格式是带时分秒的:2011-10-12 0:00:00

//cellvalue = cell.getDateCellValue().toLocaleString();

//方法2:这样子的data格式是不带带时分秒的:2011-10-12

Date date = cell.getDateCellValue();

SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");

cellvalue = sdf.format(date);

}

// 如果是纯数字

else {

// 取得当前Cell的数值

cellvalue = String.valueOf(cell.getNumericCellValue());

}

break;

}

// 如果当前Cell的Type为STRIN

case HSSFCell.CELL_TYPE_STRING:

// 取得当前的Cell字符串

cellvalue = cell.getRichStringCellValue().getString();

break;

// 默认的Cell值

default:

cellvalue = " ";

}

} else {

cellvalue = "";

}

return cellvalue;

}

public static void main(String[] args) {

try {

// 对读取Excel表格标题测试

InputStream is = new FileInputStream("d:\\test2.xls");

ExcelReader excelReader = new ExcelReader();

String[] title = excelReader.readExcelTitle(is);

System.out.println("获得Excel表格的标题:");

for (String s : title) {

System.out.print(s + " ");

}

// 对读取Excel表格内容测试

InputStream is2 = new FileInputStream("d:\\test2.xls");

Map map = excelReader.readExcelContent(is2);

System.out.println("获得Excel表格的内容:");

for (int i = 1; i <= map.size(); i++) {

System.out.println(map.get(i));

}

} catch (FileNotFoundException e) {

System.out.println("未找到指定路径的文件!");

e.printStackTrace();

}

}

}

3.总结

因为excel单元格中的内容往往都有一定的格式,比如日期型,数字型,字符串型,因此在读取的时候要进行格式判断,不然会出现错误。

爬取poi

八爪鱼采集器可以帮助您爬取数据并导出为Excel、CSV、HTML等格式的文件,但不支持直接导出为shp文件。如果您需要将数据导出为shp文件,可以使用其他数据处理,如ArcGIS、QGIS等,将导出的数据文件进行转换和处理,生成shp文件。八衫铅爪鱼采集器提陵塌没供了丰富的数据导出选项,可以将采集到的数据保存为Excel、CSV等格式,方便您进行后续的数据处理和分析。同时,八爪鱼采集器还支持将数据导出到数据库中,方便您进行更复杂的数据操作和管尺纳理。八爪鱼采集器为用户准备了一系列简洁易懂的教程,帮助大家快速掌握采集技巧,轻松应对各类网站数据采集,请前往教程与帮助了解更多详情。

poi热点数据爬取

Scrapy。使用Scrapy进陵孝行数据爬取,MySQL存储数据,Django写后端服务,PyEcharts制作衡汪前可视化图表。咐清

规划云poi

八爪鱼采集器可以抓取地图搜索关键字出现的文本信息,橘备采集规则为翻页列表采集。您可以使用八爪鱼采集器来采集地图上的POI(兴趣点)信息,如商铺名称、地址、电话等。但需要注意的是,八爪鱼无法对FLASH网页进行采集。八爪鱼采集器客户端提供了百度地图模板,用户可直接使用。如羡做果您需要采集其他地图数据,可以根据具体的网页结构和数据展示方式,自定义采集规则。八爪鱼采集器是一款圆派毁功能全面、操作简单、适用范围广泛的互联网数据采集器。如果您需要采集地图数据或其他数据,八爪鱼采集器可以为您提供智能识别和灵活的自定义采集规则设置,帮助您快速获取所需的数据。了解更多八爪鱼采集器的功能与合作案例,请前往了解更多详情。

以上就是poi数据爬取的全部内容,八爪鱼采集器可以帮助您爬取数据并导出为Excel、CSV、HTML等格式的文件,但不支持直接导出为shp文件。如果您需要将数据导出为shp文件,可以使用其他数据处理,如ArcGIS、QGIS等,将导出的数据文件进行转换和处理。

猜你喜欢