Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

无法抓取中国知网的元数据 #379

Closed
4 of 15 tasks
waxila opened this issue Sep 6, 2024 · 14 comments
Closed
4 of 15 tasks

无法抓取中国知网的元数据 #379

waxila opened this issue Sep 6, 2024 · 14 comments
Assignees
Labels
bug Something isn't working CNKI duplicate This issue or pull request already exists invalid This doesn't seem right more information needed

Comments

@waxila
Copy link

waxila commented Sep 6, 2024

你遇到了什么问题? [必填]

  • 无法识别条目
  • 无法保存条目
  • 无法下载附件
  • 缺少字段、字段错误
  • 其他

发生问题的链接 [必填]
在此填写链接
问题描述 [必填]
点击元数据抓取没有反应
你的预期结果

浏览器

  • Chrome(谷歌浏览器)
  • FireFox(火狐浏览器)
  • Edge
  • Safari
  • 其他

自查清单

  • 我已经按照教程将翻译器更新到最新版
  • 我尝试过重启浏览器、Zotero或电脑
  • 我使用VPN访问
  • 我使用校园网直接访问
  • 我在海外访问

附件
如Connector报错记录(建议粘贴代码格式):
[JavaScript Error: "HTTP request to http://127.0.0.1:23119/connector/getTranslatorCode has timed out after 15000ms" {file: "chrome-extension://nmhdhpibnnopknkmonacoephklnflpho/zotero.js" line: 314}]

[JavaScript Error: "Missing property "translatorID" in translator metadata JSON object in undefined
Error: Missing property "translatorID" in translator metadata JSON object in undefined
at Zotero.Translator.init (chrome-extension://nmhdhpibnnopknkmonacoephklnflpho/translate/translator.js:83:18)
at new Zotero.Translator (chrome-extension://nmhdhpibnnopknkmonacoephklnflpho/translate/translator.js:73:7)
at Object.postReceive (chrome-extension://nmhdhpibnnopknkmonacoephklnflpho/messages.js:78:13)
at chrome-extension://nmhdhpibnnopknkmonacoephklnflpho/messaging_inject.js:85:48
at async Object.Translators.get (chrome-extension://nmhdhpibnnopknkmonacoephklnflpho/messagingGeneric.js:114:16)
at async chrome-extension://nmhdhpibnnopknkmonacoephklnflpho/messagingGeneric.js:141:62" {file: "[object Object]"}]

[JavaScript Error: "Missing property "translatorID" in translator metadata JSON object in undefined
Error: Missing property "translatorID" in translator metadata JSON object in undefined
at Zotero.Translator.init (chrome-extension://nmhdhpibnnopknkmonacoephklnflpho/translate/translator.js:83:18)
at new Zotero.Translator (chrome-extension://nmhdhpibnnopknkmonacoephklnflpho/translate/translator.js:73:7)
at Object.postReceive (chrome-extension://nmhdhpibnnopknkmonacoephklnflpho/translateSandbox/translateSandboxFunctionOverrides.js:85:12)
at fn. [as get] (chrome-extension://nmhdhpibnnopknkmonacoephklnflpho/messagingGeneric.js:87:44)" {file: "[object Object]"}]

@waxila waxila added the bug Something isn't working label Sep 6, 2024
@jiaojiaodubai
Copy link
Collaborator

我感觉是老旧的茉莉花下了错误的文件

@Thinkaboutzu9
Copy link

我感觉是老旧的茉莉花下了错误的文件

请问要怎么解决呢

@jiaojiaodubai
Copy link
Collaborator

你检查一下,使用最新版茉莉花更新过translator了吗?“编辑—设置—高级—文件和文件夹—数据存储路径”里面的translators文件夹里有没有CNKI.js,以及这个文件用记事本打开是否和本仓库的内容一致。

@Thinkaboutzu9
Copy link

Thinkaboutzu9 commented Sep 18, 2024 via email

@jiaojiaodubai
Copy link
Collaborator

-16 确有兼容性问题,等待更新

@jiaojiaodubai
Copy link
Collaborator

可以识别条目吗?

@Ants-Movers
Copy link

Ants-Movers commented Sep 25, 2024

@jiaojiaodubai
这一问题依旧存在,依旧无法识别。我不知道楼主是啥情况,本人茉莉花更新到1.0.0-17,知网转换器为最新,目前表现为从网页抓取,可以读取元数据,但无法下载PDF;从PDF导入,无法读取任何元数据。

@jiaojiaodubai
Copy link
Collaborator

@Ants-Movers

  • 网页上元数据可抓取,PDF 无法下载,参考 关于知网(在校园网)无法下载PDF附件的说明 #252 自行排查
  • 茉莉花拖入 PDF 无法生成条目,因为茉莉花是从你的PDF文件名中提取标题,然后后台到知网搜索、抓取,有些 PDF 抓不出来很正常(可能你的PDF文件名根本不含标题,或者知网本身按这个标题搜不到),此法向来不保证 100% 成功率。

@Ants-Movers
Copy link

@jiaojiaodubai
1.关于排查,我之前已经尝试过你文档中所提到的方法,已验证过知网的学校组织帐号校外登录,并且手动下载未遭遇问题,且没有弹出验证码。插件无论是什么情况,下载都显示的是Full Text PDF。目前就是采用的通过插件抓取元数据,手动下载PDF后,添加到 Zotero 中抓取好的条目。
2.关于茉莉花拖入PDF无法生成入口,同样的,我知道是从PDF文件名中提取标题,我试过更改我PDF的命名规则和茉莉花的提取规则,甚至我试验过不完整的标题(比如,原文标题是“qwe的asd研究_zxc”,试验过修改抓取规则后的“qwe的asd研究”、“qwe的asd”)。同样的,我试验过近50篇文献,全部无法抓取。而他们的标题,都是直接知网下载的格式,符合茉莉花的抓取标准。

@jiaojiaodubai
Copy link
Collaborator

显示 “Full Text PDF”是正常的,红叉的话参考前面的文档排查原因。
茉莉花将在下一个大版本中优化PDF元数据抓取,敬请期待

@Ants-Movers
Copy link

@jiaojiaodubai
1.关于茉莉花导入,可以先放一放,等下一个大版本。
2.关于显示 “Full Text PDF”的排查,我真的是一条条试过了。

以下是你帮助文档的所有方法:

1.确保你已经登录了具有下载权限的帐号;
(学校机构权限,已确认)
2.如果可以,尽量在知网官网,然后依次点击右上角的“机构登录—校外访问”来登录。
(已经是校外访问了)
3.如果有条件,尽量直接使用校园网访问,而不是使用 VPN;
(未使用VPN)
4.不要过度依赖翻译器的附件下载功能,因为过于频繁的下载请求可能会触发知网的反爬虫机制导致帐号封禁;
(第一次下载就失败了)
5.偶尔不能下载附件时,先尝试手动下载,如果跳出验证码,那就是你的账户本身有问题;
(手动下载无验证码)
6.有时,经过手动下载后,知网似乎会将你判定为真人操作,后续都能自动抓取;
(已试过手动下载后,抓取下载仍然失败)
7.及时刷新网页;
(试过了)
8.对于海外用户,目前知网的 Translator 已经支持多个语言版本(英文版简体中文版繁体中文版),没有必要先绕 VPN 回到国内了;
(国内用户)
9.对于 VPN 用户,参考这里进行代理设置;
(未使用VPN)
10.对于使用电商平台的用户,选择那些能从搜索结果点进详情页的入口;
(校园用户)
11.对于 macOS 用户,不要使用 Safari(因为它对 Connector 扩展的行为有较多约束),尝试使用火狐浏览器;
(win10)
12.参考此处教程进行更新,如果无效再来本仓库反馈。
(已更新最新版本)

另外提到一点,所抓取生成的条目链接网址貌似和原网址有一定差距:
zotero中条目指向的知网网址只能进行CAJ文件下载,实际我抓取的网页提供在线阅读和PDF下载

@jiaojiaodubai
Copy link
Collaborator

显示“Full Text PDF”是特性,不是bug,显示红叉是异常。

所抓取生成的条目链接网址貌似和原网址有一定差距

采用的是易于引用的短链接(其实是旧版知网)

@Ants-Movers
Copy link

@jiaojiaodubai 那下一步怎么排查

@jiaojiaodubai
Copy link
Collaborator

企鹅群问吧

@jiaojiaodubai jiaojiaodubai closed this as not planned Won't fix, can't repro, duplicate, stale Sep 29, 2024
@jiaojiaodubai jiaojiaodubai added duplicate This issue or pull request already exists invalid This doesn't seem right labels Sep 29, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working CNKI duplicate This issue or pull request already exists invalid This doesn't seem right more information needed
Projects
None yet
Development

No branches or pull requests

4 participants