Policy:User-Agent policy/zh
本頁面僅提供反映了當前狀態的信息,如需討論此主題請移步wikitech-l郵件組。 |
自2010年2月15日起,維基媒體網站要求所有請求必須包含User-Agent(用戶代理)HTTP頭欄位。此決定由技術人員作出,並且在技術郵件組中發佈並討論了這個決定[1][2]。對此的解釋是,沒有在請求中包含User-Agent字符串的客戶端基本都是運行有錯誤的代碼,並且給服務器造成很多負擔,而沒有對這個維基項目做出貢獻。注意:一些沒有説明作用的User-Agent默認值亦將會被維基媒體網站屏蔽(或者其一部分,例如api.php頁面),例如Perl語言的libwww庫。
不提供User-Agent請求頭的客戶代理(瀏覽器或腳本)現在可能會遇到如下所示之錯誤訊息:
- 腳本應該使用可提供信息的User-Agent字符串,並在其中包括聯絡訊息,否則這些腳本所在IP可能在無通知的情況被封禁。
提供被拉黑的User-Agent(例如任何以「lwp」開頭的User-Agent字符串)的客戶代理可能會遇到如下不太有用的錯誤訊息:
- "我們的伺服器目前遇到了技術問題,可能是臨時的並且很快會被修復。請幾分鐘後再試。"
這項改動最可能影響通過api.php或其他方式自動訪問Wikimedia的腳本(機械人)和命令行程式。[3]如果你執行一個機械人,請在請求頭中包含能夠標識此機械人的User-Agent,並且不與很多其他機械人衝突。並且在其中包含你的聯絡方式(例如本地維基上的用戶頁,使用跨維基鏈接語法的相關維基項目的用戶頁,一個相關外部站點的URI,或是電郵地址),舉例如下:
User-Agent: CoolTool/0.0 (https://example.org/cool-tool/; cool-tool@example.org) generic-library/0.0
The generic format is <client name>/<version> (<contact information>) <library/framework name>/<version> [<library name>/<version> ...]
. Parts that are not applicable can be omitted.
如果你執行一個自動代理,請考慮按照互聯網慣例在User-Agent中包括「bot」(不限大小寫)。這會被Wikimedia的系統識別,被用於將流量分類,並且提供更精確的統計數據。
不要拷貝瀏覽器上的的客戶代理字符串,行爲像機械人但是具有瀏覽器的客戶代理的行爲將被視爲有害。[4]亦不要使用通用代理,例如「curl」、「lwp」和「Python-urllib」等等。像pywikibot這樣的大型框架有很多用戶在用,僅僅使用「pywikibot」很可能比較模糊。在其中包含具體任務、腳本等細節通常是個好主意,即使這些信息對操作者外的其他人是模糊的。[5]
更多信息請移步MediaWiki API 文檔。[6]
網絡瀏覽器一般會自動包括User-Agent字符串,如果你遭遇上述錯誤,請參閲所使用瀏覽器的用戶手冊修改User-Agent字符串。請注意某些插件或私隱保護代理可能消除這個頭部。建議使用一個一般的User-Agent字符串,而不是消除之或留空。請注意其他特性更有可能被網站用於確定你的身份:如閣下對保護私隱感興趣,請瀏覽Panopticlick project。
以Flash或JavaScript編寫的基於瀏覽器的應用通常是強制與宿主瀏覽器的User-Agent頭部相同,這不被視爲違規,然而這些程序應該包含Api-User-Agent
頭部來實現合適的用戶代理信息。
自2015年始,維基媒體站點不屏蔽未設置用戶代理頭的頁面訪問和API請求。因此這些要求沒有被自動強制執行,但是如有需要,在某些特定情況下可能被強制執行。[7]
備註
- ↑ The Wikitech-l February 2010 Archive by subject
- ↑ User-Agent: | Wikipedia | Wikitech
- ↑ API:FAQ - MediaWiki
- ↑ [Wikitech-l] User-Agent:
- ↑ Anomie (31 July 2014). "Clarification on what is needed for "identifying the bot" in bot user-agent?". Mediawiki-api.
- ↑ As an example (among other examples) of how to set a user-agent, in PHP, one might use the following, if one's cURL handle is
$ch
:舉個在PHP中設置用戶代理的例子(更多例子):可能使用如下用戶代理,如果它的cURL句柄是curl_setopt($ch, CURLOPT_USERAGENT , 'CoolTool/0.0 (https://example.org/cool-tool/; cool-tool@example.org) generic-library/0.0');
$ch
:curl_setopt($ch, CURLOPT_USERAGENT , 'CoolTool/0.0 (https://example.org/cool-tool/; cool-tool@example.org) generic-library/0.0');
- ↑ gmane.science.linguistics.wikipedia.technical/83870 (deadlink)
參見
- Policy for crawlers and bots that wish to operate on Wikimedia websites