Path: csiph.com!aioe.org!.POSTED!not-for-mail From: =?UTF-8?Q?Arne_Vajh=c3=b8j?= Newsgroups: dk.edb.database Subject: Re: Sikring af website mod botter der kopierer databaser Date: Mon, 15 Jan 2018 11:46:49 -0500 Organization: Aioe.org NNTP Server Lines: 34 Message-ID: References: NNTP-Posting-Host: PBuS014lhzVyHjLbXmo/ZQ.user.gioia.aioe.org Mime-Version: 1.0 Content-Type: text/plain; charset=utf-8; format=flowed Content-Transfer-Encoding: 8bit X-Complaints-To: abuse@aioe.org User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Thunderbird/52.5.2 X-Notice: Filtered by postfilter v. 0.8.2 Content-Language: en-US Xref: csiph.com dk.edb.database:1384 On 1/15/2018 12:53 AM, Kurt Hansen wrote: > Den 13/01/2018 kl. 19.36 skrev Arne Vajhøj: >> Brugere automatiserer henting af data fra dit web interface >> (sceeen scraping style): principielt ikke muligt at gardere sig >> 100% imod, men du kan gøre det lidt besværligt for dem - >> begrænse hvor mange resultater du returnerer ved søgning, >> lade funktionaliteten afhænge af at JavaScript bliver udført >> client side, vise billeder i.s.f. text, lidt CAPTCHA her >> og der etc.. > > Her er et dugfrisk eksempel som jeg lige har modtaget fra en bekendt: > (TNG er et program til præsentation af sin stamtræ på nettet). > > - - - > Lige et klip fra TNG på Facebook > Opdatering: Fik ikke stoppet denne IP før der var gået 16 timer med > 49606 besøg. Se advarsel på AbuseIPDB. > Vil lige bringe en advarsel over tidsrummet fra 2018-01-13 04:24:00 til > 2018-01-13 10:48:04 altså godt 5 timer har min egen udviklet Site Access > Manager ( SAM ) logget en crawler fra Snapback AB der har udført 19241 > kald for at udføre data scraping (kopiering uden tilladelse). Den > besøgende crawler er nu blocked i HTaccess. Data om synderen kan læses her: > > Der er en slægtsforskningsgruppe på Facebook for Mors og Thy. Ikke så > meget aktivitet. Det kunne automatiseres d.v.s. at web applikationen tracker antal requests per IP addresse per tidsenhed og afviser hvis over X. Bare vær klar over at X bliver arbitrær og det ikke er umuligt at crawle via et stort antal forskellige IP adresser, hvis man vil omgå den slags check. Arne