Groups > pl.comp.programming > #28057 > unrolled thread

Wykrywanie plagiatów offline

Started by	Borneq <borneq@antyspam.hidden.pl>
First post	2015-11-24 11:52 +0100
Last post	2015-11-26 19:21 +0100
Articles	20 on this page of 27 — 5 participants

Back to article view | Back to pl.comp.programming

  Wykrywanie plagiatów offline Borneq <borneq@antyspam.hidden.pl> - 2015-11-24 11:52 +0100
    Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-24 03:17 -0800
      Re: Wykrywanie plagiatów offline bartekltg <bartekltg@gmail.com> - 2015-11-24 14:21 +0100
        Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-24 06:07 -0800
          Re: Wykrywanie plagiatów offline bartekltg <bartekltg@gmail.com> - 2015-11-24 15:14 +0100
            Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-24 06:36 -0800
              Re: Wykrywanie plagiatów offline szemrany <szemrany@offline.off> - 2015-11-24 22:54 +0100
    Re: Wykrywanie plagiatów offline platformowe głupki <NOSPAMtestowanije@go2.pl> - 2015-11-24 16:24 +0100
      Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-24 08:09 -0800
        Re: Wykrywanie plagiatów offline bartekltg <bartekltg@gmail.com> - 2015-11-24 17:17 +0100
          Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-24 08:37 -0800
            Re: Wykrywanie plagiatów offline bartekltg <bartekltg@gmail.com> - 2015-11-25 00:43 +0100
              Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-25 02:45 -0800
              Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-25 03:26 -0800
                Re: Wykrywanie plagiatów offline bartekltg <bartekltg@gmail.com> - 2015-11-25 13:03 +0100
                  Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-25 04:19 -0800
                    Re: Wykrywanie plagiatów offline bartekltg <bartekltg@gmail.com> - 2015-11-25 13:28 +0100
                      Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-25 04:30 -0800
      Re: Wykrywanie plagiatów offline bartekltg <bartekltg@gmail.com> - 2015-11-24 17:16 +0100
        Re: Wykrywanie plagiatów offline platformowe głupki <NOSPAMtestowanije@go2.pl> - 2015-11-24 20:01 +0100
          Re: Wykrywanie plagiatów offline szemrany <szemrany@offline.off> - 2015-11-24 22:56 +0100
            Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-24 14:00 -0800
              Re: Wykrywanie plagiatów offline szemrany <szemrany@offline.off> - 2015-11-24 23:06 +0100
                Re: Wykrywanie plagiatów offline platformowe głupki <NOSPAMtestowanije@go2.pl> - 2015-11-26 18:20 +0100
                  Re: Wykrywanie plagiatów offline szemrany <szemrany@offline.off> - 2015-11-26 19:14 +0100
                    Re: Wykrywanie plagiatów offline platformowe głupki <NOSPAMtestowanije@go2.pl> - 2015-11-26 19:15 +0100
                      Re: Wykrywanie plagiatów offline platformowe głupki <NOSPAMtestowanije@go2.pl> - 2015-11-26 19:21 +0100

Page 1 of 2 [1] 2 Next page →

#28057 — Wykrywanie plagiatów offline

From	Borneq <borneq@antyspam.hidden.pl>
Date	2015-11-24 11:52 +0100
Subject	Wykrywanie plagiatów offline
Message-ID	<n31fgq$n0t$1@node2.news.atman.pl>

Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie 
dwóch plików : źródłowego i wynikowego, źródłowych może być kilka, 
zresztą wynikowych też.
I ma powiedzieć ile procent z tego jest plagiatu i wskazać te miejsca.
Do porównywania tekstów służy najdłuższy wspólny podciąg, ale tutaj jest 
bezużyteczny.
Bo np. mam tekst, dzielę go na 5 bloków (rozdziałów), mieszam ich 
kolejność i mam wynikowy plik.
Detektor powinien w takim wypadku powiedzieć że 100% tekstu jest 
plagiatem, w jakiś sposób rozpoznając początki i końce bloku.
A teraz zmieniam jedno słowo w bloku; nie powinien traktować bloków jako 
różne ale jako prawie podobne, mógłby też podzielić ten blok na dwa i 
stwierdzić że skoro bloki 3 i 4 w jednym pliku występują jako 3 i 4 w 
drugim w tej kolejności to jest to jeden blok z małą zmianą.
Ewentualne rozszerzenia to słownik synonimów, ale w języku polskim 
trudność z uwagi na odmianę słów, zarówno słowo się odmieni jak i jego 
synonim.

[toc] | [next] | [standalone]

#28060

From	"M.M." <mmarszik@gmail.com>
Date	2015-11-24 03:17 -0800
Message-ID	<01f4724f-0174-4caa-89b1-92c3b094bda6@googlegroups.com>
In reply to	#28057

On Tuesday, November 24, 2015 at 11:52:11 AM UTC+1, Borneq wrote:
> Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie 
> [...]
> synonim.

Zamieszczanie cytatów to jeszcze nie plagiat. Nie wiem czy istnieje algorytm
który rozpozna cytaty w teksie i odróżni je od plagiatów.

Pozdrawiam

[toc] | [prev] | [next] | [standalone]

#28061

From	bartekltg <bartekltg@gmail.com>
Date	2015-11-24 14:21 +0100
Message-ID	<n31o9c$vb0$1@node2.news.atman.pl>
In reply to	#28060

On 24.11.2015 12:17, M.M. wrote:
> On Tuesday, November 24, 2015 at 11:52:11 AM UTC+1, Borneq wrote:
>> Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie
>> [...]
>> synonim.
>
> Zamieszczanie cytatów to jeszcze nie plagiat. Nie wiem czy istnieje algorytm
> który rozpozna cytaty w teksie i odróżni je od plagiatów.

To nie są programy bezobsługowe, ale narzędzia dla człowieka.

pzdr
bartekltg

[toc] | [prev] | [next] | [standalone]

#28062

From	"M.M." <mmarszik@gmail.com>
Date	2015-11-24 06:07 -0800
Message-ID	<a8d22a54-d7ea-4942-89ed-84d7b123f691@googlegroups.com>
In reply to	#28061

On Tuesday, November 24, 2015 at 2:21:50 PM UTC+1, bartekltg wrote:
> On 24.11.2015 12:17, M.M. wrote:
> > On Tuesday, November 24, 2015 at 11:52:11 AM UTC+1, Borneq wrote:
> >> Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie
> >> [...]
> >> synonim.
> >
> > Zamieszczanie cytatów to jeszcze nie plagiat. Nie wiem czy istnieje algorytm
> > który rozpozna cytaty w teksie i odróżni je od plagiatów.
> 
> To nie są programy bezobsługowe, ale narzędzia dla człowieka.
> 
> pzdr
> bartekltg

I tak napisanie wygodnej i skutecznej aplikacji tego typu wydaje się trudne.
Pozdrawiam

[toc] | [prev] | [next] | [standalone]

#28063

From	bartekltg <bartekltg@gmail.com>
Date	2015-11-24 15:14 +0100
Message-ID	<n31rbc$2p4$1@node2.news.atman.pl>
In reply to	#28062

On 24.11.2015 15:07, M.M. wrote:
> On Tuesday, November 24, 2015 at 2:21:50 PM UTC+1, bartekltg wrote:
>> On 24.11.2015 12:17, M.M. wrote:
>>> On Tuesday, November 24, 2015 at 11:52:11 AM UTC+1, Borneq wrote:
>>>> Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie
>>>> [...]
>>>> synonim.
>>>
>>> Zamieszczanie cytatów to jeszcze nie plagiat. Nie wiem czy istnieje algorytm
>>> który rozpozna cytaty w teksie i odróżni je od plagiatów.
>>
>> To nie są programy bezobsługowe, ale narzędzia dla człowieka.
>>
>> pzdr
>> bartekltg
>
> I tak napisanie wygodnej i skutecznej aplikacji tego typu wydaje się trudne.
> Pozdrawiam
>

Chyba przesadzasz. Nauczyciel i tak ma przeczytać tekst.
A tak czytając będzie widział podkreślone fragmenty.
Na czrwono, jak to akapit identyczny z wpisem w bazie,
na żółto, jeśli to tylko dwa zdania...
I sam musi zdecydować czytając, czy to plagiat, cytat,
czy może tylko powszechnie występująca formułka lub sposób
wyrażania.

Pomoc takiego algorytmu jest ogromna, bo zamiast działać na zasadzie
"oj, ten fragment brzmi za mądrze na Jasia, lepiej wpisze go w google",
automatycznie dostaje podpowiedź "to brzmi podejranie podobnie to tego
źródła".

pzdr
bartekltg

[toc] | [prev] | [next] | [standalone]

#28064

From	"M.M." <mmarszik@gmail.com>
Date	2015-11-24 06:36 -0800
Message-ID	<5f8d807a-d974-4e7e-bb00-a5fa6e6fe771@googlegroups.com>
In reply to	#28063

On Tuesday, November 24, 2015 at 3:14:06 PM UTC+1, bartekltg wrote:
> On 24.11.2015 15:07, M.M. wrote:
> [..]
> źródła".
Ja widzę problem już na poziomie konwertowania pdf lub html do ciągu utf8. 
Albo w automatycznym rozpoznawaniu czy to 8859-2 czy win1250. A co dopiero 
z bazą do porównywania. To wszystko (chyba nie tylko moim zdaniem) są
cechy wygodnej aplikacji. Oprzeć coś takiego na googlu? Książek nie
ma w googlach.

Pozdrawiam

[toc] | [prev] | [next] | [standalone]

#28074

From	szemrany <szemrany@offline.off>
Date	2015-11-24 22:54 +0100
Message-ID	<1wa0tv65ixgzn.1p0htztccr7we.dlg@40tude.net>
In reply to	#28064

On Tue, 24 Nov 2015 06:36:56 -0800 (PST), M.M. wrote:

> Ja widzę problem już na poziomie konwertowania pdf lub html do ciągu utf8. 
> Albo w automatycznym rozpoznawaniu czy to 8859-2 czy win1250. A co dopiero 
> z bazą do porównywania. To wszystko (chyba nie tylko moim zdaniem) są
> cechy wygodnej aplikacji. Oprzeć coś takiego na googlu? Książek nie
> ma w googlach.

Archivarius 3000 - rozwala w tym temacie system.

-- 
howgh
szemrany
"Trzeba z żywymi naprzód iść, po życie sięgać nowe,
a nie w uwiędłych laurów liść z uporem stroić głowę"

[toc] | [prev] | [next] | [standalone]

#28065

From	platformowe głupki <NOSPAMtestowanije@go2.pl>
Date	2015-11-24 16:24 +0100
Message-ID	<n31vfi$654$1@node2.news.atman.pl>
In reply to	#28057

ja to się do dziś zastanawiam jak działa linuxowy tool DIFF...

[toc] | [prev] | [next] | [standalone]

#28066

From	"M.M." <mmarszik@gmail.com>
Date	2015-11-24 08:09 -0800
Message-ID	<5b735429-1d01-4898-bc6e-f0ccb7e6c3b7@googlegroups.com>
In reply to	#28065

On Tuesday, November 24, 2015 at 4:24:36 PM UTC+1, platformowe głupki wrote:
> ja to się do dziś zastanawiam jak działa linuxowy tool DIFF...
Inaczej w platformie, inaczej w po.
Pozdrawiam

[toc] | [prev] | [next] | [standalone]

#28068

From	bartekltg <bartekltg@gmail.com>
Date	2015-11-24 17:17 +0100
Message-ID	<n322ir$d23$2@node1.news.atman.pl>
In reply to	#28066

On 24.11.2015 17:09, M.M. wrote:
> On Tuesday, November 24, 2015 at 4:24:36 PM UTC+1, platformowe głupki wrote:
>> ja to się do dziś zastanawiam jak działa linuxowy tool DIFF...

> Inaczej w platformie, inaczej w po.

A PO przeróbkach może być platform-independent?

pzdr
bartekltg

[toc] | [prev] | [next] | [standalone]

#28069

From	"M.M." <mmarszik@gmail.com>
Date	2015-11-24 08:37 -0800
Message-ID	<67497112-c135-42c4-9481-d3cae4b2a249@googlegroups.com>
In reply to	#28068

On Tuesday, November 24, 2015 at 5:17:32 PM UTC+1, bartekltg wrote:
> On 24.11.2015 17:09, M.M. wrote:
> > On Tuesday, November 24, 2015 at 4:24:36 PM UTC+1, platformowe głupki wrote:
> >> ja to się do dziś zastanawiam jak działa linuxowy tool DIFF...
> 
> > Inaczej w platformie, inaczej w po.
> 
> A PO przeróbkach może być platform-independent?
> 

Co to za partia platform-independent? ;-)

A tak ciut poważniej: nigdy nie czytałem dokumentacji do
żadnego diffa. Używam ich w tak prosty sposób, że nie
interesują mnie bebech algorytmiczne, ani opcje. Niemniej
jednak oceniając intuicyjnie, doszedłem do wniosku, że
tak prostym algorytmem jaki przytoczyłeś powyżej, nie da 
się uzyskać takich efektów (jakie widziałem). Może był
użyty z jakimś opcjami, a może to była jakaś wersja z
gita lub innej kontroli wersji.

Pozdrawiam

[toc] | [prev] | [next] | [standalone]

#28083

From	bartekltg <bartekltg@gmail.com>
Date	2015-11-25 00:43 +0100
Message-ID	<n32snt$884$1@node1.news.atman.pl>
In reply to	#28069

On 24.11.2015 17:37, M.M. wrote:
> On Tuesday, November 24, 2015 at 5:17:32 PM UTC+1, bartekltg wrote:
>> On 24.11.2015 17:09, M.M. wrote:
>>> On Tuesday, November 24, 2015 at 4:24:36 PM UTC+1, platformowe głupki wrote:
>>>> ja to się do dziś zastanawiam jak działa linuxowy tool DIFF...
>>
>>> Inaczej w platformie, inaczej w po.
>>
>> A PO przeróbkach może być platform-independent?
>>
>
> Co to za partia platform-independent? ;-)
>
> A tak ciut poważniej: nigdy nie czytałem dokumentacji do
> żadnego diffa. Używam ich w tak prosty sposób, że nie
> interesują mnie bebech algorytmiczne, ani opcje. Niemniej
> jednak oceniając intuicyjnie, doszedłem do wniosku, że
> tak prostym algorytmem jaki przytoczyłeś powyżej, nie da
> się uzyskać takich efektów (jakie widziałem). Może był
> użyty z jakimś opcjami, a może to była jakaś wersja z
> gita lub innej kontroli wersji.

Też myślałem, że robi coś sprytniejszego, ale intenert pisał,
że tylko szuka najlepszego podciągu. Zmajstrowałem więc
dwa małe pliki i test wydaje się to potwierdzać.


$ cat t1
dupa
bar
car
dar
foo
gop
hoo
dupa
$ cat t2
dupa
foo
goo
hoo
bar
car
dar
dupa
$ diff   t1 t2
1a2,4
 > foo
 > goo
 > hoo
5,7d7
< foo
< gop
< hoo

pzdr
bartekltg

[toc] | [prev] | [next] | [standalone]

#28086

From	"M.M." <mmarszik@gmail.com>
Date	2015-11-25 02:45 -0800
Message-ID	<1b707bf0-eb93-4b82-92d3-24d4a3efb3c1@googlegroups.com>
In reply to	#28083

On Wednesday, November 25, 2015 at 12:43:58 AM UTC+1, bartekltg wrote:
> Też myślałem, że robi coś sprytniejszego, ale intenert pisał,
> że tylko szuka najlepszego podciągu. Zmajstrowałem więc
> dwa małe pliki i test wydaje się to potwierdzać.

Może masz rację, może ja nie doceniam możliwości tego prostego
algorytmu. Na pewno wydaje mi się, że w systemach kontroli wersji 
efekt był lepszy. Nie będę się kłócił, ja diffa ostatnio używam
tylko do sprawdzenia czy pliki są identyczne czy nie.

Pozdrawiam

[toc] | [prev] | [next] | [standalone]

#28087

From	"M.M." <mmarszik@gmail.com>
Date	2015-11-25 03:26 -0800
Message-ID	<89e791ae-f925-4340-9d1b-179b888c2858@googlegroups.com>
In reply to	#28083

On Wednesday, November 25, 2015 at 12:43:58 AM UTC+1, bartekltg wrote:
> Też myślałem, że robi coś sprytniejszego, ale intenert pisał,
> że tylko szuka najlepszego podciągu. Zmajstrowałem więc
> dwa małe pliki i test wydaje się to potwierdzać.

Też poszukałem troszkę. Znalazłem, że diff próbuje znaleźć ciąg wierszy, 
który wymaga minimalnej ilości skasowań i/lub insercji, aby odtworzyć 
oryginalny plik - coś w okolicy minimalnej odległości Levenshteina. Czyli 
nie ma żadnej gwarancji że diff ma zaimplementowany NWP. Podobno od
dawna ma zaimplementowany NWP z jakimiś udoskonaleniami.

Pozdrawiam

[toc] | [prev] | [next] | [standalone]

#28088

From	bartekltg <bartekltg@gmail.com>
Date	2015-11-25 13:03 +0100
Message-ID	<n3482k$i7g$1@node1.news.atman.pl>
In reply to	#28087

On 25.11.2015 12:26, M.M. wrote:
> On Wednesday, November 25, 2015 at 12:43:58 AM UTC+1, bartekltg wrote:
>> Też myślałem, że robi coś sprytniejszego, ale intenert pisał,
>> że tylko szuka najlepszego podciągu. Zmajstrowałem więc
>> dwa małe pliki i test wydaje się to potwierdzać.
>
> Też poszukałem troszkę. Znalazłem, że diff próbuje znaleźć ciąg wierszy,
> który wymaga minimalnej ilości skasowań i/lub insercji, aby odtworzyć
> oryginalny plik - coś w okolicy minimalnej odległości Levenshteina.


Przecież dokłądnie to napisałem ;>

> Czyli
> nie ma żadnej gwarancji że diff ma zaimplementowany NWP. Podobno od
> dawna ma zaimplementowany NWP z jakimiś udoskonaleniami.

odległości Levenshteina zakąłda skasowanie/dopisanie/substytucje.
NWP zakłada skasowanie/dopisanie.

Z tego co piszesz to jednak NWP.

Zmodyfikowana odległosć edycyjna (bez podstawienia)
d'(X,Y) =  |X| + |Y| - 2|NWP(X,Y)|

pzdr
bartekltg

[toc] | [prev] | [next] | [standalone]

#28089

From	"M.M." <mmarszik@gmail.com>
Date	2015-11-25 04:19 -0800
Message-ID	<a3e6477a-5ef6-44a1-86de-bbcfe46fddd3@googlegroups.com>
In reply to	#28088

On Wednesday, November 25, 2015 at 1:03:34 PM UTC+1, bartekltg wrote:

> Z tego co piszesz to jednak NWP.
Ja nie wiem, wygooglałem gdzieś w pośpiechu, że ulepszone NWP. Może
masz rację.

Pozdrawiam

[toc] | [prev] | [next] | [standalone]

#28090

From	bartekltg <bartekltg@gmail.com>
Date	2015-11-25 13:28 +0100
Message-ID	<n349gv$jj1$1@node1.news.atman.pl>
In reply to	#28089

On 25.11.2015 13:19, M.M. wrote:
> On Wednesday, November 25, 2015 at 1:03:34 PM UTC+1, bartekltg wrote:
>
>> Z tego co piszesz to jednak NWP.
> Ja nie wiem, wygooglałem gdzieś w pośpiechu, że ulepszone NWP. Może

"O(ND) Difference Algorithm"
Ulepszony algorytm w sensie sposobu obliczenia,
nie tego, co obliczają.

http://www.xmailserver.org/diff2.pdf

pzdr
bartekltg

[toc] | [prev] | [next] | [standalone]

#28091

From	"M.M." <mmarszik@gmail.com>
Date	2015-11-25 04:30 -0800
Message-ID	<73d156df-00b7-4d97-992e-82301824fea2@googlegroups.com>
In reply to	#28090

On Wednesday, November 25, 2015 at 1:28:17 PM UTC+1, bartekltg wrote:
> On 25.11.2015 13:19, M.M. wrote:
> > On Wednesday, November 25, 2015 at 1:03:34 PM UTC+1, bartekltg wrote:
> >
> >> Z tego co piszesz to jednak NWP.
> > Ja nie wiem, wygooglałem gdzieś w pośpiechu, że ulepszone NWP. Może
> 
> "O(ND) Difference Algorithm"
> Ulepszony algorytm w sensie sposobu obliczenia,
> nie tego, co obliczają.
> 
Racja.

[toc] | [prev] | [next] | [standalone]

#28067

From	bartekltg <bartekltg@gmail.com>
Date	2015-11-24 17:16 +0100
Message-ID	<n322gn$d23$1@node1.news.atman.pl>
In reply to	#28065

On 24.11.2015 16:24, platformowe głupki wrote:
> ja to się do dziś zastanawiam jak działa linuxowy tool DIFF...


Linia to symbol.

Szuka najdłuższego wspolnego podciągu.
Reszta to 'zmiany'.

Nie wykrywa więc przeniesienia akapitu jako
_przeniesienia_, ale jako dodanie czegoś i usunięcie
czegoś. Nie rozwodzi się nat tym, że to to samo.

Nie wiem czy git nie robi tego lepiej.

pzdr
bartekltg

[toc] | [prev] | [next] | [standalone]

#28072

From	platformowe głupki <NOSPAMtestowanije@go2.pl>
Date	2015-11-24 20:01 +0100
Message-ID	<n32c5n$jca$1@node2.news.atman.pl>
In reply to	#28067

nadal nie rozumeim jak to działa

[toc] | [prev] | [next] | [standalone]

Page 1 of 2 [1] 2 Next page →

csiph-web

Wykrywanie plagiatów offline

Contents

#28057 — Wykrywanie plagiatów offline

#28060

#28061

#28062

#28063

#28064

#28074

#28065

#28066

#28068

#28069

#28083

#28086

#28087

#28088

#28089

#28090

#28091

#28067

#28072