Groups | Search | Server Info | Keyboard shortcuts | Login | Register [http] [https] [nntp] [nntps]
Groups > pl.comp.programming > #28057 > unrolled thread
| Started by | Borneq <borneq@antyspam.hidden.pl> |
|---|---|
| First post | 2015-11-24 11:52 +0100 |
| Last post | 2015-11-26 19:21 +0100 |
| Articles | 20 on this page of 27 — 5 participants |
Back to article view | Back to pl.comp.programming
Wykrywanie plagiatów offline Borneq <borneq@antyspam.hidden.pl> - 2015-11-24 11:52 +0100
Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-24 03:17 -0800
Re: Wykrywanie plagiatów offline bartekltg <bartekltg@gmail.com> - 2015-11-24 14:21 +0100
Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-24 06:07 -0800
Re: Wykrywanie plagiatów offline bartekltg <bartekltg@gmail.com> - 2015-11-24 15:14 +0100
Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-24 06:36 -0800
Re: Wykrywanie plagiatów offline szemrany <szemrany@offline.off> - 2015-11-24 22:54 +0100
Re: Wykrywanie plagiatów offline platformowe głupki <NOSPAMtestowanije@go2.pl> - 2015-11-24 16:24 +0100
Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-24 08:09 -0800
Re: Wykrywanie plagiatów offline bartekltg <bartekltg@gmail.com> - 2015-11-24 17:17 +0100
Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-24 08:37 -0800
Re: Wykrywanie plagiatów offline bartekltg <bartekltg@gmail.com> - 2015-11-25 00:43 +0100
Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-25 02:45 -0800
Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-25 03:26 -0800
Re: Wykrywanie plagiatów offline bartekltg <bartekltg@gmail.com> - 2015-11-25 13:03 +0100
Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-25 04:19 -0800
Re: Wykrywanie plagiatów offline bartekltg <bartekltg@gmail.com> - 2015-11-25 13:28 +0100
Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-25 04:30 -0800
Re: Wykrywanie plagiatów offline bartekltg <bartekltg@gmail.com> - 2015-11-24 17:16 +0100
Re: Wykrywanie plagiatów offline platformowe głupki <NOSPAMtestowanije@go2.pl> - 2015-11-24 20:01 +0100
Re: Wykrywanie plagiatów offline szemrany <szemrany@offline.off> - 2015-11-24 22:56 +0100
Re: Wykrywanie plagiatów offline "M.M." <mmarszik@gmail.com> - 2015-11-24 14:00 -0800
Re: Wykrywanie plagiatów offline szemrany <szemrany@offline.off> - 2015-11-24 23:06 +0100
Re: Wykrywanie plagiatów offline platformowe głupki <NOSPAMtestowanije@go2.pl> - 2015-11-26 18:20 +0100
Re: Wykrywanie plagiatów offline szemrany <szemrany@offline.off> - 2015-11-26 19:14 +0100
Re: Wykrywanie plagiatów offline platformowe głupki <NOSPAMtestowanije@go2.pl> - 2015-11-26 19:15 +0100
Re: Wykrywanie plagiatów offline platformowe głupki <NOSPAMtestowanije@go2.pl> - 2015-11-26 19:21 +0100
Page 1 of 2 [1] 2 Next page →
| From | Borneq <borneq@antyspam.hidden.pl> |
|---|---|
| Date | 2015-11-24 11:52 +0100 |
| Subject | Wykrywanie plagiatów offline |
| Message-ID | <n31fgq$n0t$1@node2.news.atman.pl> |
Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie dwóch plików : źródłowego i wynikowego, źródłowych może być kilka, zresztą wynikowych też. I ma powiedzieć ile procent z tego jest plagiatu i wskazać te miejsca. Do porównywania tekstów służy najdłuższy wspólny podciąg, ale tutaj jest bezużyteczny. Bo np. mam tekst, dzielę go na 5 bloków (rozdziałów), mieszam ich kolejność i mam wynikowy plik. Detektor powinien w takim wypadku powiedzieć że 100% tekstu jest plagiatem, w jakiś sposób rozpoznając początki i końce bloku. A teraz zmieniam jedno słowo w bloku; nie powinien traktować bloków jako różne ale jako prawie podobne, mógłby też podzielić ten blok na dwa i stwierdzić że skoro bloki 3 i 4 w jednym pliku występują jako 3 i 4 w drugim w tej kolejności to jest to jeden blok z małą zmianą. Ewentualne rozszerzenia to słownik synonimów, ale w języku polskim trudność z uwagi na odmianę słów, zarówno słowo się odmieni jak i jego synonim.
[toc] | [next] | [standalone]
| From | "M.M." <mmarszik@gmail.com> |
|---|---|
| Date | 2015-11-24 03:17 -0800 |
| Message-ID | <01f4724f-0174-4caa-89b1-92c3b094bda6@googlegroups.com> |
| In reply to | #28057 |
On Tuesday, November 24, 2015 at 11:52:11 AM UTC+1, Borneq wrote: > Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie > [...] > synonim. Zamieszczanie cytatów to jeszcze nie plagiat. Nie wiem czy istnieje algorytm który rozpozna cytaty w teksie i odróżni je od plagiatów. Pozdrawiam
[toc] | [prev] | [next] | [standalone]
| From | bartekltg <bartekltg@gmail.com> |
|---|---|
| Date | 2015-11-24 14:21 +0100 |
| Message-ID | <n31o9c$vb0$1@node2.news.atman.pl> |
| In reply to | #28060 |
On 24.11.2015 12:17, M.M. wrote: > On Tuesday, November 24, 2015 at 11:52:11 AM UTC+1, Borneq wrote: >> Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie >> [...] >> synonim. > > Zamieszczanie cytatów to jeszcze nie plagiat. Nie wiem czy istnieje algorytm > który rozpozna cytaty w teksie i odróżni je od plagiatów. To nie są programy bezobsługowe, ale narzędzia dla człowieka. pzdr bartekltg
[toc] | [prev] | [next] | [standalone]
| From | "M.M." <mmarszik@gmail.com> |
|---|---|
| Date | 2015-11-24 06:07 -0800 |
| Message-ID | <a8d22a54-d7ea-4942-89ed-84d7b123f691@googlegroups.com> |
| In reply to | #28061 |
On Tuesday, November 24, 2015 at 2:21:50 PM UTC+1, bartekltg wrote: > On 24.11.2015 12:17, M.M. wrote: > > On Tuesday, November 24, 2015 at 11:52:11 AM UTC+1, Borneq wrote: > >> Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie > >> [...] > >> synonim. > > > > Zamieszczanie cytatów to jeszcze nie plagiat. Nie wiem czy istnieje algorytm > > który rozpozna cytaty w teksie i odróżni je od plagiatów. > > To nie są programy bezobsługowe, ale narzędzia dla człowieka. > > pzdr > bartekltg I tak napisanie wygodnej i skutecznej aplikacji tego typu wydaje się trudne. Pozdrawiam
[toc] | [prev] | [next] | [standalone]
| From | bartekltg <bartekltg@gmail.com> |
|---|---|
| Date | 2015-11-24 15:14 +0100 |
| Message-ID | <n31rbc$2p4$1@node2.news.atman.pl> |
| In reply to | #28062 |
On 24.11.2015 15:07, M.M. wrote: > On Tuesday, November 24, 2015 at 2:21:50 PM UTC+1, bartekltg wrote: >> On 24.11.2015 12:17, M.M. wrote: >>> On Tuesday, November 24, 2015 at 11:52:11 AM UTC+1, Borneq wrote: >>>> Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie >>>> [...] >>>> synonim. >>> >>> Zamieszczanie cytatów to jeszcze nie plagiat. Nie wiem czy istnieje algorytm >>> który rozpozna cytaty w teksie i odróżni je od plagiatów. >> >> To nie są programy bezobsługowe, ale narzędzia dla człowieka. >> >> pzdr >> bartekltg > > I tak napisanie wygodnej i skutecznej aplikacji tego typu wydaje się trudne. > Pozdrawiam > Chyba przesadzasz. Nauczyciel i tak ma przeczytać tekst. A tak czytając będzie widział podkreślone fragmenty. Na czrwono, jak to akapit identyczny z wpisem w bazie, na żółto, jeśli to tylko dwa zdania... I sam musi zdecydować czytając, czy to plagiat, cytat, czy może tylko powszechnie występująca formułka lub sposób wyrażania. Pomoc takiego algorytmu jest ogromna, bo zamiast działać na zasadzie "oj, ten fragment brzmi za mądrze na Jasia, lepiej wpisze go w google", automatycznie dostaje podpowiedź "to brzmi podejranie podobnie to tego źródła". pzdr bartekltg
[toc] | [prev] | [next] | [standalone]
| From | "M.M." <mmarszik@gmail.com> |
|---|---|
| Date | 2015-11-24 06:36 -0800 |
| Message-ID | <5f8d807a-d974-4e7e-bb00-a5fa6e6fe771@googlegroups.com> |
| In reply to | #28063 |
On Tuesday, November 24, 2015 at 3:14:06 PM UTC+1, bartekltg wrote: > On 24.11.2015 15:07, M.M. wrote: > [..] > źródła". Ja widzę problem już na poziomie konwertowania pdf lub html do ciągu utf8. Albo w automatycznym rozpoznawaniu czy to 8859-2 czy win1250. A co dopiero z bazą do porównywania. To wszystko (chyba nie tylko moim zdaniem) są cechy wygodnej aplikacji. Oprzeć coś takiego na googlu? Książek nie ma w googlach. Pozdrawiam
[toc] | [prev] | [next] | [standalone]
| From | szemrany <szemrany@offline.off> |
|---|---|
| Date | 2015-11-24 22:54 +0100 |
| Message-ID | <1wa0tv65ixgzn.1p0htztccr7we.dlg@40tude.net> |
| In reply to | #28064 |
On Tue, 24 Nov 2015 06:36:56 -0800 (PST), M.M. wrote: > Ja widzę problem już na poziomie konwertowania pdf lub html do ciągu utf8. > Albo w automatycznym rozpoznawaniu czy to 8859-2 czy win1250. A co dopiero > z bazą do porównywania. To wszystko (chyba nie tylko moim zdaniem) są > cechy wygodnej aplikacji. Oprzeć coś takiego na googlu? Książek nie > ma w googlach. Archivarius 3000 - rozwala w tym temacie system. -- howgh szemrany "Trzeba z żywymi naprzód iść, po życie sięgać nowe, a nie w uwiędłych laurów liść z uporem stroić głowę"
[toc] | [prev] | [next] | [standalone]
| From | platformowe głupki <NOSPAMtestowanije@go2.pl> |
|---|---|
| Date | 2015-11-24 16:24 +0100 |
| Message-ID | <n31vfi$654$1@node2.news.atman.pl> |
| In reply to | #28057 |
ja to się do dziś zastanawiam jak działa linuxowy tool DIFF...
[toc] | [prev] | [next] | [standalone]
| From | "M.M." <mmarszik@gmail.com> |
|---|---|
| Date | 2015-11-24 08:09 -0800 |
| Message-ID | <5b735429-1d01-4898-bc6e-f0ccb7e6c3b7@googlegroups.com> |
| In reply to | #28065 |
On Tuesday, November 24, 2015 at 4:24:36 PM UTC+1, platformowe głupki wrote: > ja to się do dziś zastanawiam jak działa linuxowy tool DIFF... Inaczej w platformie, inaczej w po. Pozdrawiam
[toc] | [prev] | [next] | [standalone]
| From | bartekltg <bartekltg@gmail.com> |
|---|---|
| Date | 2015-11-24 17:17 +0100 |
| Message-ID | <n322ir$d23$2@node1.news.atman.pl> |
| In reply to | #28066 |
On 24.11.2015 17:09, M.M. wrote: > On Tuesday, November 24, 2015 at 4:24:36 PM UTC+1, platformowe głupki wrote: >> ja to się do dziś zastanawiam jak działa linuxowy tool DIFF... > Inaczej w platformie, inaczej w po. A PO przeróbkach może być platform-independent? pzdr bartekltg
[toc] | [prev] | [next] | [standalone]
| From | "M.M." <mmarszik@gmail.com> |
|---|---|
| Date | 2015-11-24 08:37 -0800 |
| Message-ID | <67497112-c135-42c4-9481-d3cae4b2a249@googlegroups.com> |
| In reply to | #28068 |
On Tuesday, November 24, 2015 at 5:17:32 PM UTC+1, bartekltg wrote: > On 24.11.2015 17:09, M.M. wrote: > > On Tuesday, November 24, 2015 at 4:24:36 PM UTC+1, platformowe głupki wrote: > >> ja to się do dziś zastanawiam jak działa linuxowy tool DIFF... > > > Inaczej w platformie, inaczej w po. > > A PO przeróbkach może być platform-independent? > Co to za partia platform-independent? ;-) A tak ciut poważniej: nigdy nie czytałem dokumentacji do żadnego diffa. Używam ich w tak prosty sposób, że nie interesują mnie bebech algorytmiczne, ani opcje. Niemniej jednak oceniając intuicyjnie, doszedłem do wniosku, że tak prostym algorytmem jaki przytoczyłeś powyżej, nie da się uzyskać takich efektów (jakie widziałem). Może był użyty z jakimś opcjami, a może to była jakaś wersja z gita lub innej kontroli wersji. Pozdrawiam
[toc] | [prev] | [next] | [standalone]
| From | bartekltg <bartekltg@gmail.com> |
|---|---|
| Date | 2015-11-25 00:43 +0100 |
| Message-ID | <n32snt$884$1@node1.news.atman.pl> |
| In reply to | #28069 |
On 24.11.2015 17:37, M.M. wrote: > On Tuesday, November 24, 2015 at 5:17:32 PM UTC+1, bartekltg wrote: >> On 24.11.2015 17:09, M.M. wrote: >>> On Tuesday, November 24, 2015 at 4:24:36 PM UTC+1, platformowe głupki wrote: >>>> ja to się do dziś zastanawiam jak działa linuxowy tool DIFF... >> >>> Inaczej w platformie, inaczej w po. >> >> A PO przeróbkach może być platform-independent? >> > > Co to za partia platform-independent? ;-) > > A tak ciut poważniej: nigdy nie czytałem dokumentacji do > żadnego diffa. Używam ich w tak prosty sposób, że nie > interesują mnie bebech algorytmiczne, ani opcje. Niemniej > jednak oceniając intuicyjnie, doszedłem do wniosku, że > tak prostym algorytmem jaki przytoczyłeś powyżej, nie da > się uzyskać takich efektów (jakie widziałem). Może był > użyty z jakimś opcjami, a może to była jakaś wersja z > gita lub innej kontroli wersji. Też myślałem, że robi coś sprytniejszego, ale intenert pisał, że tylko szuka najlepszego podciągu. Zmajstrowałem więc dwa małe pliki i test wydaje się to potwierdzać. $ cat t1 dupa bar car dar foo gop hoo dupa $ cat t2 dupa foo goo hoo bar car dar dupa $ diff t1 t2 1a2,4 > foo > goo > hoo 5,7d7 < foo < gop < hoo pzdr bartekltg
[toc] | [prev] | [next] | [standalone]
| From | "M.M." <mmarszik@gmail.com> |
|---|---|
| Date | 2015-11-25 02:45 -0800 |
| Message-ID | <1b707bf0-eb93-4b82-92d3-24d4a3efb3c1@googlegroups.com> |
| In reply to | #28083 |
On Wednesday, November 25, 2015 at 12:43:58 AM UTC+1, bartekltg wrote: > Też myślałem, że robi coś sprytniejszego, ale intenert pisał, > że tylko szuka najlepszego podciągu. Zmajstrowałem więc > dwa małe pliki i test wydaje się to potwierdzać. Może masz rację, może ja nie doceniam możliwości tego prostego algorytmu. Na pewno wydaje mi się, że w systemach kontroli wersji efekt był lepszy. Nie będę się kłócił, ja diffa ostatnio używam tylko do sprawdzenia czy pliki są identyczne czy nie. Pozdrawiam
[toc] | [prev] | [next] | [standalone]
| From | "M.M." <mmarszik@gmail.com> |
|---|---|
| Date | 2015-11-25 03:26 -0800 |
| Message-ID | <89e791ae-f925-4340-9d1b-179b888c2858@googlegroups.com> |
| In reply to | #28083 |
On Wednesday, November 25, 2015 at 12:43:58 AM UTC+1, bartekltg wrote: > Też myślałem, że robi coś sprytniejszego, ale intenert pisał, > że tylko szuka najlepszego podciągu. Zmajstrowałem więc > dwa małe pliki i test wydaje się to potwierdzać. Też poszukałem troszkę. Znalazłem, że diff próbuje znaleźć ciąg wierszy, który wymaga minimalnej ilości skasowań i/lub insercji, aby odtworzyć oryginalny plik - coś w okolicy minimalnej odległości Levenshteina. Czyli nie ma żadnej gwarancji że diff ma zaimplementowany NWP. Podobno od dawna ma zaimplementowany NWP z jakimiś udoskonaleniami. Pozdrawiam
[toc] | [prev] | [next] | [standalone]
| From | bartekltg <bartekltg@gmail.com> |
|---|---|
| Date | 2015-11-25 13:03 +0100 |
| Message-ID | <n3482k$i7g$1@node1.news.atman.pl> |
| In reply to | #28087 |
On 25.11.2015 12:26, M.M. wrote: > On Wednesday, November 25, 2015 at 12:43:58 AM UTC+1, bartekltg wrote: >> Też myślałem, że robi coś sprytniejszego, ale intenert pisał, >> że tylko szuka najlepszego podciągu. Zmajstrowałem więc >> dwa małe pliki i test wydaje się to potwierdzać. > > Też poszukałem troszkę. Znalazłem, że diff próbuje znaleźć ciąg wierszy, > który wymaga minimalnej ilości skasowań i/lub insercji, aby odtworzyć > oryginalny plik - coś w okolicy minimalnej odległości Levenshteina. Przecież dokłądnie to napisałem ;> > Czyli > nie ma żadnej gwarancji że diff ma zaimplementowany NWP. Podobno od > dawna ma zaimplementowany NWP z jakimiś udoskonaleniami. odległości Levenshteina zakąłda skasowanie/dopisanie/substytucje. NWP zakłada skasowanie/dopisanie. Z tego co piszesz to jednak NWP. Zmodyfikowana odległosć edycyjna (bez podstawienia) d'(X,Y) = |X| + |Y| - 2|NWP(X,Y)| pzdr bartekltg
[toc] | [prev] | [next] | [standalone]
| From | "M.M." <mmarszik@gmail.com> |
|---|---|
| Date | 2015-11-25 04:19 -0800 |
| Message-ID | <a3e6477a-5ef6-44a1-86de-bbcfe46fddd3@googlegroups.com> |
| In reply to | #28088 |
On Wednesday, November 25, 2015 at 1:03:34 PM UTC+1, bartekltg wrote: > Z tego co piszesz to jednak NWP. Ja nie wiem, wygooglałem gdzieś w pośpiechu, że ulepszone NWP. Może masz rację. Pozdrawiam
[toc] | [prev] | [next] | [standalone]
| From | bartekltg <bartekltg@gmail.com> |
|---|---|
| Date | 2015-11-25 13:28 +0100 |
| Message-ID | <n349gv$jj1$1@node1.news.atman.pl> |
| In reply to | #28089 |
On 25.11.2015 13:19, M.M. wrote: > On Wednesday, November 25, 2015 at 1:03:34 PM UTC+1, bartekltg wrote: > >> Z tego co piszesz to jednak NWP. > Ja nie wiem, wygooglałem gdzieś w pośpiechu, że ulepszone NWP. Może "O(ND) Difference Algorithm" Ulepszony algorytm w sensie sposobu obliczenia, nie tego, co obliczają. http://www.xmailserver.org/diff2.pdf pzdr bartekltg
[toc] | [prev] | [next] | [standalone]
| From | "M.M." <mmarszik@gmail.com> |
|---|---|
| Date | 2015-11-25 04:30 -0800 |
| Message-ID | <73d156df-00b7-4d97-992e-82301824fea2@googlegroups.com> |
| In reply to | #28090 |
On Wednesday, November 25, 2015 at 1:28:17 PM UTC+1, bartekltg wrote: > On 25.11.2015 13:19, M.M. wrote: > > On Wednesday, November 25, 2015 at 1:03:34 PM UTC+1, bartekltg wrote: > > > >> Z tego co piszesz to jednak NWP. > > Ja nie wiem, wygooglałem gdzieś w pośpiechu, że ulepszone NWP. Może > > "O(ND) Difference Algorithm" > Ulepszony algorytm w sensie sposobu obliczenia, > nie tego, co obliczają. > Racja.
[toc] | [prev] | [next] | [standalone]
| From | bartekltg <bartekltg@gmail.com> |
|---|---|
| Date | 2015-11-24 17:16 +0100 |
| Message-ID | <n322gn$d23$1@node1.news.atman.pl> |
| In reply to | #28065 |
On 24.11.2015 16:24, platformowe głupki wrote: > ja to się do dziś zastanawiam jak działa linuxowy tool DIFF... Linia to symbol. Szuka najdłuższego wspolnego podciągu. Reszta to 'zmiany'. Nie wykrywa więc przeniesienia akapitu jako _przeniesienia_, ale jako dodanie czegoś i usunięcie czegoś. Nie rozwodzi się nat tym, że to to samo. Nie wiem czy git nie robi tego lepiej. pzdr bartekltg
[toc] | [prev] | [next] | [standalone]
| From | platformowe głupki <NOSPAMtestowanije@go2.pl> |
|---|---|
| Date | 2015-11-24 20:01 +0100 |
| Message-ID | <n32c5n$jca$1@node2.news.atman.pl> |
| In reply to | #28067 |
nadal nie rozumeim jak to działa
[toc] | [prev] | [next] | [standalone]
Page 1 of 2 [1] 2 Next page →
Back to top | Article view | pl.comp.programming
csiph-web